論文の概要: AI-Instruments: Embodying Prompts as Instruments to Abstract & Reflect Graphical Interface Commands as General-Purpose Tools
- arxiv url: http://arxiv.org/abs/2502.18736v1
- Date: Wed, 26 Feb 2025 01:11:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:56:46.642030
- Title: AI-Instruments: Embodying Prompts as Instruments to Abstract & Reflect Graphical Interface Commands as General-Purpose Tools
- Title(参考訳): AI-Instruments: 汎用ツールとしてのグラフィカルインターフェースコマンドの抽象化とリフレクションのための道具としてプロンプトを具現化
- Authors: Nathalie Riche, Anna Offenwanger, Frederic Gmeiner, David Brown, Hugo Romat, Michel Pahud, Nicolai Marquardt, Kori Inkpen, Ken Hinckley,
- Abstract要約: チャットベースのプロンプトは線形逐次テキストに応答するので、曖昧な意図を探索し、洗練することは困難である。
AIインスツルメンツは,3つの重要な原則を通じて,インターフェースオブジェクトとして"prompts"を具現化している。
- 参考スコア(独自算出の注目度): 22.004677014808458
- License:
- Abstract: Chat-based prompts respond with verbose linear-sequential texts, making it difficult to explore and refine ambiguous intents, back up and reinterpret, or shift directions in creative AI-assisted design work. AI-Instruments instead embody "prompts" as interface objects via three key principles: (1) Reification of user-intent as reusable direct-manipulation instruments; (2) Reflection of multiple interpretations of ambiguous user-intents (Reflection-in-intent) as well as the range of AI-model responses (Reflection-in-response) to inform design "moves" towards a desired result; and (3) Grounding to instantiate an instrument from an example, result, or extrapolation directly from another instrument. Further, AI-Instruments leverage LLM's to suggest, vary, and refine new instruments, enabling a system that goes beyond hard-coded functionality by generating its own instrumental controls from content. We demonstrate four technology probes, applied to image generation, and qualitative insights from twelve participants, showing how AI-Instruments address challenges of intent formulation, steering via direct manipulation, and non-linear iterative workflows to reflect and resolve ambiguous intents.
- Abstract(参考訳): チャットベースのプロンプトは、冗長な線形シーケンステキストで応答し、曖昧な意図を探索し、洗練したり、バックアップして再解釈したり、創造的なAI支援設計作業の方向性を変えるのが難しくなる。
1)再利用可能な直接操作機器としてのユーザインテントの強化,(2)不明瞭なユーザインテント(リフレクション・イン・イン・イン・イン・インテント)の複数解釈の反映,および設計を望ましい結果に向けて"移動"するAIモデル応答(リフレクション・イン・イン・イン・イン・イン・イン・インポンス)の範囲,(3)例,結果から楽器をインスタンス化するためのグラウンディング,の3つの重要な原則によって,インターフェースオブジェクトとして「プロンプト」を具現化している。
さらに、AI-インスツルメンツはLLMを利用して新しいインスツルメンツを提案、変更、洗練し、コンテンツから独自のインストゥルメンタルコントロールを生成することでハードコード機能を超えたシステムを実現する。
我々は、画像生成に適用された4つの技術プローブと12人の参加者からの質的な洞察を示し、AI機器が意図の定式化、直接操作による操舵、不明瞭な意図を反映し解決するための非線形反復ワークフローといった課題にどう対処するかを示した。
関連論文リスト
- Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - SHAPE-IT: Exploring Text-to-Shape-Display for Generative Shape-Changing Behaviors with LLMs [12.235304780960142]
本稿では,自然言語コマンドによるピン型形状変化を動的に生成する新しい手法であるテキスト・トゥ・シェイプ・ディスプレイを提案する。
大規模言語モデル(LLM)とAIチェーンを利用することで、ユーザはプログラミングなしでテキストプロンプトを通じて、要求に応じて形状を変える動作を記述できる。
論文 参考訳(メタデータ) (2024-09-10T04:18:49Z) - NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - Answer is All You Need: Instruction-following Text Embedding via
Answering the Question [41.727700155498546]
本稿では、入力テキストに関する質問として命令を扱い、予測された回答を符号化して表現を得る新しい視点を提供する。
具体的には,抽象的質問応答タスクの言語モデルのみを微調整することで,この組込み解答のアイデアをインスタンス化するInBedderを提案する。
論文 参考訳(メタデータ) (2024-02-15T01:02:41Z) - Interactive AI Alignment: Specification, Process, and Evaluation Alignment [30.599781014726823]
現代のAIは、ハイレベルで宣言的なインタラクションの形式を可能にする。
ユーザは、AIが生成したいと望む意図した結果を記述するが、実際には結果自体を作らない。
論文 参考訳(メタデータ) (2023-10-23T14:33:11Z) - I3: Intent-Introspective Retrieval Conditioned on Instructions [83.91776238599824]
I3は,タスク固有の訓練を使わずに,インストラクションに条件付けられた様々なタスクに対して,インテント・イントロスペクティブ検索を行う統合検索システムである。
I3は、特定の検索意図を理解するために、パラメータ分離された方法でプラグ可能なイントロスペクタを組み込む。
LLM生成データを利用してI3フェーズ・バイ・フェイズを訓練し、プログレッシブ・ストラクチャー・プルーニングとドローバック・ベースのデータリファインメントという2つの重要な設計を具現化した。
論文 参考訳(メタデータ) (2023-08-19T14:17:57Z) - $A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting
Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。
通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。
これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文 参考訳(メタデータ) (2023-08-15T19:01:19Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - CARTIER: Cartographic lAnguage Reasoning Targeted at Instruction
Execution for Robots [9.393951367344894]
本研究は、空間計画とナビゲーションのための自然言語インタフェースの交わりにおける問題に対処する大規模言語モデルの能力について考察する。
我々は、ロボット工学で一般的に見られる従来の明示的な手続き的指示よりも、自然な会話に近い複雑な指示に従うことに重点を置いている。
我々は3DシミュレータAI2Thorを利用して、大規模な家庭用クエリシナリオを作成し、40のオブジェクトタイプに対して複雑な言語クエリを追加することで拡張する。
論文 参考訳(メタデータ) (2023-07-21T19:09:37Z) - ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts [92.92047324641622]
視覚言語ナビゲーション(VLN)のためのmodAlity-aligneD Action PrompT(ADAPT)を提案する。
ADAPTは、アクションレベルのモダリティアライメントの明示的な学習を可能にするために、アクションプロンプトをVLNエージェントに提供する。
R2RとRxRの両方の実験結果は、最先端手法よりもADAPTの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-05-31T02:41:31Z) - Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。
本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。
これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文 参考訳(メタデータ) (2020-07-29T06:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。