論文の概要: ACE, Action and Control via Explanations: A Proposal for LLMs to Provide Human-Centered Explainability for Multimodal AI Assistants
- arxiv url: http://arxiv.org/abs/2503.16466v1
- Date: Thu, 27 Feb 2025 19:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-30 08:57:22.114507
- Title: ACE, Action and Control via Explanations: A Proposal for LLMs to Provide Human-Centered Explainability for Multimodal AI Assistants
- Title(参考訳): ACE, Action and Control by Explanations:マルチモーダルAIアシスタントのための人間中心の説明可能性を提供するLLMの提案
- Authors: Elizabeth Anne Watkins, Emanuel Moss, Ramesh Manuvinakurike, Meng Shi, Richard Beckwith, Giuseppe Raffa,
- Abstract要約: 製造分野における人為的パフォーマンス支援のためのマルチモーダルAIシステム構築に関わる課題に対処する。
我々は,LLMが人間の解釈可能な「意味的フレーム」の形で説明を作成できることを示唆している。
これにより、人間とAIシステムが協力し、より正確な人間の活動と行動のモデルを構築するのに役立つ。
- 参考スコア(独自算出の注目度): 3.534264436812217
- License:
- Abstract: In this short paper we address issues related to building multimodal AI systems for human performance support in manufacturing domains. We make two contributions: we first identify challenges of participatory design and training of such systems, and secondly, to address such challenges, we propose the ACE paradigm: "Action and Control via Explanations". Specifically, we suggest that LLMs can be used to produce explanations in the form of human interpretable "semantic frames", which in turn enable end users to provide data the AI system needs to align its multimodal models and representations, including computer vision, automatic speech recognition, and document inputs. ACE, by using LLMs to "explain" using semantic frames, will help the human and the AI system to collaborate, together building a more accurate model of humans activities and behaviors, and ultimately more accurate predictive outputs for better task support, and better outcomes for human users performing manual tasks.
- Abstract(参考訳): 本稿では,製造分野におけるヒューマンパフォーマンス支援のためのマルチモーダルAIシステム構築に関わる課題について述べる。
我々はまず、このようなシステムの参加型設計とトレーニングの課題を特定し、次に、このような課題に対処するため、ACEパラダイムである「説明による行動と制御」を提案する。
具体的には、LLMが人間の解釈可能な「意味的フレーム」の形で説明を作成することができることを示唆する。これにより、エンドユーザーは、コンピュータビジョン、自動音声認識、文書入力を含む、AIシステムがマルチモーダルモデルと表現を調整する必要があるデータを提供することができる。
ACEは、LLMを使用してセマンティックフレームを"説明"することにより、人間とAIシステムが協力し、人間の活動と行動のより正確なモデルを構築し、究極的には、より良いタスクサポートのためのより正確な予測アウトプットを構築し、人間の手作業実行のためのより良い結果をもたらす。
関連論文リスト
- Constraining Participation: Affordances of Feedback Features in Interfaces to Large Language Models [49.74265453289855]
大規模言語モデル(LLM)は、コンピュータ、Webブラウザ、ブラウザベースのインターフェースによるインターネット接続を持つ人なら誰でも利用できるようになった。
本稿では,ChatGPTインタフェースにおける対話型フィードバック機能の可能性について検討し,ユーザ入力の形状やイテレーションへの参加について分析する。
論文 参考訳(メタデータ) (2024-08-27T13:50:37Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - Solving Dialogue Grounding Embodied Task in a Simulated Environment
using Further Masked Language Modeling [0.0]
提案手法は,言語モデルを用いたSOTA(State-of-the-art)手法によるタスク理解を強化するために,言語モデリングを用いる。
実験の結果,提案手法が優れていることを示す証拠が得られた。
論文 参考訳(メタデータ) (2023-06-21T17:17:09Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - One-way Explainability Isn't The Message [2.618757282404254]
この文脈における人間と機械の両方の要件は、かなり異なると我々は主張する。
このようなヒューマン・マシン・システムの設計は、情報の2方向の繰り返しの可視性によって駆動されるべきである。
我々は、協調的な意思決定支援システムの設計を導くために、運用原則、すなわち、知性公理(Intelligibility Axioms)を提案します。
論文 参考訳(メタデータ) (2022-05-05T09:15:53Z) - Explainability via Responsibility [0.9645196221785693]
本稿では,特定のトレーニングインスタンスをユーザに提供する,説明可能な人工知能へのアプローチを提案する。
我々は、AIエージェントの動作の説明を人間のユーザに提供する能力を近似することで、このアプローチを評価する。
論文 参考訳(メタデータ) (2020-10-04T20:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。