Fugu-MT 論文翻訳(概要): Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents

論文の概要: Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents

arxiv url: http://arxiv.org/abs/2410.14141v1
Date: Fri, 18 Oct 2024 03:26:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.295724
Title: Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents
Title（参考訳）: エージェントの能動的学習によるコヒーレンス駆動型マルチモーダル安全対話
Authors: Sabit Hassan, Hye-Young Chung, Xiang Zhi Tan, Malihe Alikhani,
Abstract要約: M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
参考スコア（独自算出の注目度）: 23.960719833886984
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When assisting people in daily tasks, robots need to accurately interpret visual cues and respond effectively in diverse safety-critical situations, such as sharp objects on the floor. In this context, we present M-CoDAL, a multimodal-dialogue system specifically designed for embodied agents to better understand and communicate in safety-critical situations. The system leverages discourse coherence relations to enhance its contextual understanding and communication abilities. To train this system, we introduce a novel clustering-based active learning mechanism that utilizes an external Large Language Model (LLM) to identify informative instances. Our approach is evaluated using a newly created multimodal dataset comprising 1K safety violations extracted from 2K Reddit images. These violations are annotated using a Large Multimodal Model (LMM) and verified by human annotators. Results with this dataset demonstrate that our approach improves resolution of safety situations, user sentiment, as well as safety of the conversation. Next, we deploy our dialogue system on a Hello Robot Stretch robot and conduct a within-subject user study with real-world participants. In the study, participants role-play two safety scenarios with different levels of severity with the robot and receive interventions from our model and a baseline system powered by OpenAI's ChatGPT. The study results corroborate and extend the findings from automated evaluation, showing that our proposed system is more persuasive and competent in a real-world embodied agent setting.
Abstract（参考訳）: 日常の作業で人を助ける場合、ロボットは視覚的手がかりを正確に解釈し、床の鋭い物体など、さまざまな安全クリティカルな状況で効果的に対応する必要がある。本稿では,M-CoDALというマルチモーダル対話システムについて述べる。このシステムは、会話のコヒーレンス関係を利用して、文脈的理解とコミュニケーション能力を高める。このシステムを学習するために,外部大規模言語モデル(LLM)を用いたクラスタリングに基づく能動的学習機構を導入する。提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。これらの違反はLMM(Large Multimodal Model)を用いてアノテートされ、人間のアノテータによって検証される。このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。次に,我々の対話システムをHello Robot Stretchロボット上に展開し,実世界の参加者と対話実験を行う。本研究では,被験者がロボットと重度の異なる2つの安全シナリオをロールプレイし,我々のモデルとOpenAIのChatGPTを利用したベースラインシステムから介入を受ける。その結果,本システムは実環境において,より説得力があり,有能であることが明らかとなった。

関連論文リスト

Multiagent Reinforcement Learning with Neighbor Action Estimation [5.226225544973531]
本稿では,エージェントの振る舞いを推論するための行動推定ニューラルネットワークを用いたマルチエージェント強化学習フレームワークを提案する。工学的応用レベルでは、このフレームワークはデュアルアームロボット操作タスクで実装され、検証されている。
論文参考訳（メタデータ） (2026-01-08T02:26:57Z)
UniConv: Unifying Retrieval and Response Generation for Large Language Models in Conversations [71.79210031338464]
会話における大規模言語モデルに対する高密度検索と応答生成の統一方法を示す。目的の異なる共同微調整を行い、不整合リスクを低減するための2つのメカニズムを設計する。 5つの対話型検索データセットの評価は、我々の統合モデルがタスクを相互に改善し、既存のベースラインより優れていることを示す。
論文参考訳（メタデータ） (2025-07-09T17:02:40Z)
An Outlook on the Opportunities and Challenges of Multi-Agent AI Systems [40.53603737069306]
マルチエージェントAIシステム(MAS)は、内部生成モデルに基づいて対話、情報交換、意思決定を行う複数の自律エージェントで構成されている。本稿では,MASを解析するための形式的枠組みについて概説する。
論文参考訳（メタデータ） (2025-05-23T22:05:19Z)
Understanding Learner-LLM Chatbot Interactions and the Impact of Prompting Guidelines [9.834055425277874]
本研究は,学習者とAIの相互作用を,参加者が効果的なプロンプトの構造化指導を受ける教育実験を通して調査する。ユーザの行動を評価し,有効性を促進するために,107人のユーザから642のインタラクションのデータセットを解析した。我々の研究は、ユーザーが大規模言語モデルとどのように関わり、AI支援コミュニケーションを強化するための構造化された指導の役割についてより深く理解している。
論文参考訳（メタデータ） (2025-04-10T15:20:43Z)
Enhancing Explainability with Multimodal Context Representations for Smarter Robots [0.0]
人間とロボットのインタラクションの鍵となる問題は、ロボットが音声や視覚などのマルチモーダル入力を効果的に知覚し、推論できるようにすることである。本稿では,言語と視覚の融合を改善するために,コンテキスト表現のための汎用的で説明可能なマルチモーダルフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-28T13:36:47Z)
Refining Input Guardrails: Enhancing LLM-as-a-Judge Efficiency Through Chain-of-Thought Fine-Tuning and Alignment [2.9775785740619254]
大きな言語モデル(LLM)は、会話型AI製品など、さまざまなアプリケーションで価値のある機能を示す。悪意のあるユーザインタラクションに対する脆弱性を軽減することで、これらの製品のセキュリティと信頼性を確保することが最重要である。入力モデレーションガードレールとして機能する異なるLDMの微調整およびCoT応答の調整の有効性について検討した。
論文参考訳（メタデータ） (2025-01-22T18:40:57Z)
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。 ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-11-25T04:17:24Z)
Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文参考訳（メタデータ） (2024-10-08T20:46:39Z)
HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.42274173122328]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文参考訳（メタデータ） (2024-09-24T19:47:21Z)
A Study on Prompt Injection Attack Against LLM-Integrated Mobile Robotic Systems [4.71242457111104]
大規模言語モデル(LLM)はマルチモーダルプロンプトを処理でき、よりコンテキスト対応の応答を生成することができる。主な懸念事項の1つは、ロボットナビゲーションタスクでLLMを使用する際の潜在的なセキュリティリスクである。本研究は,LPM統合システムにおける即時注入が移動ロボットの性能に及ぼす影響について検討する。
論文参考訳（メタデータ） (2024-08-07T02:48:22Z)
An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文参考訳（メタデータ） (2024-02-08T18:58:02Z)
A Survey on Context-Aware Multi-Agent Systems: Techniques, Challenges and Future Directions [1.1458366773578277]
自律型エージェントに対する研究の関心が高まっている。課題は、これらのエージェントが動的環境における不確実性を学び、推論し、ナビゲートできるようにすることである。コンテキスト認識は、マルチエージェントシステムの強化において重要な要素として現れる。
論文参考訳（メタデータ） (2024-02-03T00:27:22Z)
Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。 LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文参考訳（メタデータ） (2023-11-28T03:13:09Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文参考訳（メタデータ） (2021-11-23T10:53:29Z)
Open-Ended Multi-Modal Relational Reasoning for Video Question Answering [1.8699569122464073]
このエージェントの主な焦点は、ビデオベースのシーン内で言語ベースのインタラクションを使用する個人を支援することである。提案手法は,ロボットエージェント内にビデオ認識技術と自然言語処理モデルを統合する。
論文参考訳（メタデータ） (2020-12-01T20:49:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。