Fugu-MT 論文翻訳(概要): AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation

論文の概要: AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation

arxiv url: http://arxiv.org/abs/2406.11548v4
Date: Tue, 15 Oct 2024 10:41:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.737614
Title: AIC MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation
Title（参考訳）: AIC MLLM:ロバストロボットマニピュレーションのための自律的対話的補正MLLM
Authors: Chuyan Xiong, Chengyu Shen, Xiaoqi Li, Kaichen Zhou, Jiaming Liu, Ruiping Wang, Hao Dong,
Abstract要約: ロボットシステムにとって、失敗を反映し修正する能力は、現実の物体と安定して相互作用することが不可欠である。従来のアプローチでは,マルチモーダル大規模言語モデルを用いてロボットシステムを強化することを目的としていた。本稿では,従来の低レベルの対話体験を利用して,音声オブジェクトのSE(3)ポーズの予測を補正する自律的対話補正(AIC)MLLMを提案する。
参考スコア（独自算出の注目度）: 15.686553204737153
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability to reflect on and correct failures is crucial for robotic systems to interact stably with real-life objects.Observing the generalization and reasoning capabilities of Multimodal Large Language Models (MLLMs), previous approaches have aimed to utilize these models to enhance robotic systems accordingly.However, these methods typically focus on high-level planning corrections using an additional MLLM, with limited utilization of failed samples to correct low-level contact poses which is particularly prone to occur during articulated object manipulation.To address this gap, we propose an Autonomous Interactive Correction (AIC) MLLM, which makes use of previous low-level interaction experiences to correct SE(3) pose predictions for articulated object. Specifically, AIC MLLM is initially fine-tuned to acquire both pose prediction and feedback prompt comprehension abilities.We design two types of prompt instructions for interactions with objects: 1) visual masks to highlight unmovable parts for position correction, and 2) textual descriptions to indicate potential directions for rotation correction. During inference, a Feedback Information Extraction module is introduced to recognize the failure cause, allowing AIC MLLM to adaptively correct the pose prediction using the corresponding prompts.To further enhance manipulation stability, we devise a Test Time Adaptation strategy that enables AIC MLLM to better adapt to the current scene configuration.Finally, extensive experiments are conducted in both simulated and real-world environments to evaluate the proposed method. The results demonstrate that our AIC MLLM can efficiently correct failure samples by leveraging interaction experience prompts.Our project website is https://sites.google.com/view/aic-mllm.
Abstract（参考訳）: ロボットシステムが現実の物体と安定して相互作用する能力は重要である。従来のマルチモーダル大規模言語モデル(MLLM)の一般化と推論能力を観察する上で、これらの手法はロボットシステムを強化するためにこれらのモデルを活用することを目的としている。しかし、これらの手法は、通常、追加のMLLMを用いた高レベル計画修正に焦点をあてている。具体的には、AIC MLLMは、まず、ポーズ予測とフィードバックによる理解能力の両方を取得するように微調整され、オブジェクトとのインタラクションのための2種類のプロンプト命令を設計する。 1)移動不能な位置補正部品をハイライトする視覚マスク 2) 回転補正の潜在的な方向を示すテキスト記述。そこで本研究では,AIC MLLMが実際のシーン構成に適応可能なテスト時間適応戦略を考案し,シミュレーション環境と実環境の両方で広範な実験を行い,提案手法の評価を行った。その結果,AIC MLLMはインタラクションエクスペリエンスのプロンプトを活用することで,障害サンプルを効率よく修正できることが示され,プロジェクトWebサイトはhttps://sites.google.com/view/aic-mllmである。

関連論文リスト

Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。 ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文参考訳（メタデータ） (2025-10-11T18:11:09Z)
MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering [36.80441487363007]
MLLMEraserは、テスト時間アンラーニングのための入力対応、トレーニング不要のフレームワークである。逆摂動型知識-リコール画像-テキストペアを対比してマルチモーダル消去方向を構築する。 LLaVA-1.5とQwen-2.5-VLの実験では、MLLMEraserは最先端MLLMの未学習ベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2025-10-05T14:20:17Z)
MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。 MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文参考訳（メタデータ） (2025-05-24T11:49:31Z)
The Coherence Trap: When MLLM-Crafted Narratives Exploit Manipulated Visual Contexts [17.31556625041178]
マルチメディア操作は、AIが生成した偽情報と戦う上で重要な課題として浮上した。本稿では,MLLMが高リスク情報を生成するための新しい対向パイプラインを提案する。 MLLMフレームワークを用いたアーチファクト対応マニピュレーション診断について述べる。
論文参考訳（メタデータ） (2025-05-23T04:58:27Z)
Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation [89.5123417007126]
空間的行動空間をLMM(Large Multimodal Models)に理解させる方法について述べる。また,これらの課題を解決する上で,LMMの推論能力を完全に活用する方法を示す。その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、3つの顕著な利点を示しています。
論文参考訳（メタデータ） (2025-05-19T06:00:14Z)
Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction [10.38090975412416]
ロボットが障害から回復するためには、一般化可能な自己補正システムの構築が不可欠である。我々は,高レベルな意味的反射と低レベルなロボット動作補正を接続するブリッジとして動作指示を利用するPhoenixフレームワークを構築した。 RoboMimicシミュレーションと実世界のシナリオの両方で実施された実験は、我々のフレームワークのより優れた一般化とロバスト性を証明する。
論文参考訳（メタデータ） (2025-04-20T12:30:43Z)
Intent Detection in the Age of LLMs [3.755082744150185]
インテント検出はタスク指向対話システム(TODS)の重要な構成要素である従来のアプローチは、計算効率の良い教師付き文変換器エンコーダモデルに依存していた。固有の世界知識を持つ生成的大言語モデル(LLM)の出現は、これらの課題に対処する新たな機会を提供する。
論文参考訳（メタデータ） (2024-10-02T15:01:55Z)
RETAIN: Interactive Tool for Regression Testing Guided LLM Migration [8.378294455013284]
RETAIN(Regression Testing Guided LLM migrAtIoN)は、LLMマイグレーションにおける回帰テスト用に明示的に設計されたツールである。自動評価と経験的ユーザスタディにより、RETAINは手動による評価と比較して、参加者が2倍のエラーを識別し、75%以上のプロンプトで実験し、与えられた時間枠で12%高いスコアを得ることができた。
論文参考訳（メタデータ） (2024-09-05T22:22:57Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。 VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文参考訳（メタデータ） (2024-06-06T17:59:56Z)
Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation [30.54275273155153]
MLLM (Multimodal Large Language Models) は、視覚的指示において有望であることを示す。自己補正(SC)-MLLMを導入し、エンドエフェクタのポーズを予測するだけでなく、障害行動の自律的認識と修正も行う。 SC-MLLMは従来の最先端ロボットMLLM(ManipLLM)と比較して操作精度を著しく向上させる
論文参考訳（メタデータ） (2024-05-27T17:58:48Z)
The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。 LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:07:32Z)
Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文参考訳（メタデータ） (2024-02-03T09:48:54Z)
ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation [22.071450379253235]
MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
論文参考訳（メタデータ） (2023-12-24T06:38:11Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
Adapting LLMs for Efficient, Personalized Information Retrieval: Methods and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文参考訳（メタデータ） (2023-11-21T02:01:01Z)
HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving [44.06475712570428]
HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
論文参考訳（メタデータ） (2023-09-11T01:24:13Z)
Unlocking the Potential of User Feedback: Leveraging Large Language Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文参考訳（メタデータ） (2023-06-16T13:04:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。