論文の概要: Inner Speech as Behavior Guides: Steerable Imitation of Diverse Behaviors for Human-AI coordination
- arxiv url: http://arxiv.org/abs/2602.20517v1
- Date: Tue, 24 Feb 2026 03:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.593426
- Title: Inner Speech as Behavior Guides: Steerable Imitation of Diverse Behaviors for Human-AI coordination
- Title(参考訳): 行動ガイドとしての内的音声:人間とAIの協調のための多様な行動のステアブルな模倣
- Authors: Rakshit Trivedi, Kartik Sharma, David C Parkes,
- Abstract要約: 模倣学習は、そのようなエージェントを構築するための顕著なアプローチの1つとして現れてきた。
行動意図の内部表現として言語を用いるフレームワークMIMICを提案する。
MIMICは、エージェントを行動特化音声に条件付けすることで、推論時の行動のきめ細かいステアリングを可能にする。
- 参考スコア(独自算出の注目度): 21.33828337975933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective human-AI coordination requires artificial agents capable of exhibiting and responding to human-like behaviors while adapting to changing contexts. Imitation learning has emerged as one of the prominent approaches to build such agents by training them to mimic human-demonstrated behaviors. However, current methods struggle to capture the inherent diversity and non-Markovian nature of human behavior and lack the ability to steer behavior at inference time. Drawing inspiration from the theory of human cognitive processes, where inner speech guides action selection before execution, we propose MIMIC (Modeling Inner Motivations for Imitation and Control), a framework that uses language as an internal representation of behavioral intent. MIMIC employs the novel use of vision-language models as linguistic scaffolding to train a conditional variational autoencoder capable of generating inner speech from observations. A diffusion-based behavior cloning policy then selects actions conditioned on current observations and the generated inner speech. MIMIC enables fine-grained steering of behavior at inference time by conditioning the agent on behavior-specific speech. Experiments across robotic manipulation tasks and human-AI collaboration games demonstrate that MIMIC significantly enhances both behavior diversity and fidelity to human demonstrations while enabling nuanced behavioral steering without training on additional demonstrations. We open source our code and provide pre-trained MIMIC agents and qualitative demos at: https://mimic-research.github.io.
- Abstract(参考訳): 効果的な人間とAIの協調には、文脈の変化に適応しながら人間のような行動を示し、反応することができる人工エージェントが必要である。
模倣学習は、人間の実証的な振る舞いを模倣するように訓練することで、そのようなエージェントを構築するための顕著なアプローチの1つとして現れてきた。
しかし、現在の手法では、人間の行動の固有の多様性と非マルコフ的な性質を捉えるのに苦労し、推論時に行動を操る能力が欠如している。
人間の認知過程の理論からインスピレーションを得た内的音声は,行動意図の内的表現として言語を用いるMIMIC(Modeling Inner Motivations for Imitation and Control)を提案する。
MIMICは、内部音声を観測から生成できる条件付き変分オートエンコーダを訓練するために、言語的な足場として視覚言語モデルを用いる。
拡散に基づく行動クローニングポリシは、現在の観測と生成された内部音声に条件付けられた動作を選択する。
MIMICは、エージェントを行動特化音声に条件付けすることで、推論時の行動のきめ細かいステアリングを可能にする。
ロボット操作タスクと人間とAIのコラボレーションゲームによる実験では、MIMICは人間のデモンストレーションに対する行動の多様性と忠実さの両方を著しく向上し、追加のデモンストレーションでトレーニングすることなく、微妙な行動ステアリングを可能にしている。
私たちは私たちのコードをオープンソースにして、事前訓練されたMIMICエージェントと定性的なデモを提供しています。
関連論文リスト
- HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns [59.17423586203706]
本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
12,000の学術論文から244のパターンを構築し、2-5のパターンが相互に強化、衝突、変調されるシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個々のパターンの忠実度と創発的なマルチパターンのダイナミクスを評価し、強い人間のアライメントを達成する。
論文 参考訳(メタデータ) (2026-01-15T08:56:53Z) - Continuous Vision-Language-Action Co-Learning with Semantic-Physical Alignment for Behavioral Cloning [22.14625208769185]
我々は、時間的に一貫した実行ときめ細かなセマンティックグラウンドを確実にする新しいBCフレームワークである、セマンティック・フィジカルアライメント(CCoL)を用いた連続視覚-言語-アクション協調学習(Continuous Vision- Language-action Co-Learning)を提案する。
CCoLは3つのシミュレーションスイートで平均8.0%の相対的な改善を達成し、人為的なバイマニュアル挿入タスクでは19.2%の相対的な向上を達成している。
論文 参考訳(メタデータ) (2025-11-18T12:01:06Z) - Behavioral Exploration: Learning to Explore via In-Context Adaptation [53.92981562916783]
我々は、過去の観察の文脈で条件付けられた専門家の行動を予測し、専門家の行動がこの文脈とどのように関係しているかを測定するために、長期コンテキスト生成モデルを訓練する。
これにより、モデルが専門家の振る舞いを模倣するだけでなく、過去の相互作用の歴史を文脈に反映することで、これまで選択されたものと異なる専門家の振る舞いを選択することができる。
本手法は実環境におけるロボット操作作業だけでなく,シミュレーションロコモーションと操作設定の両方において有効であることを示す。
論文 参考訳(メタデータ) (2025-07-11T21:36:19Z) - Pragmatic Embodied Spoken Instruction Following in Human-Robot Collaboration with Theory of Mind [51.45478233267092]
認知にインスパイアされたニューロシンボリックモデルであるスポークインストラクション(Spken Instruction following through Theory of Mind, SIFToM)を提案する。
SIFToMはモデルに基づくメンタル推論を備えたビジョンランゲージモデルを使用して、多様な音声条件下でロボットが現実的に人間の指示に従うことを可能にする。
その結果、SIFToMは、軽量ベースVLM(Gemini 2.5 Flash)の性能を大幅に向上し、最先端のVLM(Gemini 2.5 Pro)より優れ、タスク後の音声指示に挑戦する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - AMII: Adaptive Multimodal Inter-personal and Intra-personal Model for
Adapted Behavior Synthesis [6.021787236982659]
ソーシャル・インタラクティブ・エージェント(Socially Interactive Agents, SIAs)は、人間のマルチモーダル行動と同様の振る舞いを示す物理的または仮想的なエンボディエージェントである。
ユーザと対話し、話者やリスナーとして行動しながら、SIAに対して適応的な顔ジェスチャーを合成する新しいアプローチであるAMIIを提案する。
論文 参考訳(メタデータ) (2023-05-18T21:22:07Z) - Language-Conditioned Imitation Learning for Robot Manipulation Tasks [39.40937105264774]
本研究では,非構造化自然言語を模倣学習に組み込む手法を提案する。
訓練時には、専門家は、基礎となる意図を説明するために、言語記述とともにデモンストレーションを行うことができる。
トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。
結果として得られた言語条件のvisuomotorポリシーは、実行時に新しいヒューマンコマンドと命令で条件付けできる。
論文 参考訳(メタデータ) (2020-10-22T21:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。