論文の概要: Inner Speech as Behavior Guides: Steerable Imitation of Diverse Behaviors for Human-AI coordination
- arxiv url: http://arxiv.org/abs/2602.20517v1
- Date: Tue, 24 Feb 2026 03:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.593426
- Title: Inner Speech as Behavior Guides: Steerable Imitation of Diverse Behaviors for Human-AI coordination
- Title(参考訳): 行動ガイドとしての内的音声:人間とAIの協調のための多様な行動のステアブルな模倣
- Authors: Rakshit Trivedi, Kartik Sharma, David C Parkes,
- Abstract要約: 模倣学習は、そのようなエージェントを構築するための顕著なアプローチの1つとして現れてきた。
行動意図の内部表現として言語を用いるフレームワークMIMICを提案する。
MIMICは、エージェントを行動特化音声に条件付けすることで、推論時の行動のきめ細かいステアリングを可能にする。
- 参考スコア(独自算出の注目度): 21.33828337975933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective human-AI coordination requires artificial agents capable of exhibiting and responding to human-like behaviors while adapting to changing contexts. Imitation learning has emerged as one of the prominent approaches to build such agents by training them to mimic human-demonstrated behaviors. However, current methods struggle to capture the inherent diversity and non-Markovian nature of human behavior and lack the ability to steer behavior at inference time. Drawing inspiration from the theory of human cognitive processes, where inner speech guides action selection before execution, we propose MIMIC (Modeling Inner Motivations for Imitation and Control), a framework that uses language as an internal representation of behavioral intent. MIMIC employs the novel use of vision-language models as linguistic scaffolding to train a conditional variational autoencoder capable of generating inner speech from observations. A diffusion-based behavior cloning policy then selects actions conditioned on current observations and the generated inner speech. MIMIC enables fine-grained steering of behavior at inference time by conditioning the agent on behavior-specific speech. Experiments across robotic manipulation tasks and human-AI collaboration games demonstrate that MIMIC significantly enhances both behavior diversity and fidelity to human demonstrations while enabling nuanced behavioral steering without training on additional demonstrations. We open source our code and provide pre-trained MIMIC agents and qualitative demos at: https://mimic-research.github.io.
- Abstract(参考訳): 効果的な人間とAIの協調には、文脈の変化に適応しながら人間のような行動を示し、反応することができる人工エージェントが必要である。
模倣学習は、人間の実証的な振る舞いを模倣するように訓練することで、そのようなエージェントを構築するための顕著なアプローチの1つとして現れてきた。
しかし、現在の手法では、人間の行動の固有の多様性と非マルコフ的な性質を捉えるのに苦労し、推論時に行動を操る能力が欠如している。
人間の認知過程の理論からインスピレーションを得た内的音声は,行動意図の内的表現として言語を用いるMIMIC(Modeling Inner Motivations for Imitation and Control)を提案する。
MIMICは、内部音声を観測から生成できる条件付き変分オートエンコーダを訓練するために、言語的な足場として視覚言語モデルを用いる。
拡散に基づく行動クローニングポリシは、現在の観測と生成された内部音声に条件付けられた動作を選択する。
MIMICは、エージェントを行動特化音声に条件付けすることで、推論時の行動のきめ細かいステアリングを可能にする。
ロボット操作タスクと人間とAIのコラボレーションゲームによる実験では、MIMICは人間のデモンストレーションに対する行動の多様性と忠実さの両方を著しく向上し、追加のデモンストレーションでトレーニングすることなく、微妙な行動ステアリングを可能にしている。
私たちは私たちのコードをオープンソースにして、事前訓練されたMIMICエージェントと定性的なデモを提供しています。
関連論文リスト
- Pragmatic Embodied Spoken Instruction Following in Human-Robot Collaboration with Theory of Mind [51.45478233267092]
認知にインスパイアされたニューロシンボリックモデルであるスポークインストラクション(Spken Instruction following through Theory of Mind, SIFToM)を提案する。
SIFToMはモデルに基づくメンタル推論を備えたビジョンランゲージモデルを使用して、多様な音声条件下でロボットが現実的に人間の指示に従うことを可能にする。
その結果、SIFToMは、軽量ベースVLM(Gemini 2.5 Flash)の性能を大幅に向上し、最先端のVLM(Gemini 2.5 Pro)より優れ、タスク後の音声指示に挑戦する人間レベルの精度に近づいていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T02:36:10Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - Language-Conditioned Imitation Learning for Robot Manipulation Tasks [39.40937105264774]
本研究では,非構造化自然言語を模倣学習に組み込む手法を提案する。
訓練時には、専門家は、基礎となる意図を説明するために、言語記述とともにデモンストレーションを行うことができる。
トレーニングプロセスはこれらの2つのモードを相互に関連付け、言語、知覚、動きの相関を符号化する。
結果として得られた言語条件のvisuomotorポリシーは、実行時に新しいヒューマンコマンドと命令で条件付けできる。
論文 参考訳(メタデータ) (2020-10-22T21:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。