論文の概要: DAIL: Beyond Task Ambiguity for Language-Conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.19562v2
- Date: Thu, 23 Oct 2025 07:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.825924
- Title: DAIL: Beyond Task Ambiguity for Language-Conditioned Reinforcement Learning
- Title(参考訳): DAIL: 言語による強化学習におけるタスク曖昧性を超えて
- Authors: Runpeng Xie, Quanwei Wang, Hao Hu, Zherui Zhou, Ni Mu, Xiyun Li, Yiqin Yang, Shuang Xu, Qianchuan Zhao, Bo XU,
- Abstract要約: DAIL(Distributional Aligned Learning)には,分散ポリシとセマンティックアライメントという2つの重要な要素がある。
DAILは命令のあいまいさを効果的に解決し,ベースライン手法よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 28.027785116421242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehending natural language and following human instructions are critical capabilities for intelligent agents. However, the flexibility of linguistic instructions induces substantial ambiguity across language-conditioned tasks, severely degrading algorithmic performance. To address these limitations, we present a novel method named DAIL (Distributional Aligned Learning), featuring two key components: distributional policy and semantic alignment. Specifically, we provide theoretical results that the value distribution estimation mechanism enhances task differentiability. Meanwhile, the semantic alignment module captures the correspondence between trajectories and linguistic instructions. Extensive experimental results on both structured and visual observation benchmarks demonstrate that DAIL effectively resolves instruction ambiguities, achieving superior performance to baseline methods. Our implementation is available at https://github.com/RunpengXie/Distributional-Aligned-Learning.
- Abstract(参考訳): 自然言語を補完し、人間の指示に従うことは、知的エージェントにとって重要な能力である。
しかし、言語命令の柔軟性は、言語条件のタスク間でかなりのあいまいさを生じさせ、アルゴリズムの性能を著しく低下させる。
これらの制約に対処するため,DAIL (Distributional Aligned Learning) という新しい手法を提案する。
具体的には、値分布推定機構がタスクの微分可能性を高めるという理論的結果を提供する。
一方、セマンティックアライメントモジュールは、軌跡と言語命令の対応をキャプチャする。
その結果,DAILは命令のあいまいさを効果的に解決し,ベースライン法よりも優れた性能が得られることがわかった。
実装はhttps://github.com/RunpengXie/Distributional-Aligned-Learning.comで公開しています。
関連論文リスト
- LinguaFluid: Language Guided Fluid Control via Semantic Rewards in Reinforcement Learning [0.7864304771129751]
本研究では,現在状態と目標意味的指示とを一致させて報酬を計算できる意味的整合強化学習手法を提案する。
我々は,手作りの報酬関数がなくても,意味報酬は学習を指導して,競争力のある制御動作を実現することができることを示した。
このフレームワークは、エージェントの振る舞いを自然言語の目標と整合させるための新たな地平を開き、より大きな言語モデルのよりシームレスな統合の基礎となる。
論文 参考訳(メタデータ) (2025-08-08T03:23:56Z) - CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity [23.77040677368575]
我々は,潜在的にあいまいな自然言語によって指定されたタスクを達成できる,新しいロボット操作フレームワークを導入する。
このフレームワークはVLM(Vision-Language Model)を使用して、自然言語命令の抽象概念を解釈する。
本稿では,言語あいまいさ,コンタクトリッチな操作,多目的インタラクションといった課題に対して,アプローチが優れていることを示す。
論文 参考訳(メタデータ) (2025-06-19T23:42:03Z) - Enhancing Coreference Resolution with Pretrained Language Models: Bridging the Gap Between Syntax and Semantics [0.9752323911408618]
そこで本研究では,事前学習型言語モデルを用いて,コア参照解決の強化を目的とした,革新的なフレームワークを提案する。
本手法では,構文解析と意味的役割ラベリングを組み合わせることで,参照関係におけるより微細な特徴を正確に把握する。
論文 参考訳(メタデータ) (2025-04-08T09:33:09Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - FILM: Following Instructions in Language with Modular Methods [109.73082108379936]
近年のインボディード・インストラクションの手法は、模倣学習を用いてエンド・ツー・エンドで訓練されている。
本稿では,シーンのセマンティックマップを構築し,セマンティック検索ポリシーを用いて探索を行う構造化表現を用いたモジュラー手法を提案する。
以上の結果から,空間記憶の明示と意味探索の方針が,状態追跡とガイダンスのためのより強固で汎用的な表現を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2021-10-12T16:40:01Z) - Skill Induction and Planning with Latent Language [94.55783888325165]
我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
論文 参考訳(メタデータ) (2021-10-04T15:36:32Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。