論文の概要: Joint Action Language Modelling for Transparent Policy Execution
- arxiv url: http://arxiv.org/abs/2504.10055v1
- Date: Mon, 14 Apr 2025 09:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:50:45.592029
- Title: Joint Action Language Modelling for Transparent Policy Execution
- Title(参考訳): 透明政策実行のための共同行動言語モデリング
- Authors: Theodor Wulff, Rahul Singh Maharjan, Xinyun Chi, Angelo Cangelosi,
- Abstract要約: 政策学習の問題を言語生成問題に変換することにより,透明な行動を直接学習プロセスに挿入することを目指す。
結果として得られたモデルは透明な自然言語文を生成し、その後に長期的タスクを解決するための特定のアクションを表すトークンが続く。
- 参考スコア(独自算出の注目度): 1.895668436318744
- License:
- Abstract: An agent's intention often remains hidden behind the black-box nature of embodied policies. Communication using natural language statements that describe the next action can provide transparency towards the agent's behavior. We aim to insert transparent behavior directly into the learning process, by transforming the problem of policy learning into a language generation problem and combining it with traditional autoregressive modelling. The resulting model produces transparent natural language statements followed by tokens representing the specific actions to solve long-horizon tasks in the Language-Table environment. Following previous work, the model is able to learn to produce a policy represented by special discretized tokens in an autoregressive manner. We place special emphasis on investigating the relationship between predicting actions and producing high-quality language for a transparent agent. We find that in many cases both the quality of the action trajectory and the transparent statement increase when they are generated simultaneously.
- Abstract(参考訳): エージェントの意図は、具体化された政策のブラックボックスの性質の裏に隠されていることが多い。
次のアクションを記述する自然言語文を使ったコミュニケーションは、エージェントの振る舞いに対する透明性を提供する。
政策学習の問題を言語生成問題に転換し、従来の自己回帰モデルと組み合わせることで、透明な振る舞いを直接学習プロセスに挿入することを目指している。
結果として得られたモデルは、透明な自然言語文を生成し、その後、Language-Table環境における長期タスクを解決するための特定のアクションを表すトークンを生成する。
以前の研究の後、このモデルは自己回帰的な方法で特別な識別トークンで表されるポリシーを作成することができる。
我々は,透明性エージェントのための予測行動と高品質言語の生成との関係について,特に注目する。
多くの場合、アクション・トラジェクトリの品質と、それらが同時に生成されると、透明なステートメントが増大する。
関連論文リスト
- Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Zero-Shot Continuous Prompt Transfer: Generalizing Task Semantics Across Language Models [24.114485240965383]
提案手法は,ソースプロンプトを相対空間に符号化し,対応するターゲットプロンプトを探索して対象モデルに転送するゼロショット連続プロンプト転送手法である。
実験により提案手法の有効性を確認し, 連続的プロンプトにおける「タスク意味論」が様々な言語モデルにまたがって一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-10-02T23:12:21Z) - Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization [103.70896967077294]
本稿では,レトロスペクティブモデルを学習することで,大規模言語エージェントを強化するための原則的枠組みを提案する。
提案するエージェントアーキテクチャは,事前学習した言語モデルを微調整するために,複数の環境やタスクにまたがる報酬から学習する。
様々なタスクの実験結果から、言語エージェントは時間とともに改善することが示された。
論文 参考訳(メタデータ) (2023-08-04T06:14:23Z) - Shattering the Agent-Environment Interface for Fine-Tuning Inclusive
Language Models [24.107358120517336]
本研究では、事前学習された言語モデルが、それ自体がポリシー、報酬関数、遷移関数である、という新しい視点を採用する。
即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。
論文 参考訳(メタデータ) (2023-05-19T06:21:15Z) - LaMPP: Language Models as Probabilistic Priors for Perception and Action [38.07277869107474]
非言語的知覚と制御タスクに言語モデルを活用する方法を示す。
提案手法は,確率的グラフィカルモデルにおけるラベリングと意思決定を推論として用いている。
論文 参考訳(メタデータ) (2023-02-03T15:14:04Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Color Overmodification Emerges from Data-Driven Learning and Pragmatic
Reasoning [53.088796874029974]
話者の指示表現は、実践的な言語使用の性質を照らし出すのに役立つ方法で、コミュニケーションイデアルから逸脱していることを示す。
ニューラルネットワークを学習エージェントとして採用することにより、過度な修正は、頻度の低い、あるいは正常な環境特性に結びつく可能性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-18T18:42:43Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Learning Invariable Semantical Representation from Language for
Extensible Policy Generalization [4.457682773596843]
本稿では,要素ランダム化と呼ばれる意味的不変表現を学習する手法を提案する。
理論的には、ランダム化による意味論的不変表現の学習の実現可能性を証明する。
長期的課題に挑戦する実験は、我々の低レベル政策が環境変化に対するタスクに確実に一般化することを示しています。
論文 参考訳(メタデータ) (2022-01-26T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。