論文の概要: Linguistic communication as (inverse) reward design
- arxiv url: http://arxiv.org/abs/2204.05091v1
- Date: Mon, 11 Apr 2022 13:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 22:23:58.864761
- Title: Linguistic communication as (inverse) reward design
- Title(参考訳): 逆)報酬設計としての言語コミュニケーション
- Authors: Theodore R. Sumers, Robert D. Hawkins, Mark K. Ho, Thomas L.
Griffiths, Dylan Hadfield-Menell
- Abstract要約: 本稿では,基礎言語コミュニケーションの統一原理としての報酬設計の一般化を提案する。
まず、リニアバンディット設定において、未知の将来の状態についての推論を組み込むよう、報酬設計を拡張した。
次に、話者の潜伏した地平線と報奨を共同で推定することにより、逆報酬設計を行う実用的リスナーを定義する。
- 参考スコア(独自算出の注目度): 14.289220844201695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language is an intuitive and expressive way to communicate reward
information to autonomous agents. It encompasses everything from concrete
instructions to abstract descriptions of the world. Despite this, natural
language is often challenging to learn from: it is difficult for machine
learning methods to make appropriate inferences from such a wide range of
input. This paper proposes a generalization of reward design as a unifying
principle to ground linguistic communication: speakers choose utterances to
maximize expected rewards from the listener's future behaviors. We first extend
reward design to incorporate reasoning about unknown future states in a linear
bandit setting. We then define a speaker model which chooses utterances
according to this objective. Simulations show that short-horizon speakers
(reasoning primarily about a single, known state) tend to use instructions,
while long-horizon speakers (reasoning primarily about unknown, future states)
tend to describe the reward function. We then define a pragmatic listener which
performs inverse reward design by jointly inferring the speaker's latent
horizon and rewards. Our findings suggest that this extension of reward design
to linguistic communication, including the notion of a latent speaker horizon,
is a promising direction for achieving more robust alignment outcomes from
natural language supervision.
- Abstract(参考訳): 自然言語は、自律エージェントに報酬情報を伝達する直感的で表現力のある方法である。
具体的な指示から世界の抽象的な記述まで、あらゆるものを含んでいる。
それにもかかわらず、自然言語は、しばしば学ぶのが難しい。機械学習の手法が、このような幅広い入力から適切な推論を行うことは困難である。
本稿では,言語コミュニケーションの統一原則としての報酬設計の一般化を提案する。話者は,聞き手の将来行動から期待される報酬を最大化するために発話を選択する。
まず報酬設計を拡張し、未知の将来の状態についての推論を線形帯域設定で組み込む。
次に、この目的に従って発話を選択する話者モデルを定義する。
シミュレーションでは、短い水平話者(主に1つの既知の状態)は命令を使う傾向があり、長い水平話者(主に未知、将来の状態)は報酬関数を記述する傾向にある。
次に,話者の潜在地平線と報酬を共同で推定し,逆報酬設計を行う実用的リスナを定義する。
本研究は, 言語コミュニケーションへの報酬設計の延長, 潜在話者水平線の概念は, 自然言語の監督によるより堅牢なアライメント結果を達成する上で有望な方向であることを示唆している。
関連論文リスト
- Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Speaking the Language of Your Listener: Audience-Aware Adaptation via
Plug-and-Play Theory of Mind [4.052000839878213]
我々は、より限られた視覚的・言語的経験を持つ、知識のある話者と聞き手の間の視覚的接地型参照ゲームをモデル化する。
我々は,提案する話者に対して,聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを用いて,参照表現を適応する能力を与える。
論文 参考訳(メタデータ) (2023-05-31T15:17:28Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Know your audience: specializing grounded language models with listener
subtraction [20.857795779760917]
我々はDixitからインスピレーションを得て、マルチエージェント画像参照ゲームを定式化する。
この対照的なマルチエージェント設定において,CLIPビジョンエンコーダと大規模言語モデル間の注意ベースのアダプタを微調整することで,文脈依存の自然言語特殊化がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:52:08Z) - How to talk so your robot will learn: Instructions, descriptions, and
pragmatics [14.289220844201695]
我々は、人間が行動よりも好みを伝達する方法を研究する。
従来の強化学習環境では、実践的な社会学習が個別の学習と統合し、加速することができることを示す。
以上の結果から,より幅広い言語からの社会的学習が,より広範に価値アライメントと強化学習の有望なアプローチであることが示唆された。
論文 参考訳(メタデータ) (2022-06-16T01:33:38Z) - Color Overmodification Emerges from Data-Driven Learning and Pragmatic
Reasoning [53.088796874029974]
話者の指示表現は、実践的な言語使用の性質を照らし出すのに役立つ方法で、コミュニケーションイデアルから逸脱していることを示す。
ニューラルネットワークを学習エージェントとして採用することにより、過度な修正は、頻度の低い、あるいは正常な環境特性に結びつく可能性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-18T18:42:43Z) - Curriculum Learning for Goal-Oriented Semantic Communications with a
Common Language [60.85719227557608]
話者とリスナーが協調して一連のタスクを実行することを可能にするために,総合目標指向のセマンティックコミュニケーションフレームワークを提案する。
話者とリスナーのセマンティックコミュニケーションを実現するために,階層的信念に基づく共通言語を提案する。
最適化問題は、イベントの完全かつ抽象的な記述を決定するために定義される。
論文 参考訳(メタデータ) (2022-04-21T22:36:06Z) - Speaker Normalization for Self-supervised Speech Emotion Recognition [16.044405846513495]
特徴表現から話者特性を正規化しながら、音声感情認識タスクを学習する勾配に基づく逆学習フレームワークを提案する。
提案手法は話者に依存しない設定と話者に依存しない設定の両方において有効であることを示すとともに,難易度の高いIEMOCAPデータセットに対する新しい最先端結果を得る。
論文 参考訳(メタデータ) (2022-02-02T19:30:47Z) - Extending rational models of communication from beliefs to actions [10.169856458866088]
話し手は相手の信念に影響を与え、行動を形成する。
本研究では,純粋に情報的対象を持つ信念指向話者と,楽器的目的を持つ行動指向話者と,この2つを統合する統合話者の3つの話者モデルを開発する。
今後のリスナー行動における生産選択の基盤となる選択が,非リテラル言語の関連性や柔軟な利用をもたらすことを示す。
論文 参考訳(メタデータ) (2021-05-25T13:58:01Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。