論文の概要: Inferring and Conveying Intentionality: Beyond Numerical Rewards to
Logical Intentions
- arxiv url: http://arxiv.org/abs/2207.05058v2
- Date: Wed, 13 Jul 2022 17:49:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-17 16:03:19.458554
- Title: Inferring and Conveying Intentionality: Beyond Numerical Rewards to
Logical Intentions
- Title(参考訳): 意図の推論と導出:論理的意図への数値的逆転を超えて
- Authors: Susmit Jha and John Rushby
- Abstract要約: 論理報酬仕様を用いた逆強化学習問題として,共有意図の推論を定式化する。
提案手法は,実演からタスク記述を推測する方法を示す。
- 参考スコア(独自算出の注目度): 6.688182116948765
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Shared intentionality is a critical component in developing conscious AI
agents capable of collaboration, self-reflection, deliberation, and reasoning.
We formulate inference of shared intentionality as an inverse reinforcement
learning problem with logical reward specifications. We show how the approach
can infer task descriptions from demonstrations. We also extend our approach to
actively convey intentionality. We demonstrate the approach on a simple
grid-world example.
- Abstract(参考訳): 共有意図は、協調、自己反映、熟考、推論が可能な意識的なAIエージェントを開発する上で重要な要素である。
論理報酬仕様を用いた逆強化学習問題として,共有意図の推論を定式化する。
提案手法は,実演からタスク記述を推測する方法を示す。
意図を積極的に伝達するアプローチも拡張しています。
このアプローチを単純なグリッドワールドの例で示します。
関連論文リスト
- Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment [7.477559660351106]
模倣学習(IL)アルゴリズムは、逆強化学習(IRL)を用いて、実演と整合した報酬関数を推論する。
本稿では,従来のデータアライメントよりもタスクアライメントを優先するIRLベースのILのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T07:08:14Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Rationale-Augmented Ensembles in Language Models [53.45015291520658]
我々は、数発のテキスト内学習のための合理化促進策を再考する。
我々は、出力空間における合理的サンプリングを、性能を確実に向上させるキーコンポーネントとして特定する。
有理拡張アンサンブルは既存のプロンプト手法よりも正確で解釈可能な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-02T06:20:57Z) - Logically Consistent Adversarial Attacks for Soft Theorem Provers [110.17147570572939]
本稿では,言語モデルの推論能力の探索と改善のための生成的逆説フレームワークを提案する。
我々のフレームワークは、敵の攻撃をうまく発生させ、グローバルな弱点を識別する。
有効探索に加えて, 生成したサンプルのトレーニングにより, 対象モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T19:10:12Z) - Contrastive Active Inference [12.361539023886161]
本稿では,エージェントの生成モデル学習における計算負担を低減し,今後の行動計画を行うための,アクティブ推論のための対照的な目的を提案する。
提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。
論文 参考訳(メタデータ) (2021-10-19T16:20:49Z) - Shared Visual Representations of Drawing for Communication: How do
different biases affect human interpretability and intent? [0.0]
学習済みの強力なエンコーダネットワークと適切な帰納バイアスの組み合わせは、認識可能なスケッチを描くエージェントに繋がることを示す。
スケッチによって伝達される意味的内容を自動的に分析する手法を開発した。
論文 参考訳(メタデータ) (2021-10-15T17:02:34Z) - DAReN: A Collaborative Approach Towards Reasoning And Disentangling [27.50150027974947]
本稿では,2つのタスクを協調的に改善するために,帰納的バイアスの弱い形式を活用する,エンドツーエンドの共同表現推論学習フレームワークを提案する。
GM-RPMの原理に基づくDAReN(Disentangling based Abstract Reasoning Network)を用いてこれを実現した。
論文 参考訳(メタデータ) (2021-09-27T16:10:30Z) - Congestion-aware Multi-agent Trajectory Prediction for Collision
Avoidance [110.63037190641414]
渋滞パターンを明示的に学習し、新しい「センス--学習--Reason--予測」フレームワークを考案する。
学習段階を2段階に分解することで、「学生」は「教師」から文脈的手がかりを学習し、衝突のない軌跡を生成する。
実験では,提案モデルが合成データセットにおいて衝突のない軌道予測を生成できることを実証する。
論文 参考訳(メタデータ) (2021-03-26T02:42:33Z) - Learning from Demonstrations using Signal Temporal Logic [1.2182193687133713]
効果的なロボット制御ポリシーを得るための新しいパラダイムである。
我々はSignal Temporal Logicを使ってデモの質を評価しランク付けする。
提案手法は,最先端の最大因果エントロピー逆強化学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-15T18:28:36Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。
SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。
本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-04-28T07:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。