論文の概要: Alignment of Language Agents
- arxiv url: http://arxiv.org/abs/2103.14659v1
- Date: Fri, 26 Mar 2021 18:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:24:47.775417
- Title: Alignment of Language Agents
- Title(参考訳): 言語エージェントのアライメント
- Authors: Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir
Mikulik, Geoffrey Irving
- Abstract要約: システム設計者による偶発的誤特定から生じる言語エージェントの行動問題について議論する。
我々は、誤特定が発生するいくつかの方法を強調し、誤特定から生じる可能性のある行動的問題について議論する。
- 参考スコア(独自算出の注目度): 5.042475711029564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For artificial intelligence to be beneficial to humans the behaviour of AI
agents needs to be aligned with what humans want. In this paper we discuss some
behavioural issues for language agents, arising from accidental
misspecification by the system designer. We highlight some ways that
misspecification can occur and discuss some behavioural issues that could arise
from misspecification, including deceptive or manipulative language, and review
some approaches for avoiding these issues.
- Abstract(参考訳): 人工知能が人間に利益をもたらすためには、AIエージェントの振る舞いは人間が望むものと一致する必要がある。
本稿では,システムデザイナによる偶然の誤特定から生じる,言語エージェントの行動問題について論じる。
我々は、誤特定が発生するいくつかの方法を強調し、誤特定から生じる可能性のあるいくつかの行動的問題、例えば誤認識言語やマニピュレーション言語を議論し、これらの問題を避けるためのいくつかのアプローチをレビューする。
関連論文リスト
- Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - Deception and Manipulation in Generative AI [0.0]
AI生成コンテンツは、騙しや操作に対してより厳格な基準に従うべきだと私は主張する。
AIの騙しや操作を防ぐための2つの対策を提案する。
論文 参考訳(メタデータ) (2024-01-20T21:54:37Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Mirages: On Anthropomorphism in Dialogue Systems [12.507948345088135]
本稿では,対話システムの人間同型化に寄与する言語的要因と,その影響について論じる。
今後の対話システム開発への取り組みは、設計、開発、リリース、記述に特に注意を払うことを推奨する。
論文 参考訳(メタデータ) (2023-05-16T20:50:46Z) - Improving Grounded Language Understanding in a Collaborative Environment
by Interacting with Agents Through Help Feedback [42.19685958922537]
我々は、人間とAIのコラボレーションは対話的であり、人間がAIエージェントの作業を監視し、エージェントが理解し活用できるフィードバックを提供するべきだと論じている。
本研究では, IGLUコンペティションによって定義された課題である, マイニングクラフトのような世界における対話型言語理解タスクを用いて, これらの方向を探索する。
論文 参考訳(メタデータ) (2023-04-21T05:37:59Z) - Is the Elephant Flying? Resolving Ambiguities in Text-to-Image
Generative Models [64.58271886337826]
テキストから画像への生成モデルで生じるあいまいさについて検討する。
本稿では,ユーザから明確化を求めることによって,システムに与えられるプロンプトのあいまいさを軽減する枠組みを提案する。
論文 参考訳(メタデータ) (2022-11-17T17:12:43Z) - Mitigating Covertly Unsafe Text within Natural Language Systems [55.26364166702625]
制御されていないシステムは、怪我や致命的な結果につながるレコメンデーションを生成する。
本稿では,身体的危害につながる可能性のあるテキストのタイプを識別し,特に未発見のカテゴリを確立する。
論文 参考訳(メタデータ) (2022-10-17T17:59:49Z) - Human Heuristics for AI-Generated Language Are Flawed [8.465228064780744]
我々は,最も個人的かつ連続的な言語である動詞の自己表現が,AIによって生成されたかを検討した。
我々は,これらの単語がAI生成言語の人間の判断を予測可能で操作可能であることを実験的に実証した。
我々は、AIアクセントのようなソリューションについて議論し、AIによって生成された言語の誤認の可能性を減らす。
論文 参考訳(メタデータ) (2022-06-15T03:18:56Z) - On some Foundational Aspects of Human-Centered Artificial Intelligence [52.03866242565846]
人間中心人工知能(Human Centered Artificial Intelligence)の意味については明確な定義はない。
本稿では,AIコンポーネントを備えた物理・ソフトウェア計算エージェントを指すHCAIエージェントについて紹介する。
HCAIエージェントの概念は、そのコンポーネントや機能とともに、人間中心のAIに関する技術的および非技術的議論を橋渡しする手段であると考えています。
論文 参考訳(メタデータ) (2021-12-29T09:58:59Z) - Projection: A Mechanism for Human-like Reasoning in Artificial
Intelligence [6.218613353519724]
モデルから)トップダウン情報を利用する推論手法は、困難な状況における実体認識に有効であることが示されている。
投射は、様々な状況や困難な状況に知識を適用するという問題を解決するための鍵となるメカニズムである。
論文 参考訳(メタデータ) (2021-03-24T22:33:51Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。