論文の概要: Methodological reflections for AI alignment research using human
feedback
- arxiv url: http://arxiv.org/abs/2301.06859v1
- Date: Thu, 22 Dec 2022 14:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-29 14:17:33.051452
- Title: Methodological reflections for AI alignment research using human
feedback
- Title(参考訳): 人間のフィードバックを用いたAIアライメント研究のための方法論的考察
- Authors: Thilo Hagendorff, Sarah Fabi
- Abstract要約: AIアライメントは、AI技術が人間の関心や価値観、機能と安全で倫理的な方法で一致しているかどうかを調査することを目的としている。
LLMは、予測が難しい方法で学習し、適応する能力があるため、意図しない行動を示す可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of artificial intelligence (AI) alignment aims to investigate
whether AI technologies align with human interests and values and function in a
safe and ethical manner. AI alignment is particularly relevant for large
language models (LLMs), which have the potential to exhibit unintended behavior
due to their ability to learn and adapt in ways that are difficult to predict.
In this paper, we discuss methodological challenges for the alignment problem
specifically in the context of LLMs trained to summarize texts. In particular,
we focus on methods for collecting reliable human feedback on summaries to
train a reward model which in turn improves the summarization model. We
conclude by suggesting specific improvements in the experimental design of
alignment studies for LLMs' summarization capabilities.
- Abstract(参考訳): 人工知能(AI)アライメントの分野は、AI技術が人間の関心や価値観、機能と安全で倫理的な方法で一致しているかどうかを調査することを目的としている。
aiアライメントは、特に大きな言語モデル(llm)に関係しており、予測が難しい方法で学習し、適応する能力があるため、意図しない行動を示す可能性がある。
本稿では,テキストを要約するために訓練されたllmの文脈におけるアライメント問題に対する方法論的課題について述べる。
特に,要約モデルを改善する報奨モデルをトレーニングするために,要約に対する信頼性の高いフィードバックを集める方法に焦点を当てた。
我々は,LLMの要約能力に関するアライメント研究の実験的設計の具体的な改善を提案する。
関連論文リスト
- Inadequacies of Large Language Model Benchmarks in the Era of Generative
Artificial Intelligence [5.454656183053655]
我々は23の最先端のLarge Language Modelsベンチマークを批判的に評価する。
私たちの研究は、偏見、真の推論を測ることの難しさなど、重大な制限を発見しました。
静的ベンチマークから動的行動プロファイリングへの進化を提唱する。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Can AI Serve as a Substitute for Human Subjects in Software Engineering
Research? [24.39463126056733]
本稿では,人工知能(AI)の能力を活用したソフトウェア工学研究における定性データ収集手法を提案する。
定性的データの代替源としてAI生成合成テキストの可能性を探る。
観察研究とユーザ評価における人間の行動のエミュレートを目的とした新しい基礎モデルの開発について論じる。
論文 参考訳(メタデータ) (2023-11-18T14:05:52Z) - Harnessing the Power of Large Language Models for Empathetic Response
Generation: Empirical Investigations and Improvements [32.177860810612074]
本研究では,大規模言語モデル(LLM)の共感応答生成における性能について実験的に検討する。
大規模な実験により, LLMは提案手法の利点を大いに生かし, 自動評価と人的評価の両方で最先端の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-10-08T12:21:24Z) - Joint Communication and Computation Framework for Goal-Oriented Semantic
Communication with Distortion Rate Resilience [13.36706909571975]
我々は、レート歪み理論を用いて、コミュニケーションやセマンティック圧縮によって引き起こされる歪みを解析する。
我々は、AIタスクの実証的精度を事前に見積もることができ、目標指向のセマンティックコミュニケーション問題を実現することができる。
論文 参考訳(メタデータ) (2023-09-26T00:26:29Z) - A Novel Neural-symbolic System under Statistical Relational Learning [50.747658038910565]
本稿では,GBPGRと呼ばれる2段階の確率的グラフィカル推論フレームワークを提案する。
GBPGRでは、シンボル推論の結果を用いて、ディープラーニングモデルによる予測を洗練し、修正する。
提案手法は高い性能を示し, 帰納的タスクと帰納的タスクの両方において効果的な一般化を示す。
論文 参考訳(メタデータ) (2023-09-16T09:15:37Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Counterfactual Explanations as Interventions in Latent Space [62.997667081978825]
反現実的な説明は、望ましい結果を達成するために変更が必要な機能のセットをエンドユーザに提供することを目的としています。
現在のアプローチでは、提案された説明を達成するために必要な行動の実現可能性を考慮することはめったにない。
本稿では,非現実的説明を生成する手法として,潜時空間における干渉としての対実的説明(CEILS)を提案する。
論文 参考訳(メタデータ) (2021-06-14T20:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。