論文の概要: Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey
- arxiv url: http://arxiv.org/abs/2409.11564v2
- Date: Sun, 3 Nov 2024 01:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 20:01:55.123575
- Title: Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey
- Title(参考訳): 言語・音声・視覚課題に対する人間のフィードバックによる嗜好調整:調査
- Authors: Genta Indra Winata, Hanyang Zhao, Anirban Das, Wenpin Tang, David D. Yao, Shi-Xiong Zhang, Sambit Sahu,
- Abstract要約: 優先度調整は、深層生成モデルと人間の嗜好を整合させる重要なプロセスである。
この調査は、最近の嗜好調整の進歩と人間のフィードバックの統合を概観するものである。
- 参考スコア(独自算出の注目度): 22.45649373554474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference tuning is a crucial process for aligning deep generative models with human preferences. This survey offers a thorough overview of recent advancements in preference tuning and the integration of human feedback. The paper is organized into three main sections: 1) introduction and preliminaries: an introduction to reinforcement learning frameworks, preference tuning tasks, models, and datasets across various modalities: language, speech, and vision, as well as different policy approaches, 2) in-depth exploration of each preference tuning approach: a detailed analysis of the methods used in preference tuning, and 3) applications, discussion, and future directions: an exploration of the applications of preference tuning in downstream tasks, including evaluation methods for different modalities, and an outlook on future research directions. Our objective is to present the latest methodologies in preference tuning and model alignment, enhancing the understanding of this field for researchers and practitioners. We hope to encourage further engagement and innovation in this area.
- Abstract(参考訳): 優先度調整は、深層生成モデルと人間の嗜好を整合させる重要なプロセスである。
この調査は、最近の嗜好調整の進歩と人間のフィードバックの統合を概観するものである。
論文は3つの主要なセクションに分けられる。
1)導入と前提:強化学習フレームワーク,嗜好調整タスク,モデル,さまざまなモダリティ – 言語,スピーチ,ビジョン – および異なる政策アプローチ – に対するデータセットの導入。
2)各選好調律手法の深層探査--選好調律における方法の詳細な分析と,
3)適用,議論,今後の方向性:下流タスクにおける選好調整の適用を探究する。
我々の目的は、好み調整とモデルアライメントにおける最新の方法論を提示し、研究者や実践者にとってこの分野の理解を深めることである。
この領域では、さらなるエンゲージメントとイノベーションを奨励したいと考えています。
関連論文リスト
- A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications [52.42860559005861]
DPO(Direct Preference Optimization)は、アライメントのための有望なアプローチとして登場した。
DPOの様々な進歩と固有の制限にもかかわらず、これらの側面の詳細なレビューは現在、文献に欠けている。
論文 参考訳(メタデータ) (2024-10-21T02:27:24Z) - Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models [33.488331159912136]
インストラクションチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
自然言語処理(NLP)とディープラーニングの分野において,データアセスメントと選択手法が提案されている。
本稿では,データアセスメントと選択に関する既存の文献を総合的にレビューし,特にLLMの命令チューニングについて述べる。
論文 参考訳(メタデータ) (2024-08-04T16:50:07Z) - Large Language Models as Zero-Shot Conversational Recommenders [52.57230221644014]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。
我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。
我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文 参考訳(メタデータ) (2023-08-19T15:29:45Z) - A Survey of Contextual Optimization Methods for Decision Making under
Uncertainty [47.73071218563257]
この記事では、データからポリシーを学ぶための3つの主要なフレームワークを特定し、その強みと限界について論じる。
統一的な表記と用語の下で既存のモデルとメソッドを示し、これらを3つの主要なフレームワークに従って分類する。
論文 参考訳(メタデータ) (2023-06-17T15:21:02Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Make The Most of Prior Data: A Solution for Interactive Text
Summarization with Preference Feedback [15.22874706089491]
我々は、好みのフィードバックで要約モデルを対話的に訓練する新しいフレームワークを導入する。
オフラインデータと新しい報酬モデルを適切に活用することにより、ROUGEスコアとサンプル効率に関する性能を向上させる。
論文 参考訳(メタデータ) (2022-04-12T03:56:59Z) - A Survey on Neural Recommendation: From Collaborative Filtering to
Content and Context Enriched Recommendation [70.69134448863483]
レコメンデーションの研究は、ニューラルネットワークに基づく新しいレコメンダーモデルの発明にシフトした。
近年,神経リコメンデータモデルの開発が著しい進展を遂げている。
論文 参考訳(メタデータ) (2021-04-27T08:03:52Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Lights and Shadows in Evolutionary Deep Learning: Taxonomy, Critical
Methodological Analysis, Cases of Study, Learned Lessons, Recommendations and
Challenges [15.954992915497874]
バイオインスパイアされた最適化アルゴリズムとディープラーニングモデルの融合については、多くのことが述べられている。
3つの軸 – 最適化と分類,批判的分析,課題 – は,2つのテクノロジの合併というビジョンを概説している。
論文 参考訳(メタデータ) (2020-08-09T00:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。