Fugu-MT 論文翻訳(概要): Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation

論文の概要: Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2406.16807v1
Date: Mon, 24 Jun 2024 17:19:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 13:46:06.826966
Title: Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation
Title（参考訳）: Beyond Thumbs Up/Down: テキスト対画像生成のための細粒度フィードバックの難題
Authors: Katherine M. Collins, Najoung Kim, Yonatan Bitton, Verena Rieser, Shayegan Omidshafiei, Yushi Hu, Sherol Chen, Senjuti Dutta, Minsuk Chang, Kimin Lee, Youwei Liang, Georgina Evans, Sahil Singla, Gang Li, Adrian Weller, Junfeng He, Deepak Ramachandran, Krishnamurthy Dj Dvijotham,
Abstract要約: きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
参考スコア（独自算出の注目度）: 67.88747330066049
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Human feedback plays a critical role in learning and refining reward models for text-to-image generation, but the optimal form the feedback should take for learning an accurate reward function has not been conclusively established. This paper investigates the effectiveness of fine-grained feedback which captures nuanced distinctions in image quality and prompt-alignment, compared to traditional coarse-grained feedback (for example, thumbs up/down or ranking between a set of options). While fine-grained feedback holds promise, particularly for systems catering to diverse societal preferences, we show that demonstrating its superiority to coarse-grained feedback is not automatic. Through experiments on real and synthetic preference data, we surface the complexities of building effective models due to the interplay of model choice, feedback type, and the alignment between human judgment and computational interpretation. We identify key challenges in eliciting and utilizing fine-grained feedback, prompting a reassessment of its assumed benefits and practicality. Our findings -- e.g., that fine-grained feedback can lead to worse models for a fixed budget, in some settings; however, in controlled settings with known attributes, fine grained rewards can indeed be more helpful -- call for careful consideration of feedback attributes and potentially beckon novel modeling approaches to appropriately unlock the potential value of fine-grained feedback in-the-wild.
Abstract（参考訳）: 人間のフィードバックは、テキスト・ツー・イメージ生成のための報酬モデルを学び、精査する上で重要な役割を担っているが、正確な報酬関数を学習するために、フィードバックが取るべき最適な形式は、決定的に確立されていない。本稿では,従来の粗いフィードバック(例えば,サムアップ/ダウン,オプション間のランク付けなど)と比較して,画像品質と迅速なアライメントにおけるニュアンスドの区別を捉えたきめ細かいフィードバックの有効性について検討する。きめ細かいフィードバックは、特に多様な社会的嗜好に適応するシステムにとって有望であるが、粗いフィードバックに対する優位性の証明は自動ではないことを示す。実選好データと合成選好データを用いて,モデル選択,フィードバックタイプ,人間の判断と計算解釈の整合性による有効モデル構築の複雑さを明らかにする。我々は、きめ細かいフィードバックを導き、活用する上で重要な課題を特定し、その利点と実用性の再評価を促す。しかし、既知の属性で制御された設定では、フィードバック属性を慎重に検討することや、きめ細かいフィードバックの潜在的な価値を適切に解き放つために、潜在的にベクソンなモデリングアプローチが求められます。

関連論文リスト

MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference [22.19400649559091]
リワード学習は通常、1つのフィードバックタイプに依存するか、手動で重み付けされた損失用語を使って複数のフィードバックタイプを組み合わせる。本稿では,共有報酬エンコーダとフィードバック固有確率復号器を学習するスケーラブルな補正変分推論手法を提案する。共同推論された報酬は単一タイプのベースラインよりも優れ、フィードバックタイプ間の相補的な情報を活用し、環境の摂動に対してより堅牢なポリシーを得られることを示す。
論文参考訳（メタデータ） (2026-02-16T21:36:28Z)
CoNRec: Context-Discerning Negative Recommendation with LLMs [5.832474387562381]
ユーザのネガティブな嗜好に関する研究は、現代のレコメンデーションシステムにおいてますます重要になっている。既存のアプローチのほとんどは、主に肯定的な推奨を強化する補助信号として負のフィードバックを使用している。特殊設計した文脈認識モジュールを用いた負のフィードバックモデリングのための,最初の大規模言語モデルフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-22T07:46:18Z)
Reinforcement Learning from Multi-level and Episodic Human Feedback [1.9686770963118378]
報酬関数と最適ポリシーの両方を多段階のフィードバックから効率的に学習するアルゴリズムを提案する。提案アルゴリズムは, 広範囲なシミュレーションにより, サブ線形後悔を実現し, その経験的有効性を示す。
論文参考訳（メタデータ） (2025-04-20T20:09:19Z)
Enhancing Recommendation Explanations through User-Centric Refinement [7.640281193938638]
本稿では、既存の説明可能なレコメンデータモデルによって生成された最初の説明を洗練する新しいパラダイムを提案する。具体的には,大規模言語モデルに基づくマルチエージェント協調改良フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T12:08:18Z)
Contextual bandits with entropy-based human feedback [8.94067320035758]
本研究では,エントロピーに基づく文脈的盗聴のためのフィードバック・フレームワークを提案する。提案手法は,人間からのフィードバックを最小限に抑えながら,大幅な性能向上を実現する。この研究は、人間の指導を機械学習システムに組み込むことの堅牢性と有効性を強調している。
論文参考訳（メタデータ） (2025-02-12T20:03:56Z)
Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2024-10-22T19:52:08Z)
Learning Recommender Systems with Soft Target: A Decoupled Perspective [49.83787742587449]
そこで本研究では,ソフトラベルを活用することで,目的を2つの側面として捉えるために,分離されたソフトラベル最適化フレームワークを提案する。本稿では,ラベル伝搬アルゴリズムをモデル化したソフトラベル生成アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-09T04:20:15Z)
Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文参考訳（メタデータ） (2024-04-02T11:40:38Z)
RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文参考訳（メタデータ） (2024-02-16T18:50:24Z)
Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文参考訳（メタデータ） (2023-10-10T09:20:14Z)
UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文参考訳（メタデータ） (2023-10-02T17:40:01Z)
Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文参考訳（メタデータ） (2023-02-23T17:34:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。