論文の概要: DxHF: Providing High-Quality Human Feedback for LLM Alignment via Interactive Decomposition
- arxiv url: http://arxiv.org/abs/2507.18802v1
- Date: Thu, 24 Jul 2025 21:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.754538
- Title: DxHF: Providing High-Quality Human Feedback for LLM Alignment via Interactive Decomposition
- Title(参考訳): DxHF:対話的分解によるLLMアライメントのための高品質なヒューマンフィードバックを提供する
- Authors: Danqing Shi, Furui Cheng, Tino Weinkauf, Antti Oulasvirta, Mennatallah El-Assady,
- Abstract要約: 本稿では,大規模言語モデル(LLM)アライメントにおける人間のフィードバックの質向上へのアプローチとして,分解原理を考察することによって貢献する。
この原理に基づいて, 分割されたクレームを示し, 会話に対するクレームの関連性を視覚的に符号化し, 類似クレームをリンクすることによって, 比較処理を強化する。
160人の参加者によるクラウドソーシング調査によると、DxHFを使用することで平均5%のフィードバック精度が向上するが、平均フィードバック時間は18秒向上する。
- 参考スコア(独自算出の注目度): 29.053155209086245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human preferences are widely used to align large language models (LLMs) through methods such as reinforcement learning from human feedback (RLHF). However, the current user interfaces require annotators to compare text paragraphs, which is cognitively challenging when the texts are long or unfamiliar. This paper contributes by studying the decomposition principle as an approach to improving the quality of human feedback for LLM alignment. This approach breaks down the text into individual claims instead of directly comparing two long-form text responses. Based on the principle, we build a novel user interface DxHF. It enhances the comparison process by showing decomposed claims, visually encoding the relevance of claims to the conversation and linking similar claims. This allows users to skim through key information and identify differences for better and quicker judgment. Our technical evaluation shows evidence that decomposition generally improves feedback accuracy regarding the ground truth, particularly for users with uncertainty. A crowdsourcing study with 160 participants indicates that using DxHF improves feedback accuracy by an average of 5%, although it increases the average feedback time by 18 seconds. Notably, accuracy is significantly higher in situations where users have less certainty. The finding of the study highlights the potential of HCI as an effective method for improving human-AI alignment.
- Abstract(参考訳): 人間の嗜好は、人間のフィードバックからの強化学習(RLHF)のような方法を通じて、大きな言語モデル(LLM)の整合に広く用いられている。
しかし、現在のユーザインタフェースでは、テキストの段落をアノテータで比較する必要がある。
本稿では,LLMアライメントのための人間のフィードバックの品質向上へのアプローチとして,分解原理を考察することによって貢献する。
このアプローチは、2つの長文のレスポンスを直接比較するのではなく、テキストを個々のクレームに分解する。
原理に基づいて,新しいユーザインタフェースDxHFを構築した。
これは、分解されたクレームを示し、会話に対するクレームの関連性を視覚的にエンコードし、類似したクレームをリンクすることによって、比較プロセスを強化する。
これにより、ユーザーは重要な情報をスキミングして、より良い、より迅速な判断のために違いを識別できる。
我々の技術的評価は、特に不確実性のあるユーザに対して、分解が一般に、基礎的真実に関するフィードバックの正確性を改善することを示す。
160人の参加者によるクラウドソーシング調査によると、DxHFを使用することで平均5%のフィードバック精度が向上するが、平均フィードバック時間は18秒向上する。
特に、ユーザの確実性が低い状況では、精度が大幅に向上します。
この研究の発見は、ヒトとAIのアライメントを改善する効果的な方法としてのHCIの可能性を強調している。
関連論文リスト
- Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文 参考訳(メタデータ) (2024-05-27T16:49:29Z) - Disentangling Length from Quality in Direct Preference Optimization [93.74831404396174]
RLHF(Reinforcement Learning from Human Feedback)は、近年の大規模言語モデルの成功において重要な要素である。
RLHFは、冗長性のような人間の嗜好のバイアスを利用することが知られている。
我々は,モデル品質の改善を維持しつつ,長さの搾取を防止するための基本的かつ単純な正規化戦略を開発する。
論文 参考訳(メタデータ) (2024-03-28T06:03:47Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - TRScore: A Novel GPT-based Readability Scorer for ASR Segmentation and
Punctuation model evaluation and selection [1.4720080476520687]
自動音声認識における読みやすさの鍵は、触覚と可読性である。
人間の評価は高価で時間がかかり、サーバ間の大きな変動に悩まされる。
本稿では,GPTモデルを用いた新しい可読性尺度 TRScore について述べる。
論文 参考訳(メタデータ) (2022-10-27T01:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。