論文の概要: LFQA-HP-1M: A Large-Scale Human Preference Dataset for Long-Form Question Answering
- arxiv url: http://arxiv.org/abs/2602.23603v1
- Date: Fri, 27 Feb 2026 02:14:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.205587
- Title: LFQA-HP-1M: A Large-Scale Human Preference Dataset for Long-Form Question Answering
- Title(参考訳): LFQA-HP-1M:長期質問応答のための大規模人選データセット
- Authors: Rafid Ishrak Jahan, Fahmid Shahriar Iqbal, Sagnik Ray Choudhury,
- Abstract要約: 本稿では,LFQAに対する1.3Mの人間対選好アノテーションからなる大規模データセットLFQA-HP-1Mを提案する。
応答品質評価のための9つのルーブリックを提案し、これらの特徴に基づく単純な線形モデルが、最先端評価器と相容れない性能を示すことを示す。
- 参考スコア(独自算出の注目度): 1.7890311935680565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form question answering (LFQA) demands nuanced evaluation of multi-sentence explanatory responses, yet existing metrics often fail to reflect human judgment. We present LFQA-HP-1M, a large-scale dataset comprising 1.3M human pairwise preference annotations for LFQA. We propose nine rubrics for answer quality evaluation, and show that simple linear models based on these features perform comparably to state-of-the-art LLM evaluators. We further examine transitivity consistency, positional bias, and verbosity biases in LLM evaluators and demonstrate their vulnerability to adversarial perturbations. Overall, this work provides one of the largest public LFQA preference datasets and a rubric-driven framework for transparent and reliable evaluation.
- Abstract(参考訳): 長文質問応答(LFQA)は、多文説明応答のニュアンス評価を要求するが、既存の指標は人間の判断を反映しないことが多い。
本稿では,LFQAに対する1.3Mの人間対選好アノテーションからなる大規模データセットLFQA-HP-1Mを提案する。
応答品質評価のための9つのルーブリックを提案し、これらの特徴に基づく単純な線形モデルが、最先端のLCM評価器と同等に動作することを示す。
さらに, LLM評価器における推移性整合性, 位置バイアス, 冗長性バイアスについて検討し, 対向摂動に対する脆弱性を実証する。
全体として、この作業はLFQA選好データセットとして最大規模のもののひとつであり、透過的で信頼性の高い評価のためのルーリック駆動フレームワークを提供する。
関連論文リスト
- RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - Multi-Aspect Reviewed-Item Retrieval via LLM Query Decomposition and Aspect Fusion [15.630734768499826]
本稿では,自然言語製品クエリに対処する新しいアスペクト融合戦略を提案する。
不均衡なレビューコーパスでは、AF は MAP@10 を 0.36 から 0.52 に増加させ、バランスの取れたレビューコーパスに対して同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-01T19:04:10Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Refinement of Language Models from External Proxy Metrics Feedback [27.57840561708484]
ProMiSe(Proxy Metric-based Self-Refinement)
ProMiSeは、その応答を一度に1つの原則を反復的に洗練する。
オープンソース言語モデルFlan-T5-XXLとLlama-2-13B-ChatにProMiSeを適用する。
論文 参考訳(メタデータ) (2024-02-27T19:13:01Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。