Fugu-MT 論文翻訳(概要): LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation

論文の概要: LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation

arxiv url: http://arxiv.org/abs/2410.20833v1
Date: Mon, 28 Oct 2024 08:32:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.218033
Title: LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation
Title（参考訳）: LLMはバイオアセスメント評価器だが、リトリーバル・アゲメンテッド・ジェネレーションには問題ない
Authors: Yen-Shan Chen, Jing Jin, Peng-Ting Kuo, Chao-Wei Huang, Yun-Nung Chen,
Abstract要約: 大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
参考スコア（独自算出の注目度）: 28.61326111959728
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent studies have demonstrated that large language models (LLMs) exhibit significant biases in evaluation tasks, particularly in preferentially rating and favoring self-generated content. However, the extent to which this bias manifests in fact-oriented tasks, especially within retrieval-augmented generation (RAG) frameworks-where keyword extraction and factual accuracy take precedence over stylistic elements-remains unclear. Our study addresses this knowledge gap by simulating two critical phases of the RAG framework. In the first phase, we access the suitability of human-authored versus model-generated passages, emulating the pointwise reranking process. The second phase involves conducting pairwise reading comprehension tests to simulate the generation process. Contrary to previous findings indicating a self-preference in rating tasks, our results reveal no significant self-preference effect in RAG frameworks. Instead, we observe that factual accuracy significantly influences LLMs' output, even in the absence of prior knowledge. Our research contributes to the ongoing discourse on LLM biases and their implications for RAG-based system, offering insights that may inform the development of more robust and unbiased LLM systems.
Abstract（参考訳）: 近年の研究では、大規模言語モデル(LLM)が評価タスク、特に優先的な評価や自己生成コンテンツに顕著なバイアスを示すことが示されている。しかし、特に検索強化生成(RAG)フレームワークにおいて、このバイアスがファクト指向タスクに現れる範囲は、キーワード抽出と事実精度がスタイリスティックな要素よりも優先される。本研究では、RAGフレームワークの2つの重要なフェーズをシミュレートすることで、この知識ギャップに対処する。第1フェーズでは、人間が作成したパスとモデル生成したパスの適合性にアクセスし、ポイントワイズ・プロセスのエミュレートを行う。第2フェーズでは、生成プロセスをシミュレートするペアワイズ読解テストを実施する。評価課題の自己選好を示す以前の知見とは対照的に,RAGフレームワークには有意な自己選好効果は認められなかった。その代わり,従来の知識がなくても,実測精度がLLMの出力に大きく影響することが観察された。我々の研究は、LLMのバイアスとそのRAGベースのシステムへの影響についての議論に寄与し、より堅牢で偏りのないLLMシステムの開発を示唆する洞察を提供する。

関連論文リスト

TRUE: A Reproducible Framework for LLM-Driven Relevance Judgment in Information Retrieval [11.27206971411905]
関連判断生成のためのtextitTask-aware Evaluation (TRUE) を提案する。 TRUEはもともと,検索セッションにおける有用性評価のために開発された。 TRUEをTREC DL 2019, 2020, LLMJudgeデータセットで評価した。
論文参考訳（メタデータ） (2025-09-29T23:58:47Z)
How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文参考訳（メタデータ） (2025-08-25T06:43:27Z)
Meta-Fair: AI-Assisted Fairness Testing of Large Language Models [2.9632404823837777]
公正さは人工知能(AI)システムの開発における中核的な原則である。大規模言語モデル(LLM)におけるフェアネステストへの現在のアプローチは、手動評価、固定テンプレート、決定論、キュレートされたデータセットに依存していることが多い。本研究は,LLMの公正性をテストするための,新しい自動化手法の基盤となることを目的としている。
論文参考訳（メタデータ） (2025-07-03T11:20:59Z)
Evaluating Scoring Bias in LLM-as-a-Judge [8.751901240110888]
大規模言語モデル (LLM) は複雑なタスクの評価に使用される。 LLM-as-a-Judgeには様々なバイアスがあり、判断の公平性と信頼性に悪影響を及ぼす。
論文参考訳（メタデータ） (2025-06-27T15:25:23Z)
Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。 DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-05T23:54:53Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
Self-Preference Bias in LLM-as-a-Judge [13.880151307013321]
大規模言語モデル(LLM)における自己参照バイアスを測定するための新しい指標を提案する。以上の結果から, GPT-4は自己選好バイアスがかなり高いことが示唆された。このことは、偏見の本質は難易度にあることを示唆し、自己選好バイアスは LLM がより親しみやすいテキストを好むため存在することを示唆している。
論文参考訳（メタデータ） (2024-10-29T07:42:18Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG [36.754491649652664]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)に外部の知識ソースを利用する権限を与える。本稿では, 回収した「ハードネガティブ」の有害な影響について考察する。これを緩和し、長文LLMベースのRAGの堅牢性を高めるために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。
論文参考訳（メタデータ） (2024-10-08T12:30:07Z)
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文参考訳（メタデータ） (2024-10-03T17:53:30Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Large Language Models are Biased Reinforcement Learners [0.0]
大規模言語モデル (LLM) は相対値バイアスの行動的シグネチャを示す。計算的認知モデリングにより、LLMの挙動は単純なRLアルゴリズムによってよく記述されていることが明らかになった。
論文参考訳（メタデータ） (2024-05-19T01:43:52Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Embedding-Informed Adaptive Retrieval-Augmented Generation of Large Language Models [37.02290559379761]
Retrieval-augmented large language model (LLMs) は、様々なNLPタスクにおいて非常に有能である。このことに動機づけられた、適応検索拡張生成(ARAG)研究は、クエリによって要求される知識が LLM に欠如している場合にのみ検索する。
論文参考訳（メタデータ） (2024-04-04T15:21:22Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。