論文の概要: The FACTS Grounding Leaderboard: Benchmarking LLMs' Ability to Ground Responses to Long-Form Input
- arxiv url: http://arxiv.org/abs/2501.03200v1
- Date: Mon, 06 Jan 2025 18:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:34.981207
- Title: The FACTS Grounding Leaderboard: Benchmarking LLMs' Ability to Ground Responses to Long-Form Input
- Title(参考訳): FACTSグラウンドディングリーダーボード:長期入力に対するLLMのグラウンドレスポンス能力のベンチマーク
- Authors: Alon Jacovi, Andrew Wang, Chris Alberti, Connie Tao, Jon Lipovetz, Kate Olszewska, Lukas Haas, Michelle Liu, Nate Keating, Adam Bloniarz, Carl Saroufim, Corey Fry, Dror Marcus, Doron Kukliansky, Gaurav Singh Tomar, James Swirhun, Jinwei Xing, Lily Wang, Madhu Gurumurthy, Michael Aaron, Moran Ambar, Rachana Fellinger, Rui Wang, Zizhao Zhang, Sasha Goldshtein, Dipanjan Das,
- Abstract要約: FACTS Groundingは、与えられた文脈に対して実際に正確であるテキストを生成する言語モデルの能力を評価する。
モデルは2つのフェーズで自動判断モデルを用いて評価される。
FACTSグラウンディングのリーダーボードは、時間とともにアクティブに維持される。
- 参考スコア(独自算出の注目度): 19.692322010161636
- License:
- Abstract: We introduce FACTS Grounding, an online leaderboard and associated benchmark that evaluates language models' ability to generate text that is factually accurate with respect to given context in the user prompt. In our benchmark, each prompt includes a user request and a full document, with a maximum length of 32k tokens, requiring long-form responses. The long-form responses are required to be fully grounded in the provided context document while fulfilling the user request. Models are evaluated using automated judge models in two phases: (1) responses are disqualified if they do not fulfill the user request; (2) they are judged as accurate if the response is fully grounded in the provided document. The automated judge models were comprehensively evaluated against a held-out test-set to pick the best prompt template, and the final factuality score is an aggregate of multiple judge models to mitigate evaluation bias. The FACTS Grounding leaderboard will be actively maintained over time, and contains both public and private splits to allow for external participation while guarding the integrity of the leaderboard. It can be found at https://www.kaggle.com/facts-leaderboard.
- Abstract(参考訳): FACTS Groundingはオンラインのリーダーボードと関連するベンチマークで、ユーザプロンプトの与えられたコンテキストに対して実際に正確なテキストを生成する言語モデルの性能を評価する。
ベンチマークでは、各プロンプトには、ユーザリクエストとフルドキュメントが含まれており、最大32kトークンで、長文の応答を必要とする。
長文の応答は、ユーザ要求を満たしながら、提供されたコンテキスト文書に完全に根ざすことが要求される。
1) 利用者の要求を満たさない場合は応答が不適格化され、(2) 提示された文書に応答が完全に根拠付けられている場合は、その応答が正確であると判断される。
自動判定モデルは、最高のプロンプトテンプレートを選択するために保持されたテストセットに対して総合的に評価され、最終的な事実性スコアは、評価バイアスを軽減するために複数の判定モデルの集合である。
FACTSグラウンディングのリーダーボードは、時間とともにアクティブに維持され、外部への参加を可能にするために、公開とプライベートの両方の分割が含まれている。
https://www.kaggle.com/facts- Leaderboard.comで見ることができる。
関連論文リスト
- Contextualized Evaluations: Taking the Guesswork Out of Language Model Evaluations [85.81295563405433]
言語モデルユーザーは、しばしば仕様を欠いたクエリを発行するが、クエリが発行されたコンテキストは明示的ではない。
提案手法は,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中に提供するプロトコルである。
その結果,1) モデルペア間の勝利率の反転,2) モデルペア間の勝利率の低下,2) パターンなどの表面レベル基準に基づく判断の少ない評価,3) 様々な文脈におけるモデル行動に関する新たな洞察の提供,といった結果が得られた。
論文 参考訳(メタデータ) (2024-11-11T18:58:38Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models [67.62126108440003]
マルチモーダルチャットモデルを評価するための新しいオープンベンチマークとフレームワークであるVibe-Evalを紹介する。
Vibe-Evalは、100の難易度を含む269の視覚的理解プロンプトで構成され、専門家によって書かれたゴールド標準応答が完備している。
本稿では,人間と自動評価のトレードオフについて論じるとともに,Reka Coreを用いた自動モデル評価が人的判断と大まかに相関していることを示す。
論文 参考訳(メタデータ) (2024-05-03T17:59:55Z) - RefuteBench: Evaluating Refuting Instruction-Following for Large Language Models [17.782410287625645]
本稿では,質問応答,機械翻訳,電子メール作成などのタスクをカバーするベンチマークRefuteBenchを提案する。
評価の目的は、モデルが反響命令の形で肯定的にフィードバックを受けられるか、会話を通してユーザー要求に一貫して従えられるかを評価することである。
論文 参考訳(メタデータ) (2024-02-21T01:39:56Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Evaluating Large Language Models for Document-grounded Response
Generation in Information-Seeking Dialogues [17.41334279810008]
情報検索対話の文脈において,ChatGPTのような大規模言語モデル(LLM)を用いた文書グラウンド応答生成について検討する。
評価には4つのソーシャルサービスドメインにおけるタスク指向対話のMultiDoc2Dialコーパスを用いる。
両方のChatGPT変異体は、おそらく幻覚の存在を含む関連セグメントに存在しない情報を含んでいる可能性が高いが、それらは共有タスクの勝利システムと人間の反応の両方よりも高い評価を受けている。
論文 参考訳(メタデータ) (2023-09-21T07:28:03Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Query Refinement Prompts for Closed-Book Long-Form Question Answering [21.776413623962515]
大規模言語モデル (LLM) は、質問への回答や長文生成においてよく機能することが示されている。
問合せにおける多面性を明確に表現することを促す問合せ改善プロンプトを定義した。
AsQA と AQuAMuSe の2つの長文質問応答データセットに対する実験により,提案手法を用いることで,クローズド・ブック・セッティングにおける完全微調整モデルよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-31T17:44:42Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。