Fugu-MT 論文翻訳(概要): ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models

論文の概要: ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models

arxiv url: http://arxiv.org/abs/2403.20262v2
Date: Mon, 22 Jul 2024 17:24:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 02:11:12.788604
Title: ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models
Title（参考訳）: ELITR-Bench: 長期言語モデルのための会議アシスタントベンチマーク
Authors: Thibaut Thonet, Jos Rozen, Laurent Besacier,
Abstract要約: 本稿では,現実的な会議支援シナリオに基づく長期コンテキストモデルのための新しいベンチマークを提案する。 ELITR-Benchという名前のベンチマークでは、既存のERLITRコーパスの書き起こしを271の手作業による質問と、その真真正な回答で強化しています。以上の結果から,GPT-4の評価スコアは人間の判断値と相関するが,3つ以上の評価値と区別できる能力は限定的である可能性が示唆された。
参考スコア（独自算出の注目度）: 25.74741863885925
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Research on Large Language Models (LLMs) has recently witnessed an increasing interest in extending models' context size to better capture dependencies within long documents. While benchmarks have been proposed to assess long-range abilities, existing efforts primarily considered generic tasks that are not necessarily aligned with real-world applications. In contrast, our work proposes a new benchmark for long-context LLMs focused on a practical meeting assistant scenario. In this scenario, the long contexts consist of transcripts obtained by automatic speech recognition, presenting unique challenges for LLMs due to the inherent noisiness and oral nature of such data. Our benchmark, named ELITR-Bench, augments the existing ELITR corpus' transcripts with 271 manually crafted questions and their ground-truth answers. Our experiments with recent long-context LLMs on ELITR-Bench highlight a gap between open-source and proprietary models, especially when questions are asked sequentially within a conversation. We also provide a thorough analysis of our GPT-4-based evaluation method, encompassing insights from a crowdsourcing study. Our findings suggest that while GPT-4's evaluation scores are correlated with human judges', its ability to differentiate among more than three score levels may be limited.
Abstract（参考訳）: 大規模言語モデル(LLMs)の研究は、長いドキュメント内の依存関係をよりよく捉えるために、モデルのコンテキストサイズを拡張することへの関心が高まっているのを最近目撃した。ベンチマークは長距離能力を評価するために提案されているが、既存の取り組みは、必ずしも現実世界のアプリケーションと一致しない汎用的なタスクを主に検討している。対照的に,本研究では,現実的な会議支援シナリオに着目した長文LLMのための新しいベンチマークを提案する。このシナリオでは、長いコンテキストは自動音声認識によって得られた転写物から成り、そのようなデータの本質的なノイズと口頭における性質から、LSMに固有の課題を提示する。 ELITR-Benchという名前のベンチマークでは、既存のERLITRコーパスの書き起こしを271の手作業による質問と、その真真正な回答で強化しています。 ELITR-Bench上でのLLMによる最近の実験は、オープンソースモデルとプロプライエタリモデルとのギャップを浮き彫りにした。また,クラウドソーシング研究から得られた知見を包含して,GPT-4に基づく評価手法の徹底的な分析を行った。以上の結果から,GPT-4の評価スコアは人間の判断値と相関するが,3つ以上の評価値と区別できる能力は限定的である可能性が示唆された。

関連論文リスト

GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文参考訳（メタデータ） (2026-02-09T11:44:15Z)
ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding [49.67493845115009]
ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
論文参考訳（メタデータ） (2025-10-12T11:11:20Z)
Ref-Long: Benchmarking the Long-context Referencing Capability of Long-context Language Models [36.69535336525585]
長文言語モデル(LCLM)は、長文理解タスクにおいて印象的な機能を示した。長文参照は、LCLMが関心のある項目を長文データの特定の部分に属性付けする必要がある重要なタスクである。本稿では,LCLMの長文参照能力を評価するための新しいベンチマークであるRef-Longを提案する。
論文参考訳（メタデータ） (2025-07-13T06:17:53Z)
A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文参考訳（メタデータ） (2025-06-03T14:23:06Z)
Sequential-NIAH: A Needle-In-A-Haystack Benchmark for Extracting Sequential Needles from Long Contexts [20.901983944214532]
本研究では,長期の文脈から逐次情報を抽出する大規模言語モデルの能力を評価するためのベンチマークであるSequential-NIAHを紹介する。ベンチマークには3つの針生成パイプラインが含まれている: 合成時間、実時間、実時間、実時間、コンテキストの長さは8Kから128Kである。我々は6つのよく知られたLCM実験を行い、最も優れたモデルでさえ、このベンチマークのテストセットで63.50%の最大精度を達成できたことを明らかにした。
論文参考訳（メタデータ） (2025-04-07T03:50:12Z)
IdentifyMe: A Challenging Long-Context Mention Resolution Benchmark [22.238377215355545]
IdentifyMeは、Multiple-choice question (MCQ)形式で提示された参照解決のための新しいベンチマークである。我々は,最先端のサブ10Bオープンモデルとクローズドモデルとの顕著な性能差を観察する。最も高いスコア付けモデルであるGPT-4oは81.9%の精度を実現し、最先端のLCMの強力な参照能力を強調している。
論文参考訳（メタデータ） (2024-11-12T01:05:55Z)
ETHIC: Evaluating Large Language Models on Long-Context Tasks with High Information Coverage [21.036912648701264]
本稿では,クエリの応答に必要な入力コンテキストの割合を定量化する,情報カバレッジ(IC)と呼ばれる新しい指標を提案する。 ETHICは、LLMがコンテキスト全体を活用する能力を評価するために設計された新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-22T09:35:42Z)
PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文参考訳（メタデータ） (2024-10-04T07:29:41Z)
DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文参考訳（メタデータ） (2024-09-04T06:28:22Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Exploring Large Language Models for Relevance Judgments in Tetun [0.03683202928838613]
本稿では,大規模言語モデル(LLM)による妥当性評価の自動化の可能性について検討する。 LLMは、Tetunで一連のクエリドキュメントペアを入力テキストとして提供することにより、関連判断タスクを自動化するために使用される。本研究は,高ソース言語研究において報告された結果と密接に一致した結果を明らかにする。
論文参考訳（メタデータ） (2024-06-11T14:28:24Z)
Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文参考訳（メタデータ） (2024-05-17T03:50:28Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
Counting-Stars: A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models [14.906150451947443]
textbfCounting-Starsは、長文LLMのマルチエビデンス検索能力を評価するために設計されたマルチエビデンス、位置認識、スケーラブルなベンチマークである。我々は, GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, Moonshot-v1 などの長文 LLM の評価実験を行った。 Gemini 1.5 Proは、GPT-4 Turboは、様々なタスクで最も安定したパフォーマンスを示す。
論文参考訳（メタデータ） (2024-03-18T14:01:45Z)
Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。我々は、各エージェントに画像の共有と反応の能力を持たせる。生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文参考訳（メタデータ） (2024-02-27T18:42:31Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)
SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。 SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文参考訳（メタデータ） (2022-12-20T18:39:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。