論文の概要: ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models
- arxiv url: http://arxiv.org/abs/2403.20262v3
- Date: Fri, 17 Jan 2025 09:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:58:33.612840
- Title: ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models
- Title(参考訳): ELITR-Bench: 長期言語モデルのための会議アシスタントベンチマーク
- Authors: Thibaut Thonet, Jos Rozen, Laurent Besacier,
- Abstract要約: 本稿では,現実的な会議支援シナリオに着目した長文LLMのための新しいベンチマークを提案する。
当社のベンチマークであるELITR-Benchは、既存のERLITRコーパスを拡張し、271の質問を手作業で行うことで、真真正な回答を与えています。
ELITR-Bench上の12個の長文LLMによる実験により、プロプライエタリモデルとオープンモデルの両方の世代間で進行が確認された。
- 参考スコア(独自算出の注目度): 25.74741863885925
- License:
- Abstract: Research on Large Language Models (LLMs) has recently witnessed an increasing interest in extending the models' context size to better capture dependencies within long documents. While benchmarks have been proposed to assess long-range abilities, existing efforts primarily considered generic tasks that are not necessarily aligned with real-world applications. In contrast, we propose a new benchmark for long-context LLMs focused on a practical meeting assistant scenario in which the long contexts consist of transcripts obtained by automatic speech recognition, presenting unique challenges for LLMs due to the inherent noisiness and oral nature of such data. Our benchmark, ELITR-Bench, augments the existing ELITR corpus by adding 271 manually crafted questions with their ground-truth answers, as well as noisy versions of meeting transcripts altered to target different Word Error Rate levels. Our experiments with 12 long-context LLMs on ELITR-Bench confirm the progress made across successive generations of both proprietary and open models, and point out their discrepancies in terms of robustness to transcript noise. We also provide a thorough analysis of our GPT-4-based evaluation, including insights from a crowdsourcing study. Our findings indicate that while GPT-4's scores align with human judges, its ability to distinguish beyond three score levels may be limited.
- Abstract(参考訳): 大規模言語モデル(LLMs)の研究は、長いドキュメント内の依存関係をよりよく捉えるために、モデルのコンテキストサイズを拡張することへの関心が高まっているのを最近目撃した。
ベンチマークは長距離能力を評価するために提案されているが、既存の取り組みは、必ずしも現実世界のアプリケーションと一致しない汎用的なタスクを主に検討している。
これとは対照的に,本研究では,音声認識によって得られた文章から長いコンテキストを抽出し,そのようなデータの本質的ノイズや口頭的特性からLLMに固有の課題を提示する,実践的な会議支援シナリオに焦点をあてた,長文LLMの新しいベンチマークを提案する。
我々のベンチマークであるELITR-Benchは、既存のERLITRコーパスを拡張し、271人の手作業による質問と、異なるワードエラー率レベルを目標に修正された会議用テキストのノイズバージョンを追加しました。
ELITR-Bench上の12個の長文LLMによる実験により、プロプライエタリモデルとオープンモデルの両方の世代間で進行が確認され、転写ノイズに対するロバスト性の観点からそれらの相違点が指摘される。
また,クラウドソーシング研究の知見を含む,GPT-4に基づく評価の徹底的な分析を行った。
以上の結果から, GPT-4のスコアはヒトの判定値と一致しているが, 3点以上のスコアを識別できる能力は限られている可能性が示唆された。
関連論文リスト
- IdentifyMe: A Challenging Long-Context Mention Resolution Benchmark [22.238377215355545]
IdentifyMeは、Multiple-choice question (MCQ)形式で提示された参照解決のための新しいベンチマークである。
我々は,最先端のサブ10Bオープンモデルとクローズドモデルとの顕著な性能差を観察する。
最も高いスコア付けモデルであるGPT-4oは81.9%の精度を実現し、最先端のLCMの強力な参照能力を強調している。
論文 参考訳(メタデータ) (2024-11-12T01:05:55Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。
テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。
以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文 参考訳(メタデータ) (2024-05-17T03:50:28Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Counting-Stars: A Multi-evidence, Position-aware, and Scalable Benchmark for Evaluating Long-Context Large Language Models [14.906150451947443]
textbfCounting-Starsは、長文LLMのマルチエビデンス検索能力を評価するために設計されたマルチエビデンス、位置認識、スケーラブルなベンチマークである。
我々は, GPT-4 Turbo, Gemini 1.5 Pro, Claude3 Opus, GLM-4, Moonshot-v1 などの長文 LLM の評価実験を行った。
Gemini 1.5 Proは、GPT-4 Turboは、様々なタスクで最も安定したパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-18T14:01:45Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。