Fugu-MT 論文翻訳(概要): LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

論文の概要: LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

arxiv url: http://arxiv.org/abs/2409.02897v2
Date: Thu, 5 Sep 2024 03:53:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 12:05:46.067342
Title: LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA
Title（参考訳）: LongCite:Lum-context QAにおける微粒化生成のためのLLMの導入
Authors: Jiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li,
Abstract要約: 長文大言語モデル (LLM) は、広範囲なテキストに基づいてユーザの質問に答える能力を示す。応答における引用の欠如は、ユーザの検証を難しくし、信頼性への懸念を引き起こす。我々は,長文LLMが文レベルのきめ細かな引用で応答を生成できるようにし,その忠実さと妥当性を向上させることを目的としている。
参考スコア（独自算出の注目度）: 52.30374900597116
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Though current long-context large language models (LLMs) have demonstrated impressive capacities in answering user questions based on extensive text, the lack of citations in their responses makes user verification difficult, leading to concerns about their trustworthiness due to their potential hallucinations. In this work, we aim to enable long-context LLMs to generate responses with fine-grained sentence-level citations, improving their faithfulness and verifiability. We first introduce LongBench-Cite, an automated benchmark for assessing current LLMs' performance in Long-Context Question Answering with Citations (LQAC), revealing considerable room for improvement. To this end, we propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs to automatically generate long-context QA instances with precise sentence-level citations, and leverage this pipeline to construct LongCite-45k, a large-scale SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the LongCite-45k dataset, successfully enabling their generation of accurate responses and fine-grained sentence-level citations in a single output. The evaluation results on LongBench-Cite show that our trained models achieve state-of-the-art citation quality, surpassing advanced proprietary models including GPT-4o.
Abstract（参考訳）: 現在のLong-Context Large Language Model (LLM) は、広範囲なテキストに基づいてユーザーの質問に答える能力が顕著であることを示しているが、その回答に引用がないことは、ユーザの検証を困難にしており、彼らの幻覚の可能性を懸念している。本研究では,長文LLMが文レベルのきめ細かな引用で応答を生成できるようにし,その忠実さと妥当性を向上させることを目的とする。最初にLongBench-Citeを紹介した。これはLong-Context Question Answering with Citations (LQAC)において、現在のLLMのパフォーマンスを評価するための自動ベンチマークであり、改善の余地があることを明らかにする。そこで本研究では,LQAC用の大規模SFTデータセットであるLongCite-45kを構築するために,LongCite-45kを構築するために,既製のLLMを用いて,文レベルの精度の高い長文QAインスタンスを自動的に生成する新しいパイプラインであるCoF(Coarse to Fine)を提案する。最後に,LongCite-45kデータセットを用いてLongCite-8BとLongCite-9Bをトレーニングし,精度の高い応答生成と文レベルのきめ細かい引用を単一出力で実現する。また,LongBench-Citeの評価結果から,GPT-4oを含む先進的なプロプライエタリモデルを上回る,最先端の励磁品質が得られることが示された。

関連論文リスト

Beyond Length: Quantifying Long-Range Information for Long-Context LLM Pretraining Data [67.46386646195818]
我々はLongFilterを紹介した。LongFilterは、長文事前学習に適したトレーニングデータをキュレートするフレームワークである。 LongFilterは、長いコンテキスト下でのモデル予測と短いコンテキスト設定の対比によって、拡張コンテキストによって提供される情報ゲインを測定する。 LLaMA-3-8Bによる実験は、コンテキスト長を8Kから64Kに拡張し、LongFilterが効率よく高品質のデータを選択し、HELMET、LongBench、RULERなどのベンチマークで大幅に改善されていることを示している。
論文参考訳（メタデータ） (2025-10-29T06:21:08Z)
NeedleChain: Measuring Intact Long-Context Reasoning Capability of Large Language Models [7.134358758293254]
Needle-in-a-Haystackベンチマークは、長期文脈(LC)を理解するLarge Language Models(LLM)能力を評価するために広く利用されている。 GPT-4oのような最先端モデルでさえ、クエリ関連10文のみからなる与えられたコンテキストをそのまま組み込むのに苦労していることを実証する。我々は新しいベンチマークである textbfNeedleChain を導入し、そのコンテキストはクエリ関連情報から成り立っている。
論文参考訳（メタデータ） (2025-07-30T06:29:50Z)
100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。 LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文参考訳（メタデータ） (2025-05-25T19:58:31Z)
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization [49.37607974207405]
LongPOはショート・ツー・ロングの嗜好データを利用して、ショート・コンテクストの機能をロング・コンテクストのタスクに転送する。 LongPOは短文性能を完全に保持し、長文タスクと短文タスクの両方において単純 SFT と DPO をほぼ上回っている。
論文参考訳（メタデータ） (2025-02-19T17:59:03Z)
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models [51.90867482317985]
SelfCiteは、生成されたレスポンスの文に対して、きめ細かい文レベルの引用を生成する、自己教師型アプローチである。 SelfCiteの有効性は、LongBench-Citeベンチマークにおいて、引用F1を5.3ポイントまで増やすことによって示される。
論文参考訳（メタデータ） (2025-02-13T18:55:13Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文参考訳（メタデータ） (2024-10-04T08:29:12Z)
DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文参考訳（メタデータ） (2024-09-04T06:28:22Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。データマイニングフレームワーク textbfProLong を提案する。複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文参考訳（メタデータ） (2024-05-28T07:36:56Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。 2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。 LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文参考訳（メタデータ） (2023-11-08T01:45:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。