論文の概要: CLIPPER: Compression enables long-context synthetic data generation
- arxiv url: http://arxiv.org/abs/2502.14854v1
- Date: Thu, 20 Feb 2025 18:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:47.490459
- Title: CLIPPER: Compression enables long-context synthetic data generation
- Title(参考訳): CLIPPER: Compressionは、長文合成データ生成を可能にする
- Authors: Chau Minh Pham, Yapei Chang, Mohit Iyyer,
- Abstract要約: ナラティブなクレーム検証に適した合成データを生成するための圧縮ベースのアプローチであるCLIPPERを紹介する。
そこで本研究では,19万冊の合成本を,その原文とチェーン・オブ・シークレットの推論に組み合わせたデータセットを構築した。
我々の最良のモデルは、物語的クレーム検証(テストセットで28%から76%の精度)におけるブレークスルー結果を達成し、サブ10Bモデルの新たな最先端モデルを設定します。
- 参考スコア(独自算出の注目度): 33.09577126461093
- License:
- Abstract: LLM developers are increasingly reliant on synthetic data, but generating high-quality data for complex long-context reasoning tasks remains challenging. We introduce CLIPPER, a compression-based approach for generating synthetic data tailored to narrative claim verification - a task that requires reasoning over a book to verify a given claim. Instead of generating claims directly from the raw text of the book, which results in artifact-riddled claims, CLIPPER first compresses the book into chapter outlines and book summaries and then uses these intermediate representations to generate complex claims and corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces claims that are more valid, grounded, and complex. Using CLIPPER, we construct a dataset of 19K synthetic book claims paired with their source texts and chain-of-thought reasoning, and use it to fine-tune three open-weight models. Our best model achieves breakthrough results on narrative claim verification (from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for sub-10B models on the NoCha leaderboard. Further analysis shows that our models generate more detailed and grounded chain-of-thought reasoning while also improving performance on other narrative understanding tasks (e.g., NarrativeQA).
- Abstract(参考訳): LLM開発者は、合成データにますます依存しているが、複雑な長文推論タスクのための高品質なデータを生成することは、依然として困難である。
CLIPPERは、物語的クレーム検証に適した合成データを生成するための圧縮ベースのアプローチであり、あるクレームを検証するために本を推論する必要があるタスクである。
書籍の原文から直接クレームを生成するのではなく、CLIPPERはまず本を章のアウトラインと本要約に圧縮し、これらの中間表現を使用して複雑なクレームとそれに対応するチェーン・オブ・シンクレットを生成する。
ナイーブなアプローチと比較して、CLIPPERはより有効で、基礎があり、複雑であるクレームを生成する。
CLIPPERを用いて、ソースコードとチェーン・オブ・シークレットの推論と組み合わせた19Kの合成本クレームのデータセットを構築し、それを3つのオープンウェイトモデルの微調整に利用する。
我々の最良のモデルは、ナラティブクレームの検証(テストセットで28%から76%の精度)におけるブレークスルーの結果を達成し、NoChaのリーダーボード上で、サブ10Bモデルの新たな最先端のモデルを設定します。
さらに分析したところ、我々のモデルはより詳細で基礎的な連鎖推論を生成しつつ、他の物語理解タスク(ナラティブQAなど)の性能を改善していることがわかった。
関連論文リスト
- FactCG: Enhancing Fact Checkers with Graph-Based Multi-Hop Data [13.108807408880645]
本稿では,文書から抽出したコンテキストグラフのマルチホップ推論を利用した合成データ生成手法であるCG2Cを提案する。
我々のファクトチェッカーモデルであるFactCGは、同じバックボーンモデルを用いて、より接続された推論によるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2025-01-28T18:45:07Z) - TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data [9.390415313514762]
TARGAは、手動のアノテーションなしで高関連性合成データを生成するフレームワークである。
これは、クローズソースモデルを使用する既存の非微調整手法よりも大幅に優れている。
非I.I.D.設定下では、優れたサンプル効率、堅牢性、一般化能力を示す。
論文 参考訳(メタデータ) (2024-12-27T09:16:39Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。