論文の概要: Logic Haystacks: Probing LLMs Long-Context Logical Reasoning (Without Easily Identifiable Unrelated Padding)
- arxiv url: http://arxiv.org/abs/2502.17169v1
- Date: Mon, 24 Feb 2025 14:05:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:09.696547
- Title: Logic Haystacks: Probing LLMs Long-Context Logical Reasoning (Without Easily Identifiable Unrelated Padding)
- Title(参考訳): Logic Haystacks:LLMの長期論理推論を (簡単に識別できない無関係なパディングなしで)探す
- Authors: Damien Sileo,
- Abstract要約: 最大2048節にまたがる一階述語論理表現を持つ長文の英文を生成する。
矛盾検出のための証拠検索による評価タスクを定式化する。
証拠検索評価の結果,実効性のあるコンテキストウィンドウは現実的な邪魔者よりもはるかに小さく,すでに128節まで崩壊していることがわかった。
- 参考スコア(独自算出の注目度): 0.6537995248511139
- License:
- Abstract: Large language models demonstrate promising long context processing capabilities, with recent models touting context windows close to one million tokens. However, the evaluations supporting these claims often involve simple retrieval tasks or synthetic tasks padded with irrelevant text, which the models may easily detect and discard. In this work, we generate lengthy simplified English text with first-order logic representations spanning up to 2048 clauses (around 25k GPT-4 tokens). We formulate an evaluation task with evidence retrieval for contradiction detection. The long, homogeneous text is filled with distractors that are both hard to distinguish from relevant evidences and provably not interfering with them. Our evaluation of evidence retrieval shows that the effective context window is much smaller with realistic distractors, already crumbling at 128 clauses.
- Abstract(参考訳): 大規模言語モデルは有望な長期のコンテキスト処理能力を示し、最近のモデルは100万のトークンに近づいたコンテキストウィンドウを宣伝している。
しかし、これらの主張を支持する評価には、単純な検索タスクや、無関係なテキストを詰め込んだ合成タスクが伴うことが多く、モデルが容易に検出・破棄することができる。
本研究では,最大2048節(約25k GPT-4トークン)にまたがる一階述語論理表現を用いた長大な英語テキストを生成する。
矛盾検出のための証拠検索による評価タスクを定式化する。
長く均質なテキストは、関連する証拠と区別するのが困難で、確実にそれらと干渉しない、気晴らしで満たされている。
証拠検索評価の結果,実効性のあるコンテキストウィンドウは現実的な邪魔者よりもはるかに小さく,すでに128節で崩壊していることがわかった。
関連論文リスト
- NoLiMa: Long-Context Evaluation Beyond Literal Matching [100.00398424275501]
最近の大規模言語モデル(LLM)は、128Kから1Mトークンのコンテキストをサポートする。
我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する12の人気のあるLCMを評価した。
短いコンテキストではうまく機能するが、コンテキストの長さが増加するにつれてパフォーマンスは著しく低下する。
論文 参考訳(メタデータ) (2025-02-07T18:49:46Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [44.84219266082269]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Training Large Language Models to Reason in a Continuous Latent Space [84.5618790930725]
我々は,制約のない潜在空間における大規模言語モデル(LLM)推論の可能性を探るため,新しいパラダイムであるCoconut (Chain of Continuous Thought)を導入する。
実験により、ココナッツはいくつかの推論タスクにおいてLLMを効果的に増強できることが示されている。
これらの知見は、潜伏推論の可能性を実証し、将来の研究に価値ある洞察を与える。
論文 参考訳(メタデータ) (2024-12-09T18:55:56Z) - Explicating the Implicit: Argument Detection Beyond Sentence Boundaries [24.728886446551577]
本稿では,文境界を越えた意味的関係を捉えるために,文内包による議論検出の問題を再検討する。
本手法は直接監視を必要としないが,データセット不足のため一般的には欠落している。
近年の文書レベルのベンチマークでは、教師付き手法や現代言語モデルよりも優れています。
論文 参考訳(メタデータ) (2024-08-08T06:18:24Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。
事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。
本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z) - Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation [5.043563227694139]
大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。
各種の命令調整型LMの自己コントラクションに関する包括的調査を行う。
本稿では,自己矛盾を効果的に検出・緩和する新しいプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T08:43:46Z) - Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango [11.344587937052697]
この研究は、大規模言語モデルにおける推論機構のより深い理解に向けた予備的なステップを開始する。
私たちの作業は、シンボル、パターン、テキストというプロンプト内のコンポーネントの1つを除いて、モデルをクエリすることに集中しています。
我々は、テキストがパターンに常識的な知識と意味を与えると仮定する。
論文 参考訳(メタデータ) (2022-09-16T02:54:00Z) - PROMPT WAYWARDNESS: The Curious Case of Discretized Interpretation of
Continuous Prompts [99.03864962014431]
目標タスクの微調整連続プロンプトは、フルモデルの微調整に代わるコンパクトな代替品として登場した。
実際には、連続的なプロンプトによって解決されたタスクと、最も近い隣人との間の「方向」の挙動を観察する。
論文 参考訳(メタデータ) (2021-12-15T18:55:05Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。