Fugu-MT 論文翻訳(概要): How Effective Is Self-Consistency for Long-Context Problems?

論文の概要: How Effective Is Self-Consistency for Long-Context Problems?

arxiv url: http://arxiv.org/abs/2411.01101v1
Date: Sat, 02 Nov 2024 01:52:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.599445
Title: How Effective Is Self-Consistency for Long-Context Problems?
Title（参考訳）: 長期的問題に対する自己整合性はどの程度有効か?
Authors: Adam Byerly, Daniel Khashabi,
Abstract要約: 大規模言語モデル(LLM)の性能向上のために,自己整合性(SC)が実証されている。本研究では,LLMが位置バイアスに苦しむ長文シナリオにおけるSCの役割について検討した。
参考スコア（独自算出の注目度）: 18.633918831942434
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-consistency (SC) has been demonstrated to enhance the performance of large language models (LLMs) across various tasks and domains involving short content. However, does this evidence support its effectiveness for long-context problems? This study examines the role of SC in long-context scenarios, where LLMs often struggle with position bias, hindering their ability to utilize information effectively from all parts of their long input context. We examine a range of design parameters, including different models, context lengths, prompt formats, and types of datasets and tasks. Our findings demonstrate that SC, while effective for short-context problems, fundamentally fails for long-context tasks -- not only does it fail to mitigate position bias, but it can also actively degrade performance. We observe that the effectiveness of SC varies with context length and model size but remains mainly unaffected by prompt format or task type. These results provide valuable insight into the limitations of current LLMs in long-context understanding and highlight the need for more sophisticated approaches to address position bias in these models.
Abstract（参考訳）: 自己整合性(SC)は、様々なタスクや短いコンテンツを含む領域にわたる大規模言語モデル(LLM)の性能を高めるために実証されている。しかし、この証拠は長文問題に対する有効性を支持するのだろうか? 本研究では、LLMが位置バイアスに苦しむ長期文脈におけるSCの役割について検討し、長い入力コンテキストの全ての部分から情報を効果的に活用する能力を阻害する。さまざまなモデルやコンテキスト長,プロンプトフォーマット,データセットやタスクの種類など,さまざまな設計パラメータについて検討する。その結果,SCは短文問題に有効であるが,基本的には長文タスクに失敗し,位置バイアスを緩和するだけでなく,能動的に性能を低下させることができることがわかった。 SCの有効性は文脈長やモデルサイズによって異なるが,プロンプト形式やタスクタイプの影響を受けないままである。これらの結果は、長期コンテキスト理解における現在のLLMの限界についての貴重な洞察を与え、これらのモデルにおける位置バイアスに対処するより洗練されたアプローチの必要性を強調する。

関連論文リスト

Long-Short Alignment for Effective Long-Context Modeling in LLMs [32.13785291956956]
大きな言語モデル(LLM)は、驚くべきパフォーマンスと驚くべき創発的な特性を示しています。長さの一般化 -- トレーニング中に見られるものよりも長いシーケンスに一般化する能力 -- は、古典的で基本的な問題である。 textbflong-shortアライメント -- 長さの異なるシーケンス間の出力分布の一貫性 -- の重要な役割を強調します。
論文参考訳（メタデータ） (2025-06-13T13:25:39Z)
Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision [40.63870977649693]
Chain-of-Thoughtプロンプトは、多段階推論を約束するが、長文シナリオの有効性は未検討のままである。本稿では,LongRePSを提案する。LongRePSは,長いコンテキスト性能を向上させるための高品質な推論経路をモデルに教えるフレームワークである。本フレームワークには,推論パスをブートストラップする自己サンプリング機構と,長期シナリオ用に設計された新しい品質評価プロトコルが組み込まれている。
論文参考訳（メタデータ） (2025-02-28T07:15:12Z)
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization [49.37607974207405]
LongPOはショート・ツー・ロングの嗜好データを利用して、ショート・コンテクストの機能をロング・コンテクストのタスクに転送する。 LongPOは短文性能を完全に保持し、長文タスクと短文タスクの両方において単純 SFT と DPO をほぼ上回っている。
論文参考訳（メタデータ） (2025-02-19T17:59:03Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models [62.698520962933195]
LVLM(Large Vision-Language Models)は、クロスモデルタスクでは優れているが、長文推論ではパフォーマンスが低下する。そこで本研究では,重要でないテキスト情報を選択的に除去する,学習不要なコンテキストプルーニング手法を提案する。
論文参考訳（メタデータ） (2024-10-25T17:59:09Z)
FltLM: An Intergrated Long-Context Large Language Model for Effective Context Filtering and Understanding [32.197113821638936]
我々は,新しいLong-Context Large Language Model (FltLM)を提案する。 FltLMはコンテキストフィルタをソフトマスク機構に組み込み、関連する情報に集中するために無関係な内容を特定し、動的に排除する。実験の結果,複雑なQAシナリオにおいて,FltLMは教師付き微調整法や検索法よりも優れていた。
論文参考訳（メタデータ） (2024-10-09T13:47:50Z)
A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文参考訳（メタデータ） (2024-09-18T17:53:17Z)
Stress-Testing Long-Context Language Models with Lifelong ICL and Task Haystack [33.178008350124315]
長文言語モデル(LM)に挑戦し、テキスト内学習(ICL)を通して言語タスクのシーケンスから学習する問題設定であるLifelong ICLを導入する。長文LMがLifelong ICLのコンテキストをどのように利用するかを評価し診断するための評価スイートであるTask Haystackを紹介する。
論文参考訳（メタデータ） (2024-07-23T17:57:41Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。 2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。 LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文参考訳（メタデータ） (2023-11-08T01:45:37Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)
Unlocking Context Constraints of LLMs: Enhancing Context Efficiency of LLMs with Self-Information-Based Content Filtering [4.1372815372396525]
本稿では,少ない情報内容のフィルタリングに自己情報を利用するtextitSelective Contextを提案する。我々は,複数のデータソースにまたがる要約と質問応答のタスクに対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-24T13:55:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。