論文の概要: Revisiting Parallel Context Windows: A Frustratingly Simple Alternative
and Chain-of-Thought Deterioration
- arxiv url: http://arxiv.org/abs/2305.15262v1
- Date: Wed, 24 May 2023 15:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:39:59.307820
- Title: Revisiting Parallel Context Windows: A Frustratingly Simple Alternative
and Chain-of-Thought Deterioration
- Title(参考訳): 並列コンテキストを再考する Windows: フラストレーションにシンプルな代替手段とチェーン・オブ・フォールト劣化
- Authors: Kejuan Yang, Xiao Liu, Kaiwen Men, Aohan Zeng, Yuxiao Dong, Jie Tang
- Abstract要約: 最近の並列統合手法であるParallel Context Windows (PCW) の評価における2つの重要な限界を同定する。
まず、簡単なが強いベースライン、重み付けされた和アンサンブルが、文脈内数ショットの分類に欠けていることを示す。
既存のPCW設計では,実世界のアプリケーションにおける長大な文書処理において,十分な改善と実用性は保証されない可能性が示唆された。
- 参考スコア(独自算出の注目度): 21.361442677969308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify two crucial limitations in the evaluation of recent
parallel-integrated method Parallel Context Windows (PCW), which extends the
maximum context lengths of language models, e.g., 2048 for LLaMA, by harnessing
window-wise attention and positional embedding techniques. We first show that a
simple yet strong baseline, weighted sum ensemble, is missing for the
in-context few-shot classification. Moreover, on more challenging
Chain-of-Thought (CoT) reasoning (e.g., HotpotQA), PCW would present unexpected
deterioration regarding question miscomprehension and false inference. Based on
our findings, we suggest that the existing PCW design may not guarantee
sufficient improvement and practicality in handling lengthy documents in
real-world applications. More community efforts on enabling language models'
long context understanding ability should be paid.
- Abstract(参考訳): 我々は,最近の並列統合手法であるParallel Context Windows (PCW)の評価において,LLaMAの2048のような言語モデルの最大コンテキスト長を拡張する2つの重要な制約を,ウィンドウワイドアテンションと位置埋め込み技術を用いて同定する。
まず,単純な重み付き和アンサンブルが,文脈内少数ショット分類では欠落していることを示す。
さらに、より挑戦的な CoT (Chain-of-Thought) 推論(HotpotQA など)では、PCW は問題理解と偽推論に関して予期せぬ劣化を示す。
この結果から,既存のPCW設計では,実世界のアプリケーションにおける文書の扱いにおいて,十分な改善と実用性は得られないことが示唆された。
言語モデルの長いコンテキスト理解能力を実現するためのコミュニティの努力は、報われるべきです。
関連論文リスト
- Unleashing Multi-Hop Reasoning Potential in Large Language Models through Repetition of Misordered Context [31.091013417498825]
文脈反復(CoRe)という,シンプルで効果的な手法を提案する。
CoReは、モデルに対して最適な順序でサポートドキュメントが提示されることを保証するために、コンテキストを繰り返し提示することで、モデルに促す。
マルチホップQAタスクではF1スコアが最大30%向上し,合成タスクでは最大70%向上した。
論文 参考訳(メタデータ) (2024-10-09T17:41:53Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。
重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。
我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文 参考訳(メタデータ) (2024-06-11T06:53:19Z) - SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation [23.203761925540736]
対話評価のためのフレームワークSLIDE(Small and Large Integrated for Dialogue Evaluation)を提案する。
本手法は, 分類タスクと評価タスクの両方において最先端のパフォーマンスを達成し, また, SLIDEは人的評価器との相関性も良好である。
論文 参考訳(メタデータ) (2024-05-24T20:32:49Z) - How Interpretable are Reasoning Explanations from Prompting Large Language Models? [34.4659592398593]
本稿では,多面的解釈可能性の評価を包括的かつ多面的に行い,信頼度だけでなく,コモンセンス推論ベンチマークにおける堅牢性や有用性についても検討する。
さらに,複数次元の解釈可能性に70%以上の改善をもたらす自己包括的アライメント・アライメント・オブ・シント(Self-Entailment-Alignment Chain-of-Thought)と呼ばれる,単純な解釈可能性アライメント手法を導入する。
論文 参考訳(メタデータ) (2024-02-19T06:11:28Z) - Generating Chain-of-Thoughts with a Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought [70.30423016640749]
CoT法(Chain-of- Thoughts)は、大規模言語モデルにステップバイステップの推論を誘導し、単純から複雑への問題解決を可能にする手法である。
大規模言語モデル (LLMs) による評価は、一般的にうるさく、信頼できないものであり、将来有望な中間的思考を選択する際の生成過程を誤解させる可能性がある。
本稿では,Vapnikの原理を動機として,ポイントワイドスコアではなくペアワイズ比較評価を用いて,有望な中間思考を探索する。
論文 参考訳(メタデータ) (2024-02-10T09:51:03Z) - Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context
Reasoning with Language Models [58.41943058963672]
我々はRecursion of Thought (RoT)と呼ばれる新しい推論フレームワークを提案する。
RoTはいくつかの特別なトークンを導入し、モデルが出力してコンテキスト関連の操作をトリガーする。
GPT-3を含む複数のアーキテクチャの実験により、RoTは問題を解くためにLMの推論能力を劇的に改善した。
論文 参考訳(メタデータ) (2023-06-12T06:34:16Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - Learning Implicitly with Noisy Data in Linear Arithmetic [94.66549436482306]
PAC-セマンティックスにおける暗黙学習を拡張し、線形算術の言語における間隔としきい値の不確実性を扱う。
最適線形プログラミング対象制約の学習に対する我々の暗黙的アプローチは、実際的な明示的アプローチよりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2020-10-23T19:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。