論文の概要: An Effective Framework to Help Large Language Models Handle Numeric-involved Long-context Tasks
- arxiv url: http://arxiv.org/abs/2411.10145v1
- Date: Fri, 15 Nov 2024 12:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:32.088186
- Title: An Effective Framework to Help Large Language Models Handle Numeric-involved Long-context Tasks
- Title(参考訳): 大規模言語モデルによる長文タスクの処理を支援する効果的なフレームワーク
- Authors: Yijiong Yu,
- Abstract要約: 大きな言語モデル(LLM)は、長いテキストを扱う際、顕著な能力を示した。
長文の数値計算では,その性能は著しく低下する。
本稿では,数値型長文タスクを4つの低レベルサブタスクに分解するワークフローを提案する。
2つの数値付き長期コンテキストベンチマークの結果は、ワークフローが精度を向上できるだけでなく、API呼び出しのコストを大幅に削減できることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in handling long texts and have almost perfect performance in traditional retrieval tasks. However, their performance significantly degrades when it comes to numerical calculations in the long-context. Numeric-involved long-context tasks typically cannot be addressed by current LLMs in normal settings due to their inherent limitations in simultaneously handling complex and massive information. Some CoT like prompting methods can improve accuracy but demands massive output tokens, which is costly and slow. To address this issue, we propose a workflow, which decompose a numeric-involved long-context task into 4 low-level subtasks: judging, extracting and processing with code and conclusion. The former 2 subtasks is relatively simple, which allows us to use smaller models for efficiently processing long context. When numerical calculations are required, we use code generated by LLMs to avoid the disadvantage of LLM not being good at calculations. The results in 2 numeric-involved long-context benchmarks demonstrate our workflow can not only improve accuracy, but also significantly reduce the cost of API calls.
- Abstract(参考訳): LLM(Large Language Models)は、長いテキストを扱う際、顕著な能力を示し、従来の検索タスクでほぼ完璧に機能する。
しかし、長文の数値計算では、その性能は著しく低下する。
数値に関連付けられた長いコンテキストタスクは、複雑な情報と大量の情報の同時処理に固有の制限があるため、通常設定では現在のLLMでは対処できないことが多い。
一部のCoTは、プロンプト方式は精度を向上させるが、大量の出力トークンを必要とする。
この問題に対処するため、我々は、数値型長文タスクを4つの低レベルなサブタスクに分解するワークフローを提案し、コードと結論による判断、抽出、処理を行う。
従来の2つのサブタスクは比較的単純で、より小さなモデルを使って長いコンテキストを効率的に処理することができる。
数値計算が必要な場合、LLMが生成したコードを用いて計算が得意でないLLMの不利を回避する。
2つの数値付き長期コンテキストベンチマークの結果は、ワークフローが精度を向上できるだけでなく、API呼び出しのコストを大幅に削減できることを示している。
関連論文リスト
- Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Steering Large Language Models between Code Execution and Textual Reasoning [22.279107036500083]
テキスト推論は、数学、論理学、最適化、探索における課題を伴うタスクの解決に固有の制限がある。
最近リリースされたOpenAI GPT Code InterpreterとAutoGenのようなマルチエージェントフレームワークは、コード生成と実行を統合するのに顕著な能力を示している。
LLMのコード/テキスト生成を良くし、顕著な改善を実現するための3つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:44:47Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Learning to Perform Complex Tasks through Compositional Fine-Tuning of
Language Models [20.173322408302134]
構成微調整は、対象タスクをコンポーネントタスクに明示的に分解するアプローチである。
CFTは、同じ量のデータでもエンド・ツー・エンドの学習より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-23T03:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。