Fugu-MT 論文翻訳(概要): Compositional Hardness of Code in Large Language Models -- A Probabilistic Perspective

論文の概要: Compositional Hardness of Code in Large Language Models -- A Probabilistic Perspective

arxiv url: http://arxiv.org/abs/2409.18028v1
Date: Thu, 26 Sep 2024 16:34:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-28 16:26:02.237444
Title: Compositional Hardness of Code in Large Language Models -- A Probabilistic Perspective
Title（参考訳）: 大規模言語モデルにおけるコード構成の硬さ-確率論的視点
Authors: Yotam Wolf, Binyamin Rothberg, Dorin Shteyman, Amnon Shashua,
Abstract要約: 大規模言語モデル(LLM)における一般的なプラクティスは、モデルのコンテキストウィンドウ内のタスク全体に対するソリューションをサンプリングすることである。これまでの研究では、モデルのコンテキスト内でのサブタスク分解がそのようなタスクの解決に有用であることが示されている。
参考スコア（独自算出の注目度）: 6.911107705494142
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A common practice in large language model (LLM) usage for complex analytical tasks such as code generation, is to sample a solution for the entire task within the model's context window. Previous works have shown that subtask decomposition within the model's context (chain of thought), is beneficial for solving such tasks. In this work, we point a limitation of LLMs' ability to perform several sub-tasks within the same context window - an in-context hardness of composition, pointing to an advantage for distributing a decomposed problem in a multi-agent system of LLMs. The hardness of composition is quantified by a generation complexity metric, i.e., the number of LLM generations required to sample at least one correct solution. We find a gap between the generation complexity of solving a compositional problem within the same context relative to distributing it among multiple agents, that increases exponentially with the solution's length. We prove our results theoretically and demonstrate them empirically.
Abstract（参考訳）: コード生成のような複雑な分析タスクにLLM(Big Language Model)を使用する一般的な方法は、モデルのコンテキストウィンドウ内でタスク全体に対するソリューションをサンプリングすることである。これまでの研究で、モデルのコンテキスト内のサブタスク分解(思考の連鎖)は、そのようなタスクを解決するのに有用であることが示されている。本研究では,LLMのマルチエージェントシステムにおいて,複数のサブタスクを同じコンテキストウィンドウ内で実行できることの限界,すなわち構成のコンテキスト内硬度を指摘する。組成の硬さは、生成複雑性計量、すなわち少なくとも1つの正しい解をサンプリングするのに必要なLCM生成数によって定量化される。構成問題を同じ文脈で解く際の生成複雑性と,解の長さに応じて指数関数的に増加する複数のエージェント間での分配との間には,ギャップが生じる。我々は理論的に結果を証明し、それらを実証的に実証する。

関連論文リスト

An approach for systematic decomposition of complex llm tasks [23.781993440791926]
大きな言語モデル(LLM)は、既存の分解手法がエージェントや手動分解に依存しているため、複雑なタスクに対する信頼性の問題に悩まされる。この研究は、制約問題としてタスクをモデル化し、分解を導くための形式的な複雑さ対策を活用する、新しい体系的な分解フレームワークを導入している。
論文参考訳（メタデータ） (2025-10-09T04:24:47Z)
Gala: Global LLM Agents for Text-to-Model Translation [12.20235137210144]
この課題に対処するフレームワークであるGalaを,グローバルなエージェント的アプローチで紹介する。複数の特殊大規模言語モデル(LLM)エージェントは、グローバル制約型によってモデリングタスクを分解する。問題をより小さくよく定義されたサブタスクに分割することで、各LSMはより単純な推論問題を扱う。
論文参考訳（メタデータ） (2025-09-10T20:04:20Z)
AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks [33.858780386822836]
テストタイムスケーリング(TTS)は、推論中に追加の計算リソースを割り当てることで、大規模言語モデル(LLM)の性能を向上させる。我々は,多段階複雑なタスクにおけるテスト時間計算-最適スケーリングという,新しい問題を研究する。本稿では,計算最適割り当てを自律的に検索するLLMエージェントベースのフレームワークであるAgentTTSを提案する。
論文参考訳（メタデータ） (2025-07-26T19:21:18Z)
When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework [39.66331560468973]
本稿では,Large Language Models (LLM) を長文に適用することの課題について検討する。本稿では,長いコンテキストタスクの障害モードを,クロスチャンク依存(タスクノイズ),コンテキストサイズで大きくなる混乱(モデルノイズ),部分的な結果の完全統合(集約ノイズ)の3つのカテゴリに分類する理論的枠組みを提案する。
論文参考訳（メタデータ） (2025-06-19T15:49:34Z)
Decompositional Reasoning for Graph Retrieval with Large Language Models [1.034893617526558]
大規模言語モデル(LLM)は多くのNLPタスクに優れるが、マルチホップ推論と現実の一貫性に苦しむ。本稿では,テキスト知識グラフをクエリ分解によるLLM推論プロセスに統合する新しい検索手法を提案する。本手法は,複雑な質問をサブクエストに分解し,関連するテキストのサブグラフを検索し,質問固有の知識グラフを作成して回答生成を誘導する。
論文参考訳（メタデータ） (2025-06-16T11:44:28Z)
EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。 EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T02:39:55Z)
Multi-LLM Collaborative Search for Complex Problem Solving [54.194370845153784]
そこで我々は,Mixture-of-Search-Agents(MoSA)パラダイムを提案する。 MoSAは、独立した探索とLCM間の反復的精錬を組み合わせることで、様々な推論経路を統合する。モンテカルロ木探索(MCTS)をバックボーンとして使用することにより、複数のエージェントが推論ステップを提案して集約することが可能となり、精度が向上する。
論文参考訳（メタデータ） (2025-02-26T06:31:04Z)
Guided Code Generation with LLMs: A Multi-Agent Framework for Complex Code Tasks [1.9198713957364215]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著な機能を示している。複雑な、長いコンテキストプログラミングの課題に対処する上で、それらは重大な制限に直面します。「案内コード生成のための新しいエージェント・フレームワーク」について紹介する。
論文参考訳（メタデータ） (2025-01-11T19:21:53Z)
Do Large Language Models Have Compositional Ability? An Investigation into Limitations and Scalability [12.349247962800813]
大規模言語モデル(LLM)は多くのAI問題に対する強力なツールとして登場した。また、ICL(In-context Learning)機能も備えている。複合的なタスクにどのようにアプローチするかは、未解明の未解決の問題のままである。
論文参考訳（メタデータ） (2024-07-22T15:22:34Z)
Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning [14.635361844362794]
Smurfs'は、大規模言語モデルの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークである。 Smurfは、余分なコストなしで複雑なタスクを解くモデルの能力を高めることができる。
論文参考訳（メタデータ） (2024-05-09T17:49:04Z)
Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文参考訳（メタデータ） (2024-04-19T08:52:22Z)
Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。半構造化文書に適した新しいプロンプト技術を導入する。
論文参考訳（メタデータ） (2024-02-17T05:10:18Z)
Limits of Transformer Language Models on Learning to Compose Algorithms [77.2443883991608]
我々は,LLaMAモデルのトレーニングと,複数の個別サブタスクの合成学習を必要とする4つのタスクにおけるGPT-4とGeminiの促進について検討した。その結果,現在最先端のTransformer言語モデルにおける構成学習は,非常に非効率なサンプルであることが示唆された。
論文参考訳（メタデータ） (2024-02-08T16:23:29Z)
In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか? GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文参考訳（メタデータ） (2023-11-13T23:52:43Z)
Provable Benefits of Multi-task RL under Non-Markovian Decision Making Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文参考訳（メタデータ） (2023-10-20T14:50:28Z)
Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context Reasoning with Language Models [58.41943058963672]
我々はRecursion of Thought (RoT)と呼ばれる新しい推論フレームワークを提案する。 RoTはいくつかの特別なトークンを導入し、モデルが出力してコンテキスト関連の操作をトリガーする。 GPT-3を含む複数のアーキテクチャの実験により、RoTは問題を解くためにLMの推論能力を劇的に改善した。
論文参考訳（メタデータ） (2023-06-12T06:34:16Z)
Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文参考訳（メタデータ） (2023-05-29T23:24:14Z)
Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文参考訳（メタデータ） (2023-04-01T15:50:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。