Fugu-MT 論文翻訳(概要): Iterated Decomposition: Improving Science Q&A by Supervising Reasoning Processes

論文の概要: Iterated Decomposition: Improving Science Q&A by Supervising Reasoning Processes

arxiv url: http://arxiv.org/abs/2301.01751v1
Date: Wed, 4 Jan 2023 18:34:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-05 15:03:19.661735
Title: Iterated Decomposition: Improving Science Q&A by Supervising Reasoning Processes
Title（参考訳）: 反復分解:推論プロセスの監督による科学Q&Aの改善
Authors: Justin Reppert, Ben Rachbach, Charlie George, Luke Stebbing Jungwon Byun, Maggie Appleton, Andreas Stuhlm\"uller
Abstract要約: 言語モデル(LM)は、エンド・ツー・エンド、隠れた潜在状態、または透明な中間状態の合成のいずれかで複雑な推論を行うことができる。構成的LMプログラムの開発と精錬を行うためのヒューマン・イン・ザ・ループ・ワークフローである反復分解について述べる。実世界の3つのタスクに反復分解を適用し,より少ない構成ベースライン上でのLMプログラムの精度を向上させる。
参考スコア（独自算出の注目度）: 1.6637373649145606
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models (LMs) can perform complex reasoning either end-to-end, with hidden latent state, or compositionally, with transparent intermediate state. Composition offers benefits for interpretability and safety, but may need workflow support and infrastructure to remain competitive. We describe iterated decomposition, a human-in-the-loop workflow for developing and refining compositional LM programs. We improve the performance of compositions by zooming in on failing components and refining them through decomposition, additional context, chain of thought, etc. To support this workflow, we develop ICE, an open-source tool for visualizing the execution traces of LM programs. We apply iterated decomposition to three real-world tasks and improve the accuracy of LM programs over less compositional baselines: describing the placebo used in a randomized controlled trial (25% to 65%), evaluating participant adherence to a medical intervention (53% to 70%), and answering NLP questions on the Qasper dataset (38% to 69%). These applications serve as case studies for a workflow that, if automated, could keep ML systems interpretable and safe even as they scale to increasingly complex tasks.
Abstract（参考訳）: 言語モデル(LM)は、エンド・ツー・エンド、隠れた潜在状態、または透明な中間状態で複雑な推論を行うことができる。 compositionは解釈性と安全性のメリットを提供するが、競争力を維持するためにはワークフローのサポートとインフラストラクチャが必要になる。構成的LMプログラムの開発と精錬を行うためのヒューマン・イン・ザ・ループ・ワークフローである反復分解について述べる。故障したコンポーネントをズームインし、分解、追加コンテキスト、思考の連鎖などを通じて、構成の性能を向上させる。このワークフローをサポートするために,LMプログラムの実行トレースを可視化するオープンソースツールICEを開発した。実世界の3つのタスクに反復分解を適用し,少ない構成ベースラインよりもLMプログラムの精度を向上させる。ランダム化比較試験(25%から65%)で使用されるプラセボを記述し,医療介入(53%から70%)への順応性を評価し,Qasperデータセット(38%から69%)でNLP質問に回答する。これらのアプリケーションは、自動化されれば、ますます複雑なタスクにスケールしてもmlシステムを解釈し安全に保つことができるワークフローのケーススタディとして機能する。

関連論文リスト

DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。 DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文参考訳（メタデータ） (2025-05-20T05:18:15Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文参考訳（メタデータ） (2025-02-26T16:52:31Z)
Flow-of-Options: Diversified and Improved LLM Reasoning by Thinking Through Options [1.2289361708127877]
フロー・オブ・オプティオン(FoO)は大規模言語モデル(LLM)の固有バイアスに対処する FoOは圧縮および解釈可能なタスク表現を通じてLLMソリューションの多様性を強制する。全体的な運用コストはタスクあたり1ドル以下なので、当社のフレームワークはコストに敏感なアプリケーションに適しています。
論文参考訳（メタデータ） (2025-02-18T15:11:46Z)
Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation [27.484259938667776]
大規模言語モデルはコード生成に優れていますが、推論を必要とする複雑なプログラミングタスクに苦労します。本稿では,実行可能検証を活用することで,プロセスと結果の監視を統一するアウトカム・リフィニング・プロセス・スーパービジョンを紹介する。 5つのモデルと3つのベンチマークによる実験では、26.9%の精度でコード効率が42.2%向上した。
論文参考訳（メタデータ） (2024-12-19T17:59:42Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文参考訳（メタデータ） (2024-10-04T07:58:05Z)
SWARM-SLR -- Streamlined Workflow Automation for Machine-actionable Systematic Literature Reviews [0.4915744683251149]
本稿では,SLRの効率向上をクラウドソーシングするために,SWARM-SLR(Streamlined Automation for Machine-actionable Systematic Literature Reviews)を提案する。文献のガイドラインでは、計画からレビューの報告まで、65の要件で構成されています。既存のツールはこれらの要件に対して評価され、SWARM-SLRワークフローのプロトタイプとして合成された。
論文参考訳（メタデータ） (2024-07-26T10:46:14Z)
FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents [64.1759086221016]
ワークフロー誘導計画の最初のベンチマークであるFlowBenchを紹介します。 FlowBenchは6つのドメインから51のシナリオをカバーしている。以上の結果から,現在のLLMエージェントは良好な計画を立てるためにかなりの改善が必要であることが示唆された。
論文参考訳（メタデータ） (2024-06-21T06:13:00Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
FireAct: Toward Language Agent Fine-tuning [63.06306936820456]
我々は、言語エージェントを得るための微調整LMの見落としの方向について論じる。 GPT-4によって生成された500個のエージェント軌道を持つ微調整のLlama2-7Bは、77%のHotpotQA性能向上をもたらす。本稿では,複数のタスクからのトラジェクトリとメソッドのプロンプトを併用した微調整LMの新たなアプローチであるFireActを提案する。
論文参考訳（メタデータ） (2023-10-09T17:58:38Z)
TaskLAMA: Probing the Complex Task Understanding of Language Models [13.336015994186955]
構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
論文参考訳（メタデータ） (2023-08-29T13:36:45Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
Learning to Decompose: Hypothetical Question Decomposition Based on Comparable Texts [65.84370471189676]
本研究は,分解型変圧器の大規模中間訓練について,比較テキストから遠ざかって検討する。このような中間的事前学習により、多様なタスクのための堅牢な分解ベースモデルの開発がより実現可能であることを示す。
論文参考訳（メタデータ） (2022-10-30T15:38:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。