論文の概要: Iterated Decomposition: Improving Science Q&A by Supervising Reasoning
Processes
- arxiv url: http://arxiv.org/abs/2301.01751v1
- Date: Wed, 4 Jan 2023 18:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 15:03:19.661735
- Title: Iterated Decomposition: Improving Science Q&A by Supervising Reasoning
Processes
- Title(参考訳): 反復分解:推論プロセスの監督による科学Q&Aの改善
- Authors: Justin Reppert, Ben Rachbach, Charlie George, Luke Stebbing Jungwon
Byun, Maggie Appleton, Andreas Stuhlm\"uller
- Abstract要約: 言語モデル(LM)は、エンド・ツー・エンド、隠れた潜在状態、または透明な中間状態の合成のいずれかで複雑な推論を行うことができる。
構成的LMプログラムの開発と精錬を行うためのヒューマン・イン・ザ・ループ・ワークフローである反復分解について述べる。
実世界の3つのタスクに反復分解を適用し,より少ない構成ベースライン上でのLMプログラムの精度を向上させる。
- 参考スコア(独自算出の注目度): 1.6637373649145606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) can perform complex reasoning either end-to-end, with
hidden latent state, or compositionally, with transparent intermediate state.
Composition offers benefits for interpretability and safety, but may need
workflow support and infrastructure to remain competitive. We describe iterated
decomposition, a human-in-the-loop workflow for developing and refining
compositional LM programs. We improve the performance of compositions by
zooming in on failing components and refining them through decomposition,
additional context, chain of thought, etc. To support this workflow, we develop
ICE, an open-source tool for visualizing the execution traces of LM programs.
We apply iterated decomposition to three real-world tasks and improve the
accuracy of LM programs over less compositional baselines: describing the
placebo used in a randomized controlled trial (25% to 65%), evaluating
participant adherence to a medical intervention (53% to 70%), and answering NLP
questions on the Qasper dataset (38% to 69%). These applications serve as case
studies for a workflow that, if automated, could keep ML systems interpretable
and safe even as they scale to increasingly complex tasks.
- Abstract(参考訳): 言語モデル(LM)は、エンド・ツー・エンド、隠れた潜在状態、または透明な中間状態で複雑な推論を行うことができる。
compositionは解釈性と安全性のメリットを提供するが、競争力を維持するためにはワークフローのサポートとインフラストラクチャが必要になる。
構成的LMプログラムの開発と精錬を行うためのヒューマン・イン・ザ・ループ・ワークフローである反復分解について述べる。
故障したコンポーネントをズームインし、分解、追加コンテキスト、思考の連鎖などを通じて、構成の性能を向上させる。
このワークフローをサポートするために,LMプログラムの実行トレースを可視化するオープンソースツールICEを開発した。
実世界の3つのタスクに反復分解を適用し,少ない構成ベースラインよりもLMプログラムの精度を向上させる。ランダム化比較試験(25%から65%)で使用されるプラセボを記述し,医療介入(53%から70%)への順応性を評価し,Qasperデータセット(38%から69%)でNLP質問に回答する。
これらのアプリケーションは、自動化されれば、ますます複雑なタスクにスケールしてもmlシステムを解釈し安全に保つことができるワークフローのケーススタディとして機能する。
関連論文リスト
- Learning to Use Tools via Cooperative and Interactive Agents [61.662788490607475]
ツール学習は、大きな言語モデル(LLM)をエージェントとして、その能力を拡張するために外部ツールを使用する権限を与える。
既存の手法では、1つのLCMベースのエージェントを使用してツールを反復的に選択し実行し、その結果を次のアクション予測に組み込む。
本研究では,協調型対話型エージェントフレームワークであるConAgentsを提案し,ツール学習のワークフローをグラウンディング,実行,監視エージェントにモジュール化する。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - Prompt Perturbation Consistency Learning for Robust Language Models [47.021022978847036]
大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて印象的なパフォーマンスを示している。
微調整を十分に行うと,識別モデルに匹敵するIC-SF性能が得られることを示す。
クリーンサンプルと摂動サンプルの損失の分散を規則化して機能する,効率的な緩和手法であるPrompt Perturbation Consistency Learning(PPCL)を提案する。
論文 参考訳(メタデータ) (2024-02-24T15:00:58Z) - DSPy Assertions: Computational Constraints for Self-Refining Language
Model Pipelines [41.779902953557425]
組込み言語モデル(LM)は構成可能なモジュールと呼ばれ、新しいプログラミング方法の原動力となっている。
本稿では,LM が満たすべき計算制約を表現する構造である LM Assertions を紹介する。
我々は、DSPyがLM Assertionsでプログラムをより信頼性が高く正確なシステムにコンパイルできる新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-12-20T19:13:26Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - ADaPT: As-Needed Decomposition and Planning with Language Models [136.70875041342686]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。
ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。
以上の結果から,ADaPTは強いベースラインを確立した。
論文 参考訳(メタデータ) (2023-11-08T17:59:15Z) - FireAct: Toward Language Agent Fine-tuning [63.06306936820456]
我々は、言語エージェントを得るための微調整LMの見落としの方向について論じる。
GPT-4によって生成された500個のエージェント軌道を持つ微調整のLlama2-7Bは、77%のHotpotQA性能向上をもたらす。
本稿では,複数のタスクからのトラジェクトリとメソッドのプロンプトを併用した微調整LMの新たなアプローチであるFireActを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:58:38Z) - TaskLAMA: Probing the Complex Task Understanding of Language Models [13.336015994186955]
構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。
我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
論文 参考訳(メタデータ) (2023-08-29T13:36:45Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Learning to Decompose: Hypothetical Question Decomposition Based on
Comparable Texts [65.84370471189676]
本研究は,分解型変圧器の大規模中間訓練について,比較テキストから遠ざかって検討する。
このような中間的事前学習により、多様なタスクのための堅牢な分解ベースモデルの開発がより実現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-30T15:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。