論文の概要: TaskLAMA: Probing the Complex Task Understanding of Language Models
- arxiv url: http://arxiv.org/abs/2308.15299v1
- Date: Tue, 29 Aug 2023 13:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 14:08:57.375265
- Title: TaskLAMA: Probing the Complex Task Understanding of Language Models
- Title(参考訳): TaskLAMA: 言語モデルの複雑なタスク理解を提案する
- Authors: Quan Yuan, Mehran Kazemi, Xin Xu, Isaac Noble, Vaiva Imbrasaite,
Deepak Ramachandran
- Abstract要約: 構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。
我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
- 参考スコア(独自算出の注目度): 13.336015994186955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured Complex Task Decomposition (SCTD) is the problem of breaking down
a complex real-world task (such as planning a wedding) into a directed acyclic
graph over individual steps that contribute to achieving the task, with edges
specifying temporal dependencies between them. SCTD is an important component
of assistive planning tools, and a challenge for commonsense reasoning systems.
We probe how accurately SCTD can be done with the knowledge extracted from
Large Language Models (LLMs). We introduce a high-quality human-annotated
dataset for this problem and novel metrics to fairly assess performance of LLMs
against several baselines. Our experiments reveal that LLMs are able to
decompose complex tasks into individual steps effectively, with a relative
improvement of 15% to 280% over the best baseline. We also propose a number of
approaches to further improve their performance, with a relative improvement of
7% to 37% over the base model. However, we find that LLMs still struggle to
predict pairwise temporal dependencies, which reveals a gap in their
understanding of complex tasks.
- Abstract(参考訳): 構造化複合タスク分解(Structured Complex Task Decomposition、SCTD)は、複雑な現実世界のタスク(結婚式の計画など)を、タスクの達成に寄与する個々のステップ上の有向非循環グラフに分解する問題である。
SCTDは補助計画ツールの重要な構成要素であり、コモンセンス推論システムの課題である。
本研究では,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
本稿では,この問題に対する高品質なヒューマンアノテートデータセットと,複数のベースラインに対するllmの性能を公平に評価するための新しい指標を提案する。
実験の結果、llmは複雑なタスクを個々のステップに効果的に分解でき、最高のベースラインに対して15%から280%の相対的な改善が得られました。
また、ベースモデルに対して7%から37%の相対的な改善を行い、パフォーマンスをさらに向上させるいくつかのアプローチを提案している。
しかし,LLMは相反する時間的依存関係の予測に苦慮しており,複雑なタスクに対する理解のギャップが明らかになっている。
関連論文リスト
- Characterization of Large Language Model Development in the Datacenter [57.49531095113406]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - On Evaluating the Integration of Reasoning and Action in LLM Agents with
Database Question Answering [25.57202500348071]
本研究では、大規模言語モデルがデータベースとどのように相互作用するかを評価するために設計された、新しい長文データベース質問応答データセットを提案する。
このタスクでは、LLMが戦略的に複数のクエリを生成し、データベースから十分なデータを取得し、取得したコンテキストを推論し、それらを総合的な分析的な物語に合成する必要がある。
本稿では2つのインタラクション戦略を提案し評価し、インタラクション内の個々のステージを詳細に分析する。
論文 参考訳(メタデータ) (2023-11-16T09:55:07Z) - ADaPT: As-Needed Decomposition and Planning with Language Models [136.70875041342686]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。
ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。
以上の結果から,ADaPTは強いベースラインを確立した。
論文 参考訳(メタデータ) (2023-11-08T17:59:15Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Learning to Perform Complex Tasks through Compositional Fine-Tuning of
Language Models [20.173322408302134]
構成微調整は、対象タスクをコンポーネントタスクに明示的に分解するアプローチである。
CFTは、同じ量のデータでもエンド・ツー・エンドの学習より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-23T03:22:34Z) - Latent Group Structured Multi-task Learning [2.827177139912107]
マルチタスク学習(MTL)では,様々なタスクを共同で学習することで,鍵となる機械学習アルゴリズムの性能を向上させる。
本稿では,事前情報によって定義されたグループ構造化タスクを奨励するグループ構造化潜在空間マルチタスク学習モデルを提案する。
合成データセットと実世界のデータセットの両方で実験が行われ、シングルタスク学習よりも競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-11-24T05:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。