論文の概要: TaskLAMA: Probing the Complex Task Understanding of Language Models
- arxiv url: http://arxiv.org/abs/2308.15299v1
- Date: Tue, 29 Aug 2023 13:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 14:08:57.375265
- Title: TaskLAMA: Probing the Complex Task Understanding of Language Models
- Title(参考訳): TaskLAMA: 言語モデルの複雑なタスク理解を提案する
- Authors: Quan Yuan, Mehran Kazemi, Xin Xu, Isaac Noble, Vaiva Imbrasaite,
Deepak Ramachandran
- Abstract要約: 構造化複雑タスク分解(Structured Complex Task Decomposition, SCTD)は、複雑な現実世界のタスクを、タスク達成に寄与する個々のステップ上の有向非巡回グラフに分解する問題である。
我々は,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
実験の結果,LLMは複雑なタスクを個々のステップに効果的に分解できることがわかった。
- 参考スコア(独自算出の注目度): 13.336015994186955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured Complex Task Decomposition (SCTD) is the problem of breaking down
a complex real-world task (such as planning a wedding) into a directed acyclic
graph over individual steps that contribute to achieving the task, with edges
specifying temporal dependencies between them. SCTD is an important component
of assistive planning tools, and a challenge for commonsense reasoning systems.
We probe how accurately SCTD can be done with the knowledge extracted from
Large Language Models (LLMs). We introduce a high-quality human-annotated
dataset for this problem and novel metrics to fairly assess performance of LLMs
against several baselines. Our experiments reveal that LLMs are able to
decompose complex tasks into individual steps effectively, with a relative
improvement of 15% to 280% over the best baseline. We also propose a number of
approaches to further improve their performance, with a relative improvement of
7% to 37% over the base model. However, we find that LLMs still struggle to
predict pairwise temporal dependencies, which reveals a gap in their
understanding of complex tasks.
- Abstract(参考訳): 構造化複合タスク分解(Structured Complex Task Decomposition、SCTD)は、複雑な現実世界のタスク(結婚式の計画など)を、タスクの達成に寄与する個々のステップ上の有向非循環グラフに分解する問題である。
SCTDは補助計画ツールの重要な構成要素であり、コモンセンス推論システムの課題である。
本研究では,Large Language Models (LLMs) から抽出した知識を用いて,SCTDの精度を検証した。
本稿では,この問題に対する高品質なヒューマンアノテートデータセットと,複数のベースラインに対するllmの性能を公平に評価するための新しい指標を提案する。
実験の結果、llmは複雑なタスクを個々のステップに効果的に分解でき、最高のベースラインに対して15%から280%の相対的な改善が得られました。
また、ベースモデルに対して7%から37%の相対的な改善を行い、パフォーマンスをさらに向上させるいくつかのアプローチを提案している。
しかし,LLMは相反する時間的依存関係の予測に苦慮しており,複雑なタスクに対する理解のギャップが明らかになっている。
関連論文リスト
- ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [39.606908488885125]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - Prompt Recursive Search: A Living Framework with Adaptive Growth in LLM Auto-Prompting [22.025533583703126]
大規模言語モデル(LLM)のためのPRS(Prompt Recursive Search)フレームワークを提案する。
PRSフレームワークは、問題複雑性と調整可能な構造の評価を取り入れ、エラーの可能性の低減を確実にする。
The Chain of Thought(CoT)法と比較して, PRS法は, Llama3-7Bモデルを用いてBBHデータセットの精度を8%向上し, 22%の改善を実現した。
論文 参考訳(メタデータ) (2024-08-02T17:59:42Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - ADaPT: As-Needed Decomposition and Planning with Language Models [131.063805299796]
As-Needed Decomposition and Planning for Complex Tasks (ADaPT)について紹介する。
ADaPTは、Large Language Modelsがそれらを実行できない場合、複雑なサブタスクを明示的に計画し、分解する。
以上の結果から,ADaPTは強いベースラインを確立した。
論文 参考訳(メタデータ) (2023-11-08T17:59:15Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Learning to Perform Complex Tasks through Compositional Fine-Tuning of
Language Models [20.173322408302134]
構成微調整は、対象タスクをコンポーネントタスクに明示的に分解するアプローチである。
CFTは、同じ量のデータでもエンド・ツー・エンドの学習より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-23T03:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。