論文の概要: DERA: Enhancing Large Language Model Completions with Dialog-Enabled
Resolving Agents
- arxiv url: http://arxiv.org/abs/2303.17071v1
- Date: Thu, 30 Mar 2023 00:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 14:53:42.813102
- Title: DERA: Enhancing Large Language Model Completions with Dialog-Enabled
Resolving Agents
- Title(参考訳): DERA: 対話型解決エージェントによる大規模言語モデル補完の実現
- Authors: Varun Nair, Elliot Schumacher, Geoffrey Tso, Anitha Kannan
- Abstract要約: 大規模言語モデル(LLM)は多くの自然言語理解タスクに有用なツールとして登場した。
本稿では,対話型解決エージェント(DERA)について述べる。
DERAは、LPMの会話能力の増加、すなわちGPT-4によって実現されたパラダイムである。
モデルがフィードバックを伝達し、反復的に出力を改善するための、シンプルで解釈可能なフォーラムを提供する。
- 参考スコア(独自算出の注目度): 5.562984399879218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have emerged as valuable tools for many natural
language understanding tasks. In safety-critical applications such as
healthcare, the utility of these models is governed by their ability to
generate outputs that are factually accurate and complete. In this work, we
present dialog-enabled resolving agents (DERA). DERA is a paradigm made
possible by the increased conversational abilities of LLMs, namely GPT-4. It
provides a simple, interpretable forum for models to communicate feedback and
iteratively improve output. We frame our dialog as a discussion between two
agent types - a Researcher, who processes information and identifies crucial
problem components, and a Decider, who has the autonomy to integrate the
Researcher's information and makes judgments on the final output.
We test DERA against three clinically-focused tasks. For medical conversation
summarization and care plan generation, DERA shows significant improvement over
the base GPT-4 performance in both human expert preference evaluations and
quantitative metrics. In a new finding, we also show that GPT-4's performance
(70%) on an open-ended version of the MedQA question-answering (QA) dataset
(Jin et al. 2021, USMLE) is well above the passing level (60%), with DERA
showing similar performance. We release the open-ended MEDQA dataset at
https://github.com/curai/curai-research/tree/main/DERA.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの自然言語理解タスクに有用なツールとして登場した。
医療などの安全クリティカルなアプリケーションでは、これらのモデルの実用性は、実際に正確で完全な出力を生成する能力によって支配される。
本稿では,対話型解決エージェント(DERA)を提案する。
DERAは、LPMの会話能力の増加、すなわちGPT-4によって実現されたパラダイムである。
モデルがフィードバックを伝達し、反復的に出力を改善するためのシンプルな解釈可能なフォーラムを提供する。
ダイアログは,2つのエージェントタイプ – 情報処理と重要な問題コンポーネントの特定を行う研究者と,研究者の情報の統合と最終的なアウトプットの判断を行う自律性を持った決定者 – の間の議論として捉えています。
臨床に焦点を絞った3つのタスクに対してderaをテストする。
医療会話の要約とケアプラン生成において、DERAは、人間の専門的嗜好評価と定量的指標の両方において、基本GPT-4性能よりも大幅に改善されている。
新しい発見では、medqa question-answering(qa)データセット(jin et 2021, usmle)のオープン拡張版におけるgpt-4のパフォーマンス(70%)がパスレベル(60%)を大きく上回り、deraも同様のパフォーマンスを示している。
MEDQAデータセットはhttps://github.com/curai/curai-research/tree/main/DERAで公開しています。
関連論文リスト
- DARA: Decomposition-Alignment-Reasoning Autonomous Language Agent for Question Answering over Knowledge Graphs [70.54226917774933]
本稿では,DARA(Decomposition Alignment-Reasoning Agent)フレームワークを提案する。
DARAは2つのメカニズムを通じて、質問を形式的なクエリに効果的に解析する。
我々は,DARAがKGQAの最先端列挙およびランク付けに基づく手法に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:09:37Z) - Large Language Model Evaluation Via Multi AI Agents: Preliminary results [3.8066447473175304]
本稿では,多言語モデル(LLM)の性能評価と比較を目的とした,新しいマルチエージェントAIモデルを提案する。
我々のモデルは8つの異なるAIエージェントで構成されており、それぞれが異なる先進言語モデルから共通の記述に基づいてコードを取得する責任がある。
我々はHumanEvalベンチマークを検証エージェントに統合し、生成されたコードのパフォーマンスを評価し、それぞれの能力と効率について洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T10:06:04Z) - The All-Seeing Project V2: Towards General Relation Comprehension of the Open World [58.40101895719467]
本稿では,画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。
本稿では,テキスト生成,オブジェクトローカライゼーション,関係理解の定式化を関係会話タスクに統合するAll-Seeing Model V2を提案する。
我々のモデルは、画像内の全ての物体を知覚・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れている。
論文 参考訳(メタデータ) (2024-02-29T18:59:17Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics
Capabilities [40.55743949223173]
Pragmatics Understanding Benchmark (PUB) は、4つの実用的現象における14のタスクからなるデータセットである。
PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。
本研究は,命令追従とチャットの微調整により,より小さな言語モデルの実用性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-13T13:46:14Z) - PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging [8.043625583479598]
MLLM(Multimodal large language model)は、従来の大規模言語モデルの能力の進化的拡張を表す。
近年,MLLMを医療用マルチモーダル問題に対する普遍的解決法として応用する研究が進められている。
本稿では,Med-VQA (Med-VQA) タスクとMRG (Med-VQA) タスクに基づいて,MLLMを微調整するためのパラメータ効率のよいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-05T13:22:12Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - FireAct: Toward Language Agent Fine-tuning [63.06306936820456]
我々は、言語エージェントを得るための微調整LMの見落としの方向について論じる。
GPT-4によって生成された500個のエージェント軌道を持つ微調整のLlama2-7Bは、77%のHotpotQA性能向上をもたらす。
本稿では,複数のタスクからのトラジェクトリとメソッドのプロンプトを併用した微調整LMの新たなアプローチであるFireActを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:58:38Z) - Goal Driven Discovery of Distributional Differences via Language
Descriptions [58.764821647036946]
大きなコーパスを採掘することは有用な発見をもたらすが、人間には時間がかかる。
我々は、ゴール駆動方式で2つの大きなコーパス間の差異を自動的に発見する新しいタスクD5を定式化する。
本稿では,OpenD5 の幅広い応用について,これまで不明な発見を著者に提示する。
論文 参考訳(メタデータ) (2023-02-28T01:32:32Z) - Understanding the Effectiveness of Very Large Language Models on Dialog
Evaluation [20.18656308749408]
大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。
本稿では,プロンプト中のサンプル数と使用するサンプル選択の種類がモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-01-27T22:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。