論文の概要: YaleNLP @ PerAnsSumm 2025: Multi-Perspective Integration via Mixture-of-Agents for Enhanced Healthcare QA Summarization
- arxiv url: http://arxiv.org/abs/2504.03932v1
- Date: Fri, 04 Apr 2025 20:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 07:23:18.276472
- Title: YaleNLP @ PerAnsSumm 2025: Multi-Perspective Integration via Mixture-of-Agents for Enhanced Healthcare QA Summarization
- Title(参考訳): YaleNLP @PerAnsSumm 2025: Multi-Perspective Integration via Mixture-of-Agents for Enhanced Healthcare QA Summarization
- Authors: Dongsuk Jang, Alan Li, Arman Cohan,
- Abstract要約: 本研究では,2つの相補的パラダイムを用いたPerAnsSumm共有タスクについて述べる。
視点に基づく要約では、GPT-4oゼロショットは0.42点、LLaMAゼロショットは0.28点、総合スコアは0.42点となる。
この結果から, 文変換器の組込みによる模範選択は, 手作業で選択した模範よりも有利であることが示唆された。
- 参考スコア(独自算出の注目度): 20.744728016538318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated summarization of healthcare community question-answering forums is challenging due to diverse perspectives presented across multiple user responses to each question. The PerAnsSumm Shared Task was therefore proposed to tackle this challenge by identifying perspectives from different answers and then generating a comprehensive answer to the question. In this study, we address the PerAnsSumm Shared Task using two complementary paradigms: (i) a training-based approach through QLoRA fine-tuning of LLaMA-3.3-70B-Instruct, and (ii) agentic approaches including zero- and few-shot prompting with frontier LLMs (LLaMA-3.3-70B-Instruct and GPT-4o) and a Mixture-of-Agents (MoA) framework that leverages a diverse set of LLMs by combining outputs from multi-layer feedback aggregation. For perspective span identification/classification, GPT-4o zero-shot achieves an overall score of 0.57, substantially outperforming the 0.40 score of the LLaMA baseline. With a 2-layer MoA configuration, we were able to improve LLaMA performance up by 28 percent to 0.51. For perspective-based summarization, GPT-4o zero-shot attains an overall score of 0.42 compared to 0.28 for the best LLaMA zero-shot, and our 2-layer MoA approach boosts LLaMA performance by 32 percent to 0.37. Furthermore, in few-shot setting, our results show that the sentence-transformer embedding-based exemplar selection provides more gain than manually selected exemplars on LLaMA models, although the few-shot prompting is not always helpful for GPT-4o. The YaleNLP team's approach ranked the overall second place in the shared task.
- Abstract(参考訳): 医療コミュニティにおける質問回答フォーラムの自動要約は,質問に対する複数のユーザ応答にまたがる多様な視点によって困難である。
したがって、PerAnsSumm共有タスクは、異なる回答から視点を特定し、質問に対する包括的な回答を生成することで、この問題に取り組むために提案された。
本研究では,2つの相補的パラダイムを用いたPerAnsSumm共有タスクについて述べる。
i) LLaMA-3.3-70B-インストラクトのQLoRA微調整によるトレーニングベースアプローチ
(II)Frontier LLM (LLaMA-3.3-70B-Instruct and GPT-4o) とMixture-of-Agents (MoA) フレームワークを併用し,多層フィードバックアグリゲーションの出力を組み合わせることで,ゼロショットと少数ショットのエージェントアプローチを行う。
パースペクティブスパンの識別/分類において、GPT-4oゼロショットは0.57のスコアを獲得し、LLaMAベースラインの0.40スコアを大幅に上回る。
2層MoA構成では、LLaMAのパフォーマンスが28%向上し、0.51に向上しました。
GPT-4oゼロショットは、視線に基づく要約では、最高のLLaMAゼロショットでは0.28の0.42のスコアを得ることができ、我々の2層MoAアプローチは、LLaMAのパフォーマンスを32%向上して0.37に向上させる。
さらに, 複数ショット設定では, 文変換器の組込みによる模範選択の方がLLaMAモデル上で手作業で選択した模範選択よりも有利であることがわかったが, GPT-4oでは, あまり役に立たない。
YaleNLPチームのアプローチでは、共有タスクで全体の2位にランクインした。
関連論文リスト
- Judge Anything: MLLM as a Judge Across Any Modality [43.51517213949702]
本稿では,タスクAnything と JudgeAnything という2つのベンチマークを導入し,MLLM の全体性能と判断能力を評価する。
TaskAnythingは15のあらゆるモダリティカテゴリでMMUとMMGの機能を評価し、よく確立されたベンチマークから1500のクエリをキュレートする。
judgeAnythingは、ペア比較とスコア評価の観点から、5段階(GPT-4oやGemini-2.0-Flashなど)の判定能力を評価する。
我々の研究は、より公平な評価プロトコルの必要性と、人間の嗜好との整合性を強調している。
論文 参考訳(メタデータ) (2025-03-21T18:59:20Z) - This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs [14.753476265224245]
大規模言語モデル(LLM)エージェント(MoA)はAlpacaEval 2.0のような著名なベンチマークで最先端のパフォーマンスを達成する。
本研究は,LLM剤に対するMoAの堅牢性に関する初の包括的研究である。
論文 参考訳(メタデータ) (2025-03-07T14:46:39Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - Mixture-of-Agents Enhances Large Language Model Capabilities [34.68610100315386]
我々は,Mixture-of-Agents(MoA)手法を用いて,多言語モデル(LLM)の総合的知識を活用する新しい手法を提案する。
提案手法では, 各層が複数のLLMエージェントから構成される層状MoAアーキテクチャを構築する。
MoAモデルは、AlpacaEval 2.0、MT-Bench、FLASKで、GPT-4 Omniを上回っている。
論文 参考訳(メタデータ) (2024-06-07T07:04:10Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Branch-Solve-Merge Improves Large Language Model Evaluation and Generation [136.7876524839751]
大規模言語モデル(LLM)は多面的言語生成や評価タスクに頻繁に使用される。
本稿では,これらの課題に対処するための大規模言語モデルプログラムであるブランチ・マージ(BSM)を提案する。
BSMは、人間とLLMの合意を最大26%向上させることにより、各LLMの評価正当性と整合性を向上させる。
論文 参考訳(メタデータ) (2023-10-23T17:29:48Z) - Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。