論文の概要: One for All: A General Framework of LLMs-based Multi-Criteria Decision Making on Human Expert Level
- arxiv url: http://arxiv.org/abs/2502.15778v1
- Date: Mon, 17 Feb 2025 06:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 02:21:26.438870
- Title: One for All: A General Framework of LLMs-based Multi-Criteria Decision Making on Human Expert Level
- Title(参考訳): ひとつは、人間の知識レベルに基づくLLMに基づく多領域決定の一般的な枠組み
- Authors: Hui Wang, Fafa Zhang, Chaoxu Mu,
- Abstract要約: 本稿では,一般の複雑なMCDM問題に自動的に対処する評価フレームワークを提案する。
フレームワーク内では、ClaudeやChatGPTといった商用モデルと同様に、様々な典型的なオープンソースモデルの性能を評価する。
実験の結果,異なるアプリケーションの精度は95%程度に向上し,異なるモデル間の性能差は自明であることがわかった。
- 参考スコア(独自算出の注目度): 7.755152930120769
- License:
- Abstract: Multi-Criteria Decision Making~(MCDM) is widely applied in various fields, using quantitative and qualitative analyses of multiple levels and attributes to support decision makers in making scientific and rational decisions in complex scenarios. However, traditional MCDM methods face bottlenecks in high-dimensional problems. Given the fact that Large Language Models~(LLMs) achieve impressive performance in various complex tasks, but limited work evaluates LLMs in specific MCDM problems with the help of human domain experts, we further explore the capability of LLMs by proposing an LLM-based evaluation framework to automatically deal with general complex MCDM problems. Within the framework, we assess the performance of various typical open-source models, as well as commercial models such as Claude and ChatGPT, on 3 important applications, these models can only achieve around 60\% accuracy rate compared to the evaluation ground truth. Upon incorporation of Chain-of-Thought or few-shot prompting, the accuracy rates rise to around 70\%, and highly depend on the model. In order to further improve the performance, a LoRA-based fine-tuning technique is employed. The experimental results show that the accuracy rates for different applications improve significantly to around 95\%, and the performance difference is trivial between different models, indicating that LoRA-based fine-tuned LLMs exhibit significant and stable advantages in addressing MCDM tasks and can provide human-expert-level solutions to a wide range of MCDM challenges.
- Abstract(参考訳): MCDM(Multi-Criteria Decision Making)は様々な分野で広く適用されており、複雑なシナリオにおいて科学的、合理的な決定を行う際の意思決定者を支援するために、複数のレベルと属性の定量的、質的な分析を用いている。
しかし、従来のMCDM法は高次元問題においてボトルネックに直面している。
大規模言語モデル~(LLM)が様々な複雑なタスクにおいて顕著な性能を発揮することを考えると、限定的な作業は、人間のドメイン専門家の助けを借りて、特定のMCDM問題におけるLCMを評価し、LLMに基づく評価フレームワークを用いて、一般的なMCDM問題に自動的に対処する能力をさらに探求する。
フレームワーク内では,Claude や ChatGPT などの商用モデルと同様に,各種オープンソースモデルの性能評価を行う。
チェーン・オブ・ソート(Chain-of-Thought)や数発のプロンプトを組み込むと、精度は約70 %まで上昇し、モデルに大きく依存する。
さらなる性能向上のために、LoRAベースの微調整技術が採用されている。
実験の結果、異なるアプリケーションの精度が約95%に向上し、異なるモデル間の性能差は自明であることを示し、ロラをベースとした微調整LCMはMCDMタスクに対処する上で有意かつ安定した利点を示し、幅広いMCDM課題に対する人間レベルのソリューションを提供することができることを示した。
関連論文リスト
- MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-13T18:59:46Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Evaluating Cost-Accuracy Trade-offs in Multimodal Search Relevance Judgements [1.6637373649145606]
大規模言語モデル (LLM) は, 有効な検索関連評価指標としての可能性を示している。
さまざまなコンテキストや特定のユースケースにおいて、モデルが常に最適に機能する包括的なガイダンスが欠如しています。
本分析では,コストと精度のトレードオフについて検討し,モデルの性能が文脈によって大きく異なることを明らかにする。
論文 参考訳(メタデータ) (2024-10-25T21:29:04Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Large Language Models Are Self-Taught Reasoners: Enhancing LLM Applications via Tailored Problem-Solving Demonstrations [4.207253227315905]
我々は、カスタマイズされたデモを容易にする問題解決フレームワークSELF-TAUGHTを提案する。
複数選択質問の15のタスクにおいて、SELF-TAUGHTは強いベースラインよりも優れたパフォーマンスを達成する。
我々はSELF-TAUGHTの包括的解析を行い、既存のプロンプト法への一般化性について述べる。
論文 参考訳(メタデータ) (2024-08-22T11:41:35Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Simplifying Multimodality: Unimodal Approach to Multimodal Challenges in Radiology with General-Domain Large Language Model [3.012719451477384]
MID-Mは,汎用言語モデル(LLM)のコンテキスト内学習機能を利用して,画像記述によるマルチモーダルデータの処理を行う新しいフレームワークである。
MID-Mは、タスク固有の微調整 LMM や他の汎用ドメインと同等または優れた性能を達成し、ドメイン固有の訓練やマルチモーダルデータによる事前トレーニングは行わない。
データ品質問題に対するMID-Mの堅牢性は、実世界の医療ドメインアプリケーションにおいて実用性を示している。
論文 参考訳(メタデータ) (2024-04-29T13:23:33Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [51.58020580970644]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。