Fugu-MT 論文翻訳(概要): Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning

論文の概要: Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning

arxiv url: http://arxiv.org/abs/2310.00647v1
Date: Sun, 1 Oct 2023 12:02:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 02:49:36.588868
Title: Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning
Title（参考訳）: タスクパフォーマンスを超えて:インコンテキスト学習による大規模マルチモーダルモデルの欠陥の評価と低減
Authors: Mustafa Shukor, Alexandre Rame, Corentin Dancette, Matthieu Cord
Abstract要約: 我々は,5つの異なる軸上の8つのオープンソースLMM,幻覚,棄却,構成性,説明可能性,指示に従うことを評価する。インコンテキスト学習(ICL)をソリューションとして検討し,その限界に対する影響について検討する。本稿では,マルチタスクICL,チェインオブハイトICL,自己修正ICLなどのマルチモーダルICLアプローチを提案する。
参考スコア（独自算出の注目度）: 105.77733287326308
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Following the success of Large Language Models (LLMs), Large Multimodal Models (LMMs), such as the Flamingo model and its subsequent competitors, have started to emerge as natural steps towards generalist agents. However, interacting with recent LMMs reveals major limitations that are hardly captured by the current evaluation benchmarks. Indeed, task performances (e.g., VQA accuracy) alone do not provide enough clues to understand their real capabilities, limitations, and to which extent such models are aligned to human expectations. To refine our understanding of those flaws, we deviate from the current evaluation paradigm and propose the EvALign-ICL framework, in which we (1) evaluate 8 recent open-source LMMs (based on the Flamingo architecture such as OpenFlamingo and IDEFICS) on 5 different axes; hallucinations, abstention, compositionality, explainability and instruction following. Our evaluation on these axes reveals major flaws in LMMs. To efficiently address these problems, and inspired by the success of in-context learning (ICL) in LLMs, (2) we explore ICL as a solution and study how it affects these limitations. Based on our ICL study, (3) we push ICL further and propose new multimodal ICL approaches such as; Multitask-ICL, Chain-of-Hindsight-ICL, and Self-Correcting-ICL. Our findings are as follows; (1) Despite their success, LMMs have flaws that remain unsolved with scaling alone. (2) The effect of ICL on LMMs flaws is nuanced; despite its effectiveness for improved explainability, abstention, and instruction following, ICL does not improve compositional abilities, and actually even amplifies hallucinations. (3) The proposed ICL variants are promising as post-hoc approaches to efficiently tackle some of those flaws. The code is available here: https://evalign-icl.github.io/
Abstract（参考訳）: 大規模言語モデル(llms)の成功に続いて、フラミンゴモデルやそれに続く競合といった大規模なマルチモーダルモデル(lmm)が、ジェネラリストエージェントへの自然なステップとして現れ始めている。しかし、最近のlmmsとの相互作用は、現在の評価ベンチマークでは捉えられない大きな制限を明らかにする。実際、タスクパフォーマンス(例えば、VQAの精度)だけでは、実際の能力、限界、そしてそのようなモデルがどの程度人間の期待に合致しているかを理解するための十分な手がかりを提供していない。これらの欠陥の理解を深めるために、我々は現在の評価パラダイムから逸脱し、(1)5つの異なる軸上の8つの最近のオープンソースLMM(OpenFlamingoやIDEFICSのようなフラミンゴアーキテクチャに基づく)を評価するEvalign-ICLフレームワークを提案する。これらの軸に対する評価はLMMの重大な欠陥を明らかにする。これらの問題に効果的に対処し,LLMにおける文脈内学習(ICL)の成功に触発され,(2)ICLを解法として探求し,その限界にどのように影響するかを考察する。 ICL研究に基づき、ICLをさらに推進し、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しいマルチモーダルICLアプローチを提案する。 1) LMM の成功にもかかわらず, スケーリング単独では未解決の欠陥がある。 2) LMM の欠陥に対する ICL の効果は曖昧であり, 説明性, 棄却, 指示に対する効果は高いものの, 構成能力は向上せず, 幻覚も増幅する。 3) 提案するicl変種は,これらの欠陥を効率的に解決するためのポストホックなアプローチとして有望である。コードはここで入手できる。 https://evalign-icl.github.io/

関連論文リスト

Training Small Reasoning LLMs with Cognitive Preference Alignment [11.367717208838101]
より小型で強力なLCMを学習するための新しいフレームワークであるCristique-Rethink-Verify(CRV)を紹介した。 CRVは複数のLLMエージェントから構成され、それぞれに固有の能力がある。より小さなモデルの推論能力を高めるために,認知的嗜好最適化(CogPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-14T02:03:54Z)
Decoding Recommendation Behaviors of In-Context Learning LLMs Through Gradient Descent [15.425423867768163]
本稿では,理論モデル LLM-ICL Recommendation Equivalent Gradient Descent Model (LRGD) を提案する。 LLMにおけるICL推論プロセスは、その二重モデルのトレーニング手順と一致し、二重モデルの試験出力に相当するトークン予測を生成する。さらに実演効率を向上し,性能崩壊を防止し,長期適応性を確保するため,実演における2段階最適化プロセスを提案する。
論文参考訳（メタデータ） (2025-04-06T06:36:45Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。本研究は,幻覚に対する2つの重要な要因を明らかにした。私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文参考訳（メタデータ） (2024-10-16T17:59:02Z)
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文参考訳（メタデータ） (2024-10-07T23:38:58Z)
Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文参考訳（メタデータ） (2024-09-04T13:17:09Z)
MICM: Rethinking Unsupervised Pretraining for Enhanced Few-shot Learning [18.152453141040464]
教師なしのFew-Shot Learningは、最初のトレーニングフェーズにおける注釈付きデータセットへの依存を減らすことで、この分割を橋渡ししようとしている。まず,マスクド画像モデリング (MIM) とコントラスト学習 (CL) が学習課題に与える影響を定量的に評価した。教師なし事前訓練における一般化と差別性の間のトレードオフに対処するために,マスク付き画像コントラストモデリング(MICM)という新しいパラダイムを導入する。
論文参考訳（メタデータ） (2024-08-23T21:32:53Z)
ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。 LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-21T08:06:10Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文参考訳（メタデータ） (2024-06-18T16:50:38Z)
Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文参考訳（メタデータ） (2023-07-16T15:11:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。