論文の概要: Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning
- arxiv url: http://arxiv.org/abs/2310.00647v1
- Date: Sun, 1 Oct 2023 12:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 02:49:36.588868
- Title: Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning
- Title(参考訳): タスクパフォーマンスを超えて:インコンテキスト学習による大規模マルチモーダルモデルの欠陥の評価と低減
- Authors: Mustafa Shukor, Alexandre Rame, Corentin Dancette, Matthieu Cord
- Abstract要約: 我々は,5つの異なる軸上の8つのオープンソースLMM,幻覚,棄却,構成性,説明可能性,指示に従うことを評価する。
インコンテキスト学習(ICL)をソリューションとして検討し,その限界に対する影響について検討する。
本稿では,マルチタスクICL,チェインオブハイトICL,自己修正ICLなどのマルチモーダルICLアプローチを提案する。
- 参考スコア(独自算出の注目度): 105.77733287326308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following the success of Large Language Models (LLMs), Large Multimodal
Models (LMMs), such as the Flamingo model and its subsequent competitors, have
started to emerge as natural steps towards generalist agents. However,
interacting with recent LMMs reveals major limitations that are hardly captured
by the current evaluation benchmarks. Indeed, task performances (e.g., VQA
accuracy) alone do not provide enough clues to understand their real
capabilities, limitations, and to which extent such models are aligned to human
expectations. To refine our understanding of those flaws, we deviate from the
current evaluation paradigm and propose the EvALign-ICL framework, in which we
(1) evaluate 8 recent open-source LMMs (based on the Flamingo architecture such
as OpenFlamingo and IDEFICS) on 5 different axes; hallucinations, abstention,
compositionality, explainability and instruction following. Our evaluation on
these axes reveals major flaws in LMMs. To efficiently address these problems,
and inspired by the success of in-context learning (ICL) in LLMs, (2) we
explore ICL as a solution and study how it affects these limitations. Based on
our ICL study, (3) we push ICL further and propose new multimodal ICL
approaches such as; Multitask-ICL, Chain-of-Hindsight-ICL, and
Self-Correcting-ICL. Our findings are as follows; (1) Despite their success,
LMMs have flaws that remain unsolved with scaling alone. (2) The effect of ICL
on LMMs flaws is nuanced; despite its effectiveness for improved
explainability, abstention, and instruction following, ICL does not improve
compositional abilities, and actually even amplifies hallucinations. (3) The
proposed ICL variants are promising as post-hoc approaches to efficiently
tackle some of those flaws. The code is available here:
https://evalign-icl.github.io/
- Abstract(参考訳): 大規模言語モデル(llms)の成功に続いて、フラミンゴモデルやそれに続く競合といった大規模なマルチモーダルモデル(lmm)が、ジェネラリストエージェントへの自然なステップとして現れ始めている。
しかし、最近のlmmsとの相互作用は、現在の評価ベンチマークでは捉えられない大きな制限を明らかにする。
実際、タスクパフォーマンス(例えば、VQAの精度)だけでは、実際の能力、限界、そしてそのようなモデルがどの程度人間の期待に合致しているかを理解するための十分な手がかりを提供していない。
これらの欠陥の理解を深めるために、我々は現在の評価パラダイムから逸脱し、(1)5つの異なる軸上の8つの最近のオープンソースLMM(OpenFlamingoやIDEFICSのようなフラミンゴアーキテクチャに基づく)を評価するEvalign-ICLフレームワークを提案する。
これらの軸に対する評価はLMMの重大な欠陥を明らかにする。
これらの問題に効果的に対処し,LLMにおける文脈内学習(ICL)の成功に触発され,(2)ICLを解法として探求し,その限界にどのように影響するかを考察する。
ICL研究に基づき、ICLをさらに推進し、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しいマルチモーダルICLアプローチを提案する。
1) LMM の成功にもかかわらず, スケーリング単独では未解決の欠陥がある。
2) LMM の欠陥に対する ICL の効果は曖昧であり, 説明性, 棄却, 指示に対する効果は高いものの, 構成能力は向上せず, 幻覚も増幅する。
3) 提案するicl変種は,これらの欠陥を効率的に解決するためのポストホックなアプローチとして有望である。
コードはここで入手できる。 https://evalign-icl.github.io/
関連論文リスト
- DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning [61.85871109164743]
大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models [20.28989820878285]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。
これらのモデルの大規模かつ計算的な要求は、資源に制約のある環境での実践的展開を考えると、大きな課題となる。
論文 参考訳(メタデータ) (2023-11-15T18:56:23Z) - Using Natural Language Explanations to Improve Robustness of In-context
Learning for Natural Language Inference [37.742836659189095]
大規模言語モデル(LLM)は、タスク固有のプロンプトや例によって促進される、コンテキスト内学習(ICL)を通じて様々なタスクに優れる。
ICLを自然言語説明法(NLE)で拡張すると性能が向上する(これをX-ICLと呼ぶ)。
本研究では,X-ICLが7つの逆数および挑戦的な自然言語推論データセットからなるスイート上でのLLMの堅牢性を向上させることができるかを検討する。
論文 参考訳(メタデータ) (2023-11-13T18:49:13Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Knowledgeable In-Context Tuning: Exploring and Exploiting Factual Knowledge for In-Context Learning [37.22349652230841]
大規模言語モデル(LLM)は、テキストベースのプロンプトとしてラベル付きトレーニング例を条件にすることで、コンテキスト内学習(ICL)を可能にする。
本稿では、3つの中核面におけるICLの性能に事実知識が不可欠であることを実証する。
In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
論文 参考訳(メタデータ) (2023-09-26T09:06:39Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。