論文の概要: Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning
- arxiv url: http://arxiv.org/abs/2310.00647v2
- Date: Mon, 22 Jan 2024 18:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:40:08.217955
- Title: Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning
- Title(参考訳): タスクパフォーマンスを超えて:インコンテキスト学習による大規模マルチモーダルモデルの欠陥の評価と低減
- Authors: Mustafa Shukor, Alexandre Rame, Corentin Dancette, Matthieu Cord
- Abstract要約: 我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
- 参考スコア(独自算出の注目度): 105.77733287326308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following the success of Large Language Models (LLMs), Large Multimodal
Models (LMMs), such as the Flamingo model and its subsequent competitors, have
started to emerge as natural steps towards generalist agents. However,
interacting with recent LMMs reveals major limitations that are hardly captured
by the current evaluation benchmarks. Indeed, task performances (e.g., VQA
accuracy) alone do not provide enough clues to understand their real
capabilities, limitations, and to which extent such models are aligned to human
expectations. To refine our understanding of those flaws, we deviate from the
current evaluation paradigm, and (1) evaluate 10 recent open-source LMMs from
3B up to 80B parameter scale, on 5 different axes; hallucinations, abstention,
compositionality, explainability and instruction following. Our evaluation on
these axes reveals major flaws in LMMs. While the current go-to solution to
align these models is based on training, such as instruction tuning or RLHF, we
rather (2) explore the training-free in-context learning (ICL) as a solution,
and study how it affects these limitations. Based on our ICL study, (3) we push
ICL further and propose new multimodal ICL variants such as; Multitask-ICL,
Chain-of-Hindsight-ICL, and Self-Correcting-ICL. Our findings are as follows.
(1) Despite their success, LMMs have flaws that remain unsolved with scaling
alone. (2) The effect of ICL on LMMs flaws is nuanced; despite its
effectiveness for improved explainability, answer abstention, ICL only slightly
improves instruction following, does not improve compositional abilities, and
actually even amplifies hallucinations. (3) The proposed ICL variants are
promising as post-hoc approaches to efficiently tackle some of those flaws. The
code is available here: https://github.com/mshukor/EvALign-ICL.
- Abstract(参考訳): 大規模言語モデル(llms)の成功に続いて、フラミンゴモデルやそれに続く競合といった大規模なマルチモーダルモデル(lmm)が、ジェネラリストエージェントへの自然なステップとして現れ始めている。
しかし、最近のlmmsとの相互作用は、現在の評価ベンチマークでは捉えられない大きな制限を明らかにする。
実際、タスクパフォーマンス(例えば、VQAの精度)だけでは、実際の能力、限界、そしてそのようなモデルがどの程度人間の期待に合致しているかを理解するための十分な手がかりを提供していない。
これらの欠陥の理解を深めるため,(1)最近のオープンソースのLMMを3Bから80Bまでのパラメータスケールで評価し,幻覚,禁忌,構成性,説明可能性,指示に従う。
これらの軸に対する評価はLMMの重大な欠陥を明らかにする。
これらのモデルを調整するための現在のgo-toソリューションは、命令チューニングやrlhfのようなトレーニングに基づいているが、 (2) ソリューションとしてのトレーニングフリーのインコンテキスト学習(icl)を探求し、それがこれらの制限にどのように影響するかを研究する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLなどの多モードICL変種を提案する。
私たちの発見は以下の通りである。
1) LMM の成功にもかかわらず, スケーリング単独では未解決の欠陥がある。
2) lmms欠陥に対するiclの効果は微妙であり,説明性,回答回避性の向上に効果があるものの,iclは命令追従性がわずかに向上し,構成能力が向上せず,幻覚を増幅する。
3) 提案するicl変種は,これらの欠陥を効率的に解決するためのポストホックなアプローチとして有望である。
コードは、https://github.com/mshukor/evalign-icl。
関連論文リスト
- DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning [61.85871109164743]
大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive
Thinking from Large Language Models [21.052917741772042]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
これらのモデルの厳密なスケールと計算要求は、資源制約のある文脈での実践的な展開を考えると、非常に困難な課題を示す。
LLMに固有の自己評価能力を小型言語モデル(SLM)に蒸留する方法を提案する。
本手法は, 蒸留したSLMの性能を著しく向上させ, 人間の認知と密に整合したより小さなモデル開発への道に光を当てる。
論文 参考訳(メタデータ) (2023-11-15T18:56:23Z) - Using Natural Language Explanations to Improve Robustness of In-context
Learning for Natural Language Inference [37.742836659189095]
大規模言語モデル(LLM)は、タスク固有のプロンプトや例によって促進される、コンテキスト内学習(ICL)を通じて様々なタスクに優れる。
ICLを自然言語説明法(NLE)で拡張すると性能が向上する(これをX-ICLと呼ぶ)。
本研究では,X-ICLが7つの逆数および挑戦的な自然言語推論データセットからなるスイート上でのLLMの堅牢性を向上させることができるかを検討する。
論文 参考訳(メタデータ) (2023-11-13T18:49:13Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Boosting In-Context Learning with Factual Knowledge [39.93507764191706]
In-Context Learning (ICL) over Large Language Model (LLMs) は、いくつかのトレーニング例を条件に、これまで見つからなかったタスクを解決することを目的としている。
本稿では、3つの中核面におけるICLの性能に事実知識が不可欠であることを実証する。
In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
論文 参考訳(メタデータ) (2023-09-26T09:06:39Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。