Fugu-MT 論文翻訳(概要): An Examination of the Compositionality of Large Generative Vision-Language Models

論文の概要: An Examination of the Compositionality of Large Generative Vision-Language Models

arxiv url: http://arxiv.org/abs/2308.10509v1
Date: Mon, 21 Aug 2023 06:50:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 14:49:40.093233
Title: An Examination of the Compositionality of Large Generative Vision-Language Models
Title（参考訳）: 大規模生成視覚言語モデルの構成性の検討
Authors: Teli Ma, Rong Li, Junwei Liang
Abstract要約: GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。既存の評価指標とベンチマークは、主にCLIPのような対照的なモデルの評価に焦点を当てている。本稿では,GVLMを評価するための潜在的評価指標について検討し,構成性を評価するのに適した仮説生成スコア法について述べる。
参考スコア（独自算出の注目度）: 8.586311439906224
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the success of Large Language Models (LLMs), a surge of Generative Vision-Language Models (GVLMs) have been constructed via multimodal instruction tuning. The tuning recipe substantially deviates from the common contrastive vision-language learning. However, the performance of GVLMs in multimodal compositional reasoning remains largely unexplored, as existing evaluation metrics and benchmarks focus predominantly on assessing contrastive models like CLIP. In this paper, we examine the potential evaluation metrics to assess the GVLMs and hypothesize generative score methods are suitable for evaluating compositionality. In addition, current benchmarks tend to prioritize syntactic correctness over semantics. The presence of morphological bias in these benchmarks can be exploited by GVLMs, leading to ineffective evaluations. To combat this, we define a MorphoBias Score to quantify the morphological bias and propose a novel LLM-based strategy to calibrate the bias. Moreover, a challenging task is added to evaluate the robustness of GVLMs against inherent inclination toward syntactic correctness. We include the calibrated dataset and the task into a new benchmark, namely MOrphologicall De-biased Benchmark (MODE). Our study provides the first unbiased benchmark for the compositionality of GVLMs, facilitating future research in this direction. We will release our code and datasets.
Abstract（参考訳）: 大規模言語モデル(llms)の成功により、マルチモーダル命令チューニングによって生成的視覚言語モデル(gvlm)が急増した。チューニングレシピは、共通するコントラスト視覚言語学習から実質的に逸脱する。しかし、既存の評価指標やベンチマークはCLIPのような対照的なモデルの評価に重点を置いているため、マルチモーダルな構成推論におけるGVLMの性能は未解明のままである。本稿では,GVLMを評価するための潜在的評価指標について検討し,構成性を評価するのに適した仮説生成スコア法を提案する。さらに、現在のベンチマークでは、セマンティクスよりも構文的正確性を優先する傾向がある。これらのベンチマークにおけるモルフォロジーバイアスの存在は、GVLMによって悪用され、非効率な評価につながる。そこで我々は形態的バイアスを定量化するためのmorphobiasスコアを定義し,バイアスを校正する新しい llm ベースの戦略を提案する。さらに,GVLMの構文的正当性に対する固有の傾きに対する頑健性を評価するために,課題が加えられた。キャリブレーションされたデータセットとタスクを新しいベンチマーク、すなわちMOrphologicall De-biased Benchmark (MODE)に含めます。本研究は,GVLMの組成性に関する非バイアスベンチマークを初めて提供し,今後の研究を促進する。コードとデータセットをリリースします。

関連論文リスト

Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles [32.121191446326876]
さまざまなモデルやタスクにまたがって、低いか高いパフォーマンスを連続的に引き起こす異なる書き込みスタイルを特定します。我々の研究は、既存のベンチマークを拡大するためのスケーラブルなアプローチを提供し、LLM性能の測定に提供される評価の外部的妥当性を改善します。
論文参考訳（メタデータ） (2025-07-29T18:59:09Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
Escalating LLM-based Code Translation Benchmarking into the Class-level Era [20.22104136730419]
ClassEval-Tは、Large Language Models (LLM)向けのクラスレベルのコード変換ベンチマークである。 ClassEvalをベースに構築されたClassEval-Tは、JavaとC++に拡張され、完全なコードサンプルとテストスイートが提供される。
論文参考訳（メタデータ） (2024-11-09T11:13:14Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文参考訳（メタデータ） (2024-05-02T20:42:28Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
GenCeption: Evaluate Multimodal LLMs with Unlabeled Unimodal Data [3.08543976986593]
MLLM(Multimodal Large Language Models)は通常、高価な注釈付きマルチモーダルベンチマークを用いて評価される。本稿では,新しいアノテーションのない評価手法であるGenCeptionの概要と検証を行う。モダリティ間のセマンティック・コヒーレンスを測定するために一元データのみを必要とし、逆にMLLMの幻覚傾向を評価する。
論文参考訳（メタデータ） (2024-02-22T21:22:04Z)
Vi(E)va LLM! A Conceptual Stack for Evaluating and Interpreting Generative AI-based Visualizations [1.709620026135923]
大規模言語モデル(LLM)は、可視化に関連する生成タスクをサポートするための興味深い選択肢となっている。本稿では,LLMを用いて生成した可視化の評価をモデル化する問題に対処する。本稿では,原子部品の評価を分解する理論評価スタックEvaLLMを提案する。
論文参考訳（メタデータ） (2024-02-03T14:28:55Z)
LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。 LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。ゼロショット学習よりもパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-12T17:17:27Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。