Fugu-MT 論文翻訳(概要): Measuring Progress in Fine-grained Vision-and-Language Understanding

論文の概要: Measuring Progress in Fine-grained Vision-and-Language Understanding

arxiv url: http://arxiv.org/abs/2305.07558v1
Date: Fri, 12 May 2023 15:34:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-15 12:19:41.261565
Title: Measuring Progress in Fine-grained Vision-and-Language Understanding
Title（参考訳）: きめ細かい視覚・言語理解の進歩の計測
Authors: Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh
Abstract要約: 詳細なベンチマークにおいて、4つの競合する視覚・言語モデルについて検討する。 X-VLMは、他のベースラインよりも一貫して優れています。細かなスキルを習得する上で,新たな損失と豊富なデータソースの両方の重要性を強調した。
参考スコア（独自算出の注目度）: 23.377634283746698
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While pretraining on large-scale image-text data from the Web has facilitated rapid progress on many vision-and-language (V&L) tasks, recent work has demonstrated that pretrained models lack "fine-grained" understanding, such as the ability to recognise relationships, verbs, and numbers in images. This has resulted in an increased interest in the community to either develop new benchmarks or models for such capabilities. To better understand and quantify progress in this direction, we investigate four competitive V&L models on four fine-grained benchmarks. Through our analysis, we find that X-VLM (Zeng et al., 2022) consistently outperforms other baselines, and that modelling innovations can impact performance more than scaling Web data, which even degrades performance sometimes. Through a deeper investigation of X-VLM, we highlight the importance of both novel losses and rich data sources for learning fine-grained skills. Finally, we inspect training dynamics, and discover that for some tasks, performance peaks early in training or significantly fluctuates, never converging.
Abstract（参考訳）: Webからの大規模画像テキストデータの事前学習は、多くの視覚・言語(V&L)タスクの急速な進歩を促す一方で、最近の研究は、事前学習されたモデルには、関係性、動詞、画像中の数字を認識できる機能など、"きめ細かい"理解が欠けていることを示した。この結果、コミュニティは新しいベンチマークを開発するか、そのような機能のためのモデルを開発することへの関心が高まった。この方向の進捗をよりよく理解し、定量化するために、4つの詳細なベンチマークで4つの競合V&Lモデルを検証した。分析を通じて、x-vlm(zeng et al., 2022)は他のベースラインよりも一貫して優れており、webデータのスケーリングよりもパフォーマンスにモデルイノベーションが影響する可能性があることが分かりました。 X-VLMのより深い研究を通じて、我々は、きめ細かいスキルを学ぶために、新しい損失と豊富なデータソースの両方の重要性を強調した。最後に、トレーニングダイナミクスを検査し、いくつかのタスクでは、トレーニングの早い段階でパフォーマンスがピークに達するか、あるいは著しく変動し、決して収束しないことを発見します。

関連論文リスト

Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文参考訳（メタデータ） (2025-05-24T14:25:48Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Exploring Graph Tasks with Pure LLMs: A Comprehensive Benchmark and Investigation [26.19182768810174]
グラフ構造化データは、さまざまな領域でますます普及し、グラフタスクを処理する効果的なモデルに対する需要が高まっている。グラフニューラルネットワーク(GNN)のような従来のグラフ学習モデルは、大きな進歩を遂げているが、グラフデータを扱う能力は、特定のコンテキストにおいて制限されている。近年,グラフタスクの候補として大規模言語モデル (LLM) が登場しているが,ほとんどの研究はパフォーマンスベンチマークに重点を置いている。
論文参考訳（メタデータ） (2025-02-26T03:03:46Z)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。 Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文参考訳（メタデータ） (2024-11-11T07:36:19Z)
Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。 IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文参考訳（メタデータ） (2024-07-22T15:35:09Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
BloomVQA: Assessing Hierarchical Multi-modal Comprehension [18.21961616174999]
我々は、様々なレベルの理解を反映した絵物語に基づいて、複数の選択サンプルを収集する。モデル一貫性を特徴付ける新しい尺度と自動データ拡張を可能にする新しい階層グラフ表現にマッピングする。従来のモデルと比較して、GPT-4Vは全ての理解レベルよりも精度が向上し、特に高次タスクでは視覚入力をバイパスする傾向を示す。
論文参考訳（メタデータ） (2023-12-20T02:22:49Z)
Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文参考訳（メタデータ） (2023-06-15T20:11:23Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Vision-and-Language Pretraining [19.903012955284698]
本稿では,現代V&L事前学習モデルの総合的な改訂について述べる。特に、最先端のビジョン・アンド・ランゲージ事前学習モデルの要約とともに、事前学習アプローチの分類とデライン化を行う。
論文参考訳（メタデータ） (2022-07-05T02:18:49Z)
Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。 4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文参考訳（メタデータ） (2020-10-24T08:17:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。