論文の概要: Generalization Differences between End-to-End and Neuro-Symbolic
Vision-Language Reasoning Systems
- arxiv url: http://arxiv.org/abs/2210.15037v1
- Date: Wed, 26 Oct 2022 21:11:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:43:13.707958
- Title: Generalization Differences between End-to-End and Neuro-Symbolic
Vision-Language Reasoning Systems
- Title(参考訳): エンド・ツー・エンドとニューロシンボリック視覚言語推論システムの一般化
- Authors: Wang Zhu, Jesse Thomason, Robin Jia
- Abstract要約: 視覚・言語推論タスクでは、完全接続性、エンドツーエンド法、ハイブリッド型ニューロシンボリック法の両方が高い分配性能を達成している。
本研究では,4種類の一般化テストを通して,単一画像と複数画像の視覚的質問応答について検討する。
視覚と言語によるエンドツーエンドのトレーニングシステムは、これらのテスト全体で大きなパフォーマンス低下を示します。
ニューロシンボリック法は、GQAからVQAへのクロスベンチマーク転送にさらに苦しむが、他の一般化テストでは精度が低下し、数ショットで性能が向上する。
- 参考スコア(独自算出の注目度): 23.585525403238858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For vision-and-language reasoning tasks, both fully connectionist, end-to-end
methods and hybrid, neuro-symbolic methods have achieved high in-distribution
performance. In which out-of-distribution settings does each paradigm excel? We
investigate this question on both single-image and multi-image visual
question-answering through four types of generalization tests: a novel
segment-combine test for multi-image queries, contrast set, compositional
generalization, and cross-benchmark transfer. Vision-and-language end-to-end
trained systems exhibit sizeable performance drops across all these tests.
Neuro-symbolic methods suffer even more on cross-benchmark transfer from GQA to
VQA, but they show smaller accuracy drops on the other generalization tests and
their performance quickly improves by few-shot training. Overall, our results
demonstrate the complementary benefits of these two paradigms, and emphasize
the importance of using a diverse suite of generalization tests to fully
characterize model robustness to distribution shift.
- Abstract(参考訳): 視覚・言語推論タスクでは、完全接続性、エンドツーエンド法、ハイブリッド型ニューロシンボリック法の両方が高い分配性能を実現している。
分散のどの設定が各パラダイムに優れているか?
本研究では,複数画像の問合せ,コントラストセット,合成一般化,クロスベンチマーク変換の4種類の一般化テストを通して,単一画像と複数画像の視覚的問合せを問う。
視覚と言語によるエンドツーエンドのトレーニングシステムは、これらのテスト全体で大きなパフォーマンス低下を示す。
ニューロシンボリック法は、GQAからVQAへのクロスベンチマーク転送にさらに苦しむが、他の一般化テストでは精度が低下し、数発の訓練で性能が向上する。
全体として,これらの2つのパラダイムの相補的な利点を示し,分散シフトに対するモデルのロバスト性を完全に特徴付けるために,多種多様な一般化テストを使うことの重要性を強調した。
関連論文リスト
- Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。
我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。
実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2024-09-25T11:55:27Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination [14.50214193838818]
CLIPのようなビジョン言語(V-L)モデルのゼロショット一般化は、広く採用されている。
従来の手法では、テスト時のプロンプトチューニングを使用して、モデルを目に見えない領域に適応させたが、不均衡なクラス分布の問題を見落としていた。
本研究では,テストサンプルとフィルタ付き拡張ビューで得られた平均クラス確率によって重み付けされたクラス認識型プロトタイプアライメントを採用する。
論文 参考訳(メタデータ) (2024-04-11T07:26:00Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Towards Robust GAN-generated Image Detection: a Multi-view Completion
Representation [27.483031588071942]
GAN生成画像検出は、ディープフェイクのようなマシン合成画像操作の悪意ある使用に対する最初の防御線となっている。
本稿では,新しい多視点画像補完表現に基づくロバスト検出フレームワークを提案する。
我々は,6つのGANに対して異なる解像度でフレームワークの一般化能力を評価し,その幅広い摂動攻撃に対する堅牢性を評価する。
論文 参考訳(メタデータ) (2023-06-02T08:38:02Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Interpretable Neural Computation for Real-World Compositional Visual
Question Answering [4.3668650778541895]
実世界の合成VQAのための解釈可能なフレームワークを構築した。
このフレームワークでは,画像や質問をシーングラフやプログラムに切り離し,その上でシンボルプログラムが実行され,注意領域を選択するための完全な透過性がある。
GQAベンチマークで行った実験により,本フレームワークはモノリシックなモノリシックなモノリシックなモノリシックなモノリシックなプリエントアーツと競争の精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-10-10T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。