論文の概要: DIVE: Towards Descriptive and Diverse Visual Commonsense Generation
- arxiv url: http://arxiv.org/abs/2408.08021v1
- Date: Thu, 15 Aug 2024 08:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:26:13.375597
- Title: DIVE: Towards Descriptive and Diverse Visual Commonsense Generation
- Title(参考訳): DIVE: Descriptive and Diverse Visual Commonsense Generationを目指して
- Authors: Jun-Hyung Park, Hyuntae Park, Youjin Kang, Eojin Jeon, SangKeun Lee,
- Abstract要約: 本稿では、生成した推論の記述性と多様性を改善することを目的とした、DIVEと呼ばれる新しいビジュアルコモンセンス生成フレームワークを提案する。
DIVEには、ジェネリック推論フィルタリングとコントラスト検索学習という2つの方法が含まれており、既存のビジュアルコモンセンスリソースの限界とトレーニング目標に対処する。
特に、DIVEはVisual Commonsense Graphsの人間レベルの記述性と多様性を実現している。
- 参考スコア(独自算出の注目度): 9.690987202095865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Towards human-level visual understanding, visual commonsense generation has been introduced to generate commonsense inferences beyond images. However, current research on visual commonsense generation has overlooked an important human cognitive ability: generating descriptive and diverse inferences. In this work, we propose a novel visual commonsense generation framework, called DIVE, which aims to improve the descriptiveness and diversity of generated inferences. DIVE involves two methods, generic inference filtering and contrastive retrieval learning, which address the limitations of existing visual commonsense resources and training objectives. Experimental results verify that DIVE outperforms state-of-the-art models for visual commonsense generation in terms of both descriptiveness and diversity, while showing a superior quality in generating unique and novel inferences. Notably, DIVE achieves human-level descriptiveness and diversity on Visual Commonsense Graphs. Furthermore, human evaluations confirm that DIVE aligns closely with human judgments on descriptiveness and diversity\footnote{Our code and dataset are available at https://github.com/Park-ing-lot/DIVE.
- Abstract(参考訳): 人間レベルの視覚的理解に向けて、画像以外のコモンセンス推論を生成するために視覚的コモンセンス生成が導入されている。
しかしながら、視覚的コモンセンス生成に関する現在の研究は、記述的で多様な推論を生成するという重要な人間の認知能力を見落としている。
本研究では、生成した推論の記述性と多様性を改善することを目的とした、DIVEと呼ばれる新しいビジュアルコモンセンス生成フレームワークを提案する。
DIVEには、ジェネリック推論フィルタリングとコントラスト検索学習という2つの方法が含まれており、既存のビジュアルコモンセンスリソースの限界とトレーニング目標に対処する。
実験結果から,DIVEは記述性と多様性の両面から,視覚的コモンセンス生成のための最先端モデルよりも優れており,独特かつ斬新な推論を生成する上で,優れた品質を示す。
特に、DIVEはVisual Commonsense Graphsの人間レベルの記述性と多様性を実現している。
さらに、人間の評価では、DIVEは記述性や多様性に関する人間の判断と密接に一致していることが確認されている。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Decoding Visual Sentiment of Political Imagery [0.0]
本研究では,視覚的感情分類に時間差を組み込むことにより,視覚的感情分析に新たなアプローチを導入する。
我々は、異なるイデオロギーの観点から視覚的感情を予測するために、深層学習マルチタスク・マルチクラスモデルを訓練した。
論文 参考訳(メタデータ) (2024-08-07T21:44:56Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Generalized People Diversity: Learning a Human Perception-Aligned
Diversity Representation for People Images [11.038712922077458]
本稿では,人間の多様性の概念と柔軟に整合する多様な人物画像ランキング手法を提案する。
The Perception-Aligned Text- derived Human representation Space (PATHS)は、人間に関連する多様性のすべてのまたは多くの特徴を捉えることを目的としている。
論文 参考訳(メタデータ) (2024-01-25T17:19:22Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Words are all you need? Capturing human sensory similarity with textual
descriptors [12.191617984664683]
人間の類似性判断と言語との関係について検討する。
本稿では,効率的かつ汎用的なタグマイニングのための新しい適応パイプラインを提案する。
テキスト記述子に基づく予測パイプラインは優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-06-08T18:09:19Z) - Accessible Visualization via Natural Language Descriptions: A Four-Level
Model of Semantic Content [6.434361163743876]
可視化の自然言語記述によって伝達されるセマンティックコンテンツの概念モデルを提案する。
視覚障害者30名,視覚障害者90名を対象に,混合手法による評価を行い,どのセマンティック・コンテンツが最も有用か,それぞれに有意差が認められた。
論文 参考訳(メタデータ) (2021-10-08T23:37:25Z) - Fully Unsupervised Person Re-identification viaSelective Contrastive
Learning [58.5284246878277]
人物再識別(ReID)は、様々なカメラが捉えた画像の中から同一人物を検索することを目的としている。
教師なし特徴学習のための新しい選択型コントラスト学習フレームワークを提案する。
その結果,教師なしのReIDにおける手法の優位性について,最先端技術と比較した。
論文 参考訳(メタデータ) (2020-10-15T09:09:23Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。