論文の概要: Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images
- arxiv url: http://arxiv.org/abs/2505.07704v1
- Date: Mon, 12 May 2025 16:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.475887
- Title: Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images
- Title(参考訳): 視線ガラスを通して:ワイド画像の常識整合性評価
- Authors: Elisei Rykov, Kseniia Petrushina, Kseniia Titova, Anton Razzhigaev, Alexander Panchenko, Vasily Konovalov,
- Abstract要約: 本稿では,画像の整合性を評価するために,TLG(Strave the Looking Glass)と呼ばれる新しい手法を提案する。
画像から原子状事実を抽出するためにLVLMを利用することにより、正確な事実の混合が得られる。
我々のTLGはWHOOPSとWEIRDデータセットで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 52.718166111505006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring how real images look is a complex task in artificial intelligence research. For example, an image of a boy with a vacuum cleaner in a desert violates common sense. We introduce a novel method, which we call Through the Looking Glass (TLG), to assess image common sense consistency using Large Vision-Language Models (LVLMs) and Transformer-based encoder. By leveraging LVLMs to extract atomic facts from these images, we obtain a mix of accurate facts. We proceed by fine-tuning a compact attention-pooling classifier over encoded atomic facts. Our TLG has achieved a new state-of-the-art performance on the WHOOPS! and WEIRD datasets while leveraging a compact fine-tuning component.
- Abstract(参考訳): 実際の画像がどのように見えるかを測定することは、人工知能研究の複雑な課題である。
例えば砂漠で掃除機を持っている少年の写真は常識に反する。
本稿では,LVLM (Large Vision-Language Models) と Transformer-based encoder を用いて画像共通感覚の整合性を評価する手法を提案する。
これらの画像から原子的事実を抽出するためにLVLMを利用することにより、正確な事実の混合が得られる。
我々は、符号化された原子事実に対して、コンパクトなアテンションプーリング分類器を微調整する。
我々のTLGは、コンパクトな微調整コンポーネントを活用しながら、WHOOPSとWEIRDデータセット上で、最先端のパフォーマンスを新たに達成しました。
関連論文リスト
- Don't Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts [53.9323641017949]
LVLM(Large Vision-Language Models)と自然言語推論(NLI)を用いた画像リアリズム評価手法を提案する。
我々のアプローチは、LVLMが常識に反するイメージに直面すると幻覚を引き起こすという前提に基づいている。
WHOOPS!データセットのゼロショットモードでは,新たな最先端性能を実現しています。
論文 参考訳(メタデータ) (2025-03-20T08:44:10Z) - TruthLens:A Training-Free Paradigm for DeepFake Detection [4.64982780843177]
本稿では,視覚的質問応答(VQA)タスクとしてディープフェイク検出を再定義するトレーニングフリーフレームワークであるTruthLensを紹介する。
TruthLensは最先端の大規模視覚言語モデル(LVLM)を使用して視覚的アーティファクトを観察し記述する。
マルチモーダルアプローチを採用することで、TruthLensは視覚的および意味論的推論をシームレスに統合し、イメージをリアルまたはフェイクとして分類するだけでなく、解釈可能な説明を提供する。
論文 参考訳(メタデータ) (2025-03-19T15:41:32Z) - FashionR2R: Texture-preserving Rendered-to-Real Image Translation with Diffusion Models [14.596090302381647]
本稿では,レンダリングの制御に基づく拡散モデルから生成するパワーを利用して,レンダリング画像のフォトリアリズム向上について検討する。
ドメイン知識注入(Domain Knowledge Injection, DKI)と現実画像生成(Realistic Image Generation, RIG)という2つの段階から構成される。
論文 参考訳(メタデータ) (2024-10-18T12:48:22Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - ImaginaryNet: Learning Object Detectors without Real Images and
Annotations [66.30908705345973]
本稿では,事前学習された言語モデルとテキスト・ツー・イメージモデルを組み合わせた画像合成フレームワークを提案する。
合成画像とクラスラベルを使用することで、弱い教師付きオブジェクト検出を利用してImaginary-Supervised Object Detectionを実現できる。
実験により、ImaginaryNetは、実際のデータに基づいてトレーニングされた同じバックボーンの弱い監督を受けたものと比較して、ISODで約70%の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-13T10:25:22Z) - Enhancing Low-Light Images in Real World via Cross-Image Disentanglement [58.754943762945864]
そこで本研究では,現実の汚職とミスアライメントされたトレーニング画像からなる,新しい低照度画像強調データセットを提案する。
本モデルでは,新たに提案したデータセットと,他の一般的な低照度データセットの両方に対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-01-10T03:12:52Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Image Retrieval on Real-life Images with Pre-trained Vision-and-Language
Models [41.7254780975984]
合成画像検索のタスクを拡張し、入力クエリは画像と、画像の修正方法に関する短いテキスト記述から構成される。
CIRPLANTは、自然言語で条件付けられた視覚的特徴を修正するために、学習済みの視覚と言語(V&L)の知識を豊富に活用するトランスフォーマーモデルである。
比較的単純なアーキテクチャで、CIRPLANTは、ファッションのような既存の狭いデータセットの最先端の精度を一致させながら、オープンドメイン画像の既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T13:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。