論文の概要: Relational Visual Similarity
- arxiv url: http://arxiv.org/abs/2512.07833v1
- Date: Mon, 08 Dec 2025 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:55.029773
- Title: Relational Visual Similarity
- Title(参考訳): リレーショナルビジュアル類似性
- Authors: Thao Nguyen, Sicheng Mo, Krishna Kumar Singh, Yilin Wang, Jing Shi, Nicholas Kolkin, Eli Shechtman, Yong Jae Lee, Yuheng Li,
- Abstract要約: リレーショナルな類似性は、認知科学者によって、人間と他の種を区別するものとして論じられる。
現在広く使われている視覚的類似度指標はすべて、知覚的属性類似性のみに焦点を当てている。
我々の研究は、リレーショナルな類似性は多くの実世界のアプリケーションを持っているが、既存の画像類似性モデルはそれを捉えていないことを示している。
- 参考スコア(独自算出の注目度): 75.39827145344957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans do not just see attribute similarity -- we also see relational similarity. An apple is like a peach because both are reddish fruit, but the Earth is also like a peach: its crust, mantle, and core correspond to the peach's skin, flesh, and pit. This ability to perceive and recognize relational similarity, is arguable by cognitive scientist to be what distinguishes humans from other species. Yet, all widely used visual similarity metrics today (e.g., LPIPS, CLIP, DINO) focus solely on perceptual attribute similarity and fail to capture the rich, often surprising relational similarities that humans perceive. How can we go beyond the visible content of an image to capture its relational properties? How can we bring images with the same relational logic closer together in representation space? To answer these questions, we first formulate relational image similarity as a measurable problem: two images are relationally similar when their internal relations or functions among visual elements correspond, even if their visual attributes differ. We then curate 114k image-caption dataset in which the captions are anonymized -- describing the underlying relational logic of the scene rather than its surface content. Using this dataset, we finetune a Vision-Language model to measure the relational similarity between images. This model serves as the first step toward connecting images by their underlying relational structure rather than their visible appearance. Our study shows that while relational similarity has a lot of real-world applications, existing image similarity models fail to capture it -- revealing a critical gap in visual computing.
- Abstract(参考訳): 人間は属性の類似性を見るだけでなく、リレーショナルの類似性も見る。
リンゴはどちらも赤みがかった果実なので桃に似ているが、地球は桃に似ている。
この関係の類似性を知覚し認識する能力は、認知科学者によって、人間と他の種を区別するものであると論じられる。
しかし、今日では広く使われている視覚的類似度指標(LPIPS、CLIP、DINOなど)は、知覚的属性類似度のみに焦点を当てており、人間が知覚する豊かで、しばしば驚くべきリレーショナル類似度を捉えていない。
画像の可視コンテンツを超えて、リレーショナルプロパティをキャプチャするにはどうすればよいのか?
同じリレーショナルロジックを持つ画像を、どのように表現空間に近づけるか?
これらの疑問に答えるために、まず2つの画像は、視覚的特性が異なる場合でも、その内部関係や視覚的要素間の関数が対応するときに、関係的に類似している。
次に、キャプションが匿名化されている114kの画像キャプチャデータセットをキュレートします。
このデータセットを用いて、画像間の関係的類似度を測定するためにビジョン・ランゲージモデルを微調整する。
このモデルは、視覚的な外観ではなく、基盤となるリレーショナル構造によって画像を接続する第一歩として機能する。
我々の研究によると、リレーショナルな類似性は多くの現実世界のアプリケーションを持っているが、既存の画像類似性モデルはそれを捉えていない。
関連論文リスト
- Representations in vision and language converge in a shared, multidimensional space of perceived similarities [0.0]
視覚的および言語的類似性判定は行動レベルに収束することを示す。
また、自然のシーン画像から誘発されるfMRI脳反応のネットワークについても予測する。
これらの結果は、人間の視覚的および言語的類似性判断は、共有的、モダリティに依存しない表現構造に基礎を置いていることを示している。
論文 参考訳(メタデータ) (2025-07-29T14:42:31Z) - Mutual Information calculation on different appearances [0.0]
画像マッチングに相互情報公式を適用し、画像Aを移動対象とし、画像Bを対象対象とする。
また,エントロピー法と情報ゲイン法を用いて画像の依存性を検証した。
論文 参考訳(メタデータ) (2024-07-10T07:12:50Z) - Interpretable Measures of Conceptual Similarity by
Complexity-Constrained Descriptive Auto-Encoding [112.0878081944858]
画像間の類似度を定量化することは、画像ベースの機械学習にとって重要な著作権問題である。
我々は,高次関係を捉えた画像間での「概念的類似性」の概念を定義し,計算することを目指している。
2つの非常に異種な画像は、その記述の早い段階で識別できるが、概念的に異種な画像は、より詳細を区別する必要がある。
論文 参考訳(メタデータ) (2024-02-14T03:31:17Z) - Learning an Adaptation Function to Assess Image Visual Similarities [0.0]
ここでは、類推が重要となるとき、視覚的イメージ類似性を学ぶための特定のタスクに焦点を当てる。
本稿では,異なるスケールとコンテンツデータセットで事前学習した,教師付き,半教師付き,自己教師型ネットワークの比較を提案する。
The Totally Looks Like Image dataset conducted on the Totally Looks Like image highlight the interest of our method, by increase the search scores of the best model @1 by 2.25x。
論文 参考訳(メタデータ) (2022-06-03T07:15:00Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Kinship Verification Based on Cross-Generation Feature Interaction
Learning [53.62256887837659]
顔画像からの血縁検証は、コンピュータビジョンの応用において、新しいが挑戦的な技術として認識されている。
本稿では,頑健な親族関係検証のためのクロスジェネレーション・インタラクション・ラーニング(CFIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-07T01:50:50Z) - Effectively Leveraging Attributes for Visual Similarity [52.2646549020835]
Pairwise Attribute-Informed similarity Network (PAN) を提案する。このネットワークは、類似性学習を2つの画像の共同表現から類似性条件と関連性スコアをキャプチャする。
PANは、Polyvore Outfits上の服品間の互換性予測を4-9%改善し、Caltech-UCSD Birds (CUB)を使用した画像の少数分類で5%向上し、In-Shop Clothes RetrievalでRecall@1に1%アップした。
論文 参考訳(メタデータ) (2021-05-04T18:28:35Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。