論文の概要: I Spy With My Little Eye: A Minimum Cost Multicut Investigation of Dataset Frames
- arxiv url: http://arxiv.org/abs/2412.01296v1
- Date: Mon, 02 Dec 2024 09:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:14.432065
- Title: I Spy With My Little Eye: A Minimum Cost Multicut Investigation of Dataset Frames
- Title(参考訳): 私の小さな目で見る:データセットフレームの最小コストマルチカット調査
- Authors: Katharina Prasse, Isaac Bravo, Stefanie Walter, Margret Keuper,
- Abstract要約: 視覚フレーミング分析は、社会科学において、談話における共通テーマや概念を決定するための重要な方法である。
本稿では,クラスタリングタスクを最小コストマルチカット問題 [MP] と表現する。
MPに対する解は、同じクラスタに属する2つの画像の局所的対の確率のみから、後続確率を最大化するクラスタリングを提供することが示されている。
最適クラスタリング(定義によって)と組み合わせて空間差を埋め込むという私たちの洞察は、自動的な視覚的フレーム検出を進歩させます。
- 参考スコア(独自算出の注目度): 12.177674038614658
- License:
- Abstract: Visual framing analysis is a key method in social sciences for determining common themes and concepts in a given discourse. To reduce manual effort, image clustering can significantly speed up the annotation process. In this work, we phrase the clustering task as a Minimum Cost Multicut Problem [MP]. Solutions to the MP have been shown to provide clusterings that maximize the posterior probability, solely from provided local, pairwise probabilities of two images belonging to the same cluster. We discuss the efficacy of numerous embedding spaces to detect visual frames and show its superiority over other clustering methods. To this end, we employ the climate change dataset \textit{ClimateTV} which contains images commonly used for visual frame analysis. For broad visual frames, DINOv2 is a suitable embedding space, while ConvNeXt V2 returns a larger number of clusters which contain fine-grain differences, i.e. speech and protest. Our insights into embedding space differences in combination with the optimal clustering - by definition - advances automated visual frame detection. Our code can be found at https://github.com/KathPra/MP4VisualFrameDetection.
- Abstract(参考訳): 視覚フレーミング分析は、社会科学において、ある言説において共通のテーマや概念を決定するための重要な方法である。
手作業の労力を減らすために、イメージクラスタリングはアノテーションプロセスを大幅に高速化することができる。
本稿では,クラスタリングタスクを最小コストマルチカット問題[MP]と表現する。
MPに対する解は、同じクラスタに属する2つの画像の局所的対の確率のみから、後続確率を最大化するクラスタリングを提供することが示されている。
本稿では,視覚的フレームを検出するための多数の埋め込み空間の有効性について論じ,他のクラスタリング手法よりも優れていることを示す。
この目的のために、我々は、視覚的フレーム分析によく使用される画像を含む気候変動データセット \textit{ClimateTV} を採用している。
広い視野では、DINOv2は適切な埋め込み空間であり、ConvNeXt V2は、細粒度の違い、すなわちスピーチと抗議を含む多数のクラスタを返す。
最適クラスタリング(定義によって)と組み合わせて空間差を埋め込むという私たちの洞察は、自動的な視覚的フレーム検出を進歩させます。
私たちのコードはhttps://github.com/KathPra/MP4VisualFrameDetectionで確認できます。
関連論文リスト
- Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - Scene Summarization: Clustering Scene Videos into Spatially Diverse
Frames [24.614476456145255]
本稿では,映像に基づくシーン理解タスクとして要約を提案する。
シーンの長いウォークスルーを、空間的に多様な小さなフレームにまとめることを目的としている。
私たちのソリューションは、SceneSumという名前の2段階の自己管理パイプラインです。
論文 参考訳(メタデータ) (2023-11-28T22:18:26Z) - Deep Multi-View Subspace Clustering with Anchor Graph [11.291831842959926]
アンカーグラフ(DMCAG)を用いた深層多視点サブスペースクラスタリング手法を提案する。
DMCAGは各ビューの埋め込み機能を独立して学習し、サブスペース表現を得るために使用される。
本手法は他の最先端手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2023-05-11T16:17:43Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - ClusterFuG: Clustering Fully connected Graphs by Multicut [20.254912065749956]
密マルチカットでは、クラスタリングの目的はノード特徴ベクトルの内部積として分解形式で与えられる。
我々は、密集した環境でのマルチカットのための古典的欲求アルゴリズムの書き直し方法と、より効率とソリューションの品質を高めるためにそれらをどう修正するかを示す。
論文 参考訳(メタデータ) (2023-01-28T11:10:50Z) - Adaptively Clustering Neighbor Elements for Image-Text Generation [78.82346492527425]
我々はtextbfACF と呼ばれるトランスフォーマーに基づく新しい画像テキスト生成モデルを提案する。
ACFは、視覚パッチをオブジェクト領域と言語単語に適応的にクラスタリングし、暗黙的にオブジェクト・フレーズのアライメントを学習する。
実験の結果,ほとんどのSOTAキャプションやVQAモデルよりも優れたACFの有効性が示された。
論文 参考訳(メタデータ) (2023-01-05T08:37:36Z) - Semantic-Enhanced Image Clustering [6.218389227248297]
本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。
イメージを適切なセマンティック空間にマップする方法と、イメージとセマンティック空間の両方からイメージをクラスタリングする方法は、2つの重要な問題である。
本稿では,与えられた画像を適切な意味空間にマッピングする手法を提案し,画像と意味論の関係に応じて擬似ラベルを生成する。
論文 参考訳(メタデータ) (2022-08-21T09:04:21Z) - GOCA: Guided Online Cluster Assignment for Self-Supervised Video
Representation Learning [49.69279760597111]
クラスタリングは教師なし学習におけるユビキタスなツールです。
既存の自己教師型表現学習手法の多くは、視覚的に支配的な特徴に基づくクラスタサンプルが一般的である。
具体的には、各ビューの初期クラスタ割り当てを事前に使用して、他のビューの最終クラスタ割り当てをガイドする、新しいクラスタリング戦略を提案する。
論文 参考訳(メタデータ) (2022-07-20T19:26:55Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。