論文の概要: Collaborative Image Understanding
- arxiv url: http://arxiv.org/abs/2210.11907v1
- Date: Fri, 21 Oct 2022 12:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:21:33.732558
- Title: Collaborative Image Understanding
- Title(参考訳): 協調的画像理解
- Authors: Koby Bibas, Oren Sar Shalom, Dietmar Jannach
- Abstract要約: 我々は,新しい画像の分類プロセスを改善するために,協調的な情報を活用することができることを示す。
電子商取引とソーシャルメディアのデータセットに関する一連の実験は、協調的な信号を考えることで、画像分類の主要なタスクのパフォーマンスが最大9.1%向上することを示した。
- 参考スコア(独自算出の注目度): 5.5174379874002435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically understanding the contents of an image is a highly relevant
problem in practice. In e-commerce and social media settings, for example, a
common problem is to automatically categorize user-provided pictures. Nowadays,
a standard approach is to fine-tune pre-trained image models with
application-specific data. Besides images, organizations however often also
collect collaborative signals in the context of their application, in
particular how users interacted with the provided online content, e.g., in
forms of viewing, rating, or tagging. Such signals are commonly used for item
recommendation, typically by deriving latent user and item representations from
the data. In this work, we show that such collaborative information can be
leveraged to improve the classification process of new images. Specifically, we
propose a multitask learning framework, where the auxiliary task is to
reconstruct collaborative latent item representations. A series of experiments
on datasets from e-commerce and social media demonstrates that considering
collaborative signals helps to significantly improve the performance of the
main task of image classification by up to 9.1%.
- Abstract(参考訳): 画像の内容を自動的に理解することは、実際には非常に関連する問題である。
例えば、eコマースやソーシャルメディアの設定では、ユーザーが提供する画像を自動的に分類するのが一般的な問題である。
現在、標準的なアプローチは、アプリケーション固有のデータで事前学習されたイメージモデルを微調整する。
イメージ以外にも、アプリケーションのコンテキスト、特にユーザが提供されたオンラインコンテンツ(例えば、視聴、レーティング、タグ付けなど)とどのようにやり取りしたか、といったコラボレーティブなシグナルも収集することが多い。
このような信号は一般的にアイテムレコメンデーションに使われ、通常は潜在ユーザとデータからアイテム表現を導出する。
本研究では,新しい画像の分類プロセスを改善するために,このような協調情報を活用できることを示す。
具体的には,協調的潜在項目表現の再構築を補助タスクとするマルチタスク学習フレームワークを提案する。
電子商取引とソーシャルメディアのデータセットに関する一連の実験は、協調的な信号を考えることで、画像分類の主要なタスクのパフォーマンスが最大9.1%向上することを示した。
関連論文リスト
- A Simple Image Segmentation Framework via In-Context Examples [59.319920526160466]
本稿では,テキスト内例を利用したシンプルな画像フレームワークであるSINEを提案する。
In-context Interactionモジュールを導入し、インコンテキスト情報を補完し、ターゲット画像とインコンテキストの例との相関関係を生成する。
様々なセグメンテーションタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-07T08:59:05Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Label Assistant: A Workflow for Assisted Data Annotation in Image
Segmentation Tasks [0.8135412538980286]
本稿では,アノテーションプロセスを支援する汎用ワークフローを提案し,抽象レベルでメソッドについて議論する。
これにより、将来性のあるサンプル、画像前処理、ラベル前処理、ラベル検査、アノテーションの後処理などに焦点を当てる可能性について検討する。
さらに,ハイブリッドタッチスクリーン/ラップトップデバイスにネストしたフレキシブルで拡張可能なソフトウェアプロトタイプの開発により,提案手法の実装を提案する。
論文 参考訳(メタデータ) (2021-11-27T19:08:25Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Exploiting Web Images for Fine-Grained Visual Recognition by Eliminating
Noisy Samples and Utilizing Hard Ones [60.07027312916081]
トレーニング中に実世界のWeb画像から無関係なサンプルを除去するための新しいアプローチを提案します。
私達のアプローチはよりよい性能を達成するために無関係な騒々しいWebイメージおよび堅い例の有害な影響を緩和できます。
論文 参考訳(メタデータ) (2021-01-23T03:58:10Z) - Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。
視覚と概念の関係をグラフ構造としてモデル化する。
また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文 参考訳(メタデータ) (2020-10-04T19:34:20Z) - Adversarial Learning for Personalized Tag Recommendation [61.76193196463919]
大規模データセットでトレーニング可能なエンドツーエンドのディープネットワークを提案する。
ユーザの嗜好と視覚的エンコーディングの合同トレーニングにより、ネットワークは視覚的嗜好をタグ付け行動と効率的に統合することができる。
本稿では,提案モデルの有効性を2つの大規模および公開データセットで示す。
論文 参考訳(メタデータ) (2020-04-01T20:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。