Fugu-MT 論文翻訳(概要): Image-guided topic modeling for interpretable privacy classification

論文の概要: Image-guided topic modeling for interpretable privacy classification

arxiv url: http://arxiv.org/abs/2409.18674v1
Date: Fri, 27 Sep 2024 12:02:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 18:11:57.456671
Title: Image-guided topic modeling for interpretable privacy classification
Title（参考訳）: 解釈可能なプライバシー分類のための画像誘導トピックモデリング
Authors: Alina Elena Baia, Andrea Cavallaro,
Abstract要約: 本稿では,自然言語コンテンツ記述子を用いて画像のプライバシーを予測することを提案する。これらのコンテンツ記述子は、人々がイメージコンテンツをどう知覚するかを反映したプライバシースコアと関連付けられている。 ITMの生成した記述子を使ってプライバシ予測子(Priv$times$ITM)を学習し、その決定は設計によって解釈できる。
参考スコア（独自算出の注目度）: 27.301741710016223
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Predicting and explaining the private information contained in an image in human-understandable terms is a complex and contextual task. This task is challenging even for large language models. To facilitate the understanding of privacy decisions, we propose to predict image privacy based on a set of natural language content descriptors. These content descriptors are associated with privacy scores that reflect how people perceive image content. We generate descriptors with our novel Image-guided Topic Modeling (ITM) approach. ITM leverages, via multimodality alignment, both vision information and image textual descriptions from a vision language model. We use the ITM-generated descriptors to learn a privacy predictor, Priv$\times$ITM, whose decisions are interpretable by design. Our Priv$\times$ITM classifier outperforms the reference interpretable method by 5 percentage points in accuracy and performs comparably to the current non-interpretable state-of-the-art model.
Abstract（参考訳）: 人間の理解可能な言葉で画像に含まれるプライベート情報の予測と説明は、複雑で文脈的な作業である。このタスクは、大きな言語モデルであっても難しい。プライバシ決定の理解を容易にするために,自然言語コンテンツ記述子を用いた画像プライバシの予測を提案する。これらのコンテンツ記述子は、人々がイメージコンテンツをどう知覚するかを反映したプライバシースコアと関連付けられている。我々は新しい画像誘導トピックモデリング(ITM)アプローチで記述子を生成する。 ITMは、マルチモーダルアライメントを通じて、視覚情報と視覚言語モデルからの画像テキスト記述の両方を活用する。 ITMの生成した記述子を使ってプライバシ予測子Priv$\times$ITMを学び、その決定は設計によって解釈できる。我々のPriv$\times$ITM分類器は、参照解釈可能なメソッドの精度を5パーセント上回り、現在の非解釈可能な最先端モデルと互換性がある。

関連論文リスト

FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
Private Attribute Inference from Images with Vision-Language Models [2.9373912230684565]
視覚言語モデル(VLM)は、画像とテキストの両方を理解することができる。我々は7つの最先端のVLMを評価し、最大77.6%の精度で様々な個人属性を推測できることを発見した。モデルの一般的な能力で精度がスケールすることが観察され、将来のモデルはより強い推論の敵として誤用される可能性が示唆された。
論文参考訳（メタデータ） (2024-04-16T14:42:49Z)
Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文参考訳（メタデータ） (2023-12-11T04:47:39Z)
Human-interpretable and deep features for image privacy classification [32.253391125106674]
本稿では,画像のプライバシ分類に適した機能について論じるとともに,プライバシに特有かつ人間に解釈可能な8つの特徴を提案する。これらの機能は、ディープラーニングモデルの性能を高め、それ自身で、より高次元の深い機能と比較して、プライバシ分類のためのイメージ表現を改善する。
論文参考訳（メタデータ） (2023-10-30T14:39:43Z)
Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文参考訳（メタデータ） (2023-06-02T17:59:09Z)
Content-based Graph Privacy Advisor [38.733077459065704]
本稿では,画像のプライバシを予測するための手がかりとして,シーン情報とオブジェクトの濃度を用いた画像プライバシー分類器を提案する。我々のグラフプライバシ・アドバイザ(GPA)モデルは、最先端のグラフモデルを単純化し、その性能を改善する。
論文参考訳（メタデータ） (2022-10-20T11:12:42Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
Show, Interpret and Tell: Entity-aware Contextualised Image Captioning in Wikipedia [10.21762162291523]
本稿では,文脈知識を統合することで,ウィキペディア画像のキャプションを行う新しいタスクを提案する。具体的には、ウィキペディアの記事やウィキメディアの画像、それに付随する記述を共同で推論するモデルを作成します。
論文参考訳（メタデータ） (2022-09-21T16:14:15Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
CAPE: Context-Aware Private Embeddings for Private Language Learning [0.5156484100374058]
Context-Aware Private Embeddings (CAPE)は、埋め込みのトレーニング中にプライバシを保存する新しいアプローチである。 CAPEはディファレンシャルプライバシを通じて校正ノイズを適用し、機密情報を隠蔽しながらエンコードされたセマンティックリンクを保存する。実験結果から,提案手法は単一介入よりも情報漏洩を低減させることが示された。
論文参考訳（メタデータ） (2021-08-27T14:50:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。