論文の概要: Are They the Same Picture? Adapting Concept Bottleneck Models for Human-AI Collaboration in Image Retrieval
- arxiv url: http://arxiv.org/abs/2407.08908v1
- Date: Fri, 12 Jul 2024 00:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 01:16:30.428330
- Title: Are They the Same Picture? Adapting Concept Bottleneck Models for Human-AI Collaboration in Image Retrieval
- Title(参考訳): 画像が同じか?画像検索における人間とAIの協調のための概念ボタネックモデルの適用
- Authors: Vaibhav Balloli, Sara Beery, Elizabeth Bondi-Kelly,
- Abstract要約: textttCHAIRを使えば、人間が中間概念を修正できる。
本手法は,外部介入を伴わずに,画像検索指標の類似モデルよりも優れた性能を示すことを示す。
- 参考スコア(独自算出の注目度): 3.2495565849970016
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Image retrieval plays a pivotal role in applications from wildlife conservation to healthcare, for finding individual animals or relevant images to aid diagnosis. Although deep learning techniques for image retrieval have advanced significantly, their imperfect real-world performance often necessitates including human expertise. Human-in-the-loop approaches typically rely on humans completing the task independently and then combining their opinions with an AI model in various ways, as these models offer very little interpretability or \textit{correctability}. To allow humans to intervene in the AI model instead, thereby saving human time and effort, we adapt the Concept Bottleneck Model (CBM) and propose \texttt{CHAIR}. \texttt{CHAIR} (a) enables humans to correct intermediate concepts, which helps \textit{improve} embeddings generated, and (b) allows for flexible levels of intervention that accommodate varying levels of human expertise for better retrieval. To show the efficacy of \texttt{CHAIR}, we demonstrate that our method performs better than similar models on image retrieval metrics without any external intervention. Furthermore, we also showcase how human intervention helps further improve retrieval performance, thereby achieving human-AI complementarity.
- Abstract(参考訳): 画像検索は、野生生物保護から医療への応用において、個々の動物や関連画像を見つけるために重要な役割を果たす。
画像検索のためのディープラーニング技術は著しく進歩しているが、その不完全な現実世界のパフォーマンスは人間の専門知識を含む必要がしばしばある。
ヒューマン・イン・ザ・ループ(Human-in-the-loop)アプローチは一般的に、人間が独立してタスクを完了し、その意見をさまざまな方法でAIモデルと組み合わせる。
人間がAIモデルに介入できるように、人間の時間と労力を節約し、概念ボトルネックモデル(CBM)を適用して、‘texttt{CHAIR}’を提案する。
\texttt{CHAIR}
(a) 人間が中間概念を修正できるようにし、 textit{improve} 埋め込みの生成を助け、
b) より優れた検索のために、様々なレベルの人間の専門知識を適合させる柔軟な介入を可能にする。
本手法は, 外部介入を伴わずに, 画像検索指標の類似モデルよりも優れた性能を示す。
さらに,人間の介入によって検索性能が向上し,人間とAIの相補性が向上することを示す。
関連論文リスト
- Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback [5.9726297901501475]
直接選好最適化(DPO)を利用した人体画像生成に特化した新しいアプローチを提案する。
具体的には、コストのかかる人的フィードバックを必要とせずに、人間の画像生成モデルを訓練するための特殊なDPOデータセットを構築するための効率的な方法を提案する。
本手法は,画像のパーソナライズ・テキスト・ツー・イメージ生成など,画像生成の汎用性と有効性を示す。
論文 参考訳(メタデータ) (2024-05-30T16:18:05Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Multi Positive Contrastive Learning with Pose-Consistent Generated Images [0.873811641236639]
我々は、同一の人間のポーズで視覚的に異なる画像を生成することを提案する。
そこで我々は,これまで生成した画像を最適に活用する,新しいマルチ陽性コントラスト学習を提案する。
GenPoCCLは、現在の最先端技術に比べて1%未満のデータしか利用していないが、人間の身体の構造的特徴をより効果的に捉えている。
論文 参考訳(メタデータ) (2024-04-04T07:26:26Z) - Enhancing Image Caption Generation Using Reinforcement Learning with
Human Feedback [0.0]
本研究では,人間に好まれるキャプションを生成するために,ディープニューラルネットワークモデルの性能を増幅する潜在的手法を検討する。
これは、教師付き学習と強化学習と人間のフィードバックを統合することで達成された。
我々は、人間の協調型生成AIモデル分野における継続的な進歩に寄与することを願って、我々のアプローチと結果のスケッチを提供する。
論文 参考訳(メタデータ) (2024-03-11T13:57:05Z) - UniHuman: A Unified Model for Editing Human Images in the Wild [49.896715833075106]
実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。
モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。
ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
論文 参考訳(メタデータ) (2023-12-22T05:00:30Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - ArtWhisperer: A Dataset for Characterizing Human-AI Interactions in Artistic Creations [26.4215586218117]
本研究は,対象画像の生成にテキスト・ツー・イメージ・モデルをどのように利用するかを検討する。
私たちはArtWhispererを作った。これはユーザーがターゲットイメージを与えられたオンラインゲームで、ターゲットに類似した画像を生成するプロンプトを反復的に見つける。
我々は5万以上の人間とAIのインタラクションを記録し、各インタラクションはユーザによって生成された1つのテキストプロンプトと、それに対応する生成された画像に対応する。
論文 参考訳(メタデータ) (2023-06-13T21:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。