Fugu-MT 論文翻訳(概要): Context Sensitivity Improves Human-Machine Visual Alignment

論文の概要: Context Sensitivity Improves Human-Machine Visual Alignment

arxiv url: http://arxiv.org/abs/2604.13883v1
Date: Wed, 15 Apr 2026 13:47:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 20:38:32.567212
Title: Context Sensitivity Improves Human-Machine Visual Alignment
Title（参考訳）: コンテキスト感度は人間と機械の視覚的アライメントを改善する
Authors: Frieda Born, Tom Neuhäuser, Lukas Muttenthaler, Brett D. Roads, Bernhard Spitzer, Andrew K. Lampinen, Matt Jones, Klaus-Robert Müller, Michael C. Mozer,
Abstract要約: 本稿では,ニューラルネットワークの埋め込みからコンテキストに敏感な類似性計算手法を提案する。文脈非感性モデルに対して、奇数ワンアウト精度を最大15%改善する。
参考スコア（独自算出の注目度）: 21.48392018729352
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern machine learning models typically represent inputs as fixed points in a high-dimensional embedding space. While this approach has been proven powerful for a wide range of downstream tasks, it fundamentally differs from the way humans process information. Because humans are constantly adapting to their environment, they represent objects and their relationships in a highly context-sensitive manner. To address this gap, we propose a method for context-sensitive similarity computation from neural network embeddings, applied to modeling a triplet odd-one-out task with an anchor image serving as simultaneous context. Modeling context enables us to achieve up to a 15% improvement in odd-one-out accuracy over a context-insensitive model. We find that this improvement is consistent across both original and "human-aligned" vision foundation models.
Abstract（参考訳）: 現代の機械学習モデルは一般的に、高次元埋め込み空間における入力を固定点として表現する。このアプローチは幅広いダウンストリームタスクに対して強力であることが証明されているが、基本的には人間が情報を処理する方法とは異なっている。人間は環境に常に適応するため、オブジェクトとその関係を文脈に敏感な方法で表現する。このギャップに対処するために,ニューラルネットワークの埋め込みからコンテキストに敏感な類似性計算法を提案する。モデリングコンテキストにより、コンテキスト非感性モデルよりも最大15%のオッズ・ワン・アウト精度の向上が達成できる。この改善は、オリジナルと“ヒューマンアライン”なビジョン基盤モデルの両方で一貫していることが分かりました。

関連論文リスト

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis [50.793806818677716]
AffordGraspは、物理的に安定し、セマンティックに忠実な人間の握りを高精度に生成する。 AffordGraspは、手ポーズの空きを意識した潜在表現を二重条件拡散プロセスに統合する。 AffordGraspはHO-3D, OakInk, GRAB, AffordPoseの4つの命令強化ベンチマークで評価した。
論文参考訳（メタデータ） (2026-03-09T06:56:35Z)
A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data [0.0]
人間の参照解釈の中核的な側面をモデル化する計算フレームワークを提案する。スタンフォード・リピート・レファレンス・ゲーム・コーパス(Stanford Repeated Reference Game corpus)のモデルを評価する。その結果, 比較的単純な知覚言語的アライメント機構は, 人間の競争行動をもたらすことが示唆された。
論文参考訳（メタデータ） (2026-02-23T07:20:11Z)
Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文参考訳（メタデータ） (2024-11-04T09:43:33Z)
Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文参考訳（メタデータ） (2024-10-26T12:00:33Z)
Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文参考訳（メタデータ） (2021-09-15T02:26:07Z)
Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文参考訳（メタデータ） (2021-08-30T19:45:07Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。