論文の概要: Reasoning Segmentation for Images and Videos: A Survey
- arxiv url: http://arxiv.org/abs/2505.18816v1
- Date: Sat, 24 May 2025 18:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.675635
- Title: Reasoning Segmentation for Images and Videos: A Survey
- Title(参考訳): 画像と動画のセグメンテーションに関する調査
- Authors: Yiqing Shen, Chenjia Li, Fei Xiong, Jeong-O Jeong, Tianpeng Wang, Michael Latman, Mathias Unberath,
- Abstract要約: Reasoning (RS) は、暗黙のテキストクエリに基づいてオブジェクトを記述することを目的としている。
RSは視覚知覚と人間のような推論能力のギャップを埋める。
- 参考スコア(独自算出の注目度): 8.73974749874605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning Segmentation (RS) aims to delineate objects based on implicit text queries, the interpretation of which requires reasoning and knowledge integration. Unlike the traditional formulation of segmentation problems that relies on fixed semantic categories or explicit prompting, RS bridges the gap between visual perception and human-like reasoning capabilities, facilitating more intuitive human-AI interaction through natural language. Our work presents the first comprehensive survey of RS for image and video processing, examining 26 state-of-the-art methods together with a review of the corresponding evaluation metrics, as well as 29 datasets and benchmarks. We also explore existing applications of RS across diverse domains and identify their potential extensions. Finally, we identify current research gaps and highlight promising future directions.
- Abstract(参考訳): Reasoning Segmentation (RS)は、暗黙のテキストクエリに基づいてオブジェクトを記述することを目的としている。
特定の意味圏や明示的なプロンプトに依存する従来のセグメンテーション問題の定式化とは異なり、RSは視覚知覚と人間のような推論能力のギャップを埋め、自然言語によるより直感的な人間とAIの相互作用を促進する。
本研究は,26の最先端手法と29のデータセットとベンチマークを用いて,画像およびビデオ処理におけるRSの総合的な調査を行った。
また、様々な領域にわたるRSの既存の応用を探求し、その潜在的な拡張を同定する。
最後に、現在の研究ギャップを特定し、将来有望な方向性を明らかにする。
関連論文リスト
- Show or Tell? A Benchmark To Evaluate Visual and Textual Prompts in Semantic Segmentation [7.564378015102302]
セマンティックセグメンテーションのための視覚的プロンプトとテキスト的プロンプトの両方を評価するために特別に設計された新しいベンチマークを提案する。
5つのオープン語彙法と4つの視覚的参照プロンプトアプローチを評価し,後者を多クラスセグメンテーションに適応させる。
実験の結果,オープンボキャブラリ法はテキストで簡単に記述できるが,ツールのような複雑なドメインでは困難であることがわかった。
論文 参考訳(メタデータ) (2025-05-06T20:15:30Z) - On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey [82.49623756124357]
ゼロショット画像認識(ZSIR)は、限られたデータから一般化された知識を学習することにより、目に見えない領域の認識と推論を目的としている。
本稿では,ZSIRの最近の進歩を徹底的に研究し,今後の発展の基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-08-09T05:49:21Z) - Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - Explainable AI (XAI) in Image Segmentation in Medicine, Industry, and Beyond: A Survey [0.10923877073891446]
セマンティックイメージセグメンテーションにおけるXAIに関する最初の包括的調査を示す。
この研究は、高密度な予測タスクのために特別に導入された技術や、既存の手法を分類して拡張された技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-05-02T18:00:25Z) - Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - Guiding Computational Stance Detection with Expanded Stance Triangle
Framework [25.2980607215715]
スタンス検出は、テキストの著者が指定されたターゲットに対して有利か、反対か、中立かを決定する。
本稿では,言語的観点からスタンス検出タスクを分解し,このタスクにおける重要な構成要素と推論経路について検討する。
論文 参考訳(メタデータ) (2023-05-31T13:33:29Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Term-community-based topic detection with variable resolution [0.0]
巨大なテキストコレクションにおけるトピック検出のためのネットワークベースの手順は、確率的トピックモデルの直感的な代替手段を提供する。
ドメインの専門家の要求を念頭に置いて特別に設計された手法を紹介します。
本手法の適用を一般ニュース記事のコーパスで実証し,詳細な社会科学専門家評価の結果を示す。
論文 参考訳(メタデータ) (2021-03-25T01:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。