論文の概要: User Prompting Strategies and Prompt Enhancement Methods for Open-Set Object Detection in XR Environments
- arxiv url: http://arxiv.org/abs/2601.23281v1
- Date: Fri, 30 Jan 2026 18:55:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.624807
- Title: User Prompting Strategies and Prompt Enhancement Methods for Open-Set Object Detection in XR Environments
- Title(参考訳): XR環境におけるオープンセットオブジェクト検出のためのユーザプロンプト戦略とプロンプト強化手法
- Authors: Junfeng Lin, Yanming Xiu, Maria Gorlatova,
- Abstract要約: オープンセットオブジェクト検出(OSOD)は、推論時に未知のクラスを特定し、拒否しながらオブジェクトをローカライズする。
インタラクティブなXR設定では、ユーザ生成プロンプトは曖昧で、仕様が不明確で、詳細が多すぎることが多い。
XR環境におけるOSODモデルのいくつかのプロンプト戦略とプロンプト拡張手法を提案する。
- 参考スコア(独自算出の注目度): 6.620606040914258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-set object detection (OSOD) localizes objects while identifying and rejecting unknown classes at inference. While recent OSOD models perform well on benchmarks, their behavior under realistic user prompting remains underexplored. In interactive XR settings, user-generated prompts are often ambiguous, underspecified, or overly detailed. To study prompt-conditioned robustness, we evaluate two OSOD models, GroundingDINO and YOLO-E, on real-world XR images and simulate diverse user prompting behaviors using vision-language models. We consider four prompt types: standard, underdetailed, overdetailed, and pragmatically ambiguous, and examine the impact of two enhancement strategies on these prompts. Results show that both models exhibit stable performance under underdetailed and standard prompts, while they suffer degradation under ambiguous prompts. Overdetailed prompts primarily affect GroundingDINO. Prompt enhancement substantially improves robustness under ambiguity, yielding gains exceeding 55% mIoU and 41% average confidence. Based on the findings, we propose several prompting strategies and prompt enhancement methods for OSOD models in XR environments.
- Abstract(参考訳): オープンセットオブジェクト検出(OSOD)は、推論時に未知のクラスを特定し、拒否しながらオブジェクトをローカライズする。
最近のOSODモデルはベンチマークでよく機能するが、現実的なユーザープロンプト下での動作は未定である。
インタラクティブなXR設定では、ユーザ生成プロンプトは曖昧で、仕様が不明確で、詳細が多すぎることが多い。
本研究では,実世界のXR画像上での2つのOSODモデルであるGroundingDINOとYOLO-Eを評価し,視覚言語モデルを用いて多様なユーザプロンプト動作をシミュレートする。
4つのプロンプトタイプについて検討し,これらプロンプトに対する2つのエンハンスメント戦略の影響について検討した。
その結果,両モデルとも,不明瞭なプロンプトで劣化する一方,不明瞭なプロンプトで安定な性能を示すことがわかった。
過剰なプロンプトは、主にGroundingDinoに影響を及ぼす。
プロンプトの強化はあいまいさ下での堅牢性を大幅に改善し、平均信頼度は55% mIoU、平均信頼度は41%を超える。
そこで本研究では,XR環境におけるOSODモデルの促進戦略と促進手法を提案する。
関連論文リスト
- Exposing Hidden Biases in Text-to-Image Models via Automated Prompt Search [18.386455479798574]
Bias-Guided Prompt Search (BGPS)は、画像内のバイアスの存在を最大化するプロンプトを自動的に生成するフレームワークである。
BGPSは、(1)属性ニュートラルなプロンプトを生成するよう指示されたLLMと、(2)TTIの内部表現に作用する属性分類器の2つのコンポーネントから構成される。
我々は、安定拡散1.5と最先端の縮退モデルに関する広範な実験を行い、微妙で以前は文書化されていなかったバイアスの配列を発見する。
論文 参考訳(メタデータ) (2025-12-09T15:39:04Z) - BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks [51.803138848305814]
我々はBrowserArenaを紹介した。BrowserArenaは、ユーザから送信されたタスクを収集するオープンソースのエージェント評価プラットフォームである。
Captcha解決、ポップアップバナー削除、URLへのダイレクトナビゲーションの3つの一貫した障害モードを特定します。
本研究は,Webエージェントの多様性と脆性の両方を明らかにする。
論文 参考訳(メタデータ) (2025-10-02T15:22:21Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - Explicit Vulnerability Generation with LLMs: An Investigation Beyond Adversarial Attacks [0.5218155982819203]
大規模言語モデル(LLM)は、コードアシスタントとしてますます使われている。
本研究は、より直接的な脅威について検討する。オープンソースのLLMは、トリガー時に脆弱性のあるコードを生成する。
論文 参考訳(メタデータ) (2025-07-14T08:36:26Z) - A Closer Look at System Prompt Robustness [2.5525497052179995]
開発者は、重要なコンテキスト、出力フォーマット、パーソナリティ、ガードレール、コンテンツポリシー、安全対策を指定するためのシステムプロンプトに依存する。
実際には、モデルは関連するガードレールを考慮することを忘れたり、システムとユーザ間の矛盾する要求を解決するのに失敗することが多い。
OpenAIのGPTストアとHuggingFaceのHuggingChatから収集されたプロンプトに基づいて、現実的な新しい評価と微調整データセットを作成します。
論文 参考訳(メタデータ) (2025-02-15T18:10:45Z) - DiPEx: Dispersing Prompt Expansion for Class-Agnostic Object Detection [45.56930979807214]
クラスに依存しないオブジェクト検出は、多くの下流の視覚タスクにおいて、基盤となるかボトルネックとなる可能性がある。
本研究では、視覚言語モデルを用いて、自己教師付きプロンプト学習戦略による物体検出を強化する。
我々は,MS-COCO および LVIS におけるDiPEx の有効性を,クラス依存型OD および OOD-OD 実験により実証した。
論文 参考訳(メタデータ) (2024-06-21T07:33:37Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。