論文の概要: Hierarchical Vision-Language Retrieval of Educational Metaverse Content in Agriculture
- arxiv url: http://arxiv.org/abs/2508.13713v1
- Date: Tue, 19 Aug 2025 10:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.890522
- Title: Hierarchical Vision-Language Retrieval of Educational Metaverse Content in Agriculture
- Title(参考訳): 階層的ビジョン-農業における教育メタバース内容の検索
- Authors: Ali Abdari, Alex Falcon, Giuseppe Serra,
- Abstract要約: 農業をテーマとした457の仮想博物館(AgriMuseums)を含む新しいデータセットについて紹介する。
本稿では,自然言語クエリを用いて関連するAgriMuseumを表現・検索する階層型視覚言語モデルを提案する。
- 参考スコア(独自算出の注目度): 3.8527148954980897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Every day, a large amount of educational content is uploaded online across different areas, including agriculture and gardening. When these videos or materials are grouped meaningfully, they can make learning easier and more effective. One promising way to organize and enrich such content is through the Metaverse, which allows users to explore educational experiences in an interactive and immersive environment. However, searching for relevant Metaverse scenarios and finding those matching users' interests remains a challenging task. A first step in this direction has been done recently, but existing datasets are small and not sufficient for training advanced models. In this work, we make two main contributions: first, we introduce a new dataset containing 457 agricultural-themed virtual museums (AgriMuseums), each enriched with textual descriptions; and second, we propose a hierarchical vision-language model to represent and retrieve relevant AgriMuseums using natural language queries. In our experimental setting, the proposed method achieves up to about 62\% R@1 and 78\% MRR, confirming its effectiveness, and it also leads to improvements on existing benchmarks by up to 6\% R@1 and 11\% MRR. Moreover, an extensive evaluation validates our design choices. Code and dataset are available at https://github.com/aliabdari/Agricultural_Metaverse_Retrieval .
- Abstract(参考訳): 毎日大量の教育コンテンツが、農業や園芸などさまざまな分野にアップロードされている。
これらのビデオや素材が有意義にグループ化されると、学習がより簡単で効果的になる。
そうしたコンテンツを組織化し、豊かにするための有望な方法のひとつが、インタラクティブで没入的な環境で教育経験を探求するMetaverseである。
しかし、関連するMetaverseシナリオを検索し、それらのユーザの関心に合ったものを見つけることは、依然として難しい課題である。
この方向への第一歩は最近行われたが、既存のデータセットは小さく、高度なモデルのトレーニングには不十分である。
本研究では,まず,農業をテーマとした457の仮想博物館(AgriMuseums)を含む新たなデータセットを導入し,さらに,自然言語クエリを用いて関連するAgriMuseumを表現・検索するための階層型視覚言語モデルを提案する。
実験条件では,提案手法は最大62 % R@1 と 78 % MRR を達成し,その有効性を確認し,既存のベンチマークを最大6 % R@1 と 11 % MRR に改善する。
さらに、広範囲な評価により、我々の設計選択が検証される。
コードとデータセットはhttps://github.com/aliabdari/Agricultural_Metaverse_Retrieval で公開されている。
関連論文リスト
- MSTAR: Box-free Multi-query Scene Text Retrieval with Attention Recycling [58.251621637466904]
Muti-query Scene Text Search with Attention recycling (MSTAR) は、シーンテキスト検索のためのボックスフリーアプローチである。
プログレッシブ・ビジョンの埋め込みを取り入れ、テキストのマルチグラデーション表現を動的にキャプチャする。
7つの公開データセットとMQTRデータセットにまたがって,我々の手法の優位性を実証した。
論文 参考訳(メタデータ) (2025-06-12T11:54:13Z) - Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Unlocking Comics: The AI4VA Dataset for Visual Understanding [62.345344799258804]
本稿では,1950年代のフレンチ・ベルジアン漫画に,深度推定,セマンティックセグメンテーション,サリエンシ検出,キャラクタ識別などのタスクを注記した新しいデータセットを提案する。
2つの異なる一貫したスタイルで構成され、自然画像から得られたオブジェクトの概念とラベルを取り入れている。
このような多様な情報を含むことで、このデータセットは計算の創造性を約束するだけでなく、アートのデジタル化やストーリーテリングの革新のための道も提供します。
論文 参考訳(メタデータ) (2024-10-27T14:27:05Z) - Towards Student Actions in Classroom Scenes: New Dataset and Baseline [43.268586725768465]
学生アクションビデオデータセットは、758の教室から、4,324の慎重にトリミングされたビデオクリップで構成されており、15の生徒アクションが注釈付けされている。
既存のアクション検出データセットと比較して、SAVデータセットは、幅広い実際の教室シナリオを提供することで際立っている。
本手法は, 平均精度67.9%, 平均精度27.4%, 平均精度27.4%, 平均精度67.9%, 平均精度27.4%で優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-02T03:44:24Z) - XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning [44.97723804371083]
我々は,XLand-MiniGrid環境に基づくテキスト内強化学習のための大規模データセットであるXLand-100Bを提案する。
これには3万ドル近いさまざまなタスクのための完全な学習履歴が含まれており、100ドルの移行と2.5億ドルのエピソードをカバーしている。
データセットの収集には5万時間のGPUが必要だった。
論文 参考訳(メタデータ) (2024-06-13T10:04:17Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - Mining Legacy Issues in Open Pit Mining Sites: Innovation & Support of
Renaturalization and Land Utilization [2.1697172571296943]
露天掘りの鉱山は世界中に多くの地域を残した。
これらの地域を再利用するには、土地全体を自然化する必要がある。
新しい主要な用途への持続的な使用や移転のために、汚染された場所や土壌情報の多くは永久に管理されなければならない。
データのサイズと複雑さのために、信頼できるステートメントを作成するために、一人の人がこのデータの概要を持つことは困難です。
我々は,光学的文字認識,テキスト分類,アクティブラーニング,地理情報システムの可視化のスタックを用いて,その情報を効果的にマイニングし,可視化する。
論文 参考訳(メタデータ) (2021-05-12T10:18:14Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。