Fugu-MT 論文翻訳(概要): DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

論文の概要: DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

arxiv url: http://arxiv.org/abs/2603.02419v1
Date: Mon, 02 Mar 2026 22:01:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.555138
Title: DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting
Title（参考訳）: ロボットハーベスティングに向けたブルーベリー知覚のためのDINOv3視覚表現
Authors: Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li,
Abstract要約: この研究は、DINOv3をブルーベリーロボット収穫関連視覚タスクの冷凍バックボーンとして評価する。果実や青果物のセグメンテーションや、果物やクラスターの検出が含まれる。全体として、DINOv3はエンドツーエンドのタスクモデルではなく、セマンティックなバックボーンと見なされている。
参考スコア（独自算出の注目度）: 10.977118601343797
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Foundation Models trained via large-scale self-supervised learning have demonstrated strong generalization in visual perception; however, their practical role and performance limits in agricultural settings remain insufficiently understood. This work evaluates DINOv3 as a frozen backbone for blueberry robotic harvesting-related visual tasks, including fruit and bruise segmentation, as well as fruit and cluster detection. Under a unified protocol with lightweight decoders, segmentation benefits consistently from stable patch-level representations and scales with backbone size. In contrast, detection is constrained by target scale variation, patch discretization, and localization compatibility. The failure of cluster detection highlights limitations in modeling relational targets defined by spatial aggregation. Overall, DINOv3 is best viewed not as an end-to-end task model, but as a semantic backbone whose effectiveness depends on downstream spatial modeling aligned with fruit-scale and aggregation structures, providing guidance for blueberry robotic harvesting. Code and dataset will be available upon acceptance.
Abstract（参考訳）: 大規模自己監督学習によって訓練された視覚基礎モデルは、視覚知覚において強力な一般化を示しているが、農業環境におけるその実践的役割と性能限界は、まだ十分に理解されていない。この研究は、DINOv3をブルーベリーの収穫に関わる視覚的タスクの凍結バックボーンとして評価する。軽量デコーダを備えた統一プロトコルでは、セグメンテーションは安定的なパッチレベルの表現とバックボーンサイズのスケールから一貫して恩恵を受ける。対照的に、検出はターゲットスケールの変動、パッチの離散化、ローカライゼーションの互換性によって制限される。クラスタ検出の失敗は、空間アグリゲーションによって定義されたリレーショナルターゲットのモデリングにおける制限を強調する。全体としては、DINOv3はエンド・ツー・エンドのタスクモデルではなく、果実スケールと集約構造に整合した下流空間モデリングによる意味論的バックボーンとして、ブルーベリーロボット収穫のためのガイダンスを提供する。コードとデータセットは受け入れ次第利用できる。

関連論文リスト

Deep Global Clustering for Hyperspectral Image Segmentation: Concepts, Applications, and Open Challenges [1.9116784879310027]
ハイパースペクトルイメージング(HSI)解析は、利用可能なメモリを超える大量のデータ量のために計算ボトルネックに直面している。本稿では,メモリ効率の高いHSIセグメンテーションの概念フレームワークであるDeep Global Clustering (DGC)について述べる。 DGCは、重複するリージョンを持つ小さなパッチを使用して一貫性を強制し、コンシューマハードウェア上で30分未満のトレーニングを可能にする。
論文参考訳（メタデータ） (2025-12-30T12:10:43Z)
TSE-Net: Semi-supervised Monocular Height Estimation from Single Remote Sensing Images [10.375329759512702]
TSE-Netは半教師付き単分子高さ推定のための自己学習パイプラインである。パイプラインは教師、学生、試験ネットワークを統合している。提案したパイプラインを,解像度の異なる3つのデータセットで評価し,画像のモダリティを評価する。
論文参考訳（メタデータ） (2025-11-17T16:22:38Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文参考訳（メタデータ） (2024-10-21T12:43:54Z)
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-02T06:53:01Z)
Feature graphs for interpretable unsupervised tree ensembles: centrality, interaction, and application in disease subtyping [0.24578723416255746]
特徴の選択は、モデルの解釈可能性を高める上で重要な役割を担います。決定木を集約することで得られる精度は、解釈可能性の犠牲となる。この研究では、教師なしランダムな森林から特徴グラフを構築するための新しい手法を紹介した。
論文参考訳（メタデータ） (2024-04-27T12:47:37Z)
Segment Anything for comprehensive analysis of grapevine cluster architecture and berry properties [0.0]
本研究では,2次元クラスタ画像における個々のベリーの同定において,SAMの精度が高いことを示す。ヒトの識別したベリーとSAMの予測の相関は非常に強い。
論文参考訳（メタデータ） (2024-03-19T17:37:18Z)
A Lightweight Clustering Framework for Unsupervised Semantic Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文参考訳（メタデータ） (2023-11-30T15:33:42Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Semi-supervised 3D Object Detection with Proficient Teachers [114.54835359657707]
自律運転のシナリオにおけるクラウドベースの3Dオブジェクト検出器の優位性は、大量の正確なラベル付きサンプルに大きく依存している。 Pseudo-Labeling法はSSLフレームワークで一般的に使用されているが、教師モデルの低品質な予測は、その性能を著しく制限している。そこで本研究では,教師モデルをさらに高度化することで,半教師付き3次元物体検出のためのPseudo-Labelingフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-26T04:54:03Z)
Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文参考訳（メタデータ） (2020-12-09T12:40:13Z)
A Trainable Optimal Transport Embedding for Feature Aggregation and its Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文参考訳（メタデータ） (2020-06-22T08:35:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。