論文の概要: Language-Based Swarm Perception: Decentralized Person Re-Identification via Natural Language Descriptions
- arxiv url: http://arxiv.org/abs/2601.12479v1
- Date: Sun, 18 Jan 2026 16:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.832327
- Title: Language-Based Swarm Perception: Decentralized Person Re-Identification via Natural Language Descriptions
- Title(参考訳): 言語に基づくSwarm知覚:自然言語記述による分散型人物再認識
- Authors: Miquel Kegeleirs, Lorenzo Garattoni, Gianpiero Francesca, Mauro Birattari,
- Abstract要約: 本稿では,自然言語を主表現モダリティとして活用するロボット群における分散型人物再識別手法を提案する。
各ロボットは視覚言語モデル(VLM)を用いて個人を局所的に検出し記述する
これらの記述は、一元的に調整することなく、群をまたいで比較され、クラスタ化され、ロボットは同一個体の観察を協調的にグループ化することができる。
- 参考スコア(独自算出の注目度): 11.456639842384506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a method for decentralized person re-identification in robot swarms that leverages natural language as the primary representational modality. Unlike traditional approaches that rely on opaque visual embeddings -- high-dimensional feature vectors extracted from images -- the proposed method uses human-readable language to represent observations. Each robot locally detects and describes individuals using a vision-language model (VLM), producing textual descriptions of appearance instead of feature vectors. These descriptions are compared and clustered across the swarm without centralized coordination, allowing robots to collaboratively group observations of the same individual. Each cluster is distilled into a representative description by a language model, providing an interpretable, concise summary of the swarm's collective perception. This approach enables natural-language querying, enhances transparency, and supports explainable swarm behavior. Preliminary experiments demonstrate competitive performance in identity consistency and interpretability compared to embedding-based methods, despite current limitations in text similarity and computational load. Ongoing work explores refined similarity metrics, semantic navigation, and the extension of language-based perception to environmental elements. This work prioritizes decentralized perception and communication, while active navigation remains an open direction for future study.
- Abstract(参考訳): 本稿では,自然言語を主表現モダリティとして活用するロボット群における分散型人物再識別手法を提案する。
画像から抽出された高次元特徴ベクトルである不透明な視覚埋め込みに依存する従来のアプローチとは異なり、提案手法は人間の可読言語を用いて観察を表現している。
各ロボットは視覚言語モデル(VLM)を用いて個人を局所的に検出し、記述し、特徴ベクトルの代わりに外観のテキスト記述を生成する。
これらの記述は、一元的に調整することなく、群をまたいで比較され、クラスタ化され、ロボットは同一個体の観察を協調的にグループ化することができる。
各クラスタは言語モデルによって代表的記述に蒸留され、Swarmの集団的知覚の解釈可能で簡潔な要約を提供する。
このアプローチは自然言語クエリを可能にし、透明性を高め、説明可能なSwarm動作をサポートする。
テキストの類似性や計算負荷に制限があるにもかかわらず、プリミティブ実験は、埋め込みベースの手法と比較して、アイデンティティ一貫性と解釈可能性の競争性能を実証している。
現在進行中の作業では、洗練された類似性メトリクス、セマンティックナビゲーション、および環境要素に対する言語に基づく知覚の拡張について検討している。
この研究は、分散された認識とコミュニケーションを優先する一方で、アクティブナビゲーションは将来の研究にとってオープンな方向を保っている。
関連論文リスト
- A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data [0.0]
人間の参照解釈の中核的な側面をモデル化する計算フレームワークを提案する。
スタンフォード・リピート・レファレンス・ゲーム・コーパス(Stanford Repeated Reference Game corpus)のモデルを評価する。
その結果, 比較的単純な知覚言語的アライメント機構は, 人間の競争行動をもたらすことが示唆された。
論文 参考訳(メタデータ) (2026-02-23T07:20:11Z) - Learning Human-Object Interaction as Groups [52.28258599873394]
GroupHOIは、幾何学的近接性および意味的類似性の観点から文脈情報を伝播するフレームワークである。
これは、より困難な非言語間相互作用検出タスクにおいて、主要なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-10-21T07:25:10Z) - ImaGGen: Zero-Shot Generation of Co-Speech Semantic Gestures Grounded in Language and Image Input [0.0]
本稿では, 音声合成における中核的な課題として, 言語発話にセマンティックに一貫性のある, 象徴的, あるいは難解なジェスチャーを生成することを挙げる。
我々は、与えられた言語入力からジェスチャーを生成するゼロショットシステムを導入し、さらに手動のアノテーションや人間の介入なしに、想像的な入力によって通知される。
本結果は,表現的かつ協調的な仮想エージェントやアバターを作成する上で,文脈認識型セマンティックジェスチャの重要性を強調した。
論文 参考訳(メタデータ) (2025-10-20T15:01:56Z) - Identifying and interpreting non-aligned human conceptual
representations using language modeling [0.0]
先天性失明は,a-モダル語と知覚関連言語ドメインの両方において概念的再編成を引き起こすことを示す。
視覚障害者は、より強く社会的・認知的な意味と、行動に関連する動詞を関連づける。
一部の動詞では、盲目と盲目の表現は非常に似ている。
論文 参考訳(メタデータ) (2024-03-10T13:02:27Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Decentralised Emergence of Robust and Adaptive Linguistic Conventions in
Populations of Autonomous Agents Grounded in Continuous Worlds [4.63732827131233]
本稿では,自律エージェントの集団が言語慣行を確立できる手法を提案する。
この慣習は、エージェントのペア間の局所的なコミュニケーションを通じて、分散的に現れる。
この手法により、住民はコミュニケーションに効果的で、一貫性があり、人間に解釈可能な言語慣習に収束できることを示す。
論文 参考訳(メタデータ) (2024-01-16T16:11:35Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文 参考訳(メタデータ) (2020-10-27T18:41:49Z) - Generating Hierarchical Explanations on Text Classification via Feature
Interaction Detection [21.02924712220406]
特徴的相互作用を検出することによって階層的な説明を構築する。
このような説明は、単語とフレーズが階層の異なるレベルでどのように結合されるかを視覚化する。
実験は、モデルに忠実であり、人間に解釈可能な説明を提供する上で、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-04-04T20:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。