Fugu-MT 論文翻訳(概要): Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

論文の概要: Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction

arxiv url: http://arxiv.org/abs/2602.23312v1
Date: Thu, 26 Feb 2026 18:20:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.842023
Title: Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction
Title（参考訳）: リーダー-フォロワー相互作用における小言語モデルのゼロショットとワンショット適応の評価
Authors: Rafael R. Baptista, André de Lima Salgado, Ricardo V. Godoy, Marcelo Becker, Thiago Boaventura, Gustavo J. G. Lahr,
Abstract要約: リーダー-フォロワー相互作用は人間-ロボット相互作用(HRI)において重要なパラダイムである小言語モデル(SLM)は潜在的な代替手段を提供するが、HRIにおける役割分類の有効性は体系的に評価されていない。
参考スコア（独自算出の注目度）: 1.3511057160494195
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Leader-follower interaction is an important paradigm in human-robot interaction (HRI). Yet, assigning roles in real time remains challenging for resource-constrained mobile and assistive robots. While large language models (LLMs) have shown promise for natural communication, their size and latency limit on-device deployment. Small language models (SLMs) offer a potential alternative, but their effectiveness for role classification in HRI has not been systematically evaluated. In this paper, we present a benchmark of SLMs for leader-follower communication, introducing a novel dataset derived from a published database and augmented with synthetic samples to capture interaction-specific dynamics. We investigate two adaptation strategies: prompt engineering and fine-tuning, studied under zero-shot and one-shot interaction modes, compared with an untrained baseline. Experiments with Qwen2.5-0.5B reveal that zero-shot fine-tuning achieves robust classification performance (86.66% accuracy) while maintaining low latency (22.2 ms per sample), significantly outperforming baseline and prompt-engineered approaches. However, results also indicate a performance degradation in one-shot modes, where increased context length challenges the model's architectural capacity. These findings demonstrate that fine-tuned SLMs provide an effective solution for direct role assignment, while highlighting critical trade-offs between dialogue complexity and classification reliability on the edge.
Abstract（参考訳）: リーダー-フォロワー相互作用は人間-ロボット相互作用(HRI)において重要なパラダイムである。しかし、資源に制約のある移動ロボットや補助ロボットでは、リアルタイムに役割を割り当てることは依然として困難である。大きな言語モデル(LLM)は、自然な通信を約束する一方で、そのサイズとレイテンシはデバイス上のデプロイメントに制限されている。小言語モデル(SLM)は潜在的な代替手段を提供するが、HRIにおける役割分類の有効性は体系的に評価されていない。本稿では,リーダー・フォロワー通信のためのSLMのベンチマークを行い,公開データベースから派生した新しいデータセットを導入し,対話固有のダイナミクスを捉えるために合成サンプルを付加する。ゼロショットモードとワンショットインタラクションモードで, 即時工学と微調整の2つの適応戦略を, トレーニングされていないベースラインと比較して検討した。 Qwen2.5-0.5Bの実験では、ゼロショットの微調整は低レイテンシ(サンプルあたり22.2ミリ秒)を維持しながら堅牢な分類性能(86.66%の精度)を実現し、ベースラインとプロンプトエンジニアリングのアプローチを大きく上回っている。しかし、結果としてはワンショットモードのパフォーマンス低下も示され、そこではコンテキスト長の増大がモデルのアーキテクチャ能力に挑戦する。これらの結果から、微調整SLMは、対話の複雑さとエッジ上の分類信頼性の重大なトレードオフを強調しつつ、直接的な役割割り当てに有効なソリューションであることが示された。

関連論文リスト

Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文参考訳（メタデータ） (2025-11-06T22:24:35Z)
Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。 ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文参考訳（メタデータ） (2025-10-11T18:11:09Z)
Neural Models and Language Model Prompting for the Multidimensional Evaluation of Open-Ended Conversations [1.0006801729628605]
我々は,対話レベル,次元別スコアを予測するモデルを開発した。本研究は,言語モデル(LM)をプロンプトとして活用し,エンコーダに基づく分類と回帰モデルを訓練する2つの主要な戦略に従う。テストセットのパフォーマンスは低下するが、テストセットには、トレインおよびバリデーションセットに関するいくつかのディメンションに対して、かなり異なるスコア範囲のアノテーションが含まれていることに注意する必要がある。
論文参考訳（メタデータ） (2025-08-31T13:24:05Z)
STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。 MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-08-26T08:47:58Z)
RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。 HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文参考訳（メタデータ） (2025-07-12T01:58:04Z)
Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-15T03:22:03Z)
Detect, Explain, Escalate: Low-Carbon Dialogue Breakdown Management for LLM-Powered Agents [30.13634341221476]
大規模言語モデル(LLM)は、多くのアプリケーションを変えつつありますが、会話のブレークダウンへの感受性は、ユーザ信頼を損なう重要な課題です。本稿では,低炭素運転を重視したLDMエージェントの対話分解を管理するためのフレームワーク「Detect, Explain, Escalate」を提案する。
論文参考訳（メタデータ） (2025-04-26T07:51:05Z)
Jointly-Learned Exit and Inference for a Dynamic Neural Network : JEI-DNN [20.380620709345898]
早期排他的動的ニューラルネットワーク(EDNN)は、中間層(即ち早期排他)からの予測の一部をモデルが行うことを可能にする。 EDNNアーキテクチャのトレーニングは、初期出力決定を制御するゲーティング機構(GM)と中間表現からの推論を実行する中間推論モジュール(IM)の2つのコンポーネントで構成されるため、難しい。本稿では,これら2つのモジュールを接続する新しいアーキテクチャを提案する。これにより分類データセットの性能が大幅に向上し,不確実性評価機能の向上が期待できる。
論文参考訳（メタデータ） (2023-10-13T14:56:38Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。