論文の概要: RoboKA: KAN Informed Multimodal Learning for RoboCall Surveillance System
- arxiv url: http://arxiv.org/abs/2605.00156v1
- Date: Thu, 30 Apr 2026 19:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.722226
- Title: RoboKA: KAN Informed Multimodal Learning for RoboCall Surveillance System
- Title(参考訳): RoboKA:roboCallサーベイランスシステムのためのkanインフォームドマルチモーダルラーニング
- Authors: Nitin Choudhury, Nikhil Kumar, Aditya Kumar Sinha, Abhijeet Anand, Hossein Salemi, Orchid Chetia Phukan, Hemant Purohit, Arun Balaji Buduru,
- Abstract要約: ロボコール監視研究の広範な調査は、プライバシー上の懸念から、公開データセットへのアクセスが制限されているために妨げられている。
まず、ロボコール監視研究用に設計された合成ロボコールデータセットRobo-SArをキュレートする。
対向ロボコール戦略を特徴付ける音響と言語間の構造的非線形相互作用をモデル化する多モード融合フレームワークであるRoboKAを提案する。
- 参考スコア(独自算出の注目度): 11.827126059853342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wide exploration on robocall surveillance research is hindered due to limited access to public datasets, due to privacy concerns. In this work, we first curate Robo-SAr, a synthetic robocall dataset designed for robocall surveillance research. Robo-SAr comprises of ~200 unwanted and ~1200 legitimate synthetic robocall samples across three realistic adversarial axes: psycholinguistics-manipulated transcripts, emotion-eliciting speech, and cloned voices. We further propose RoboKA, a Kolmogorov-Arnold Network (KAN)-based multimodal fusion framework designed to model structured nonlinear interactions between acoustic and linguistic cues that characterize diverse adversarial robocall strategies. RoboKA first leverages cross-modal contrastive learning to align latent modality representations and feeds the resulting embeddings to a KAN-projection head for final classification. We benchmark RoboKA against strong unimodal and multimodal baselines in both in-domain and out-of-domain setups, finding RoboKA to surpass all baselines in terms of recall and F1-score.
- Abstract(参考訳): ロボコール監視研究の広範な調査は、プライバシー上の懸念から、公開データセットへのアクセスが制限されているために妨げられている。
本研究では,ロボコール監視研究用に設計されたロボコールデータセットRobo-SArを最初にキュレートする。
Robo-SArは、3つの現実的な対向軸(精神言語学的操作された転写文字、感情の発声、クローン音声)にまたがる、200の望ましくない、1200の正統な合成ロボコールのサンプルで構成されている。
さらに,KAN(Kolmogorov-Arnold Network)に基づくマルチモーダルフュージョンフレームワークであるRoboKAを提案する。
RoboKAはまずクロスモーダルなコントラスト学習を活用して、潜在モダリティ表現を整列させ、結果の埋め込みをKANプロジェクションヘッドに供給して最終分類を行う。
我々は、RoboKAをドメイン内およびドメイン外のセットアップにおいて強い単調およびマルチモーダルのベースラインに対してベンチマークし、リコールとF1スコアの点でRoboKAがすべてのベースラインを超えることを発見した。
関連論文リスト
- The Robot's Inner Critic: Self-Refinement of Social Behaviors through VLM-based Replanning [2.38295275136047]
CRISP(Critique-and-Replan for Interactive Social Presence)は、ロボットが自身の行動を批判し、再計画する自律的なフレームワークである。
CRISPは,(1)ロボットの記述ファイルを解析して可動関節と制約を抽出する。
ロボットの構造ファイルだけを使って、さまざまなプラットフォーム上で微妙に異なる人間的な動きを生成できる。
論文 参考訳(メタデータ) (2026-03-20T17:40:21Z) - RoboSwap: A GAN-driven Video Diffusion Framework For Unsupervised Robot Arm Swapping [28.283462013493928]
RoboSwapは多様な環境からの未ペアデータで動作する。
私たちはロボットアームを彼らのバックグラウンドから切り離し、片方のロボットアームをもう片方のロボットアームに翻訳するために、無人のGANモデルを訓練します。
実験の結果,RoboSwapは3つのベンチマークで最先端のビデオや画像編集モデルより優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-10T09:46:07Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins [33.78621017138685]
RoboTwinは、多種多様な専門家データセットを生成するために、3D生成基盤モデルと大規模言語モデルを使用する生成デジタルツインフレームワークである。
具体的には、RoboTwinは単一の2D画像からさまざまなデジタルツインを生成し、現実的でインタラクティブなシナリオを生成する。
我々のフレームワークはシミュレーションデータと実世界のデータの両方で包括的なベンチマークを提供し、標準化された評価とシミュレーショントレーニングと実世界のパフォーマンスの整合性を向上させる。
論文 参考訳(メタデータ) (2025-04-17T16:14:24Z) - Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - Real-Time Multimodal Signal Processing for HRI in RoboCup: Understanding a Human Referee [1.7456666582626115]
本研究では、キーポイント抽出と分類によるジェスチャー認識のための2段階パイプラインと、効率的なwhi検出のための連続畳み込みニューラルネットワーク(CCNN)を実装した。
提案されたアプローチは、RoboCupのような競合する環境でのリアルタイムな人間とロボットのインタラクションを強化し、人間と協力できる自律システムの開発を前進させるためのツールを提供する。
論文 参考訳(メタデータ) (2024-11-26T11:39:43Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - RoboPianist: Dexterous Piano Playing with Deep Reinforcement Learning [61.10744686260994]
本稿では,150曲のピアノ作品の大規模なレパートリーをシミュレートして学習するシステムであるRoboPianistを紹介する。
また,オープンソース環境,タスクのベンチマーク,解釈可能な評価指標,今後の研究課題についても紹介する。
論文 参考訳(メタデータ) (2023-04-09T03:53:05Z) - Romanian Speech Recognition Experiments from the ROBIN Project [0.21485350418225244]
本稿では,高速(ネットワーク自体から100ms未満のレイテンシ)に焦点をあてたディープニューラルネットワークを用いた音声認識実験について述べる。
重要な特徴の1つは低レイテンシであるが、最終的なディープニューラルネットワークモデルは、ルーマニア語を認識するための技術結果の状態を達成している。
論文 参考訳(メタデータ) (2021-11-23T17:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。