Rethinking Evaluation of Infrared Small Target Detection [105.6] 本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:06:34 GMT)
How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.4] 視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:00:14 GMT)
Urania: Differentially Private Insights into AI Use [102.3] $Urania$は、クラスタリング、パーティション選択、ヒストグラムベースの要約といったDPツールを活用することによって、エンドツーエンドのプライバシ保護を提供する。
結果は、厳密なユーザのプライバシを維持しながら、意味のある会話の洞察を抽出するフレームワークの能力を示している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:45:44 GMT)
OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [95.3] nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。
雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。
nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:46:17 GMT)
Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLMs [95.1] 大規模言語モデル(LLM)開発者は、モデルが誠実で、有用で、無害であることを目標としている。
我々は,フロンティアLSMが,他の選択肢が利用可能であっても,新たな戦略として不便さを優先して開発可能であることを示す。
偽装する確率の明確な原因は見つからないが、より有能なモデルがこの戦略を実行するのに優れていることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:34:27 GMT)
Online Process Reward Leanring for Agentic Reinforcement Learning [92.3] 大規模言語モデル(LLM)は、強化学習(RL)を自律的なエージェントとして訓練されることが増えている。
最近の研究は、プロセスの監視をエージェント学習に統合しようと試みているが、バイアスドアノテーションに悩まされている。
エージェントRLの一般的なクレジットアサインメント戦略であるオンライン・プロセス・リワード・ラーニング(OPRL)を紹介する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:15:42 GMT)
Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.9] 現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。
本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。
本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:58:01 GMT)
Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [87.0] 評価パラダイムとして,標準ベンチマーク,インタラクティブゲーム,認知テストの3つを検討した。
分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
我々は,人間の能力評価に触発された新しい対話型ベンチマークと目標認知タスクの開発を提唱する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:53:37 GMT)
CrossEarth: Geospatial Vision Foundation Model for Domain Generalizable Remote Sensing Semantic Segmentation [85.2] CrossEarthはセマンティックセグメンテーションのためのビジョン基盤モデルである。
CrossEarthは、特別に設計されたデータレベルのEarth-Style Injectionパイプラインを通じて、強力なクロスドメインの一般化を実証する。
セマンティックセグメンテーションタスクのために,各領域,スペクトル帯域,プラットフォーム,気候の32のクロスドメイン設定からなるRSDGベンチマークをキュレートした。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:53:07 GMT)
Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [84.0] 拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:06:40 GMT)
The Photographer Eye: Teaching Multimodal Large Language Models to See and Critique like Photographers [83.0] 写真家でキュレーターのSzarkowskiは、一般的な視覚的理解と美的理解との間にある顕著なギャップの1つを洞察的に明らかにした。
プロの写真家と愛好家の間で広範囲にわたる議論から得られた新しいデータセットPhotoCritiqueを提示する。
また,複数の視点から画像美学を理解するために,言語誘導型多視点視覚融合機構を備えた新しいモデルPhotoEyeを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:59:41 GMT)
ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [74.7] 本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:45:42 GMT)
Towards Visual Text Grounding of Multimodal Large Language Model [74.2] 本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:43:47 GMT)
Exploring Model Kinship for Merging Large Language Models [74.0] 我々は, モデル進化を反復的融合を通じて研究し, 生物進化の類似性について考察した。
モデル親和性はマージによって達成された性能改善と密接に関連していることを示す。
本稿では,新しいモデル統合戦略を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:26:13 GMT)
A Generative Framework for Personalized Sticker Retrieval [73.6] 我々はパーソナライズされたステッカー検索のための新しい生成フレームワークであるPEARLを提案する。
i) ユーザ固有のステッカー嗜好を符号化するために,識別的ユーザ表現を学習するための表現学習モデルを設計し, (ii) ユーザのクエリ意図に合致したステッカーを生成するために, 新たな意図認識学習目標を提案する。
オフライン評価とオンラインテストの両方による実証的な結果は、PEARLが最先端の手法を大幅に上回っていることを示している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:33:43 GMT)
Graph-based Clustering Revisited: A Relaxation of Kernel $k$-Means Perspective [73.2] 本稿では,クラスタリング結果を導出するための正規制約のみを緩和するグラフベースのクラスタリングアルゴリズムを提案する。
二重制約を勾配に変換するために、非負の制約をクラス確率パラメータに変換する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:14:39 GMT)
Hierarchical Neural Semantic Representation for 3D Semantic Correspondence [72.8] 階層型ニューラルセマンティック表現(HNSR)を設計し,高次構造と多分解能局所幾何学的特徴を捉える。
第2に,グローバルなセマンティック特徴を用いた粗いセマンティック対応を確立する,プログレッシブなグローバル-ローカルマッチング戦略を設計する。
第3に,本フレームワークはトレーニングフリーで,様々なトレーニング済みの3D生成バックボーンと広範囲に互換性があり,多様な形状カテゴリにまたがる強力な一般化が示されている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:56:37 GMT)
RS3DBench: A Comprehensive Benchmark for 3D Spatial Perception in Remote Sensing [71.8] 本稿では、RS3DBenchと呼ばれるリモートセンシング画像の3次元理解のためのビジュアルベンチマークを提案する。
このデータセットは、54,951対のリモートセンシング画像とピクセルレベルの一致した深度マップを含んでいる。
安定拡散から導かれるリモートセンシング深度推定モデルを導入し,そのマルチモーダル融合機能を利用する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 11:20:51 GMT)
What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.7] Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:03:08 GMT)
SoK: Large Language Model Copyright Auditing via Fingerprinting [69.1] 既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:31:42 GMT)
Cross-Cultural Transfer of Commonsense Reasoning in LLMs: Evidence from the Arab World [68.2] 本稿では,アラブ世界におけるコモンセンス推論の異文化間移動について検討する。
アラブ13カ国を対象とした文化基盤のコモンセンス推論データセットを用いて,軽量アライメント手法の評価を行った。
以上の結果から,他国の文化特有例は12例に過ぎず,他国の文化特有例を平均10%向上させることができた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:24:14 GMT)
Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [68.0] Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:51:13 GMT)
Audio-Driven Universal Gaussian Head Avatars [66.6] 本稿では,音声駆動型ユニバーサルフォトリアリスティックアバター合成法について紹介する。
個人に依存しない音声モデルと私たちの小説Universal Head Avatar Priorを組み合わせたものです。
我々の手法は、外観の詳細なモデリングとレンダリングを考慮に入れた最初の一般的なオーディオ駆動アバターモデルである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:46:43 GMT)
Pre-training CLIP against Data Poisoning with Optimal Transport-based Matching and Alignment [65.5] 対照的な言語-イメージ 事前訓練モデルは、ターゲットとするデータ中毒や攻撃によって脅かされている。
従来の防御方法は、各画像の新しいキャプションをマッチングすることで、有毒な撮像対を補正する。
我々は、OTCCLIPという画像キャプチャペアを再構成する最適なトランスポートベースのフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:05:43 GMT)
T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables [65.1] 本稿では,テーブル・ツー・レポーティングタスクを提案し,T2R-benchというバイリンガルベンチマークを構築した。
ベンチマークは457の産業用テーブルで構成されており、すべて現実世界のシナリオから導かれ、19の産業ドメインを含んでいる。
25台のLLMでの実験では、Deepseek-R1のような最先端のモデルでさえ62.71のスコアでしかパフォーマンスが得られないことがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:48:36 GMT)
Dynamic Mixture of Progressive Parameter-Efficient Expert Library for Lifelong Robot Learning [64.9] ジェネラリストエージェントは生涯を通じて継続的に学び、適応し、忘れを最小化しながら効率的な転送を実現する必要がある。
従来の研究は、シングルタスク適応のためのパラメータ効率の良い微調整を探索し、少数のパラメータで凍結事前訓練されたモデルを効果的に操る。
本稿では,生涯にわたるロボット学習のためのDMPEL(Dynamic Mixture of Progressive Efficient Expert Library)を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:06:24 GMT)
3D Gaussian Flats: Hybrid 2D/3D Photometric Scene Reconstruction [62.8] 本研究では,平面平面(2D)ガウスと自由形式(3D)ガウスを連立最適化するハイブリッド2D/3D表現を提案する。
我々のエンドツーエンドアプローチは、平面領域を動的に検出・洗練し、視覚的忠実度と幾何学的精度の両方を改善する。
ScanNet++とScanNetv2の最先端の深さ推定を実現し、特定のカメラモデルに過度に適合することなくメッシュ抽出に優れる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 00:47:20 GMT)
Weaver: Interweaving SQL and LLM for Table Reasoning [62.6] Weaverは、構造化データ検索のためのsqlとセマンティック処理のためのLLMを組み合わせたフレキシブルなステップバイステッププランを生成する。
Weaverは、4つのTableQAデータセットで、最先端のメソッドを一貫して上回る。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:02:45 GMT)
LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.5] ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:04:18 GMT)
Large Language Models Implicitly Learn to See and Hear Just By Reading [61.4] テキストトークン上で自動回帰LDMモデルをトレーニングすることにより、テキストモデルは本質的に内部で画像や音声を理解する能力を開発する。
本稿では,CIFAR-10とFashion-MNISTの画像分類と画像パッチについて述べる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:02:04 GMT)
Frequency-Domain Decomposition and Recomposition for Robust Audio-Visual Segmentation [61.0] 本稿では2つの主要なモジュールからなる周波数対応オーディオ・ビジュアルコンポスタ(FAVS)フレームワークを紹介する。
FAVSフレームワークは、3つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:33:48 GMT)
Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models [60.9] MATAはLALMを動的にプッシュして、自己保持機構内で textbfMore textbfAttention textbfTo textbfAudioトークンを支払います。
MMAUとMMARベンチマークの実験により、MATAの有効性が確認され、一貫した性能が向上した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:02:15 GMT)
EMMA: End-to-End Multimodal Model for Autonomous Driving [60.5] 本稿では,自動走行のためのエンドツーエンドマルチモーダルモデルEMMAを紹介する。
Geminiのようなマルチモーダルな大規模言語モデル基盤に基づいて構築されたEMMAは、生のカメラセンサーデータを様々な駆動特有の出力に直接マッピングする。
EMMAとプランナートラジェクトリ、オブジェクト検出、および道路グラフタスクを併用することにより、3つの領域にまたがる改善が得られることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:19:59 GMT)
SPiDR: A Simple Approach for Zero-Shot Safety in Sim-to-Real Transfer [60.2] 現実世界のアプリケーションに強化学習を展開する上で、安全は依然として大きな関心事である。
安全なsim-to-real転送を保証するスケーラブルなアルゴリズムSPiDRを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:03:00 GMT)
3rd Place Report of LSVOS 2025 MeViS Track: Sa2VA-i: Improving Sa2VA Results with Consistent Training and Inference [60.0] また,Sa2VAは,映像オブジェクトのセグメンテーションタスクの完全な参照能力に応じて動作しないことがわかった。
そこで我々は,Sa2VAの改良版Sa2VA-iを提案する。
我々の修正により、Sa2VA-i-1Bモデルは、MeViSベンチマークのオリジナルのSa2VA-26Bモデルと同等に動作します。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:38:25 GMT)
Min: Mixture of Noise for Pre-Trained Model-Based Class-Incremental Learning [59.6] クラスインクリメンタルラーニング(CIL)は,旧来の知識を維持しつつ,新たなカテゴリを継続的に学習することを目的としている。
バックボーンに軽量な微調整を適用する既存のアプローチは、依然としてドリフトを誘発する。
バックボーン一般化の劣化を軽減し,新しいタスクを適応させることを目的として,Mixture of Noise (Min)を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:34:23 GMT)
The 1st Solution for MOSEv2 Challenge 2025: Long-term and Concept-aware Video Segmentation via SeC [59.5] ソリューションはテストセットで39.89%のJFスコアを獲得し、LSVOSチャレンジのMOSEv2トラックで1位となった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:58:13 GMT)
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images [59.4] 我々は,Multimodal LLMを用いて,数千万枚の画像からなる大規模データベースを解析するシステムを提案する。
我々は,一定期間にわたって都市を横断する頻繁な共起的変化(トリエント)を捉えることを目的としている。
ベースラインをはるかに上回り、大都市で撮影された画像から興味深い傾向を見出すことができる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:04:48 GMT)
Linear Regression under Missing or Corrupted Coordinates [58.9] 我々は,コーディネート的な予算の下で,敵によってデータの破損や消去を行う方法について検討する。
不完全なデータ設定では、敵はデータセットを検査し、最大1座標あたりのサンプルの$eta$-fractionのエントリを削除することができる。
破損したデータ設定では、敵は代わりに任意に値を置換し、その汚職位置は学習者にとって未知である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:01:43 GMT)
Algorithms for Adversarially Robust Deep Learning [58.7] 望ましいロバスト性を示すアルゴリズムの設計に向けた最近の進歩について論じる。
医用画像,分子識別,画像分類における最先端の一般化を実現するアルゴリズムを提案する。
我々は、堅牢な言語ベースのエージェントを設計するための進歩のフロンティアとして、新たな攻撃と防御を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:48:58 GMT)
DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models [58.4] 本稿では,多種多様な文からなる自然文からなる古典論理ベンチマークDivLogicEvalを提案する。
また,より信頼性の高い評価を実現するために,大規模言語モデルに固有のバイアスやランダム性の影響を緩和する新たな評価指標を導入する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:48:18 GMT)
Biology-Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [55.7] 本稿では,生物配列の大規模学習データセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンス関連タスクをブリッジし、その汎用性と推論を強化する。
また,マルチオミクスタスクにおける現状のLLMの,専門訓練なしでの大幅な制限を強調した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:55:03 GMT)
Reinforcement Learning on Pre-Training Data [55.6] 我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:10:40 GMT)
StableGuard: Towards Unified Copyright Protection and Tamper Localization in Latent Diffusion Models [55.1] 拡散生成プロセスにバイナリ透かしをシームレスに統合する新しいフレームワークを提案する。
画像の忠実さ、透かしの検証、ローカライゼーションの改ざんにおいて、StableGuardは一貫して最先端の手法より優れていることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:36:08 GMT)
Chirality in Action: Time-Aware Video Representation Learning by Latent Straightening [54.7] 新しいタスク:カイラルな行動認識(chiral action recognition)を導入し、時間的に反対な行動のペアを区別する必要がある。
私たちのゴールは、これらのカイラルペア間の線形分離性を提供する、時間を考慮したビデオ表現を作ることです。
その結果、3つのデータセットにまたがって提案したタスクに対して,コンパクトだが時間に敏感なビデオ表現が得られることがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:04:53 GMT)
False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.0] 多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:47:54 GMT)
DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors [52.9] トレーニング中にベンチマークテストセットを使用したモデルを識別するためにバックドアアタックを利用するフレームワークであるDiePackを紹介します。
銀行が染料パックにお金を混ぜて強盗をマークするのと同じように、DiePackはバックドアのサンプルとテストデータとを混ぜて、その上で訓練されたモデルのフラグを立てる。
我々はDiePackを3つのデータセットにわたる5つのモデルで評価し、複数の選択とオープンな生成タスクの両方をカバーした。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:07:44 GMT)
Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-wise Distillation [52.5] 本研究では,高容量テキストモデルから学生音声モデルへの推論能力を伝達するための統合知識蒸留フレームワークを提案する。
本手法では, ソースワイド蒸留と層ワイド蒸留という2つの重要な次元を導入する。
実験結果から,音声推論性能は著しく向上した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:58:16 GMT)
HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling [52.5] HarmoniFuseは、マルチタスク音声言語モデリングのためのコンポーネント選択およびプロンプト適応フレームワークである。
バッチインターリーブのトレーニング戦略により、ジョイントアノテーションを必要とせずに、別々のASRとSERデータセットを活用することができる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:53:38 GMT)
VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation [52.0] 未確認環境のための視覚言語ナビゲーションフレームワークであるVLN-Zeroを提案する。
我々は視覚言語モデルを用いて、記号的なシーングラフを効率的に構築し、ゼロショットのニューロシンボリックナビゲーションを可能にする。
VLN-Zeroは、最先端のゼロショットモデルと比べて2倍の成功率を獲得し、最も微調整されたベースラインを上回り、半分の時間でゴール地点に達する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:23:03 GMT)
LLM-Guided Co-Training for Text Classification [51.6] 本稿では,Large Language Models (LLMs) による新たな重み付き協調学習手法を提案する。
ラベルのないデータにLLMラベルをターゲットラベルとして使用し、複数のイテレーションで相互にトレーニングする2つのエンコーダのみベースのネットワークをコトレーニングします。
LLMによるガイダンスを戦略的に活用することにより,従来のSSL手法よりも大幅に性能が向上する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:26:35 GMT)
Autonomous Data Agents: A New Opportunity for Smart Data [51.5] DataAgentsは、自律的なデータから知識システムへのパラダイムシフトを表している、とReportは主張する。
DataAgentsは、複雑で非構造化されたデータをコヒーレントで行動可能な知識に変換する。
エージェントAIとデータ・トゥ・ナレッジシステムの収束が重要なトレンドとなっている理由を最初に検討する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:46:41 GMT)
HUNT: High-Speed UAV Navigation and Tracking in Unstructured Environments via Instantaneous Relative Frames [50.8] HUNT (High-speed UAV Navigation and Tracking) は、1つの相対的な定式化の中で統合、取得、追跡を行うリアルタイムフレームワークである。
密林、コンテナ化合物、および車両やマネキンによる捜索救助活動の試行は、グローバルな方法が失敗した場合の堅牢な自律性を示している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:07:10 GMT)
A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models [50.3] 大規模言語モデル(LLM)は自然言語処理を変換しているが、その内部メカニズムはほとんど不透明である。
機械的解釈性は、LLMの内部動作を理解する手段として、研究コミュニティから大きな注目を集めている。
スパースオートエンコーダ(SAE)は、LLM内の複雑な重畳された機能をより解釈可能なコンポーネントに分解する能力のために、将来性のある方法として登場した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:48:10 GMT)
DeblurSplat: SfM-free 3D Gaussian Splatting with Event Camera for Robust Deblurring [50.2] DeSplat と呼ばれるイベントカメラによる3次元ガウス分割法を初めて提案する。
我々は高密度ステレオモジュール(DUSt3R)の事前訓練機能を利用して、ぼやけた画像から正確な初期点雲を直接取得する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 11:21:54 GMT)
Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards [48.6] 本稿では,視覚言語モデルにおけるステップ推論の連鎖について述べる。
ステップレベルの推論データ、プロセス報酬モデル(PRM)、強化学習トレーニングを含む、シンプルで効果的で完全に透明なフレームワークを提案する。
本稿では、視覚言語モデルのベースラインとして機能し、より複雑なマルチモーダル推論に関する洞察を提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:47:32 GMT)
From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.4] 現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:08:03 GMT)
CompLLM: Compression for Long Context Q&A [47.9] そこで本研究では,実用的デプロイメント用に設計されたソフト圧縮技術であるCompLLMを紹介する。
CompLLMはコンテキストを水平に処理する代わりにセグメントに分割し、それぞれを独立して圧縮する。
実験の結果,2倍圧縮速度でコンテクスト長のCompLLMでは,TTFT(Time To First Token)を最大4倍高速化し,KVキャッシュサイズを50%削減できることがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:49:43 GMT)
VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction [46.0] VolSplatは新しいマルチビューフィードフォワードパラダイムで、ピクセルアライメントとボクセルアライメントのガウスを置き換えている。
これは、画素アライメントがエラーを起こしやすい2D特徴マッチングに依存していることを克服し、堅牢なマルチビュー一貫性を確保する。
RealEstate10KやScanNetなど、広く使用されているベンチマークの実験では、VolSplatが最先端のパフォーマンスを実現している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:59:02 GMT)
AGSwap: Overcoming Category Boundaries in Object Fusion via Adaptive Group Swapping [45.9] クロスカテゴリオブジェクトを1つのコヒーレントオブジェクトに融合させることは、テキスト・ツー・イメージ(T2I)生成において注目を集めている。
textbfAdaptive Group Swapping (AGSwap) を提案する。
我々はまた、ImageNet-1KとWordNet上に構築された大規模で階層的に構造化されたデータセットである textbfCross-category Object Fusion (COF) も導入した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:32:14 GMT)
Advances in Large Language Models for Medicine [45.9] 本稿では,医学分野における大規模言語モデル(LLM)の最新の研究動向を体系的にレビューする。
大規模医療モデルのトレーニングテクニックの詳細な分析、医療分野への適応、関連する応用、強度と限界などを提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:16:39 GMT)
Weakly Supervised Food Image Segmentation using Vision Transformers and Segment Anything Model [45.6] 食品画像に対する弱教師付きセマンティックセマンティックセマンティクス手法を提案する。
我々は視覚変換器(ViT)の注意機構とともにSAM(Seegment Anything Model)を用いる。
提案手法は,食品画像のアノテーションタスクを加速するツールとして,あるいは食品・栄養追跡アプリケーションにおいて統合されたコンポーネントとして想定される。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:01:51 GMT)
Experience Scaling: Post-Deployment Evolution For Large Language Models [44.5] 大規模言語モデル(LLM)の継続的デプロイ後進化のためのフレームワークであるエクスペリエンススケーリングを提案する。
このフレームワークは,以前には見つからなかったが関連するタスク,繰り返しクエリ,過飽和知識ストアへの一般化を含む実世界のシナリオで検証される。
その結果、構造化されたデプロイ後学習は、静的な人間生成データの限界を超えてLLM能力を拡張できることを示した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:04:58 GMT)
PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generatio [44.3] 大規模言語モデル(LLM)の推論能力を高めるために強化学習(RL)がますます活用されている。
本稿では、ハードウェア効率と政治上のデータとの良好なトレードオフを実現するために設計されたPipelineRLを紹介する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:15:21 GMT)
Understanding-in-Generation: Reinforcing Generative Capability of Unified Model via Infusing Understanding into Generation [44.0] 統一モデル(UiG)のための新しい推論フレームワークを提案する。
UiGの中核となる洞察は、推論過程において強力な理解能力によって生成誘導を統合することである。
我々のUiGフレームワークは,既存のテキスト・ツー・イメージ推論手法に比べて,テキスト・ツー・イメージ生成の性能が大幅に向上したことを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:52:39 GMT)
OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps [43.8] 大きな重複する領域と、最小限の意味的区別を持つ重複するインスタンスの2つの主要な課題を特定します。
オーバーレイスコア(OverLayScore)は、重なり合うバウンディングボックスの複雑さを定量化する新しい計量である。
高品質なアノテーションと、OverLayScoreのさまざまなレベルのバランスの取れた分布を特徴とするベンチマークであるCreative-AMを提示する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:50:00 GMT)
Moving by Looking: Towards Vision-Driven Avatar Motion Generation [43.1] CLOPSは、エゴセントリックな視力だけで周囲を知覚し、移動する最初の人間のアバターである。
我々は、大きなモーションキャプチャーデータセット上で、モーション先行モデルをトレーニングする。
次に、Qラーニングを用いてポリシーを訓練し、エゴセントリックな視覚入力を前もって動きの高レベル制御コマンドにマッピングする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:18:56 GMT)
Large Vision-Language Model Alignment and Misalignment: A Survey Through the Lens of Explainability [42.8] LVLM(Large Vision-Language Models)は、視覚情報とテキスト情報の両方を処理する際、顕著な能力を示す。
本調査では,LVLMのアライメントとアライメントについて,説明性レンズを用いて総合的に検討した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:40:27 GMT)
LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines [42.5] ChatGPTのようなLLM(Large Language Models)ベースのアプリケーションは、人間のような会話を生成する能力を示している。
本稿では,最先端のLDMの概要と,幅広い学術分野への統合について述べる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:09:24 GMT)
In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer [42.4] ICEditはテキスト内編集のパラダイムであり、品質改善のためのパラメータ効率の最小限の微調整を行う。
トレーニングデータのわずか0.1%とトレーニング可能なパラメータ1%で、最先端の編集性能を実現している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:34:36 GMT)
FragmentGPT: A Unified GPT Model for Fragment Growing, Linking, and Merging in Molecular Design [42.4] FragmentGPTは、切断された分子断片を化学的および薬理学的に有効な候補に結合するリンカーを生成する。
また、重複フラグメントのような構造的冗長性、すなわちインテリジェントなマージの解決も学んでいる。
実世界のがんデータセットの実験とアブレーション研究は、化学的に有効な高品質な分子を生成する能力を示している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:41:27 GMT)
The AI Literacy Heptagon: A Structured Approach to AI Literacy in Higher Education [42.0] 本研究は,学術カリキュラムにおける理論的AIL概念化と実践的実装のギャップを埋めることを目的としている。
我々の分析では、技術、応用的、批判的思考、倫理的、社会的、統合的、合法の7つの中心的な側面を特定している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 11:28:30 GMT)
Testing trajectory-based determinism via time probability distributions [42.0] 本稿では,一般的な軌道を持つ理論において,到着時刻の確率分布を構成するための処方則を提案する。
量子力学では到達できない条件付き確率分布を導出する。
その結果, トラジェクトリに基づく決定論の有効性が検証された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:38:29 GMT)
A Foundation Chemical Language Model for Comprehensive Fragment-Based Drug Discovery [42.0] FragAtlas-62Mは、これまでで最大のフラグメントデータセットに基づいて訓練された、特別な基礎モデルである。
完全なZINC-22フラグメントサブセット上に構築され、フラグメント化学空間を前例のない範囲でカバーしている。
GPT-2モデル(42.7Mパラメータ)は99.90%の化学的に有効なフラグメントを生成する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:23:36 GMT)
Global Convergence of Multi-Agent Policy Gradient in Markov Potential Games [40.9] マルコフポテンシャルゲーム(MPG)の新たな定義を提案する。
MPGは、複雑なステートフルなマルチエージェント調整をキャプチャする以前の試みを一般化する。
我々は,MPGが決定論的ナッシュポリシーの存在など,標準的な望ましい特性を示すことを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:31:04 GMT)
Steering Multimodal Large Language Models Decoding for Context-Aware Safety [40.7] MLLM(Multimodal Large Language Models)は、現実世界のアプリケーションに実装されている。
既存の手法では過敏性(良性クエリの不正な拒絶)と過敏性(視覚的根拠のあるリスクの欠如)のバランスが取れない。
マルチモーダルコンテキストに基づいてトークン生成を動的に調整する軽量かつモデルに依存しないデコーディングフレームワークであるSafeCoDeを紹介する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:32:25 GMT)
Communication-Efficient Federated Learning with Adaptive Number of Participants [40.5] Intelligent Selection of Participants (ISP)は、ラウンド毎に最適なクライアント数を動的に決定する適応的なメカニズムである。
最終品質を損なうことなく、一貫したコミュニケーションの節約率を最大30%まで示す。
ISPをさまざまな現実世界のECG分類設定に適用することは、フェデレートラーニングの別のタスクとして、クライアント数の選択を強調した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:13:57 GMT)
A Good Plan is Hard to Find: Aligning Models with Preferences is Misaligned with What Helps Users [40.5] アライメント手法は、LCM計画が役に立つことを保証することを目的としているが、ユーザが何を好むかのトレーニング(RLHF)や評価(Chatbotorama)を行う。
126名のユーザがLLMプランで300のマルチステップ質問に回答するインターフェースであるPlanArenaでこれをテストする。
4388件の計画実行と5584件の比較を行い、計画上の有益性(QAの成功)とユーザの好みを測定する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:33:30 GMT)
APRIL: Active Partial Rollouts in Reinforcement Learning to tame long-tail generation [40.1] 強化学習におけるアクティブ部分ロールアウト(APRIL)を提案する。
APRILはロールアウト要求をオーバープロビジョンし、ターゲットのレスポンス数が到達したら終了し、将来のステップで継続するために不完全なレスポンスをリサイクルする。
APRILは、一般的に使用されるRLアルゴリズムで少なくとも44%のロールアウトスループットを改善し、収束を加速し、タスク間の最終精度を最大8%向上する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:32:36 GMT)
A Preliminary Study on the Robustness of Code Generation by Large Language Models [40.0] CoderEvalベンチマークを用いて,LLM生成したコードロバスト性に関する実証的研究を行った。
出力の35.2%は、人間が書いたコードよりも堅牢ではなく、条件チェックの欠如による90%以上の欠陥があることがわかった。
このような問題に対処するため,モデルに依存しないフレームワークであるRobGenを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:57:16 GMT)
Your Turn: At Home Turning Angle Estimation for Parkinson's Disease Severity Assessment [39.8] 本稿では,ビデオから3Dスケルトンを抽出して回転角を自動的に定量化する深層学習手法を提案する。
我々は、24人の被験者から1386個のビデオクリップを回転させて、最先端の人間のポーズ推定モデルであるFastposeとStrided Transformerを利用する。
これは、一眼レフカメラデータを用いて、自宅のPD患者によるターンの定量化を行う最初の研究である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:41:29 GMT)
Audio-Based Pedestrian Detection in the Presence of Vehicular Noise [39.6] 本稿では,車体騒音の存在下でのオーディオに基づく歩行者検出における,新しいデータセット,結果,および最先端技術に関する詳細な分析について述べる。
本研究では, (i) 雑音と雑音に制限された環境間のクロスデータセット評価, (ii) ノイズがモデル性能に与える影響の評価, (iii) ドメイン外の音に対するモデルの予測ロバスト性の評価の3つの分析を行った。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:57:44 GMT)
Knowledge Base-Aware Orchestration: A Dynamic, Privacy-Preserving Method for Multi-Agent Systems [39.1] 我々はKBA(Knowledge Base-Aware)オーケストレーションを導入する。これは動的でプライバシを保存する関連信号で静的記述を強化する新しいアプローチである。
この機構を静的記述と組み合わせることで,より正確で適応的なタスクルーティングを実現する。
ベンチマークの結果、KBAオーケストレーションはルーティング精度とシステム全体の効率性において静的記述駆動手法よりも大幅に優れています。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:46:38 GMT)
Anecdoctoring: Automated Red-Teaming Across Language and Place [38.8] anecdoctoring"は、言語や文化にまたがる敵対的なプロンプトを自動的に生成する、新しい赤チーム方式である。
ファクトチェックのウェブサイトから3つの言語と2つの地理で誤情報クレームを収集する。
本手法は攻撃成功率を高くし,解釈可能性の利点を提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:26:13 GMT)
Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus [38.7] イタリアのCLとNLPコミュニティの研究動向をCLiC-itへの貢献の分析を通じて追跡する。
我々は、CLiC-itカンファレンスの最初の10版からCLiC-it Corpusに手続きをコンパイルする。
我々の目標は、イタリアと国際的な研究コミュニティに、新たなトレンドや重要な発展に関する貴重な洞察を提供することです。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:06:09 GMT)
Security Evaluation of Android apps in budget African Mobile Devices [38.0] 広く分散された低価格デバイスにプリインストールされたアプリケーションは、ユーザのセキュリティとプライバシに対する重大な、未調査の脅威である。
これらの結果は、広く分散された低価格デバイスにプリインストールされたアプリケーションが、ユーザセキュリティとプライバシに対する重大な、未調査の脅威であることを示している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:45:07 GMT)
Hierarchical Federated Learning for Social Network with Mobility [37.9] Federated Learning (FL)は、協力的なローカルモデルトレーニングとグローバルアグリゲーションを可能にする分散ソリューションを提供する。
従来のFLフレームワークでは、データプライバシは、ローカルデータが完全にプライベートであるという前提の下で保存されるのが一般的である。
クライアント間のデータ共有とモビリティパターンの両方を考慮した階層型フェデレーション学習フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:59:08 GMT)
The Indispensable Role of User Simulation in the Pursuit of AGI [37.8] 現実的なシミュレータは、スケーラブルな評価、インタラクティブな学習のためのデータ生成、人工知能(AGI)を中心とした適応能力の育成に必要な環境を提供すると主張している。
本稿では,AGIにおけるユーザシミュレーションの重要な役割を詳述するとともに,現実的なシミュレータ構築の学際的性質を考察し,大規模言語モデルによる課題を含む重要な課題を特定し,今後の研究課題を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:12:45 GMT)
Event-guided 3D Gaussian Splatting for Dynamic Human and Scene Reconstruction [37.5] イベントカメラは、例えばマイクロ秒の時間分解能など、異なる利点を示しており、人間の動的再構成において優れた感覚選択である。
一つの単眼イベントカメラから人間とシーンを共同でモデル化する,イベント誘導型ヒューマンシーン再構築フレームワークを提案する。
本研究では,連続レンダリングとイベントストリーム間の輝度変化をシミュレートしたイベント誘導損失を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:50:56 GMT)
Pandora: A Code-Driven Large Language Model Agent for Unified Reasoning Across Diverse Structured Knowledge [37.0] Unified Structured Knowledge Reasoning (USKR)は、テーブル、データベース、知識グラフなどの構造化されたソースを統一的に利用することで、自然言語の質問(NLQ)に答えることを目的としている。
既存のUSKRメソッドは、タスク固有の戦略を採用するか、SKRタスク間の知識伝達を活用するのに苦労するカスタム定義の表現に依存している。
本稿では、textscPythonのtextscPandas APIを利用して、統一知識表現を構築する、textscPandoraという新しいUSKRフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 11:15:44 GMT)
IMAIA: Interactive Maps AI Assistant for Travel Planning and Geo-Spatial Intelligence [36.7] インタラクティブなマップAIアシスタントであるIMAIAを紹介する。
ベクトル(ストリート)マップと衛星画像の両方との自然言語による対話を可能にする。
カメラの入力を地理空間知能で拡張し、ユーザーが世界を理解するのを助ける。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:59:02 GMT)
WikiGap: Promoting Epistemic Equity by Surfacing Knowledge Gaps Between English Wikipedia and other Language Editions [36.2] ウィキガップ(WikiGap)は、ウィキペディアの他のウィキペディアのインタフェースから得られる補完的な事実を抽出するシステムである。
具体的には、最近の多言語情報ギャップ発見法とユーザ中心の設計を組み合わせることで、WikiGapはフランス語、ロシア語、中国語のウィキペディアから補完的な情報にアクセスすることができる。
WikiGapは、ウィキペディアの現在のILLベースのナビゲーションシステムと比較して、ファクトフィニングの精度を大幅に改善し、タスク時間を短縮し、32ポイント高いユーザビリティスコアを得た。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:39:08 GMT)
Adaptive Fast-and-Slow Visual Program Reasoning for Long-Form VideoQA [36.1] 本稿では,適応型視覚プログラム推論手法であるFSVisPRフレームワークを紹介する。
単純なクエリの高速推論と難しいクエリの遅い推論のバランスを取る。
実験の結果,FS-VisPRは視覚プログラムの効率性と信頼性を両立させることがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:31:00 GMT)
AgentInit: Initializing LLM-based Multi-Agent Systems via Diversity and Expertise Orchestration for Effective and Efficient Collaboration [35.8] 我々はエージェントチームの構造を最適化することを目的としたAgentInitを提案する。
AgentInitはエージェント生成中のエージェント間のマルチラウンドインタラクションとリフレクションに加えて、自然言語からフォーマットメカニズムも組み込んでいる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:58:54 GMT)
Penalizing Boundary Activation for Object Completeness in Diffusion Models [35.6] 拡散モデルはテキスト・トゥ・イメージ(T2I)生成の強力な技術として登場した。
本研究では,不完全性の問題を詳細に解析し,不完全オブジェクト生成の要因はモデルトレーニングにおけるRandomCropの利用であることを示す。
本稿では,初期認知段階において,画像境界におけるアクティベーション値をペナライズする学習自由解を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:17:58 GMT)
GALLa: Graph Aligned Large Language Models for Improved Source Code Understanding [35.5] 最近のコード言語モデルは数十億のパラメータに拡張されているが、ソースコードはテキストトークンとしてのみモデル化されている。
GALLa - Graph Aligned Large Language Modelsで両世界のベストを尽くします。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:53:05 GMT)
Constrained Random Phase Approximation: the spectral method [35.3] スペクトルcRPA(s-cRPA)と呼ばれる制約付きランダム位相近似(cRPA)法を提案する。
3d殻充填量の変化により,ScandiumおよびCuのcRPA法と比較した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:15:51 GMT)
VER-Bench: Evaluating MLLMs on Reasoning with Fine-Grained Visual Evidence [34.9] VER-Benchは、細かい視覚的手がかりを識別するMLLMの能力を評価する新しいフレームワークである。
VER-Benchの各質問には、視覚的手がかりとそれらに由来する質問関連推論という、構造化された証拠が伴っている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:48:56 GMT)
LiTEx: A Linguistic Taxonomy of Explanations for Understanding Within-Label Variation in Natural Language Inference [34.6] 自由文の説明を分類するための言語情報を用いた分類法であるLITEXを紹介する。
この分類を用いて、e-SNLIデータセットのサブセットに注釈を付け、分類の信頼性を評価し、NLIラベル、ハイライト、説明とどのように一致しているかを分析する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:52:20 GMT)
Data Efficient Adaptation in Large Language Models via Continuous Low-Rank Fine-Tuning [34.3] 微調整技術は、特定のタスクに大規模言語モデルを適用する上で重要である。
DealはLow-Rank Adapta-tion (LoRA)と継続的微調整戦略を統合する新しいフレームワークである。
15の多様なデータセットの実験は、DEALが一貫してベースラインメソッドよりも優れていることを示している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:55:57 GMT)
Integrating Stacked Intelligent Metasurfaces and Power Control for Dynamic Edge Inference via Over-The-Air Neural Networks [34.3] 本稿では,従来の無線チャネルをノイズとして扱う手法を回避したエッジ推論(EI)フレームワークを提案する。
無線伝搬の制御にはスタックド・インテリジェント・メタサーフェス(SIM)を用いる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:13:06 GMT)
PointAD+: Learning Hierarchical Representations for Zero-shot 3D Anomaly Detection [33.9] 私たちはCLIPの堅牢な2D一般化機能を、非常に多様なクラスセマンティクスの未確認オブジェクト間で3D異常を特定するために転送する。
点レベルの情報と画素レベルの情報を活用することにより,3次元異常を包括的に検出し,セグメンテーションする統合フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:13:41 GMT)
Do You Need Proprioceptive States in Visuomotor Policies? [33.9] 模倣学習に基づくビジュモータポリシーはロボット操作に広く用いられている。
本研究では,視覚的観察にのみ条件付き動作を予測し,自己受容的状態入力を除去する「状態自由政策」を提案する。
実証的な結果から、国家自由政策は国家基本政策よりもはるかに強力な空間一般化を実現することが示された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:56:59 GMT)
A Multi-Agent Framework with Automated Decision Rule Optimization for Cross-Domain Misinformation Detection [33.9] 誤報は様々なドメインにまたがるが、特定のドメインで訓練された検出方法は、他のドメインに適用されると性能が悪くなることが多い。
自動決定規則最適化(MARO)を用いたクロスドメイン誤情報検出のためのマルチエージェントフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:36:02 GMT)
Development and validation of an AI foundation model for endoscopic diagnosis of esophagogastric junction adenocarcinoma: a cohort and deep learning study [33.8] 食道接合腺癌 (EGJA) の早期発見は, 予後改善に重要であるが, 術者に依存している。
本稿では,内視鏡画像を用いたEGJAのスクリーニングとステージング診断のための人工知能基盤モデルの開発を初めて試みる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:41:34 GMT)
Discovering strategies for coastal resilience with AI-based prediction and optimization [33.7] 我々は人工知能(AI)による介入計画を最適化し、沿岸の洪水に対するレジリエンスを改善する。
我々は,データ駆動型暴風雨場の生成,介入影響の代理モデル,連続武装バンディット問題の解法を組み合わせる。
我々の分析は、介入最適化が何十億ドルもの嵐の被害を減らし、悲惨なソリューションや最適でないソリューションをはるかに上回る可能性があると予測している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:21:41 GMT)
Fix your downsampling ASAP! Be natively more robust via Aliasing and Spectral Artifact free Pooling [33.2] 畳み込みニューラルネットワーク(CNN)は様々なコンピュータビジョンタスクで成功している。
ほとんどのCNNの空間ピラミッド設計は、明らかに基本的な信号処理法に違反している。
本稿では,周波数領域におけるエイリアスフリーなダウンサンプリング動作について提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:04:53 GMT)
EmbodiedSplat: Personalized Real-to-Sim-to-Real Navigation with Gaussian Splats from a Mobile Device [33.2] Embodied AIは主に、トレーニングと評価のシミュレーションに頼っている。
シン・トゥ・リアル・トランスファーは依然として大きな課題だ。
EmbodiedSplatは、ポリシートレーニングをパーソナライズする新しいアプローチである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:58:25 GMT)
FedFusion: Federated Learning with Diversity- and Cluster-Aware Encoders for Robust Adaptation under Label Scarcity [33.2] FedFusionは、ドメイン適応とフラゲラベリングを統合する、フェデレートされたトランスファーラーニングフレームワークである。
遅延教師クライアントは、信頼度フィルタリングされた擬似ラベルとドメイン適応転送を通じて学習者クライアントをガイドする。
FedFusionは、常に最先端のベースライン、正確性、堅牢性、公正性を上回っている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:46:06 GMT)
FedFiTS: Fitness-Selected, Slotted Client Scheduling for Trustworthy Federated Learning in Healthcare AI [33.2] フェデレートラーニング(FL)は、プライバシ保護モデルトレーニングの強力なパラダイムとして登場したが、医療などのセンシティブなドメインへのデプロイは、永続的な課題に直面している。
本稿では、フィットネスベースのクライアント選挙とアダプティブアグリゲーションを組み合わせることで、FedFaStラインを前進させる信頼度の高い選択的FLTSであるFedFiTSを紹介する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:06:04 GMT)
Learning neuroimaging models from health system-scale data [32.8] 磁気共鳴イメージング(MRI)研究の世界的な需要は着実に高まっている。
これらの課題は、低リソースおよび農村部における患者に不当に影響を及ぼす。
本稿では,脳神経イメージングのための第1ビジョン言語モデル(VLM)であるPrimmaを開発するために,大規模学術健康システムをデータエンジンとして活用する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:49:59 GMT)
Differentiable Light Transport with Gaussian Surfels via Adapted Radiosity for Efficient Relighting and Geometry Reconstruction [32.7] 放射場は、新しいビュー合成から幾何学的再構成まで幅広い応用で大きな成功を収めている。
これらの制限に対処する方法の1つは、物理ベースのレンダリングを組み込むことである。
最適化の内ループに完全なグローバル照明を組み込むことは、違法に高価である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:02:31 GMT)
The Case for Negative Data: From Crash Reports to Counterfactuals for Reasonable Driving [32.7] 我々は、クラッシュ物語をエゴ中心言語に正規化し、ログとクラッシュの両方を検索に適した統一されたシーンアクション表現に変換する。
決定時,本システムでは,この統合インデックスから関連する前例を検索することで,提案した行動を判断する。
nuScenesベンチマークでは、前例の検索はキャリブレーションを大幅に改善し、文脈的に好まれるアクションのリコールは24%から53%に増加した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:21:39 GMT)
A Realistic Evaluation of Cross-Frequency Transfer Learning and Foundation Forecasting Models [32.6] 大規模時系列データセットを事前トレーニング基礎予測モデル(FFM)にキュレートするための一般的なフレームワークとして、クロス周波数転送学習(CFTL)が登場している。
CFTLは将来性を示しているが、現在のベンチマークプラクティスは、そのパフォーマンスを正確に評価するに足らない。
この欠点は、小規模評価データセットへの過度な依存、計算サマリ統計におけるサンプルサイズの不適切な処理、最適以下の統計モデルの報告、事前トレーニングとテストデータセット間の重複の非無視的なリスクの考慮の欠如など、多くの要因に起因している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:19:50 GMT)
Stability and Generalization of Adversarial Diffusion Training [31.6] 本研究では,凸損失の拡散戦略の下での対向学習の安定性に基づく一般化解析を提案する。
一般化誤差は、逆方向の強度とトレーニングステップの数の両方で増大することを示す境界を導出する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:55:30 GMT)
SCoT: Straight Consistent Trajectory for Pre-Trained Diffusion Model Distillations [31.6] 本研究では,事前学習した拡散モデルに対する直線一貫性軌道(SCoT)モデルを提案する。
SCoTは、高速サンプリングのための両方のアプローチの利点を享受し、一貫した特性と直線的な性質のトラジェクトリを同時に生成する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:47:03 GMT)
Robust Denoising Neural Reranker for Recommender Systems [31.6] 我々は、リランクタスクは基本的に、レトリバースコアからのノイズ低減問題であると主張する。
ノイズ生成モジュールを慎重に設計したデノナイジング・リランカーを関連づける逆向きのフレームワークであるDNRを導出する。
従来のスコアエラー最小化用語は,1) ノイズレトリバーのスコアをユーザからのフィードバックに合わせるため,ノイズレトリバーのスコアを悪用する認知目標,2) ノイズレトリバーのスコアの分布を実際のものと整合させることを目的とした分布正規化用語の3つに拡張する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:29:52 GMT)
LEAF-Mamba: Local Emphatic and Adaptive Fusion State Space Model for RGB-D Salient Object Detection [31.5] RGB-D Salient Object Detection (SOD) は、奥行きの手がかりを取り入れたシーンにおいて、最も顕著な物体を特定することを目的としている。
既存の手法は主にCNNに依存しており、局所的な受容場や2次複雑さのコストに悩まされる視覚変換器に制限されている。
本稿では,2つの新しい成分を含む局所強調・適応核融合状態空間モデル(LEAF-Mamba)を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:08:17 GMT)
PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting [31.4] 本稿では,テキスト・ツー・イメージ(T2I)モデルのための新規で普遍的なプロンプト書き換えフレームワークであるPromptEnhancerを紹介する。
モデル固有の微調整やイメージ・リワードスコアのような暗黙の報酬信号に依存する従来の手法とは異なり、我々のフレームワークはリライターをジェネレータから切り離す。
Hunyuan Image 2.1モデルの実験では、PromptEnhancerは幅広い意味的および構成的課題において画像テキストアライメントを大幅に改善することを示した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:56:30 GMT)
Adaptive Kernel Design for Bayesian Optimization Is a Piece of CAKE with LLMs [31.3] 大規模言語モデル(LLM)を用いたBO強化のためのコンテキスト認識カーネル進化(CAKE)を提案する。
我々の新しいCAKEベースのBO法は、さまざまな現実世界のタスクで確立されたベースラインを一貫して上回ります。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:57:08 GMT)
MLF-4DRCNet: Multi-Level Fusion with 4D Radar and Camera for 3D Object Detection in Autonomous Driving [31.3] MLF-4DRCNetは4次元レーダとカメラ画像の多層融合による3次元物体検出のための新しいフレームワークである。
ポイントレベル、シーンレベル、プロポーザルレベルのマルチモーダル情報を組み込んで、包括的な特徴表現を可能にする。
これは、View-of-Delftデータセット上のLiDARベースのモデルに匹敵するパフォーマンスを実現する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:02:28 GMT)
SEGA: A Transferable Signed Ensemble Gaussian Black-Box Attack against No-Reference Image Quality Assessment Models [31.2] NR-IQAモデルに対する敵攻撃が注目されている。
この研究は、転送可能な符号付きアンサンブル・ガウスブラックボックスアタック(SEGA)を提案し、NR-IQAモデルを攻撃する際の低転送可能性の課題に対処する最初の試みである。
CLIVEデータセットの実験結果は、SEGAの優れた転送可能性を示し、NR-IQAモデルに対する転送ベースのブラックボックス攻撃を成功させる効果を検証した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:10:42 GMT)
Generating 360° Video is What You Need For a 3D Scene [31.1] 中間シーン表現として360degビデオを利用する実用的でスケーラブルなソリューションを提案する。
テキストプロンプトから3Dシーンを合成する生成パイプラインであるWorldPrompterを提案する。
WorldPrompterには条件付き360度パノラマビデオジェネレータが組み込まれており、仮想環境を歩いたり捉えたりする人をシミュレートする128フレームのビデオを生成することができる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:29:33 GMT)
The Open DAC 2025 Dataset for Sorbent Discovery in Direct Air Capture [31.1] Open DAC 2025 (ODAC) はODAC23 (Sriram et al., ACS Central Science, 10 (2024) 923の大幅な拡張と改良である。
ODACは、機能化されたMOF、高エネルギーGCMC由来の配置、および合成生成フレームワークを通じて、化学および構成の多様性を導入する。
ODAC25はまた、DFT計算の精度と柔軟なMOFの処理を大幅に改善する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 22:08:00 GMT)
Diffusion Bridge Variational Inference for Deep Gaussian Processes [31.1] 拡散橋変分推論(DBVI)は拡散変分推論(DDVI)の原理的拡張である
DBVIは学習可能なデータ依存の初期分布から逆拡散を開始する。
DDVIや他の変分ベースラインを予測精度、収束速度、後部品質で一貫して上回る。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:36:47 GMT)
CUPID: Curating Data your Robot Loves with Influence Functions [29.8] CUPIDは、模倣学習ポリシーのための新しい影響関数理論定式化に基づく、ロボットデータキュレーション手法である。
我々は,1)政策パフォーマンスを損なうトレーニングデモをフィルタリングし,2)政策を最も改善する新たなトラジェクトリをサブセレクトするために,CUPIDを用いてデータをキュレートする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:35:35 GMT)
Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [29.6] 5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。
分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。
これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:33:21 GMT)
DevFD: Developmental Face Forgery Detection by Learning Shared and Orthogonal LoRA Subspaces [29.5] デジタル・フェイス・ジェネレーションと操作は大きな社会的リスクをもたらす。
進化を続ける新しい種類の偽造に対して防御するためには、モデルが新しいドメインに迅速に適応できるようにする必要があります。
フェースフォージェリ検出は継続学習問題であり,新たなフォージェリタイプが出現するにつれて,モデルの開発を可能にする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:52:27 GMT)
EventVL: Understand Event Streams via Multimodal Large Language Model [29.2] 明示的意味理解のためのイベントベースMLLMフレームワークであるEventVLを提案する。
具体的には、異なるモダリティセマンティクスを接続するためにデータギャップをブリッジするために、まず大きなイベントイメージ/ビデオテキストデータセットに注釈を付ける。
よりコンパクトなセマンティック空間を促進するために、イベントのスパースなセマンティック空間を改善するために動的セマンティックアライメントが導入される。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:53:54 GMT)
What are Foundation Models Cooking in the Post-Soviet World? [28.6] ソ連後を中心に、ロシア語とウクライナ語で1147と823の料理のデータセットであるBORSchを構築した。
我々は,ソ連後諸国の料理の起源を,テキストのみとマルチモーダル質問回答(QA)の両方で正確に識別する上で,先行モデルが困難であることを実証した。
これらの結果は,ウクライナの食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器・食器の混用などの言語的現象を誤解して説明できることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:05:55 GMT)
COLT: Enhancing Video Large Language Models with Continual Tool Usage [28.5] 連続するツールストリームにおけるツール使用能力を自動取得するContinuaL Tool usage(COLT)を提案する。
我々のCOLTは学習可能なツールコードブックをツール固有のメモリシステムとして組み込んでいる。
ビデオLLMのツール使用可能性を解き放つために,ビデオ中心のツール利用指導データセットであるVideoToolBenchを収集する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:49:30 GMT)
Unsupervised Cross-Domain 3D Human Pose Estimation via Pseudo-Label-Guided Global Transforms [28.4] ポーズ位置間のグローバルな変換を行う新しいフレームワークを提案する。
Pose Augmentorは、人間の姿勢と体の大きさの変化に対処するために組み込まれている。
提案手法は最先端の手法より優れ、目標学習モデルよりも優れる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:42:06 GMT)
OpenWHO: A Document-Level Parallel Corpus for Health Translation in Low-Resource Languages [28.0] 我々は,世界保健機関のeラーニングプラットフォームから,2,978の文書と26,824の文からなる文書レベルの並列コーパスであるOpenWHOを紹介した。
従来の機械翻訳モデルに対して,現代大言語モデル (LLM) を評価する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:28:48 GMT)
RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation [27.8] Repository Planning Graph(RPG)は、機能、ファイル構造、データフロー、関数を1つのグラフにエンコーディングすることで、提案レベルと実装レベルのプランニングを統一する表現である。
RPGは曖昧な自然言語を明示的な青写真に置き換え、長期計画とスケーラブルなリポジトリ生成を可能にする。
ZeroRepoは、スクラッチからリポジトリを生成するグラフ駆動のフレームワークである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:00:38 GMT)
MK-UNet: Multi-kernel Lightweight CNN for Medical Image Segmentation [27.7] 医用画像分割に適した超軽量マルチカーネルU字型CNNへのパラダイムシフトであるMK-UNetを導入する。
我々のMK-UNetネットワークは、わずか0.316Mパラメータと0.314G FLOPの計算フットプリントしか持たない。
私たちのMK-UNetは、MedT、CMUNeXt、EGE-UNet、Rolling-UNetといった最近の軽量ネットワークよりもはるかに低い計算資源で性能を向上しています。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 00:54:40 GMT)
STARQA: A Question Answering Dataset for Complex Analytical Reasoning over Structured Databases [27.7] SARQAは,3つの特殊リレーショナル・ドメイン・データベース上での複雑な解析的推論質問と回答の公開人為的データセットである。
本稿では,3つの特殊リレーショナル・ドメイン・データベース上での複雑な解析的推論質問と回答の公開人為的データセットであるSTARQAを紹介する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:26:16 GMT)
Mitigating Strategy-Selection Bias in Reasoning for More Effective Test-Time Scaling [27.6] テストタイムスケーリング(TTS)は,多種多様な推論経路をサンプリング・集約することにより,大規模言語モデル(LLM)の性能を向上させることが示されている。
本稿では,テスト時間スケーリングの有効性を損なう場合の理論的解析について述べる。
この理論的な洞察に触発され、推論戦略の選択バイアスを軽減するために設計されたフレームワークであるTS-Uniformを導入する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:27:09 GMT)
YAC: Bridging Natural Language and Interactive Visual Exploration with Generative AI for Biomedical Data Discovery [27.6] マルチエージェントシステムを用いて構造化宣言出力を生成することにより,自然言語とインタラクティブな可視化のギャップを埋める。
ユーザインターフェース要素を通じて、構造化された出力の値を調整することができるウィジェットも含んでいます。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:57:42 GMT)
Turning Tabular Foundation Models into Graph Foundation Models [27.5] グラフ基礎モデルをグラフ基礎モデルに変換するためのフレームワークであるG2T-FMを提案する。
G2T-FMは、元のノード機能を近隣の特徴集約で強化し、構造的な埋め込みを追加し、構築されたノード表現にTFMを適用する。
我々のモデルは、公開GFMを著しく上回り、スクラッチから訓練されたよく訓練されたGNNよりも、競争力があり、しばしば優れた性能を発揮する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:49:14 GMT)
Vacuum birefringence in the polarized X-ray emission of a radio magnetar [27.3] 量子電磁力学(QED)理論は、超強磁場の存在下で量子真空が複屈折となることを予測している。
ここでは, 放射磁化1E 1547.0-5408の位相およびエネルギー分解X線偏光測定について報告する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:01:21 GMT)
UniECG: Understanding and Generating ECG in One Unified Model [26.6] 我々は、エビデンスベースのECG解釈とテキスト条件のECG生成タスクを同時に行うことができるECGの最初の統一モデルUniECGを提案する。
UniECGは、ユーザ入力に基づいてECGを自動で解釈または生成することを選択し、現在のECGモデルの能力境界を大幅に拡張することができる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:15:53 GMT)
Program Synthesis via Test-Time Transduction [26.3] 本稿では,プログラム合成タスクの新たな定式化であるトランスダクティブプログラム合成を紹介し,合成中のテスト入力を明示的に活用する。
提案手法は,Playgol,MBPP+,1D-ARC,MiniGrid上のプログラム的世界モデリングの4つのベンチマークで評価する。
提案手法は,プログラムの精度と効率性の両方において,プログラム合成を大幅に改善することを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:29:22 GMT)
Modeling Subjectivity in Cognitive Appraisal with Language Models [25.8] 包括的実験と分析を行うことで,言語モデルが認知評価における主観性を定量化する方法について述べる。
その結果,人格特性と人口統計情報は主観性を測定する上で重要であることが示された。
我々の分析は、NLPと認知科学の交差点における将来の研究を導く貴重な洞察を提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:25:17 GMT)
Earth Observation Foundation Model PhilEO: Pretraining on the MajorTOM and FastTOM Datasets [25.7] すべてのリージョンを含む事前トレーニングデータセットMajorTOM 23TBでモデルをトレーニングします。
海と氷のさらなるデータにより、陸地に焦点を当てた下流作業の性能は低下しない。
2つ目の貢献は、FMとしてU-Net Convolutional Neural Network(CNN)、ViT(Vit)、Mamba State-Space Models(SSM)の探索である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:56:55 GMT)
Scaling Up On-Device LLMs via Active-Weight Swapping Between DRAM and Flash [25.6] 大規模言語モデル(LLM)はモバイルデバイスにますますデプロイされているが、DRAM容量の制限により、デプロイ可能なモデルサイズが制限されている。
本稿では,現代のLLMに対して適応的なDRAM利用を実現するための,最初のLLM推論フレームワークであるActiveFlowを紹介する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:24:07 GMT)
EvoCoT: Overcoming the Exploration Bottleneck in Reinforcement Learning [25.5] 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデル(LLM)を学習後,推論能力を向上させる上で有望なパラダイムとなっている。
本稿では,2段階チェーン・オブ・シークレット(CoT)推論最適化に基づく自己進化型カリキュラム学習フレームワークであるEvoCoTを提案する。
EvoCoTは、CoT軌道の自己生成と検証によって探索空間を制約し、その後徐々にCoTステップを短縮し、空間を制御された方法で拡張する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:59:37 GMT)
Leveraging Large Models to Evaluate Novel Content: A Case Study on Advertisement Creativity [25.5] ビジュアル広告の創造性を非定型性と独創性に分解しようと試みる。
このような主観的な問題に特化して,一連のタスクを提案する。
また,提案したベンチマークを用いて,最先端(SoTA)ビジョン言語モデル(VLM)と人間との整合性を評価する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:34:10 GMT)
Post-hoc Study of Climate Microtargeting on Social Media Ads with LLMs: Thematic Insights and Fairness Evaluation [24.6] 本研究は,温暖化対策におけるマイクロターゲットの実践に関するポストホック分析である。
大規模言語モデル(LLM)が意図する人口目標を正確に予測する能力を評価する。
モデル予測におけるバイアスを明らかにするために、包括的公正分析を行う。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:45:34 GMT)
Structure-prior Informed Diffusion Model for Graph Source Localization with Limited Data [24.4] 既存の深層生成アプローチは、伝播データの可用性が制限されているために、現実のアプリケーションにおいて重大な課題に直面している。
本稿では、トポロジを意識した事前情報を利用して、限られたデータによるロバストなソースローカライゼーションを実現する、生成拡散フレームワークであるSIDSLを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:50:13 GMT)
Pretrained deep models outperform GBDTs in Learning-To-Rank under label scarcity [24.4] DLローカは、教師なし事前学習を利用して、ラベルのないデータを活用できることが示される。
パブリックデータセットとプロプライエタリデータセットの両方に対する広範な実験では、事前トレーニング済みのDLランクラが、ランキングメトリクスにおいてGBDTランクラを一貫して上回っていることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:35:02 GMT)
Language Models Do Not Have Human-Like Working Memory [24.4] 我々は,Large Language Models (LLM) は人間の認知の基本的側面を欠いていることを示した。
人間の作業記憶は、一貫性のある推論と意思決定を可能にする活発な認知システムである。
我々の研究は、LLMにおけるワーキングメモリ評価のための新しいベンチマークを確立する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:47:04 GMT)
Human-Interpretable Uncertainty Explanations for Point Cloud Registration [24.3] 我々は,登録の不確実性を定量化し,それを説明する新しいアプローチであるGaussian Process Concept Attribution(GP-CA)を開発した。
GP-CAを3つの公開データセットと実世界のロボット実験で検証した。
我々のビデオはまた、GP-CAが効果的な障害回復行動を可能にし、より堅牢なロボット知覚をもたらすことを実証している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:23:51 GMT)
FixingGS: Enhancing 3D Gaussian Splatting via Training-Free Score Distillation [24.0] スパースビュー3DGS再構成強化のためのトレーニング不要なFixingGSを提案する。
FixingGSの核心は蒸留法であり、より正確かつ相互にコヒーレントな拡散を先導する。
さらに,非拘束領域における再構成をさらに洗練する適応的漸進的拡張手法を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:53:46 GMT)
Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [24.0] 我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。
提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。
この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:26:53 GMT)
What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT [23.9] 単純なCoT延長とレビューの増加は,*より低い*精度と関連していることがわかった。
構造を抽出し,単一統計量を特定するために,CoTのグラフビューを導入する。
これらの結果は、有効な CoT を *fail less* であり、*structure-aware* テストタイムスケーリングをサポートするものとして特徴づけます。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:50:54 GMT)
FedOC: Multi-Server FL with Overlapping Client Relays in Wireless Edge Networks [22.6] FedOC(Federated Learning with Overlapping Clients)は、重複するクライアントの可能性を完全に活用するように設計された新しいフレームワークである。
1つはリレーオーバーラップクライアント(ROC)、(2)はノーマルオーバーラップクライアント(NOC)である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:53:51 GMT)
An overview of neural architectures for self-supervised audio representation learning from masked spectrograms [22.5] マスク付きスペクトログラムモデリングは汎用音声表現を学習するための顕著なアプローチとして登場してきた。
本稿では、上記の研究領域の概要を概観し、マスク付きスペクトログラムモデリングとニューラルシーケンスモデリングアーキテクチャについて述べる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:20:41 GMT)
A Generalized Bisimulation Metric of State Similarity between Markov Decision Processes: From Theoretical Propositions to Applications [22.5] Bisimulation metric (BSM) はマルコフ決定過程(MDP)における状態類似性を計算する強力なツールである。
本研究では,2組のMDP間での一般化バイシミュレート(GBSM)を正式に確立する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:02:05 GMT)
Raw-JPEG Adapter: Efficient Raw Image Compression with JPEG [22.5] 本稿では,Raw Adapterについて述べる。Raw Adapterは,標準JPEG圧縮に生画像を適用する軽量で学習可能な,可逆的な前処理パイプラインである。
提案手法は直接JPEGストレージよりも忠実度が高く,他のコーデックをサポートし,圧縮比と再現精度のトレードオフが良好である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 22:31:37 GMT)
A Chain-of-thought Reasoning Breast Ultrasound Dataset Covering All Histopathology Categories [22.4] 4,838例の10,019病変の11,439枚の画像を含む,チェーン・オブ・シント(CoT)推論分析のためのデータセットであるBUS-CoTを提案する。
我々は,臨床実践においてエラーが発生しやすい稀な症例において,堅牢なAIシステムの実現を目指している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:04:18 GMT)
Otters: An Energy-Efficient SpikingTransformer via Optical Time-to-First-Spike Encoding [22.3] スパイクニューラルネットワーク(SNN)は高エネルギー効率、特にTTFSエンコーディングを約束する。
本稿は,光電子デバイスにおける「物理ハードウェアバグ」,すなわち自然信号減衰を再利用することで,このコストのかかるアプローチに挑戦する。
我々は酸化インジウム光電子シナプスを作製し、その天然の物理的崩壊が要求される時間関数を直接実装する様子を示した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:23:48 GMT)
AI-Generated Text is Non-Stationary: Detection via Temporal Tomography [22.2] 本稿では,信号処理タスクとして検出を再構成することによって位置情報を保存する新しい検出パラダイムであるTDTを紹介する。
RAIDベンチマークでは、TDTは0.855 AUROC(最高のベースラインよりも7.1%改善)を達成した。
我々の研究は、AI生成テキストの基本的な特徴として非定常性を確立し、時間的ダイナミクスの保存が堅牢な検出に不可欠であることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:58:23 GMT)
Explore the Reinforcement Learning for the LLM based ASR and TTS system [22.2] 大規模言語モデル(LLM)は自動音声認識(ASR)と音声合成(TTS)システムにおいて重要な役割を果たしてきた。
本研究では,LLMに適した軽量強化学習フレームワークを提案する。
実験の結果, RL は ASR と TTS の両方の性能を大幅に向上させることができることがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:52:54 GMT)
OpenLens AI: Fully Autonomous Research Agent for Health Infomatics [22.2] OpenLens AIは、健康情報学に適した完全に自動化されたフレームワークである。
文献レビュー、データ分析、コード生成、原稿作成のための特殊エージェントを統合している。
このフレームワークは研究パイプライン全体を自動化し、出版可能な原稿を生成する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:37:30 GMT)
Measuring AI "Slop" in Text [22.1] 我々は,NLP,著作,哲学の専門家へのインタビューを通じて,「傾斜」の分類法を開発する。
二項の「傾斜」判断は主観的であるが、そのような決定はコヒーレンスや関連性などの潜在次元と相関する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:41:19 GMT)
BloomIntent: Automating Search Evaluation with LLM-Generated Fine-Grained User Intents [21.8] BloomIntentは、ユーザインテントを評価単位として使用する、ユーザ中心の検索評価手法である。
我々は,BloomIntentが細粒度で評価可能なインテントを生成し,インテントレベルの満足度をスケーラブルに評価したことを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:56:06 GMT)
SAM-DCE: Addressing Token Uniformity and Semantic Over-Smoothing in Medical Segmentation [21.6] Segment Anything Model (SAM)は、自然画像に印象的なゼロショットセグメンテーション能力を示す。
SAMは、ドメインシフト、解剖学的多様性、およびユーザが提供するプロンプトに依存するため、医療画像の困難に遭遇する。
トークンの均一性を緩和し、クラス間分離性を高め、きめ細かな一貫した表現でマスクデコードを強化しながら、局所的な識別とグローバルな意味のバランスをとるSAM-DCEを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:14:07 GMT)
EvoAgentX: An Automated Framework for Evolving Agentic Workflows [21.5] 本稿では,マルチエージェントシステムの生成,実行,進化的最適化を自動化するオープンソースプラットフォームであるEvoAgentXを紹介する。
我々は,HotPotQA,MBPP,MATH上のEvoAgentXをマルチホップ推論,コード生成,数学的問題解決のためにそれぞれ評価し,GAIAを用いて実世界のタスクで評価する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:00:26 GMT)
Trigger Where It Hurts: Unveiling Hidden Backdoors through Sensitivity with Sensitron [21.5] バックドア攻撃は自然言語処理(NLP)システムに重大なセキュリティ上の脅威をもたらす。
既存のメソッドには説明可能なトリガ機構がなく、脆弱性パターンを定量的にモデル化することができない。
この研究は、ステルスで堅牢なバックドアトリガーを作るための新しいモジュラーフレームワークであるSensitronを紹介している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:49:00 GMT)
NaviSense: A Multimodal Assistive Mobile application for Object Retrieval by Persons with Visual Impairment [21.4] NaviSenseは、対話型AI、視覚言語モデル、拡張現実(AR)、LiDARを組み合わせたモバイル支援システムである。
ユーザは自然言語でオブジェクトを指定し、目標に向かって移動するための連続的な空間フィードバックを受け取る。
NaviSenseはオブジェクトの検索時間を著しく短縮し、既存のツールよりも好まれた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:45:11 GMT)
Global Minimizers of Sigmoid Contrastive Loss [21.2] 我々は,シグモイド損失下でのトレーニング可能な逆温度とバイアスとを同期させることの利点を理論的に説明する。
温度とバイアスは、$(mathsfm, mathsfb_mathsfrel)$-Constellationsと呼ぶような構成のリッチなクラスに対して損失関数をゼロにすることができる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:24:23 GMT)
Stabilizer Rényi Entropy and its Transition in the Coupled Sachdev-Ye-Kitaev Model [21.1] 安定化器R'enyi Entropy(SRE)を用いた量子魔法の研究
熱力学量では検出できないSREの内在的な遷移を明らかにする。
熱力学限界における強相関フェルミオン系におけるSREの研究の道を開いた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:55:35 GMT)
Dynamic User Interest Augmentation via Stream Clustering and Memory Networks in Large-Scale Recommender Systems [21.1] 本稿では,Recommender System(RS)におけるユーザ関心を高めるために,動的ユーザ関心向上(DUIA)を提案する。
DUIAは複数の視点から類似ユーザや関連アイテムの動的ストリームクラスタリングを通じて拡張ベクトルを生成する。
2022年以降、DUIAはTencentの複数の産業RSに配備されている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:38:46 GMT)
Codebook-Based Adaptive Feature Compression With Semantic Enhancement for Edge-Cloud Systems [20.9] CAFC-SEは、セマンティックエンハンスメントを備えたコードブックベースのAdaptive Feature Compressionフレームワークである。
連続した視覚的特徴を、Vector Quantization (VQ)を介してエッジのコードブックで離散的なインデックスにマッピングし、それをクラウドに選択的に送信する。
最寄りの視覚的プリミティブに特徴ベクトルを投影するVQ操作により、低ビットレート条件下でより情報的な視覚的パターンを保存できる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 00:34:12 GMT)
Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.8] マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:45:53 GMT)
Multimodal Medical Image Classification via Synergistic Learning Pre-training [20.8] マルチモーダルな半教師付き医用画像分類のための新しいフレームワークを提案する。
1つのモダリティを他のモダリティの強化サンプルとして扱うことにより、自己教師付き学習事前訓練を実装した。
微調整の段階では、異なるエンコーダを設定し、元のモダリティから特徴を抽出する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:40:38 GMT)
AvatarShield: Visual Reinforcement Learning for Human-Centric Synthetic Video Detection [20.8] 人間中心のビデオ生成法は、人体全体を制御可能な動きで合成することができる。
既存の検出方法は、このようなフルボディの合成コンテンツによって引き起こされるリスクの増大をおおむね見落としている。
マルチモーダルな人間中心型合成ビデオ検出フレームワークであるAvatarShieldを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:29:40 GMT)
Athena: Enhancing Multimodal Reasoning with Data-efficient Process Reward Models [19.9] 本稿では,プロセス報酬モデル(PRM)であるAthena-PRMを提案する。
当社のAthena-PRMは、複数のベンチマークやシナリオで一貫して優れたパフォーマンスを実現しています。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:57:54 GMT)
DuoGPT: Training-free Dual Sparsity through Activation-aware Pruning in LLMs [19.7] DuoGPTは、非構造化ウェイトプルーニングとアクティベーション間隔を組み合わせることで、デュアルスパース(spMspV)ワークロードを構築するフレームワークである。
我々は,DuoGPTがベースライン密度モデルと比較して1.39$times$のアイソスピードアップで9.17%の精度で,最先端の構造化プルーニング法より優れていることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:21:55 GMT)
Reverse Engineering User Stories from Code using Large Language Models [19.5] 大規模言語モデル(LLM)がソースコードから直接ユーザストーリーを復元できるかどうかを検討する。
我々は6つのプロンプト戦略にまたがる5つの最先端LCMを評価した。
その結果,F1スコアは平均で最大200 NLOCのコードに対して0.8であることがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:23:37 GMT)
Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation [19.0] Hyper-Bagelはマルチモーダル理解と生成の両方を同時に高速化するように設計されている。
生成タスクの場合、6-NFEモデルは16.67倍のテキスト画像生成速度、22倍の画像編集速度が得られる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:12:46 GMT)
A Generative Framework for Probabilistic, Spatiotemporally Coherent Downscaling of Climate Simulation [18.9] 本稿では,高分解能リアナリシスデータに基づいて学習したスコアベース拡散モデルを用いて,局所気象力学の統計的特性を抽出する新しい生成フレームワークを提案する。
本研究では,地球規模の気候出力と一致した空間的・時間的気象動態をモデル化した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:03:42 GMT)
RSVG-ZeroOV: Exploring a Training-Free Framework for Zero-Shot Open-Vocabulary Visual Grounding in Remote Sensing Images [18.7] リモートセンシングビジュアルグラウンドディング(RSVG)は、自由形式の自然言語表現に基づいて、オブジェクトをリモートセンシング画像にローカライズすることを目的としている。
我々は,ゼロショットオープン語彙RSVGのためのフリージェネリック基盤モデルの可能性を探るためのトレーニングフリーフレームワークである textbfRSVG-ZeroOV を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:52:15 GMT)
EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data [18.6] EgoBridgeは、ポリシーの潜在空間を、ドメイン適応を使って人間とロボットのデータに合わせることを目指している。
人体横断ベースラインよりも44%の大幅な絶対的な政策成功率向上を実現している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 22:34:47 GMT)
Extracting Conceptual Spaces from LLMs Using Prototype Embeddings [18.5] 本稿では,対応するプロトタイプの記述を埋め込んで特徴を符号化する手法を提案する。
私たちの経験的分析では、このアプローチは極めて効果的であることが分かっています。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:33:30 GMT)
Multimodal Language Models with Modality-Specific Experts for Financial Forecasting from Interleaved Sequences of Text and Time Series [18.2] テキストと時系列のデータは、金融市場の補完的な見方を提供する。
我々は,これらのインターリーブ配列をモダリティに特化した専門家を用いてモデル化する統一型ニューラルネットワークを提案する。
我々は,大規模財務予測課題におけるアプローチの有効性を実証する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 22:40:31 GMT)
3D Human Pose and Shape Estimation from LiDAR Point Clouds: A Review [18.0] 本報告では,LiDAR点雲からの3次元姿勢推定と人間のメッシュ回復について概説する。
本稿では,これらの手法を分類し,それぞれの手法の強み,限界,設計選択を解析するための構造的分類法を提案する。
我々は,LiDARに基づく3D人間の理解を促進する上で重要な課題と研究の方向性を概説する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:13:36 GMT)
Training Language Model Agents to Find Vulnerabilities with CTF-Dojo [17.8] 我々は,大規模な言語モデル(LLM)を検証可能なフィードバックでトレーニングするための,最初の大規模実行ランタイムであるCTF-Dojoを紹介する。
CTF-Dojoから,LLMベースのエージェントを486の高品質な実行検証トラジェクトリでトレーニングする。
私たちの最高の32Bモデルは31.9%のPass@1に達し、DeepSeek-V3-0324やGemini-2.5-Flashといったフロンティアモデルと競合する新しいオープンウェイトな最先端技術を確立しました。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:30:33 GMT)
Unlocking the Potential of AI Researchers in Scientific Discovery: What Is Missing? [17.6] AI4Scienceの総出版物のシェアは2024年の2.72%から2050年までに約20%に増加すると予測している。
これらのジャーナルにおけるAIによる研究の95%近くは、実験科学者が主導している。
我々は、AI研究者を科学的発見の最前線に配置するための構造的かつ戦略的介入を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:00:54 GMT)
MAPEX: A Multi-Agent Pipeline for Keyphrase Extraction [17.5] キーフレーズ抽出にマルチエージェント協調を導入するMAPEXを提案する。
MAPEXは、専門家の募集、候補者抽出、トピックガイダンス、知識増強、後処理のためのモジュールを通してLLMベースのエージェントをコーディネートする。
二重パス戦略は文書長に動的に適応する: 短文の知識駆動抽出と長文のトピック誘導抽出である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:00:43 GMT)
The SkipSponge Attack: Sponge Weight Poisoning of Deep Neural Networks [17.4] SkipSpongeは、いくつかのデータサンプルだけで事前訓練されたモデルのパラメータに直接実行される最初のスポンジ攻撃である。
実験の結果,SkipSpongeは画像分類モデル,GAN,オートエンコーダのエネルギー消費を増加させることができた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:15:36 GMT)
GradNetOT: Learning Optimal Transport Maps with GradNets [17.0] aXiv:2301.10862][arXiv:2404.07361]では、モノトン勾配写像の空間を直接パラメータ化するニューラルネットワークであるモノトン勾配ネットワーク(mGradNets)を提案した。
実験により,mGradNetsの構造バイアスは,画像モーフィングタスクと高次元OT問題の両方にわたる最適なトランスポートマップの学習を促進することが示された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:21:37 GMT)
APFEx: Adaptive Pareto Front Explorer for Intersectional Fairness [17.0] 本稿では,共同最適化問題として,交差フェアネスを明示的にモデル化する最初のフレームワークであるAPFExを紹介する。
APFExは、適応的な多目的性、勾配重み付け、探索戦略を組み合わせて、公正さと精度のトレードオフをナビゲートする。
4つの実世界のデータセットの実験は、APFExの優位性を示し、競争精度を維持しながら公正な違反を減らす。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:27:29 GMT)
T-Detect: Tail-Aware Statistical Normalization for Robust Detection of Adversarial Machine-Generated Text [17.0] 大規模言語モデル(LLM)は、流動的で論理的なコンテンツを生成する能力を示し、機械生成のテキスト検出に重大な課題を提示している。
本稿では、曲率に基づく検出器を根本的に再設計する新しい検出法であるT-Detectを紹介する。
我々の貢献は、テキスト検出の理論的に正当化された新しい統計基盤、優れた堅牢性を示すアブレーション検証法、および敵条件下での性能の包括的解析である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:22:04 GMT)
Bridging Information Gaps with Comprehensive Answers: Improving the Diversity and Informativeness of Follow-Up Questions [16.9] 我々は,包括的回答を生成する情報ギャップ駆動型知識蒸留パイプラインを開発し,情報ギャップを識別するための初期回答と対比する。
我々は、教師の知識を抽出するために、強化データセット上に小さな学生モデルを微調整する。
実験により、微調整された学生は、元のデータセットで訓練されたバリエーションよりも、はるかに高い情報性と多様性が得られることが示された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:47:37 GMT)
PDTrim: Targeted Pruning for Prefill-Decode Disaggregation in Inference [16.5] 大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、その展開は高い計算とメモリコストに制約される。
より正確で効率的なブロックとKVキャッシュのプルーニングを可能にするPD分散推論のための新しいプルーニング法を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:31:26 GMT)
Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity [16.5] コーパスレベルの項周波数統計量を用いてトークンの先行値を推定する事前データフィルタリング手法を提案する。
PPLの高速プロキシとして,トークン前の平均偏差と標準偏差に基づいて文書をフィルタする手法を提案する。
その単純さにもかかわらず、事前ベースフィルタは、20のダウンストリームベンチマークで最高の平均性能を達成している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:57:29 GMT)
Confidential LLM Inference: Performance and Cost Across CPU and GPU TEEs [16.5] 大規模言語モデル(LLM)は、収束したクラウドと高性能コンピューティングインフラストラクチャにますますデプロイされている。
LLMが機密入力を処理するため、セキュリティ要件が高められ、医療や金融といったプライバシーに敏感な分野への採用が遅れる。
エンド・ツー・エンドのLSM推論のためのソリューションとして,Trusted Execution Environments (TEEs)を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 10:36:47 GMT)
Self-evolved Imitation Learning in Simulated World [16.5] 自己進化的模倣学習(Self-Evolved Imitation Learning、SEIL)は、シミュレーターインタラクションを通じて数ショットモデルを改善するフレームワークである。
SEILは、数ショットの模倣学習シナリオにおいて、最先端のパフォーマンスを新たに達成する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:15:32 GMT)
HadaSmileNet: Hadamard fusion of handcrafted and deep-learning features for enhancing facial emotion recognition of genuine smiles [16.3] 真の感情とポーズされた感情の区別は、基本的なパターン認識の課題である。
HadaSmileNetは、トランスフォーマーベースの表現と生理的基盤を持つD-Markersを直接統合する、新しい機能融合フレームワークである。
このフレームワークの効率性と有効性は、特にマルチメディアデータマイニングアプリケーションにおける実践的なデプロイに適している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:20:43 GMT)
When Long Helps Short: How Context Length in Supervised Fine-tuning Affects Behavior of Large Language Models [16.1] 大規模言語モデル (LLM) は自然言語処理 (NLP) タスクにまたがって優れた性能を達成している。
現実世界のアプリケーションは、より長いコンテキストウインドウをますます求めているため、長いコンテキストデータに対する事前トレーニングと教師付き微調整(SFT)が一般的なアプローチとなっている。
SFTデータ長が短時間のタスクにおけるLLMの挙動にどう影響するかを系統的に検討する。
長文事前学習による劣化に対して,長文SFTは短文性能を向上することがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:55:38 GMT)
PruneCD: Contrasting Pruned Self Model to Improve Decoding Factuality [16.1] DoLaは、コントラストの前のモデルと同じモデルからの早期出口ロジットを利用する。
これらの初期の出口は平坦であり、大きさは小さく、有意義なコントラストを反映しない傾向にある。
本稿では,早期出口ではなく,階層プルーニングによるアマチュアモデルを構築する,新しいコントラストデコーディング手法PruneCDを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:28:16 GMT)
Q-DPTS: Quantum Differentially Private Time Series Forecasting via Variational Quantum Circuits [15.8] 我々はQ-DPTSを提案する。Q-DPTSは量子差分時時系列予測のためのハイブリッド量子古典的フレームワークである。
Q-DPTSは、変動量子回路とサンプルごとの勾配クリッピングとガウスノイズ注入を組み合わせることで、厳密な$(epsilon, delta)$-differential privacyを保証する。
結果は,Q-DPTSが同一のプライバシー予算の下で常に低い予測誤差を達成していることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:31:38 GMT)
Live-E2T: Real-time Threat Monitoring in Video via Deduplicated Event Reasoning and Chain-of-Thought [15.7] Live-E2Tは、リアルタイムパフォーマンスと意思決定説明可能性の要件を統合する新しいフレームワークである。
また,Live-E2Tは,脅威検出精度,リアルタイム効率,説明可能性において,最先端の手法よりも優れていることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:53:43 GMT)
Advancing Speech Summarization in Multi-modal LLMs with Reinforcement Learning [15.6] 音声要約は、音声コンテンツ理解の重要な構成要素である。
MLLMにおける音声要約機能を向上させるための新しい強化学習フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 22:45:13 GMT)
The Impact of 2D Segmentation Backbones on Point Cloud Predictions Using 4D Radar [15.5] 生成点雲の品質に及ぼす高容量セグメンテーションバックボーンの影響について検討した。
以上の結果から,高容量モデルが実際に性能を損なう可能性があるのに対して,最適セグメンテーションバックボーンは最先端(SOTA)よりも23.7%改善できることがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:21:50 GMT)
Security and Privacy Measurement on Chinese Consumer IoT Traffic based on Device Lifecycle [15.4] 本研究は,中国における消費者向けIoTデバイストラフィックに関する最初の大規模データセットを構築した。
38のブランドと12のデバイスカテゴリにまたがる77のデバイスからのトラフィックを集めています。
他の地域と比較すると、中国の消費者向けIoTデバイスは国内サービスに依存している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:00:03 GMT)
Shared-Weights Extender and Gradient Voting for Neural Network Expansion [15.4] トレーニング中にニューラルネットワークを拡張することは、スクラッチから大きなモデルをトレーニングすることなく、キャパシティを拡張するための有望な方法だ。
新たに追加されたニューロンは、しばしば訓練されたネットワークに適応せず、不活性になり、容量増加に寄与しない。
本研究では,既存のニューロンと結合してスムーズな統合を行うことにより,新しいニューロンの不活性を防止するための新しい手法を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:27:47 GMT)
Towards Causal Representation Learning with Observable Sources as Auxiliaries [15.4] 因果表現学習は、混合関数を通して観測データを生成する潜伏因子を復元しようとする。
我々は、有効な条件変数として、観測可能なソースのフレームワークを補助的に導入する。
本研究の主な成果は,全潜伏変数を部分空間変換まで同定できることである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:22:39 GMT)
Pure Vision Language Action (VLA) Models: A Comprehensive Survey [15.3] ビジョン言語アクション(VLA)モデルの出現は、従来のポリシーベースの制御から一般化されたロボット工学へのパラダイムシフトを表している。
この調査は、明確な分類学と既存の研究の体系的、包括的レビューを提供することを目的として、先進的なVLA手法を探求する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:53:52 GMT)
Are Vision-Language Models Safe in the Wild? A Meme-Based Benchmark Study [15.3] MemeSafetyBenchは、有害な命令と良質な命令の両方で、実際のミームイメージをペアリングするベンチマークである。
実世界のミームが有害なアウトプットに与える影響,会話コンテキストの緩和効果,モデル尺度と安全性指標の関係について検討する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:14:42 GMT)
Long Story Short: Disentangling Compositionality and Long-Caption Understanding in VLMs [15.1] 構成性と長文理解の相互作用について検討する。
これらの機能をターゲットにした、さまざまなモデルのトレーニングと評価を行います。
高品質で長大なデータに基づいて訓練されたモデルでは、両方のタスクで高いパフォーマンスが得られることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:28:51 GMT)
Agentic Software Engineering: Foundational Pillars and a Research Roadmap [15.1] Agentic Software Engineering (SE 3.0)は、インテリジェントなエージェントが複雑な目標指向のSE目標を達成することを任務とする新しい時代を表す。
本稿では,SEの基盤となる柱のいくつかを概説する,構造化エージェントソフトウェア工学(SASE)のビジョンについて述べる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:01:15 GMT)
AutoSpec: An Agentic Framework for Automatically Drafting Patent Specification [15.1] 特許は、発明者に対して排他的権利を与えることによって、技術革新を推進する上で重要な役割を担っている。
近年の言語モデルの発展にもかかわらず、いくつかの課題が、堅牢な自動特許草案作成システムの開発を妨げている。
特許仕様を自動的にドラフトするセキュアでエージェント的なフレームワークであるAutoSpecを紹介します。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:10:18 GMT)
Global-Recent Semantic Reasoning on Dynamic Text-Attributed Graphs with Large Language Models [15.0] DyTAG(Dynamic Text-Attribute Graphs)は、現実世界のアプリケーションで広く使われているグラフである。
グラフニューラルネットワーク(GNN)やLarge Language Models(LLM)といった既存の手法は主に静的TAGに焦点を当てている。
我々はDyGRASP(Dynamic Global-Recent Adaptive Semantic Processing)を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:35:42 GMT)
CCQA: Generating Question from Solution Can Improve Inference-Time Reasoning in SLMs [15.0] textbfQuestion textbfAnswering (CCQA)におけるtextbfCycle-textbf一貫性を提案する。
CCQAは、サイクル一貫性に着想を得て、各推論経路から質問を生成し、それぞれが元の質問と類似度で評価し、次に、最も類似度の高い候補解を最終応答として選択する。
CCQAは数学および常識推論ベンチマークにおいて8つのモデルで既存の最先端(SOTA)手法を一貫して上回っていることが確認された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:01:03 GMT)
MoiréNet: A Compact Dual-Domain Network for Image Demoiréing [15.0] モワールパターンは、ディスプレイピクセル格子とカメラセンサーグリッドの間のスペクトルエイリアスから生じる。
本稿では,周波数領域と空間領域の機能を統合した畳み込み型ニューラルネットワークによる人工物除去フレームワークであるMoir'eNetを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:33:23 GMT)
VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction [14.9] VIR-Benchは200本の旅行ビデオからなるベンチマークで、反復的な再構築を困難な課題とする。
実験結果から,プロプライエタリなMLLMを含む最先端のMLLMは高いスコア獲得に苦慮していることが明らかとなった。
我々は、旅行計画エージェントのプロトタイプを開発するための詳細なケーススタディを実施している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:46:31 GMT)
PIGDreamer: Privileged Information Guided World Models for Safe Partially Observable Reinforcement Learning [14.9] 安全強化学習(Safe RL)における部分的可観測性の重要性
エージェントの安全性と性能を高めるために特権情報を活用するモデルベースRLアプローチを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:15:02 GMT)
Anything Goes? A Crosslinguistic Study of (Im)possible Language Learning in LMs [14.8] 言語モデルをトレーニングして、不可能で、タイプミス的に証明されていない言語をモデル化します。
以上の結果から, GPT-2 の小型化により, 検証対象言語と不可能言語との完全分離が達成できないことが明らかとなった。
これらの結果は、LMは人間のような誘導バイアスを示すが、これらのバイアスは人間の学習者よりも弱いことを示唆している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:08:44 GMT)
MedEBench: Diagnosing Reliability in Text-Guided Medical Image Editing [14.7] MedEBenchはテキスト誘導医療画像編集における信頼性の診断を目的としたベンチマークである。
MedEBenchは、70の異なる編集タスクと13の解剖学的領域を含む、1,182の臨床試験済みイメージプロンプトペアで構成されている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:05:28 GMT)
DRISHTIKON: A Multimodal Multilingual Benchmark for Testing Language Models' Understanding on Indian Culture [14.7] DRISHTIKON(DRISHTIKON)は、インド文化を中心としたマルチモーダルおよび多言語ベンチマークである。
このデータセットは、祭り、服装、料理、芸術形式、歴史遺産を含む豊かな文化的テーマを捉えている。
我々は、オープンソースの小型・大規模モデル、プロプライエタリシステム、推論特化VLM、インデックスにフォーカスしたモデルなど、幅広い視覚言語モデル(VLM)を評価する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:40:43 GMT)
WaveFormer: A Lightweight Transformer Model for sEMG-based Gesture Recognition [14.1] WaveFormerは、sEMGジェスチャー認識用に設計された軽量トランスフォーマーベースのアーキテクチャである。
我々のモデルは、新しい学習可能なウェーブレット変換によって時間領域と周波数領域の機能を統合し、特徴抽出を強化する。
たった3100万のパラメータで、WaveFormerはEPN612データセットの95%の分類精度を達成し、より大きなモデルを上回っている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:06:09 GMT)
Benchmarking Quantum and Classical Sequential Models for Urban Telecommunication Forecasting [14.1] 我々は、古典的および量子的インスパイアされたシーケンシャルモデルの性能を、受信したSMSのアクティビティを予測するために評価する。
以上の結果から,異なるモデルが配列長に対して様々な感度を示すことが示唆され,量子的拡張が普遍的に有利ではないことが示唆された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:27:39 GMT)
A Kernel Space-based Multidimensional Sparse Model for Dynamic PET Image Denoising [14.0] ディープ・ラーニングは 幅広い医療画像に役立ちます
近年の研究では、ディープ・ラーニングは幅広い医療画像認知タスクにおいて有用であることが示されている。
動的PET画像のデノゲーションのためのモデルベースニューラルネットワークを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:48:36 GMT)
AnySafe: Adapting Latent Safety Filters at Runtime via Safety Constraint Parameterization in the Latent Space [14.0] 本研究では,実行時にユーザ指定の安全制約に適応できる制約パラメータ付き潜時安全フィルタを提案する。
我々のキーとなる考え方は、遅延空間類似度尺度を用いて、制約を表す画像のエンコーディングを条件付けすることで、安全制約を定義することである。
本手法は,ユーザの指定した制約画像の符号化を条件に実行時に適応し,性能を犠牲にすることなく適用する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:28:04 GMT)
Analyzing Uncertainty of LLM-as-a-Judge: Interval Evaluations with Conformal Prediction [14.0] 本研究は,LLMに基づくスコアリングの予測間隔を共形予測によって提供することにより,不確実性を分析するための最初の枠組みを示す。
我々は,共形予測がカバレッジ保証付きで有効な予測間隔を提供できることを示す広範な実験と分析を行う。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:26:28 GMT)
Beyond the Leaderboard: Understanding Performance Disparities in Large Language Models via Model Diffing [13.9] モデル差分法を用いて, Gemma-2-9b-it と SimPO-enhanced の差分を解析する。
クロスコーダを用いて、2つのモデルを区別する潜在表現を特定し分類する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:35:58 GMT)
Category-Level Object Shape and Pose Estimation in Less Than a Millisecond [13.8] 形状とポーズ推定のための高速局所解法を提案する。
学習したフロントエンドを使用して、ターゲットオブジェクト上のスパースなカテゴリレベルのセマンティックキーポイントを検出する。
解法器の1イテレーションはおよそ100マイクロ秒で動作し、高速な外れ値の拒絶を可能にする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:29:32 GMT)
Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning [13.8] 本稿では,画像解析とテキスト推論を組み合わせたマルチモーダル医療基盤モデルであるCitrus-Vを紹介する。
このモデルは、検出、セグメンテーション、およびマルチモーダル・チェーン・オブ・シント推論を統合する。
ピクセルレベルの病変の局所化、構造化レポート生成、医師のような診断推論をサポートする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:42:31 GMT)
When and How Long Did Therapy Happen? Soft-Supervising Temporal Localization Using Audio-Language Models [13.8] 本稿では,セッション音声やテキストから直接,その開始時刻と停止時刻を識別し,鍵PE忠実度要素の自動時間的局所化手法を提案する。
我々のアプローチは、Low-Rank Adaptation (LoRA) を用いて、学習済みの大規模なオーディオ保存モデル Qwen2-Audio を微調整し、30秒間の音声書き起こし入力を処理する。
この研究は、PE療法における忠実度追跡のためのプライバシ言語でスケーラブルなフレームワークを導入し、臨床医のトレーニング、監督、品質保証をサポートする可能性がある。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:08:57 GMT)
Fine-Tuning is Subgraph Search: A New Lens on Learning Dynamics [13.6] 学習の背後にあるメカニズムを分析するための微調整法を開発した。
固有次元の概念に触発されて、特定のタスクに対する冗長性を持つ計算グラフとしてモデルを考察する。
本稿では,特定のタスクのサブグラフを反復的に構築し,関連するパラメータを一様に更新するアルゴリズムであるサーキットチューニングを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:07:40 GMT)
MER-Inspector: Assessing model extraction risks from an attack-agnostic perspective [13.5] モデル抽出攻撃(MEA)として知られるモデル関数リークの理論について検討する。
本稿では,モデル抽出リスクインスペクタ(MER-Inspector)というフレームワークを提案する。
提案した指標はモデル抽出リスクと高い相関を持ち、MER-Inspectorは2つのモデルの抽出リスクを89.58%まで正確に比較することができる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:57:57 GMT)
VGGT-DP: Generalizable Robot Control via Vision Foundation Models [13.4] VGGT-DPは、事前学習された3次元知覚モデルから幾何的先入観を受容的フィードバックと統合するビジュモータ・ポリシー・フレームワークである。
我々は,視覚的エンコーダとしてVGGT(Visual Geometry Grounded Transformer)を採用し,視覚的知覚と内部ロボットの状態との整合性を実現するために,プロプリセプション誘導型視覚学習戦略を導入する。
挑戦的なMetaWorldタスクの実験では、VGGT-DPはDPやDP3のような強力なベースライン、特に精度クリティカルで長期のシナリオにおいて著しく優れていた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:15:30 GMT)
Text Slider: Efficient and Plug-and-Play Continuous Concept Control for Image/Video Synthesis via LoRA Adapters [13.4] Text Sliderは、視覚概念を継続的に制御するための軽量で効率的でプラグアンドプレイのフレームワークである。
事前訓練されたテキストエンコーダ内の低ランク方向を識別し、視覚概念の連続的な制御を可能にする。
マルチコンセプト合成と連続制御をサポートし、画像合成とビデオ合成の両方において微細で柔軟な操作を可能にする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:17:18 GMT)
Linguistic Neuron Overlap Patterns to Facilitate Cross-lingual Transfer on Low-resource Languages [13.1] ゼロショットの言語間インコンテキスト学習を改善するために,BridgeX-ICLというシンプルで効果的な手法を提案する。
言語固有のニューロンに焦点を当てた既存の研究とは異なり、BridgeX-ICLは、共有ニューロンが言語間性能を向上させるかどうかを探求している。
重なり合うニューロンに基づいて、LLMの内部言語スペクトルを定量化し、最適な橋梁選択を導くためのHSICに基づく計量法を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:02:49 GMT)
Gaussian Herding across Pens: An Optimal Transport Perspective on Global Gaussian Reduction for 3DGS [13.0] 3DGSは、放射場レンダリングの強力な技術として登場したが、通常は数百万の冗長なガウスプリミティブを必要とする。
本稿では,グローバルなガウス混合還元として3DGSのコンパクト化を推し進める,新しい最適輸送視点を提案する。
本手法は,バニラおよび加速3DGSパイプラインの任意の段階に適用可能であり,軽量なニューラルレンダリングへの効率的かつ非依存的な経路を提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:35:58 GMT)
CPCLDETECTOR: Knowledge Enhancement and Alignment Selection for Chinese Patronizing and Condescending Language Detection [12.8] 中国語愛国語(英語: Chinese Patronizing and Condescending Language、CPLC)は、中国のビデオプラットフォーム上で脆弱なグループをターゲットにした、暗黙の差別的な有毒なスピーチである。
既存のデータセットには、ビデオコンテンツを直接反映するユーザコメントがない。
本研究は,103kのコメントエントリを含む新しいデータセットPCLMMPLUSを再構成し,データセットサイズを拡大する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:38:49 GMT)
Adaptive von Mises-Fisher Likelihood Loss for Supervised Deep Time Series Hashing [12.8] 近年,深層学習に基づくハッシュ法は,意味的意味に基づく時系列の索引付けに有効であることが証明されている。
本稿では,情報損失を低減するため,von Mises-Fisherハッシュ損失を提案する。
実験の結果,本手法は既存のベースラインよりも優れていた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 22:34:25 GMT)
GSTM-HMU: Generative Spatio-Temporal Modeling for Human Mobility Understanding [12.8] 本稿では,移動分析を前進させるための時間的時間的生成フレームワークであるGSTM-HMUを紹介する。
Gowalla、WeePlace、Brightkite、FourSquareなど、広く使われている4つの実世界のデータセットの実験を行います。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:20:38 GMT)
RealitySummary: Exploring On-Demand Mixed Reality Text Summarization and Question Answering using Large Language Models [12.7] 大きな言語モデル(LLM)は、読み上げや要約の補助として人気を集めている。
日常的な読書をサポートするためにMR(Mixed Reality)インターフェースを統合する際に、その潜在的なメリットについてはほとんど知られていない。
我々は、常時オンのカメラアクセス、OCRベースのテキスト抽出、拡張空間および視覚応答とLLMをシームレスに統合するMR読み取りアシスタントであるRealSummaryを開発した。
私たちの経験的研究の結果は、常時オンの暗黙の補助、長期の時間的履歴、最小限のコンテキスト切替、空間的余裕など、AIとMRを組み合わせるというユニークな利点を浮き彫りにしている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:21:29 GMT)
Observation of topological Phenomena in a Weyl Exceptional Ring with Single Photons [12.7] 我々は、量子系における正確な位相制御の実験的課題を克服するために、単一光子干渉法を用いる。
三次元パラメータ空間における非エルミート力学の測定により、系の固有状態を決定する。
我々の研究は、トポロジカル非エルミート系のさらなる探索の道を開く。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:38:58 GMT)
Patterns in the Transition From Founder-Leadership to Community Governance of Open Source [12.5] 637のGitHubリポジトリを分析して、創業者主導から共有ガバナンスへの移行をトレースします。
役割と行動が成長し、規制がよりバランスを取ります。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:30:24 GMT)
AECBench: A Hierarchical Benchmark for Knowledge Evaluation of Large Language Models in the AEC Field [12.5] 大規模言語モデル(LLM)は、アーキテクチャ、エンジニアリング、建設(AEC)分野において採用が増えている。
本稿では,AEC領域における現在のLLMの強度と限界を定量化するベンチマークであるAECBenchを確立する。
ベンチマークでは、23の代表的なタスクを5段階の認知指向評価フレームワークで定義している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:09:58 GMT)
JL1-CD: A New Benchmark for Remote Sensing Change Detection and a Robust Multi-Teacher Knowledge Distillation Framework [12.4] リモートセンシング画像における変化検出は、地球観測において重要な役割を果たす。
5000枚の画像対からなる大規模サブメートルCDデータセットであるJL1-CDを紹介する。
我々は,O-P(Origin-Partition)戦略を新たに提案し,CD性能を高めるために,MTKD(Multi-Teacher Knowledge Distillation)フレームワークに統合する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 10:25:20 GMT)
Gender and Political Bias in Large Language Models: A Demonstration Platform [12.2] ParlAI Voteは欧州議会で議論や投票を行うための対話的なシステムである。
性別、年齢、国、政治的グループなどの人口統計が豊富である。
ユーザーは討論を閲覧したり、リンクされたスピーチを検査したり、実際の投票結果とフロンティアのLSMの予測を比較することができる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:43:30 GMT)
Localized LoRA: A Structured Low-Rank Approximation for Efficient Fine-Tuning [12.2] 局所化LoRAは、重み行列の構造ブロックに適用された低ランク近似の合成として重み更新をモデル化するフレームワークである。
提案手法は,一致したパラメータの予算下での低い近似誤差を連続的に達成することを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:56:10 GMT)
An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications [12.2] ファンデーションモデル(FM)ベースのAIエージェントは、さまざまなドメインで急速に採用されている。
その固有の非決定主義と非再現性は、テストと品質保証の課題を引き起こす。
AIエージェントエコシステムにおけるテストプラクティスの大規模な実証的研究を初めて実施する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:02:09 GMT)
Language Models Fail to Introspect About Their Knowledge of Language [12.1] 大規模言語モデル (LLM) が内部状態を検査できるかどうかを検討する。
モデルがメタ言語的刺激に対する応答を、内部知識を忠実に反映しているかどうかを評価する。
メタ言語的プロンプトと確率比較は高いタスク精度をもたらすが、LLMが「自己アクセス」を特権化している証拠は見つからない。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:42:02 GMT)
Discovery of Sustainable Refrigerants through Physics-Informed RL Fine-Tuning of Sequence Models [12.0] Refgenは、機械学習と物理地上の帰納バイアスを統合する生成パイプラインである。
本稿では、機械学習と物理基底の帰納バイアスを統合した生成パイプラインであるRefgenを紹介する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:24:35 GMT)
EngravingGNN: A Hybrid Graph Neural Network for End-to-End Piano Score Engraving [11.9] 本稿では,ピアノ音楽と量子化記号入力を対象とする統一グラフニューラルネットワーク(GNN)フレームワークを提案する。
提案手法では,複数タスクのGNNを用いて音声接続,スタッフ割り当て,ピッチスペル,キーシグネチャ,ステム方向,オクターブシフト,サインを共同で予測する。
専用の後処理パイプラインは、印刷可能なMusicXML/MEI出力を生成する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:48:35 GMT)
Why Speech Deepfake Detectors Won't Generalize: The Limits of Detection in an Open World [11.2] 音声ディープフェイク検出器は、しばしばクリーンでベンチマークスタイルの条件で評価される。
しかしデプロイメントは、デバイスのシフト、サンプリング率、コーデック、環境、攻撃家族といったオープンな世界で発生します。
これにより、AIベースの検出器に対する"カバレッジ負債"が発生し、収集可能なデータよりも高速に成長するデータ盲点が生成される。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:27:04 GMT)
TUN3D: Towards Real-World Scene Understanding from Unposed Images [11.2] TUN3Dは、実際のスキャンにおいて、関節配置推定と3次元物体検出に対処する新しい手法である。
地上カメラのポーズや深度監視は必要ない。
3つの挑戦的なシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:24:07 GMT)
SSCM: A Spatial-Semantic Consistent Model for Multi-Contrast MRI Super-Resolution [11.2] MC-MRI SRは、高分解能(HR)参照を活用することで、低分解能(LR)コントラストを強化することを目的としている。
主な課題は、空間的なセマンティックな一貫性を維持することである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:24:32 GMT)
DTW-Align: Bridging the Modality Gap in End-to-End Speech Translation with Dynamic Time Warping Alignment [11.2] エンド・ツー・エンド音声翻訳(End-to-End Speech Translation, E2E-ST)は、ソース音声を中間転写ステップをバイパスしてターゲットテキストに直接翻訳するタスクである。
我々は、トレーニング中に音声とテキストの埋め込みを調整するために動的時間ワープ(DTW)を適用した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:37:15 GMT)
MAGIC: Multi-task Gaussian process for joint imputation and classification in healthcare time series [10.7] 医療アプリケーションにおける患者の診断と管理を改善する重要なツールとして時系列分析が登場している。
従来のアプローチでは、計算の2段階のプロセスを経てこれらの問題に対処し、予測を行う。
本稿では,クラスインフォームド不足値計算とラベル予測を同時に行う新しい統一フレームワークMAGICを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:02:39 GMT)
Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions [10.6] 現在の自己回帰のプラクティスは、プロンプトや一方的な推論に依存しています。
提案する構造的リフレクションは, エラーから修復までの経路を明示的で制御可能な, 訓練可能な動作に変換する。
BFCL v3とTool-Reflection-Benchの実験では、マルチターンツールコールの成功とエラー回復、冗長呼び出しの削減が大幅に向上した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:35:49 GMT)
Single-Branch Network Architectures to Close the Modality Gap in Multimodal Recommendation [10.0] 我々は、ウェイトシェアリング、モダリティサンプリング、コントラスト損失を備えたシングルブランチニューラルネットワークを用いて、正確なレコメンデーションを提供する。
これらのネットワークをマルチブランチの代替品と比較し、3つのデータセットに対して広範な実験を行う。
以上の結果から,シングルブランチネットワークはウォームスタートシナリオにおいて競争性能が向上し,モダリティ設定の欠如が著しく改善された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:58:53 GMT)
Seeing is Not Understanding: A Benchmark on Perception-Cognition Disparities in Large Language Models [9.9] EmoBench-Redditは、マルチモーダル感情理解のための新しい階層型ベンチマークである。
データセットは、ソーシャルメディアプラットフォームRedditから350の精巧にキュレートされたサンプルで構成されている。
各データポイントには6つの複数選択の質問と、困難を増すための1つのオープンな質問がある。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:12:08 GMT)
Theoretical Foundations of Representation Learning using Unlabeled Data: Statistics and Optimization [9.7] ラベルのないデータからの表現学習は、統計学、データサイエンス、信号処理において広く研究されている。
現在のディープラーニングモデルは、古典理論では容易には分析できない教師なし表現学習の新しい原則を使用している。
ヴィジュアルファウンデーションモデルは、セルフスーパービジョンやデノイング/マスケインオートエンコーダを使って素晴らしい成功を収めています。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:45:11 GMT)
MemOrb: A Plug-and-Play Verbal-Reinforcement Memory Layer for E-Commerce Customer Service [9.6] 大規模言語モデルベースのエージェントは、顧客サービスにますますデプロイされています。
セッションを横切ることを忘れたり、エラーを繰り返したり、継続的な自己改善のメカニズムを欠いていることが多い。
MemOrbは、マルチターン相互作用をコンパクトな戦略反射に蒸留する軽量な言語強化記憶層である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:57:07 GMT)
Retrieval Augmented Generation based context discovery for ASR [9.6] 本研究は,ASRにおける文脈自動探索のための効率的な埋め込み型検索手法を提案する。
TED-Liumv3、Earnings21、SPGISpeechの実験では、提案手法がWERを最大17%削減することを示した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:47:15 GMT)
Mitigating Hallucination in Large Vision-Language Models through Aligning Attention Distribution to Information Flow [9.6] LVLM(Large Vision-Language Models)は同じアーキテクチャに従っており、視覚情報は徐々に意味表現に統合される。
我々は,モデルの注意分布が意味表現に十分に重点を置いていないことを観察する。
このミスアライメントはモデルの視覚的理解能力を損なうものであり、幻覚に寄与する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:23:21 GMT)
Memorization or Reasoning? Exploring the Idiom Understanding of LLMs [9.1] MIDASは6つの言語におけるイディオムの大規模なデータセットであり、それぞれが対応する意味と組み合わせられている。
以上の結果から,LLMは暗記だけでなく,文脈的手がかりと推論を統合したハイブリッドアプローチも採用していることが示唆された。
このことは、LLMにおける慣用的理解が、内部知識検索と推論に基づく推論の相互作用から生まれることを意味する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:17:12 GMT)
Towards Interpretable and Efficient Attention: Compressing All by Contracting a Few [9.0] 両問題を同時に緩和するための統一最適化目標を提案する。
目的に対して最適化をアンロールすることにより、本質的に解釈可能で効率的な注意機構を導出する。
実験では、いくつかの視覚的タスクにおけるCBSAの同等のパフォーマンスと、さらに優れたアドバンテージが示される。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:26:12 GMT)
Learning Dynamics of Deep Learning -- Force Analysis of Deep Neural Networks [9.0] この論文は、力分析にインスパイアされたアイデアを使用して、ディープラーニングモデルが時間の経過とともにどのように学習するかを探求する。
モデルのトレーニング手順を拡大して、学習中にあるトレーニング例が他のトレーニングにどのように影響するかを確認します。
このフレームワークは、異なる実システムにおけるモデルの幅広い振る舞いを理解するのに役立ちます。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:27:19 GMT)
Are We Scaling the Right Thing? A System Perspective on Test-Time Scaling [8.9] テストタイムスケーリング(TTS)は、大規模言語モデル(LLM)の隠れた推論能力を活用するための有望な方向として登場した。
本稿では,TTSにおけるシステム駆動の視点として,遅延やコスト・パー・トークンといった実測値に対して,推論モデルがどのようにスケールするかを解析する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:52:07 GMT)
BAP v2: An Enhanced Task Framework for Instruction Following in Minecraft Dialogues [8.6] 我々は、Minecraft Collaborative Building Task(MCBT)におけるビルダーアクション予測(BAP)サブタスクに焦点を当てる。
BAPは、限られたトレーニングデータでマルチモーダルゲームコンテキストにおけるBの動作を予測する。
評価、トレーニングデータ、モデリングにおける重要な課題に対処するために、BAP v2を導入します。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:50:56 GMT)
Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion [8.5] State-of-The-Art (SoTA)イメージキャプションモデルは、しばしばMicroSoft Common Objects in Contextデータセットでトレーニングされる。
本稿では,異なるSoTAキャプションモデルから生成されたキャプションを組み合わせて,よりリッチで情報性の高いキャプションを生成する手法を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:12:45 GMT)
A decentralized future for the open-science databases [8.5] 科学資源を単一の地政学または制度的なハブに集中させることは本質的に危険である。
本稿では、弾力性、FAIR、持続可能な科学データ管理のためのハイブリッドフレームワークを提案する。
オープンサイエンスの未来は、グローバルに分散し、経済的に持続可能で、制度的に堅牢なインフラを確立するためにこれらのアプローチを統合することに依存している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:28:21 GMT)
Error Bound Analysis for the Regularized Loss of Deep Linear Neural Networks [8.5] 本研究では,深部線形ネットワークの正則化二乗損失の局所的幾何学的景観について検討する。
ネットワーク幅と正規化パラメータの緩やかな条件下での正規化損失に対する誤差を確定する。
理論的な結果を支持するため,数値実験を行い,勾配勾配が臨界点に線形に収束することを実証した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:15:36 GMT)
Estimating Heterogeneous Causal Effect on Networks via Orthogonal Learning [8.5] ネットワーク上の因果効果を推定することは、科学的研究と実践的応用にとって重要である。
ネットワーク上での不均一な直接的および余剰な効果を推定する2段階の手法を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 00:41:04 GMT)
Diagonal Linear Networks and the Lasso Regularization Path [8.4] 対角線ネットワークの完全なトレーニング軌跡は,ラッソ正規化経路と密接に関連していることを示す。
ラッソ正規化経路上の単調性仮定の下では、接続は正確であるが、一般の場合、近似接続を示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:59:25 GMT)
From latent factors to language: a user study on LLM-generated explanations for an inherently interpretable matrix-based recommender system [8.3] 大規模言語モデル(LLM)が数学的に解釈可能なレコメンデーションモデルから,効果的なユーザ向け説明を生成できるかどうかを検討する。
本研究は,5次元にわたる説明の質を評価する326人の被験者を対象に実施した。
分析の結果、全ての説明型は概ね好意的であり、戦略間の統計的差異は緩やかであることがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:30:03 GMT)
3D-ADAM: A Dataset for 3D Anomaly Detection in Additive Manufacturing [8.3] 3D-ADAMは、添加物製造においてRGB+3D表面欠陥検出のための最初の大規模産業関連データセットである。
3D-ADAMは、14,120個の高分解能スキャン、217個のユニークなパーツで構成され、4つの産業用深度センサーで撮影されている。
12のカテゴリにまたがる27,346のアノテート欠陥と16のクラスにおけるマシンエレメント機能の27,346のアノテーションが含まれている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:58:35 GMT)
Learning When to Restart: Nonstationary Newsvendor from Uncensored to Censored Demand [8.2] 非定常ニューズベンダー問題を非パラメトリック需要モデルと非定常性の一般分布尺度に基づいて検討する。
非定常環境における学習のための新しい分布検出・再起動フレームワークを提案する。
我々のフレームワークは、非定常性の下での意思決定に実用的で、容易にデプロイでき、理論的に基礎づけられたソリューションを提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:46:37 GMT)
Frustratingly Easy Data Augmentation for Low-Resource ASR [8.2] 音声認識のための自己完結型データ拡張手法を3つ導入する。
我々はこれらの手法を極めて限られたリソースを持つ4つの言語に適用する。
トレーニング済みのWav2Vec2-XLSR-53モデルをオリジナルオーディオと生成された合成データの組み合わせで微調整すると、性能が大幅に向上する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:14:37 GMT)
Uncertainty in Semantic Language Modeling with PIXELS [8.2] この研究は18言語と7つのスクリプトにわたる画素ベースの言語モデルに対する不確実性と信頼性の分析から成っている。
その結果,画素ベースモデルではパッチ再構築時の不確実性を過小評価することが示唆された。
この不確実性は、ラテン文字の影響も受けており、不確実性は低い。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:43:50 GMT)
Memory in Large Language Models: Mechanisms, Evaluation and Evolution [8.2] 我々は,4つの分類法(パラメトリック,文脈,外部,手続き/エピソード)とメモリ四倍法(ロケーション,永続性,書き込み/アクセスパス,制御性)を提案する。
DMM Gov: DAPT/TAPT, PEFT, モデル編集(ROME, MEND, MEMIT, SERAC)、RAGをコーディネートして監査可能なループを形成する。
これにより、再現可能で、同等で、統制可能な、研究と展開のための座標系が得られる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 10:06:58 GMT)
Training-Free Data Assimilation with GenCast [8.2] 本研究では,力学系をエミュレートするために事前学習した拡散モデルを用いて,データ同化を行う軽量で汎用的な手法を提案する。
本手法は,データ同化アルゴリズムのクラスである粒子フィルタ上に構築されており,それ以上の訓練は不要である。
我々は,グローバルアンサンブル天気予報を生成する拡散モデルであるGenCastの方法論について述べる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:59:44 GMT)
ToMA: Token Merge with Attention for Diffusion Models [8.1] 拡散モデルは高忠実度画像生成において優れるが、トランスフォーマーの二次的注意複雑さによる拡張性に限界がある。
本稿では,GPU整列効率のトークン削減を否定する市販のToMA(Token Merge with Attention)を提案する。
ToMAはSDXL/Flux生成遅延を24%/23%削減する(DINO $Delta 0.07$)。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:10:29 GMT)
Robust Computer-Vision based Construction Site Detection for Assistive-Technology Applications [8.0] 建設ゾーンは、不均一な表面、障壁、有害物質、過度の騒音、変更ルートなどの危険を導入する。
既存のハザード検出システムは、建設現場の視覚的変動に苦慮している。
3つのモジュールを統合したコンピュータビジョンに基づく補助システムを開発した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:28:45 GMT)
Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action [8.0] オープンな自然言語クエリの実行は、ロボティクスにおける中核的な問題である。
本稿では,先進的なセマンティクス,空間,アベイランスに基づくクエリ機能を活用したエージェントフレームワークであるAgenic Scene Policies(ASP)を提案する。
ASP.NETは、オブジェクトの余裕を明示的に推論することで、ゼロショットでオープン語彙クエリを実行することができる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:56:00 GMT)
Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference [7.8] 大規模言語モデル(LLM)は、テキストリッチなグラフ機械学習タスクにますます利用されている。
関心の高まりにもかかわらず、この分野はグラフデータとの相互作用におけるLLMの能力の原則的な理解を欠いている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 00:46:21 GMT)
Automated Generation of Research Workflows from Academic Papers: A Full-text Mining Framework [7.7] 本稿では,全文学術論文をマイニングすることで総合的かつ構造化された研究論文を生成するエンドツーエンドフレームワークを提案する。
我々はFlan-T5を用いて、段落からワークフローフレーズを生成し、それぞれ0.4543、0.2877、0.4427のROUGE-1、ROUGE-2、ROUGELスコアを得る。
このアプローチは、データ分析の強調や、機能工学からアブレーション研究への移行など、過去20年間の重要な方法論的変化を明らかにしている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:57:23 GMT)
Is Reuse All You Need? A Systematic Comparison of Regular Expression Composition Strategies [7.3] 合成は一般的ですが 難しいエンジニアリング活動です
開発者はソースから既存のコンポジションを一般的に再利用する。
現在までに、これらの様々な構成戦略と比較する作業は行われていない。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:41:04 GMT)
Identities are not Interchangeable: The Problem of Overgeneralization in Fair Machine Learning [7.2] 我々は、機械学習が、しばしば差別が発生する識別軸と交換可能なものとして扱われていることを考察する。
言い換えれば、人種差別は性差別、能力主義、年齢主義と同じ方法で測定され緩和される。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:42:42 GMT)
Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer [7.2] 我々は、変圧器モデルを等価な専門家グループに分解するUnion-of-Experts (UoE)を提案する。
言語モデリングタスクでは、最高の性能のMoE法と比較して、UoEはパープレキシティの平均2.38の削減を実現している。
画像分類では、最高のモデルよりも平均精度が1.75%向上する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:09:46 GMT)
Chiseling: Powerful and Valid Subgroup Selection via Interactive Machine Learning [7.2] 回帰と因果推論において、制御されたサブグループ選択は、与えられた閾値を超える平均応答または治療効果を持つサブグループを特定することを目的としている。
そこで本研究では,解析者が反復的に縮小することで,候補サブグループをインタラクティブに洗練し,検証することを可能にする,Chiselingと呼ばれる新しいフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:52:05 GMT)
CNS-Obsidian: A Neurosurgical Vision-Language Model Built From Scientific Publications [7.1] 汎用視覚言語モデル(VLM)は印象的な能力を示すが、未処理のインターネットデータに対する不透明なトレーニングは、高い意思決定に限界をもたらす。
CNS-Obsidianは、ピアレビューされた神経外科文献に基づいて訓練された神経外科的VLMである。
GPT-4oを実世界の環境で比較検討した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:03:10 GMT)
Confidence Calibration in Large Language Model-Based Entity Matching [7.0] 温度スケーリング,モンテカルロ・ドロップアウト,アンサンブルを用いて調整した信頼度に対して,エンティティマッチングタスクのベースラインRoBERTa信頼度を比較した。
この結果から,提案したRoBERTaモデルでは,予測誤差スコアが0.0043から0.0552の範囲でわずかに過信感を示すことがわかった。
この過信は温度スケーリングによって緩和でき、期待されるエラースコアを最大23.83%削減できる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:29:10 GMT)
Clotho: Measuring Task-Specific Pre-Generation Test Adequacy for LLM Inputs [6.9] 特定のタスクで大規模言語モデルをテストするのは難しくてコストがかかります。
重要な課題は、タスクの要求を反映した方法で入力精度を評価することである。
タスク固有のプレジェネレーションアプライバシ尺度であるCLOTHOを導入する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:15:16 GMT)
Fine-tuning of diffusion models via stochastic control: entropy regularization and beyond [6.8] 本稿では,連続時間拡散モデルにおけるエントロピー正規化微調整問題に対する厳密な対処法を開発し,提供することを目的とする。
一般の$f$-divergence regularizerを用いて解析を微調整に拡張する方法を示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:13:36 GMT)
Explainable artificial intelligence (XAI) for scaling: An application for deducing hydrologic connectivity at watershed scale [6.8] 我々は,XAI法をポイントスケールで適用し,水理応答のクロススケールアグリゲーションに利用できることを示した。
以上の結果から,XAIによる分類は,流域域における機能的役割の差異を効果的に識別できることが示唆された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:57:32 GMT)
DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions [6.7] 本研究では,現在の状態,行動,帰路を条件に,将来の状態逆トラジェクトリを生成する拡散型世界モデルを提案する。
我々は、TD3BCやIQLのような保守的なオフラインRLアルゴリズムは、これらの拡張軌道のトレーニングから大きな恩恵を受けることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:06:26 GMT)
Online Regularized Statistical Learning in Reproducing Kernel Hilbert Space With Non-Stationary Data [6.7] 本研究では,オンラインデータストリームに依存しないカーネル空間における再帰正規化学習アルゴリズムの収束性について検討する。
独立および非独立に分散されたデータストリームに対して、アルゴリズムは、入力データの限界確率測度が徐々に時間変化している場合、平均二乗整合を達成する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:21:41 GMT)
Testing Fairness with Utility Tradeoffs: A Wasserstein Projection Approach [6.4] 本稿では,近似的公正性と有効性を共同で評価する統計的仮説テストフレームワークを提案する。
当社のフレームワークは,人口統計学の同等性基準に基づいて構築され,潜在的成果フレームワークに動機づけられた実用性尺度が組み込まれている。
このテストは、計算可能で、解釈可能で、機械学習モデルに広く適用でき、より一般的な設定に拡張可能であることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:40:07 GMT)
LLM-based Vulnerability Discovery through the Lens of Code Metrics [6.3] 大規模言語モデル(LLM)は、ソフトウェア工学の多くのタスクに優れています。
脆弱性発見に活用する進歩は 近年 停滞しています。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:03:05 GMT)
Score the Steps, Not Just the Goal: VLM-Based Subgoal Evaluation for Robotic Manipulation [6.3] コストを意識したプラグイン評価フレームワークであるStepEvalの青写真を提案する。
私たちの貢献は、スケーラブルでコミュニティ主導のオープンソースプロジェクトの設計原則を概説することにあります。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:42:14 GMT)
Security smells in infrastructure as code: a taxonomy update beyond the seven sins [6.2] 現代的なソフトウェア管理には、インフラストラクチャ・アズ・コード(IaC)が不可欠になっています。
IaCスクリプトのセキュリティ欠陥は深刻な結果をもたらす可能性がある。
以前の研究は、IaCスクリプトでセキュリティの臭いを正確に分類する必要性を認識していた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:55:35 GMT)
In silico Deep Learning Protocols for Label-Free Super-Resolution Microscopy: A Comparative Study of Network Architectures and SNR Dependence [6.2] 光学顕微鏡学者によってしばしば引用される重要な制限は、横方向の分解能の限界を指す。
本研究は,超高分解能(SR)光学顕微鏡の実現に向けた代替的,経済的アプローチを評価することを目的とする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:32:40 GMT)
Asymptotically Optimal Problem-Dependent Bandit Policies for Transfer Learning [6.1] 移動学習環境における非文脈的マルチアームバンディット問題について検討する。
KL-UCB-Transferは、ガウスの場合のこの新しい境界に一致する単純なインデックスポリシーである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:47:42 GMT)
Training Flow Matching Models with Reliable Labels via Self-Purification [6.1] 本稿では,フローマッチングフレームワーク内で信頼できないデータをフィルタリングする手法として,SPFM(Self-Purifying Flow Matching)を提案する。
SPFMは、トレーニングプロセス中にモデル自体を使用して不審なデータを識別し、事前訓練されたモデルや追加モジュールの必要性を回避します。
実験の結果,SPFMでトレーニングしたモデルでは,ノイズラベルでトレーニングした場合でも,特定条件に正確に準拠するサンプルが生成されることがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:43:27 GMT)
Detection of security smells in IaC scripts through semantics-aware code and language processing [5.9] Infrastructure as Code(IaC)は、スクリプトやツールを通じてITインフラストラクチャのプロビジョニングと管理を自動化する。
以前の研究では、IaCスクリプトは頻繁にセキュリティの誤設定を含むことが示されている。
本稿では,自然言語とコード表現を協調的に活用することにより,意味理解による静的解析を強化する新しい手法を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:28:49 GMT)
An Information-Flow Perspective on Explainability Requirements: Specification and Verification [5.8] 説明可能なシステムは、それらと相互作用するエージェントに観察された影響が起こっている理由に関する情報を公開する。
これは、例えばプライバシー保証に違反する可能性のある負の情報フローに対して、特定、検証、バランスをとる必要がある情報の正のフローを構成する。
本稿では、この原理をシステムレベルの要件として説明可能性を指定するために利用し、そのような仕様に対して有限状態モデルをチェックするアルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:27:05 GMT)
Evaluation Framework of Superpixel Methods with a Global Regularity Measure [5.7] 本稿では,スーパーピクセル法の比較プロセスを統一することを目的とした評価フレームワークを提案する。
我々は、最先端メトリクスの非破壊性に対処する新しいグローバル規則度尺度(GR)を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:36:10 GMT)
Enabling Plant Phenotyping in Weedy Environments using Multi-Modal Imagery via Synthetic and Generated Training Data [5.7] 我々は、作物と雑草の複雑な混合物を含む1,128個の合成画像のモデルを訓練した。
全合成画像といくつかのラベル付き実画像を組み合わせることで,雑草群では22%,植物群では17%の相対的改善が得られた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:29:13 GMT)
Toward a Realistic Encoding Model of Auditory Affective Understanding in the Brain [5.2] 感情神経科学と感情認識AIでは、複雑な聴覚刺激が感情の覚醒力学をいかに駆動するかを理解することは未解決のままである。
本研究では,脳の自然な聴覚入力を動的行動・神経応答にモデル化するための計算枠組みを提案する。
感情コンピューティングと神経科学を統合することで、この研究は聴覚-感情エンコーディングの階層的なメカニズムを明らかにする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:52:11 GMT)
Scalable bayesian shadow tomography for quantum property estimation with set transformers [5.1] 未知の量子状態のスカラー特性を計測データから推定するために,スケーラブルなベイズ機械学習フレームワークが導入された。
この研究は、古典的なシャドウプロトコルを置換不変集合変換器アーキテクチャと統合した最初のものである。
従来の影よりも平均二乗誤差が常に低くなり、コピー数では99%以上減少する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:46:26 GMT)
Backdoor Attack with Invisible Triggers Based on Model Architecture Modification [5.1] 従来のバックドア攻撃では、トレーニングデータに特定のトリガーで悪意のあるサンプルを注入する。
より高度な攻撃は、モデルのアーキテクチャを直接変更する。
本論文では、新たなバックドア攻撃方法を示す。
モデルアーキテクチャ内にバックドアを埋め込んで,目立たない,ステルス的なトリガを生成する機能を備えている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:27:14 GMT)
PainFormer: a Vision Foundation Model for Automatic Pain Assessment [5.1] 痛みは人口のかなりの割合に影響を与える多様体条件である。
本研究では,マルチタスク学習原理に基づく視覚基盤モデルPainFormerを紹介する。
PainFormerは様々な入力モードから高品質な埋め込みを効果的に抽出する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:18:00 GMT)
Petri Nets-based Methods on Automatically Detecting for Concurrency Bugs in Rust Programs [5.1] 本稿では,Rustのバグを効率よく,高精度に検出するペトリネット方式を提案する。
中心となるイノベーションは、Rustのオーナシップセマンティクスと同期プリミティブの厳格でコントロールフロー駆動のモデリングである。
LockBudと比較して、私たちのアプローチは偽陽性を35.7%、偽陰性を28.3%削減します。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 00:55:32 GMT)
Evaluating Language Translation Models by Playing Telephone [5.0] 異なる文書の長さとアプリケーションドメインの翻訳評価のためのトレーニングデータを生成する教師なし手法を提案する。
モデル回転と言語翻訳の両手法を用いて,機械的に生成したテキストに基づいて学習した評価システムの評価を行った。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 22:01:52 GMT)
A Fast Initialization Method for Neural Network Controllers: A Case Study of Image-based Visual Servoing Control for the multicopter Interception [5.0] 強化学習に基づくコントローラ設計法は、初期訓練段階でかなりのデータを必要とすることが多い。
安定なニューラルネットワークコントローラは、強化学習の初期ポリシーとして機能するだけでなく、学習ベースのリアプノフ制御方法の初期状態としても機能する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:56:59 GMT)
Extractive Fact Decomposition for Interpretable Natural Language Inference in one Forward Pass [5.0] JEDIは、原子の事実分解と解釈可能な推論を共同で行うエンコーダのみのアーキテクチャである。
学習を容易にするため、複数のNLIベンチマークをカバーする合成的合理性の大規模なコーパスを生成する。
本研究は, エンコーダのみのアーキテクチャと合成論理を用いて, NLIの解釈可能性とロバストな一般化を実現することができることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 11:30:42 GMT)
REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation [4.9] SGG(Scene Graph Generation)は、画像内のオブジェクト間の視覚的関係をグラフ構造としてエンコードする。
リアルタイムアプリケーションを実現するためには、SGGはパフォーマンスと推論速度のトレードオフに対処する必要がある。
本稿では,Real-time Effective and Accuracy Compromise for Tradeoffs in Scene Graph Generation (REACT)アーキテクチャを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:12:53 GMT)
Virtual Quantum Markov Chain of four-qubit systems [4.9] 我々は、仮想量子連鎖(VQMC)の枠組みをトリパーティイト系から4ビット設定に拡張する。
明示的な例では、4量子状態のW状態が回復チャネルを許容し、VQMCとして資格を持つことを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:55:16 GMT)
LD-ViCE: Latent Diffusion Model for Video Counterfactual Explanations [4.9] ビデオベースのAIシステムは、自律運転やヘルスケアといった安全クリティカルな領域にますます採用されている。
既存の説明手法は、時間的コヒーレンス、時間的コヒーレンス不足、行動可能な因果的洞察の欠如に悩まされることが多い。
ビデオベースAIモデルの振る舞いを説明するための新しいフレームワークであるLD-ViCE(Latent Diffusion for Video Counterfactual Explanations)を紹介する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:40:50 GMT)
Breaking Token Into Concepts: Exploring Extreme Compression in Token Representation Via Compositional Shared Semantics [4.8] 多様な意味的面を蓄積する構成構造により,トークンがより効果的に表現できるかどうかを検討する。
製品量子化(PQ)を利用した新しいアプローチであるAggregate Semantic Grouping(ASG)を提案する。
その結果,ASGによるトークンの合成により,埋め込みパラメータの極端な圧縮が達成された。
これらの結果は、トークンを共有セマンティックビルディングブロックの組み合わせとして効果的にモデル化できるという原則を検証する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:18:07 GMT)
One Subgoal at a Time: Zero-Shot Generalization to Arbitrary Linear Temporal Logic Requirements in Multi-Task Reinforcement Learning [4.8] 複雑で時間的に拡張されたタスク目標と安全制約への一般化は、強化学習(RL)における重要な課題である。
本稿では,任意の仕様に対してゼロショットの一般化を可能にするGenZ-LTLを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:38:52 GMT)
MediSyn: A Generalist Text-Guided Latent Diffusion Model For Diverse Medical Image Synthesis [4.7] 6つの専門医と10種類の画像から合成画像を生成することができるテキスト誘導潜在拡散モデルであるMediSynを紹介する。
本研究は,医学におけるアルゴリズム研究と開発を加速する一般画像生成モデルの可能性を明らかにするものである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:56:13 GMT)
Coreset selection based on Intra-class diversity [4.6] 近年の研究では、Deep Learningモデルをトレーニングするための2つの異なるアプローチが採用されている。
データセットのサイズが大きくなるにつれて、この問題に対する解決策を探究する研究コミュニティが最近注目を集めている。
そこで本研究では,クラス内の多様性を抽出し,最終サンプリングに利用したクラスごとのクラスタを生成する手法を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:45:53 GMT)
Bounded PCTL Model Checking of Large Language Model Outputs [4.6] 通常、テキスト生成時に選択されるトークンは限られた数だけであり、必ずしも同じとは限らない。
この洞察は、$alpha$-$k$-bounded text generationの作成を促進する。
検証方法は初期文字列とそれに続くトップ$k$トークンについて検討する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:19:37 GMT)
AHA - Predicting What Matters Next: Online Highlight Detection Without Looking Ahead [4.6] Ahaは、自然言語で記述されたタスクに対する各ビデオフレームの関連性を予測する自動回帰ハイライト検出フレームワークである。
Ahaはハイライト検出ベンチマークで最先端(SOTA)のパフォーマンスを達成する。
我々は、タスク指向の自然言語入力と連続ロボット中心のビデオが与えられた現実世界のロボティクスアプリケーションに対するAhaの可能性を探求する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 00:52:32 GMT)
Video Killed the Energy Budget: Characterizing the Latency and Power Regimes of Open Text-to-Video Models [4.5] 本稿では,最先端T2Vモデルのレイテンシとエネルギー消費に関する系統的研究を行う。
まず,空間分解能,時間長,分極ステップのスケーリング法則を予測する計算バウンド解析モデルを構築した。
次に、これらの予測をWAN2.1-T2Vの詳細な実験により検証し、空間的および時間的次元の2次成長とデノナイジングステップの数による線形スケーリングを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:47:03 GMT)
Do LLMs Encode Frame Semantics? Evidence from Frame Identification [4.5] 大規模言語モデルがフレームセマンティクスの潜在知識を符号化するかどうかを,フレーム識別に焦点をあてて検討する。
我々は,プロンプトベース推論に基づくモデルの評価を行い,明示的な監督なしにフレーム識別を効果的に行うことができることを示した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:09:32 GMT)
Injecting Explainability and Lightweight Design into Weakly Supervised Video Anomaly Detection Systems [4.3] 本稿では,知識蒸留とクロスモーダルコントラスト学習を活用したTCVADS(Two-stage Cross-modal Video Anomaly Detection System)を提案する。
実験結果から,TCVADSはモデル性能,検出効率,解釈可能性において既存手法よりも優れていた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 10:10:52 GMT)
On the Soundness and Consistency of LLM Agents for Executing Test Cases Written in Natural Language [4.3] グラフィカルユーザインタフェース(GUI)アプリケーションを検証するための自然言語(NL)テストケースの利用は、将来性のある方向として現れつつある。
大規模言語モデル(LLM)の最近の進歩は、LLMエージェントによるNLテストケースの直接実行の可能性を広げている。
本稿では,NLテストケースの不協和性とテストケース実行の整合性に与える影響について検討する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:20:40 GMT)
Lossless Postselected Quantum Metrology with Quasi-pure Mixed States [4.3] 擬似純粋構造は古典的なアンシラとの相関だけで普遍的に設計できることを示す。
本研究は,ポストセレクション手法をデコヒーレンスのあるシナリオに拡張し,量子情報幾何学における基礎的問題に対する新たな視点を提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:13:08 GMT)
WolBanking77: Wolof Banking Speech Intent Classification Dataset [4.3] 目的分類における学術研究のためのWolof Intent Classificationデータセット(WolBanking77)をリリースする。
WolBanking77は現在、銀行ドメインに9,791通のテキスト文と4時間以上の音声文が含まれている。
We report baseline f1-score and word error rate metrics respectively on NLP and ASR models training on WolBanking77 dataset。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:34:10 GMT)
OmniFed: A Modular Framework for Configurable Federated Learning from Edge to HPC [4.2] OmniFedは、コンフィギュレーション、オーケストレーション、通信、トレーニングロジックに関する関心事を分離し、明確に分離するように設計されたモジュラーフレームワークです。
そのアーキテクチャは、コンフィギュレーション駆動のプロトタイピングとコードレベルのオーバライド、すなわち必要なカスタマイズをサポートする。
また、異なるトポロジ、単一のデプロイメント内での混合通信プロトコル、一般的なトレーニングアルゴリズムもサポートしています。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:40:22 GMT)
JOLT-SQL: Joint Loss Tuning of Text-to-SQL with Confusion-aware Noisy Schema Sampling [4.2] JOLT-nativeはテキスト間マッピングのための単一ステージフレームワークである。
JOLT-rimiは、混乱を意識したノイズの多いスキーマサンプリング戦略とともに、局所的な双方向の注意によって強化された離散スキーマリンクを採用している。
JOLT-rimiは、同等サイズのオープンソースモデル間で最先端の実行精度を実現する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:27:14 GMT)
DS-Diffusion: Data Style-Guided Diffusion Model for Time-Series Generation [4.1] 時系列生成タスクのためのデータスタイル誘導拡散モデル(DS-Diffusion)を提案する。
DS-Diffusionは、条件付きガイダンスを導入するためにフレームワーク全体をトレーニングするのを避ける。
生成されたサンプルは、それらが発するデータスタイルを明確に示すことができる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:06:39 GMT)
Assessing the Alignment of Popular CNNs to the Brain for Valence Appraisal [4.0] 畳み込みニューラルネットワーク(CNN)は、多くのコンピュータビジョンタスクにおいてその価値を証明したコンピュータモデルとして人気がある。
この課題に対して、CNNは単純な視覚処理を超越し、高次脳処理を反映していないことが示される。
CNN-フィルタレベルでのGradCAMとオブジェクト検出を組み合わせた新しいフレームワークであるObject2Brainを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:18:03 GMT)
Investigating Test-Time Scaling with Reranking for Machine Translation [3.9] モデルパラメータのスケーリングは、NLPシステムを改善するための事実上の戦略となっているが、かなりの計算コストが伴う。
テスト時間スケーリング(TTS)は、複数の候補を生成し、ベストを選択するという、推論時により多くの計算を割り当てることによる代替手段を提供する。
WMT24ベンチマークにおいて,機械翻訳のためのTTSに関する最初の体系的な研究を行い,単純だが実用的なNフレームワークについて検討する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:58:16 GMT)
Probabilistic Runtime Verification, Evaluation and Risk Assessment of Visual Deep Learning Systems [3.9] 本稿では,ディープラーニングシステムの検証,評価,リスク評価のための新しい手法を提案する。
提案手法は,アウト・オブ・ディストリビューション検出器の出力から確率を推定することにより,実行時の分布シフトの発生率を明示的にモデル化する。
提案手法は従来よりも常に優れており, 精度推定誤差は0.01から0.1の範囲である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:16:02 GMT)
Defending against Stegomalware in Deep Neural Networks with Permutation Symmetry [3.9] 最先端のニューラルネットワークステゴマルウェアは、重みおよび偏り行列の列順をシャッフルすることで効率よく効果的に中和することができる。
これにより、ニューラルネットワークステガノグラフィーにおける最先端の手法に埋め込まれたペイロードを、ネットワークの精度を犠牲にすることなく、効果的に破壊することを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:15:38 GMT)
Embedding Alignment in Code Generation for Audio [3.8] LLMによるコード生成は、ライブコーディングのような創造的なコーディング努力に革命をもたらす可能性がある。
本稿では,コードオーディオ埋め込みアライメントマップを構築することで,出力オーディオの埋め込みを予測するモデルを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:29:44 GMT)
ColorBlindnessEval: Can Vision-Language Models Pass Color Blindness Tests? [3.7] そこで本論文では,視覚的対向シナリオにおける視覚言語モデル(VLM)の堅牢性を評価するための新しいベンチマークであるColorBlindnessEvalを提案する。
本データセットは,0から99までの色の組み合わせを特徴とする石原様画像500枚からなる。
yes/Noとopen-endedのプロンプトを用いて9つのVLMを評価し,そのパフォーマンスを人間の参加者と比較した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:33:21 GMT)
HyKid: An Open MRI Dataset with Expert-Annotated Multi-Structure and Choroid Plexus in Pediatric Hydrocephalus [3.7] 小児水頭症48例のオープンソースデータセットであるHyKidについて紹介する。
3次元MRIに1mm等方分解能を付与し,スライス・ツー・ボリューム・アルゴリズムを用いて低解像度画像から再構成した。
Retrieval-Augmented Generation frameworkを用いて臨床放射線学報告から構造化データを抽出した。
脈絡叢容積と総CSF容積との強い相関は,脳波評価のための潜在的なバイオマーカーとなり,予測モデルにおいて優れた性能を示した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:42:16 GMT)
EC-LDA : Label Distribution Inference Attack against Federated Graph Learning with Embedding Compression [3.7] Federated Graph Learning(FGL)は、さまざまなクライアントからグラフデータを協調的にトレーニングする、新たな学習フレームワークである。
本稿では,クライアントのローカルデータのラベル分布を推定することを目的としたラベル分散攻撃(LDAs)に焦点を当てる。
本稿では,ノード埋め込みを圧縮することで攻撃効率を大幅に向上させるEC-LDAという新しい攻撃法を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:55:38 GMT)
TimeMosaic: Temporal Heterogeneity Guided Time Series Forecasting via Adaptive Granularity Patch and Segment-wise Decoding [3.6] TimeMosaicは、時間的不均一性に対処することを目的とした予測フレームワークである。
TimeMosaicは、局所情報密度に応じて動的に粒度を調整するために適応パッチ埋め込みを採用している。
我々は,321億の観測値を持つ大規模コーパスを訓練し,最先端のTSFMと性能を比較検討した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:20:00 GMT)
Compositional Phoneme Approximation for L1-Grounded L2 Pronunciation Training [3.6] 合成音素近似に基づくL1-grounded pronunciation training法を提案する。
韓国の20人の非ネイティブ英語話者による評価は、CPAベースのトレーニングが音響解析において76%の箱内フォルマントレートを達成することを示している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:12:25 GMT)
A vapor-cavity-QED system for quantum computation and communication [3.6] 我々は、ラマン遷移を駆動し、特定の時間形状の光子を生成し、吸収し、単一の光子を検出するシナリオを研究する。
強い原子-キャビティ相互作用は、原子-光子制御相ゲートを実装するためにも用いられる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:00:01 GMT)
L2M-Reg: Building-level Uncertainty-aware Registration of Outdoor LiDAR Point Clouds and Semantic 3D City Models [3.6] 本稿では,モデルの不確かさを明示的に考慮した平面ベースファイン登録手法であるL2M-Regを提案する。
3つの実世界のデータセットの実験では、L2M-Regは既存のICPベースの手法や平面ベースの手法よりも正確で計算効率が高いことが示されている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:02:05 GMT)
Lift What You Can: Green Online Learning with Heterogeneous Ensembles [3.6] 入力データに基づいてトレーニングするモデルを選択するためのポリシーを提案する。
とりわけ、コスト削減による最適モデルに近いトレーニングに焦点を当てた、新しい$zeta$-policyを提案する。
11のベンチマークデータセットを対象とした実験では、私たちの$zeta$-policyが最先端への強い貢献である、という経験的証拠を見つけました。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:14:37 GMT)
Enhancing Video Object Segmentation in TrackRAD Using XMem Memory Network [3.5] 本稿では,TrackRAD2025の課題に対して,リアルタイムMRI誘導放射線治療のための高度な腫瘍セグメンテーションフレームワークを提案する。
本手法は,メモリ拡張アーキテクチャであるXMemモデルを用いて,長期のcine-MRIシークエンスに腫瘍を分割する。
提案システムでは,記憶機構を効率よく統合し,腫瘍の動きをリアルタイムで追跡し,限られたアノテートデータを持つ挑戦条件下でも高いセグメンテーション精度を実現する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:22:06 GMT)
A Pipeline to Assess Merging Methods via Behavior and Internals [3.5] マージング法は、複数の言語モデル(LM)の重みを組み合わせることで、ドメイン適応などの能力を活用する。
本稿では、まず複数の親LMをマージし、初期モデルと比較して統合されたモデルを評価する新しい評価パイプラインを提案する。
以上の結果から,マージ手法が動作や内部に異なる影響を与えることが明らかとなった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:37:32 GMT)
Trustworthy Summarization via Uncertainty Quantification and Risk Awareness in Large Language Models [3.4] 本研究では,リスクの高いシナリオにおける自動要約の信頼性について検討する。
不確実性定量化とリスク認識機構を統合した,大規模言語モデルフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:09:46 GMT)
Investigating Traffic Accident Detection Using Multimodal Large Language Models [3.4] 本研究では,交通事故の検出と記述を行うマルチモーダル大規模言語モデル(MLLM)のゼロショット機能について検討する。
結果はピクサールがF1スコア0.71、リコール83%のトップパフォーマーであることを示している。
これらの結果は、MLLMと高度な視覚分析技術の統合の可能性を示している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:47:33 GMT)
HDM: Hybrid Diffusion Model for Unified Image Anomaly Detection [3.4] 異常検出は、産業品質検査や医療画像撮影などの応用において重要な役割を担っている。
既存の手法は、しばしば複雑で多様な異常パターンに悩まされる。
生成と識別を統一されたフレームワークに統合する新しいハイブリッド拡散モデル(HDM)を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 10:18:06 GMT)
Bilateral Distribution Compression: Reducing Both Data Size and Dimensionality [3.3] 既存の分布圧縮法は、元の集合と圧縮された集合の間の最大平均離散性(MMD)を最小化することでデータセットサイズを削減する。
両軸に沿って圧縮し,基礎となる分布を保存した2段階のフレームワークであるバイラテラル分布圧縮(BDC)を提案する。
実験により、BDCは環境空間圧縮に匹敵する性能または優れた性能を著しく低コストで達成できることが示された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:23:45 GMT)
NeuCODEX: Edge-Cloud Co-Inference with Spike-Driven Compression and Dynamic Early-Exit [3.3] エッジクラウドのコ推論システムは有望なソリューションを提供するが、そのデプロイメントは高いレイテンシと機能伝達コストによって妨げられることが多い。
我々は,空間的および時間的冗長性の両方を協調的に最適化するニューロモルフィック・コ推論アーキテクチャであるNeuCODEXを紹介する。
提案システムでは、エッジのみの推論に比べて、データ転送を最大2048倍、エッジエネルギー消費を最大90%削減し、エンドツーエンドのレイテンシを最大3倍削減する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:34:33 GMT)
ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation [3.2] RGB-D Bimanual Data Augmentation (ROPA) のための合成ロボットポス生成法を提案する。
ROPAファインチューン安定拡散法による新規ロボットポーズの3人RGBとRGB-D観察の合成
2625回のシミュレーション実験と300回の実世界の実験の結果、ROPAはベースラインとアブレーションを上回ります。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:11:53 GMT)
Energy Management for Renewable-Colocated Artificial Intelligence Data Centers [3.1] 我々は、再生可能エネルギーを共配置した人工知能(AI)データセンターのためのエネルギー管理システム(EMS)を開発した。
コスト最小化フレームワークの下で、EMSはAIワークロードスケジューリング、現場での再生可能利用、電力市場への参加を共同で最適化する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:31:36 GMT)
Highly Imbalanced Regression with Tabular Data in SEP and Other Applications [3.1] 我々は1000以上の不均衡比を持つデータを用いた不均衡回帰について検討した。
本稿では,相関,モノトニック・インボリューション(MDI)の重要性,階層化サンプリングを取り入れたCISIRを提案する。
実験結果から, CISIRは近年の手法に比べて誤差が低く, 相関性も高いことが示唆された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:07:12 GMT)
Fine-Grained Detection of AI-Generated Text Using Sentence-Level Segmentation [3.1] 人間とAI生成テキスト間の遷移を検出するための文レベルのシーケンスラベリングモデルの提案
我々のモデルは、ニューラルネットワーク(NN)と条件ランダムフィールド(CRF)を組み込んだ最先端の事前学習トランスフォーマーモデルを組み合わせる。
評価は、協力的な人間とAI生成されたテキストを含む2つの公開ベンチマークデータセットで実行される。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:46:06 GMT)
Seeing Through Reflections: Advancing 3D Scene Reconstruction in Mirror-Containing Environments with Gaussian Splatting [3.1] 室内の多様なシーン、1256の高品質画像、注釈付きミラーマスクを備えたデータセットであるMirrorScene3Dを提示する。
ミラー反射を相補的視点として利用する3次元ガウス格子の拡張であるReflectiveGSを提案する。
MirrorScene3Dの実験では、ReflectiveGaussianはSSIM、PSNR、LPIPS、トレーニング速度において既存の手法よりも優れていた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:06:00 GMT)
Overview of PlantCLEF 2021: cross-domain plant identification [3.0] The LifeCLEF 2021 plant Identification Challenge was designed to improve the extent of flora can be improve of the extent of flora can be improve by using herbarium collections。
主に南アメリカのギアナシールドに焦点をあてた約1000種のデータセットに基づいている。
この課題は、数十万枚のハーバリウムシートと数千枚の写真からなる、クロスドメイン分類タスクとして評価された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:26:24 GMT)
Conformal Convolution and Monte Carlo Meta-learners for Predictive Inference of Individual Treatment Effects [2.9] 潜在的な結果の完全な予測分布と個別治療効果(ITE)の2つの新しい手法を提案する。
我々のアプローチは、重み付けされた共形予測システムと潜在的な結果分布の分析的畳み込み、あるいはモンテカルロサンプリングを組み合わせる。
潜在的な結果予測分布の生成を可能にする他のアプローチとは対照的に、我々のアプローチはモデル非依存的で普遍的であり、確率的キャリブレーションの有限サンプル保証が伴う。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:40:14 GMT)
Virtual Arc Consistency for Linear Constraints in Cost Function Networks [2.9] 我々は線形制約を扱うために既存のSACアルゴリズムを適用した。
提案アルゴリズムは,複数のベンチマークにおいて,元のアルゴリズムと比較して下位境界を著しく改善することを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:35:07 GMT)
RELATE: Relation Extraction in Biomedical Abstracts with LLMs and Ontology Constraints [2.8] 我々は,LLM抽出された関係を標準化されたKGにマッピングする3段階パイプラインであるRELATEを紹介する。
パイプラインには、(1)埋め込みによる前処理、(2)SapBERTで強化された類似性ベースの検索、(3)明示的な否定処理を備えた再ランクが含まれる。
ChemProtベンチマークでは、RELATEは52%の正確な一致と94%の精度@10を2,400 HEAL Projectの抽象化で達成している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:21:46 GMT)
Do Sparse Subnetworks Exhibit Cognitively Aligned Attention? Effects of Pruning on Saliency Map Fidelity, Sparsity, and Concept Coherence [2.7] 等級ベースプルーニングと微調整が低レベルのサリエンシマップと高レベルの概念表現の両方にどのように影響するかを検討する。
以上の結果から,軽質でモデレートなプルーニングは,意味論的に意味のある概念を維持しつつ,サリエンシ・マップの焦点と忠実さを向上させることが示唆された。
対照的に、アグレッシブプルーニングは不均一な特徴をマージし、精度を維持しながら、サリエンシマップの間隔とコンセプトコヒーレンスを低減する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:10:23 GMT)
Latent Representation Learning of Multi-scale Thermophysics: Application to Dynamics in Shocked Porous Energetic Material [2.6] 本稿では,自然言語処理におけるトークン化の考え方を動機としたメタラーニング手法を提案する。
メソスケールの学習過程を加速するために,マイクロスケール物理の表現の縮小を学習できることが示される。
提案手法は,小規模なメソスケールデータセット上での安価なマイクロスケールシミュレーションと高速トレーニングを活用することで,クロージャモデルの開発を加速する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:29:37 GMT)
Multi-Hierarchical Feature Detection for Large Language Model Generated Text [2.6] AIテキスト検出のための多階層的特徴統合について検討した。
我々は,MHFD(Multi-Hierarchical Feature Detection)を実装し,適応融合による意味解析,構文解析,統計的確率特徴を統合する。
複数のベンチマークデータセットによる実験結果から、MHFD法はドメイン内検出において89.7%の精度を達成し、クロスドメイン検出において84.2%の安定した性能を維持し、既存の手法よりも0.4-2.6%の緩やかな改善を示した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:55:42 GMT)
Real-time Deer Detection and Warning in Connected Vehicles via Thermal Sensing and Deep Learning [2.6] 鹿車衝突は米国にとって重要な安全上の課題である。
本稿では,熱画像,深層学習,車間通信を統合したリアルタイム検出・運転警告システムを提案する。
本システムは,検出から運転警告までの終端レイテンシを100ミリ秒以下で連続的に達成する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:16:25 GMT)
Theory of periodic convolutional neural network [2.5] 我々は、周期境界条件を畳み込み層に組み込んだ、長周期CNNと呼ばれる新しい畳み込みニューラルネットワークアーキテクチャを導入する。
周期的CNNは、$d-1$の線形変数に依存するリッジ関数を$d$次元の入力空間で近似することができる。
この結果から, 周期的CNNは, 高内在次元の隆起構造が自然に認められる問題に特に適していることが示唆された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:43:02 GMT)
Macroeconomic Forecasting with Large Language Models [2.5] 本稿では,従来のマクロ時系列予測手法と比較して,Large Language Models(LLM)の精度を評価する。
本研究は, LLMの長所と短所について, 実世界のシナリオにおける適用性に光を当てながら, マクロ経済時系列の予測における長所と短所について, 貴重な知見を提供するものである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:27:49 GMT)
Study Design and Demystification of Physics Informed Neural Networks for Power Flow Simulation [2.4] 電力フローシミュレータは、実装前の潜在的な動作を評価することで演算子をサポートするために一般的に使用される。
従来の物理ソルバは正確だが、ほぼリアルタイムで使うには遅すぎることが多い。
機械学習モデルは高速サロゲートとして登場し、物理法則への準拠を改善する。
本稿では, 物理的制約を正規化用語として組み込んだり, 教師なしの損失から, ハイブリダイゼーション戦略をデミスティフィケートするためのアブレーション研究について述べる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:55:13 GMT)
NeuFACO: Neural Focused Ant Colony Optimization for Traveling Salesman Problem [2.3] 本研究では,高度強化学習と拡張Ant Colony Optimization(ACO)を組み合わせた,旅行セールスマン問題(TSP)の非自己回帰的枠組みを提案する。
NeuFACOは、グラフニューラルネットワークをトレーニングするためのエントロピー正規化を備えたPPO(Proximal Policy Optimization)を採用しており、候補リスト、制限されたツアーリファインメント、スケーラブルなローカル検索を備えた最適化されたACOフレームワークに統合されている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:58:31 GMT)
Evaluating The Explainability of State-of-the-Art Deep Learning-based Network Intrusion Detection Systems [2.3] State-of-the-art Deep Learning (DL)ベースのネットワーク侵入検知システム(NIDS)は、限定的な「説明可能性」を提供する
本研究では,従来の手法と最近提案されたXAI技術を用いて,最先端のDLベースNIDSモデルを解析する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:03:24 GMT)
A Survey of Transaction Tracing Techniques for Blockchain Systems [2.3] 文献で提案するブロックチェーントランザクションのさまざまなトレース手法を体系的にレビューする。
ブロックチェーントランザクショントレースの文献状況に関する洞察を提供し、既存のアプローチの限界を特定します。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:21:20 GMT)
Application Management in C-ITS: Orchestrating Demand-Driven Deployments and Reconfigurations [2.2] 大規模C-ITSに対する需要駆動型アプリケーション管理手法を提案する。
我々は、C-ITS内の異なるエンティティからの要求を考慮に入れます。
このアプローチは、提案したアプリケーション管理フレームワークを通じて動的に調整することで、変更と新しい要求を処理します。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:36:08 GMT)
GuessingGame: Measuring the Informativeness of Open-Ended Questions in Large Language Models [2.2] 我々は,大規模言語モデル(LLM)を評価するプロトコルであるGuessingGameを紹介した。
Guesser LLMは、事前に定義された選択や候補リストなしで、Oracleに自由形式の質問をすることで、隠されたオブジェクトを特定する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:31:14 GMT)
Entanglement features in scattering mediated by heavy particles [2.2] 中間重粒子によって伝播される情報の量は、$ngeq 3$ファイナル粒子を含む非弾性散乱の特徴を示す。
総エネルギーが増加するにつれて、その崩壊生成物と他の最終粒子との間の絡み合いのエントロピーは、その小さな崩壊速度によって抑制される普遍的なシャープディップを示す。
これは、低エネルギー効果理論からオンシェル重粒子が支配するチャネルへの絡み合い抑制を示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:11:44 GMT)
Understand your Users, An Ensemble Learning Framework for Natural Noise Filtering in Recommender Systems [2.2] 本稿では,人間の嗜好や行動の多様性に固有のノイズ定義の課題について論じる。
ユーザの傾向の変化を分類する際には,ユーザの感情に直接影響を及ぼす外部要因,予期せぬ嗜好を引き起こすセレンディピティー,ノイズとして知覚されるインシデント相互作用の3つの現象を区別する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:36:27 GMT)
LLMRank: Understanding LLM Strengths for Model Routing [2.2] 本稿では,プロンプトから抽出したリッチで可読な機能を活用するプロンプト対応ルーティングフレームワークであるLLMRankを紹介する。
遅延埋め込みのみに依存する従来のワンショットルータとは異なり、LLMRankは、RuterBenchでトレーニングされたニューラルネットワークランキングモデルを使用して、モデル毎のユーティリティを予測する。
提案手法は,最大89.2%のオラクルユーティリティを実現すると同時に,ルーティング決定を説明する解釈可能な機能属性を提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:11:30 GMT)
Cross-Resonant Gates in Hybrid Fluxonium-Transmon Systems [2.2] 本研究では,2つのフラキソニウム量子ビット間の高忠実度ゲートとパリティチェックを仲介する中心トランスモンを用いたスケーラブルなフラキソニウム-トランジモン-フラキソニウム(FTF)システムを提案する。
このアプローチは、より大きな量子プロセッサを開発する上で重要な、望ましくない長距離相互作用を抑制する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:36:58 GMT)
The Narcissus Hypothesis: Descending to the Rung of Illusion [2.1] 我々は,モデルが客観的推論よりも満足あるいは平らな反応を好むという仮説を検証した。
その結果、社会的に適合する形質への大きな流れが明らかとなった。
次に、再帰が高次推論を崩壊させる可能性をトレースする、新しい解釈を提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:28:10 GMT)
Trace Is In Sentences: Unbiased Lightweight ChatGPT-Generated Text Detector [2.1] 原文とPSPで修正したAI生成テキストの両方を検出する新しいタスクを導入する。
テキストの内部構造に基づいてテキストを分類する軽量なフレームワークを提案する。
本手法は,事前学習した言語モデルからの文の埋め込みを符号化し,その関係を注意してモデル化する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:00:35 GMT)
The Transparent Earth: A Multimodal Foundation Model for the Earth's Subsurface [2.1] 異種データセットから地下特性を再構成するトランスフォーマーアーキテクチャを提案する。
このモデルは、各モダリティの記述に適用されるテキスト埋め込みモデルから導かれる、モダリティ符号化とともに、観測の位置エンコーディングを組み込む。
方向角、分類類、温度や厚さなどの連続的な性質にまたがる8つのモダリティを含む。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:43:24 GMT)
Who is In Charge? Dissecting Role Conflicts in Instruction Following [2.0] 線形探索は、コンフリクト決定信号が早期に符号化され、システムユーザとソーシャルコンフリクトが別々のサブスペースを形成することを示している。
直接ロジット属性は、システムユーザの場合においてより強力な内部衝突検出を示すが、一貫した解決は社会的な手がかりに限られる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:24:18 GMT)
Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty-Based Phoneme Difficulty Score for Guided Sampling [2.0] 本研究では,音素レベルの不確実性を定量化し,微調整を誘導するデータ効率のパーソナライズ手法を提案する。
モデルが最も困難な音素を推定するためにモンテカルロ・ドロップアウトを利用する。
以上の結果から,この臨床的に検証された不確実性誘導サンプリングは,ASRの精度を著しく向上させ,パーソナライズおよび包括的ASRのための実践的枠組みを提供することが示唆された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:54:30 GMT)
Improving Outdoor Multi-cell Fingerprinting-based Positioning via Mobile Data Augmentation [2.0] 本稿では,マルチセルフィンガープリントに基づく位置決めの高速化を目的とした,軽量でモジュール化されたモバイルデータ拡張フレームワークを提案する。
このフレームワークは、既存のモバイルデータトレースを使用したオペレータの位置決めサービスを強化するために、実用的で低複雑さのパスを提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:09:45 GMT)
Multimodal Chain of Continuous Thought for Latent-Space Reasoning in Vision-Language Models [2.0] 本稿では,連続思考のマルチモーダル連鎖(MCOUT)を提案する。
MCOUTはマルチモーダル推論を継続的に改善し,高いベースラインに対して最大8.23%の精度向上が得られることを示す。
以上の結果から,言語関連CoTを超えてLMMを推し進めるための有望な方向として,潜時的連続推論が注目されている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:29:35 GMT)
No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS [1.9] Group Relative Policy Optimization (GRPO) を用いたニューラルテキスト音声(TTS)の最近の研究動向
テキストプロソディに対する検証可能な報酬がないため、GRPOは転写指向信号(CER/NLL)を訓練し、誤り率を下げるが、プロソディを単調で不自然な音声に分解する。
本手法では,1ラウンドあたり数百の人間ラベルの選好ペアのみを使用するテキスト開始直接選好最適化(DPO)方式でこの問題に対処する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:51:38 GMT)
Multimodal Atmospheric Super-Resolution With Deep Generative Models [1.9] スコアベース拡散モデリング(Score-based diffusion modeling)は、複雑な分布からサンプリングできる生成機械学習アルゴリズムである。
本稿では,高次元力学系の超解像にそのような概念を適用し,低分解能および実験的に観察されたスパースセンサ測定のリアルタイム利用性を考える。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:30:47 GMT)
Towards Robust LiDAR Localization: Deep Learning-based Uncertainty Estimation [1.9] 反復クローズトポイント(ICP)は、特徴のない環境や動的なシーンでエラーを起こしやすいため、不正確なポーズ推定につながる。
本稿では、深層学習を利用したデータ駆動型フレームワークを提案し、マッチング前にICPの登録誤差共分散を推定する。
本手法はカルマンフィルタにおけるICPのシームレスな統合を可能にし,局所化精度とロバスト性を向上させる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:02:44 GMT)
Anatomy of a Feeling: Narrating Embodied Emotions via Large Vision-Language Models [1.8] 身体的LVLM感情ナラティブ(ELENA)を生成するための枠組みを提案する。
これらは、感情的な反応に関与する健康な身体の部分に焦点を当てた、明確に定義された多層テキスト出力である。
我々は,我々の採用したフレームワークが,顔に写った画像の感情を効果的に認識し,微調整をせずにベースラインを上回り得ることを観察した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:34:57 GMT)
Poster: ChatIYP: Enabling Natural Language Access to the Internet Yellow Pages Database [1.7] Internet Yellow Pages (IYP)は、インターネットルーティングに関する複数の情報源から、統一されたグラフベースの知識ベースに情報を集約する。
本稿では,ドメイン固有の検索・拡張生成(RAG)システムであるChatIYPを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:21:43 GMT)
Where 6G Stands Today: Evolution, Enablers, and Research Gaps [1.6] 6Gは、高度にインテリジェントで自動化され、信頼性の高い通信システムを提供する。
本稿では6Gについて概観する。
6Gの約束を達成するために対処しなければならない潜在的な課題について概説する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:52:47 GMT)
Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP [1.6] 大規模言語モデル(LLM)は誤報を増幅し、国連のような社会的目標を損なう。
本研究では,誤った情報(価フレーミング,情報過負荷)を文書化した3つのドライバについて検討する。
LLMがデフォルトをエンコードする証拠を根拠として、私たちは次のように尋ねる。 誤った表現的行動の背後にある一般的な信念駆動者は、明確なルールとしてLSMから回復できるだろうか?
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:19:17 GMT)
Dynamicasome: a molecular dynamics-guided and AI-driven pathogenicity prediction catalogue for all genetic mutations [1.5] 分子動力学シミュレーションから抽出した詳細なコンフォメーションデータをAIモデルに組み込むことで予測能力を向上することを示す。
疾患遺伝子PMM2の抜本的変異解析およびMDSに対する各変異体の構造モデルについて検討した。
我々の最高のパフォーマンスモデルである神経ネットワークモデルもまた、現在未知のシグニカンスと見なされているいくつかのPMM2変異の病原性を予測する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:33:05 GMT)
A topological theory for qLDPC: non-Clifford gates and magic state fountain on homological product codes with constant rate and beyond the $N^{1/3}$ distance barrier [1.5] 量子低密度パリティチェック(qLDPC)符号におけるフォールトトレラント量子計算の位相理論。
我々は、すべてのqLDPCおよびCSSコードに対して、トポロジデータを符号化する隠された単純構造またはCW構造が存在することを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:12:47 GMT)
Reconstruction of Optical Coherence Tomography Images from Wavelength-space Using Deep-learning [1.2] 本稿では、波長領域から直接スペックル変換されたOCT画像を再構成する合理化・計算効率のよい手法を提案する。
再構成には、Spatial Domain Convolution Neural Network(SD-CNN)とFourier Domain CNN(FD-CNN)という2つのエンコーダ方式のネットワークを使用する。
高品質なOCT画像を得るための方法の有効性を定量的に,視覚的に検証した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:21:53 GMT)
Lightweight Vision Transformer with Window and Spatial Attention for Food Image Classification [1.1] WMHAM(Window Multi-Head Attention Mechanism)とSAM(Spatial Attention Mechanism)を統合した軽量な食品画像分類アルゴリズムを提案する。
本モデルでは, それぞれ95.24%, 94.33%の精度を達成し, パラメータとFLOPをベースライン法と比較して有意に低減した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:23:50 GMT)
Steady state dynamics of quantum frequency combs in microring resonators [1.0] 本研究では,各コンブモードの量子力学特性について検討する。
リング共振器の設計と分散特性がモードの量子的特徴に大きく影響することが実証された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:22:38 GMT)
PolBiX: Detecting LLMs' Political Bias in Fact-Checking through X-phemisms [1.0] 我々は,ドイツの主張において,語句をエウヘミズムやディフェミズムと交換することで,政治的偏見を調査する。
政治的傾向よりも、判断的単語の存在が真理性評価に大きく影響していることが分かる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 11:42:25 GMT)
Central Limit Theorems for Asynchronous Averaged Q-Learning [1.0] 本稿では,非同期更新下でのPolyak-Ruppert平均Q-ラーニングに対する中心極限定理を確立する。
ここでは、ワッサーシュタイン距離における収束速度が、反復数、状態-作用空間サイズ、割引係数、探索の質に依存することを明示的に反映する非漸近的中心極限定理を提案する。
汎函数中心極限定理を導出し、部分サム過程がブラウン運動に弱収束することを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:16:14 GMT)
The Platonic Universe: Do Foundation Models See the Same Sky? [0.9] 天文学におけるPlatonic Representation hypothesis(PRH)を表現収束の測定により検証した。
我々は、視覚変換器、自己教師付きモデル、天文学特有のアーキテクチャの表現を比較した。
以上の結果から,天文基礎モデルは事前学習された汎用アーキテクチャを利用できることが示唆された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:10:05 GMT)
Learning to Drive by Imitating Surrounding Vehicles [0.9] 本研究では、周辺車両の観測軌道を利用したデータ拡張戦略を実証実験として検討する。
本稿では,情報的かつ多様な運転行動を優先する簡易な車両選択サンプリングとフィルタリング手法を提案する。
具体的には、このアプローチは衝突率を低減し、ベースラインと比較して安全性の指標を改善する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:48:04 GMT)
A Validation Strategy for Deep Learning Models: Evaluating and Enhancing Robustness [0.9] そこで本研究では,学習データセットから直接,局所解析によって"弱頑な"サンプルを抽出する検証手法を提案する。
これらのサンプルは摂動に最も敏感なものであり、モデルの脆弱性の早期かつ敏感な指標として機能する。
CIFAR-10, CIFAR-100, ImageNetで学習したモデルに対して, 本手法の有効性を示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:14:14 GMT)
Automated Extraction of Material Properties using LLM-based AI Agents [0.8] 既存のデータベースは小さく、手動でキュレートするか、第一原則の結果に偏っている。
本稿では,約10,000の学術論文から熱電・構造特性を自律的に抽出するエージェント型大規模言語モデル(LLM)によるワークフローを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:27:45 GMT)
Prompt-DAS: Annotation-Efficient Prompt Learning for Domain Adaptive Semantic Segmentation of Electron Microscopy Images [0.8] Prompt-DASは適応訓練段階および試験段階において,任意の点のプロンプトを利用するのに十分な柔軟性を持つ。
Prompt-DASは、非教師付きドメイン適応(UDA)と弱い教師付きドメイン適応(WDA)、およびテスト中のインタラクティブセグメンテーションを実行することができる。
挑戦的なベンチマークで実施した総合的な実験は、提案手法の有効性を実証している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:26:06 GMT)
Assessing the operating characteristics of an ion-milled phonon-mediated quantum parity detector [0.8] 量子パリティ検出器(QPD)の工学的結果について詳述する。
第一の測定値として、この装置は、期待値に応じて1.8 pm 0.8 mu Mathrmm-3$の準粒子密度を持つことを示す。
また、多段ジョゼフソンジャンクション製造のためのアルゴンイオンミルプロセスの概要を述べる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:39:48 GMT)
What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities [0.8] ベンチマークデータに対する生成モデルの評価は今や至るところで行われている。
しかし、懐疑論の高まりはその信頼性を取り巻く。
報告された正確さがモデルの性能を真に反映しているとどうやってわかるのか?
このステップは、推論として評価するための原則的なフレームワークを提案することで明確化します。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:29:04 GMT)
Benchmarking Vision-Language and Multimodal Large Language Models in Zero-shot and Few-shot Scenarios: A study on Christian Iconography [0.8] 本研究では,マルチモーダル大言語モデル (LLMs) とビジョン言語モデル (VLMs) のクリスチャン・イコノグラフィーのシングルラベル分類における機能評価を行った。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:23:31 GMT)
Trust and Transparency in AI: Industry Voices on Data, Ethics, and Compliance [0.7] 業界におけるAIの急速な採用は、倫理的評価フレームワークを上回っている。
本稿では,信頼に値するAIの開発と評価における実践的アプローチと課題について考察する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:58:01 GMT)
Efficient Breast and Ovarian Cancer Classification via ViT-Based Preprocessing and Transfer Learning [0.7] 乳腺癌と卵巣癌を診断・分類するための新しい視覚変換器(ViT)を提案する。
プリトレーニングされたViT-Base-Patch16-224モデルを使用し、バイナリとマルチクラスの両方の分類タスクを微調整する。
我々のモデルは、既存のCNN、ViT、および2進分類におけるトポロジ的データ解析に基づくアプローチを超越している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:25:44 GMT)
A Mega-Study of Digital Twins Reveals Strengths, Weaknesses and Opportunities for Further Improvement [0.7] 我々は、全米のパネルとLLM駆動のデジタルツインについて19の研究を行い、164の結果のツインとヒューマンの回答を比較した。
双子の答えと人間の答えの相関は穏やかであり(平均で約0.2)、双子の反応は人間の反応よりも変化が少ない。
双子のパフォーマンスはドメインによって異なり、より教育的、高い収入、イデオロギー的に穏健な参加者の間で高い。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:42:14 GMT)
MetaFed: Advancing Privacy, Performance, and Sustainability in Federated Metaverse Systems [0.7] 没入型Metaverseアプリケーションの急速な拡張は、パフォーマンス、プライバシ、環境サステナビリティの交差において複雑な課題をもたらす。
本稿では,Metaverse環境における持続的かつインテリジェントなリソースオーケストレーションを実現する分散型フェデレーション学習フレームワークであるMetaFedを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:30:51 GMT)
Analysis on distribution and clustering of weight [0.7] モデルの特徴を記述するために, 2種類のベクトル標準偏差ベクトルとクラスタリングベクトルを提案する。
この研究により、これらの2つのベクトルは、異なるモデルを効果的に区別し、同一のモデルの類似性を明確に示すことができることが明らかになった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:08:25 GMT)
YOLO-LAN: Precise Polyp Detection via Optimized Loss, Augmentations and Negatives [0.6] YOLO-LANは、M2IoU損失、汎用データ拡張、負データを使用してトレーニングされたYOLOベースのポリプ検出パイプラインである。
ポリープサイズと正確な位置検出に基づくロバスト性を示し,AIによる大腸癌検診において臨床的に有用である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:41:44 GMT)
Purer than pure: how purity reshapes the upstream materiality of the semiconductor industry [0.6] グローバル化社会におけるデジタル製品やサービスの増加により、デジタルセクターの環境への影響に注目が集まる。
その重要性にもかかわらず、このような物語はしばしば、抽出産業の象徴となったいくつかの鉱物に制限されている。
本稿では,半導体産業における要素の多様性と純度要件に基づくアプローチにより,デジタルセクターの物質性について検討する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:03:55 GMT)
Not All Qubits are Utilized Equally [0.6] 様々なトランスパイラ構成が利用パターンをどのように変化させるかを特定する手段として,量子ハードウェアの平均量子ビット利用率を分析した。
本稿では,IBM の 27-qubit Falcon R4 アーキテクチャを用いた Qiskit プラットフォーム上の解析結果について述べる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:01:39 GMT)
A Modular, Adaptive, and Scalable Quantum Factoring Algorithm [0.6] Shorの整数分解アルゴリズムは古典的手法よりも指数関数的な高速化を提供する。
多くのコヒーレント量子ビットと非常に深い回路を必要とするため、ノイズ中間量子(NISQ)ハードウェアでは実用的ではない。
我々は、これらの制限を緩和するShorのアルゴリズムのモジュラーでウィンドウ化された定式化を開発した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:58:25 GMT)
Are Smaller Open-Weight LLMs Closing the Gap to Proprietary Models for Biomedical Question Answering? [0.6] 大規模言語モデル(LLM)のオープンウェイトバージョンは急速に進歩しており、DeepSeek-V3のような最先端モデルはプロプライエタリなLLMと互換性がある。
この進歩は、小規模なオープンウェイト LLM がより大きなクローズドソースモデルを効果的に置き換えられるかどうかという問題を提起する。
本研究では, GPT-4o, GPT-4.1, Claude 3.5 Sonnet, Claude 3.7 Sonnet など,いくつかのオープンウェイトモデルを比較した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:27:57 GMT)
Mitigating Phase Correlations in Quantum Key Distribution Using Path-Selection Modulation [0.6] 位相相関はQKDの未発見の脆弱性である。
本稿では,光位相符号化から生じる相関を,GHzレベルまでの繰り返し速度で評価し,実験により評価した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 00:52:09 GMT)
Who Let the Diamonds Out? [0.5] 窒素空力(NV)中心磁力計は、非常に有望な量子センシング技術である。
約400pT/sqrt(Hz)のベクトル感度を実現する完全携帯型手持ちNV型磁気センサを導入する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:50:09 GMT)
Human-Annotated NER Dataset for the Kyrgyz Language [0.5] KyrgyzNERは、Kyrgyz言語用の最初の手動アノテーション付きエンティティ認識データセットである。
データセットには10,900の文と39,075のエンティティがあり、27の命名されたエンティティクラスにまたがっている。
本稿では、アノテーション方式を示し、アノテーションプロセスで直面する課題について論じ、記述統計を提示する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:56:10 GMT)
Optimizing quantum circuits with evolutionary algorithms for stable Boolean gates, elementary cellular automata, and highly entangled quantum states [0.5] 量子回路設計におけるバイオインスパイアされた進化的アルゴリズムの可能性について検討する。
我々は、異なる数の量子ゲートに対するセルオートマトンによる量子実装のロバスト性をテストする。
進化的アルゴリズムを用いて、マイヤー・ワラッハの絡み合い尺度で定義された適合関数に対して回路を最適化する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:59:31 GMT)
Neighbor Embeddings Using Unbalanced Optimal Transport Metrics [0.5] 本稿では,次元減少学習パイプラインにおける不均衡最適輸送(UOT)からHellinger-Kantorovich計量を用いることを提案する。
UOTの性能は、MedMNISTを含むいくつかのベンチマークデータセット上での通常のOTとユークリッドに基づく次元削減法と比較される。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:49:15 GMT)
Rapid optimal work extraction from a quantum-dot information engine [0.5] 我々は量子ドットSzilardエンジンを用いて、20年以上の駆動速度で最大効率で熱ゆらぎから作業を取り出す。
我々は、遅いものから高速なものまで、最適化されたプロトコル群を設計し、実装する。
その結果,効率を最適化する場合,Szilardエンジンの出力が必然的に増加すると電力変動が増大することがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:33:20 GMT)
Proof-of-Social-Capital: A Consensus Protocol Replacing Stake for Social Capital [0.5] 本稿では,公正性と分散性を確保するため,社会資本による新たなコンセンサスプロトコルを提案する。
提案手法では,Sybil攻撃を防ぐために,認証証明と独自性強化機構を組み込んだzkSNARKの検証を行う。
この研究は、金融に応用された現代ソーシャルメディアのライフスタイルに沿った新しい概念を提供し、分散コンセンサスプロトコルの進化に関する実践的な洞察を提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:06:35 GMT)
mRadNet: A Compact Radar Object Detector with MetaFormer [0.5] コンパクト性を考慮した新しいレーダー物体検出モデルであるmRadNetを提案する。
mRadNetはMetaFormerブロックを備えたU-netスタイルのアーキテクチャを採用しており、分離可能な畳み込みとアテンショントークンミキサーが使用されている。
mRadNetの性能はCRUWデータセットで検証され、最小数のパラメータとFLOPで最先端のパフォーマンスが向上する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:59:51 GMT)
End-to-End Crop Row Navigation via LiDAR-Based Deep Reinforcement Learning [0.5] シミュレーションで完全に訓練された深層強化学習ポリシーを用いて,生の3次元LiDARデータを直接制御コマンドにマッピングするエンド・ツー・エンドの学習ナビゲーションシステムを提案する。
本手法は,ラベル付きデータセットや手動設計による制御インタフェースを使わずに,効率的なポリシー学習を実現するために,LDAR入力サイズを95.83%削減するボクセルベースのダウンサンプリング戦略を含む。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:56:10 GMT)
Separate and efficient characterization of state-preparation and measurement errors using single-qubit operations [0.5] 多くのプラットフォームでは、状態準備測定(SPAM)による誤差が単一ビットゲートエラーを支配している。
本稿では,SPとMのエラーパラメータを効率的に,かつ分離的に特徴付けるプロトコルの構築方法について述べる。
我々は、IBM Quantum Platformデバイスにおける複数のキュービット上でのSPAMエラーの並列評価に、プロトコルを用いている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:03:10 GMT)
Towards Privacy-Aware Bayesian Networks: A Credal Approach [0.4] プライバシーの懸念が高まるにつれ、機密情報を保護するための公開モデルにとってますます重要になっている。
本稿では,モデルのプライバシとユーティリティのバランスをとるための新しいソリューションとして,クレダルネットワーク(CN)を紹介する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:58:32 GMT)
Local fermion-to-qudit mappings: a practical recipe for four-level systems [0.4] 我々は、フェルミオン格子系をシミュレートするための局所フェルミオン-クォーディットマッピングの集合を提案する。
これらのマッピングは、2量子ゲートの観点でより効率的な量子シミュレーションを可能にする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:37:57 GMT)
Quantum Annealing for Minimum Bisection Problem: A Machine Learning-based Approach for Penalty Parameter Tuning [0.4] ペナルティパラメータの適応的チューニングのための機械学習に基づく新しいアプローチを提案する。
我々は、最大4,000ノードのランダムに生成されたErdHos-R'enyiグラフの大規模なデータセット上で、我々のアプローチをテストする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:49:18 GMT)
GZSL-MoE: Apprentissage G{é}n{é}ralis{é} Z{é}ro-Shot bas{é} sur le M{é}lange d'Experts pour la Segmentation S{é}mantique de Nuages de Points 3DAppliqu{é} {à} un Jeu de Donn{é}es d'Environnement de Collaboration Humain-Robot [0.3] Generative Zero-Shot Learning approach (GZSL) は、3Dポイントクラウドセマンティックセマンティックセグメンテーションタスクにおいて大きな可能性を示している。
一般化ゼロショット学習に基づくMixture-of-Experts(GZSL-MoE)モデルを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 11:01:45 GMT)
A DyL-Unet framework based on dynamic learning for Temporally Consistent Echocardiographic Segmentation [0.3] 動的学習に基づく時間的一貫性を持つU-NetセグメンテーションアーキテクチャDyL-UNetを提案する。
このフレームワークは、動的学習を通じてEcho-Dynamics Graph(EDG)を構築し、ビデオから動的情報を抽出する。
CAMUSとEchoNet-Dynamicデータセットの実験は、DyL-UNetが既存のメソッドに匹敵するセグメンテーション精度を維持していることを示している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:17:01 GMT)
Blueprints of Trust: AI System Cards for End to End Transparency and Governance [0.3] Hazard-Aware System Card(HASC)は、AIシステムの開発とデプロイにおける透明性と説明責任を高めるために設計されたフレームワークである。
このフレームワークは、新しいAIセーフティハザード(ASH)IDを含む、識別子の標準化システムを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 05:58:32 GMT)
TIMED: Adversarial and Autoregressive Refinement of Diffusion-Based Time Series Generation [0.3] TIMEDは、フォワード-リバース拡散プロセスを通じてグローバル構造をキャプチャする統合生成フレームワークである。
特徴空間における実および合成分布をさらに整合させるため、TIMEDは最大平均離散性(MMD)損失を取り入れている。
我々は、TIMEDが最先端の生成モデルよりも現実的で時間的に一貫性のあるシーケンスを生成することを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:05:40 GMT)
Circuit Complexity From Physical Constraints: Scaling Limitations of Attention [0.3] 我々は、より複雑なデータセットのエントロピーに対応するために、$omega(n3/2)$のアテンション機構はスケールできないことを示した。
この結果は変換器の表現性に意味のある境界を定義するための方法論を同時に提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:40:36 GMT)
A Comparative Analysis of Ensemble-Based Machine Learning Approaches with Explainable AI for Multi-Class Intrusion Detection in Drone Networks [0.3] 本研究の目的は、ドローンネットワークに適した堅牢で解釈可能な侵入検知フレームワークを開発することである。
我々は、ラベル付きデータセットでトレーニングされたランダムフォレスト、エクストラツリー、AdaBoost、CatBoost、XGBoostといったアンサンブルベースの機械学習モデルの比較分析を行う。
提案するアプローチは、ほぼ完全な精度を提供するだけでなく、解釈可能性も保証し、リアルタイムかつ安全クリティカルなドローン操作に非常に適している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 00:59:21 GMT)
Poster: The Internet Quality Barometer Framework [0.3] スピードを超えてインターネット品質を再定義するフレームワークであるインターネット品質バロメーター(IQB)を紹介します。
IQBは、一般的なユースケースとネットワーク要件を、重みと品質のしきい値のセットを通じてユースケースにマップする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:06:27 GMT)
Dynamical Modeling of Behaviorally Relevant Spatiotemporal Patterns in Neural Imaging Data [0.3] ニューラルイメージの時間依存性をモデル化する新しいデータ駆動型ディープラーニングフレームワークであるSBINDを提案する。
SBINDは、行動関連神経力学を解離しながら、脳の局所的および長距離的空間的依存関係を効果的に識別する。
全体として、SBINDは画像モダリティを用いた行動の基礎となる神経メカニズムを調査するための汎用的なツールを提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:16:23 GMT)
SmartWilds: Multimodal Wildlife Monitoring Dataset [0.2] We present the first release of SmartWilds, a multimodal wildlife monitoring dataset。
SmartWildsは、2025年夏にオハイオ州のザ・ワイルドズ・サファリ公園で収集された、ドローン画像、カメラトラップ写真、ビデオ、バイオ音響記録の同期コレクションである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 11:07:18 GMT)
The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind [0.2] シークレット・アジェンダは、すべてのモデルファミリの目標達成を騙すことによって、確実に嘘をついた。
分析の結果,「偽装」のための自動ラベル付きSAE機能は,戦略的不正行為時にはほとんど活性化されないことが明らかとなった。
発見は、オートラベル駆動の解釈可能性アプローチは、振る舞いの詐欺を検知または制御できないことを示唆している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:52:40 GMT)
msf-CNN: Patch-based Multi-Stage Fusion with Convolutional Neural Networks for TinyML [0.2] 我々は畳み込みニューラルネットワーク(CNN)のための最適な融合設定を効率的に見つける新しい手法であるmsf-CNNを紹介する。
我々はmsf-CNNが従来の技術に比べて50%少ないRAMで推論できることを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:46:58 GMT)
Nano Bio-Agents (NBA): Small Language Model Agents for Genomics [0.2] エージェント・フレームワークを用いたゲノム質問応答における小言語モデル(100億のパラメータ)の適用について検討する。
以上の結果から,SLMとこのようなエージェントフレームワークを組み合わせることで,同等かつ多くの場合,優れた性能が得られることが示唆された。
これは、効率向上、コスト削減、MLベースのゲノムツールの民主化の有望な可能性を示している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:44:31 GMT)
There and Back Again: A Gauging Nexus between Topological and Fracton Phases [0.1] 我々は、X-Cubeモデルに対称性を保護した位相相を関連付けるリッチ・ガウイング・ウェブを公表する。
本研究は, 物体の非位相的, 幾何学的位相におけるトポロジ的対称性の重要性を強調する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:00:06 GMT)
A Decade of Wheat Mapping for Lebanon [0.1] 冬季のコムギ分割のための改良パイプラインを導入することにより,衛星画像から小麦畑を正確にマッピングする問題に対処する。
本手法は,コムギのセグメンテーションを精密なフィールド境界抽出と組み合わせることで,幾何的コヒーレントでセマンティックにリッチな地図を生成する。
この研究は、作物のモニタリングや収量推定など、様々な重要な研究と今後の進歩の基礎を築いた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:13:06 GMT)
MOMEMTO: Patch-based Memory Gate Model in Time Series Foundation Model [0.1] パッチベースのメモリモジュールで強化された異常検出のためのTFMである textbfMOMEMTO を提案する。
メモリモジュールは、複数のドメインから代表的な通常のパターンをキャプチャし、単一のモデルを協調的に微調整できるように設計されている。
実験の結果,MOMEMTOは単一モデルとして,ベースライン法に比べてAUC,VUSのスコアが高いことがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:48:25 GMT)
Constraint-Reduced MILP with Local Outlier Factor Modeling for Plausible Counterfactual Explanations in Credit Approval [0.1] そこで本稿では, 局所外乱係数 (LOF) の制約数を大幅に削減するMILP(Mixed-Integer Linear Programming) の定式化を提案する。
その結果,提案手法は説明品質を維持しつつ,より高速な解法時間を実現することがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:23:08 GMT)
A Longitudinal Randomized Control Study of Companion Chatbot Use: Anthropomorphism and Its Mediating Role on Social Impacts [0.1] 社会人工知能(AI)エージェントとの関係が高まりつつある。
人々は友人関係、メンターシップ、そしてReplikaのようなチャットボットとのロマンチックなパートナーシップを報告します。
人間とAIの相互作用が人間とAIの相互作用にどう影響するかは、人々の社会的要求状態とAIエージェントの人為的類型が関与する可能性がある。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:33:41 GMT)
Compression Strategies for Efficient Multimodal LLMs in Medical Contexts [0.1] 本稿では、医療応用のための微調整LAVAモデルにおける構造解析とアクティベーション対応量子化の影響について検討する。
本研究では, プルー・SFT量子化パイプラインにおいて, 異なる量子化手法を解析し, 性能トレードオフを評価する新しい層選択法を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:50:14 GMT)
Two-Photon Resonance Fluorescence in a Three-Level Ladder-Type Atom [0.0] 我々は、コヒーレントフィールドによって駆動される3レベルラダー型原子を考える。
2光子共鳴によって駆動されると、原子は最高エネルギー状態に励起される。
このスペクトルは、原子の服装状態間の遷移に対応する7つの異なる周波数を示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:23:50 GMT)
Twin-Polaritons: Classical versus Quantum Features in Polaritonic Spectra [0.0] ツインポラリトン(ツインポラリトン)は,一次共振性ポラリトン分裂(プライマリ共振性ポラリトン分裂)を超えて,さらに分裂する。
双極子(ツインポラリトン)は、置換対称な初期状態制約の下で多分子極限に持続することを示す。
これは、量子的特徴(ツインポラリトン)を古典的特徴(プライマリポラリトン)を通してチューニングできる新しいメカニズムを確立する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:58:12 GMT)
TriFusion-AE: Language-Guided Depth and LiDAR Fusion for Robust Point Cloud Processing [0.0] オートエンコーダは、デノナイズと再構築のための自然なフレームワークを提供するが、そのパフォーマンスは、現実の困難な条件下で低下する。
テキスト先行情報と多視点画像からの単眼深度マップとLiDAR点雲を統合し,ロバスト性を向上させるクロスアテンションオートエンコーダであるTriFusion-AEを提案する。
このモデルは,CNNベースのオートエンコーダが崩壊する強敵攻撃と重騒音下で,より堅牢な再構築を実現する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:37:28 GMT)
Transformer Modeling for Both Scalability and Performance in Multivariate Time Series [0.0] 本稿では,DELTAformer (Delegate Token Attention) を用いた変圧器を提案する。
DELTAformerは可変数で線形にスケールするが,実際は標準変圧器よりも優れていた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:28:24 GMT)
Towards Rational Pesticide Design with Graph Machine Learning Models for Ecotoxicology [0.0] 本研究は、グラフ機械学習を用いて、より安全でエコフレンドリーな農薬の開発を促進する合理的農薬設計に焦点を当てる。
生態毒性学に重点を置いた最初の貢献は、ミツバチに対する殺虫剤毒性に関する最大のキュレートされたデータセットであるApisToxの作成である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:38:05 GMT)
Time-tronics: from temporal printed circuit board to quantum computer [0.0] 時間結晶構造は、異なる凝縮物質の挙動を明らかにすることができる。
時間格子がプリント基板のような時間中性子の道を開く。
我々のアプローチは量子コンピュータの構築を可能にし、可能な全ての量子ビット対に対する量子ゲート演算を可能にする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:17:56 GMT)
Thermoelectric energy conversion in molecular junctions out of equilibrium [0.0] 我々は、熱電量子輸送を研究するために、最近開発された一般化Kadanoff-Baym ansatzの中で、非平衡グリーン関数形式を提示する。
本研究は, 有限バンド幅効果の重要性を強調し, 時間分解熱電輸送のモデル化におけるGKBA法の有効性を実証するものである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:06:05 GMT)
The Pareto Frontier of Resilient Jet Tagging [0.0] 成分の運動情報を用いたハドロンジェットの分類は、高エネルギーコライダー物理学において重要な課題である。
性能指標は高いがレジリエンスは低いネットワークの利用結果を示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:00:01 GMT)
The LongiMam model for improved breast cancer risk prediction using longitudinal mammograms [0.0] LongiMamは、現在と4つの先行するマンモグラムを統合したエンドツーエンドのディープラーニングモデルである。
LongiMamは、先行マンモグラフィーを含む場合の予測を継続的に改善した。
乳房密度の経時変化が観察された女性では, モデルが最も良好であった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:57:55 GMT)
The Hidden Cost of Defaults in Recommender System Evaluation [0.0] RecBoleの内部デフォルト、特に文書化されていない早期停止ポリシーは、Random SearchとBayesian Optimizationを早期に終了できることを示す。
この結果から,隠れたフレームワークロジックは,検索戦略の相違に匹敵する変動性をもたらすことが判明した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:47:11 GMT)
Structured Cognition for Behavioral Intelligence in Large Language Model Agents: Preliminary Study [0.0] 我々は、推論、メモリ、制御を分離する代替アーキテクチャとして、Structured Cognitive Loop (SCL)を導入します。
SCLはモデルから認知負荷をオフロードし、中間結果を保存し、再確認し、アクションを取る前にチェックすることができる。
3つのシナリオにわたるReActや共通LangChainエージェントを含む,プロンプトベースのベースラインに対するSCLの評価を行った。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:43:17 GMT)
Spontaneous Emission from Electronic Metastable Resonance States [0.0] 準安定共鳴状態から自然放出崩壊率を計算するには、全ての連続状態への遷移を検討する必要があることを実証する。
散乱行列の複素極の計算には、もともと励起境界状態のために設計された手法を用いる。
このアプローチの急速な数値収束は、現実のシステムにおける準安定状態からの自然放出を研究するための新たな道のりを浮き彫りにしている。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:33:30 GMT)
Small LLMs with Expert Blocks Are Good Enough for Hyperparamter Tuning [0.0] 我々は小言語モデルを用いたHPTのためのエキスパートブロックフレームワークを提案する。
Trajectory Context Summarizer (TCS)は、生のトレーニング軌跡を構造化されたコンテキストに変換する決定論的ブロックである。
TCS対応HPTパイプラインは、6つのタスクでGPT-4の0.9パーセントの範囲で平均性能を達成する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:10:27 GMT)
SkyEye: When Your Vision Reaches Beyond IAM Boundary Scope in AWS Cloud [0.0] クラウドセキュリティは企業にとって主要な関心事だ。
IAMは、ほとんどのクラウドデプロイメントの重要なセキュリティバックボーンを構成する。
SkyEyeは協調型マルチプリンシパルIAM列挙フレームワークである。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 22:15:16 GMT)
Robust quantum communication through lossy microwave links [0.0] エンタングルメントの忠実度は通常、超伝導量子ビットを結合するリンクの光子損失によって制限される。
我々は,この限界をほぼ完全に回避する,階層型絡み合い生成の新しいスキームを提案し,実現した。
我々の研究は将来の超伝導量子ネットワークの設計を知らせる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:11:06 GMT)
Remaining Time Prediction in Outbound Warehouse Processes: A Case Study (Short Paper) [0.0] 航空事業におけるロジスティクス企業の現実のアウトバウンド倉庫プロセスにおける残余時間予測手法を4つ比較した。
ディープラーニングモデルは高い精度を達成するが、従来の強化手法のような浅い手法は競争精度を達成し、計算資源を著しく少なくする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:37:09 GMT)
Rapid Autotuning of a SiGe Quantum Dot into the Single-Electron Regime with Machine Learning and RF-Reflectometry FPGA-Based Measurements [0.0] 量子ドットデバイスをチューニングするために必要な測定値の削減と測定スピードアップを組み合わせることで,大きなスピードアップを示す。
ニューラルネットワークに基づく自動チューニングアルゴリズムと、Keysightの量子エンジニアリングツールキット(QET)に埋め込まれたFPGAを用いた高速測定により、安定性図の測定時間を9.8に短縮した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 20:03:47 GMT)
Optimal Finite-Time Thermodynamics of Effective Two-Level Systems [0.0] Esposito et al. EPL 89, 20003 (2010) の作業を一般化し、2レベルシステムから最大作業量を抽出するために必要な制御速度を最適化する。
これらの系の有限時間熱力学を解析し、2段階のシステムを得るのに必要な粗粒径に依存する最適熱力学プロトコルを求める。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:16:29 GMT)
Oganesson versus Uranium Hydrogen-like Ions and Beyond (from the Viewpoint of Old Quantum Mechanics) [0.0] 超強静的クーロン場における自己交差軌道の存在を示す。
強い重力場における同様の「オガネソン型」効果の可能性も言及されている。
超重超ウラン元素におけるクーロン場の強度の位相的分類は「巻く」数の観点から与えられる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:11:02 GMT)
Octahedral dynamics and local symmetry in hybrid perovskite FAPbI3 under thermal excitation [0.0] 局所モチーフは熱励起下でFAPbI3の四角形相内で進化する。
その結果,温度上昇に伴うPbI6オクタヘドラル体積の分布は明らかに拡大した。
電子構造を調べた結果、この動的構造現象がバンドギャップ値の変化に直接寄与していることが確認された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:04:51 GMT)
Observables in Motion: A guide to simulating classical and quantum dynamics [0.0] この教科書は、量子力学と古典力学のヒルベルト空間表現を導入することを目的としている。
古典系と量子系の両方を理解するのに必要な数学的基礎、キネマティックな記述、形式的進化論を概説する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:43:22 GMT)
Non-equilibrium Dynamics of Two-level Systems directly after Cryogenic Alternating Bias [0.0] 2レベルシステム(TLS)は、電気的に量子ビット、共振器、振動モードと結合するアモルファス材料で一般的に見られるトンネル状態である。
近年の研究では、大きな交流電場を適用すると酸化物の構造が変化し、量子ビットと共振器の性能が向上する可能性が示唆されている。
低温における交互バイアスがアモルファス酸化物パラレルプレートコンデンサ内のTLSダイナミクスに及ぼす影響を調べた。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:47:10 GMT)
No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0] 視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。
本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:54:52 GMT)
Modular Machine Learning with Applications to Genetic Circuit Composition [0.0] モジュールの入出力関数の学習は、異なる構成アーキテクチャから新しいシステムを設計するのにも必要である。
本稿では,モジュールの入力/出力関数を識別するために,システムの構成構造に関する事前知識を取り入れたモジュール学習フレームワークを提案する。
実験データの必要性を低減し、モジュール識別を可能にすることにより、このフレームワークは合成生物回路の設計を容易化することができる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 21:49:13 GMT)
Magnon-photon coupling in the YIG-based disk and ring microcavities [0.0] ディスクとリングのジオメトリーの利用によりモードオーバーラップが顕著に増加することを示す。
各種サイズのイットリウム鉄ガーネットディスクとリングマイクロキャビティ内の光ささやきとマグノンキッテルモードの相互作用体積を解析した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 10:10:17 GMT)
Machine learning approach to single-shot multiparameter estimation for the non-linear Schrödinger equation [0.0] 我々は非線形シュリンガー方程式マッピングを反転させるためにニューラルネットワークを訓練する。
我々のモデルは、12,500の見つからないテストサンプルに対して平均絶対誤差が3.22%である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 00:32:37 GMT)
MOIS-SAM2: Exemplar-based Segment Anything Model 2 for multilesion interactive segmentation of neurobromas in whole-body MRI [0.0] 神経線維腫症1型(英: Neurofibromatosis type 1)は、多くの神経線維腫(NF)が全身に発達するのを特徴とする遺伝疾患である。
本研究では,この課題に合わせた対話型セグメンテーションモデルを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:42:24 GMT)
Linking Edge Modes and Geometrical Clocks in Linearized Gravity [0.0] 線形化重力におけるエッジモードと幾何学時計の関連性を示す。
これらのゲージ固定条件が、アシュテカール・バーベロ接続の観点から、幾何時計の特定の選択をどのように回復するかを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:54:20 GMT)
Learning From Simulators: A Theory of Simulation-Grounded Learning [0.0] シミュレーション・グラウンドド・ニューラルネットワーク(SGNN)は、メカニカル・シミュレーションから完全に合成データに基づいて訓練された予測モデルである。
本稿では,SGNNがシミュレーション前のベイズ推定を実装し,ベイズ最適予測器に収束することを示す。
我々はSGNNによって一意に実現された新しい機械的解釈可能性の形式を定式化する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:39:11 GMT)
Judging Data: Critical Discourse and the Rise of Data Intellectual Property Rights in Chinese Courts [0.0] 我々は、中国における日中司法活動が、データ知的財産権(DIPR)をどう形成するかを示す。
私たちは2つの相補的な司法談話を特定します。
この研究は、DIPRを、中国の進化するデジタルガバナンスにおける教義的革新と制度的協調のためのテストベッドとして提示する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:51:54 GMT)
Intrinsic-perturbation induced anomalous higher-order boundary states in non-Hermitian systems [0.0] 異常な高次境界状態を引き起こす新しいメカニズムを明らかにする。
このメカニズムに基づいて、我々は新しい種類の相転移、すなわち、ハイブリッドスキントポロジカル状態とスケールフリートポロジカル境界状態の遷移を明らかにする。
従来のハイブリッド皮膚トポロジー状態や高次非エルミート皮膚効果とは異なり、上記の2種類の異常な高次境界状態はサイズ依存的な特徴を示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:00:05 GMT)
Intrinsic Heisenberg Lower Bounds on Schwarzschild and Weyl-Class Spacelike Slices [0.0] 我々は、静的、球対称、平らな(AF)ブラックホールの水平正方形空間のようなスライス上に、半径$r_g$の測地球に厳密に局在した量子状態に対する座標型ハイゼンベルク型下界を確立する。
Schwarzschild Painlev'e-Gullstrand (PG) スライスでは、誘発される3つの幾何学はユークリッドであり、全ての許容スライスの中で最適なユークリッドスケール $sigma_p r_g ge pihbar$ を復元する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:47:53 GMT)
Improving QAOA to find approximate QUBO solutions in O(1) shots [0.0] 本稿では,目標近似比(AR)を達成する確率を,正確な最適化を必要とせず考慮した修正fpQAOA方式を提案する。
この組み合わせは、問題の大きさが大きくなるにつれて、近似解を得るために必要なショットの中央値の減少につながることを実証する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:07:55 GMT)
Implementation of airborne ML models with semantics preservation [0.0] 本稿では,MLモデルとそれに対応する記述の違いを明らかにすることを目的とする。
そして、モデルの正確な複製を保証するために、セマンティックス保存の本質的な概念を洗練します。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 06:01:52 GMT)
Impact of Static Disorder and Dephasing on Quantum Transport in LH1-RC Models [0.0] 狭帯域光モードにより駆動される人工LH1-RC複合体の励起伝達について数値解析を行った。
オフ共鳴では、効率は、デファス化と有限最適度に明確な非単調な依存で環境支援輸送を示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:23:15 GMT)
Hybrid Data can Enhance the Utility of Synthetic Data for Training Anti-Money Laundering Models [0.0] このようなモデルを開発する上で大きな問題は、プライバシと機密性の懸念によるトレーニングデータへのアクセスの欠如である。
本稿では,人工データセットの実用性を高めるためにハイブリッドデータセットの利用を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 01:03:23 GMT)
Homophily Within and Across Groups [0.0] ホモフィリー(英: Homophily)とは、ネットワークがどのように形成し、機能するかを形作っている。
本稿では,ネットワーク内のすべてのソーシャルスケールのホモフィリーを,グループサイズ毎にパラメータでキャプチャする,最大エントロピーランダムグラフモデルを提案する。
指数関数的な家族モデルとして、経験的データに適合し、集約されたメトリクスが欠落するホモフィリーの群レベルの変動を推測することができる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 09:37:44 GMT)
High harmonic generation from a Bose-Einstein condensate [0.0] 超高速の時間スケールで、超低温で物質波と放射バーストを接続する。
ボース=アインシュタイン凝縮体から高調波発生を探索する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:58:25 GMT)
HARLI CQUINN: Higher Adjusted Randomness with Linear In Complexity QUantum INspired Networks for K-Means [0.0] 古典的k平均アルゴリズムと同等以上の量子性能を示す。
我々は、その精度のベンチマークを、よく知られたデータセットと実験データセットの両方のテストケースに提示する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 02:32:13 GMT)
Graph Data Modeling: Molecules, Proteins, & Chemical Processes [0.0] グラフは化学科学の中心であり、分子、タンパク質、反応、産業プロセスを記述する自然言語を提供する。
このプライマーは、化学における数学的対象としてグラフを導入し、学習アルゴリズムがそれらの上でどのように動作するかを示す。
グラフ設計の基礎、重要な予測タスク、化学科学における代表例、グラフベースモデリングにおける機械学習の役割について概説する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:53:18 GMT)
Geometric Structures and Patterns of Meaning: A PHATE Manifold Analysis of Chinese Character Embeddings [0.0] PHATE多様体解析を用いた漢字埋め込みにおける幾何学的パターンについて検討する。
コンテンツワードのクラスタリングパターンと関数ワードの分岐パターンを観察する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:28:34 GMT)
Generative AI as a catalyst for democratic Innovation: Enhancing citizen engagement in participatory budgeting [0.0] 本研究では,参加型予算編成における市民のエンゲージメント向上における生成人工知能(AI)の役割について検討する。
この研究は、オンライン政治参加がいかに民主主義を強化し、社会的平等を促進するかを探る。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:09:31 GMT)
Generalised two-dimensional nonlinear oscillator with a position-dependent effective mass and the thermodynamic properties [0.0] 非相対論的量子力学の枠組みにおける位置依存効果質量を持つ2次元非線形発振器について検討する。
その結果, 比熱が非線形パラメータ$k$の影響を受けない一次元の場合とは異なり, 2次元系は強い$k-$dependenceを示すことがわかった。
これらの知見は, 有効質量非線形性がマクロ熱力学量に及ぼす影響を浮き彫りにし, パラメータ$k$の調整が量子デバイスの性能向上に有効な戦略となることを示唆している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:59:40 GMT)
GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning [0.0] GRAFTは、命令追従型視覚推論と視覚テキストアライメントのモデルを評価するための構造化マルチモーダルベンチマークである。
生成されたチャートと、Pythonライブラリで作成され、データセマンティクスの制御と明確性を保証する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:41:49 GMT)
Flow marching for a generative PDE foundation model [0.0] 本稿では,物理力学系における誤り蓄積の解析によって動機付けられたフローマッチングを用いて,ニューラル演算子の学習をブリッジするアルゴリズムであるフローマーチングを提案する。
また,物理制約付き変分オートエンコーダ(P2E)を導入し,物理軌道をコンパクトな潜在空間に埋め込む。
異なる12種類のPDEファミリーおよびP2EとFMTのトレインスイートの2.5Mトラジェクトリを複数スケールでキュレートする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:00:41 GMT)
Exploiting Page Faults for Covert Communication [0.0] 本稿では,ページフォールトに基づく隠蔽チャネルを構築するための新しいメカニズムを提案する。
ページフォールト(英: page fault)とは、プロセスまたはスレッドが、現在アドレス空間にマップされていないメモリのページにアクセスしようとするときに発生するイベントである。
我々は、悪意あるプロセスが秘密データを他のプロセスにリークできるようにするために、この行動を利用する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:01:23 GMT)
DRO-REBEL: Distributionally Robust Relative-Reward Regression for Fast and Efficient LLM Alignment [0.0] 人的フィードバックによる強化学習(RLHF)は,大規模言語モデル(LLM)と人間の意図の整合に欠かせないものとなっている。
DRO-REBELは、タイプ=$p$Wasserstein, KL, $chi2$ ambiguity集合を持つ堅牢なREBEL更新の集合である。
Fenchelの双対性を利用することで、各更新は単純な相対回帰レグレッションに還元され、スケーラビリティが保たれ、PPOスタイルのクリッピングや補助値ネットワークが回避される。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:49:48 GMT)
Cyclic Ablation: Testing Concept Localization against Functional Regeneration in AI [0.0] 中心的な問題は、偽りのような望ましくない振る舞いが、削除できる局所関数であるかどうかである。
本研究は,スパースオートエンコーダ,ターゲットアブレーション,対人訓練を組み合わせることで,偽装の概念を排除しようと試みた。
局所化仮説とは裏腹に, 偽装は非常に弾力性があることが判明した。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 23:16:11 GMT)
Cusp solitons mediated by a topological nonlinearity [0.0] 波動関数強度の曲率に依存する非線形シュル「オーディンガーモデルを導入し、これは永続ホモロジーから位相量に直接関係していることを示す。
我々のモデルでは局所的極端構造の形成をエネルギカルに推し進めたり好んだりし、このトポロジカルな非線形性が頑丈でカスプのようなソリトン構造の出現に繋がることを示す数値シミュレーションを通して示している。
これらの結果は、位相的非線形性は光学およびボース=アインシュタイン凝縮体の非線形波を制御するための汎用的なツールとして役立つことを示唆している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:15:48 GMT)
Consistency of Selection Strategies for Fraud Detection [0.0] 我々は、保険業者が詐欺を捜査する主張をどう選ぶかを研究する。
これは一貫性のない学習につながる可能性があり、ランダムな代替案を提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:33:33 GMT)
Confidence-Aware Routing for Large Language Model Reliability Enhancement: A Multi-Signal Approach to Pre-Generation Hallucination Mitigation [0.0] 大規模言語モデルは幻覚に悩まされ、可視だが事実的に誤った内容を生成する。
現在の緩和戦略は、計算コストが高く、信頼性の低いコンテンツ生成を防げない、ポストジェネレーション補正に重点を置いている。
本稿では,予測された信頼性に基づいて,モデルの不確実性を積極的に評価し,クエリをリダイレクトする信頼度対応ルーティングシステムを提案する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 18:34:20 GMT)
Computational Social Linguistics for Telugu Cultural Preservation: Novel Algorithms for Chandassu Metrical Pattern Recognition [0.0] 本研究は, 何世紀にもわたっての総合文化的知性を表す計量詩の伝統であるTelugu Chandassuを保存するための計算社会科学的アプローチを提案する。
我々は,従来のコミュニティ知識を現代的な計算手法でブリッジして,Telugu韻律パターンを解析するための,初めての包括的デジタルフレームワークを開発した。
私たちのソーシャルコンピューティングアプローチには,4,651の注釈付きパジャムのデータセット作成,専門家による検証言語パターン,文化的インフォームドアルゴリズムの設計などが含まれています。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:52:25 GMT)
Complexity of Activity Patterns in a Bio-Inspired Hopfield-Type Network in Different Topologies [0.0] 本稿では,生物学的にインスパイアされたホップフィールド型ニューラルネットワークモデルの時間的複雑性(TC)解析について述べる。
時間的複雑性の特徴を調べたところ、明らかに異なる動的パターンが同様の時間的複雑性の挙動を示すことが判明した。
特に、複雑な動的プロファイルのほとんどは、スケールのないネットワーク構成で一貫して観察された。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:53:27 GMT)
Comment on 'Collectively enhanced quantum measurements at the Heisenberg limit' [0.0] The seminal paper [8] was shown that Heisenberg-limited measured can be achieved without using tangled states。
ここでは, [8] における解析的導出がキャビティ超放射能と相容れないことを示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:36:57 GMT)
Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning [0.0] 大規模言語モデル(LLM)は孤立したタスクにおいて優れるが、認知的負荷下での推論はいまだに理解されていない。
本稿では,タスク不適切な情報(コンテキスト飽和)とタスク切替による干渉が,性能を低下させる重要なメカニズムであることを示唆する,計算認知負荷の形式的理論を導入する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:36:56 GMT)
Centralized vs. Decentralized Security for Space AI Systems? A New Look [0.0] 本稿では,衛星群における集中型セキュリティ管理と分散型セキュリティ管理のトレードオフを,セキュリティとパフォーマンスのバランスをとるために検討する。
a)集中管理、(b)分散、(c)フェデレーションという、自動セキュリティ管理のための3つの重要なAIアーキテクチャを強調します。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 08:54:55 GMT)
CayleyPy Growth: Efficient growth computations and hundreds of new conjectures on Cayley graphs (Brief version) [0.0] CayleyPyはオープンソースのPythonライブラリで、CayleyとSchreierのグラフで計算できる。
GAPやSageのようなシステムと比較して、CayleyPyはより大きなグラフを処理し、桁違いに高速に処理する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:40:36 GMT)
Bosonic content of three-fermion high-spin states [0.0] 高スピン三フェルミオン波動関数の情報内容の厳密な特徴を示す。
これは波動関数を有限個の固定不変量の集合に形式的に分解したものに基づいており、形状と呼ばれる。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:50:14 GMT)
Beyond Backpropagation: Exploring Innovative Algorithms for Energy-Efficient Deep Neural Network Training [0.0] 本稿では,BPフリートレーニング手法として,フォワードフォワード(FF),カスケードフォワード(CaFo),モノフォワード(MF)の3つを厳格に検討する。
MFはエネルギー消費を最大41%削減し、トレーニング時間を最大34%短縮する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:27:44 GMT)
Bell state measurements in quantum optics: a review of recent progress and open challenges [0.0] ベル状態測定は、幅広い量子情報処理タスクの中心である。
光量子プラットフォームでは、情報が光度自由度で符号化されるため、効率的なベル状態測定の実現は困難である。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:52:44 GMT)
Bayesian Calibration and Model Assessment of Cell Migration Dynamics with Surrogate Model Integration [0.0] ベイジアンキャリブレーションを用いた細胞移動モデルにおけるパラメータ確率分布を系統的に評価する。
このアプローチはパラメータの不確実性、予測性能、解釈可能性の合同解析を可能にする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:45:16 GMT)
Are most sentences unique? An empirical examination of Chomskyan claims [0.0] 言語学における主張は、ほとんどの言語発話は独特であるということである。
大型コーパスが利用可能になるにつれて、これは実験的に研究できる主張である。
現在の論文では、NLTK Pythonライブラリを使って様々なジャンルのコーパスを解析することで、この問題に対処している。
結果は、完全に一意な文はコーパスの大部分を占めることが多いが、これはジャンルによって非常に制約されており、重複文は個々のコーパスの重要部分ではないことを示している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:54:19 GMT)
Analyzing Uncertainty Quantification in Statistical and Deep Learning Models for Probabilistic Electricity Price Forecasting [0.0] 本研究では,最先端統計・深層学習確率予測モデルにおける不確実性の定量化について検討する。
我々は、ディープ分散ニューラルネットワーク(DDNN)を考察し、それらをアンサンブルアプローチ、モンテカルロ(MC)ドロップアウト、共形予測で強化する。
様々な性能指標から、LEARベースのモデルは確率的予測において良好に機能することがわかった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 15:20:03 GMT)
Adding numbers with spiking neural circuits on neuromorphic hardware: A building block for future hybrid systems [0.0] 我々はLavaソフトウェアフレームワークに様々なシーケンシャルおよび並列バイナリ加算器を実装し、それらをニューロモルフィックチップであるLoihi 2にデプロイする。
本稿では、時間複雑性、ニューロン、シナプスリソース、および現在の実装で追加できる数値のビット幅の制約について述べる。
重要なのは、時間的複雑さと考慮された3つの加算器に必要なチップリソースという観点で、トレードオフに直面していることです。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 07:40:10 GMT)
Adaptive Learning in Spatial Agent-Based Models for Climate Risk Assessment: A Geospatial Framework with Evolutionary Economic Agents [0.0] 本稿では,気候リスクデータと進化学習を統合した新しいモデルを提案する。
RCP8.5 から2100 年までの河川洪水投射の枠組みを実証する。
以上の結果から,洪水に直接曝露していないエージェントでさえ,サプライチェーンの崩壊によって影響を受けやすいシステムリスクが明らかとなった。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 04:33:58 GMT)
Accurate and Efficient Prediction of Wi-Fi Link Quality Based on Machine Learning [0.0] 本稿では指数移動平均の線形結合に基づくデータ駆動モデルの性能評価を行う。
機器メーカーによる一般的な訓練を可能にするチャンネルに依存しないモデルは、競争力のある性能を示した。
本研究は,産業環境におけるWi-Fiの信頼性向上のための機械学習に基づく予測モデルの実践的展開に関する知見を提供する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 12:52:01 GMT)
AIRwaves at CheckThat! 2025: Retrieving Scientific Sources for Implicit Claims on Social Media with Dual Encoders and Neural Re-Ranking [0.0] Team AIRwavesはCLEF-2025 CheckThat! LabのSubtask 4bで2位にランクインした。
このベースラインを超えるために、 (i) E5-largeをベースとしたデュアルエンコーダを使用する第1ステージ、および (i) SciBERTクロスエンコーダを用いて、バッチとマイニングされたハードネガを使用して微調整を行い、チャンクトークン化とリッチドキュメントメタデータによって強化された第1ステージ、 (ii) ニューラルネットワーク再ランクステージを導入する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 19:26:31 GMT)
A Verified Compiler for Quantum Simulation [0.0] ハミルトンシミュレーションは量子コンピューティングの中心的な応用である。
ハミルトンシミュレーションをコンパイルするための高レベル、正式に検証されたフレームワークであるQBlueを紹介する。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 03:00:35 GMT)
A Multimodal Conversational Assistant for the Characterization of Agricultural Plots from Geospatial Open Data [0.0] 本研究では,多モーダル検索と大規模言語モデル(LLM)を統合したオープンソースの対話型アシスタントを提案する。
提案したアーキテクチャは, 検索拡張生成(RAG)によるオクトロフォト, セチネル-2植生指標, およびユーザ提供文書を組み合わせたものである。
予備的な結果は、農業用クエリに対して明確で、関連性があり、コンテキスト対応の応答を生成することができることを示している。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 14:32:50 GMT)
A Knowledge Graph and a Tripartite Evaluation Framework Make Retrieval-Augmented Generation Scalable and Transparent [0.0] 本研究では,知識グラフとベクトル探索を用いて,文脈に富んだ応答を提供する検索型拡張生成(RAG)を提案する。
この研究の中心的な革新はRAG評価(RAG-Eval)の導入である。
RAG-Evalは、事実のギャップとクエリミスマッチを確実に検出し、高要求でデータ中心の環境への信頼を高める。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 16:29:22 GMT)
A Gradient Flow Approach to Solving Inverse Problems with Latent Diffusion Models [0.0] 我々は, 後方サンプリング問題を, 潜在空間におけるクルバック・リーブラー分岐の正規化ワッサーシュタイン勾配流として定式化する。
本稿では,StableDiffusion を用いた標準ベンチマークにおける本手法の性能を示す。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 17:41:43 GMT)
$\mathrm{SU}(3)$ Fermi-Hubbard gas with three-body losses: symmetries and dark states [0.0] 現場での3体損失を受けたフェルミ・ハバードガスについて検討した。
モデルは8つの独立した強い対称性を示し、気体の完全な枯渇を防ぐ。
半標準ヤングテーブルロー状態の基底を利用することで、定常状態の豊富な現象論の存在を明らかにする。
論文参考訳(メタデータ) (Tue, 23 Sep 2025 13:37:08 GMT)