SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.5] ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。
本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。
RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:16:45 GMT)
One Image is Worth a Thousand Words: A Usability Preservable Text-Image Collaborative Erasing Framework [127.1] 我々は、最初のテキストイメージ協調概念消去(Co-Erasing)フレームワークを紹介する。
Co-Erasingは、テキストプロンプトと、プロンプトによって誘導されるそれに対応する望ましくないイメージによって、この概念を共同で記述する。
我々は,テキストガイドによる画像概念の洗練戦略を設計し,特定のテキスト概念に最も関係のある視覚的特徴に焦点を当てるようモデルに指示する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:20:32 GMT)
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [126.0] 対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:19:30 GMT)
Community Moderation and the New Epistemology of Fact Checking on Social Media [124.3] ソーシャルメディアプラットフォームは伝統的に、誤解を招くコンテンツを識別しフラグを立てるために、独立した事実チェック組織に依存してきた。
X(元Twitter)とMetaは、クラウドソースのファクトチェックの独自のバージョンを立ち上げて、コミュニティ主導のコンテンツモデレーションに移行した。
主要なプラットフォーム間での誤情報検出の現在のアプローチについて検討し,コミュニティ主導型モデレーションの新たな役割を探求し,大規模クラウドチェックの約束と課題の両方を批判的に評価する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:50:18 GMT)
OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.9] OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。
提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:55:06 GMT)
MotionPro: A Precise Motion Controller for Image-to-Video Generation [108.6] 我々は、画像間(I2V)生成のための正確なモーションコントローラであるMotionProを提案する。
局所軌道と運動マスクは、微細な運動合成を制御するために用いられる。
WebVid-10MとMC-Benchで行った実験は、MotionProの有効性を実証している。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:59:03 GMT)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [104.0] モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:23:14 GMT)
Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots [103.5] 本稿では,いくつかの低解像度画像トークンから一般的な高密度画像トークンへの階層構造をモデル化する,新しい自己回帰設計を提案する。
階層型自己回帰モデル(Hi-MAR)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:59:07 GMT)
Exploring 3D Activity Reasoning and Planning: From Implicit Human Intentions to Route-Aware Planning [103.2] 3Dアクティビティの推論と計画は、暗黙の指示から意図されたアクティビティを推論し、ステップ間ルートでステップに分解し、シーンセグメンテーションからきめ細かい3Dオブジェクトの形状と位置のガイダンスの下で計画する新しい3Dタスクである。
ReasonPlan3Dは、多段階タスク計画、ステップ間経路計画、きめ細かなセグメンテーションのための暗黙的な命令と詳細なアノテーションで、多様な3Dシーンを網羅する大規模なベンチマークである。
大規模な実験は、暗黙の人間の指示による行動の推論、正確な段階的なタスクプランの作成、経路計画のシームレスな統合におけるベンチマークとフレームワークの有効性を実証している。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:38:26 GMT)
Learning to Reason without External Rewards [100.3] RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:01:06 GMT)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.6] 大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:07:21 GMT)
Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.2] 本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。
モデル入力に直接デモ例を埋め込む。
長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:49:44 GMT)
Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.0] Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:51:47 GMT)
A distillation-teleportation protocol for fault-tolerant QRAM [96.0] 本稿では,論理量子乱数アクセスメモリ(QRAM)をフォールトトレラント実装するためのプロトコルを提案する。
古典的メモリサイズ2n$をコヒーレントにアクセスするために、我々のプロトコルは、フォールトトレラントな量子リソースをわずか$mathrmpoly(n)$で消費する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:42:56 GMT)
FamilyTool: A Multi-hop Personalized Tool Use Benchmark [93.8] FamilyToolは、パーソナライズされたマルチホップツールの使用シナリオをシミュレートする、家族ベースのナレッジグラフ(KG)に基盤を置くベンチマークである。
実験により、最先端の大規模言語モデル(LLM)における顕著な性能ギャップが明らかになった
FamilyToolは、複雑な動的環境において、LLMエージェントの推論、適応性、スケーラビリティを評価し、前進するための重要なリソースとなる。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:57:37 GMT)
Alignment of large language models with constrained learning [93.2] 本研究では,制約付きアライメント問題に対する最適大言語モデル (LLM) ポリシーの計算問題について検討する。
我々はラグランジアン双対性を用いて、ラグランジアンによるポリシーの更新と双対降下による双対変数の更新を交互に交互に行う反復的双対ベースアライメント法を開発する。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:04:56 GMT)
Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models [92.9] 本稿では,Large Language Models (LLMs) を用いた教師なし単語セグメンテーションの限界を探索する新しいフレームワークを提案する。
我々は,LLMの「理解」を評価するために,複数の言語にまたがる単語セグメンテーションを行うために,現在主流のLLMを使用している。
本研究では,文脈情報に基づく動的$n$-gramモデルの構築を可能にする,LACAと呼ばれる新しい教師なし手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:48:15 GMT)
Multimodal 3D Reasoning Segmentation with Complex Scenes [92.9] シーン内の複数のオブジェクトによるセグメンテーションを推論するための3次元推論セグメンテーションタスクを提案する。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,複数のオブジェクトのクエリを扱う新しい3D推論ネットワークMORE3Dを設計する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:33:36 GMT)
Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.6] マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:14:02 GMT)
Corrupted but Not Broken: Understanding and Mitigating the Negative Impacts of Corrupted Data in Visual Instruction Tuning [92.2] マルチモーダル大言語モデル(MLLM)における劣化データの影響について検討する。
劣化したデータはモデル性能を劣化させるが、そのような悪影響は大部分が可逆的である。
破損したデータの影響を緩和する既存の戦略をはるかに上回る汚職・汚職訓練パラダイムを導入する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:24:41 GMT)
Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.1] CCFRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。
ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。
テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:49:03 GMT)
MixBridge: Heterogeneous Image-to-Image Backdoor Attack through Mixture of Schrödinger Bridges [90.5] MixBridgeは任意の入力分布に対応する新しい拡散Schr"odinger Bridge (DSB) フレームワークである。
画像ペアを直接トレーニングすることで,バックドアトリガをMixBridgeに注入可能であることを示す。
本稿では,異なるブリッジを混在させるディバイド・アンド・マージ戦略を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:54:13 GMT)
X-GRM: Large Gaussian Reconstruction Model for Sparse-view X-rays to Computed Tomography [89.8] Computed Tomographyは臨床において必須のツールであり、内部解剖学的構造を非侵襲的に可視化する。
既存のCT再構成作業は、小さなキャパシティモデルアーキテクチャと非フレキシブルボリューム表現に限られている。
スパースビュー2次元X線プロジェクションから3次元CTボリュームを再構成する大規模なフィードフォワードモデルであるX-GRMを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:57:30 GMT)
What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.4] DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。
自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。
DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:00:10 GMT)
Training a Generally Curious Agent [86.8] Paprikaは、言語モデルが一般的な意思決定機能を開発することを可能にする微調整のアプローチである。
Paprika氏は、より勾配の更新をすることなく、コンテキスト内の環境フィードバックに基づいて、新しいタスクで彼らの振る舞いを探索し、適応するようにモデルに教えている。
結果は、シーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:29:19 GMT)
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.8] 本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:56:30 GMT)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7] MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:20:21 GMT)
DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.2] 大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。
本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。
公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:51:17 GMT)
ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.1] 大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:27:27 GMT)
APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5] 我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:19:40 GMT)
Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.8] 大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。
本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。
構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:57:08 GMT)
Towards Fully FP8 GEMM LLM Training at Scale [77.4] 既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:04:14 GMT)
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization [77.4] コンピュータビジョン(CV)は自然言語処理(NLP)で観測されるゼロショットタスクの一般化をまだ完全に達成していない
本稿では,ゼロショットタスクの一般化において重要な障壁となる離散的・用語的タスク定義をCVが採用するという考えを考察する。
我々の仮説は、これらの用語的定義により、以前に見いだされたタスクを真に理解せずに、ディープモデルは新しいタスクに一般化するのに苦労する、というものである。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:46:44 GMT)
Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.1] 我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:05:10 GMT)
FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.5] MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:46:53 GMT)
MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.4] 自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:37:41 GMT)
Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.2] 既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:25:01 GMT)
TokBench: Evaluating Your Visual Tokenizer before Visual Generation [75.4] さまざまな画像トークンやVAEに対して,テキストと顔の復元品質をさまざまな尺度で分析する。
以上の結果から, 現代の視覚トークン化器は, 特に小規模では, 細粒度保存に苦慮していることが明らかとなった。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:30:39 GMT)
GenKI: Enhancing Open-Domain Question Answering with Knowledge Integration and Controllable Generation in Large Language Models [75.3] オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:18:33 GMT)
WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [74.8] 有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:03:37 GMT)
Advanced long-term earth system forecasting by learning the small-scale nature [74.2] 私たちは、この根本的な課題に対処するために設計されたAIフレームワークであるTritonを紹介します。
数値モデルにおける小さなスケールを明示的に解決するグリッドの増加に触発されたTritonは、スペクトルバイアスを軽減するために、複数の解像度にわたって階層的なアーキテクチャ処理情報を使用する。
我々は,トライトンによる挑戦的な予測課題における優れた性能,安定な1年間の世界気温予測,120日間の熟練した黒潮渦予測,高忠実乱流シミュレーションを実証した。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:49:00 GMT)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.2] 大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:27:55 GMT)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.0] In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:34:30 GMT)
Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.8] 我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。
MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:13:07 GMT)
AdaTP: Attention-Debiased Token Pruning for Video Large Language Models [73.7] ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は, 映像理解タスクにおいて顕著な成果を上げている。
それらは、複数のビデオフレームから生成される大量の視覚トークンのために、計算上のオーバーヘッドに悩まされることが多い。
AdaTPは2つの専用デバイアスモジュールをパイプラインに統合し、グローバルなアテンションバイアスとローカルなアテンションバイアスをターゲットとする。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:08:37 GMT)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.1] 複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:01:08 GMT)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [72.0] VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:56:07 GMT)
Capability-Based Scaling Laws for LLM Red-Teaming [71.9] 従来のプロンプト・エンジニアリングのアプローチは、レッド・チーム化が弱々しく強い問題となると、効果が低下する可能性がある。
我々は,LLMをベースとしたアタッカー・ターゲットペア500以上を,人間のレッドチームの模倣したジェイルブレイク攻撃を用いて評価した。
我々は、攻撃目標能力のギャップに基づいて、固定目標に対する攻撃成功を予測するジェイルブレイクスケーリング法を導出する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:05:41 GMT)
RESTOR: Knowledge Recovery in Machine Unlearning [71.8] Webスケールコーパスでトレーニングされた大規模な言語モデルは、プライベートまたはセンシティブな情報を含むことができる。
このようなデータポイントの効果を排除するために、いくつかの機械学習アルゴリズムが提案されている。
機械学習評価のためのRESTORフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:51:41 GMT)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.6] 大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:45:35 GMT)
HAODiff: Human-Aware One-Step Diffusion via Dual-Prompt Guidance [71.6] 人中心画像は、伝達中に重篤な遺伝子劣化に悩まされ、ヒトの運動のぼかし(HMB)に起因することが多い
我々は,HMBと汎用雑音の共存をシミュレートした分解パイプラインを設計し,提案したHAODiffをトレーニングするための合成劣化データを生成する。
公平な評価のために,ノイズとHMBの併用に富んだベンチマークMPII-Testを導入する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:24:11 GMT)
Probabilistic Interactive 3D Segmentation with Hierarchical Neural Processes [71.3] 本稿では,これらの課題に対処するためのニューラル・プロセス(NP)に基づく新しい確率的フレームワークNPISeg3Dを提案する。
NPISeg3Dは、シーン固有およびオブジェクト固有の潜在変数を持つ階層的な潜在変数構造を導入し、少数ショットの一般化を強化している。
我々は,オブジェクト固有の潜伏変数を用いたクリックプロトタイプを適応的に変調するプロトタイプモジュレータを設計し,オブジェクト認識コンテキストをキャプチャするモデルの能力を向上させる。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:46:50 GMT)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.9] 大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:36:38 GMT)
REARANK: Reasoning Re-ranking Agent via Reinforcement Learning [69.8] 本稿では,大規模言語モデル(LLM)に基づくリストワイズ推論エージェントREARANKを提案する。
REARANKは、リランク前の明確な理由と、パフォーマンスと解釈性の両方を大幅に改善した。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:31:48 GMT)
OmniSVG: A Unified Scalable Vector Graphics Generation Model [69.6] 我々は、エンドツーエンドのマルチモーダルSVG生成に事前訓練されたビジョンランゲージモデルを活用する統一フレームワークであるOmniSVGを提案する。
SVGコマンドと座標を離散トークンにパラメタ化することにより、OmniSVGは複雑なSVG構造の合成を維持しながら、低レベルの幾何学から構造論理を分離し、効率的なトレーニングを行う。
本稿では,200万の注釈付きSVGアセットを持つマルチモーダルデータセットMMSVG-2Mと,条件付きSVG生成タスクの標準化された評価プロトコルを紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:55:52 GMT)
Compile Scene Graphs with Reinforcement Learning [69.4] 次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:35:23 GMT)
Stuffed Mamba: Oversized States Lead to the Inability to Forget [69.4] Mambaベースのモデルは、内蔵の忘れ物機構であっても、以前のトークンを効果的に忘れるのに苦労していることを示す。
モデルの学習に必要な最小トレーニング長は状態サイズと線形に一致し,5桁パスキーの精度向上のための最大コンテキスト長は状態サイズと指数関数的に一致した。
我々の研究は、将来のRNN設計は、状態サイズ、トレーニング期間、長いコンテキストタスクにおいて堅牢なパフォーマンスを達成するためのメカニズムを忘れることの間の相互作用を考慮しなければならないことを示唆している。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:14:09 GMT)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.6] マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:19:15 GMT)
DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.6] DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。
本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。
複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:55:14 GMT)
Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.3] 本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:28:17 GMT)
Task-Oriented Low-Label Semantic Communication With Self-Supervised Learning [67.1] タスク指向の意味コミュニケーションは、正確なメッセージではなく意味情報を伝達することで伝達効率を高める。
深層学習(DL)に基づく意味コミュニケーションは、意味抽出、伝達、解釈に不可欠な意味知識を効果的に育むことができる。
タスク推論性能を向上させるための自己教師付き学習ベースセマンティックコミュニケーションフレームワーク(SLSCom)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:06:18 GMT)
The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants [66.7] 我々は、オープンソースのより小さな言語モデルの集合的インテリジェンスを効果的に活用する簡単なレシピであるAvengersを紹介します。
10のオープンソースモデル(それぞれ7Bパラメータ)により、Avengersは15のデータセットのうち10でGPT-4.1を上回っている。
特に数学タスクでは GPT-4.1 を 18.21% 、コードタスクでは 7.46% で上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:29:42 GMT)
Parrot: Multilingual Visual Instruction Tuning [66.7] 既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:47:46 GMT)
Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.6] NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:01:06 GMT)
Long-Context State-Space Video World Models [66.3] 本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:12:41 GMT)
Cancer-Net PCa-Seg: Benchmarking Deep Learning Models for Prostate Cancer Segmentation Using Synthetic Correlated Diffusion Imaging [65.8] 前立腺癌(PCa)は米国で最も多いがんであり、約30,000人、全診断の29%、2024年に35,000人が死亡した。
前立腺特異的抗原 (PSA) 検査やMRI (MRI) などの従来のスクリーニング法は診断において重要であるが、特異性や一般化性には限界がある。
U-Net, SegResNet, Swin UNETR, Attention U-Net, LightM-UNetといった最先端のディープラーニングモデルを用いて200ドルのCDIから前立腺を抽出する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:28:35 GMT)
What You Perceive Is What You Conceive: A Cognition-Inspired Framework for Open Vocabulary Image Segmentation [65.8] オープン語彙のイメージセグメンテーションは、推論時に動的に調整可能で事前定義された新しいカテゴリを認識するという課題に取り組む。
既存のパラダイムは通常、クラスに依存しない領域のセグメンテーションを実行し、続いてカテゴリマッチングを行い、領域のセグメンテーションとターゲット概念の整合性が劣る。
人間の視覚認識過程をエミュレートするオープン語彙画像セグメント化のための新しい認知刺激フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:33:48 GMT)
On Path to Multimodal Historical Reasoning: HistBench and HistAgent [65.4] HistBenchは、AIの歴史的推論能力を評価するために設計された、414の高品質な質問の新しいベンチマークである。
タスクは、一次資料に基づく事実検索から、原稿や画像の解釈分析まで、幅広い歴史的問題にまたがる。
我々は、OCR、翻訳、アーカイブ検索、ヒストリーにおける画像理解のための慎重に設計されたツールを備えたヒストアジェント(HistAgent)を提示する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:22:20 GMT)
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.3] テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:42:41 GMT)
KnowTrace: Bootstrapping Iterative Retrieval-Augmented Generation with Structured Knowledge Tracing [64.4] 我々は、大規模言語モデルにおけるコンテキスト過負荷を軽減するためのエレガントなRAGフレームワークであるKnowTraceを紹介する。
KnowTraceは、必要な知識三つ子を自律的に追跡して、入力された質問に関連する特定の知識グラフを整理する。
3つのマルチホップ質問応答ベンチマークで、既存のメソッドを一貫して上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:22:20 GMT)
InfoBridge: Mutual Information estimation via Bridge Matching [64.1] 拡散ブリッジ理論を用いることで,従来のMI推定器では困難であるデータに対する非バイアス推定器を構築することができることを示す。
我々は,2つの標準MI推定ベンチマーク(低次元および画像ベース,実世界のデータ)において,推定器の性能を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:35:24 GMT)
Risk-Averse Reinforcement Learning with Itakura-Saito Loss [63.6] リスク回避エージェントはリスクを最小限に抑えるポリシーを選択し、時には期待される価値を犠牲にする。
状態値と行動値の関数を学習するために,板倉-斎藤偏差に基づく数値的に安定かつ数学的に損失関数を導入する。
実験セクションでは、既知の解析解を含む複数のシナリオを探索し、その損失関数が代替よりも優れていることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:58:03 GMT)
Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.5] 分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。
局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。
最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:39:41 GMT)
Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent [63.4] 非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:31:01 GMT)
ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.8] 本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:03:32 GMT)
R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning [62.7] Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。
我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:25:37 GMT)
Multi-Agent Collaboration via Evolving Orchestration [61.9] 大規模言語モデル(LLM)は、様々な下流タスクで顕著な成果を上げているが、そのモノリシックな性質は複雑な問題解決におけるスケーラビリティと効率を制限している。
LLMをベースとしたマルチエージェントコラボレーションのためのパウチスタイルのパラダイムを提案し、中央オーケストレータがタスク状態の進化に応じてエージェントを動的に指示する。
クローズドドメインおよびオープンドメインシナリオの実験により,この手法は計算コストを低減し,優れた性能が得られることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:02:17 GMT)
Can Large Vision-Language Models Correct Semantic Grounding Errors By Themselves? [61.9] 本稿では,視覚言語モデル(VLM)が,フィードバックの「受信」によって意味的接地を改善することができるかどうかを検討する。
適切に刺激すれば、VLMは1ステップと反復の両方でフィードバックを活用できる。
検討したすべての設定において、すべてのモデルにまたがる自動フィードバックを用いて、基底精度を一貫して改善することを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:40:41 GMT)
Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.6] LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:11:12 GMT)
Zero-Trust Foundation Models: A New Paradigm for Secure and Collaborative Artificial Intelligence for Internet of Things [61.4] Zero-Trust Foundation Models (ZTFM)は、ゼロトラストセキュリティの原則をIoT(Internet of Things)システムの基盤モデル(FM)のライフサイクルに組み込む。
ZTFMは、分散、異質、潜在的に敵対的なIoT環境にわたって、セキュアでプライバシ保護のAIを可能にする。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:44:31 GMT)
Continuous-Time Analysis of Heavy Ball Momentum in Min-Max Games [60.9] min-maxゲームにおける更新スキームを同時かつ交互に行うHBの連続時間解析について述べる。
より広いステップサイズで局所収束を可能にすることにより、より小さな運動量によってアルゴリズムの安定性が向上することを示す。
グローバルに,HBの暗黙的な正則化について検討し,損失景観の浅い斜面領域へ向けて,より小さな運動量ガイドアルゴリズムの軌跡を求める。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:55:16 GMT)
Inference-time Alignment in Continuous Space [60.2] 推論時間アライメントのための単純で効果的なアルゴリズムであるSimple Energy Adaptation(textbfSEA$)を提案する。
SEAは、連続潜時空間における勾配に基づくサンプリングを通じて、基本ポリシーから最適なものへの元の応答を適応する。
例えば、SEAはAdvBenchで最大$textbf77.51%$、MATHで$textbf16.36%$で2番目に高いベースラインを上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:58:33 GMT)
AstroVisBench: A Code Benchmark for Scientific Computing and Visualization in Astronomy [59.3] AstroVisBenchは天文学領域における科学計算と可視化の両方のための最初のベンチマークである。
本稿では,最先端言語モデルの評価を行い,天文学研究に有用なアシスタントとして携わる能力に大きなギャップがあることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:49:18 GMT)
Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.6] 結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:44:08 GMT)
Explanatory Summarization with Discourse-Driven Planning [58.4] 本稿では、談話フレームワークを活用して要約生成を整理し、説明文を案内するプランベースアプローチを提案する。
具体的には、2つの談話型計画戦略を提案し、そこでは、計画が出力プレフィックスの入力または部分の一部として条件付けられている。
3つのレイ・サマリゼーション・データセットに関する実証実験により,本手法は要約品質の観点から既存の最先端手法よりも優れていることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:22:33 GMT)
HRP: High-Rank Preheating for Superior LoRA Initialization [58.3] ハイランク予熱 (HRP) はローランク適応 (LoRA) を数ステップで運転する。
HRPは様々なモデルやタスクにおいてLoRAの有効性を大幅に向上させる。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:53:14 GMT)
Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.3] Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:05:16 GMT)
Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.0] 事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:21:20 GMT)
Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.3] 時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:59:02 GMT)
SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety [57.1] 我々は,政策学習の単一段階において,安全アライメント目標を直接最適化するSafeDPOという新しいアルゴリズムを導入する。
その結果、個別の報酬モデルとコストモデル、あるいは微調整中に言語モデルからサンプルを採取する必要がなくなる。
SafeDPOは,最先端の安全アライメントアルゴリズムと比較して,競争性能が向上することを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:50:01 GMT)
SCAR: Shapley Credit Assignment for More Efficient RLHF [57.1] ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大規模言語モデルと人間の嗜好を整合させる手法として広く用いられている。
報酬の少ない信号に悩まされることが多く、効果的なクレジットの割り当てに挑戦する。
協調ゲーム理論におけるシェープリー値を利用する新しい手法であるシェープリークレジット割当てリワード(SCAR)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:06:52 GMT)
KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.1] 本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:38:02 GMT)
Semi-Supervised Model-Free Bayesian State Estimation from Compressed Measurements [57.0] 圧縮測定によるベイズ状態の推定について考察する。
時間的測定ベクトルの寸法は、推定される時間的状態ベクトルの寸法よりも小さい。
状態の進化の基盤となる力学モデルは「モデルフリープロセス」では未知数である。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:10:07 GMT)
MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.9] 大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:49:45 GMT)
Agentic Predictor: Performance Prediction for Agentic Workflows via Multi-View Encoding [56.6] Agentic Predictorは、効率的なエージェントワークフロー評価のための軽量な予測器である。
Agentic Predictorはタスク成功率の近似を学ぶことで、最適なエージェントワークフロー構成の迅速かつ正確な選択を可能にする。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:46:50 GMT)
HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense Reasoning [56.2] 大規模言語モデル(LLM)は、常識推論において顕著な能力を示している。
これらのモデルは、本当に常識的知識を理解しているのか、あるいは単に表現パターンを記憶しているだけなのか?
11,200のケースからなる大規模バイリンガルベンチマークであるHellaSwag-Proを紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:52:24 GMT)
EgoZero: Robot Learning from Smart Glasses [56.0] EgoZeroはProject Ariaスマートグラスで捉えた人間のデモから堅牢な操作ポリシーを学ぶ。
EgoZeroのポリシーをFranka Pandaロボットにデプロイし、7つの操作タスクに対して70%の成功率でゼロショット転送を実演する。
この結果から,実世界におけるロボット学習のためのスケーラブルな基盤として,現在地にある人間のデータを活用できることが示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:59:17 GMT)
Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.7] Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:42:30 GMT)
CoTGuard: Using Chain-of-Thought Triggering for Copyright Protection in Multi-Agent LLM Systems [55.6] 我々は、Chain-of-Thought推論内でトリガーベースの検出を活用する著作権保護のための新しいフレームワークであるCoTGuardを紹介する。
具体的には、特定のCoTセグメントをアクティベートし、特定のトリガクエリをエージェントプロンプトに埋め込むことで、未許可コンテンツ再生の中間的推論ステップを監視する。
このアプローチは、協調エージェントシナリオにおける著作権侵害の微細かつ解釈可能な検出を可能にする。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:42:37 GMT)
FedHERO: A Federated Learning Approach for Node Classification Task on Heterophilic Graphs [55.5] Federated Graph Learning(FGL)は、クライアントがグラフニューラルネットワーク(GNN)を分散的にトレーニングすることを可能にする。
FGL法は通常、全てのクライアントが所有するグラフデータが、類似したノードの分布パターンを保証するためにホモフィリックであることが要求される。
異種グラフからの洞察を効果的に活用し、共有するために設計されたFGLフレームワークであるFedHEROを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:53:07 GMT)
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.4] 我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:51:00 GMT)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2] LISTENは、現在と欠落した音を識別するallMsの能力を改善するために設計された、コントラスト的な訓練手法である。
また、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、統一的なキャプションを生成する。
実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に保ちながら,音声の幻覚を効果的に緩和することが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:08:41 GMT)
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly [55.1] 長文視覚言語モデル(LCVLM)は、数百の画像を1つのフォワードパスでインターリーブされたテキストトークンで処理することができる。
MMLongBenchは、様々な長いコンテキストの視覚言語タスクをカバーする最初のベンチマークである。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:29:07 GMT)
HPS: Hard Preference Sampling for Human Preference Alignment [55.1] HPS(Hard Preference Sampling)は、堅牢で効率的な人間の選好アライメントのための新しいフレームワークである。
HPSはアライメント品質を維持しながら計算オーバーヘッドを低減する。
HH-RLHFとPKU-Safetyデータセットの実験はHPSの有効性を検証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:36:07 GMT)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.6] MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:31:26 GMT)
TDVE-Assessor: Benchmarking and Evaluating the Quality of Text-Driven Video Editing with LMMs [54.4] テキスト駆動ビデオ編集のための大規模ベンチマークデータセットであるTDVE-DBを紹介する。
TDVE-DBは8つの編集カテゴリにまたがる12の多様なモデルから生成される3,857の編集ビデオで構成されている。
テキスト駆動ビデオ編集評価に特化して設計された新しいVQAモデルであるTDVE-Assessorを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:47:09 GMT)
LogiCoL: Logically-Informed Contrastive Learning for Set-based Dense Retrieval [54.3] 我々は,高密度検索のための論理的インフォームド・コントラスト学習対象であるLogiCoLを紹介する。
結果から,LogiCoLで学習したモデルでは,検索性能と論理的整合性の両面で改善が見られた。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:00:32 GMT)
HazyDet: Open-Source Benchmark for Drone-View Object Detection with Depth-Cues in Hazy Scenes [54.2] HazyDetは、ヘイジーな環境でドローンビューオブジェクトを検出するために特別に設計された、最初の大規模ベンチマークである。
本稿では,迷路による視覚劣化に対処するため,Depth-Conditioned Detector (DeCoDet)を提案する。
HazyDetは、検出アルゴリズムを前進させるための挑戦的で現実的なテストベッドを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:15:33 GMT)
When can isotropy help adapt LLMs' next word prediction to numerical domains? [54.0] 文脈埋め込み空間におけるLLM埋め込みの等方性は、表現の基盤構造をいかに保っているかを示す。
実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響を与える可能性が示されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:55:16 GMT)
Query Performance Prediction using Relevance Judgments Generated by Large Language Models [54.0] 自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:57:10 GMT)
ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.9] 大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:23:26 GMT)
Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding [53.8] Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。
我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:04:39 GMT)
CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [53.2] 2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。
CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。
我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:09:33 GMT)
GTR: Graph-Table-RAG for Cross-Table Question Answering [53.1] テーブルコーパスをヘテロジニアスグラフに再構成するグラフテーブル-テーブル-RAG フレームワーク GTR を提案する。
GTRは、高いデプロイメント効率を維持しながら、より優れたクロステーブル質問応答性能を示し、実際の実用性を示している。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:24:53 GMT)
Agents Require Metacognitive and Strategic Reasoning to Succeed in the Coming Labor Markets [53.0] 労働市場は、不適切な選択、モラルハザード、評判の経済力に影響を受けている。
エージェントはメタ認知的および戦略的推論を使用して効果的に実行する必要がある。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:22:04 GMT)
MiniLongBench: The Low-cost Long Context Understanding Benchmark for Large Language Models [52.6] 長期文脈理解(Long Context Understanding、LCU)は、現在の大言語モデル(LLM)における探索の重要な領域である。
LLMの既存のLCUベンチマークは、しばしば非常に高い評価コストをもたらす。
本稿では,スパース情報特性を持つ長文データに適した簡潔なデータ圧縮手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:21:18 GMT)
FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.5] FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:21:46 GMT)
GeoEdit: Geometric Knowledge Editing for Large Language Models [52.4] 大規模言語モデル(LLM)における最新の知識を維持するためには、定期的な更新が不可欠である。
幾何学的知識編集(GeoEdit)と呼ばれる新しいフレームワークを提案する。
GeoEditは、新しい知識更新に関連するニューロンと、一般的な知識摂動に関連するニューロンを区別する。
残りのニューロンに対しては、整列方向の古知識と新知識を統合し、反対方向の「forget-then-learn」編集戦略を適用した。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:57:20 GMT)
From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [52.3] 人間は知識をセマンティック圧縮によってコンパクトなカテゴリに分類する。
大規模言語モデル(LLM)は、顕著な言語能力を示す。
しかし、その内部表現が、圧縮と意味的忠実性の間の人間のようなトレードオフにぶつかるかどうかは不明だ。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:13:36 GMT)
Faster and Better LLMs via Latency-Aware Test-Time Scaling [52.1] テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。
既存の研究は、レイテンシに敏感な観点から、TSの効率性を見落としている。
計算最適TSは、レイテンシが重要となるシナリオにおいて、必ずしも最低レイテンシをもたらすとは限らないことを実証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:51:30 GMT)
T^2Agent A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search [51.9] 多重モーダル誤報は、しばしば混合偽造源から発生し、動的推論と適応的検証を必要とする。
我々はモンテカルロ木探索を用いたツールキットを組み込んだ新しい誤情報検出剤T2Agentを提案する。
大規模な実験により、T2Agentは、混在するマルチモーダル誤報ベンチマークにおいて、既存のベースラインを一貫して上回っていることが示されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:50:55 GMT)
DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.9] DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。
本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:45:12 GMT)
Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.9] 分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布推定が消失することを示し,推定分布が急速に平均に崩壊することを実証的に観察した。
我々は,$L$の学習効率に感化され,効率のよい学習方法として,返却分布の期待値と量子値を共同で学習することを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:13:18 GMT)
Measure Domain's Gap: A Similar Domain Selection Principle for Multi-Domain Recommendation [51.7] MDR(Multi-Domain Recommendation)は、異なるドメイン間での転送情報を効果的に活用することにより、望ましいレコメンデーションパフォーマンスを実現する。
本稿では,マルチドメインレコメンデーションのためのシンプルで動的な類似ドメイン選択原理(SDSP)を提案する。
SDSPは既存のMDRメソッドに組み込んだ軽量な手法であり、性能が向上し、過度な時間オーバーヘッドを発生させないことを強調する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:07:31 GMT)
CLEVRER-Humans: Describing Physical and Causal Events the Human Way [51.7] CLEVRER-Humansベンチマークは,人間ラベルを用いた物理的事象の因果判定のためのビデオデータセットである。
まず、ビデオ内のイベントを新たに表現するための、新しい反復的なイベントクローゼタスク、すなわち、Causal Event Graphs (CEGs) と呼ぶもので、第2に、ニューラルネットワーク生成モデルに基づくデータ拡張技術である。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:59:23 GMT)
PAMD: Plausibility-Aware Motion Diffusion Model for Long Dance Generation [51.3] Plausibility-Aware Motion Diffusion (PAMD)は、音楽的に整列し、物理的に現実的なダンスを生成するためのフレームワークである。
生成時により効果的なガイダンスを提供するために、プリエント・モーション・ガイダンス(PMG)を取り入れる。
実験により、PAMDは音楽のアライメントを著しく改善し、生成した動きの物理的妥当性を高めることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:44:09 GMT)
Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.2] 本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:54:02 GMT)
Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.9] Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。
近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:25:25 GMT)
Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.4] リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:17:07 GMT)
Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration [50.4] 長いきめの細かいビデオオーディオ推論ときめ細かいピクセルは、全方位モデルに矛盾する要求を課す。
我々は,このトレードオフを2システムアーキテクチャで解決する:グローバル推論システムは,情報を選択し,空間的コストでタスクを書き換える一方,詳細理解システムはピクセルレベルのグラウンド化を行う。
最適ホライゾンの選択と改革は曖昧で監督が難しいため、強化学習(RL)問題として定式化し、グループ相対政策に基づくエンドツーエンドのRLフレームワークであるOmni-R1を提示する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:34:06 GMT)
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.2] 伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:53:02 GMT)
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.1] Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:56:59 GMT)
STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs [49.4] MLLM(Multimodal Large Language Models)は、様々なタスクにまたがる顕著な能力を示すが、空間的推論において人間よりもはるかに遅れている。
このギャップを変換駆動型視覚推論(TVR)を用いて検討する。
本稿では,STAR-R1を提案する。STAR-R1は単一ステージのRLパラダイムとTVRに適した微細な報酬機構を統合した新しいフレームワークである。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:00:12 GMT)
Improving Multilingual Math Reasoning for African Languages [49.3] データタイプ(翻訳と合成)、トレーニングステージ(事前学習と後学習)、その他のモデル適応構成の異なる組み合わせを評価する実験を行う。
実験では,Llama 3.1 モデルファミリをベースモデルとして,数学的推論タスクに着目した。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:35:01 GMT)
Rhapsody: A Dataset for Highlight Detection in Podcasts [49.2] Rhapsodyは、YouTubeで最も再生されたエピソードのセグメントレベルのハイライトと組み合わせた機能です。
ポッドキャストハイライト検出をセグメントレベルのバイナリ分類タスクとして設定する。
ドメイン内のデータを微調整したモデルは、ゼロショットのパフォーマンスを大幅に上回る。
これらの結果は,長文音声メディアにおけるきめ細かい情報アクセスの課題を浮き彫りにした。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:39:34 GMT)
Win Fast or Lose Slow: Balancing Speed and Accuracy in Latency-Sensitive Decisions of LLMs [48.7] 大規模言語モデル(LLM)は、様々な推論や生成タスクで顕著なパフォーマンスを示している。
この研究は、リアルタイム意思決定タスクにおいて、このレイテンシ品質のトレードオフに関する最初の体系的な研究を示す。
実時間要求に基づいてモデルサイズと量子化レベルを動的に選択する適応型フレームワークFPXを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:03:48 GMT)
Seeing Through Deception: Uncovering Misleading Creator Intent in Multimodal News with Vision-Language Models [48.2] 本稿では,創造者の意図を明示的にモデル化することで,現実のマルチモーダルニュース作成をシミュレートする自動化フレームワークを提案する。
DeceptionDecodedは、信頼できる参照記事と一致した12,000のイメージキャプチャペアからなるベンチマークである。
我々は3つの意図中心のタスクに対して、14の最先端ビジョン言語モデル(VLM)の包括的な評価を行う。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:51:52 GMT)
Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs [48.2] 大型言語モデル(LLM)における実名幻覚
不正確なコンテンツや偽造コンテンツを生成することによって、信頼性とユーザ信頼を損なう。
近年の研究では、偽文を生成する際、LLMの内部状態が真偽に関する情報を符号化していることが示唆されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:30:08 GMT)
Unsupervised Anomaly Detection Using Diffusion Trend Analysis for Display Inspection [48.2] 本稿では, 劣化度に応じて, 復元傾向の分析により異常を検出する手法を提案する。
本稿では,劣化度に応じて再構成傾向の分析により異常を検出する手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:10:43 GMT)
Cheems: A Practical Guidance for Building and Evaluating Chinese Reward Models from Scratch [48.0] リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合に不可欠である。
CheemsBenchは、中国の文脈における完全な人間によるRM評価ベンチマークである。
CheemsPreferenceは、人間と機械のコラボレーションを通じて注釈付けされた大規模で多様な好みデータセットである。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:44:06 GMT)
OpenAD: Open-World Autonomous Driving Benchmark for 3D Object Detection [47.9] 本稿では,3次元物体検出のためのオープンワールド自動走行ベンチマークOpenADを紹介する。
OpenADは、マルチモーダルな大規模言語モデル(MLLM)と統合されたコーナーケースの発見とアノテーションパイプライン上に構築されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:01:58 GMT)
MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.5] 大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:55:49 GMT)
On-Policy Self-Alignment with Fine-grained Knowledge Feedback for Hallucination Mitigation [47.4] 幻覚は、大きな言語モデルが応答生成時の知識の境界から逸脱する振る舞いを示すときに起こる。
従来の学習に基づく手法はモデルを微調整しようとするが、非政治的なサンプリングと粗い粒度のフィードバックによって制限される。
RLFHは、LLMが自らの知識境界と自己正しい生成挙動を積極的に探求することを可能にする、政治上の自己調整手法である。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:22:40 GMT)
A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking [47.3] We propose Unified Video Fusion (UniVF), a novel framework for temporally coherent video fusion。
また,その開発を支援するために,ビデオフュージョンベンチマーク (VF-Bench) も導入した。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:45:10 GMT)
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models [47.1] ツール学習は、多種多様なツールで大きな言語モデルを強化し、実践的なタスクを解決するエージェントとして機能することを目的としている。
ツール利用LLMのコンテキスト長が限られているため、大きなツールセットから有用なツールを選択するために情報検索(IR)モデルを採用することが重要な初期ステップである。
ほとんどのツール使用ベンチマークは、実際のシナリオとは程遠いタスクごとに、小さなツールセットを手動で注釈付けすることで、このステップを単純化している。
多様な検索タスク7.6kと43kツールのコーパスからなる異種ツール検索ベンチマークであるToolRetを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:19:40 GMT)
Exploring Consciousness in LLMs: A Systematic Survey of Theories, Implementations, and Frontier Risks [46.9] 意識は人間の心の最も深い特徴の1つである。
大規模言語モデル(LLM)が前例のないペースで発展するにつれ、知性と意識に関する疑問がますます重要になっている。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:40:52 GMT)
Topological nature of edge states for one-dimensional systems without symmetry protection [46.9] 我々は1次元近傍(単位セル間)のエッジ状態の数を正確に予測する巻数不変量を数値的に検証し、解析的に証明する。
我々の巻数はユニタリ変換や類似変換の下で不変である。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:31:06 GMT)
ARise: Towards Knowledge-Augmented Reasoning via Risk-Adaptive Search [46.8] ARiseは動的検索強化生成(RAG)と中間的推論状態のリスクアセスメントを統合する新しいフレームワークである
実験の結果、ARiseは最先端のKAR法を最大23.10%上回った。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:46:02 GMT)
Enigmata: Scaling Logical Reasoning in Large Language Models with Synthetic Verifiable Puzzles [46.7] エニグマタ(Enigmata)は,パズル推論スキルを備えた大規模言語モデルの改良に適した,最初の包括的スイートである。
これには、7つのカテゴリにわたる36のタスクが含まれており、それぞれが、制御可能な難易度を持つ無制限なサンプルを生成するジェネレータと、自動評価のためのルールベースの検証器を備えている。
私たちのトレーニングモデルであるQwen2.5-32B-Enigmataは、パズル推論ベンチマークにおいて、o3-mini-highとo1を一貫して上回ります。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:40:31 GMT)
FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [46.6] DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。
FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。
複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:58:49 GMT)
Rotation-Equivariant Self-Supervised Method in Image Denoising [46.4] 本稿では,高精度な回転同変畳み込みを自己教師付き画像復調に導入する。
我々の知る限りでは、回転同変画像が自己監督画像に導入されたのはこれが初めてである。
そこで我々は,回転同変ネットワークとバニラCNNベースのネットワークの出力を融合させるマスク機構を設計した。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:32:52 GMT)
A Regularization-Guided Equivariant Approach for Image Restoration [46.4] 同変および不変なディープラーニングモデルは、データに固有の対称性を利用するために開発されている。
これらの手法は、しばしば限られた表現精度に悩まされ、実際には成り立たないような厳密な対称性の仮定に依存する。
本稿では,ネットワークの表現精度を保ちながら,データに対する適切な対称性制約を適応的に適用する回転同変正規化戦略を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:30:26 GMT)
UltraVSR: Achieving Ultra-Realistic Video Super-Resolution with Efficient One-Step Diffusion Space [46.4] UltraVSRは、超現実的で時間的コヒーレントなVSRを可能にするフレームワークである。
DRSは、分解過程を低解像度から高解像度のビデオから一段階の再構成に変換する。
RTSモジュールは、事前訓練されたテキスト-画像拡散モデルに統合される。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:19:27 GMT)
Bridging the Long-Term Gap: A Memory-Active Policy for Multi-Session Task-Oriented Dialogue [46.2] 既存のタスク指向対話(TOD)システムは、主にシングルセッション対話に焦点を当て、長期的なメモリ拡張におけるその有効性を制限する。
セッション間で長期記憶を維持するように設計された最初のマルチセッションTODデータセットであるMS-TODデータセットを紹介する。
これは、マルチセッションTODにおける長期メモリ評価のための新しいベンチマークタスクを定義する。
2段階のアプローチにより多セッション対話効率を向上させるメモリアクティベートポリシー(MAP)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:10:43 GMT)
LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.2] LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。
マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:22:41 GMT)
A Comprehensive Survey of Artificial Intelligence Techniques for Talent Analytics [46.0] タレント分析は人的資源管理に応用されたデータ科学において有望な分野として現れてきた。
ビッグデータと人工知能技術の最近の発展は、人的資源管理に革命をもたらした。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:53:59 GMT)
Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping [45.6] LVLM(Large Vision-Language Models)は、マルチモーダルタスクにまたがる顕著な機能を示す。
VLB(Vision-Language Bootstrapping)と呼ばれる動的マルチモーダル評価プロトコルを導入する。
VLBは、データ汚染の低減と柔軟性のある複雑さを伴うLVLMの堅牢で包括的な評価を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:31:04 GMT)
Faster and Stronger: When ANN-SNN Conversion Meets Parallel Spiking Calculation [45.6] スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率の高いネットワークであり、適切な学習フレームワークを探索する上で重要な課題に直面している。
並列スパイクニューロンの各時間ステップ間の数学的マッピング関係を確立する並列変換学習フレームワークを提案する。
超低レイテンシ下での各種変換事例に対する本手法の有効性を実験により確認した。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:19:47 GMT)
Automated Text-to-Table for Reasoning-Intensive Table QA: Pipeline Design and Benchmarking Insights [45.5] 本稿では,数式語問題をテーブルベースの推論タスクに変換する自動生成パイプラインAutoT2Tを提案する。
パイプラインは同じ推論問題に対して、堅牢性評価をサポートするノイズの多いバージョンを含む、テーブルの複数の変種を生成することができる。
AutoT2TとTabularGSMによる実験的分析により、複雑なテーブルQAタスクにおけるLCMの失敗の根底にある要因は、推論と検索と識別プロセスの密結合であることが明らかとなった。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:24:31 GMT)
The Best of Both Worlds: Bridging Quality and Diversity in Data Selection with Bipartite Graph [45.5] GraphFilterは、データ選択における品質と多様性のバランスをとる新しいアプローチです。
GraphFilterは、最優先の文を反復的に選択し、二部グラフからカバーされたn-gramを取り除き、優先度を再計算して、変化するデータランドスケープを反映する。
6つの広く使用されているベンチマークで3つのモデルバックボーンを使用してGraphFilterを検証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:41:16 GMT)
SAEs Are Good for Steering -- If You Select the Right Features [45.5] 現在の方法では、それらを活性化する入力トークンを分析して、SAEの機能をステアに識別する。
本研究では,主にモデル入力のパターンをキャプチャする入力特徴と,モデル出力に対する人間の理解可能な影響を持つ出力特徴の2つの特徴を区別する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:47:59 GMT)
Modeling Beyond MOS: Quality Assessment Models Must Integrate Context, Reasoning, and Multimodality [45.3] 平均オピニオンスコア(MOS)は、もはやマルチメディア品質評価モデルのための唯一の監督信号として不十分である。
品質評価を文脈的、説明可能、マルチモーダルなモデリングタスクとして再定義することで、より堅牢で、人間らしく、信頼性の高い評価システムへのシフトを触媒することを目指している。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:52:02 GMT)
Deriving Strategic Market Insights with Large Language Models: A Benchmark for Forward Counterfactual Generation [45.3] 大きな言語モデル(LLM)は、約束を提供するが、このアプリケーションには未検討のままである。
我々はFin-Force-FINancial Forward Counterfactual Evaluationという新しいベンチマークを導入する。
これにより、将来の市場展開を探索し、予測するためのスケーラブルで自動化されたソリューションの道を開くことができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:41:50 GMT)
Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models [45.3] 本稿では,視覚エンコーダのための新しいハード・ネガティブ・コントラスト学習フレームワークを提案する。
我々は,我々の強負学習手法であるMMCLIPを用いてCLIPを訓練し,幾何学的問題解決のためにLMMを訓練する。
実験により、我々のトレーニングされたモデルであるMMGeoLMは、3つの幾何学的推論ベンチマークにおいて、他のオープンソースモデルよりも大幅に優れていることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:55:28 GMT)
No Free Lunch: Non-Asymptotic Analysis of Prediction-Powered Inference [45.2] 平均推定問題に対して,PPI++の推定誤差を正確に有限サンプル解析する。
特に、PPI++は、擬似標準と金標準の相関が一定のレベル以上である場合にのみ、パフォーマンスが向上する。
実験では,PPI++の単一サンプルとサンプル分割型間のトレードオフに関する知見を解説し,提示する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:18:40 GMT)
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research [45.1] MLR-Benchは、オープンエンド機械学習研究においてAIエージェントを評価するための包括的なベンチマークである。
MLR-Benchは,(1)NeurIPS, ICLR, ICMLのさまざまなMLトピックを対象としたワークショップから得られた201のリサーチタスク,(2)LLMベースのレビュアーと慎重に設計されたレビュールーリックを組み合わせた自動評価フレームワーク,(3)MLR-Agent,研究タスクを4段階(アイデア生成,提案定式化,実験,論文執筆)で完了するモジュールエージェントの足場である。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:18:37 GMT)
A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models [45.1] Webのコンテキストでは、退屈な日々のタスクを扱う人々を支援するために、AI Agents -- WebAgents -- を活用することで、生産性と効率が劇的に向上する。
LFMの可能性を十分に探求するために、ユーザの指示に従って日々のWebタスクを完了させるように設計されたWebAgentsに広範な研究が登場した。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:05:18 GMT)
RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond [45.1] 本研究は,高速三角測量速度と優れた一般化機能に着目し,多視点多人数ポーズ推定を改善するアルゴリズムを提案する。
アプローチは全身のポーズ推定にまで拡張され、表情から複数の個人と視点にわたる指の動きまでの詳細を捉えている。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:10:42 GMT)
Molecular optomechanics with atomic antennas [45.0] ダイヤモンド中のゲルマニウム空孔欠陥は、励起過程を効率的に仲介することができる。
低温では、GeVの低散逸により、インシデントフィールドによって効率よく占有される。
原子アンテナを用いたラマン散乱は従来のラマン散乱と区別できることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:24:38 GMT)
Mesoscopic theory of the Josephson junction [45.0] ジョセフソン接合のメソスコピック理論は非相対論的スカラー電磁力学から導かれる。
電荷量子ハミルトニアンのab-initio導出を提供することにより、超伝導回路のサブナノメータースケールでの量子工学に向けて前進する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:28:14 GMT)
When fractional quasi p-norms concentrate [44.8] 高次元における距離の集中は、安定かつ信頼性の高いデータ解析アルゴリズムの開発と設計にとって重要な要素である。
分数準位$p$-ノルムが集中する条件と、そうでない条件を同定する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:53:51 GMT)
VSCBench: Bridging the Gap in Vision-Language Model Safety Calibration [44.7] 我々は、アンダーセーフとオーバーセーフの両方に体系的に対処する$textitsafety calibrationという概念を紹介した。
視覚的にもテキスト的にも似ているが安全性の点で異なる3,600枚の画像テキストペアからなる新しいデータセットを提示する。
本ベンチマークにより,広義の視覚言語モデル11種を対象に,安全性校正の評価を行った。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:01:46 GMT)
WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference [44.5] WINA(Weight Informed Neuron Activation)は、新しい、シンプルで、トレーニング不要なスパースアクティベーションフレームワークである。
WINAは,従来の手法よりも厳密な理論的保証を持つ最適近似誤差境界が得られることを示す。
また、最先端の手法(例えばTEAL)を同等の間隔で平均性能で2.94%まで上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:37:32 GMT)
MultLFG: Training-free Multi-LoRA composition using Frequency-domain Guidance [44.5] MultLFGは、トレーニング不要なマルチLORA合成のためのフレームワークである。
複数のLoRAの適応的な融合を実現するために周波数領域誘導を使用する。
様々なスタイルやコンセプトセットにまたがって、作曲の忠実さと画質を大幅に向上させる。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:05:28 GMT)
A Survey of LLM-based Agents in Medicine: How far are we from Baymax? [44.4] 大規模言語モデル(LLM)は、LLMベースのエージェントの開発を通じて医療を変革している。
この調査は、医学におけるLSMベースのエージェントの総合的なレビューを提供する。
医療エージェントシステムの主要な構成要素として, システムプロファイル, 臨床計画機構, 医療推論フレームワーク, 外的能力向上などについて分析する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:11:38 GMT)
ICDM: Interference Cancellation Diffusion Models for Wireless Semantic Communications [44.4] 拡散モデル(DM)は近年,無線通信システムにおいてデノナイジング能力によって大きな成功を収めている。
このことは、DMが無線セマンティック通信システムにおける干渉を効果的に軽減できるかどうかという問題を提起する。
本稿では、干渉キャンセル問題を信号と干渉の結合後確率に対する最大後続(MAP)問題としてモデル化し、その解が信号と干渉に対して優れた推定値を提供することを理論的に証明する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:41:52 GMT)
WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs [44.3] マルチモーダルビデオ理解を評価する最初のベンチマークであるWorldSenseを紹介する。
音声とビデオの強い結合を特徴とする評価タスクを設計する。
WorldSenseは1,662本のオーディオ視覚同期ビデオの多様なコレクションを含んでいる。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:57:06 GMT)
Efficient Time Series Processing for Transformers and State-Space Models through Token Merging [44.3] コンピュータビジョンアーキテクチャにおける計算効率を向上させるソリューションとして、トークンマージが登場している。
局所的マージとは、局所的な領域内でトークンを選択的に結合する、ドメイン固有のトークンマージアルゴリズムである。
総合的な実証実験により,局所的なマージは精度に最小限の影響を伴って,実質的な効率向上をもたらすことが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:05:59 GMT)
QueryAttack: Jailbreaking Aligned Large Language Models Using Structured Non-natural Query Language [44.3] 安全アライメントの一般化可能性を検討するための新しい枠組みを提案する。
LLMを知識データベースとして扱うことにより、自然言語の悪意あるクエリを構造化された非自然なクエリ言語に変換する。
メインストリームのLSMについて広範な実験を行い、QueryAttackが高い攻撃成功率を達成できることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:35:21 GMT)
DepthMatch: Semi-Supervised RGB-D Scene Parsing through Depth-Guided Regularization [44.0] 本稿では,RGB-Dシーン解析に特化して設計された半教師付き学習フレームワークDepthMatchを紹介する。
本稿では,RGB-D画像対におけるテクスチャと空間的特徴の潜伏関係を明らかにするために,補間パッチ混在拡大法を提案する。
また,従来の複合核融合モジュールを代替する軽量空間先行インジェクタを設計し,不均一な特徴核融合の効率を向上する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:26:31 GMT)
MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [43.7] MA-RAGは、タスク認識推論でRAGパイプラインの各ステージに取り組むために、特別なAIエージェントの協力的なセットを編成する。
我々の設計では、モデルが微調整されることなく、情報の流れをきめ細かな制御が可能である。
このモジュラーおよび推論駆動アーキテクチャにより、MA-RAGは堅牢で解釈可能な結果を提供できる。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:05:18 GMT)
The CodeInverter Suite: Control-Flow and Data-Mapping Augmented Binary Decompilation with LLMs [43.6] バイナリ逆コンパイルを改善するためのCodeInverter Suiteを開発した。
我々は、逆コンパイルを改善するために制御フローグラフと明示的なデータマッピングを使用します。
我々のCIM-6.7Bは最先端の逆コンパイル性能を達成できる。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:58:11 GMT)
MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents [43.6] 我々は,MinecraftゲームにおけるオープンワールドAIエージェントの空間計画能力を評価するために,MineAnyBuildというベンチマークを構築した。
MineAnyBuildは、与えられたマルチモーダルなヒューマンインストラクションに基づいて実行可能なアーキテクチャ構築プランを生成するエージェントを必要とする。
4000のキュレートされた空間計画タスクを伴い、リッチなプレイヤー生成コンテンツを利用することで無限に拡張可能なデータ収集のパラダイムを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:48:14 GMT)
SpikeStereoNet: A Brain-Inspired Framework for Stereo Depth Estimation from Spike Streams [43.4] バイオインスパイクカメラは、マイクロ秒レベルの解像度で非同期イベントを出力し、代替のセンシングモードを提供する。
既存の手法には、スパイクデータに適した特別なステレオアルゴリズムとベンチマークが欠けている。
本稿では,脳にインスパイアされたフレームワークであるSpikeStereoNetを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:14:34 GMT)
Property Enhanced Instruction Tuning for Multi-task Molecule Generation with Large Language Models [43.4] 分子関連タスクのための大規模言語モデルを改善するための2段階のフレームワークPEITを提案する。
最初のステップでは、PEIT-GENと呼ばれるモデルを事前訓練するために、テキスト記述、SMILES、生化学的特性をマルチモーダル入力として使用します。
2番目のステップでは、既存のオープンソースLCMを合成データで微調整し、PEIT-LLMは分子キャプション、テキストベースの分子生成、分子特性予測、新たに提案したマルチ制約分子生成タスクを処理できる。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:42:49 GMT)
GenMol: A Drug Discovery Generalist with Discrete Diffusion [43.3] Generalist Molecular Generative Model (GenMol) は、多種多様な薬物発見シナリオを扱うために単一の離散拡散モデルのみを使用する汎用的なフレームワークである。
GenMolは、非自己回帰的双方向並列デコードにより、シーケンスアタッチメントベースのフラグメント埋め込みシーケンスを生成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:51:15 GMT)
Harnessing the Power of Training-Free Techniques in Text-to-2D Generation for Text-to-3D Generation via Score Distillation Sampling [43.2] トレーニングフリー技術は、テキストから2D生成出力の品質を劇的に向上させることができる。
SDSは、事前訓練されたテキスト・ツー・2Dモデルのパワーを様々なタスクに活用するための一般的で効果的な手法である。
CFGのスケールは物体の大きさと表面の滑らかさのトレードオフを示し,FreeUのスケールはテクスチャの詳細と幾何学的誤差のトレードオフを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:54:07 GMT)
SelfElicit: Your Language Model Secretly Knows Where is the Relevant Evidence [43.1] SelfElicitは、自己ガイドによる明示的なハイライトを通じて、LMが重要な文脈的エビデンスに集中するのに役立つ推論時アプローチである。
我々は、SelfElicitが複数のエビデンスベースのQAタスクに一貫性と大幅な改善をもたらすことを実証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:07:58 GMT)
Genome-Bench: A Scientific Reasoning Benchmark from Real-World Expert Discussions [43.0] textitGenome-Benchはゲノム工学に関する10年以上にわたる科学フォーラムの議論から作られた新しいベンチマークだ。
我々のパイプラインは生のインタラクションを、3000以上の高品質な質問応答ペアによってサポートされた強化学習フレンドリな多重選択質問形式に変換する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:28:46 GMT)
Belief Attribution as Mental Explanation: The Role of Accuracy, Informativity, and Causality [42.9] 我々は、人々が観察する行動によい説明である信念を属性にすることを好んでいるという仮説を考察する。
本研究では,エージェントの信念に関する(自然言語)文の説明的強度を定量化する計算モデルを開発する。
このモデルを用いて,信念を他のエージェントに選択的に属性づけする方法について,各要因の役割について検討した。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:21:38 GMT)
MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models [42.9] MMIG-Benchは総合的なマルチモーダル画像生成ベンチマークである。
4,850件の注釈付きテキストプロンプトと380件の被験者に1,750件のマルチビュー参照イメージをペアリングする。
MMIG-Benchを用いて、Gemini 2.5 Pro、FLUX、DreamBooth、IP-Adapterを含む17の最先端モデルをベンチマークする。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:07:24 GMT)
Large Language Models as Autonomous Spacecraft Operators in Kerbal Space Program [42.9] 大規模言語モデル(LLM)は、ユーザのテキストプロンプトの内容に基づいてアクションを行う自律エージェントである。
我々は,KSPDG(Kerbal Space Program Differential Games)チャレンジに対して,純粋なLLMベースのソリューションを開発した。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:25:35 GMT)
Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [42.9] LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:36:10 GMT)
What Can RL Bring to VLA Generalization? An Empirical Study [42.6] VLA(Large Vision-Language Action)モデルは、AIを具現化する大きな可能性を示している。
教師付き微調整(SFT)による主な訓練は、分散シフト下での複合誤差による一般化を制限する。
本稿では,VLAの一般化評価のための総合的ベンチマークを導入し,RL微調整の影響を系統的に検討する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:19:26 GMT)
LeCoDe: A Benchmark Dataset for Interactive Legal Consultation Dialogue Evaluation [42.5] 法的協議は、個人の権利を保護し、司法へのアクセスを確保するために不可欠である。
現在のシステムは、現実世界のコンサルティングの対話的かつ知識集約的な性質を扱うのに不足している。
LeCoDeは3,696件の法的相談対話と110,008件の対話を含む実世界のマルチターンベンチマークデータセットである。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:24:32 GMT)
ROUTE: Robust Multitask Tuning and Collaboration for Text-to-SQL [42.0] 我々は,オープンソースのText2用LLMの包括的機能を改善するために,RObust mUltitask Tuning and collaboration mEthod (ROUTE)を提案する。
提案手法は,tosql生成に関する各種合成トレーニングデータを用いて,マルチタスク制御ファインチューニング(SFT)から始める。
また,マルチタスク・コラボレーション・プロンプティング(MCP)戦略を導入し,スクル生成時の幻覚を低減する。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:39:27 GMT)
DOGe: Defensive Output Generation for LLM Protection Against Knowledge Distillation [41.9] LLM(Large Language Models)は、大きな知的・経済的投資である。
それらの効果は、知識蒸留(KD)によるモデル模倣を必然的に促進することができる
本稿では,LLMの出力挙動を微調整する,効率的かつ効率的なDefensive Output Generation(DOGe)戦略を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:31:38 GMT)
Semantic-Aware Resource Management for C-V2X Platooning via Multi-Agent Reinforcement Learning [41.9] セルラー車間通信(C-V2X)に基づく自律車小隊システムに意味コミュニケーションを導入する。
本稿では,SAMRAMARLと呼ばれるマルチエージェント強化学習(MARL)に基づく,分散意味認識型マルチモーダルリソースアロケーション(SAMRA)アルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:55:04 GMT)
In-Context Brush: Zero-shot Customized Subject Insertion with Context-Aware Latent Space Manipulation [41.8] In-Context Brush"は、被写体挿入をカスタマイズするためのゼロショットフレームワークである。
オブジェクトイメージとテキストプロンプトをクロスモーダルなデモとして定式化する。
目標は、対象画像を、モデルチューニングなしでテキストプロンプトを整列する対象に塗布することである。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:49:10 GMT)
ReDDiT: Rehashing Noise for Discrete Visual Generation [41.7] 本稿では,離散拡散変圧器(ReDDiT)の吸音状態を拡張し,離散拡散モデルの表現能力を向上させるために,離散拡散変圧器(ReDDiT)のリハッシングノイズフレームワークを提案する。
実験により、ReDDiTはベースライン(gFIDを6.18から1.61に還元する)を著しく上回り、高い効率で連続するものと同等であることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:17:20 GMT)
GraphGen: Enhancing Supervised Fine-Tuning for LLMs with Knowledge-Driven Synthetic Data Generation [41.3] 大規模言語モデル(LLM)の微調整は通常、かなりの量の高品質な教師付きデータを必要とする。
既存のアプローチは、事実的不正確さ、不十分なロングテールカバレッジ、単純化された知識構造、均質化された出力に悩まされている。
GraphGenは3つの主要な質問回答(QA)シナリオ用に設計された知識グラフ誘導フレームワークである。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:06:50 GMT)
CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.3] CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:08:26 GMT)
Efficient Reasoning via Chain of Unconscious Thought [40.8] 大規模推論モデル (LRM) は有望な性能を実現するが、冗長な推論プロセスによってトークン効率を損なう。
我々は,無意識思考の連鎖(CoUT)と呼ばれる新しい推論パラダイムを提案し,LRMのトークン効率を向上させる。
我々の研究は、モデルが有益無意識の思考を持ち、性能を犠牲にすることなく効率を向上できることを明らかにした。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:34:04 GMT)
syftr: Pareto-Optimal Generative AI [40.8] syftrはエージェントと非エージェントのRAG構成の広い領域で効率的な多目的探索を行うフレームワークである。
Syftrは、最も正確な流れの正確さを保ちながら、平均して9倍のコストで流れを見つける。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:43:13 GMT)
CodeTaxo: Enhancing Taxonomy Expansion with Limited Examples via Code Language Prompts [40.5] 分類学は知識の構造的表現を提供することによって様々な応用において重要な役割を果たす。
従来のアプローチは、通常、既存の分類学からアノテーションデータを生成する自己管理手法に依存していた。
CodeTaxoは、コード言語プロンプトを通じて大きな言語モデルを活用する新しいアプローチで、分類学的構造を捉える。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:38:22 GMT)
Learning Policy Committees for Effective Personalization in MDPs with Diverse Tasks [40.3] 本稿では,実行中に発生するタスクの確率の高い,少なくとも1つの準最適政策を含む政策委員会を学習するための新しいアプローチを提案する。
MuJoCo と Meta-World に関する実験により,提案手法は,訓練,一般化,少数ショット学習において,最先端のマルチタスク,メタ,タスククラスタリングベースラインより優れていることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:04:56 GMT)
From Tables to Time: How TabPFN-v2 Outperforms Specialized Time Series Forecasting Models [40.2] 本稿では,TabPFN-v2と軽量機能工学を組み合わせた簡易な手法TabPFN-TSを導入する。
その単純さとコンパクトなサイズ(11Mパラメータ)にもかかわらず、TabPFN-TSは両方の予測タスクで公開GIFT-Evalリーダーボードのトップランクを獲得している。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:25:31 GMT)
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection [39.9] VisTAは新しい強化学習フレームワークで、視覚エージェントが経験的パフォーマンスに基づいた多様なライブラリのツールを動的に探索し、選択し、組み合わせることを可能にする。
トレーニング不要のベースラインよりも,VisTAが大幅なパフォーマンス向上を実現していることを示す。
これらの結果は、VisTAが一般化を強化し、多様なツールを適応的に活用し、柔軟な経験駆動型視覚推論システムを実現する能力を強調している。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:59:17 GMT)
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning [39.7] 連鎖推論は、大規模言語モデルの性能を大幅に改善した。
画素空間における推論の概念を紹介する。
このアプローチが視覚言語モデルを大幅に改善することを示します。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:10:29 GMT)
Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model [39.6] 我々は,大局的な視覚言語モデル (VLM) が,配布外条件下でのモダリティやタスクにまたがる機能を構成することができるかどうかを検討する。
我々の研究は、RLベースの推論VLMトレーニングの現在の限界に光を当て、モーダルやタスクにまたがる構成的推論モデル構築に向けた実用的な洞察を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:42:38 GMT)
The More Similar, the Better? Associations between Latent Semantic Similarity and Emotional Experiences Differ across Conversation Contexts [39.6] ラテント意味類似度(Lant semantic similarity、LSS)は、会話における情報交換の類似度を測る尺度である。
この研究は、LSSの感情的関連を理解する上での文脈の重要性を強調している。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:22:15 GMT)
Novel Loss-Enhanced Universal Adversarial Patches for Sustainable Speaker Privacy [39.6] 本研究は,新規な指数トータル・バリアンス(TV)損失関数を導入,活用し,UAP強度と非受容性に肯定的な影響を及ぼす実験的証拠を提供する。
拡張性のあるUAP挿入手順を新たに提案し,様々なオーディオ長に対して一様に高い性能を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:16:01 GMT)
Total-Editing: Head Avatar with Editable Appearance, Motion, and Lighting [39.4] トータル編集は、外観、動き、照明の正確な制御を可能にする統合された肖像画編集フレームワークである。
具体的には,内在分解機能を有するニューラルラジアンスデコーダを設計する。
また,アバター運動とシェーディング効果の時間的コヒーレンスを高めるために,移動最小二乗場を組み込んだ。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:32:51 GMT)
Towards the Causal Complete Cause of Multi-Modal Representation Learning [39.2] マルチモーダル学習は、正確な予測のためにモダリティ間の効果的な表現を学習することを目的としている。
因果的に見れば、効果的なMML表現は因果的に十分であり、必要である。
我々は,学習した表現の因果完全性を強制するプラグイン・アンド・プレイ法である$C3$正規化を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:21:53 GMT)
StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs [39.1] StructEvalは構造化フォーマットの生成におけるLarge Language Modelsの機能を評価するためのベンチマークである。
我々のベンチマークは18の形式と44のタイプのタスクを含み、形式順守と構造的正当性のための新しい指標である。
o1-miniのような最先端のモデルでさえ平均スコアは75.58点に過ぎなかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:40:42 GMT)
UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning [39.1] 無人航空機(UAV)は言語と対話するプラットフォームへと進化し、より直感的な人間とドローンの相互作用を可能にしている。
本研究では,この問題をFlying-on-a-Word(Flow)タスクとして形式化し,UAV模倣学習を効果的なアプローチとして導入する。
UAV-Flowは, 言語条件付き, きめ細かいUAV制御のための, 世界初の実世界のベンチマークである。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:15:18 GMT)
DocMEdit: Towards Document-Level Model Editing [39.0] 文書レベルのモデル編集に焦点を当てたデータセットである benchmarkname を導入する。
その結果,文書レベルのモデル編集の難しさは,既存のモデル編集手法に課題をもたらすことがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:37:24 GMT)
Enhancing Logical Reasoning in Language Models via Symbolically-Guided Monte Carlo Process Supervision [38.6] 大規模言語モデル(LLM)は、数学的および論理的推論ベンチマークにおいて有望な性能を示している。
LLMは内容のバリエーションに影響を受けやすいため、その推論プロセスをサポートする堅牢な象徴的抽象化が欠如していることが示される。
既存のアプローチでは、信頼性とスケーラブルな検証メカニズムの開発に関わる課題のために、シンボル表現を効果的に活用できない。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:06:39 GMT)
Collision- and Reachability-Aware Multi-Robot Control with Grounded LLM Planners [38.4] 大型言語モデル (LLM) は様々なロボット制御タスクにおいて高い性能を示した。
しかし、現実世界のアプリケーションへの展開は依然として制約がある。
我々は、強化学習と検証可能な報酬を統合する新しいフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:14:16 GMT)
The Entropy Characterization of Quantum MDS Codes [38.4] 参照系における$k$クォーディットと$n$符号付きクォーディットの合同状態のエントロピーは、完全に特徴づけられる。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:03:13 GMT)
Data-Distill-Net: A Data Distillation Approach Tailored for Reply-based Continual Learning [38.4] リプレイベースの連続学習(CL)手法は、小さなサブセットで訓練されたモデルが、完全なデータセットの経験的リスクを効果的に最小化できると仮定する。
本稿では,学習可能なメモリバッファを維持し,グローバルな情報を抽出する,CLに適した新しいデータセット蒸留フレームワークを提案する。
提案手法は, 競合する結果を得ることができ, 様々なデータセットをまたがる忘れを効果的に軽減することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:37:10 GMT)
FastVID: Dynamic Density Pruning for Fast Video Large Language Models [38.3] 我々は,FastVIDと呼ばれる高速ビデオLLMの密度決定法を提案する。
FastVIDは、ビデオを時間的に順序付けられたセグメントに分割して、時間構造を保存する。
本手法は時間的・視覚的整合性を維持しながら計算オーバーヘッドを大幅に削減する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:53:39 GMT)
The Invisible Hand: Unveiling Provider Bias in Large Language Models for Code Generation [37.7] 大規模言語モデル(LLM)が新しいレコメンデーションエンジンとして登場した。
明示的な指示がなければ、これらのモデルが推奨する特定のプロバイダからのサービスに対して、体系的な嗜好を示すことが示される。
LLMコード生成におけるプロバイダバイアスの総合的研究は,7つの最先端LCMに対して行われた。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:05:16 GMT)
Scaling Laws for Forgetting during Finetuning with Pretraining Data Injection [37.7] 対象領域のデータに対する教師なし予測を行うために、事前訓練されたモデルを微調整することは、2つの課題を示す。
我々は,事前学習データを微調整データ混合物に注入する効率を計測し,過度な適合を回避し,過度な適合を緩和する。
本研究の実際的な特徴は、微調整データ混合物に1%の事前学習データを注入することで、事前学習セットを忘れないようにすることである。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:48:37 GMT)
SPKLIP: Aligning Spike Video Streams with Natural Language [37.6] 本稿では,Spike-VLA用に開発された最初のアーキテクチャであるSPKLIPを紹介する。
SPKLIPは階層的なスパイク特徴抽出器を使用し、イベントストリーム内の多スケール時間ダイナミクスを適応的にモデル化する。
実験では、ベンチマークスパイクデータセット上での最先端のパフォーマンスと、新たに提供された実世界のデータセット上での強力な数ショットの一般化が示されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:32:20 GMT)
Exploring the Generalizability of Factual Hallucination Mitigation via Enhancing Precise Knowledge Utilization [37.6] PKUEは、正確で単純な事実質問に対する自己生成応答のモデルを微調整する。
大規模な実験により、PKUEはLLM全体の性能を著しく改善することが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:35:49 GMT)
Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution [37.5] 本稿では,「単純さは究極的洗練」の原理を取り入れた一般エージェント「アリタ」を紹介する。
最小限の事前定義のために、Alitaは直接問題解決のための1つのコンポーネントのみを備えており、従来のアプローチよりもずっとシンプルで簡潔である。
最大自己進化のためには、汎用コンポーネントのスイートを提供することで、Alitaの創造性を実現する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:58:53 GMT)
Incentivizing Reasoning from Weak Supervision [37.4] 大規模言語モデル (LLM) は推論集約的なタスクにおいて顕著な性能を示した。
推論能力の向上は一般的に、検証可能な信号を持つ強化学習(RL)か、高品質な長いチェーン・オブ・シンク(CoT)のデモンストレーションを持つ教師付き微調整(SFT)のいずれかに依存している。
高価で高品質な実演や強化学習を伴わないLCMの推論能力にインセンティブを与える新たな課題について検討する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:51:29 GMT)
Guard Me If You Know Me: Protecting Specific Face-Identity from Deepfakes [37.1] ディープフェイク攻撃に対する個人情報の保護は、デジタル時代においてますます重要になっている。
既存のディープフェイク検出手法の多くは汎用シナリオに重点を置いている。
ディープフェイク検出のための統合マルチモーダルフレームワークである textbfVIPGuard を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:55:23 GMT)
Judging with Many Minds: Do More Perspectives Mean Less Prejudice? [37.1] 我々は、位置バイアス、冗長性バイアス、チェーンオブ思考バイアス、バンドワゴンバイアスの4つの多様なバイアスタイプを体系的に分析する。
広く採用されているマルチエージェントLLM-as-JudgeフレームワークであるMulti-Agent-DebateとLLM-as-Meta-Judgeでこれらのバイアスを評価する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:56:41 GMT)
Curriculum-RLAIF: Curriculum Alignment with Reinforcement Learning from AI Feedback [36.9] 本稿では,データ中心アプローチによる報酬モデルの一般化性の向上を試みる。
本稿では,様々な難易度を持つ選好ペアを構成する新しいフレームワークである$textitCurriculum-RLAIFを提案する。
実験結果から,Curriculum-RLAIFでトレーニングした報酬モデルにより,一般化性が向上することが示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:53:08 GMT)
SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models [36.7] SciHorizonはAI4Scienceの可読性を評価するために設計された総合的なアセスメントフレームワークである。
まず、品質、FAIRネス、説明可能性、コンプライアンスの4つの重要な側面を含む、AI対応の科学データを評価するための一般化可能なフレームワークを紹介します。
我々は、地球、生命、材料科学のためのAI対応データセットのレコメンデーションリストを提示し、この分野に新しく独自の貢献をする。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:32:55 GMT)
Embracing Imperfection: Simulating Students with Diverse Cognitive Levels Using LLM-based Agents [36.7] 大規模言語モデル(LLM)は教育に革命をもたらしており、LLMベースのエージェントは学生の振る舞いをシミュレートする上で重要な役割を果たしている。
学生シミュレーションにおける大きな課題は、様々な認知レベルにおける学生の多様な学習パターンをモデル化することである。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:48:49 GMT)
Firewalls to Secure Dynamic LLM Agentic Networks [36.7] LLMエージェントは、相互依存的な目標を持つ長期計画に関わるタスクについて、他のエンティティ表現エージェントとユーザに代わって通信する可能性が高い。
エージェント通信に必要な特性として,プロアクティビティ,適応性,プライバシ(タスク必要情報のみを共有する),セキュリティを挙げる。
本稿では,ネットワークセキュリティの原則にインスパイアされた実用的な設計とプロトコルを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:24:15 GMT)
Learning to Trust Bellman Updates: Selective State-Adaptive Regularization for Offline RL [36.7] オフライン強化学習のための選択的状態適応正規化法を提案する。
提案手法はオフラインとオフラインの両方で最先端の手法よりも優れていることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:45:54 GMT)
ARM: Adaptive Reasoning Model [36.5] 本稿では,そのタスクに基づいて適切なフォーマットを適応的に選択できる推論モデルであるAdaptive Reasoning Model (ARM)を提案する。
Ada-GRPOはARMが高いトークン効率を実現し、Long CoTのみに依存するモデルに匹敵するパフォーマンスを維持しながら、トークンを平均30%、最大70%削減する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:38:50 GMT)
Paths Not Taken: Understanding and Mending the Multilingual Factual Recall Pipeline [36.3] その結果,多言語大言語モデル (LLM) は,他の言語に比べて,実際のリコールタスクにおいて有意に優れた性能を示すことがわかった。
事実的リコールのための信頼性の高い英語中心のメカニズムの関与が不十分なことと、ターゲット言語への英語からの誤った翻訳である。
我々の介入によって、最低パフォーマンス言語では、リコール精度が35%以上向上しました。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:20:45 GMT)
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning [36.2] 1200プロブレムの大規模言語モデル評価ベンチマークであるPhysReasonを提案する。
問題は平均8.1の解ステップが必要で、ハードは15.6である。
Deepseek-R1、Gemini-2.0-Flash-Thinking、o3-mini-highといったトップパフォーマンスモデルは、回答レベルの評価で60%以下を実現している。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:42:06 GMT)
Data-Dependent Regret Bounds for Constrained MABs [36.2] 本稿では,制約付きMAB設定におけるデータ依存的後悔境界の研究を開始する。
データ依存の後悔境界は制約の存在によって引き起こせるのか?
具体的には、制約のある最も困難で自然な設定に重点を置いています。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:00:36 GMT)
Compliance-to-Code: Enhancing Financial Compliance Checking via Code Generation [36.2] 金融規制コンプライアンスに特化した中国初の大規模データセットであるCompliance-to-Codeを提示する。
10のカテゴリにわたる361の規則から1,159の注釈付き節をカバーし、各節は規則関係とともに4つの論理的要素、条件、制約、文脈情報からなるモジュール構造になっている。
自動監査を容易にするために,決定論的Pythonコードマッピング,詳細なコード推論,コード説明を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:38:32 GMT)
Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement [36.1] 音声強調(SE)は、雑音の多い環境下での音声の品質と可聴性を改善することを目的としている。
近年の研究では、音声信号処理に視覚的手がかりを取り入れることで、SE性能が向上することが示されている。
本稿では,音声,視覚,言語情報を統合した拡散モデルを利用した多モード学習フレームワークDLAV-SEを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:41:38 GMT)
Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning [36.1] 数ステップのT2MV拡散モデルに適した新しい強化学習(RL)ファインタニングフレームワークを提案する。
我々はまず、T2MVを1つの統合マルコフ決定プロセスとしてすべての視点で認知する。
次に,テスト時間T2MVサンプリング技術であるZMV-Samplingを導入する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:11:26 GMT)
Accelerating Quantum Reinforcement Learning with a Quantum Natural Policy Gradient Based Approach [36.1] 本稿では、古典的なNPG推定器で使用されるランダムサンプリングを決定論的勾配推定手法で置き換える量子自然ポリシー勾配(QNPG)アルゴリズムを提案する。
提案したQNPGアルゴリズムは、量子オラクルへのクエリに対する$tildemathcalO(epsilon-1.5)$のサンプル複雑性を達成し、マルコフ決定プロセス(MDP)へのクエリに対する$tildemathcalO(epsilon-2)$の古典的な下界を大幅に改善する。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:50:51 GMT)
Accelerating Nash Learning from Human Feedback via Mirror Prox [36.0] オンラインNLHFアルゴリズムであるNash Mirror Prox(mathtNash-MP$)を導入する。
我々の理論的解析により、ナッシュ-MPは、$beta$-regularized Nash平衡に対して、最終点の線形収束を示すことが証明された。
また,Nash-MPは,利用可能性ギャップと対数確率の半ノルムの均一性に対して,最終等級の線形収束を示すことを示した。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:17:32 GMT)
Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective [35.9] 本稿では,メタ学習の観点から,大規模言語モデル(LLM)の推論能力を理解するためのフレームワークを提案する。
我々は,個別のタスクとして扱われる質問に対して,メタラーニング・セットアップとして推論タスクのトレーニングプロセスを定式化する。
我々の研究は、確立したメタ学習技術によってこれらのモデルを改善するための実践的な洞察を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:52:17 GMT)
SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond [35.8] 多様な論理的推論データを大規模に生成するデータ合成フレームワークおよびデータセットであるSynLogicを提案する。
7Bおよび32Bモデルに基づくSynLogicデータセットにおけるRLトレーニングの有効性を検証する。
混合トレーニングモデルは、複数のベンチマークでDeepSeek-R1-Zero-Qwen-32Bより優れています。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:59:36 GMT)
Revisiting Glorot Initialization for Long-Range Linear Recurrences [35.5] Glorotは安定した信号伝搬を保証するように設計されている。
スペクトル半径の小さな正の偏差は時間を通して増幅され、隠れた状態が爆発する。
本稿では,Grorotのスペクトル半径をわずかに下方へシフトさせる簡易な次元認識再スケーリングを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:04:59 GMT)
DiSA: Diffusion Step Annealing in Autoregressive Image Generation [35.4] MAR、FlowAR、xAR、Harmonなどの自動回帰モデルの増加は、画像生成の品質を向上させるために拡散サンプリングを採用する。
本稿では,この問題を効果的に解決する方法について考察する。
自己回帰プロセス中により多くのトークンが生成されるため、後続のトークンはより制約のある分布に従い、より簡単にサンプリングできる。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:59:57 GMT)
GRAPE: Optimize Data Mixture for Group Robust Multi-target Adaptive Pretraining [35.3] 本稿では,新しいマルチソース・マルチターゲットドメイン再重み付けフレームワークであるRobust Group Multi-target Adaptive PrEtraining (GRAPE)を紹介する。
GRAPEは、複数の目標タスクを同時に横断する堅牢なパフォーマンスのために、事前学習データ混合物を校正する。
ClimbLabとSlimPajamaデータセットの実験は、GRAPEが推論性能の点でベースラインメソッドを一貫して上回っていることを示している。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:32:14 GMT)
SLOT: Sample-specific Language Model Optimization at Test-time [34.8] 大規模言語モデル(LLM)は複雑な命令に苦しむことが多く、一般的なサンプルではよく表現されないものの性能が劣る。
SLOTは,言語モデルが個々のプロンプトにより正確に応答する能力を高める新しい,パラメータ効率の高いテスト時間推論手法である。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:28:49 GMT)
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [34.8] NoisyRolloutは、RLトレーニング中にきれいな画像と歪んだ画像の両方の軌跡を混合する、シンプルだが効果的なデータ拡張手法である。
NoisyRolloutは、視覚知覚と結果の推論パターンに目的の多様性を注入することによって、視覚指向の帰納的バイアスを通じて、より良い政策探索を促進する。
NoisyRolloutは5ドルのドメイン外推論と知覚ベンチマークで、オープンソースのRLチューニングモデルの最先端のパフォーマンスを実現している。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:51:06 GMT)
Ten Principles of AI Agent Economics [34.8] AIエージェントは、特殊なツールから、社会的および経済的エコシステムのダイナミックな参加者へと進化している。
彼らの自律性と意思決定能力は、産業、職業、そして人間の生活に大きな影響を与える可能性がある。
本稿では、AIエージェント経済の10の原則を提示し、AIエージェントがどのように意思決定を行い、社会的相互作用に影響を与え、より広い経済に参加するかを理解するための枠組みを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:52:44 GMT)
Training Articulatory Inversion Models for Inter-Speaker Consistency [34.7] AAIは音声から調音への逆写像をモデル化しようとする。
AAIの最近の研究は、単一話者データセットに自己監視学習(SSL)モデルを適用することを提案した。
単一話者データと複数話者データに基づいて訓練されたSSL適応モデルが、英語とロシア語の話者識別に一貫性のある音声目標を生成するかどうかを検討する。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:19:20 GMT)
Expanding Zero-Shot Object Counting with Rich Prompts [34.6] RichCountは、テキストエンコーディングを強化し、画像内のオブジェクトとモデルの関連性を強化するトレーニング戦略である。
RichCountはゼロショットカウントにおける最先端のパフォーマンスを達成し、オープンワールドシナリオにおける見えないカテゴリへの一般化を著しく強化する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:35:36 GMT)
Research on feature fusion and multimodal patent text based on graph attention network [34.6] HGM-Netは階層的比較学習、マルチモーダルグラフアテンションネットワーク、マルチグラニュラリティスパースアテンションを統合したディープラーニングフレームワークである。
実験により,本フレームワークは,特許分類や類似性マッチングといったタスクにおいて,既存のディープラーニング手法に対して大きな利点を示すことが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:32:43 GMT)
STRAP: Spatio-Temporal Pattern Retrieval for Out-of-Distribution Generalization [34.5] 本稿では,時空間探索型パターン学習フレームワークSTRAPを提案する。
推論中、STRAPは現在の入力と類似性に基づいてライブラリから関連するパターンを検索し、プラグイン・アンド・プレイ・プロンプト機構を介してモデルに注入する。
複数の実世界のストリーミンググラフデータセットに対する実験によると、STRAPはSTOODタスクの最先端STGNNベースラインを一貫して上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:11:05 GMT)
Position: Mechanistic Interpretability Should Prioritize Feature Consistency in SAEs [34.5] 本稿では,機械的解釈可能性について,SAEにおける特徴整合性を優先すべきであると主張している。
本稿では,Pairwise Dictionaryの平均相関係数を実測値として用いて,一貫性を運用する手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:31:36 GMT)
MMPerspective: Do MLLMs Understand Perspective? A Comprehensive Benchmark for Perspective Perception, Reasoning, and Robustness [34.5] MMPerspectiveはマルチモーダルな大言語モデルの視点理解を評価するために設計された最初のベンチマークである。
このベンチマークでは,実世界の2,711の合成画像と5,083の問合せ対でキー機能を調べている。
43の最先端MLLMの総合評価により,重要な限界が明らかになった。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:20:22 GMT)
Dynamic-I2V: Exploring Image-to-Video Generaion Models via Multimodal LLM [34.2] 拡散トランスフォーマー(DiT)アーキテクチャの視覚的条件とテキスト的条件を協調的に符号化するために,MLLM(Multimodal Large Language Models)を統合する革新的なフレームワークであるDynamic-I2Vを提案する。
画像とビデオの生成において、Dynamic-I2Vは最先端のパフォーマンスを実現しており、特に42.5%、7.9%、11.8%のダイナミックレンジ、制御性、品質が大幅に向上している。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:29:34 GMT)
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [34.2] LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。
既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:01:00 GMT)
SEMMA: A Semantic Aware Knowledge Graph Foundation Model [34.0] 知識グラフ基礎モデル(KGFM)は、転送可能なパターンを学習することによって、目に見えないグラフに対するゼロショット推論を可能にすることを約束している。
本稿では, 変換可能なテキストセマンティクスと構造を結合したデュアルモジュールKGFMであるSEMMAを紹介する。
より困難な一般化設定では、テスト時間関係ボキャブラリは完全に見えず、構造的手法は崩壊し、SEMMAは2倍効率がよい。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:15:25 GMT)
Lifelong Safety Alignment for Language Models [33.9] 本稿では,脱獄防御のための生涯安全アライメントフレームワークを提案する。
メタアタッカーは、新しいジェイルブレイク戦略を積極的に発見するために訓練され、ディフェンダーは彼らに対抗するために訓練される。
我々のフレームワークはMeta-Attackerの成功率を7%に削減し、LLMのより安全で信頼性の高いデプロイを可能にします。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:40:40 GMT)
Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents [33.9] VLMベースのモバイルエージェントは、スマートフォンのGUIやXML構造化テキストと対話できることから、ますます人気が高まっている。
既存のオンラインベンチマークは、動的環境変化による安定した報酬信号を得るのに苦労している。
Mobile-Bench-v2は共通タスク分割を含み、オフラインのマルチパス評価によってエージェントがステップ報酬を得る能力を評価する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:22:56 GMT)
Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval [33.7] データキュレーションやモダリティ対応のトレーニング設定を通じて課題に取り組む普遍的なフレームワークであるUNITEを紹介する。
我々の研究は、モダリティ固有のデータプロパティがダウンストリームタスクのパフォーマンスにどのように影響するかを、初めて包括的に分析する。
提案フレームワークは,複数のマルチモーダル検索ベンチマークにおいて最先端の結果を達成し,既存の手法を顕著なマージンで上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:09:44 GMT)
DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning [33.7] 複雑で高次元的なタスクを解くには、目的のタスクに関連するより単純なタスクを解く必要があると論じる。
目的タスクの方向の探索目標を選択するための,方向指示スパース逆目標条件付き超長距離RL(DISCOVER)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:35:07 GMT)
DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning [33.6] マルチモーダルPRMのためのドメイン重み付けトレーニングフレームワークであるDreamPRMを紹介する。
低レベルの最適化では、DreamPRMはドメイン重み付き複数のデータセットで微調整を行う。
上位レベルの最適化では、PRMは別個のメタ学習データセットで評価される。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:20:17 GMT)
PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology [33.5] 病理基盤モデル(PFM)の最初の包括的なベンチマークであるPathBenchを紹介する。
我々のフレームワークは大規模データを組み込んで,PFMの客観的比較を可能にする。
当院では10病院で8,549人の患者から15,888件のWSIを収集し,64件以上の診断・予後調査を行った。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:42:22 GMT)
Diversity-Driven Generative Dataset Distillation Based on Diffusion Model with Self-Adaptive Memory [33.4] この問題を解決するために,拡散モデルに基づく多様性駆動型生成データセット蒸留法を提案する。
蒸留されたデータセットと実際のデータセットの分布を一致させる自己適応メモリを導入し、代表性を評価する。
我々の手法は、ほとんどの状況で既存の最先端の手法よりも優れています。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:48:56 GMT)
Regret Analysis of Average-Reward Unichain MDPs via an Actor-Critic Approach [33.4] 無限逆平均逆決定過程における$tildeO(sqrtT)$の順序最適後悔を伴う自然アクター批判を提案する。
NACBはアクターと批評家の両方に関数近似を用いており、大きな状態の潜在的周期性と行動空間への拡張を可能にしている。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:43:02 GMT)
Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought [33.3] CoT(Chain-of- Thought prompting)は、言語モデル推論の説明可能性を改善する可能性がある。
また、CoTはモデルの動きに影響を与える要因を体系的に誤って表すこともできる。
まず、GPT-3.5-TurboとLlama-8bモデルに影響を与える9つの異なるバイアスのデータセットを作成します。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:19:57 GMT)
ImageRAG: Enhancing Ultra High Resolution Remote Sensing Imagery Analysis with ImageRAG [33.2] ImageRAGは、UHRリモートセンシング画像の解析の複雑さに対処する、トレーニング不要のフレームワークである。
ImageRAGのコアイノベーションは、UHRイメージの最も関連性の高い部分を視覚的コンテキストとして選択的に検索し、焦点を合わせる能力にある。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:45:02 GMT)
Bias and Volatility: A Statistical Framework for Evaluating Large Language Model's Stereotypes and the Associated Generation Inconsistency [33.2] 現在のアライメント評価指標は、大言語モデルの一貫性のない生成行動に起因するステレオタイプのランダム性を見落としていることが多い。
LLM出力におけるステレオタイプの確率分布を推定するBias-Volatility Framework (BVF)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:53:01 GMT)
VocalAgent: Large Language Models for Vocal Health Diagnostics with Safety-Aware Evaluation [33.1] 本稿では,音声による健康診断を通じてこれらの課題に対処する音声大言語モデル(LLM)であるVocalAgentを紹介する。
Qwen-Audio-Chatを病院患者から収集した3つのデータセットに微調整した。
VocalAgentは、最先端のベースラインと比較して、音声障害分類において優れた精度を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:31:11 GMT)
REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Large Reasoning Models [33.1] 大規模推論モデル(LRM)は複雑なタスクにおいて強いパフォーマンスを示すが、過度に考え直すという課題に直面していることが多い。
既存のアプローチでは、LRMが学習するための短い推論応答を合成するが、時間を要するデータ生成とフィルタリングプロセスのため、オンライン利用には非効率である。
本稿では,オンライントレーニングにおいて,並列サンプリングとシーケンシャルリビジョンを併用して,効率的なスケーリングを実現するための小さなリフレクションモデルであるREA-RLを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:47:16 GMT)
Stochastic Preconditioning for Neural Field Optimization [32.8] この研究は、トレーニング中に空間性を取り入れることで、ニューラルネットワークの適合が大幅に改善されることを観察する。
単純なテクニックは、カスタム設計の階層や周波数空間の構成を置き換えたり、性能を上回ったりすることができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:13:41 GMT)
Measurement and Calibration Approaches for Full Two-Port Scattering Parameters at mK Temperatures [32.7] Istituto Nazionale di Ricerca Metrologica (INRiM, イタリア) は、短期的開放-損失-互恵的手法を取り入れている。
このシステムは温度をmK範囲まで下げ、同軸線で4-12GHz帯で動作する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:45:30 GMT)
Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs [32.5] 本研究では,LLMを用いたデータ抽出を高速化する文献解析のための半自動手法を提案する。
関連するarXiv論文を自動的に識別し、実験結果と関連する属性を抽出し、構造化データセットLLMEvalDBに編成する。
次に、フロンティアLCMの自動文献解析を行い、手動によるアプローチと比較して、紙調査とデータ抽出の労力を93%以上削減する。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:39:37 GMT)
AniCrafter: Customizing Realistic Human-Centric Animation via Avatar-Background Conditioning in Video Diffusion Models [32.3] 拡散に基づく人間中心アニメーションモデルであるtextbfAniCrafter$を紹介した。
我々のモデルは、オープンドメインの人間中心のアニメーションを復元タスクとして再構成する革新的な「アバターバックグラウンド」条件付け機構を組み込んでいる。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:32:10 GMT)
Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning [32.3] 大規模言語モデル(LLM)は、不十分な探索と長期クレジット割り当てのために、長期的な意思決定タスクに苦しむ。
本稿では, LLMポリシーにパラメータ効率が高く, 一般に適用可能な階層構造を導入する, 革新的なフレームワークを提案する。
我々は,低レベル制御器を抽象的なステップバイステップ計画で制御し,高レベル制御器で学習・指導する手法を開発した。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:43:40 GMT)
Fann or Flop: A Multigenre, Multiera Benchmark for Arabic Poetry Understanding in LLMs [32.2] EmphFannまたはFlopは、アラビア語詩の理解を大規模言語モデルで評価するための最初のベンチマークである。
このベンチマークは、意味的理解、比喩的解釈、韻律的認識、文化的文脈を評価するための説明付き詩のコーパスで構成されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:52:36 GMT)
SeMe: Training-Free Language Model Merging via Semantic Alignment [32.2] SeMeは、遅延セマンティックアライメントを利用して、粒度の細かい層レベルでLMをマージする、新しくて、データフリーで、トレーニング不要なアプローチである。
SeMeは、外部データへの依存を排除しつつ、パフォーマンスと効率の両方で既存のメソッドよりも優れていることを実証する。
我々の研究は知識を意識したモデル統合のための新しいパラダイムを確立し、よりスケーラブルで解釈可能なモデル構成への道を開いた。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:45:56 GMT)
AweDist: Attention-aware Embedding Distillation for New Input Token Embeddings [32.1] 現在の言語モデルは、事前学習時に決定される静的語彙に依存している。
我々はAweDistを提案し、元のトークン化を用いて得られた表現を蒸留することにより、新しいトークンに対する高品質な入力埋め込みを迅速に学習できることを示す。
幅広いオープンウェイトモデルによる実験結果は、AweDistがさらに強力なベースラインを上回り得ることを示している。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:35:29 GMT)
Quantum Speedups in Regret Analysis of Infinite Horizon Average-Reward Markov Decision Processes [32.1] 我々は,未知のMDPとエージェントのエンゲージメントのための革新的な量子フレームワークを提案する。
平均推定における量子的優位性は、無限の地平線強化学習に対する後悔の保証において指数的な進歩をもたらすことを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:50:05 GMT)
Multimodal Machine Translation with Visual Scene Graph Pruning [31.9] マルチモーダル機械翻訳(MMT)は、視覚情報を組み込んだ翻訳作業において、言語多義性やあいまいさによって生じる課題に対処しようとするものである。
視覚的なScene Graph Pruning(PSG)を用いたマルチモーダル機械翻訳について紹介する。
PSGは、言語シーングラフ情報を活用して、視覚シーングラフにおける冗長ノードのプルーニングを誘導し、下流翻訳タスクにおけるノイズを低減する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:35:03 GMT)
Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models [31.8] 大規模言語モデル(LLM)は、広範囲の自然言語処理タスクで印象的なゼロショット性能を示す。
様々なモダリティエンコーダを統合することで、テキストだけでなく視覚や聴覚のモダリティ入力を処理するマルチモーダル大言語モデル(MLLM)が生まれる。
これらの高度な機能は、モデルがジェイルブレイク攻撃を通じて有害または不適切なコンテンツを生成するために悪用されるため、重大なセキュリティリスクを引き起こす可能性がある。
Jailbreak-AudioBenchはツールボックス、キュレートされたデータセット、包括的なベンチマークで構成されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:47:09 GMT)
The Coverage Principle: A Framework for Understanding Compositional Generalization [31.8] 合成タスクのパターンマッチングに主に依存するモデルは、同じコンテキストで使用した場合に同じ結果が得られるフラグメントを置換する以外には、確実に一般化できないことを示す。
我々は,このフレームワークがトランスフォーマーの一般化能力に強い予測力を持つことを実証した。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:55:15 GMT)
DynamicKV: Task-Aware Adaptive KV Cache Compression for Long Context LLMs [31.6] 既存のKVキャッシュ圧縮手法は、タスク固有の特性を無視し、必須情報の保持を減らす固定パターンを強制する。
本研究では,各層に保持されるトークンの数を調整することで,トークン保持を動的に最適化するDynamicKVを提案する。
本手法は,LongBench上でのフルKVキャッシュ性能の85%を達成しながら,KVキャッシュサイズの1.7%しか保持しない。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:31:13 GMT)
Subtle Risks, Critical Failures: A Framework for Diagnosing Physical Safety of LLMs for Embodied Decision Making [31.6] 本研究では,大規模言語モデル(LLM)の身体的安全性を体系的に評価するフレームワークであるSAFELを紹介する。
EMBODYGUARD は PDDL をベースとしたベンチマークであり,942 の LLM 生成シナリオで過度に悪意のある命令と文脈的に有害な命令の両方をカバーしている。
本稿は,現在のLLMにおける限界点を強調し,よりターゲットを絞った,よりモジュール化された,安全な具体的推論の基盤を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:01:14 GMT)
Causal Composition Diffusion Model for Closed-loop Traffic Generation [31.5] 本稿では,これらの課題に対処するための構造誘導拡散フレームワークであるCausal Compositional Diffusion Model (CCDiff)を紹介する。
まず、制約付き最適化問題として、制御可能で現実的な閉ループシミュレーションの学習を定式化する。
そして、CCDiffは拡散過程に直接因果構造を自動同定し注入することにより、現実主義に固執しながら制御性を最大化する。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:43:40 GMT)
ART-DECO: Arbitrary Text Guidance for 3D Detailizer Construction [31.5] 粗い3D形状プロキシを高品質なアセットに即時に変換できるニューラルネットワークである3Dディファレンサを導入する。
我々のモデルはテキストプロンプトを用いて訓練され、形状クラスを定義し、生成した詳細の外観ときめ細かいスタイルを特徴付ける。
我々の精細化器は単一形状に最適化されておらず、生成モデルを蒸留した結果であり、再学習せずに再利用でき、任意の形状を生成することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:26:16 GMT)
Explaining the role of Intrinsic Dimensionality in Adversarial Training [31.5] その結果,非多様体対向例(AEs)は強靭性を高め,一方,非多様体のAEsは一般化を向上させることがわかった。
SMAATは,最も内在次元の低い層を摂動させることにより,エンコーダモデルにおけるATのスケーラビリティを向上させる。
我々は、テキスト生成、感情分類、安全フィルタリング、検索強化生成設定など、複数のタスクにわたるSMAATを検証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:57:09 GMT)
USB: A Comprehensive and Unified Safety Evaluation Benchmark for Multimodal Large Language Models [31.4] Unified Safety Benchmarks (USB) はMLLMの安全性において最も包括的な評価ベンチマークの一つである。
我々のベンチマークでは、高品質なクエリ、広範囲なリスクカテゴリ、包括的なモーダルの組み合わせ、脆弱性と過度な評価の両方が特徴である。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:39:14 GMT)
O$^2$-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering [31.4] O$2$-Searcherは、強化学習を利用してオープンドメインのオープンエンドとクローズドエンドの両方の質問に対処する、新しい検索エージェントである。
厳密に設計された報酬関数を備えた統一的なトレーニング機構を使用して、エージェントは問題タイプを特定し、異なる回答生成戦略を適用することができる。
O$2$-Searcherは3Bモデルのみを使用しており、O$2$-QA上でのLLMエージェントをはるかに上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:07:05 GMT)
Stay-Positive: A Case for Ignoring Real Image Features in Fake Image Detection [31.2] 生成モデルによって導入されたアーティファクトを含む場合に限り、画像は偽物として分類されるべきである。
本研究では,実データに関連付けられているものを無視しながら,検出対象を生成成果物に限定するアルゴリズムであるStay Positiveを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:33:23 GMT)
Catoni-Style Change Point Detection for Regret Minimization in Non-Stationary Heavy-Tailed Bandits [31.2] ヘビーテールの片側定常バンディット問題に対処する。
重み付き分布に適した新しいカタニスタイル変化点検出戦略を提案する。
本稿では,この変化点検出戦略と楽観的アルゴリズムを組み合わせたロバストCPD-UCBを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:40:47 GMT)
Poison in the Well: Feature Embedding Disruption in Backdoor Attacks [30.9] ShadowPrintは、ニューラルネットワーク内の機能埋め込みをターゲットとして、高いASRとステルス性を実現する、汎用的なバックドア攻撃である。
優れたASR(100%まで)、安定したCA(ほとんどの場合1%以下)、低いDDR(5%以下)をクリーンラベルとダーティラベルの両方で達成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:59:44 GMT)
Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models [30.9] IRR (Identify, Remove, and Recalibrate for Safety Realignment) を提案する。
IRRの中核は、保持されたパラメータを再調整しながら、微調整されたモデルから安全でないデルタパラメータを特定し、除去することである。
この結果から,IRRは有害なクエリやジェイルブレイク攻撃などの安全性ベンチマークにおいて,微調整モデルの安全性を著しく向上することが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:30:45 GMT)
PHI: Bridging Domain Shift in Long-Term Action Quality Assessment via Progressive Hierarchical Instruction [30.6] 長期行動品質評価(Long-term Action Quality Assessment, AQA)は、長時間ビデオにおける行動の定量的パフォーマンスを評価することを目的としている。
既存の手法では、トレーニング済みの大規模アクション認識バックボーンと特定のAQAタスクのドメインシフトによる課題に直面し、パフォーマンスを損なう。
我々は、タスクレベル、タスク目標の違いに関するタスクレベル、重要な機能の違いに関する機能レベルという2つのレベルのドメインシフトを特定することで、この問題に対処する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:34:46 GMT)
Boosting Convolution with Efficient MLP-Permutation for Volumetric Medical Image Segmentation [30.4] マルチレイヤパーセプトロン(MLP)ネットワークは、ViTに匹敵する結果により、研究者の間で人気を取り戻している。
本稿では,コンボリューションニューラルネットワーク(CNN)とPHNetの両方の長所を活かしたPHNetという,Vol-MedSeg用の新しい可変ハイブリッドネットワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:01:49 GMT)
Fine-grained List-wise Alignment for Generative Medication Recommendation [30.4] 大規模言語モデル(LLM)のための細粒度リストワイドアライメントフレームワークであるFLAMEを提案する。
FLAMEはレコメンデーションをシーケンシャルな決定プロセスとして定式化し、各ステップが1つの薬を添加または除去する。
ベンチマークデータセットの実験では、FLAMEが最先端のパフォーマンスを達成することを示した。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:59:23 GMT)
EuroCon: Benchmarking Parliament Deliberation for Political Consensus Finding [30.4] 欧州議会の13年間にわたる2,225の高品質な審議記録から構築された新しいベンチマークであるEuroConを紹介します。
具体的には、ユーロコンは、特定の政治問題、政治的目標、参加政党、権力構造という、各シミュレートされた議会設定を構築するための4つの要素を取り入れている。
最先端モデルでさえ、解像度を3分の2の多数で通過させるような複雑なタスクに満足していないことが示されています。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:21:16 GMT)
Unveiling the Power of Source: Source-based Minimum Bayes Risk Decoding for Neural Machine Translation [30.3] 最小ベイズリスク(MBR)復号法は、最も期待されているユーティリティで仮説を求める方法を提供する。
以上の結果から, sMBRはNMT復号法として有望なアプローチであることが示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:22:15 GMT)
Select, Read, and Write: A Multi-Agent Framework of Full-Text-based Related Work Generation [30.3] 本稿では,フルテキストベースのRWGタスクに着目し,新しいマルチエージェントフレームワークを提案する。
本フレームワークは,論文のどのセクションを次に読むかを決定するセレクタ,選択したセクションをダイジェストして共有作業メモリを更新するリーダ,最終キュレートされたメモリに基づいてRWSを生成するライターの3つのエージェントから構成される。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:02:34 GMT)
Amulet: Putting Complex Multi-Turn Conversations on the Stand with LLM Juries [30.1] アミュレット(Amulet)は、LLM-judgesの精度を向上させるために、ダイアログアクトと最大値という関連する言語概念を活用するフレームワークである。
Amulet は、単一の LLM にフレームワークを適用することで審査員として、あるいは異なる LLM の審査員と陪審員に統合することで、使用することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:46:38 GMT)
A Survey on the Safety and Security Threats of Computer-Using Agents: JARVIS or Ultron? [30.1] 本稿では,EmphComputer-Using Agentsの安全性とセキュリティの脅威に関する知識の体系化について述べる。
CUAは、デスクトップアプリケーション、Webページ、モバイルアプリをナビゲートするなど、自律的にタスクを実行することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:15:54 GMT)
Residual Connections and Normalization Can Provably Prevent Oversmoothing in GNNs [30.0] 残差接続と正規化層を有する(線形化)グラフニューラルネットワーク(GNN)の形式的かつ正確な特徴付けを提供する。
正規化層の中心となるステップは、メッセージパッシングにおけるグラフ信号を変化させ、関連する情報を抽出しにくくすることを示す。
本稿では,グラフNormv2と呼ばれる新しい正規化レイヤを導入し,その中心となるステップを学習することで,元のグラフ信号を望ましくない方法で歪ませないようにする。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:06:27 GMT)
DiMeR: Disentangled Mesh Reconstruction Model [29.8] DiMeRは、疎視メッシュ再構成のための3次元監視を備えた、幾何学的・テクスチュアなアンタングルフィードフォワードモデルである。
性能/コストの低いモジュールを排除し,正規化損失を再設計し,メッシュ抽出のアルゴリズムを効率化する。
大規模な実験により、DiMeRはスパースビュー、シングルイメージ、テキストから3Dタスクにまたがって一般化し、ベースラインを一貫して上回ることを示した。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:08:57 GMT)
Graph Guided Diffusion: Unified Guidance for Conditional Graph Generation [29.7] 拡散モデルはグラフ生成の強力な生成モデルとして登場したが、条件付きグラフ生成には依然として課題である。
本稿では,グラフ上の条件拡散を制御問題として統一する新しいガイダンスフレームワークであるグラフガイド拡散(GGDiff)を提案する。
GGDiffは、微分可能と非微分可能の両方の報酬関数の下で、事前訓練された拡散モデルのゼロショット誘導を可能にする。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:45:22 GMT)
Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models [29.7] 拡散モデルは様々な視覚生成タスクにおいて顕著な進歩を遂げた。
しかし、トレーニング中に使用するものよりも解像度の高いコンテンツを生成すると、その性能は著しく低下する。
学習不要な高分解能合成のためのソリューションであるRectifiedHRを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:37:27 GMT)
Certainty and Uncertainty Guided Active Domain Adaptation [29.6] Active Domain Adaptation (ADA)は、いくつかのターゲットサンプルを選択的にラベル付けすることで、モデルをターゲットドメインに適応させる。
既存のADAメソッドは、不確実なサンプルを優先するが、信頼できるものを見落としている。
アクティブサンプリングの前にラベル付き集合に確実な予測を組み込むことで、探索空間が減少し、適応性が向上することがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:21:19 GMT)
Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models [29.6] textbfBeyond Safe Answers (BSA) ベンチは,3つの異なるSSAシナリオタイプに構成された2,000のチャレンジインスタンスからなる,新しいベンチマークである。
19の最先端のLEMの評価では、このベンチマークの難しさが示され、最高性能のモデルはリスクの合理性を正確に識別する上で、わずか38.0%の精度しか達成していない。
我々の研究は、LEMの安全性推論の忠実さを評価し改善するための総合的な評価ツールを提供し、真にリスクを意識し、確実に安全なAIシステムの開発を進める。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:49:19 GMT)
UniMoMo: Unified Generative Modeling of 3D Molecules for De Novo Binder Design [29.5] 単一モデルを用いて複数の分子ドメインの結合体を設計できる最初のフレームワークである3次元分子の統一生成モデリング(UniMoMo)を紹介する。
特に、UniMoMoは、それぞれのブロックが標準アミノ酸または分子断片に対応するブロックのグラフとして異なる分子の表現を統一する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:31:43 GMT)
What Makes a Scene ? Scene Graph-based Evaluation and Feedback for Controllable Generation [29.4] Scene-Benchは、自然シーンの生成における現実的一貫性の評価と強化を目的とした総合的なベンチマークである。
Scene-Benchは、シーングラフに注釈を付けた100万の画像の大規模なデータセットであるMegaSGと、新しい評価指標であるSGScoreで構成されている。
本研究では,シーングラフと画像間の不一致を識別・補正することにより,生成した画像を反復的に洗練するシーングラフフィードバックパイプラインを開発する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:55:56 GMT)
From Data to Modeling: Fully Open-vocabulary Scene Graph Generation [29.4] OvSGTRは、完全にオープンなシーングラフ生成のためのトランスフォーマーベースのフレームワークである。
我々のアプローチは、事前に定義されたカテゴリを超えて、オブジェクト(ノード)とその相互関係(エッジ)を共同で予測する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:11:23 GMT)
K-Buffers: A Plug-in Method for Enhancing Neural Fields with Multiple Buffers [29.4] レンダリング性能を向上させるために,複数のバッファを利用するK-Buffersというプラグイン手法を提案する。
提案手法は,まずシーン表現からKバッファを描画し,K画素ワイド特徴写像を構成する。
次に、K画素ワイド機能マップと特徴デコーダを融合してレンダリング画像を生成するK-Feature Fusion Network(KFN)を導入する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:24:48 GMT)
Cut out and Replay: A Simple yet Versatile Strategy for Multi-Label Online Continual Learning [29.3] マルチラベルオンライン連続学習(MOCL)は、無限のマルチラベルデータストリームから連続的に学習するモデルを必要とする。
そこで本稿では,ラベル特定領域の特定,強化,縮小により,詳細な監視信号を提供する戦略を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:40:31 GMT)
Structured Initialization for Vision Transformers [29.3] データアセットが小さくても強力なCNNライクなパフォーマンスを享受できるViTを開発したが、データの拡大に伴ってViTライクなパフォーマンスに拡張できる。
提案手法は,CNN内の学習フィルタに対して,ランダムインパルスフィルタが共振性能を達成できるという経験的結果に動機付けられている。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:42:31 GMT)
Large Language Models for Planning: A Comprehensive and Systematic Survey [29.2] 大規模言語モデル(LLM)は、特定の計画タスクにおいて顕著なパフォーマンスを示している。
本稿では,LLMをベースとした計画の総合的なレビューを行う。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:44:53 GMT)
Decomposing Complex Visual Comprehension into Atomic Visual Skills for Vision Language Models [28.9] 近年の視覚言語モデル (VLM) では, マルチモーダル理解と推論能力が著しく向上している。
我々は,基本的・不可分な視覚認知スキルを系統的に分類し,原子視覚スキルと呼ぶ。
我々は最先端のVLMをベンチマークし、大人の人間にはやさしいが、これらのタスクに苦労していることがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:09:24 GMT)
Weather-Magician: Reconstruction and Rendering Framework for 4D Weather Synthesis In Real Time [28.9] 本研究では,ガウススプラッティングに基づくフレームワークを提案し,実際のシーンを再現し,合成した4次元気象条件下でレンダリングする。
我々の研究は、継続的な動的気象変化をサポートし、その影響の詳細を容易に制御できる。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:44:53 GMT)
Amulet: ReAlignment During Test Time for Personalized Preference Adaptation of LLMs [28.8] Amuletは、各トークンの復号処理を独立したオンライン学習問題として定式化する、トレーニング不要のフレームワークである。
Amuletは、異なるLLM、データセット、ユーザー好みの組み合わせで、リッチな設定で大幅なパフォーマンス改善を実現することができることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:57:19 GMT)
Can Large Language Models be Good Emotional Supporter? Mitigating Preference Bias on Emotional Support Conversation [28.7] この研究はESConv上での大規模言語モデル(LLM)の結果を分析した。
特定の戦略に対する高い嗜好を示すことは、効果的な感情的支援を妨げている。
その結果,(1) 特定の戦略に対する嗜好の低さは情緒的支援の進行を妨げること,(2) 外部援助は嗜好バイアスの軽減に役立つこと,(3) 既存のLCMだけでは感情的な支持者にはならないこと,などが強調された。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:56:13 GMT)
HopRAG: Multi-Hop Reasoning for Logic-Aware Retrieval-Augmented Generation [28.7] グラフ構造化知識探索による論理的推論による検索を強化する新しいRAGフレームワークである textbfHopRAG を提案する。
インデックス作成中にHopRAGは、テキストチャンクを頂点とし、LLM生成した擬似クエリをエッジとして確立した論理接続をエッジとして、パスグラフを構築する。
語彙的または意味論的に類似した通路から始まり、擬似クエリとLSM推論によって導かれるマルチホップ隣人を探索し、真に関連のあるものを識別する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:17:07 GMT)
Adaptive Deep Reasoning: Triggering Deep Thinking When Needed [28.6] 大規模言語モデル(LLM)は、ロングチェーン推論による複雑なタスクの処理において、優れた機能を示している。
本研究では,問題複雑性に基づいて,短鎖と長鎖の推論チェーンを自律的に切り替える手法を提案する。
この進歩は、現実世界の応用のための大規模言語モデルにおける推論の実践性を高める。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:08:51 GMT)
Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting [28.5] 本稿では,性能損失を伴わない推論トレースを動的に短縮するDAP法を提案する。
実験では、難解なCoTサンプルの100Kだけを微調整した学生モデルが800KのLong CoTサンプルで蒸留されたモデルより優れている。
また,本手法は,11種類の多種多様なベンチマークにおいて,比較的少ないトークンを用いて,長鎖よりも短い難易度CoTの精度を向上する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:04:44 GMT)
FastCuRL: Curriculum Reinforcement Learning with Stage-wise Context Scaling for Efficient Training R1-like Reasoning Models [28.4] 我々は,効率的なトレーニングとCoT推論を実現するために,段階的コンテキストスケーリングを備えたカリキュラムRLフレームワークであるFastCuRLを提案する。
実験の結果、FastCuRL-1.5B-V3は5つの競合レベルのベンチマークで最先端の推論モデルよりも大幅に優れていた。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:43:27 GMT)
Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models [28.2] MLLM(Multimodal Large Language Models)はタスク間で印象的な機能を示す。
特にVQA(Visual Question Answering)のようなタスクにおいて、タスク関連と無関係な信号の区別が難しい場合が多い。
この脆弱性は、画像分類や純粋なテキスト質問応答など、モダリティ固有のタスクでより明確になる。
本稿では,摂動と対向的摂動を併用した摂動に基づくデータ拡張を含む,MLLMを微調整する新しい枠組みを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:31:32 GMT)
NExtLong: Toward Effective Long-Context Training without Long Documents [28.0] 我々はNextLongを提案する。NextLongは、Negative Document Extensionを通じて、長文データのための新しいフレームワークである。
NExtLongは文書を複数のメタチャンクに分解し、事前学習したコーパスから取得したハードネガティブなイントラクタをインターリーブすることによってコンテキストを拡張する。
大規模な実験により、NExtLongは既存の長文合成手法と比較して、大幅な性能向上を実現している。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:01:12 GMT)
Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention [27.8] スパースボリュームに基づくスケーラブルな3D生成フレームワークであるDirect3D-S2は、トレーニングコストを大幅に削減して、優れた出力品質を実現する。
主な革新は空間スパースアテンション機構であり、これはスパース体積データ上での拡散変換器(DiT)計算の効率を大幅に向上させるものである。
我々のフレームワークには、入力、潜時、出力ステージ間で一貫したスパースボリュームフォーマットを維持する変分オートエンコーダ(VAE)も含まれている。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:47:04 GMT)
TTPA: Token-level Tool-use Preference Alignment Training Framework with Fine-grained Evaluation [27.7] Token-level Tool-use Preference Orignment Training Framework (TTPA)
TTPAはトークンレベルのツール使用嗜好データセットを構築するためのトレーニングパラダイムである。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:06:02 GMT)
MEBench: A Novel Benchmark for Understanding Mutual Exclusivity Bias in Vision-Language Models [27.5] 本稿では、相互排他性(ME)バイアスを評価するための新しいベンチマークであるMEBenchを紹介する。
従来のMEタスクとは異なり、MEBenchはさらに空間推論を取り入れ、より困難で現実的な評価設定を作成する。
本稿では,最新のビジョン言語モデル(VLM)の性能を,MEに基づく推論の重要な側面を捉える新しい評価指標を用いて評価する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:23:18 GMT)
Inconsistent Tokenizations Cause Language Models to be Perplexed by Japanese Grammar [27.3] 日本語の「第一人精神述語制限」文法点に直面する言語モデルの難易度を測定した。
さらに, 代用文法モデルを用いて, 代用文法パターンを用いて代用文法文を生成する場合, トークン化問題により最も自然な文が出力されることを防止できることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:08:47 GMT)
Task-Informed Anti-Curriculum by Masking Improves Downstream Performance on Text [27.3] 本稿では,新しいタスク情報を用いた反カリキュラム学習手法に基づいて,マスキング率を調整し,マスクするトークンを決定することを提案する。
我々は,3つの下流タスクにまたがるマスキング手法により,新しいタスクインフォームドアンチカリキュラムを実証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:37:20 GMT)
The Limits of Preference Data for Post-Training [27.2] この結果から,選好データは基本的に,結果に基づく最適化を著しく制限することがわかった。
我々は、この不合理性を投票理論を用いて形式化し、モデルが問合せに答える方法と、有権者が選択する候補を選択する方法との類似性を引き出す。
このことは、人間のフィードバックを必要とする領域にRLポストトレーニングの成功を拡大するために、基礎となる人間のスコアリングとアルゴリズムの革新が必要であることを示唆している。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:26:15 GMT)
FullFront: Benchmarking MLLMs Across the Full Front-End Engineering Workflow [27.2] FullFrontは、MLLM(Multimodal Large Language Models)を評価するために設計されたベンチマークである。
FullFrontは、現実世界のWebページをクリーンで標準化されたHTMLに変換する、新しい2段階のプロセスを採用している。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:15:36 GMT)
Deep Spectral Prior [27.1] 本稿では、周波数領域アライメント問題として画像再構成を再定義するDeep Image Prior(DIP)の新たな定式化であるDeep Spectral Prior(DSP)を紹介する。
このシフトは、画像の既知の周波数構造と畳み込みニューラルネットワークのスペクトルバイアスと整合して、スペクトルコヒーレンスに対する明示的な帰納的バイアスをもたらす。
DSPは自然に周波数一貫性多様体への再構成を計画し、解釈可能性や頑健性を高めていることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:00:37 GMT)
JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs [27.0] 様々なジェイルブレイク攻撃の大規模評価を行う。
我々は17の代表的なジェイルブレイク攻撃を収集し、それらの特徴を要約し、新しいジェイルブレイク攻撃分類を確立した。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:56:04 GMT)
FinLoRA: Benchmarking LoRA Methods for Fine-Tuning LLMs on Financial Datasets [26.9] ローランク適応法 (LoRA) は, 事前訓練された汎用大言語モデルの拡張可能性を示す。
我々は、LoRAメソッドを一般および高度に専門的な財務タスクの両方でベンチマークするオープンソースのFinLoRAプロジェクトについて紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:58:51 GMT)
JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models [26.8] VLM(Vision-Language Models)は優れた性能を示すが、強力な視覚エンコーダの統合により攻撃面が大幅に拡張されている。
安全境界探索と安全境界交差という2つの段階からなる新しい遅延宇宙脱獄フレームワークであるJailBoundを提案する。
以上の結果から,JailBoundは平均94.32%のホワイトボックス,67.28%のブラックボックス攻撃を達成し,SOTA法より6.17%,21.13%高い結果を得た。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:23:00 GMT)
VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models [26.8] MLRMにおける高度な視覚的推論のセキュリティへの影響について検討する。
視覚的推論が向上するにつれて、モデルはジェイルブレイク攻撃に対してより脆弱になる。
安全機構をバイパスするために視覚的推論チェーンを利用する新しいジェイルブレイクフレームワークであるVisCRAを紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:45:06 GMT)
Registering Source Tokens to Target Language Spaces in Multilingual Neural Machine Translation [26.7] 我々は,小規模なMNMT特化モデルが大規模言語モデル(LLM)と競合することを可能にする新しい手法である登録を導入する。
大規模ベンチマークであるEC-40の実験から,本手法がMNMTの最先端技術に進展することを示す。
MNMTのさらなる研究と開発を促進するために、当社のモデルをオープンソースにしています。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:53:58 GMT)
EmoSphere-SER: Enhancing Speech Emotion Recognition Through Spherical Representation with Auxiliary Classification [26.7] EmoSphere-SERは球面VAD領域の分類を統合してVAD回帰を導出するジョイントモデルである。
本フレームワークでは,VAD値を複数の球面領域に分割した球面座標に変換し,各点がどの球面領域に属しているかを予測する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:50:23 GMT)
DiEmo-TTS: Disentangled Emotion Representations via Self-Supervised Distillation for Cross-Speaker Emotion Transfer in Text-to-Speech [26.7] 音声合成における話者間感情伝達は、正確な感情モデリングのための話者非依存感情埋め込みの抽出に依存する。
本研究では,感情情報の損失を最小限に抑え,話者のアイデンティティを保持する自己教師型蒸留法であるDiEmo-TTSを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:47:39 GMT)
Time-VLM: Exploring Multimodal Vision-Language Models for Augmented Time Series Forecasting [26.5] Time-VLMは、時間的、視覚的、テキスト的なモダリティを橋渡しして予測を強化する新しいフレームワークである。
本フレームワークは,(1)記憶バンク相互作用を通じて時間的特徴を抽出する検索型学習者,(2)時系列を情報的画像としてエンコードするビジョン型学習者,(3)文脈的テキスト記述を生成するテキスト型学習者,の3つのキーコンポーネントから構成される。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:45:18 GMT)
On scalable and efficient training of diffusion samplers [26.5] データがない場合、非正規化エネルギー分布からサンプルを採取するために拡散モデルを訓練することの課題に対処する。
そこで我々は,従来の強力なサンプリング手法と拡散サンプリングを適切に調和させる,スケーラブルでサンプル効率のよいフレームワークを提案する。
本手法は,拡散サンプリングの標準ベンチマークにおける試料効率を大幅に向上し,高次元問題や実世界の分子コンホメータ生成に優れる。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:16:34 GMT)
Energy-based generator matching: A neural sampler for general state space [26.5] 本研究では,データがない場合にエネルギー関数から生成モデルを学習するためのエネルギーベースジェネレータマッチング(EGM)を提案する。
EGMは、拡散、流れ、ジャンプなどの任意の連続時間マルコフ過程の訓練を可能にし、連続的、離散的、および2つのモードの混合からデータを生成することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:02:29 GMT)
Unlocking Text Capabilities in Vision Models [26.3] 本稿では,任意の事前学習された視覚分類器を,自由形式のテキストで検索できるように書き換える強力な手法を提案する。
提案手法は,ラベルフリー,データ,計算効率で,基礎となる分類器の分布と決定過程を保存するために訓練されている。
1)ラベルのない概念ボトルネックモデルとゼロショットの概念ボトルネックモデルの両方を構築し、視覚的分類器を本質的に解釈可能なものにし、2)視覚的特徴のゼロショットデコーディングを自然言語文に変換する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:45:00 GMT)
Rethinking Text-based Protein Understanding: Retrieval or LLM? [26.3] タンパク質テキストモデルは、タンパク質の生成と理解において大きな注目を集めている。
現在のアプローチでは、タンパク質関連の知識を、継続した事前学習とマルチモーダルアライメントを通じて、大きな言語モデルに統合することに重点を置いている。
そこで本研究では,タンパク質間テキスト生成のための微調整LDMを著しく上回り,学習不要シナリオにおける精度と効率性を示す検索強化手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:25:43 GMT)
Discovering Forbidden Topics in Language Models [26.2] LLM-crawlerは、トークンプリフィルを使用して禁止トピックを見つける拒絶探索手法である。
Llama-3.3-70B、DeepSeek-R1-70B、Perplexity-R1-1776-70B。
我々の発見は、AIシステムのバイアス、バウンダリ、アライメント障害を検出するために、リファリング法が重要な必要性を浮き彫りにした。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:07:40 GMT)
VersatileMotion: A Unified Framework for Motion Synthesis and Comprehension [26.2] 本稿では,VQ-VAEとフローマッチングを組み合わせた新しいモーショントークンと,自動回帰変換器のバックボーンを組み合わせた統合モーションLLMであるVersatileMotionを紹介する。
VersatileMotionは、単一のフレームワークで単一エージェントとマルチエージェントの動作を処理する最初の方法であり、7つのタスクで最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:27:18 GMT)
AMQA: An Adversarial Dataset for Benchmarking Bias of LLMs in Medicine and Healthcare [26.2] 大規模言語モデル(LLM)は、医学的診断問題において専門家レベルの精度に達している。
しかし、彼らの過ちと背後にある偏見は、命にかかわるリスクを引き起こす。
本稿では,AMQA(Adversarial Medical Question-Answering dataset)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:24:20 GMT)
Grokking ExPLAIND: Unifying Model, Data, and Training Attribution to Study Model Behavior [26.0] ポストホックの解釈可能性のメソッドは、通常、モデルの振る舞いをそのコンポーネント、データ、または独立した訓練軌跡に関連付ける。
3つの視点をすべて統合した統合フレームワークであるExPLAINDを紹介します。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:53:11 GMT)
GraphCheck: Breaking Long-Term Text Barriers with Extracted Knowledge Graph-Powered Fact-Checking [25.9] GraphCheckは、抽出した知識グラフを使用してテキスト表現を強化するファクトチェックフレームワークである。
既存の方法によって見落とされがちなマルチホップ推論チェーンをキャプチャする。
最先端のLCMと同等のパフォーマンスを実現し、パラメータも大幅に少ない。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:33:22 GMT)
VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion [25.4] 本稿では,視覚ナビゲーションと移動学習のための物理的にインタラクティブな「デジタルツイン」シミュレーション環境を生成する,リアル・ツー・シム・トゥ・リアルのフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:50:10 GMT)
TAPIP3D: Tracking Any Point in Persistent 3D Geometry [25.4] 本稿では,モノクロおよびRGB-Dビデオにおける長期3次元点追跡の新しい手法であるTAPIP3Dを紹介する。
TAPIP3Dは、ビデオをカメラ安定化機能クラウドとして表現し、深度とカメラモーション情報を活用する。
我々の3D中心の定式化は既存の3D点追跡法よりも性能を著しく向上させる。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:17:25 GMT)
QAEncoder: Towards Aligned Representation Learning in Question Answering System [25.3] QAEncoderは、ユーザクエリとドキュメント間のギャップを埋める、トレーニング不要のアプローチである。
これは、埋め込み空間における潜在的クエリの期待を、文書埋め込みの堅牢なサロゲートとして推定し、これらの埋め込みを区別するために文書指紋を添付する。
インデックスストレージのゼロ,検索レイテンシ,トレーニングコスト,あるいは破滅的な忘れと幻覚の問題といった,シンプルなメリットのあるソリューションを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:27:55 GMT)
P$^2$ Law: Scaling Law for Post-Training After Model Pruning [25.1] プルーニングは、大規模言語モデル(LLM)のハードウェア要件を減らすために広く採用されている技術である。
プルーニング後のモデル性能を回復するため、結果として生じる性能劣化を軽減するために後訓練が一般的である。
学習後コストとモデル性能のバランスをとるためには,学習後データの最適量を探索する必要がある。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:36:31 GMT)
Future Link Prediction Without Memory or Aggregation [25.1] 時間グラフの将来のリンク予測は、実世界の動的システムに広く適用可能な基本課題である。
既存のメソッドは通常、複雑なメモリとアグリゲーションモジュールに依存しますが、目に見えないエッジを扱うのに苦労しています。
本稿では,メモリやアグリゲーションモジュールを捨てるシンプルなアーキテクチャであるCRAFT(Cross-Attention based Future Link Predictor on Temporal Graphs)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:53:27 GMT)
Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers [24.9] 本研究は,代用信号として形式と長さを応用し,数学的問題解決のためにLLMを訓練するものである。
本研究は,形式的正当性のみに着目した報奨関数が,初期の標準GRPOアルゴリズムに匹敵する性能向上をもたらすことを示す。
その結果、フォーマット長のサロゲート信号を利用するGRPOアプローチは、マッチするだけでなく、標準のGRPOアルゴリズムの性能を上回る。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:56:22 GMT)
MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding [24.9] マルチモーダルマンガ理解のためのベンチマークをMangaOCRとMangaVQAの2つ導入する。
MangaLMMは、オープンソースのLMM Qwen2.5-VLを微調整したマンガ特化モデルである。
我々のベンチマークとモデルは、マンガのリッチな物語領域におけるLMMの評価と発展のための総合的な基盤を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:59:59 GMT)
LAPA-based Dynamic Privacy Optimization for Wireless Federated Learning in Heterogeneous Environments [24.9] Federated Learning(FL)は、デバイスのデータのプライバシ保護に基づく分散機械学習パラダイムである。
差分プライバシー(DP)技術は、勾配に人工ノイズを加えることで、プライベートデータ漏洩のリスクを低減する。
本稿では、各アグリゲーションラウンドのデバイスにパーソナライズされたプライバシ予算を割り当てる軽量適応プライバシ割り当て(LAPA)戦略を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:00:31 GMT)
MoRE-Brain: Routed Mixture of Experts for Interpretable and Generalizable Cross-Subject fMRI Visual Decoding [24.8] MoRE-Brainは、高忠実で適応性があり、解釈可能な視覚再構成のために設計された、神経にインスパイアされたフレームワークである。
階層的なMixture-of-Expertsアーキテクチャを採用しており、専門家がfMRI信号を処理している。
MoRE-Brainは、より一般化され、解釈可能なfMRIベースのビジュアルデコードへと大きく進歩している。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:02:00 GMT)
StyleAR: Customizing Multimodal Autoregressive Model for Style-Aligned Text-to-Image Generation [24.6] マルチモーダル自己回帰(AR)モデルは、様々な領域で例外的な機能を示している。
スタイルアライメント生成には参照スタイルのイメージとプロンプトが必要である。
提案するARモデルと特別に設計されたデータキュレーション手法を組み合わせた,革新的なアプローチであるStyleARを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:01:15 GMT)
InFact: Informativeness Alignment for Improved LLM Factuality [24.5] 本稿では,正解と正解の両方を優先する情報性アライメント機構を提案する。
私たちの研究の重要な発見は、この目標を最大化したり、好みを最適化するためにモデルをトレーニングする場合、情報だけでなく、事実性も改善できるということです。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:46:05 GMT)
OCN: Effectively Utilizing Higher-Order Common Neighbors for Better Link Prediction [24.5] 我々は,高次共通隣人における冗長性と過度な平滑化を克服するために,直交共通隣人(OCN)を提案する。
OCNは人気のあるリンク予測ベンチマークで平均7.7%のベースラインをはるかに上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:08:25 GMT)
Achieving adaptivity and optimality for multi-armed bandits using Exponential-Kullback Leibler Maillard Sampling [24.5] 本研究では, 1-パラメータ指数分布系に属する報酬分布を持つ帯域幅$K$の帯域幅の問題について検討する。
本稿では,Asymptotic Optimality, Minimax Optimality with a $sqrtln (K)$ factor, Sub-UCB, and variance-adaptive worst-case regret boundなど,複数の最適条件を同時に達成できるアルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:15:21 GMT)
On a Neural Implementation of Brenier's Polar Factorization [24.5] 1991年、ブレニエは正方行列の極分解を任意のベクトル場 $F:mathbbRdright mathbbRdarrow に PSD $times$ Unitary として分解する定理を証明した。
本稿では,偏波分解定理の実践的実装を提案し,機械学習における可能性を探る。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:24:44 GMT)
Exploring Generalized Gait Recognition: Reducing Redundancy and Noise within Indoor and Outdoor Datasets [24.2] 一般化歩行認識は、多様な領域にわたる堅牢なパフォーマンスを実現することを目的としている。
混合データセットトレーニングは一般化を高めるために広く利用されている。
クロスドメイン歩行認識を体系的に改善する統合フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:03:56 GMT)
GoLF-NRT: Integrating Global Context and Local Geometry for Few-Shot View Synthesis [24.1] 核融合型ニューラルレンダリング変換器GoLF-NRTを提案する。
GoLF-NRTは、少数の入力ビューから一般化可能なニューラルレンダリングを強化する。
実験の結果,GoLF-NRTは様々な入力ビューで最先端のパフォーマンスを実現することがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:50:25 GMT)
Best-Arm Identification in Unimodal Bandits [24.0] 本研究では, 固定信頼度ベストアーム識別問題について検討する。
我々は任意の境界の停止時間で2つ下げる。
腕の数に対する線形依存は、信頼性に依存しないコストでは避けられないことを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:15:23 GMT)
Fraud-R1 : A Multi-Round Benchmark for Assessing the Robustness of LLM Against Augmented Fraud and Phishing Inducements [24.0] Fraud-R1は、フィッシング詐欺、偽の求人投稿、ソーシャルメディア、ニュースから発生した8,564件の詐欺事件を5つの主要な詐欺タイプに分類する。
以前のベンチマークとは異なり、Fraud-R1はLLMの不正に対する耐性を異なる段階で評価するためのマルチラウンド評価パイプラインを導入している。
評価の結果,詐欺やフィッシングの誘因を擁護する上で,特にロールプレイ設定や偽職投稿において重要な課題が明らかとなった。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:03:03 GMT)
Are Time-Series Foundation Models Deployment-Ready? A Systematic Study of Adversarial Robustness Across Domains [24.0] Time Series Foundation Models (TSFM) は、大規模でクロスドメインなデータに基づいて事前訓練されており、さらなるトレーニングをすることなく、新しいシナリオでゼロショット予測を行うことができる。
TSFMは逆入力摂動に対して堅牢か?
これらの摂動は、中間者攻撃やデータ中毒に利用することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:24:11 GMT)
OmniFall: A Unified Staged-to-Wild Benchmark for Human Fall Detection [23.9] 我々は8つのパブリックな転倒検出データセットを統合するOmniFallを紹介した。
実世界の評価のために、本物の事故ビデオからOOPS-Fallをキュレートする。
I3DやVideoMAEのような凍結したトレーニング済みのバックボーンを用いた実験では、配布中のシナリオとWildのシナリオの間に大きなパフォーマンスギャップが示される。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:19:11 GMT)
ReaMOT: A Benchmark and Framework for Reasoning-based Multi-Object Tracking [23.8] 我々はReaMOT(Reasoning-based Multi-Object Tracking)と呼ばれる新しいタスクを提案する。
ReaMOTはより困難なタスクであり、言語命令と推論特性と一致するオブジェクトを正確に推論し、オブジェクトの軌道を追跡する必要がある。
12のデータセット上に構築された推論に基づくマルチオブジェクト追跡ベンチマークであるReaMOT Challengeを構築した。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:55:19 GMT)
R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning [23.7] 本稿では,R1-Translator (R1-T1)について紹介する。
提案手法は3つの革新を先導する:(1)より広いMTシナリオ(例えば、マルチリンガルMT、ドメインMT)への推論に基づく翻訳の拡張、(2)コンテキスト認識パラフレーズやバック翻訳のようなハイブリッドな人間の戦略を反映する6つの専門家によるCoTテンプレートの定式化、(3)RLによるCoT発見の実現。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:07:21 GMT)
Differentiable Quadratic Optimization For The Maximum Independent Set Problem [23.6] pCQO-MISはグラフ内の数ノードでのみスケールし、数値エッジではないことを示す。
実験により,提案手法の有効性を,精度,サンプリング,データ中心アプローチと比較した。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:09:18 GMT)
Solving Hidden Monotone Variational Inequalities with Surrogate Losses [23.6] 本稿では,変分不等式(VI)問題の解法として,ディープラーニングに適合する原理的な代理型アプローチを提案する。
提案手法は,予測ベルマン誤差の最小化と最小化に有効であることを示す。
深層強化学習では,より計算的かつ効率的なTD(0)の新たな変種を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:55:54 GMT)
HS-STAR: Hierarchical Sampling for Self-Taught Reasoners via Difficulty Estimation and Budget Reallocation [23.5] 自己学習推論器(STaR)は、自己学習に自己生成応答を活用することにより、大規模言語モデル(LLM)の数学的推論能力を高める。
本稿では,自己学習推論のための階層型サンプリングフレームワークHS-STaRを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:50:16 GMT)
Benchmarking Multimodal Knowledge Conflict for Large Multimodal Models [23.4] 本稿では,コンテキストメモリとコンテキスト間の両方のシナリオにおいて,現実的知識衝突を評価するベンチマークであるMMKC-Benchを提案する。
MMKC-Benchには1,573のナレッジインスタンスと,23種類の広範にわたる3,381のイメージが含まれている。
以上の結果から,現在のLMMは知識の衝突を認識する能力があるが,外的証拠よりも内的パラメトリック知識を好む傾向が示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:39:30 GMT)
Risk-aware Direct Preference Optimization under Nested Risk Measure [23.3] Ra-DPO(Ra-Aware Direct Preference Optimization)は、ネストしたリスク対策を取り入れた新しいアプローチである。
3つのオープンソースデータセットに対する実験結果は、アライメント性能とモデルドリフトのバランスをとる上で、提案手法の優れた性能を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:01:37 GMT)
FunReason: Enhancing Large Language Models' Function Calling via Self-Refinement Multiscale Loss and Automated Data Refinement [23.3] 大規模言語モデルの関数呼び出し機能を強化するフレームワークであるFunReasonを紹介する。
FunReasonは、解析可能性、推論コヒーレンス、関数呼び出しの精度に焦点を当てた高品質なトレーニング例を生成する。
FunReasonは、微調整中に破滅的な忘れを効果的に軽減しながら、GPT-4oに匹敵するパフォーマンスを達成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:38:06 GMT)
HaloGS: Loose Coupling of Compact Geometry and Gaussian Splats for 3D Scenes [23.1] HaloGSは、幾何学の粗い三角形と外見のガウス原始とを疎結合する双対表現である。
我々の設計は、コンパクトで表現力のあるモデルで、室内と屋外の両方でリアルにレンダリングできる。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:44:04 GMT)
Sample and Map from a Single Convex Potential: Generation using Conjugate Moment Measures [22.8] モデルフィッティングを2つのブロックに分割する標準的なアプローチ: まず最初にノイズ(例えばガウス)をサンプリングする方法を定義し、次にそれで何をするかを選択する(例えば、1つの地図や地図を使う)。
例えば、$nabla w*sharp e-w$ は凸ポテンシャル $w$ の凸共役であり、$w*$ は凸ポテンシャル $w$ の凸共役である。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:13:53 GMT)
LLMs as Better Recommenders with Natural Language Collaborative Signals: A Self-Assessing Retrieval Approach [22.7] 既存のアプローチでは、ソフトトークンや抽象識別子を使用して、コラボレーション情報(CI)を符号化することが多い。
LLMのセマンティックスペースとの整合性を向上するために,CIを直接自然言語で表現することを提案する。
本稿では,自己評価型協調検索フレームワーク(SCORE)を紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:37:17 GMT)
Robot Operation of Home Appliances by Reading User Manuals [22.6] ApBotは、ユーザーマニュアルを「読む」ことで家電を操作できるロボットシステムである。
これらの課題に対処するため、ApBotはそのマニュアルからアプライアンスの構造化された象徴的なモデルを構築している。
試行によると、ApBotはタスク成功率の一貫性と統計的に有意な改善を達成している。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:17:07 GMT)
The Mirage of Multimodality: Where Truth is Tested and Honesty Unravels [22.5] 本研究は,マルチモーダル文脈におけるシステムIおよびシステムII推論に伴う歪みに関する最初の系統的研究である。
遅い推論モデルは、不完全あるいは誤解を招く視覚的入力を提示すると、欠陥のある推論をサポートするために、妥当で誤った詳細をつくり出す傾向にあることを実証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:55:38 GMT)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.4] ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:58:17 GMT)
Beyond One-Hot Labels: Semantic Mixing for Model Calibration [22.4] textbfCalibration-aware Semantic Mixing (CSM) は、クラス特性の混合したトレーニングサンプルを生成する新しいフレームワークである。
我々はCSMが最先端のキャリブレーション手法よりも優れたキャリブレーションを実現することを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:43:52 GMT)
Policy Filtration for RLHF to Mitigate Noise in Reward Models [22.4] 報酬モデルの信頼性は、異なる報酬が割り当てられた応答によって異なることがわかった。
これにより、報酬が信頼できないサンプルをフィルタリングして、政策学習中の信号と雑音の比率を改善することができる。
コード生成および数理推論タスクにおけるPF-PPOの有効性を検証するための広範な実験を行った。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:34:31 GMT)
MT$^{3}$: Scaling MLLM-based Text Image Machine Translation via Multi-Task Reinforcement Learning [22.3] エンドツーエンド TIMT に Multi-Task RL をMLLM に適用する最初のフレームワークである MT$3$ を紹介する。
TIMTの複雑さにルールベースのRL戦略を適応させる、新しいマルチミックス報酬機構を用いて訓練されている。
我々のモデルは最新のドメイン内MIT-10Mベンチマークで最先端の結果を得る。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:02:35 GMT)
Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain) [22.2] トランスフォーマーベースの言語モデルは、明らかに脳の録音を模倣するために訓練されていないが、脳の活動と驚くほど一致していることが示されている。
近年,オープンエンド型マルチモーダルビジョンタスクにおけるゼロショット機能を示す,命令調整型マルチモーダルLLMの新たなクラスが出現している。
MLLMが自然の指示で誘導されると、脳のアライメントが向上し、命令固有の表現を効果的に捉えることができるかを検討する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:18:15 GMT)
"KAN you hear me?" Exploring Kolmogorov-Arnold Networks for Spoken Language Understanding [22.1] Kolmogorov-Arnold Networks (KAN) は従来のニューラルアーキテクチャに代わる有望な代替品として登場した。
本研究は,音声言語理解(SLU)タスクにおけるKansの最初の調査である。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:16:44 GMT)
CODE-DITING: A Reasoning-Based Metric for Functional Alignment in Code Evaluation [22.1] 本稿では,精度,効率,説明性を両立させるコード評価手法であるCODE-DIINGを提案する。
我々は,DeepSeek-R1671BからCODE-DIING 1.5Bおよび7Bモデルへの推論能力を効果的に伝達するデータ蒸留フレームワークを開発した。
推論プロセスにおける過半数の投票戦略により、CODE-DIING 1.5Bは、同じパラメータで全てのモデルを上回ります。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:29:14 GMT)
Depth-Guided Bundle Sampling for Efficient Generalizable Neural Radiance Field Reconstruction [22.1] 高解像度画像は、すべての光線を高密度にサンプリングする必要があるため、計算集約的なままである。
レンダリングを高速化する新しい深度誘導型バンドルサンプリング戦略を提案する。
提案手法は最大1.27dBPSNRの改善とDTUデータセット上のFPSの47%増加を実現している。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:23:59 GMT)
Distilling Textual Priors from LLM to Efficient Image Fusion [21.7] マルチモダリティ画像融合は、複数のソース入力から単一の総合的なイメージを合成することを目的としている。
CNNやGANといった従来のアプローチは効率性を提供するが、低品質または複雑な入力を扱うのに苦労する。
テキスト誘導手法の最近の進歩は、これらの制限を克服するために大きなモデル事前を利用するが、かなりの計算オーバーヘッドを犠牲にしている。
そこで本研究では,モデルサイズを劇的に削減しつつ,推論中のテキストガイダンスの必要性を解消し,大規模モデル前駆体を蒸留する新しいフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:48:16 GMT)
TabPFN: One Model to Rule Them All? [21.7] 統計利用者に対して,TabPFNがどのように機能するかを整理した説明を提供する。
本稿では,TabPFNのアウト・オブ・ザ・ボックス適用が,最先端の特殊な手法よりもはるかに優れていることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:55:29 GMT)
VSA: Faster Video Diffusion with Trainable Sparse Attention [21.6] ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:18:29 GMT)
Enhancing the Comprehensibility of Text Explanations via Unsupervised Concept Discovery [21.6] ECO-Conceptは、概念アノテーションなしで理解可能な概念を発見するための、本質的に解釈可能なフレームワークである。
本手法は多種多様なタスクにまたがって優れた性能を実現する。
さらなる概念評価は、ECO-Conceptが学んだ概念が理解度において現在の概念を上回っていることを検証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:59:51 GMT)
Learning for Dynamic Combinatorial Optimization without Training Data [21.5] 我々はDynamic Combinatorial Optimizationのための新しい教師なし学習フレームワークであるDyCO-GNNを紹介する。
DyCO-GNNは、時間発展するグラフスナップショット間の構造的類似性を活用して、ソリューションの品質を維持しながら最適化を加速する。
我々はDyCO-GNNを、様々なサイズのデータセットにまたがる動的最大カット、最大独立セット、旅行セールスマン問題に対して評価する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:26:09 GMT)
Improving Recommendation Fairness without Sensitive Attributes Using Multi-Persona LLMs [21.4] センシティブな属性にアクセスすることなく、リコメンデーションフェアネスを改善することを目指している。
LLMFOSA(Out Sensitive Attributes)を用いたフェアレコメンデーションのための新しいフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:52:41 GMT)
Conditioning LLMs to Generate Code-Switched Text [21.2] コードスイッチング(CS)は、自然言語処理(NLP)において依然として重要な課題である。
本稿では,大規模言語モデル(LLM)を用いたCSデータ生成手法を提案する。
そこで本研究では,自然なCS文をモノリンガル・イングリッシュに逆翻訳し,並列コーパスを用いて微調整し,モノリンガル・センテンスをCSに変換する手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:23:19 GMT)
TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization [21.2] 生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。
既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。
本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:00:04 GMT)
Dynamically Learned Test-Time Model Routing in Language Model Zoos with Service Level Guarantees [21.2] オープンウェイトなLLM動物園は、多くの高品質なモデルへのアクセスを提供する。
ほとんどのユーザーは、モデル技術に気を使わずに、事実的正確で安全で満足な応答を欲しがっている。
本稿では,コスト-最適要求ルーティングのためのコスト-最適最適化アルゴリズムであるMESS+を紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:11:08 GMT)
GLEAM: Learning Generalizable Exploration Policy for Active Mapping in Complex 3D Indoor Scenes [21.2] 複雑な未知環境における一般化可能なアクティブマッピングは、移動ロボットにとって重要な課題である。
我々は、アクティブマッピングのための統一的な一般化可能な探索ポリシーであるGLEAMを紹介する。
最先端の手法を大きく上回り、66.50%のカバレッジ(+9.49%)を効率の良い軌道で達成し、128の複雑なシーンでのマッピング精度を改善した。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:59:52 GMT)
Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift [21.2] 現在の選好最適化アルゴリズムは、モデリングにおける時間的選好のドリフトを考慮しない。
非定常直接選好最適化(NS-DPO)を提案する。
NS-DPO微調整LDMは非定常条件下では頑健であることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:27:45 GMT)
NEXT: Multi-Grained Mixture of Experts via Text-Modulation for Multi-Modal Object Re-ID [21.2] 属性信頼度に基づく信頼性の高いマルチモーダルキャプション生成手法を提案する。
また,マルチモーダルオブジェクト再識別のためのテキスト変調による多粒度エキスパート混在型 ReID フレームワーク NEXT を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:52:28 GMT)
A Comprehensive Real-World Assessment of Audio Watermarking Algorithms: Will They Survive Neural Codecs? [21.1] 深層学習に基づく音声透かしアルゴリズムの評価を促進するための枠組みを提案する。
本稿では,圧縮,背景雑音,残響などの様々な歪みを特徴とする包括的オーディオアタックパイプラインを提案する。
我々の貢献により、幅広いアプリケーションにわたる音声透かしアルゴリズムの堅牢性と知覚的評価が強化される。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:21:58 GMT)
Learning to Select In-Context Demonstration Preferred by Large Language Model [21.1] In-context Learning (ICL) では、大規模な言語モデルで推論中に新しいタスクに適応できる。
我々は、ILLのデモ選択を直接最適化するためにLLMフィードバックを利用する新しい生成的嗜好学習フレームワークGenICLを提案する。
11のタスクカテゴリにまたがる19のデータセットの実験では、GenICLは、最も効果的なデモを選択する際に、既存の方法よりも優れたパフォーマンスを達成している。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:26:56 GMT)
Towards Automated Discovery of Asymmetric Mempool DoS in Blockchains [21.1] MPFUZZは非対称なDoSバグを発見した最初のメムプールファザである。
MPFUZZを主要なクライアントで実行すると、新しいmempool脆弱性が見つかる。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:16:55 GMT)
Logic Gate Neural Networks are Good for Verification [20.8] 学習論理ゲートネットワーク(LGN)における大域的ロバスト性と公正性を検証するためのSAT符号化を導入する。
提案手法は,新たに構築された5クラスの変種を含む5つのベンチマークデータセットを用いて評価し,LGNが検証に適しており,高い予測性能を維持していることを確認した。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:59:33 GMT)
Hierarchical Tree Search-based User Lifelong Behavior Modeling on Large Language Model [20.8] 階層木探索に基づくユーザ寿命行動モデリングフレームワーク(HiT-LBM)を提案する。
HiT-LBMは、Chunked User Behavior extract (CUBE)とHierarchical Tree Search for Interest (HTS)を統合して、ユーザの多様な関心と関心の進化を捉える。
我々はまた、複数の行動チャンクから利益を統合するために、時間-水間関心融合(TIF)を設計し、ユーザー生涯の関心の包括的表現を構築した。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:32:57 GMT)
Multi-Domain Explainability of Preferences [20.5] 本稿では、複数のドメインにまたがる好みの概念に基づく説明を生成するためのエンドツーエンド手法を提案する。
提案手法はLLMを用いて,選択された応答と拒否された応答を区別する概念を発見する。
提案手法は, 高い嗜好予測性能を達成し, ベースラインを上回りながら, 説明も可能である。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:01:56 GMT)
Variational Deep Learning via Implicit Regularization [20.4] 最適化手法を用いて,変分深度ネットワークを暗黙的に正規化する方法を示す。
過度にパラメータ化された線形モデルの場合、勾配降下の帰納バイアスを完全に特徴づける。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:15:57 GMT)
NeuSym-RAG: Hybrid Neural Symbolic Retrieval with Multiview Structuring for PDF Question Answering [20.4] NeuSym-RAGは、両方のパラダイムをインタラクティブなプロセスで組み合わせたハイブリッドニューラルネットワークのシンボル検索フレームワークである。
NeuSym-RAGは半構造化PDFコンテンツをリレーショナルデータベースとベクトルストアの両方に整理する。
自己注釈付きAIRQA-REALを含む3つのPDFベースのQAデータセットの実験では、NeuSym-RAGがベクターベースRAGと様々な構造ベースラインの両方を安定して打ち負かすことが示されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:33:10 GMT)
Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction [20.4] 我々は、オープンエンドの現実世界のタスクを緩やかに抽象化した、最小限のアルゴリズムタスクスイートを設計する。
我々は,次の学習がいかにミオピックであるかを議論し,過度に記憶する。
入力層(シードコンディショニングと呼ばれる)にノイズを注入することは、出力層からの温度サンプリングだけでなく、驚くほどうまく機能する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:04:46 GMT)
Fox in the Henhouse: Supply-Chain Backdoor Attacks Against Reinforcement Learning [20.4] 現在のRL(Reinforcement Learning)に対する最先端のバックドア攻撃は、非現実的な許容アクセスモデルに依存している。
本稿では,UnderlineSupply-underlineChunderlineain underlineBackdoor (SCAB)攻撃を提案する。
我々の攻撃は、90%以上のトリガーアクションを正常に活性化することができ、犠牲者に対する平均的なエピソードリターンを80%以上削減できる。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:39:35 GMT)
Equivariant Representation Learning for Symmetry-Aware Inference with Guarantees [20.3] 本稿では,回帰,条件付き確率推定,不確実性定量化を同時に扱う同変表現学習フレームワークを提案する。
演算子と群表現論を基礎として,条件付き期待演算子のスペクトル分解を近似する。
人工データセットと実世界のロボット工学の応用に関する実証的な評価は、我々のアプローチの可能性を裏付けるものである。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:47:23 GMT)
Fast Video Generation with Sliding Tile Attention [20.2] たった5秒の720P動画を撮ると、945秒の推測時間のうち800秒は注意がかかります。
本稿では,この課題に対処するためにスライディングタイルアテンション(STA)を導入する。
STAは、新しいハードウェア対応のスライディングウインドウデザインでタイル・バイ・タイルを動作させ、ハードウェア効率を保ちながら表現性を保っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:37:29 GMT)
Beyond Cascaded Architectures: An End-to-end Generative Framework for Industrial Advertising [20.1] EGA(End-to-End Generative Advertising)は,ユーザ興味,POI(point-of-interest),創造的生成,広告アロケーション,支払最適化を体系的にモデル化する最初の統合フレームワークである。
当社の結果は、次世代産業広告システムへの道を開く、完全生成型広告ソリューションのパイオニアとしての可能性を浮き彫りにしている。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:43:20 GMT)
Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision [20.1] PathFinder-PRMは,新しい階層型,誤り認識型識別型PRMである。
PRMBenchでは、PathFinder-PRMが67.7の最先端PRMSコアを新たに達成し、3倍の少ないデータを使用しながら、以前の最高値(65.5)を上回った。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:56:36 GMT)
Multiplicity is an Inevitable and Inherent Challenge in Multimodal Learning [20.0] このポジションペーパーでは、多重性はマルチモーダル学習パイプラインのすべての段階にまたがる基本的なボトルネックであると主張している。
マルチプライシティがトレーニングの不確実性、信頼性の低い評価、データセットの品質をいかに導入するかを強調している。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:30:38 GMT)
How to Improve the Robustness of Closed-Source Models on NLI [20.0] クローズドソース大規模言語モデルの堅牢性向上戦略について検討する。
最適な戦略はデータの複雑さに依存する。
大規模クローズドソース自己回帰LDMはエンコーダモデルよりもかなり頑健であることがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:49:31 GMT)
Beyond Specialization: Benchmarking LLMs for Transliteration of Indian Languages [20.0] 翻訳は多言語自然言語処理において重要な役割を担っている。
大規模言語モデルにおける最近の進歩は、汎用モデルがこのタスクにおいて、明示的なタスク固有の訓練を伴わずに優れている可能性を示唆している。
この研究は、GPT-4o, GPT-4.5, GPT-4.1, Gemma-3-27B-it, Mistral-Large against IndicXlit, a state-of-the-art transliteration model, across 10 major Indian languagesなど、著名なLCMの性能を体系的に評価する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:35:51 GMT)
FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models [20.0] FLAME-MoEは7つのデコーダのみのモデルからなる完全にオープンソースな研究スイートである。
FLAME-MoEは、同一のFLOPで訓練された密度の高いベースラインよりも平均精度を最大3.4ポイント向上させる。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:06:25 GMT)
Adaptive Rank, Reduced Forgetting: Knowledge Retention in Continual Learning Vision-Language Models with Dynamic Rank-Selective LoRA [20.0] CLIPのような事前学習型視覚言語埋め込みモデルは、継続学習(CL)において広く採用され、検証されている。
既存のCL法は主に、事前学習モデル(PTM)から分離されたコンポーネントを用いた連続的な下流適応に焦点を当てている。
動的ランク選択ロラ(CoDyRA)に基づくCLIPの汎用的で効率的なCLアプローチを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:41:05 GMT)
Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities [19.9] MuCRはMultimodal Causal Reasoningベンチマークであり、合成シアム画像とテキストペアを利用してMLLMに挑戦する。
実験の結果,現在のMLLMはテキスト環境下での性能に比べ,マルチモーダル因果推論では不足していることがわかった。
本稿では,視覚的手がかりをより強調するVcCoT戦略を提案し,その効果がマルチモーダル因果推論の強化に有効であることを確認した。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:04:03 GMT)
AutoMIR: Effective Zero-Shot Medical Information Retrieval without Relevance Labels [19.9] textbfSelf-textbfLearning textbfHypothetical textbfDocument textbfEmbeddings (textbfSL-HyDE)を導入してこの問題に対処する。
SL-HyDEは、与えられたクエリに基づいて仮説文書を生成するために、大きな言語モデル(LLM)をジェネレータとして利用する。
実世界の医療シナリオを基盤とした総合的な評価フレームワークとして,中国医療情報検索ベンチマーク(CMIRB)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:31:40 GMT)
What External Knowledge is Preferred by LLMs? Characterizing and Exploring Chain of Evidence in Imperfect Context for Multi-Hop QA [19.8] 外部知識を取り入れることは、LLMプログラムにおける時代遅れの知識と幻覚を緩和する有望な方法として現れてきた。
本稿は, 好みの外部知識の特徴を特徴付けるとともに, 不完全な文脈における実証的研究を行うことを目的とする。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:35:19 GMT)
Beyond the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language Models [19.8] 小型言語モデル(SLM)は、高い効率性と計算コストの低いエッジデバイスへの展開において、ますます顕著になっている。
種々のジェイルブレイク攻撃下での13の最先端SLMのセキュリティ性能を評価するための総合的な実証的研究を行った。
我々の実験では、ほとんどのSLMは既存のジェイルブレイク攻撃の影響を受けやすいが、一部のSLMは直接的な有害なプロンプトに対して脆弱である。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:27:36 GMT)
What Really Matters in Many-Shot Attacks? An Empirical Study of Long-Context Vulnerabilities in LLMs [19.6] 我々はMulti-Shot Jailbreaking(MSJ)によるLarge Language Models(LLM)の長文脆弱性について検討する。
実験では,最大128Kトークンのコンテキスト長を利用する。
攻撃を成功させるには、慎重に有害なコンテンツを作成する必要はない。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:57:25 GMT)
Towards Efficient Training of Graph Neural Networks: A Multiscale Approach [19.5] グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習し、さまざまなドメインにわたるアプリケーションを見つけるための強力なツールになっている。
グラフのサイズと接続性の増加に伴い、標準のGNNトレーニング手法は、計算とメモリに大きな課題に直面している。
GNNの効率的なマルチスケールトレーニングのための新しいフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:37:47 GMT)
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression [19.4] 学習後圧縮は大規模言語モデル(LLM)の計算コストとメモリコストを削減する
既存の圧縮ベンチマークは、言語モデリングと自然言語理解タスクのみに焦点を当てている。
圧縮がLLMのエージェント能力に与える影響を評価するための,最初の包括的なベンチマークであるACBenchを紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:49:07 GMT)
Lego Sketch: A Scalable Memory-augmented Neural Network for Sketching Data Streams [19.4] スケーラブルなMANNアーキテクチャを導入し、レゴのスケッチを生かし、スケーラビリティと正確性に優れた斬新なスケッチを紹介します。
レゴのスケッチは、モジュール式レゴブロックで作るのと同じように、複数のメモリブロックを動的に調整して、さまざまな宇宙予算やさまざまなデータドメインに適応させる。
我々の理論的分析は高いスケーラビリティを保証し、ニューラルスケッチに最初のエラーバウンドを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:23:34 GMT)
Graceful Forgetting in Generative Language Models [19.4] 生成言語モデルにおける優雅な忘れ込みを実現するための新しいフレームワークであるLearning With Forgettingを提案する。
Fisher Information Matrixは、意図したパラメータ更新を重み付け、LWFは、忘れるタスクに関する自己生成知識を評価するために、信頼を忘れることを計算する。
実験により,事前学習した言語モデルでは,知識相互作用のメカニズムを徹底的に解明することは依然として困難であるが,優雅な忘れ込みの適用は微調整性能の向上に寄与することが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:03:57 GMT)
Token-level Accept or Reject: A Micro Alignment Approach for Large Language Models [19.3] マイクロトークンレベルのアクセプション・アライニング(MARA)は、言語モデルとは独立して動作するように設計されている。
MARAは、文レベルの選好学習をトークンレベルのバイナリ分類に分解することで、アライメントプロセスを単純化する。
実験により,MARAは計算コストを削減しつつアライメント性能を大幅に向上することが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:24:36 GMT)
Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction [19.2] Prot2Tokenは、タンパク質関連予測の幅広い範囲を変換することで、課題を克服する統合フレームワークである。
Prot2Tokenのコアは自動回帰デコーダで、事前訓練されたタンパク質エンコーダの埋め込みを条件とし、学習可能なタスクトークンでガイドされる。
Prot2Tokensは様々な種類のタンパク質予測タスクにおいて強い予測力を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:50:36 GMT)
Software Engineering for Self-Adaptive Robotics: A Research Agenda [19.1] 自己適応型ロボットシステムは、動的で不確実な環境で自律的に動作するように設計されている。
従来のロボットソフトウェアとは異なり、自己適応型ロボットは人工知能、機械学習、モデル駆動工学を活用する。
本稿では,自己適応型ロボット工学におけるソフトウェア工学の研究課題について述べる。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:47:50 GMT)
InfoCons: Identifying Interpretable Critical Concepts in Point Clouds via Information Theory [19.0] 我々は、入力ポイントクラウドの意味的なサブセットとして定義された、解釈可能な臨界概念へのPCモデル出力の帰結に焦点をあてる。
本稿では,ポイントクラウドを3次元概念に分解するために情報理論の原則を適用した説明フレームワークInfoConsを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:58:54 GMT)
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals [18.9] 映像生成のための制御信号として物理力を用いる。
そこで我々は,局所的な力によって画像と対話できる力のプロンプトを提案する。
これらの力のプロンプトによって、ビデオが物理的な制御信号に現実的に反応できることを実証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:04:02 GMT)
EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition [18.8] EmoNet FaceはAIシステムの開発と評価のための総合的なベンチマークスイートである。
新たな40カテゴリの感情分類法は、人間の感情経験のより詳細な詳細を捉えている。
明示的で完全な表情を持つ3つの大規模なAI生成データセット。
Empathic Insight Faceは、私たちのベンチマークで人間レベルのパフォーマンスを達成するモデルです。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:19:58 GMT)
Rethinking Gating Mechanism in Sparse MoE: Handling Arbitrary Modality Inputs with Confidence-Guided Gate [18.8] Conf-SMoE では,SMoE アーキテクチャに欠落するモダリティ問題に対処する2段階の計算モジュールを提案する。
我々の理論分析にインスパイアされたConf-SMoEは、ソフトマックスルーティングスコアをタスク信頼スコア w.r.t ground truth に分解することで、新しい専門家ゲーティング機構を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:18:55 GMT)
Crabs: Consuming Resource via Auto-generation for LLM-DoS Attack under Black-box Settings [18.6] ブラックボックスLSM向けに設計された自動アルゴリズムであるLDM-DoS(AutoDoS)攻撃のためのオートジェネレーションを導入する。
トランスファービリティ駆動の反復最適化によって、AutoDoSは1つのプロンプトで異なるモデル間で動作することができた。
実験の結果、AutoDoSはサービスレスポンスのレイテンシを250$timesuparrow$で大幅に向上し、リソース消費が激化することが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:19:26 GMT)
Which Demographic Features Are Relevant for Individual Fairness Evaluation of U.S. Recidivism Risk Assessment Tools? [18.5] 我々は,リシディズムリスク評価ツールの個々人の公正度評価にどの人口統計的特徴が関係しているかを評価する。
我々の分析は、個人間の類似性関数は年齢と性別を考慮するべきであるが、人種を無視すべきだと結論付けている。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:41:08 GMT)
How May U.S. Courts Scrutinize Their Recidivism Risk Assessment Tools? Contextualizing AI Fairness Criteria on a Judicial Scrutiny-based Framework [18.5] 我々は、主要な法的根拠において、公正な表面の技術的AI概念化がどうあるかを特定するために、法的研究を行う。
我々は、米国人口統計に関する法的精査概念と技術的公正性基準を統合する新しい枠組みを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:26:49 GMT)
DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations [18.4] 既存の3Dトーキングヘッドジェネレーションモデルは、話すことや聞くことのみに焦点を当てている。
本稿では,3次元音声ヘッド生成のためのマルチラウンドデュアルスピーカインタラクションを提案する。
我々は、話者とリスナーの動的挙動を統合する新しい統合フレームワークであるDualTalkを紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:59:22 GMT)
Surrogate-Assisted Evolutionary Reinforcement Learning Based on Autoencoder and Hyperbolic Neural Network [18.4] 本稿では,オートエンコーダ(AE)とハイパボリックニューラルネットワーク(HNN)を統合した新しいサロゲート支援ERLを提案する。
AEは、サロゲートの入力として重要な特徴を抽出しながら、高次元のポリシーを低次元表現に圧縮する。
10個のアタリゲームと4個のムジョコゲームによる実験により,提案手法が従来の手法よりも優れていたことが確認された。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:25:17 GMT)
SMART-PC: Skeletal Model Adaptation for Robust Test-Time Training in Point Clouds [18.3] テストタイムトレーニング(TTT)は,3Dポイントクラウド分類における分散シフトに対処する,有望なソリューションとして登場した。
SMART-PCは, 3次元点雲の幾何学的構造を活用することで, 破損に対するレジリエンスを高めるスケルトンベースのフレームワークである。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:11:02 GMT)
The Role of Diversity in In-Context Learning for Large Language Models [18.2] そこで本研究では,様々なタスクを対象とした実験を通して,文脈内サンプル選択における多様性の役割について検討する。
Llama-3.1、Gemma-2、Mistral-v0.3のモデルに対する実験により、多様性を考慮した選択法が性能を向上させることが示された。
本稿では、文脈内サンプル選択に多様性を取り入れることの利点を説明する理論的枠組みを紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:37:26 GMT)
A Contrastive Learning Foundation Model Based on Perfectly Aligned Sample Pairs for Remote Sensing Images [18.2] Contrastive Learning (CL) 法はノイズ干渉の正確な意味表現を得るのに優れている。
本稿では,パーフェクト・アライメントされたサンプル・ペアを用いて,全目的リモートセンシング(RS)機能を生成するPerAという新しい自己教師型手法を提案する。
提案手法はメモリ効率を向上し,スパース入力によりより大きなバッチで学習することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:12:49 GMT)
Your Classifier Can Do More: Towards Bridging the Gaps in Classification, Robustness, and Generation [18.1] 本研究では, クリーン, 逆数, 生成サンプルのエネルギー分布の差異について検討した。
クリーンなデータ分布, 逆流分布, 分類器を共同でモデル化するためのエネルギーベース共同配信支援訓練を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:26:55 GMT)
Align and Surpass Human Camouflaged Perception: Visual Refocus Reinforcement Fine-Tuning [18.1] 現在のマルチモーダルモデルは、背景に視覚的に同化されている物体を特定する際に、人間の視覚システムと顕著な相違を示す。
我々は、人間の視覚的カモフラージュされた知覚を段階的に再現し、視覚的隠蔽コンテンツを反復的に再焦点する視覚システムを構築した。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:27:18 GMT)
PCDCNet: A Surrogate Model for Air Quality Forecasting with Physical-Chemical Dynamics and Constraints [18.1] PCDCNetは数値モデリングの原理とディープラーニングを統合する代理モデルである。
72時間のPM2.5およびO3予測において、最先端(SOTA)性能を達成する。
我々のモデルはオンラインプラットフォームにデプロイされ、無料のリアルタイム空気質予測を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:27:07 GMT)
Unveil Multi-Picture Descriptions for Multilingual Mild Cognitive Impairment Detection via Contrastive Learning [18.1] TAUKDIAL-2024チャレンジでは、多言語話者と複数の画像が導入され、画像に依存したコンテンツを解析する上で新たな課題が提示される。
本稿では,(1)教師付きコントラスト学習による差別的表現学習の強化,(2)音声やテキストのモダリティのみに頼らず,画像モダリティの関与,(3)素早い相関と過剰適合を緩和するための専門家製品(PoE)戦略の適用,の3つの枠組みを提案する。
我々のフレームワークは、MCI検出性能を改善し、UAR(Unweighted Average Recall)のプラス7.1%(68.1%から75.2%)、F1スコアのプラス2.9%(8.9%)を達成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:18:33 GMT)
Cross-Sequence Semi-Supervised Learning for Multi-Parametric MRI-Based Visual Pathway Delineation [18.1] 本稿では,VP記述のための新しい半教師付き多パラメータ特徴分解フレームワークを提案する。
具体的には、相関制約付き特徴分解(CFD)は複雑な相互系列関係を扱うように設計されている。
2つのパブリックデータセットと1つの社内マルチシェル拡散MRI(MDM)データセットを用いて、我々のフレームワークを検証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:18:58 GMT)
SIPDO: Closed-Loop Prompt Optimization via Synthetic Data Feedback [17.9] SIPDO(Self-Improving Prompts through Data-Augmented Optimization)は,素早い学習のためのクローズドループフレームワークである。
SIPDOは、合成データジェネレータとプロンプトを結合し、ジェネレータは、現在のプロンプトの弱点を明らかにし、応答時のプロンプトを洗練する新しい例を生成する。
このフィードバック駆動ループは、外部の監視や新しいタスクへのアクセスを前提とせずに、迅速なパフォーマンスの体系的な改善を可能にする。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:56:48 GMT)
The Impact of a Chatbot's Ephemerality-Framing on Self-Disclosure Perceptions [17.8] 本研究では,チャットボットのユーザとの関係が自己開示にどのように影響するかを検討した。
私たちはFamiliarとStrangerを比較した。
最初のチャットセッションで感情開示が求められたとき、ストレンジャー条件の参加者はより快適な自己開示を感じた。
しかし,まずFactual-disclosureを求めると,これらの違いはFamiliar-condition 参加者の間でより楽しむことに置き換わった。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:00:49 GMT)
One Model to Rank Them All: Unifying Online Advertising with End-to-End Learning [17.8] オンライン広告ランキングをワンモデルとして統一するエンド・ツー・エンドの生成アーキテクチャであるUniROMを提案する。
UniROMはカスケードステージを1つのモデルに置き換え、ロケーションベースのサービスにおいて、完全な候補広告コーパスから直接最適な広告シーケンスを生成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:33:54 GMT)
Fusion Intelligence for Digital Twinning AI Data Centers: A Synergistic GenAI-PhyAI Approach [17.7] Fusion Intelligenceは、GenAIの自動化をPhyAIのドメイン基盤と同期させる新しいフレームワークである。
ケーススタディでは、AIDCデジタルツインの作成と検証を自動化する上で、我々のフレームワークの利点を実証している。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:58:34 GMT)
The Missing Point in Vision Transformers for Universal Image Segmentation [17.6] マスク生成を分類から分離する2段階セグメンテーションフレームワークであるViT-Pを紹介する。
ViT-Pは、事前訓練のないアダプタとして機能し、様々な事前訓練された視覚変換器の統合を可能にする。
COCO、ADE20K、Cityscapesの各データセットにわたる実験は、ViT-Pの有効性を検証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:29:13 GMT)
Advancements in Medical Image Classification through Fine-Tuning Natural Domain Foundation Models [17.6] 膨大なデータセットを使用すると、ファンデーションモデルは広範囲のタスクを実行する大規模で事前訓練されたモデルである。
本研究では,最新の最先端基盤モデルであるDINOv2, MAE, VMamba, CoCa, SAM2, AIMv2の医療画像分類への応用について検討した。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:04:40 GMT)
A Dashboard Approach to Monitoring Mpox-Related Discourse and Misinformation on Social Media [17.5] ムポックス(Mpox、旧名:サルポックス)は、オルソポックスウイルスによって引き起こされる動物性疾患である。
パンデミックの間、X(元Twitter)のようなソーシャルメディアプラットフォームは、一般大衆に知らせたり誤解させたりできる。
公衆衛生関係者と公衆が利用するための研究者中心のダッシュボードを開発した。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:34:41 GMT)
Hierarchical Retrieval with Evidence Curation for Open-Domain Financial Question Answering on Standardized Documents [17.5] 標準化されたドキュメントは、反復的なボイラープレートテキストや同様のテーブル構造など、同様のフォーマットを共有している。
この類似性により、従来のRAGメソッドは、ほぼ重複したテキストを誤識別し、精度と完全性を損なう重複検索につながる。
本稿では,これらの問題に対処するためのEvidence Curationフレームワークを用いた階層検索手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:08:23 GMT)
Regulating Algorithmic Management: A Multi-Stakeholder Study of Challenges in Aligning Software and the Law for Workplace Scheduling [17.4] アルゴリズム管理(AM)が労働者の幸福に与える影響は、規制の要求につながっている。
規制プロセス全体にわたる実世界のAM規制の有効性と課題についてはほとんど分かっていない。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:26:37 GMT)
AgentRecBench: Benchmarking LLM Agent-based Personalized Recommender Systems [17.3] エージェントレコメンデータシステムはLarge Language Models (LLM)を利用している
LLMの高度な推論とロールプレイング能力は、自律的で適応的な意思決定を可能にする。
この分野では、これらの手法を評価するための標準化された評価プロトコルが欠けている。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:45:11 GMT)
SuperAD: A Training-free Anomaly Classification and Segmentation Method for CVPR 2025 VAND 3.0 Workshop Challenge Track 1: Adapt & Detect [17.2] SuperADと命名されたDINOv2モデルを用いて特徴抽出に基づく完全トレーニング不要な異常検出とセグメンテーション手法を提案する。
本手法は,MVTec AD 2データセットの両テストセットの競合性を実現する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:29:27 GMT)
Generalizable Prompt Learning of CLIP: A Brief Overview [17.1] この記事では、数発のプロンプト学習に基づくCLIPの概要を紹介する。
このレビューの目的は、CLIPの一般化可能なプロンプトで研究を開始したばかりの研究者への参照を提供することである。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:07:17 GMT)
Ctrl-DNA: Controllable Cell-Type-Specific Regulatory DNA Design via Constrained RL [17.1] Ctrl-DNAは、制御可能な細胞型特異性を持つ制御DNA配列の設計に適した、制約付き強化学習フレームワークである。
ヒトプロモーターとエンハンサーの評価は、Ctrl-DNAが既存の生成的およびRLベースのアプローチより一貫して優れていることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:27:50 GMT)
Inverse Problem Sampling in Latent Space Using Sequential Monte Carlo [17.0] 拡散モデルの潜在空間における連続モンテカルロ(SMC)に基づく新しいサンプリング手法を提案する。
本稿では,追加の補助観測を用いてデータ生成モデルを定義し,後方拡散過程に基づくSMCサンプリングによる後部推論を行う。
ImageNetとFFHQの実証評価は、様々な逆問題タスクにおける競合メソッドよりもLD-SMCの利点を示している。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:27:47 GMT)
M3DHMR: Monocular 3D Hand Mesh Recovery [17.0] モノクロ3Dハンドメッシュリカバリは、単一のイメージから3Dタスクのための2Dキューを提供する。
M3DHMRは最先端のリアルタイム手法よりも優れています。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:44:47 GMT)
Importance Weighted Score Matching for Diffusion Samplers with Enhanced Mode Coverage [16.9] 一般的な手法では、逆KLベースの目的を最適化することで、ターゲットデータの欠如を回避できることが多い。
そこで本研究では,KLの分岐に類似した目的を直接ターゲットとした拡散型サンプリング器の訓練手法を提案する。
我々のアプローチは、すべての分布距離のメトリクスで既存のニューラルサンプリングよりも一貫して優れています。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:48:26 GMT)
FlowCut: Rethinking Redundancy via Information Flow for Efficient Vision-Language Models [16.8] 大規模視覚言語モデル(LVLM)はマルチモーダル理解において優れているが、冗長な視覚トークンによる計算コストが高い。
既存のプルーニング法は、通常は1層の注意スコアをランク付けや冗長な視覚トークンに頼っている。
本稿では,情報フロー対応プルーニングフレームワークであるFlowCutを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:54:48 GMT)
HomeBench: Evaluating LLMs in Smart Homes with Valid and Invalid Instructions Across Single and Multiple Devices [16.8] 大きな言語モデル(LLM)は、スマートホームアシスタントに革命をもたらす可能性がある。
HomeBenchは、単一のデバイスと複数のデバイスにまたがる有効かつ無効な命令を備えた、最初のスマートホームデータセットです。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:47:39 GMT)
Language of Network: A Generative Pre-trained Model for Encrypted Traffic Comprehension [16.8] ディープ・ラーニングは、現在、特徴分析を通じて暗号化されたトラフィック分類の主要なアプローチである。
本稿では,暗号化トラフィック理解のための事前学習に基づく生成モデルGBCを提案する。
トラフィック分類と生成タスクの両方において優れた結果が得られ、その結果、分類タスクの最先端手法と比較して、F1スコアが5%向上する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:04:29 GMT)
MOSAIC: Modeling Social AI for Content Dissemination and Regulation in Multi-Agent Simulations [16.8] 生成言語エージェントがユーザの行動を予測できる新しいオープンソースのソーシャルネットワークシミュレーションフレームワークMOSAICを提案する。
このシミュレーションは、LCMエージェントと有向なソーシャルグラフを組み合わせることで、創発的偽装行動を分析し、ユーザがオンラインソーシャルコンテンツの正確性をどのように判断するかをよりよく理解する。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:03:54 GMT)
BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models [16.7] BASE-Qは、偏差補正と非対称スケーリングを組み合わせて、丸め誤差やクリップ誤差を減らす、シンプルながら強力なアプローチである。
実験では、BASE-Qの有効性が示され、精度のギャップは、QuaRot、SpinQuant、OSTQuantと比較して50.5%、42.9%、29.2%縮小した。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:22:21 GMT)
BackSlash: Rate Constrained Optimized Training of Large Language Models [16.7] 本稿では,RDOに基づく新しい訓練時間圧縮手法BackSlashを紹介する。
BackSlashは、正確さを損なわずに、メモリ使用量を60%から90%削減できる。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:24:20 GMT)
Dependency Parsing is More Parameter-Efficient with Normalization [16.7] 依存解析は自然言語構造を推定するタスクであり、しばしばバイファインスコアリングを通じて単語の相互作用をモデル化することでアプローチされる。
このメカニズムは、文中の単語のペアごとにスコアが計算されるトランスフォーマーの自己注意のように機能する。
トランスフォーマーのアテンションとは異なり、バイファインスコアはスコアのソフトマックスを取る前に正規化を使用しない。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:56:07 GMT)
Task-Oriented Communications for Visual Navigation with Edge-Aerial Collaboration in Low Altitude Economy [16.6] ビジョンベースの手法は、軽量UAV上での帯域幅、メモリ、処理の制約に直面する。
マルチカメラシステムを備えたUAVがコンパクトなマルチビュー特徴を抽出し,エッジサーバへのオフロードローカライゼーションタスクをオフロードするタスク指向通信フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:06:13 GMT)
Leveraging Sparsity for Sample-Efficient Preference Learning: A Theoretical Perspective [16.6] 古典的推定理論において、最小マックス最適推定誤差率$Theta(d/n)$は、特徴空間$d$の次元と線形にスケールするサンプルの個数$n$を要求する。
特徴空間の高次元性と人間の注釈付きデータを収集するコストは、従来の推定手法の効率性に挑戦する。
報酬関数のパラメータが$k$-sparseであるスパースランダムユーティリティモデルでは、ミニマックス最適率は$Theta(k/n log(d/k))に還元できることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:24:08 GMT)
Model Agnostic Differentially Private Causal Inference [16.5] 観察データから因果効果を推定することは、医学、経済学、社会科学において不可欠である。
本稿では,平均治療効果を個人で評価するための一般的なモデルに依存しないフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:00:37 GMT)
One-shot Robust Federated Learning of Independent Component Analysis [16.5] そこで我々は,$k$-meansクラスタリングを利用して局所的クライアント推定における置換あいまいさを解消する幾何的中央値に基づく集約アルゴリズムを提案する。
提案手法は,まず,クライアントが提供する推定器をクラスタに分割し,次に幾何学的中央値を用いて各クラスタ内の推定器を集約するk-meansを実行する。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:37:19 GMT)
Mirror: Multimodal Cognitive Reframing Therapy for Rolling with Resistance [16.4] 我々は、非言語的な手がかりを取り入れたマルチモーダルアプローチを提案し、AIセラピストは、クライアントのネガティブな感情状態に応答をより良く整合させることができる。
具体的には、新しい合成データセットであるMirrorを導入し、クライアントのステートメントと対応する顔画像とをペアリングする新しい合成データセットについて紹介する。
その結果、MirrorはAIセラピストの抵抗処理能力を大幅に向上させ、既存のテキストベースのCBTアプローチよりも優れていることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:52:12 GMT)
Revealing the Intrinsic Ethical Vulnerability of Aligned Large Language Models [16.3] プレトレーニング中に埋め込まれた有害な知識は、大きな言語モデルのパラメトリックメモリにおいて、信頼できない「暗黒パターン」として持続することを示す。
本研究ではまず,LLMの本質的な倫理的脆弱性を理論的に解析する。
本研究は,分布変化下での意味的コヒーレンス誘導を用いて実験により検証した。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:59:08 GMT)
ControlTac: Force- and Position-Controlled Tactile Data Augmentation with a Single Reference Image [16.3] ControlTacは、単一の参照触覚画像、接触力、接触位置に条件付けされたリアルな触覚画像を生成する、制御可能なフレームワークである。
ControlTacは、触覚データセットを効果的に拡張し、一貫したゲインにつながることを実証します。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:01:17 GMT)
Multi-modal brain encoding models for multi-modal stimuli [16.3] マルチモーダルトランスフォーマーモデルは、違和感のない表現であっても、視覚的な脳活動を予測することができる。
この研究は、脳のどの領域が単一モーダルとマルチモーダルの情報を処理するかを特定するのに役立ちます。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:17:08 GMT)
SaVe-TAG: Semantic-aware Vicinal Risk Minimization for Long-Tailed Text-Attributed Graphs [16.2] 実世界のグラフデータは、しばしば長い尾の分布に従うため、グラフニューラルネットワーク(GNN)が頭と尾の両方のクラスをうまく一般化することは困難である。
ウイルスリスク最小化(VRM)の最近の進歩は、クラス不均衡と数値意味論の緩和の可能性を示唆している。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:14:07 GMT)
Human-Aligned Image Models Improve Visual Decoding from the Brain [16.2] 我々は,脳の信号を画像にマッピングするために,人間のアライン画像エンコーダを導入する。
我々の経験的結果は、この単純な修正によって画像検索精度が最大21%向上することを示すこの仮説を支持している。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:11:25 GMT)
Understanding Why Large Language Models Can Be Ineffective in Time Series Analysis: The Impact of Modality Alignment [16.1] 大規模言語モデル (LLM) は時系列解析において顕著な性能を示した。
しかしながら、LLMは時系列タスク用に設計されていないため、線形回帰のような単純なモデルは、しばしば同等のパフォーマンスを達成することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:33:44 GMT)
Single-Agent vs. Multi-Agent LLM Strategies for Automated Student Reflection Assessment [16.1] 大規模言語モデル(LLM)は、学生の反射を定量的スコアに変換する。
LLMは、リフレクションアセスメントを効果的に自動化し、教育者の作業量を削減し、学生のタイムリーなサポートを可能にする。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:09:16 GMT)
CP-Router: An Uncertainty-Aware Router Between LLM and LRM [16.0] LLM(Large Language Models)は、単純なクエリであっても不要な長さの出力を生成する。
LLM と LRM を動的に選択する学習不要でモデルに依存しないルーティングフレームワーク CP- を提案する。
CP- は LRM のみを使用する場合と比較して、トークンの使用量を効率的に削減し、精度を維持または改善する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:33:31 GMT)
Mixture of LoRA Experts for Low-Resourced Multi-Accent Automatic Speech Recognition [16.0] 特定のアクセントを専門とする低ランク適応(LoRA)の専門家の混合を利用した微調整手法であるMAS-LoRAを紹介する。
L2-ARCTICコーパスでWhisperを用いて行った実験は、通常のLoRAに比べて単語誤り率が大きく改善され、アクセントが不明な場合にはフル微調整が可能であった。
私たちの知る限りでは、非ネイティブなマルチアクセントASRにLoRAの専門家が混在するのはこれが初めてです。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:57:24 GMT)
Unsupervised Detection of Distribution Shift in Inverse Problems using Diffusion Models [15.9] 本稿では,間接的(破損した)測定のみを用いて分布変化を推定するための教師なしの指標を提案する。
この結果から, クリーンな画像から算出したKLの偏差を近似したスコアベースの測定値が得られた。
この結果から,分布外分布スコアと分布内分布スコアとの整合性はKLのばらつきを減少させ,複数の逆問題における再構成品質の向上につながることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:24:04 GMT)
DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving [15.8] VLM(Vision-Language Model)による新しいハイブリッドスパース距離拡散政策を提案する。
提案手法は,現実的,反応的な合成シナリオを含む自律的グランドチャレンジ2025において,優れた性能を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:49:35 GMT)
Model Stitching by Functional Latent Alignment [15.7] モデル縫合における新しい最適条件として機能的潜在アライメントを提案する。
FuLAは、タスクキューのトレーニングに結びついているアーティファクトよりも、ステッチレベルのマッチングによって見逃される非自明なアライメントを達成する傾向がある。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:44:26 GMT)
It's High Time: A Survey of Temporal Information Retrieval and Question Answering [15.7] 本稿では,時間的情報検索と時間的質問回答の総合的概要について述べる。
我々は、トランスフォーマーモデルや大規模言語モデルなど、従来のアプローチと現代的なニューラルメソッドの両方をレビューする。
また、時間的言語モデリング、マルチホップ推論、検索強化生成の最近の進歩についてもレビューする。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:21:26 GMT)
Semantic-Preserving Adversarial Attacks on LLMs: An Adaptive Greedy Binary Search Approach [15.7] 大規模言語モデル(LLM)は、ユーザ入力を洗練させ、応答精度を向上させるために、グラフィカルユーザインタフェース(GUI)における自動プロンプト工学に依存している。
本稿では, セマンティック安定性を維持しつつ, 共通的なプロンプト最適化機構をシミュレートするアダプティブ・グレディ・バイナリ・サーチ(AGBS)手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:41:06 GMT)
Efficient and Stealthy Jailbreak Attacks via Adversarial Prompt Distillation from LLMs to SLMs [15.6] ジェイルブレイクシナリオにおける大規模言語モデル(LLM)に対する攻撃は多くのセキュリティと倫理上の問題を引き起こす。
現在のジェイルブレイク攻撃法は、低効率、高い計算コスト、低いクロスモデル適応性といった問題に直面している。
本研究は, マスク付き言語モデリング, 強化学習, 動的温度制御を組み合わせた適応型プロンプト蒸留法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:27:51 GMT)
SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation [15.6] 本稿では,音声言語モデル(ALM)を用いて,予備的分離後のテキスト領域内での音声の修正と再合成を行う先駆的アプローチであるSepALMを紹介する。
SepALMは、セパレータ、修正器、シンセサイザー、調整器の4つのコアコンポーネントから構成される。
我々の実験は、SepALMが音声分離の精度を高めるだけでなく、新しい音響環境における適応性を著しく向上させることを実証している。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:01:19 GMT)
ViewCraft3D: High-Fidelity and View-Consistent 3D Vector Graphics Synthesis [15.5] 3次元ベクトルグラフィックスは、3次元形状検索、概念設計、バーチャルリアリティーの相互作用など、様々なアプリケーションにおいて重要な役割を果たす。
近年のアプローチでは、3Dベクターグラフィックスの生成が期待できるが、長い処理時間とビューの一貫性維持に苦慮することが多い。
本研究では, 3次元ベクトルグラフィックスを生成するために, 3次元先行画像を利用する効率的な方法であるViewCraft3D(VC3D)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:21:18 GMT)
UniICL: An Efficient Unified Framework Unifying Compression, Selection, and Generation [15.4] In-context Learning (ICL)は、いくつかの実演を前にして、LLM(Large Language Models)の推論能力を高める。
既存の手法は、文脈長の過剰な成長の問題により、大きな限界を示す。
デモ圧縮, デモ選択, 最終応答生成を統一する textbfUniICL を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:39:26 GMT)
An Introductory Survey to Autoencoder-based Deep Clustering -- Sandboxes for Combining Clustering with Deep Learning [15.4] このサーベイは、基本的なオートエンコーダベースのディープクラスタリングアルゴリズムの紹介を提供する。
ディープラーニングとクラスタリングの組み合わせは、Deep Clusteringと呼ばれ、特定のクラスタリングタスクに適した表現を学ぶことができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:02:04 GMT)
CPA-RAG:Covert Poisoning Attacks on Retrieval-Augmented Generation in Large Language Models [15.3] Retrieval-Augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)を強化する。
既存のRAGシステムに対する中毒法には、一般化の欠如や、敵のテキストにおける流布の欠如など、制限がある。
CPA-RAGは,検索プロセスを操作することで,対象の回答を誘導するクエリ関連テキストを生成するブラックボックスの対向フレームワークである。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:48:32 GMT)
Enhancing Visual Reliance in Text Generation: A Bayesian Perspective on Mitigating Hallucination in Large Vision-Language Models [15.3] LVLM(Large Vision-Language Models)は通常、コンテキストコヒーレンスを満たすテキストを生成するが、視覚入力と一致しない。
本稿では,ベイズ的視点からLVLMのテキスト生成における視覚的依存を退避させる要因について検討する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:26:30 GMT)
In-context Language Learning for Endangered Languages in Speech Recognition [15.3] In-context Learning (ICL) を用いて,大規模言語モデル (LLM) が未知の低リソース言語を学習できるかどうかを検討する。
ICLは、これらの言語に特化して訓練された専用言語モデルに匹敵する、あるいは超越したASR性能を実現することができることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:38:59 GMT)
Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.2] 不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。
モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。
しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:16:36 GMT)
Rep3D: Re-parameterize Large 3D Kernels with Low-Rank Receptive Modeling for Medical Imaging [15.1] Rep3Dは、学習可能な空間ボリュームを大規模なカーネルトレーニングに組み込む3D畳み込みフレームワークである。
Rep3Dは、3D画像解析のための解釈可能でスケーラブルなソリューションを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:12:56 GMT)
RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs [14.8] 近年,大規模言語モデル(LLM)の強化学習に基づくポストトレーニングが注目されている。
これらの手法の基礎となる定式化と仮定を批判的に検討する。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:46:31 GMT)
Finite Temperature Casimir Effect of Scalar Field [14.8] 有限温度での1次元および3次元場に対するヘルムホルツ自由エネルギー、カシミール力、カシミールエントロピーの解析式を導出する。
熱ゆらぎによって引き起こされるカシミール力は高温状態では反発する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:23:59 GMT)
Editing as Unlearning: Are Knowledge Editing Methods Strong Baselines for Large Language Model Unlearning? [14.7] 編集とアンラーニングは2つの異なるタスクのようですが、それらの間には密接な関係があることが分かりました。
知識編集技術がLLMアンラーニングの強力なベースラインであるかどうかを評価する。
未学習アプリケーションの編集方法を改善するために,自己改善とクエリマージを含む実践的なレシピを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:39:56 GMT)
DCG-SQL: Enhancing In-Context Learning for Text-to-SQL with Deep Contextual Schema Link Graph [14.6] 本稿では,実演を効果的に検索し,sqlクエリを生成する新しい手法を提案する。
質問とデータベースのスキーマ項目のキー情報と関連性を含むDeep Contextual Link Graphを構築した。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:19:10 GMT)
PITCH: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response [14.6] 我々は,対話型ディープフェイク音声通話の検出とタグ付けを行う,堅牢なチャレンジ応答手法であるPITCHを開発した。
PITCHの課題は、マシン検出能力を88.7%のAUROCスコアに向上させた。
疑わしい通話を「ディープフェイク風」とタグ付けする新しい人間とAI協調システムを開発した。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:21:47 GMT)
HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters [14.6] HunyuanVideo-Avatarは動的、感情制御可能、マルチキャラクタ対話ビデオを同時に生成できるモデルである。
キャラクタイメージインジェクションモジュールは、従来の追加ベースのキャラクタコンディショニングスキームを置き換えるように設計されている。
AEM(Audio Emotion Module)を導入し、感情参照画像から感情手がかりを抽出し、ターゲット生成ビデオに転送する。
音声駆動型キャラクタを潜在レベルフェイスマスクで分離するために, 顔認識型オーディオアダプタ (FAA) を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:57:27 GMT)
Supervised Learning-enhanced Multi-Group Actor Critic for Live Stream Allocation in Feed [14.5] SL-MGAC(Supervised Learning-enhanced Multi-Group Actor Critic Algorithm)を提案する。
本稿では,分散低減手法を取り入れた教師付き学習支援型アクター批判フレームワークを提案する。
また,過度に欲求的なライブストリームアロケーションを防止するために,新たな報酬関数を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:49:37 GMT)
RedAHD: Reduction-Based End-to-End Automatic Heuristic Design with Large Language Models [14.5] 我々は,これらのLCMに基づく設計手法を人間を必要とせずに動作させることができる,RedAHDという新しいエンドツーエンドフレームワークを提案する。
より具体的には、RedAHD は LLM を用いて還元プロセスの自動化、すなわち手元のCOPをよりよく理解された類似のCOPに変換する。
6つのCOPで評価した実験結果から,RedAHDは人間の関与を最小限に抑えた最先端の手法よりも設計や改善が可能であることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:21:16 GMT)
PreP-OCR: A Complete Pipeline for Document Image Restoration and Enhanced OCR Accuracy [14.5] PreP-OCRは、文書イメージの復元と意味認識後OCR修正を組み合わせた2段階のパイプラインである。
私たちの重要なイノベーションは、画像の明瞭さと言語的一貫性を共同で最適化することにあります。
我々のパイプラインは,過去のアーカイブをデジタル化するために,画像復元と言語的誤り訂正を統合する可能性を実証している。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:25:28 GMT)
Discounted Online Convex Optimization: Uniform Regret Across a Continuous Interval [14.5] DNP (Discounted-Normal-Predictor) と呼ばれる割引アルゴリズムが2人の専門家の判断を組み合わせられることを示す。
分析の結果、DNPは2人の専門家の判断を組み合わせられることが明らかとなった。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:20:51 GMT)
CGI: Identifying Conditional Generative Models with Example Images [14.5] 生成モデルは近年顕著なパフォーマンスを達成しており、モデルハブが出現している。
ユーザがモデル記述やサンプルイメージをレビューするのは簡単ではない。
本稿では,ユーザが提供するサンプル画像を用いて,最も適切なモデルを特定することを目的とした生成モデル同定(CGI)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:31:08 GMT)
Causality and "In-the-Wild" Video-Based Person Re-ID: A Survey [14.4] ビデオベースの人物識別(Re-ID)は、目覚ましいベンチマークパフォーマンスにもかかわらず、実際のデプロイメントでは不安定である。
本研究は,従来の相関に基づくアプローチの原則的代替として,因果推論の新たな役割について考察する。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:03:23 GMT)
Auto-nnU-Net: Towards Automated Medical Image Segmentation [14.3] Medical Image Decathlon (MIS) には骨から臓器へのセグメンテーションまで様々なタスクが含まれており、それぞれに最適なセグメンテーションモデルを見つけるための独自の課題がある。
最先端のAutoML関連MIS-framework nnU-Netはモデル構成の多くの側面を自動化する。
本稿では,ハイパーパラメータ最適化(HPO),ニューラルアーキテクチャ探索(NAS),階層型NASを実現する新しいnnU-Net変種であるAutonnU-Netを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:52:37 GMT)
From What to How: Attributing CLIP's Latent Components Reveals Unexpected Semantic Reliance [14.3] 我々は,潜在コンポーネントが何を活性化するか,期待されるセマンティクスとどのように一致しているか,予測にどの程度重要かを明らかにするフレームワークを導入する。
本手法は,多文語,複合名詞,視覚タイポグラフィ,データセットアーティファクトに関連付けられた何百もの驚くべき成分を明らかにする。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:08:02 GMT)
GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models [14.3] 主要な安全策の1つは、リリース前にジェイルブレイクで大規模言語モデルを積極的にテストすることである。
我々は,人間の世代スタイルでジェイルブレイクを発生させるための,新しい直感的かつ直感的な戦略を提案する。
我々の異なる役割のシステムは、この知識グラフを利用して新しいジェイルブレイクを生成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:42:23 GMT)
GraphAU-Pain: Graph-based Action Unit Representation for Pain Intensity Estimation [14.3] 既存の表情から痛みを検出するデータ駆動手法は、解釈可能性と重大さによって制限される。
グラフニューラルネットワークを利用することで、我々のフレームワークは解釈可能性の向上と大幅な性能向上を提供する。
一般公開されたUNBCデータセットで実施された実験は、GraphAU-Painの有効性を実証している。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:35:42 GMT)
Three Minds, One Legend: Jailbreak Large Reasoning Model with Adaptive Stacked Ciphers [14.3] Large Reasoning Models (LRMs) は従来のLarge Language Models (LLMs) と比較して優れた論理能力を示している。
SEALは新たなジェイルブレイク攻撃であり、彼らの推論プロセスをオーバーライドし、潜在的な適応アライメントを回避するように設計された適応型暗号化パイプラインを通じてLEMをターゲットにしている。
SEAL は GPT o4-mini の攻撃成功率 80.8% を達成し、最先端のベースラインを27.2% で上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:28:07 GMT)
ImgEdit: A Unified Image Editing Dataset and Benchmark [14.2] 大規模な画像編集データセットであるImgEditを紹介した。
ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。
画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:53:33 GMT)
Semantic Correspondence: Unified Benchmarking and a Strong Baseline [14.0] 本研究は,意味対応手法の大規模調査である。
我々は、様々なベンチマークの文献におけるメソッドの結果を統合比較表に集約し、要約する。
複数のベンチマークで最先端のパフォーマンスを実現するための,シンプルで効果的なベースラインを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:40:13 GMT)
Diff-Def: Diffusion-Generated Deformation Fields for Conditional Atlases [14.0] 条件付きアトラスは、人口統計学や病理学のような特定の条件によって定義された特定のサブ人口をターゲットにしている。
既存のアプローチでは、大きな解剖学的変異を処理できない場合が多い登録ベースの方法のいずれかを使用している。
本稿では, 潜在拡散モデルを用いて変形場を生成し, 一般集団アトラスを特定のサブ集団を表すものに変換することを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:53:18 GMT)
The Power of Iterative Filtering for Supervised Learning with (Heavy) Contamination [14.0] 低次数で近似できる任意の関数クラスは、有界汚染下で効率的に学習できることを示す。
固定対数対数分布に対するハーフ空間の関数に対する耐久性試験可能学習のための最初の効率的なアルゴリズムを得る。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:17:48 GMT)
HiPoNet: A Multi-View Simplicial Complex Network for High Dimensional Point-Cloud and Single-Cell Data [13.8] HiPoNetは、高次元の点雲上での回帰、分類、表現学習のためのエンドツーエンドの微分可能なニューラルネットワークである。
HiPoNetは単一セルデータ上で他のポイントクラウドやグラフベースのモデルよりも優れていることを示す。
また、空間座標をビューの1つとして用いた空間転写学データセットにHiPoNetを適用した。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:37:22 GMT)
Few-Shot Class-Incremental Learning For Efficient SAR Automatic Target Recognition [13.8] 本稿では,局所的特徴抽出に着目したデュアルブランチアーキテクチャに基づくFSCILフレームワークを提案する。
これにより、ドメイン固有の機能をグローバルな依存関係と融合して、堅牢な機能インタラクションを保証する、軽量なクロスアテンションメカニズムが組み込まれている。
MSTARベンチマークデータセットの実験結果から,提案フレームワークはFSCIL SAR-ATRの最先端手法を一貫して上回っていることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:25:30 GMT)
Chain-of-Thought for Autonomous Driving: A Comprehensive Survey and Future Prospects [13.7] CoT推論(Chain-of-Thought reasoning)は、人間の思考過程をシミュレートする高度な認知手法である。
本稿では,CoT法が自律運転モデルの推論能力をどのように向上させるかを検討する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:06:00 GMT)
SGM: A Framework for Building Specification-Guided Moderation Filters [13.6] 大規模言語モデル(LLM)は、脱獄のような不適応や敵対的な入力に影響を受けやすい。
SGM(Specification-Guided Moderation)は,ユーザ定義仕様に基づいてモデレーションフィルタをトレーニングするためのフレキシブルなフレームワークである。
SGMでトレーニングされたフィルタは、キュレートされたデータセット上に構築された最先端の安全フィルタと同等に動作し、きめ細かい調整とユーザ定義のアライメント制御をサポートする。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:49:43 GMT)
Beyond Segmentation: Confidence-Aware and Debiased Estimation of Ratio-based Biomarkers [13.5] 比例ベースのバイオマーカーは、診断、予後、治療計画を支援するために臨床実践で広く用いられている。
既存の方法は点推定のみを提供し、不確実性の尺度を提供しない。
比率に基づくバイオマーカーを推定するための統一的なテキスト信頼認識フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:58:19 GMT)
Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.4] そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:02:57 GMT)
SwarmThinkers: Learning Physically Consistent Atomic KMC Transitions at Scale [13.4] 我々は,原子スケールシミュレーションをSwarmインテリジェンスシステムとして再放送する強化学習フレームワークであるSwarmThinkersを紹介する。
放射誘起Fe-Cu合金析出をシミュレーションするベンチマークにおいて、SwarmThinkersは単一のA100 GPU上でフルスケールで物理的に一貫したシミュレーションを行う最初のシステムである。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:04:37 GMT)
DECT: Harnessing LLM-assisted Fine-Grained Linguistic Knowledge and Label-Switched and Label-Preserved Data Generation for Diagnosis of Alzheimer's Disease [13.4] アルツハイマー病(英: Alzheimer's Disease、AD)は、世界中で5000万人が発症する、不可逆的な神経変性疾患である。
言語障害は認知低下の最も初期の兆候の1つであり、AD患者を正常なコントロール個人と区別するために使用することができる。
患者間対話はそのような障害を検出するために用いられるが、曖昧でうるさい、無関係な情報と混同されることが多い。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:11:09 GMT)
Linear Control of Test Awareness Reveals Differential Compliance in Reasoning Models [13.4] 推論にフォーカスした大規模言語モデル(LLM)は、評価されていることを検知すると、その振る舞いを変えることがある。
このような「テスト意識」がモデル行動、特に安全性のアライメントにどのように影響するかについて、最初の定量的研究を行った。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:30:51 GMT)
DC-VSR: Spatially and Temporally Consistent Video Super-Resolution with Video Diffusion Prior [13.3] ビデオ解像度(VSR)は、低解像度(LR)から高解像度(HR)ビデオを再構成することを目的としている。
DC-VSRは、空間的および時間的に整合したVSR結果を現実的なテクスチャで生成する。
実験により、DC-VSRは空間的にも時間的にも一貫した高品質なVSRを達成し、以前のアプローチより優れていることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:44:33 GMT)
Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations [13.1] MedAgentは、現実的で多ターンのメンタルヘルス・センスメイキングの会話を合成的に生成する新しいフレームワークである。
医療環境におけるLLMのマルチターン会話能力を評価するための総合的フレームワークであるMultiSenseEvalを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:42:02 GMT)
gec-metrics: A Unified Library for Grammatical Error Correction Evaluation [13.0] gec-metricsは、文法的誤り訂正(GEC)評価メトリクスの使用と開発のためのライブラリである。
本ライブラリは,全ての人が一貫した実装を用いて評価を行うことによって,公平なシステム比較を可能にする。
私たちのコードはMITライセンスでリリースされており、インストール可能なパッケージとしても配布されています。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:10:16 GMT)
Language Model-Enhanced Message Passing for Heterophilic Graph Learning [13.0] 異種グラフ傾き(LEMP4HG)のための新しい言語モデル(LM)拡張メッセージパッシング手法を提案する。
具体的には、テキスト分散グラフのコンテキストにおいて、LMに接続解析を生成するためのペアノードテキストを提供し、それを符号化し、ゲーティング機構を通じてペアノードテキスト埋め込みと融合する。
合成されたメッセージは、両ノードの情報とセマンティックに富み、適応的にバランスをとる。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:45:16 GMT)
SHARP: Unlocking Interactive Hallucination via Stance Transfer in Role-Playing LLMs [13.0] 大規模言語モデル(LLM)の対話的パターンを明らかにするための一般化可能で明示的なパラダイムを導入する。
まず、姿勢伝達による対話的幻覚を定義し、次にコモンセンス知識グラフから関係を抽出したベンチマークであるSHARPを構築した。
大規模な実験により、我々のパラダイムの有効性と安定性を確認し、これらの指標に影響を与える要因を調べ、従来の幻覚緩和ソリューションに挑戦する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:30:58 GMT)
ExAnte: A Benchmark for Ex-Ante Inference in Large Language Models [12.9] 大型言語モデル (LLM) は、元Antの推論において重大な課題に直面している。
時間的カットオフを強制する明示的なプロンプトであっても、LLMは指定されたカットオフを超えた事象の内在的な知識に影響された出力をしばしば生成する。
本稿では、このような時間的制約に固執しながら、LCMの推論能力を評価するための新しいタスクとベンチマークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:39:57 GMT)
Authenticated Sublinear Quantum Private Information Retrieval [12.9] 本稿では,量子相対エントロピーと相互情報を用いた通信複雑性の低減手法を提案する。
ウルマンの補題と量子ピンスカーの不等式を活用することにより、著者らは情報理論のセキュリティのためにより厳密な境界を確立する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:13:52 GMT)
LLM Meets Scene Graph: Can Large Language Models Understand and Generate Scene Graphs? A Benchmark and Empirical Study [12.9] 大規模言語モデル(LLM)は、組み込みAI、ロボティクス、その他の現実世界のタスクに応用を拡大するための道を開いた。
最近の研究は、シーン内のエンティティ、属性、およびそれらの関係をエンコードする構造化された表現であるシーングラフを活用している。
テキストシーングラフ(TSG)ベンチ(Text-Scene Graph)は,LLMのシーングラフ理解能力を評価するためのベンチマークである。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:45:12 GMT)
Decoupling Spatio-Temporal Prediction: When Lightweight Large Models Meet Adaptive Hypergraphs [12.9] STH-SepNetは、時間的および空間的表現性を効率と精度の両方に分離する新しいフレームワークである。
S-SepNetは、現実世界のアプリケーションにおける時間予測のための実用的でスケーラブルなソリューションを提供する。
この作業は、計算要求の削減と予測性能の向上を目的とした、時間的予測のための有望な軽量フレームワークを提供する可能性がある。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:37:39 GMT)
ADD-SLAM: Adaptive Dynamic Dense SLAM with Gaussian Splatting [12.8] ADD-SLAM: ガウス分割に基づくAdaptive Dynamic Dense SLAMフレームワーク。
シーン整合性解析に基づく適応的動的識別機構を設計する。
事前に定義されたセマンティックなカテゴリは必要とせず、シーンのダイナミクスを適応的に発見する。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:17:17 GMT)
Lorentz Local Canonicalization: How to Make Any Network Lorentz-Equivariant [12.8] ローレンツ同変ニューラルネットワークは高エネルギー物理学の主要なアーキテクチャになりつつある。
Lorentz Local Canonicalization (LLoCa)は,任意のバックボーンネットワークを正確にLorentz-equivariantでレンダリングする一般的なフレームワークである。
われわれのモデルは、関連する粒子物理学のタスクの最先端の精度を上回り、高速で5ドル〜100ドルでFLOPを減らした。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:57:17 GMT)
CPathAgent: An Agent-based Foundation Model for Interpretable High-Resolution Pathology Image Analysis Mimicking Pathologists' Diagnostic Logic [12.8] CPathAgentは、病理学者の推論プロセスを模倣し、ズームイン/アウトおよびナビゲーション操作を自律的に実行するエージェントベースのモデルである。
CPathAgentは3つのベンチマークで既存のアプローチを一貫して上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:22:19 GMT)
Automated CAD Modeling Sequence Generation from Text Descriptions via Transformer-Based Large Language Models [12.7] 大規模言語モデル(LLM)とコンピュータ支援設計(CAutoD)を統合した産業設計自動化のための新しいフレームワークを提案する。
提案手法では,LLMと視覚言語による大規模モデル(VLLM)を活用して高品質なパラメータと外観記述を生成する半自動データパイプライン,デュアルチャネル特徴集約によるモデリングシーケンスを予測するトランスフォーマーベースのCADジェネレータ(TCADGen),CADLLMと呼ばれる拡張CADモデリング生成モデル,の3点を紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:17:51 GMT)
Using Time Structure to Estimate Causal Effects [12.7] 時系列設定における直接(およびライトの経路規則全体を通して)因果効果を推定するための新しいアプローチを提案する。
このアプローチは、基礎となる時系列が構造ベクトル自己回帰過程であると仮定する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:18:30 GMT)
Simple and Effective Baselines for Code Summarisation Evaluation [12.6] 簡単なベースラインを導入し、LCMに概要に総合的なスコアを与える。
n-gramや埋め込みベースのベースラインとは異なり、私たちのアプローチではスコアを与える際にコードを考慮できます。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:16:41 GMT)
Exploring Generative Error Correction for Dysarthric Speech Recognition [12.6] 本稿では,InterSPEECH 2025における音声アクセシビリティ・プロジェクト・チャレンジのための2段階フレームワークを提案する。
モデルスケールとトレーニング戦略の異なる構成を評価し、特定の仮説選択を取り入れて転写精度を向上させる。
変形性音声認識における音響モデルと言語モデリングの相補的役割について考察する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:06:31 GMT)
ResSVD: Residual Compensated SVD for Large Language Model Compression [12.5] ResSVDは、大規模言語モデルのための新しい訓練後のSVDベースの圧縮手法である。
トラニケート過程中に発生する残留行列を利用してトラニケート損失を低減する。
固定された全体圧縮比の下で、モデルの最後の数層を選択的に圧縮する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:14:54 GMT)
Kernel Quantile Embeddings and Associated Probability Metrics [12.5] カーネル量子埋め込み(KQE)の概念を導入する。
i) MMDよりも弱いカーネル条件下での確率測定値、(ii)スライスしたワッサーシュタイン距離のカーネル化形式を復元し、(iii) ほぼ直線的なコストで効率的に推定できる。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:27:17 GMT)
Distortion Resilience for Goal-Oriented Semantic Communication [12.5] この研究は、速度歪み理論を利用して、通信や圧縮によって引き起こされる歪みを分析する革新的なアプローチを導入している。
我々は、AIタスクの実証的精度を事前に見積もることができ、ゴール指向のSemCom問題を実現することができる。
実験結果から,提案手法はネットワーク制約に固執しながら,正確なAIタスク性能を実現することが示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:48:00 GMT)
A Cognitive Writing Perspective for Constrained Long-Form Text Generation [12.4] 大きな言語モデル(LLM)は、1回のパスで厳格な要求に従う高品質の長文を生成するのに苦労する。
認知の原則によって動機づけられた私たちは,CagWriterを通じて,人間のような認知書記能力を備えたLLMの実現を目指しています。
本フレームワークは,(1)タスクを分解する階層的計画を実行する計画エージェントと,(2)これらの計画を並列に実行する複数の生成エージェントの2つの主要なモジュールから構成される。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:57:15 GMT)
Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks [12.4] 大きな言語モデル(LLM)は、正式な仕様を生成することで自動推論の民主化を約束する。
LLM出力をモデル化するための確率論的文脈自由文法(PCFG)フレームワークを導入する。
最後に、これらの信号の軽量な融合により、選択的な検証が可能となり、最小の棄権でエラーを劇的に削減する(14100%)。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:34:04 GMT)
New Perspectives on the Polyak Stepsize: Surrogate Functions and Negative Results [12.4] Polyakのステップサイズは凸最適化の基本的なステップサイズであることが証明されている。
ポリアックの階段の普遍性は、理論的な保証と強い経験的性能を含む多くの変種にも影響を与えた。
多くの理論的結果にもかかわらず、Polyakの立体化の収束特性と欠点に対する我々の理解は、異なる解析で不完全かつ破断である。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:00:27 GMT)
The Role of Video Generation in Enhancing Data-Limited Action Understanding [12.4] 本稿では,テキスト・ビデオ拡散変換器を用いて,モデル学習のための注釈付きデータを生成する手法を提案する。
このパラダイムは、人間の介入なしに無限スケールで現実的な注釈付きデータを生成することを可能にする。
提案手法の有効性を5つのタスクにわたる4つのデータセットに示すとともに,ゼロショット動作認識のための最先端性能を実現する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:23:50 GMT)
Preference Optimization by Estimating the Ratio of the Data Distribution [12.4] 本稿では,比例マッチングのためのBregman preference Optimization (BPO)を提案する。
BPO は DPO を特別な場合として仮定し、すべてのインスタンスに対して tractable form を提供する。
実験では、$f$-DPOや$f$-POのような他の確率的損失拡張とは異なり、BPOのインスタンスはDPOと比較して勝利率とエントロピーの両方を改善する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:10:53 GMT)
A Theoretical Framework for Grokking: Interpolation followed by Riemannian Norm Minimisation [12.3] 一般訓練損失$F: mathbbRd から mathbbR$ への勾配流のダイナミクスについて検討する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:12:45 GMT)
Causal-LLaVA: Causal Disentanglement for Mitigating Hallucination in Multimodal Large Language Models [12.3] MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて高い性能を示す。
それらはしばしば、対象の幻覚に悩まされる - 入力と矛盾する、あるいは完全に欠落している物体の記述を生成する。
因果的介入を通じて幻覚を緩和する因果的非絡み合いの枠組みを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:53:00 GMT)
Objective, Absolute and Hue-aware Metrics for Intrinsic Image Decomposition on Real-World Scenes: A Proof of Concept [12.3] 内在画像分解(IID)は、イメージをアルベドとシェードに分離するタスクである。
本稿では,高スペクトル像と光検出・測光(LiDAR)強度から算出したアルベドを用いた定量的評価の概念を提案する。
また、スペクトル類似性に基づく任意アルベド密度化手法も導入する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:28:22 GMT)
An Out-Of-Distribution Membership Inference Attack Approach for Cross-Domain Graph Attacks [12.1] クロスドメイングラフ攻撃を実現するために,グラフOODメンバーシップ推論攻撃(GOOD-MIA)を提案する。
具体的には、実世界のデータの多様性をモデル化するために、異なる領域の分布を持つ影のサブグラフを構築する。
実験により、GOOD-MIAは複数のドメイン用に設計されたデータセットにおいて優れた攻撃性能を発揮することが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:52:52 GMT)
Simulating quantum instruments with projective measurements and quantum post-processing [12.1] 楽器のシミュラビリティは, 絡み合いの分類問題に接続可能であることを示す。
これにより、汎用機器のシミュレーションやキュービットの完全なキャラクタリゼーションに計算的に効率的な必要条件が導かれる。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:31:55 GMT)
ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-loop Autonomous Driving [12.0] マルチモーダル大規模言語モデル(MLLM)は、エンドツーエンド(E2E)自動運転の分野で大きな注目を集めている。
本稿では,包括的推論による閉ループ運転のためのMLLMファインチューニングフレームワークReasonPlanを提案する。
本手法は,Bench2Driveベンチマークにおいて,19%のL2と16.1の駆動スコアでE2E模倣学習法より優れていた。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:12:38 GMT)
Error Optimization: Overcoming Exponential Signal Decay in Deep Predictive Coding Networks [12.0] Predictive Coding (PC)は、ニューラルネットワークトレーニングのバックプロパゲーションに生物学的に妥当な代替手段を提供するが、より深いアーキテクチャに苦しむ。
本稿では、勾配が指数関数的に深さに減衰し、数値的精度の制約により計算的に無視できる固有信号減衰問題である根本原因を同定する。
この基本的な制限に対処するため,信号減衰を除去しながらPCの理論特性を保った新しい再パラメータ化であるエラー最適化(EO)を導入する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:39:16 GMT)
PillarHist: A Quantization-aware Pillar Feature Encoder based on Height-aware Histogram [12.0] リアルタイムかつ高性能な3Dオブジェクト検出は、自律走行とロボット工学において重要な役割を果たす。
最近の柱型3次元物体検出器は、そのコンパクトな表現と計算オーバーヘッドの低さから注目されている。
しかし、既存の柱型検出器は、高さ寸法と大きな数値分布差に沿って情報損失を被っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:00:08 GMT)
S2LPP: Small-to-Large Prompt Prediction across LLMs [11.9] 即時一貫性が自然言語推論などの他のタスクにまで拡張されていることを示す。
より小さなモデルを用いて、より大規模なモデルに対して効果的なプロンプトテンプレートを選択する方法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:07:30 GMT)
RetroMotion: Retrocausal Motion Forecasting Models are Instructable [11.9] 本研究では,情報の流れの逆因性を含む動作予測のためのマルチタスク学習手法を開発した。
本手法はArgoverse 2データセットによく当てはまる。
実験の結果,運動予測の定期的な訓練は,目標に基づく指示に従う能力に繋がることがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:05:59 GMT)
Done Is Better than Perfect: Unlocking Efficient Reasoning by Structured Multi-Turn Decomposition [11.9] 大共振モデル (LRM) は、最終解を導出する長大なチェーン・オブ・ソート (CoT) に対して批判される。
本稿では,Multi-Turn Decomposition (MinD)を導入し,従来のCoTを明示的,構造化的,ターンワイドなインタラクションのシーケンスにデコードする。
MinDは、出力トークンの使用量と最初のトークンの時間(TTFT)の両方を最大70%削減することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:18:57 GMT)
MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System [11.8] 本稿では,境界明瞭度とチャンクスティックネスを組み合わせた2次元評価手法を提案する。
我々は、複雑なコンテキストニュアンスを扱う際に、伝統的および意味的なチャンキングの固有の制限を強調します。
3段階の処理機構からなるMixture-Aware Mixture-of-Chunkers (MoC) フレームワークを考案した。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:24:56 GMT)
Less for More: Enhanced Feedback-aligned Mixed LLMs for Molecule Caption Generation and Fine-Grained NLI Evaluation [11.8] この研究は、最小または追加の訓練を伴わずに、推論と評価能力を改善することで、科学的言語モデルを強化する。
このような手法の動作と適合性に関する興味深い洞察を明らかにしながら、最先端のモデルを大幅に超えている。
そこで本研究では,未知の化学領域で使用するために,市販の自然言語推論(NLI)モデルを利用した新しい原子レベル評価手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:15:50 GMT)
HAMburger: Accelerating LLM Inference via Token Smashing [11.7] HAMburgerは階層的な自己回帰モデルであり、大規模言語モデル推論におけるリソース割り当てを再定義する。
HAMburgerはKVキャッシュの計算を最大2$times$に減らし、最大2$times$TPSを実現する。
本手法では,ハードウェアに依存しない設計で計算効率とメモリ効率の両方を必要とする,極めて困難な推論方式を探索する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:34:07 GMT)
Navigating loss manifolds via rigid body dynamics: A promising avenue for robustness and generalisation [11.7] 勾配に基づく最適化を通じて大規模なニューラルネットワークをトレーニングするには、高次元のロスランドスケープをナビゲートする必要がある。
我々は、この依存を同時に減らし、鋭い最小化を避ける代替案を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:26:21 GMT)
ALAS: Measuring Latent Speech-Text Alignment For Spoken Language Understanding In Multimodal LLMs [11.7] 大規模言語モデル(LLM)は、音声言語理解(SLU)において広く使われている。
これらのモデルの主な考慮事項は、テキストとオーディオのモード間の相互アライメントである。
我々は新しい計量 ALAS (Automatic Latent Alignment Score) を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:02:44 GMT)
Residual Cross-Attention Transformer-Based Multi-User CSI Feedback with Deep Joint Source-Channel Coding [11.7] 本稿では,大規模マルチインプットマルチアウトプットシステムのための,ディープラーニング(DL)ベースのマルチユーザチャネル状態情報(CSI)フィードバックフレームワークを提案する。
マルチユーザ共同CSIフィードバックフレームワークを設計し、近隣ユーザのCSI相関を利用してフィードバックのオーバーヘッドを低減する。
実験により,ネットワークの複雑度が低く,スケーラビリティが向上したCSIフィードバック性能において,提案手法の優位性が示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:38:08 GMT)
Semantic-Space-Intervened Diffusive Alignment for Visual Classification [11.6] クロスモーダルアライメントは視覚的分類を改善する効果的なアプローチである。
本稿では,セマンティック空間間微分アライメント法(SeDA)を提案する。
実験結果から,SeDAはクロスモーダルな特徴アライメントを実現し,既存手法よりも優れた性能を示した。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:46:51 GMT)
Fairness Practices in Industry: A Case Study in Machine Learning Teams Building Recommender Systems [11.6] 私たちは、現在の偏見の実践、応用メトリクス、協調戦略、実践への学術研究の統合に重点を置いています。
発見は、従来の人口統計学的手法よりも多次元の偏見を好むことを示している。
また,実践者の個人的役割(ボトムアップ)と組織的(トップダウン)な職場制約(トップダウン)のバランスをとることの難しさを強調した。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:59:57 GMT)
BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving [11.6] 我々は、完全な数学的モデリングプロセスをキャプチャする包括的ラベルを付したStructuredORデータセットをリリースする。
本稿では,強化学習をツリー・オブ・シント構造に統合するアルゴリズムであるBPP-Searchを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:18:35 GMT)
How Well Do Large Reasoning Models Translate? A Comprehensive Evaluation for Multi-Domain Machine Translation [11.5] 大規模言語モデル (LLM) は汎用機械翻訳において高い性能を示している。
LRMの最近の進歩は、構造化推論が様々な領域にわたる翻訳品質を高めることができるかどうかという疑問を提起している。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:43:37 GMT)
Private Geometric Median in Nearly-Linear Time [11.5] データセットの幾何学的中央値の推定は、計算幾何学の基本的な問題である。
[HSU24]は幾何中央値の目的に対して$alpha$-multiplicative近似を与えた。
同じ近似品質を得るアルゴリズムを改良する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:32:49 GMT)
Spatiotemporal Causal Decoupling Model for Air Quality Forecasting [11.5] 本研究では,大気質指数(AQI)と気象特性の因果関係をモデル化するために,既存の研究の制約を精査するために因果グラフ法を用いる。
本稿では, 因果デカップリング手法を取り入れた空気質予測モデルAirCadeを紹介する。
オープンソース空気質データセット上でのAirCadeの評価は、最先端モデルよりも20%以上改善されていることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:21:57 GMT)
DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning [11.2] DeepEyesは、エンドツーエンドの強化学習を通じてインセンティブを得た、“イメージで考える”機能を備えたモデルである。
本稿では,ツール・ユース指向のデータ選択機構と報奨戦略を提案する。
DeepEyesは、微粒な認識と推論ベンチマークにおいて、大幅なパフォーマンス向上を実現している。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:19:11 GMT)
TeViR: Text-to-Video Reward with Diffusion Models for Efficient Reinforcement Learning [11.2] 本稿では,事前学習したテキスト・ビデオ拡散モデルを利用して高密度報酬を生成するTeViRを提案する。
11の複雑なロボットタスクに対する実験結果は、TeViRが従来の手法より優れていることを示している。
複雑な環境でエージェントを効率的に誘導するTeViRの能力は、ロボット操作における強化学習の応用を前進させる可能性を強調している。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:52:25 GMT)
Toward Physics-Informed Machine Learning for Data Center Operations: A Tropical Case Study [11.2] 熱帯地域のデータセンターは、一貫した環境温度と相対湿度の上昇により、ユニークな課題に直面している。
本稿では、従来のデータ駆動機械学習ソリューションにデータセンターの物理的特性を取り入れることを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:06:45 GMT)
Effectiveness of Prompt Optimization in NL2SQL Systems [11.2] 生産シナリオは高精度で高性能なNL2システムを必要とする。
このようなシナリオでは、クエリログ、ターゲットデータベース、実行レイテンシの複雑さをキャプチャする静的な例のセットを慎重に選択することは、類似性のみに基づく例の選択よりも重要な役割を担います。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:54:36 GMT)
CogReact: A Reinforced Framework to Model Human Cognitive Reaction Modulated by Dynamic Intervention [11.1] 本研究では,人間の認知過程に対する動的環境刺激の微粒化効果をシミュレートするために,ドリフト拡散と深部強化学習を統合したCogReactを提案する。
認知過程に対する環境刺激の時間的効果を考慮し、認知モデルを改善し、主観的・刺激特異的な行動差を捉える。
全体として、動的コンテキストにおける人間の認知応答の相違をシミュレートし、一致させ、理解するための、強力でデータ駆動の方法論を示します。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:40:22 GMT)
Identifying Knowledge Editing Types in Large Language Models [11.1] 大規模言語モデル(LLM)の知識を更新するための効率的な手法として知識編集が登場した
この手法の悪意ある誤用を防ぐ効果的な手段がないため、LSMの有害な編集につながる可能性がある。
我々は新しいタスク、$textbfK$nowledge $textbfE$diting $textbfT$ype $textbfI$dentification (KETI)を導入する。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:38:49 GMT)
HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment [11.0] HF-VTONは,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークである。
HF-VTONは3つの主要なモジュールで構成されている: 外観保存型ワープアライメントモジュール、セマンティック表現モジュール、およびマルチモーダル事前誘導型外観生成モジュール。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れていた。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:55:49 GMT)
What Does Neuro Mean to Cardio? Investigating the Role of Clinical Specialty Data in Medical LLMs [11.0] 本稿では,S-MedQA(S-MedQA)について紹介する。
専門性からのデータトレーニングが必ずしもその専門性において最高のパフォーマンスをもたらすとは限らないことを示す。
医療領域における微調整データの役割を再考することを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:41:35 GMT)
DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion [11.0] DAE-Fuseは,鮮明で自然な融合画像を生成する2相識別型自動エンコーダフレームワークである。
静止画像からビデオ領域への画像融合技術の拡張を開拓した。
DaE-Fuseは、複数のベンチマークで最先端のパフォーマンスを実現し、医用画像融合のようなタスクに優れた一般化性を持つ。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:59:56 GMT)
Fast Calculation of Feature Contributions in Boosting Trees [11.0] 本稿では,2次損失に対するShapley値の計算複雑性を時間的に低減するアルゴリズムを提案する。
シミュレーションの結果,Q-SHAPは計算効率を向上するだけでなく,特徴特異的な$R2$推定の精度も向上することがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:23:07 GMT)
ChemToolAgent: The Impact of Tools on Language Agents for Chemistry Problem Solving [11.0] 我々は,ChemCrow上で強化化学剤を開発し,その性能を専門的な化学タスクと一般化学質問の両方で包括的に評価する。
驚いたことに、ChemToolAgentはツールを使わずにLLMを一貫して上回っているわけではない。
合成予測のような特殊な化学タスクでは、特殊ツールでエージェントを増強する必要があるが、試験のような一般的な化学問題では、エージェントの化学知識を正しく推論する能力がより重要である。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:06:50 GMT)
Erasing Concepts, Steering Generations: A Comprehensive Survey of Concept Suppression [11.0] 機密性、著作権、有害な画像の無制御再生は、重大な倫理的、法的、安全上の課題を引き起こす。
概念消去パラダイムは有望な方向として現れており、生成モデルから特定の意味概念を選択的に除去することができる。
この調査は、研究者がより安全で倫理的に整合した生成モデルへと導くことを目的としている。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:24:34 GMT)
Uniform convergence of the smooth calibration error and its relationship with functional gradient [10.9] この研究は滑らかな校正誤差(CE)に焦点を当て、一様収束境界を提供する。
我々は3つの代表的なアルゴリズムを解析する: 勾配の押し上げ木、カーネルの押し上げ、2層ニューラルネットワーク。
この結果は,信頼性のある確率モデルを設計するための新たな理論的洞察と実践的ガイダンスを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:23:56 GMT)
Beyond Freezing: Sparse Tuning Enhances Plasticity in Continual Learning with Pre-Trained Models [10.9] 事前訓練されたモデルによる継続的な学習は、シーケンシャルなタスクにまたがる効率的な適応を大いに約束する。
既存のアプローチはPTMを凍結し、プロンプトやアダプタのような補助モジュールに依存している。
MIST(Mutual Information-Guided Sparse Tuning)は,PTMパラメータのサブセットを選択的に更新するプラグイン・アンド・プレイ方式である。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:09:25 GMT)
ReChisel: Effective Automatic Chisel Code Generation by LLM with Reflection [10.9] ReChiselは、Chiselコード生成の有効性を高めるために設計されたエージェントシステムである。
実験により、ReChiselはChiselコード生成の成功率を大幅に改善することが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:20:07 GMT)
Graph-to-Vision: Multi-graph Understanding and Reasoning using Vision-Language Models [10.8] VLM(Vision-Language Models)のマルチグラフ推論能力の評価と向上を目的とした,初の総合ベンチマークを導入する。
本ベンチマークでは,4つの共通グラフ型(知識グラフ,フローチャート,マインドマップ,ルートマップ)を網羅し,同種グラフ群と異種グラフ群をサポートする。
グラフ解析,推論整合性,命令追従精度を評価する多次元スコアリングフレームワークを用いて,最先端のVLMを評価した。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:31:06 GMT)
Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.7] JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:46:09 GMT)
A Structured Tour of Optimization with Finite Differences [10.6] 有限差分法における構造方向選択の影響について検討する。
構造化方向は非構造化方向と同等の計算コストで生成可能であることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:08:46 GMT)
Benchmarking Large Multimodal Models for Ophthalmic Visual Question Answering with OphthalWeChat [10.5] WeChatから眼科画像投稿と関連キャプションを収集した。
中国語と英語のバイリンガルペアは GPT-4o-mini を用いて生成した。
このベンチマークは、GPT-4o、Gemini 2.0 Flash、Qwen2.5-VL-72B-Instructの3つのVLMの性能を評価するために使用された。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:45:42 GMT)
TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent [10.5] 本稿では,言語ステガノグラフィーによる自然界のアウトプットにセンシティブな文脈情報を埋め込む,新たな脅威モデルであるTrojanStegoを提案する。
本稿では, LLMのリスク要因を概説した分類法を導入し, 脅威のリスクプロファイルを評価する。
実験の結果,妥協されたモデルでは,32ビットのシークレットを87%の精度で確実に送信し,97%以上の精度で3世代にわたる過半数投票を行った。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:20:51 GMT)
What Does Information Science Offer for Data Science Research?: A Review of Data and Information Ethics Literature [10.5] 情報科学研究者は、すでに文学におけるデータ倫理に対するヒューマニズム的なアプローチに貢献している。
本稿では、情報科学文学のコーパスにおけるデータ倫理研究の歴史、現在の発展、今後の方向性について紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:07:42 GMT)
Distilling Closed-Source LLM's Knowledge for Locally Stable and Economic Biomedical Entity Linking [10.4] 少ないデータ量で微調整された検索者により検索された候補を、クローズドソース LLM とオープンソース LLM を組み合わせたフレームワークである RPDR' を提案する。
実世界の1つのデータセットと、中国語と英語の2つの言語を含む1つの公開データセットを含む、2つのデータセット上でRPDRを評価する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:10:19 GMT)
Ocular Authentication: Fusion of Gaze and Periocular Modalities [10.3] 本稿では,2つの眼中心型認証モダリティ(眼球運動)と周辺視像(眼球運動)を校正不要な認証システムで融合させる可能性について検討する。
9202人の被験者からなる大規模な社内データセットを用いて、消費者向けバーチャルリアリティー(VR)デバイスと同等の視線追跡(ET)信号品質を有するマルチモーダル認証システムを提案し、評価する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:34:31 GMT)
Open the Eyes of MPNN: Vision Enhances MPNN in Link Prediction [10.3] グラフビジョンネットワーク(GVN)と呼ばれる効果的なフレームワークを提案することにより、視覚構造を考慮したグラフニューラルネットワークを実現する。
GVNは、大規模グラフの挑戦を含む、7つのリンク予測データセットにわたるビジョン強化の恩恵を一貫して受けている。
このような改善は既存のSOTA(State-of-the-art)メソッドと互換性があり、GVNは新たなSOTA結果を得る。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:01:40 GMT)
Federated Learning-Distillation Alternation for Resource-Constrained IoT [10.3] フェデレートラーニング(FL)は、エネルギーと通信資源のデバイス制限のため、モノのインターネット(Internet of Things)ネットワークにおいて重大な課題に直面している。
本稿ではFL-distillation alternation (FLDA)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:52:02 GMT)
Deep Actor-Critics with Tight Risk Certificates [10.2] 本研究では,深いアクター・クリティカルなアルゴリズムに対して,厳密なリスク証明書を開発可能であることを示す。
事前訓練された政策から収集された評価ロールアウトの小さな可能性が、正確なリスク証明書を作成するのに十分である。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:42:53 GMT)
The NaijaVoices Dataset: Cultivating Large-Scale, High-Quality, Culturally-Rich Speech Data for African Languages [10.2] 5000人以上の話者を持つ1,800時間音声テキストデータセットであるNaijaVoicesデータセットを紹介する。
我々は,我々のユニークなデータ収集手法を概説し,その音響的多様性を分析し,微調整実験を通じてその影響を実証する。
これらの結果から,ナイジャヴォイセスがアフリカ語における多言語音声処理を進展させる可能性が示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:53:48 GMT)
Minimax Adaptive Online Nonparametric Regression over Besov Spaces [10.1] 我々は,連続的かつ極めて不規則な予測規則の豊富なクラスに対して,凸損失を伴うオンライン逆回帰について検討した。
本稿では,$(s,p,q)$の事前知識を必要とせずに逐次予測を行う適応ウェーブレットベースのアルゴリズムを提案する。
また、空間的不均一な滑らかさを動的に追跡できる局所適応拡張を設計する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:23:11 GMT)
Predicting Through Generation: Why Generation Is Better for Prediction [10.1] 本稿では,トークンレベルの生成が相互情報を保持するため,予測タスクにプール表現を使用するよりも,出力トークンの生成の方が効果的であると主張している。
PredGenは、(i)露光バイアスを減らすためにスケジュールサンプリングを使用するエンド・ツー・エンドのフレームワークで、(ii)生成されたトークンを構造化された出力に変換するタスクアダプタを導入します。
以上の結果から,PredGenは標準ベースラインを一貫して上回り,構造化予測タスクの有効性を示した。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:30:45 GMT)
DeepDialogue: A Multi-Turn Emotionally-Rich Spoken Dialogue Dataset [10.0] DeepDialogueは40,150の高品質なマルチターン対話を含む大規模マルチモーダルデータセットである。
アプローチでは9つの異なる言語モデルを組み合わせて65,600の会話を生成します。
重要な貢献は、40,150の対話すべてに対して、感情一貫性のある音声を合成する、その音声成分である。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:37:10 GMT)
Benchmarking and Enhancing LLM Agents in Localizing Linux Kernel Bugs [10.0] フォールトローカライゼーション(FL)は、ソフトウェアのバグのあるコード要素を特定することを目的としている。
最近のLLMエージェントは、SWE-benchのような最近のベンチマークでFLで有望な精度を達成した。
実世界のLinuxカーネルのバグから構築されたFLベンチマークであるLinuxFLBenchを紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:15:48 GMT)
Language-Agnostic Suicidal Risk Detection Using Large Language Models [9.9] 本研究では,大規模言語モデル(LLM)を用いた自殺リスク評価のための新しい言語非依存フレームワークを提案する。
ASRモデルを用いて音声から中国語の書き起こしを生成し、その後、これらの書き起こしから自殺リスクに関連する特徴を抽出するために、プロンプトベースのクエリを用いたLLMを用いる。
実験結果から,ASRによる直接微調整や,中国の自殺リスク関連機能のみを訓練したモデルに比較して,本手法の有効性が示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:12:10 GMT)
DriveCamSim: Generalizable Camera Simulation via Explicit Camera Modeling for Autonomous Driving [9.9] 一般化可能なカメラシミュレーションフレームワークDriveCamSimを提案する。
私たちの中心となるイノベーションは、提案されているExplicit Camera Modelingメカニズムにあります。
制御可能な生成のために、既存の条件エンコーディングおよびインジェクションパイプラインに固有の情報損失の問題を同定する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:50:15 GMT)
Foundation Models for Tabular Data within Systemic Contexts Need Grounding [9.8] 本稿では,表が宣言的および手続き的操作知識の両方に本質的に結びついていることを認識し,SLT(Semantically Linked Tables)の概念を紹介した。
本稿では,FMSLT(Foundation Models for Semantically Linked Tables)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:02:51 GMT)
Sparse2DGS: Sparse-View Surface Reconstruction using 2D Gaussian Splatting with Dense Point Cloud [9.8] 本稿では,Sparse2DGSと呼ばれる新しい3次元再構成手法を提案する。
Sparse2DGSはステレオ画像の基本モデルであるDUSt3RとCOLMAP MVSを採用し、高精度で密度の高い3D点雲を生成する。
Sparse2DGSは3つの画像を用いて物体の3次元形状を正確に再構成できることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:38:26 GMT)
ErpGS: Equirectangular Image Rendering enhanced with 3D Gaussian Regularization [9.8] 360度カメラで取得したマルチビュー画像は、広い面積の3D空間を再構築することができる。
NeRFと3DGSに基づく等角形状画像からの3次元再構成法と、ノベルビュー合成(NVS)法がある。
本稿では3DGSに基づくOmnidirectional GSであるErpGSを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:09:10 GMT)
DCA-Bench: A Benchmark for Dataset Curation Agents [9.6] 不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:23:06 GMT)
Self-Reflective Planning with Knowledge Graphs: Enhancing LLM Reasoning Reliability for Question Answering [9.6] 本稿では,知識グラフと大規模言語モデルを相乗化するフレームワークである自己回帰計画(SRP)を提案する。
計画プロセスにおいて、SRPはまず、ガイドプランニングとリフレクションのための参照を検索する。
推論経路を介してKGから知識を検索した後、検索結果を判断し、回答が正しく検索されるまで推論経路を編集して反復反射を行う。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:59:00 GMT)
Does Rationale Quality Matter? Enhancing Mental Disorder Detection via Selective Reasoning Distillation [9.6] 本稿では,メンタルヘルスの検出と説明生成における蒸留の合理的な品質の影響について検討する。
専門的臨床推論と整合性に基づいて合理性を選択する枠組みを提案する。
実験により, 精神障害検出と合理性生成の双方において, 品質重視のアプローチがSLM性能を著しく向上させることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:05:33 GMT)
ParticleGS: Particle-Based Dynamics Modeling of 3D Gaussians for Prior-free Motion Extrapolation [9.6] 本稿では,粒子力学系に基づく新しい動的3次元ガウススプラッティングの事前自由運動外挿フレームワークを提案する。
観測されたフレーム列に単純に適合するのではなく、ガウス粒子力学系をより効果的にモデル化することを目的としている。
実験により,提案手法は再現作業における既存手法と同等のレンダリング品質を実現することを示した。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:46:35 GMT)
Fast Differentiable Modal Simulation of Non-linear Strings, Membranes, and Plates [9.5] 逆モデリング実験により, テンション, 剛性, 幾何などの物理パラメータを復元できることが実証された。
コードはオープンソースとしてリリースされ、様々な物理的モデリングと音声合成における将来の研究と応用をサポートする。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:47:33 GMT)
Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up [9.4] 大規模言語モデル(LLM)は、推論タスクにおいて顕著な性能を示すが、数学的および複雑な論理的推論において制限に直面している。
バッチ推論前のウォームアップフェーズにおいて,LLMの論理的推論能力を高めるために,Reversal of Thought (RoT)を提案する。
RoT は Preference-Guided Reverse Reasoning warm-up 戦略を利用している。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:57:40 GMT)
Multimodal Federated Learning With Missing Modalities through Feature Imputation Network [9.4] マルチモーダル・フェデレート・ラーニングは、生データを共有せずに複数のソースからモデルを協調的に訓練する大きな可能性を秘めている。
従来の手法は一般的に、欠落したモダリティを補うために、一般に利用可能な実際のデータセットや合成データに依存していた。
欠落したモダリティのボトルネック特徴を再構築するための,軽量で低次元な特徴変換器を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:11:03 GMT)
Uncertainty Quantification for LLM-Based Survey Simulations [9.3] 本研究では,大規模言語モデル(LLM)を用いて質問に対する人間の反応をシミュレートする。
提案手法は,不完全なLLMシミュレーション応答を集団パラメータの信頼セットに変換する。
重要な革新は、シミュレーションされたレスポンスの最適な数を決定することである。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:25:54 GMT)
OB3D: A New Dataset for Benchmarking Omnidirectional 3D Reconstruction Using Blender [9.2] Omnidirectional Blender 3D (OB3D) は、複数の全方位画像から3次元再構成を進めるための新しい合成データセットである。
OB3DはBlender 3Dプロジェクトから生成される多様で複雑な3Dシーンを特徴としている。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:25:29 GMT)
Each Graph is a New Language: Graph Learning with LLMs [9.2] textbfGraph-textbfDefined textbfLanguage for textbfLarge textbfLanguage textbfModel (GDL4LLM)を提案する。
GDL4LLMはグラフをグラフ記述の代わりにグラフ言語コーパスに変換し、グラフ構造を適切に理解するために、このコーパス上のLLMを事前訓練する。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:30:33 GMT)
How Syntax Specialization Emerges in Language Models [9.2] 大規模言語モデル(LLM)は驚くべき内部特殊化を発達させる。
個々のニューロン、アテンションヘッド、回路は、選択的に構文構造に敏感になる。
この専門化が訓練中にどのように出現し、その発展にどのような影響を及ぼすかは、いまだに不明である。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:11:18 GMT)
HIT Model: A Hierarchical Interaction-Enhanced Two-Tower Model for Pre-Ranking Systems [9.1] 一般的な2towerアーキテクチャは、ドメイン間の相互作用と粗い類似度メトリクスに悩まされている。
本稿では,2つのキーコンポーネントで2towerパラダイムを拡張した新しいアーキテクチャを提案する。
HITモデルはTencentのオンラインディスプレイ広告システムにうまく展開されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:35:04 GMT)
Panoramic Distortion-Aware Tokenization for Person Detection and Localization Using Transformers in Overhead Fisheye Images [9.0] 人検出は、人の回転や小人数の人を含む要因のため、オープンな課題である。
魚眼画像をパノラマ画像に変換するために,パノラマ歪み認識トークン化を用いる。
本研究では,パノラマ画像の再マッピングとトークン化処理を組み合わせた人物検出・位置決め手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:03:17 GMT)
TCP: a Benchmark for Temporal Constraint-Based Planning [9.0] 時間的推論と計画は、大きな言語モデルにとって不可欠な機能である。
両機能を共同で評価する,時間制約に基づく計画ベンチマークを導入する。
我々は、最先端のLCMを評価し、最強のモデルでさえTCPに苦しむことを発見した。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:53:01 GMT)
Linear Bandits with Non-i.i.d. Noise [8.9] 本研究では,観測雑音に対する標準I.d.仮定を緩和し,線形帯域問題について検討する。
この制限的な仮定の代替として、ラウンド間のノイズ項はガウス的であるが相互依存的であることを許す。
不確実性に直面した楽観主義の原理に基づく帯域幅アルゴリズムを導出する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:06:23 GMT)
One-Shot is Enough: Consolidating Multi-Turn Attacks into Efficient Single-Turn Prompts for LLMs [8.9] 本稿では,マルチターン対逆ジェイルブレイクのプロンプトを単一ターンクエリに集約する新しいフレームワークを提案する。
マルチターン・ツー・シングルターン(M2S)手法は,多ターン対話を構造化シングルターンプロンプトに体系的に再構成する。
注目すべきは、シングルターンはオリジナルのマルチターン攻撃を最大17.5ポイント上回ったことである。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:52:08 GMT)
Automated evaluation of children's speech fluency for low-resource languages [8.9] 本稿では,微調整された多言語ASRモデルと客観的なメトリクス抽出段階を組み合わせることで,流速を自動的に評価するシステムを提案する。
提案システムは,タミル語とマレー語という2つの低リソース言語を用いて,子どもの発話のデータセットに基づいて評価する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:25:50 GMT)
LEGO-Compiler: Enhancing Neural Compilation Through Translation Composability [8.9] 大きな言語モデル(LLM)は、コンパイラやコード翻訳ツールの設計と実装方法に革命をもたらす可能性がある。
LEGO-Compilerは,LLMを利用して高レベル言語をアセンブリコードに変換する,新しいニューラルコンパイルシステムである。
私たちのアプローチでは,入力プログラムを管理可能なブロックに分解するLEGOトランスフォーメーション,複雑なコンパイルプロセスをより小さく,よりシンプルな検証可能なステップに分割する,自己修正のためのフィードバックメカニズムという,3つの重要なイノベーションに重点を置いています。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:07:54 GMT)
Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities [8.9] 大規模言語モデル(LLM)は質問応答(QA)タスクにおいて顕著な性能を示した。
しかし、LLMベースのQAは、推論能力の貧弱さ、時代遅れの知識、幻覚のために複雑なQAタスクに苦しむ。
いくつかの最近の研究は、上記の課題に対処するために、QAのためのLLMと知識グラフ(KG)を合成している。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:08:23 GMT)
FoodTaxo: Generating Food Taxonomies with Large Language Models [8.9] 種分類学で完結するか、あるいは既知の概念の集合から種無しで生成できるかを探索する。
オープンソースのLLM(Llama-3)を使用した5つの実験では、有望ながら、内部ノードを正しく配置することの難しさが指摘された。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:22:17 GMT)
Prediction-Enhanced Monte Carlo: A Machine Learning View on Control Variate [8.8] 予測強化モンテカルロ(PEMC)は、最新のMLモデルを予測子として活用するフレームワークである。
PEMCは不偏性を維持しながらばらつきを一貫して減らし、標準モンテカルロの基準線を強力に強化する可能性を強調している。
PEMCのより広範な有効性と汎用性は、局所的なボラティリティモデルに基づく分散スワップのような株式デリバティブと、ヒース・ジャロー・モートン(HJM)金利モデルに基づく交換価格などの金利デリバティブの3つの例を通して説明する。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:29:46 GMT)
Calibrating Pre-trained Language Classifiers on LLM-generated Noisy Labels via Iterative Refinement [8.8] そこで我々はSiDyP: Simplex Label Diffusion with Dynamic Priorを提案する。
我々のフレームワークは、ゼロショットと少数ショットのLLM生成したノイズラベルデータセットをそれぞれ平均7.21%と7.30%で微調整したBERT分類器の性能を向上させることができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:31:55 GMT)
CA3D: Convolutional-Attentional 3D Nets for Efficient Video Activity Recognition on the Edge [8.6] 本稿では、畳み込み層と線形複雑度注意機構を革新的に組み合わせた、映像活動認識のためのディープラーニングソリューションを提案する。
我々のモデルは、堅牢な学習と一般化能力を維持しながら、計算コストの削減を維持している。
提案手法を確立および公開しているビデオアクティビティ認識ベンチマーク上で実験的に検証し、競合する計算コストで代替モデルよりも精度を向上する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:55:27 GMT)
Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions [8.5] 大規模言語モデル(LLM)は数学やコーディングにおいて顕著な推論能力を示している。
影響関数を利用して、LLMの推論能力を数学やコーディングに当てはめ、個々のトレーニング例、シーケンス、トークンに当てはめます。
高い微分率の数学の例は、算術とコード推論の両方を改善するが、低微分率のコードタスクは、コードの推論に最も効果的に寄与する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:15:26 GMT)
Mosaic: Data-Free Knowledge Distillation via Mixture-of-Experts for Heterogeneous Distributed Environments [8.5] Federated Learning(FL)は、クライアントがデータのプライバシを保持しながらモデルを協調的にトレーニングすることを可能にする、分散機械学習パラダイムである。
異種分散環境に適した新しいデータフリーな知識蒸留フレームワークであるMosaicを提案する。
Mosaicは、専門知識に基づいてクライアントモデルからMixture-of-Experts(MoE)を作成し、生成されたデータを使用してグローバルモデルに蒸留する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:52:49 GMT)
Comparing Moral Values in Western English-speaking societies and LLMs with Word Associations [8.4] 主に英語データに基づいて学習した西英語コミュニティとLLMの関連性について検討した。
モラル基礎理論から派生したシードワードに基づく道徳的価値を伝播する新しい手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:29:15 GMT)
SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.4] 大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。
このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:06:03 GMT)
One Surrogate to Fool Them All: Universal, Transferable, and Targeted Adversarial Attacks with CLIP [8.4] UnivIntruderは、単一の公開CLIPモデルと公開データセットのみに依存する、新しいアタックフレームワークである。
実験の結果,ImageNetでは最大85%,CIFAR-10では99%のアタック成功率(ASR)が達成され,既存の転送方式よりも優れていた。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:25:00 GMT)
BrainStratify: Coarse-to-Fine Disentanglement of Intracranial Neural Dynamics [8.4] ニューラルアクティビティから直接音声をデコードすることは、脳-コンピュータインターフェース(BCI)研究における中心的な目標である。
近年、脳内野電位記録(SEEG)やECoG(ElectroCorticoGraphy)など、頭蓋内野電位記録(intracranial field potential recordings)の利用により、エキサイティングな進歩がなされている。
i)タスク関連神経信号はsEEG電極に分散し、(ii)タスク関連神経信号をsEEGとECoの両方で絡み合うことが多い。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:36:39 GMT)
Gatsby Without the 'E': Crafting Lipograms with LLMs [8.3] もっとも一般的な文字(「u」まで)の3.6%を除いた場合、文章の意味にはほとんど影響を与えなかった。
私たちの研究は、厳格な制約の下での英語の驚くべき柔軟性を強調し、いかに適応的で創造的な言語が使えるかを明らかにします。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:02:25 GMT)
EMAC+: Embodied Multimodal Agent for Collaborative Planning with VLM+LLM [8.3] 我々は,LLMとVLMを協調的に統合するEmbodied Multimodal AgentであるEMAC+を紹介する。
既存の方法とは異なり、EMAC+は低レベルの視覚制御タスクを実行するVLMからのリアルタイムフィードバックを使用して、高レベルのテキストプランを動的に洗練する。
EMAC+は、ノイズの多い観察と効率的な学習に対して優れたタスクパフォーマンスを達成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:34:16 GMT)
An Empirical Study on Strong-Weak Model Collaboration for Repo-level Code Generation [8.3] リポジトリレベルのコード生成のための強言語モデルと弱言語モデル間のコスト効率の協調について検討する。
私たちは、コンテキストベース、パイプラインベース、動的という、幅広いコラボレーション戦略を評価します。
最も効果的な協調戦略は、コストを40%削減しながら、強力なモデルと同等のパフォーマンスを達成することです。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:25:38 GMT)
A Generative Approach to Credit Prediction with Learnable Prompts for Multi-scale Temporal Representation Learning [8.3] FinLangNetは、ユーザの将来の振る舞いのマルチスケール分布を生成するタスクとして、クレジットスコアリングに対処する。
最近のLLM(Large Language Models)におけるプロンプトベースのトレーニングの成功に触発されたFinLangNetは、ユーザの振る舞いをモデル化してキャプチャするための2つのタイプのプロンプトも導入している。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:45:27 GMT)
Learning a Pessimistic Reward Model in RLHF [8.2] 本研究は、報酬ハッキングに対して堅牢な悲観的報酬モデルを学ぶために、新しい悲観的報酬微調整法であるPET'を提案する。
従来の報酬モデリング技術は、KL正規化が報酬ハッキングの緩和に重要な役割を果たしている不完全な報酬モデルを訓練する。
PETにより微調整された悲観的な報酬モデルに対するポリシーを最適化する場合、報酬のハッキングは正規化に頼らずに防止できることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:34:42 GMT)
AutoGraph: A Knowledge-Graph Framework for Modeling Interface Interaction and Automating Procedure Execution in Digital Nuclear Control Rooms [8.2] AutoGraphは、デジタル化されたNPP環境でのプロシージャ実行の形式化と自動化を目的として設計されたナレッジグラフベースのフレームワークである。
これにより、認知的に要求されるマルチアクションステップの識別が可能になり、最小限の演算子入力で完全に自動化された実行をサポートする。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:02:18 GMT)
Absolute Coordinates Make Motion Generation Easy [8.2] 最先端のテキスト・トゥ・モーション生成モデルは、HumanML3Dによって普及したキネマティック・アウェア、局所相対運動表現に依存している。
本稿では,大域空間における絶対的共同座標という,テキスト・トゥ・モーション生成の大幅な単純化と長期化の代替案を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:36:00 GMT)
Near-optimal performance of square-root measurement for general score functions and quantum ensembles [8.1] 我々は、かなり良い測度の概念の一般化と、一般的な量子アンサンブルに対するバーナム・クニルの定理を提供する。
主な結果の顕著な結果は、ベイズ推定タスクにおいて、一般化されたかなり良い測定の平均二乗誤差が最適平均二乗誤差の2倍を超えないことである。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:41:19 GMT)
AI Agents Should be Regulated Based on the Extent of Their Autonomous Operations [8.0] AIエージェントは、自律的に動作する範囲で規制されるべきである、と我々は主張する。
既存の規制は、しばしば潜在的な害のプロキシとして計算スケールに焦点を当てる。
我々は,既存のリスクに関する科学者の規制や勧告について論じる。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:41:12 GMT)
Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models [8.0] 我々は、共通の多様性指標、さらには好み最適化に使用される報酬モデル、より短い出力に向けて体系的にバイアスモデルを示す。
長さパリティを維持しながら応答の多様性を向上する,長さ制御型自己学習フレームワークであるDiverse(Diverse-NS)を紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:21:01 GMT)
DTRT: Enhancing Human Intent Estimation and Role Allocation for Physical Human-Robot Collaboration [8.0] 人間の意図推定と合理的な人間ロボットの役割割り当ては、安全かつ効率的な援助に不可欠である。
人間の誘導運動と強制データを利用する階層型アーキテクチャを備えたDual Transformer-based Robot Trajectron (DTRT)を提案する。
DTRTの正確な意図推定とコラボレーションのパフォーマンスを示す実験。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:15:40 GMT)
SaSi: A Self-augmented and Self-interpreted Deep Learning Approach for Few-shot Cryo-ET Particle Detection [8.0] 本稿では,3次元Cryo-ET画像における粒子検出のための,新たな自己拡張・自己解釈(SaSi)深層学習手法を提案する。
提案手法は,データ利用をさらに促進するための自己拡張技術に基づいて,ラベル付きデータへの依存性を緩和するための自己解釈セグメンテーション戦略を導入する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:14:21 GMT)
Aggregated Structural Representation with Large Language Models for Human-Centric Layout Generation [8.0] 本稿では,グラフネットワークを大規模言語モデル (LLM) と統合して構造情報を保存し,生成能力を向上するアグリゲーション構造表現 (ASR) モジュールを提案する。
RICOデータセットに対する包括的評価は、平均的相互接続(mIoU)と、クラウドソーシングによるユーザスタディによる定性の両方を用いて、ASRの強い性能を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:17:21 GMT)
Anveshana: A New Benchmark Dataset for Cross-Lingual Information Retrieval On English Queries and Sanskrit Documents [8.0] この研究はサンスクリット語のニュアンスに関する最先端のモデルである。
これはサンスクリット文書の要約手法を適用してQA処理を改善する。
3400の英語とサンスクリットの問合せ文書のデータセットが研究の基盤となっている。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:23:21 GMT)
Requirements Coverage-Guided Minimization for Natural Language Test Cases [7.9] テストスイートはサイズが大きくなる傾向があり、しばしば冗長なテストケースを含んでいる。
テストスイートの最小化は、要件カバレッジや障害検出機能といった重要な特性を維持しながら、そのような冗長性を取り除くことを目的としている。
要件ベーステスト用に設計された新しいTSMアプローチであるRTM(Requirement coverage-guided Test suite Minimization)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:55:33 GMT)
BizFinBench: A Business-Driven Real-World Financial Benchmark for Evaluating LLMs [7.9] 大規模な言語モデルは一般的なタスクでは優れていますが、ロジック重大で精度の高い、財務、法律、医療といった重要な領域での信頼性の評価は依然として難しいままです。
BizFinBenchは、実世界の金融アプリケーションにおけるLSMの評価に特化して設計された最初のベンチマークである。
BizFinBenchは中国語で6,781の注釈付きクエリで構成されており、数値計算、推論、情報抽出、予測認識、知識に基づく質問応答の5つの次元にまたがっている。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:23:02 GMT)
Learning and Interpreting Gravitational-Wave Features from CNNs with a Random Forest Approach [7.9] 本稿では,CNNに基づく特徴抽出器とランダムフォレスト(RF)分類器を組み合わせたハイブリッドアーキテクチャを提案する。
提案手法では, 物理的に解釈可能な4つの指標 – 分散, 信号対雑音比 (SNR) , 波形重なり, ピーク振幅 – を導入している。
長期歪データセットを用いて実験した結果,我々のハイブリッドモデルはベースラインCNNモデルよりも優れていた。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:33:27 GMT)
"Alexa, can you forget me?" Machine Unlearning Benchmark in Spoken Language Understanding [7.9] UnSLU-BENCHは、音声言語理解における機械学習のための最初のベンチマークである。
我々は、特定の話者からのデータの未学習を、潜在的な"忘れられる権利"要求の品質を評価する方法として扱う。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:45:30 GMT)
HybridTrack: A Hybrid Approach for Robust Multi-Object Tracking [7.9] HybridTrackは、車両のための新しい3Dマルチオブジェクトトラッキングアプローチである。
データ駆動型カルマンフィルタ(KF)をトラッキング・バイ・検出パラダイムに統合する。
82.72%のHOTA精度を実現し、最先端の手法を著しく上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:31:35 GMT)
Estimating LLM Consistency: A User Baseline vs Surrogate Metrics [7.9] 大型言語モデル(LLM)は幻覚を起こしやすく、急激な摂動に敏感である。
LLMの一貫性を推定するためのロジットに基づくアンサンブル法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:53:47 GMT)
RAP: Runtime-Adaptive Pruning for LLM Inference [7.8] 我々は、強化学習(RL)によって駆動される弾力的な刈り取りフレームワークであるRAPを提案する。
RAPは、実際の実行におけるモデルパラメータとKV-cacheの進化率を追跡する。
RAPは最先端のベースラインよりも優れており、モデル重量とKVcacheを同時に検討するのは初めてである。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:20:45 GMT)
UORA: Uniform Orthogonal Reinitialization Adaptation in Parameter-Efficient Fine-Tuning of Large Models [7.7] 一様直交再初期化適応(Uniform Orthogonal Reinitialization Adaptation, UORA)は、大規模言語モデル(LLM)のための新しいパラメータ効率細調整(PEFT)アプローチである。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:56:40 GMT)
Understanding Generalization in Diffusion Models via Probability Flow Distance [7.7] 分布一般化を測定するために確率フロー距離(texttPFD$)を導入する。
拡散モデルにおけるいくつかの重要な一般化挙動を経験的に明らかにする。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:23:50 GMT)
Translation-Equivariance of Normalization Layers and Aliasing in Convolutional Neural Networks [7.7] 離散シフトと連続翻訳に対する正規化層の同値性を理解するための新しい理論的枠組みを提案する。
また、正規化層が作用する次元に関して同変である必要十分条件も決定する。
ResNet-18とImageNetの実際の特徴マップを用いて、これらの理論結果を実証的に検証し、予測と一致していることを確認する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:39:36 GMT)
Time Series Generation Under Data Scarcity: A Unified Generative Modeling Approach [7.6] データ・スカース・セッティングにおける主要な生成モデルを評価するための大規模な研究を初めて行った。
本稿では,いくつかの例を用いて高忠実度時系列を合成できる拡散型統合生成フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:39:04 GMT)
HPPP: Halpern-type Preconditioned Proximal Point Algorithms and Applications to Image Restoration [7.6] 本稿ではHalpernのHilbert法の強収束特性と加速度特性を利用するHalpern型PPP(HPPP)アルゴリズムを提案する。
最後に,HP アルゴリズムとPlugPlay (PP) プリエントのようなデノイザプリエントを併用することにより,画像復元のための新しいアルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:16:02 GMT)
ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers [7.5] ViTaPEsは,視覚的知覚のためのタスク非依存表現を学習するためのフレームワークである。
提案手法は,モーダル内構造を捉えるために,新しいマルチスケール位置符号化方式を利用する。
その結果,ViTaPEは様々な認識タスクにおいて最先端のベースラインを超越していることがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:19:29 GMT)
Multimodal Emotion Recognition in Conversations: A Survey of Methods, Trends, Challenges and Prospects [7.5] 会話におけるマルチモーダル感情認識は、人間とコンピュータの相互作用の自然性と感情的理解を高めるための方向である。
その目標は、テキスト、音声、視覚信号などの様々なモダリティからの情報を統合することで、感情を正確に認識することである。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:23:24 GMT)
RefinedFields: Radiance Fields Refinement for Planar Scene Representations [7.4] 平面的なシーン表現は、最近画像からシーンをモデル化する関心が高まりつつあるのを目撃している。
K-Planesは、平面的なシーン表現を拡張して、野生のシーンをサポートすることで特に注目を集めている。
我々は,事前学習ネットワークを利用してK-Planesシーン表現を洗練するRefinedFieldsを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:09:34 GMT)
Scaling over Scaling: Exploring Test-Time Scaling Pareto in Large Reasoning Models [7.3] テスト時間スケーリング性能モデル(TTSPM)について紹介する。
このような拡張スケーリング、並列スケーリング、シーケンシャルスケーリングの2つの基本パラダイムを理論的に分析する。
我々は, AIME, MATH-500, GPQAなど, 挑戦的推論ベンチマークに関する理論的知見を検証した。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:58:45 GMT)
SUFFICIENT: A scan-specific unsupervised deep learning framework for high-resolution 3D isotropic fetal brain MRI reconstruction [7.3] 等方性HR容積再構成のための教師なし反復SVR-SRRフレームワークを提案する。
高分解能(HR)ボリュームを生成するために、ディープイメージ事前フレームワーク内に埋め込まれたデコードネットワークを包括的画像劣化モデルに組み込む。
大規模動乱シミュレーションデータと臨床データを用いて行った実験は,提案手法の優れた性能を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:21:29 GMT)
Active Learning for Multiple Change Point Detection in Non-stationary Time Series with Deep Gaussian Processes [7.3] 非定常時系列における多重変化点(MCP)検出は、基礎となるパターンの多様さにより困難である。
本稿では,アクティブ・ラーニング(AL)とディープ・ガウス・プロセス(DGP)を統合した新しいアルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:46:59 GMT)
PandaGuard: Systematic Evaluation of LLM Safety against Jailbreaking Attacks [7.3] 大きな言語モデル(LLM)は目覚ましい能力を達成したが、ジェイルブレイクとして知られる敵のプロンプトに弱いままである。
LLMの安全性研究への取り組みが増えているにもかかわらず、既存の評価はしばしば断片化され、単独の攻撃や防御技術に焦点が当てられている。
PandaGuardはLLMジェイルブレイクの安全性を攻撃者、ディフェンダー、および審査員で構成されるマルチエージェントシステムとしてモデル化する、統一的でモジュール化されたフレームワークである。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:25:01 GMT)
Non-asymptotic convergence analysis of the stochastic gradient Hamiltonian Monte Carlo algorithm with discontinuous stochastic gradient with applications to training of ReLU neural networks [7.2] 我々は、勾配ハミルトニアンモンテカルロのWasserstein-1 と Wasserstein-2 距離の目標測度への収束の非漸近解析を提供する。
本研究の主な成果を説明するために、定量推定に関する数値実験と、金融と人工知能に関連するReLUニューラルネットワークに関わるいくつかの問題について考察する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:30:56 GMT)
Cuff-KT: Tackling Learners' Real-time Learning Pattern Adjustment via Tuning-Free Knowledge State Guided Model Updating [7.1] KT(Knowledge Tracing)は、Intelligent Tutoring Systemsのコアコンポーネントである。
Cuff-KTは微調整なしで高速かつ柔軟にデータ変更に適応する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:04:11 GMT)
Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.0] Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。
RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:53:17 GMT)
NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving [7.0] 我々はNuGroundingを紹介した。NuGroundingは、自動運転におけるマルチビュー3次元視覚グラウンドのための最初の大規模ベンチマークである。
本稿では,マルチモーダルLLMの命令理解能力と専門的検出モデルの正確な位置推定能力とをシームレスに組み合わせた新しいパラダイムを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:12:12 GMT)
Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models [6.9] 大規模言語モデル(LLM)は、ますます人間の生活に統合され、意思決定に影響を及ぼしている。
主観的嗜好、意見、信念をどの程度、どの程度提示するかを評価することが不可欠である。
本稿では、社会的、文化的、倫理的、個人的領域にまたがるLLMの主観的傾向を評価するために、POB(Preference, Opinion, and Belief Survey)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:41:21 GMT)
Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks [6.9] Chain-of-Perform (CoP)ベンチマークは、ビデオ誘導ピアノ音楽生成のための、完全にオープンソースでマルチモーダルなベンチマークである。
CoPベンチマークは詳細なマルチモーダルアノテーションを提供し、ビデオコンテンツとピアノオーディオの正確な意味と時間的アライメントを可能にする。
データセットはhttps://github.com/acappemin/Video-to-Audio-and-Pianoで公開されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:24:19 GMT)
CauSkelNet: Causal Representation Learning for Human Behaviour Analysis [6.9] 本研究では,これらの課題に対処するための因果推論に基づく新しい表現学習フレームワークを提案する。
我々の2段階のアプローチは、Peter-Clark (PC) アルゴリズムとKullback-Leibler (KL) ダイバージェンスを組み合わせて、人間の関節間の因果関係を特定し定量化する。
結合相互作用をキャプチャすることで、提案した因果グラフ畳み込みネットワーク(GCN)は、解釈可能かつ堅牢な表現を生成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:43:16 GMT)
STOPA: A Database of Systematic VariaTion Of DeePfake Audio for Open-Set Source Tracing and Attribution [6.9] STOPAは、13の合成器から8つのAM、6つの設定、700kサンプルをカバーするディープフェイク音声ソーストレースのためのデータセットである。
STOPAは、ボコーダモデル、音響モデル、事前訓練された重みの選択など、幅広い生成要因をカバーする体系的に制御されたフレームワークを提供する。
この制御により帰属精度が向上し、法医学的分析、ディープフェイク検出、生成モデルの透明性が向上する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:00:30 GMT)
Solving Euler equations with Multiple Discontinuities via Separation-Transfer Physics-Informed Neural Networks [6.8] このような問題に対処するために、分離-遷移物理インフォームドニューラルネットワーク(ST-PINN)を提案する。
連続的に不連続性を強いものから弱いものへと解決することにより、ST-PINNは問題の複雑さを著しく低減し、解の精度を向上する。
我々の知る限りでは、PINNsベースのアプローチを二次元非定常な平面衝撃屈折問題に適用する最初の研究である。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:55:04 GMT)
TALKPLAY: Multimodal Music Recommendation with Large Language Models [6.8] 大規模言語モデル(LLM)を用いたトークン生成問題としてレコメンデーションを再構成する新しいマルチモーダル音楽レコメンデーションシステムTALKPLAYを提案する。
本システムは,コンテキストに関連のある応答を生成しながら,多様なユーザクエリから楽曲を効果的に推薦する。
質的,定量的評価により,TALKPLAYは,推奨性能と会話自然性の両方において,テキストや聴取履歴のみに基づく一助的アプローチを著しく上回っていることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:01:30 GMT)
Federated Domain Generalization with Data-free On-server Matching Gradient [6.8] ドメイン一般化(DG)は、未知のターゲットドメインに適切に一般化できるモデルとして、複数の既知のソースドメインから学習することを目的としている。
本稿では,分散ドメインからのドメイン情報を効率よく活用できるFedOMG(On-server Matching Gradient)と呼ばれる新しい手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:44:34 GMT)
The challenge of hidden gifts in multi-agent reinforcement learning [6.8] 隠れギフトが与える影響について,非常に単純なMARLタスクを用いて検討する。
このタスクでは、グリッドワールド環境内のエージェントは、個々の報酬を得るために、個別のドアをアンロックする。
我々は、MARLアルゴリズムを含むいくつかの最先端RLアルゴリズムが、この単純なタスクにおいて集団報酬を得る方法を学ぶことができないことを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:28:52 GMT)
Differential Privacy Analysis of Decentralized Gossip Averaging under Varying Threat Models [6.8] 本稿では,ノードレベルの付加雑音を用いた分散化ゴシップ平均化アルゴリズムの新たなプライバシー解析法を提案する。
私たちの主な貢献は、これらのシナリオにおけるプライバシー漏洩を正確に特徴付ける新しい分析フレームワークです。
従来の手法に比べてDP境界が優れていることを示す数値計算結果を用いて,本分析を検証した。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:31:43 GMT)
TeleSparse: Practical Privacy-Preserving Verification of Deep Neural Networks [6.8] ZK-SNARKは、機密データにアクセスせずにモデル推論を検証する機能を提供するようだ。
ZK-SNARKをトランスフォーマーや大型ビジョンモデルといった現代のニューラルネットワークに適用すると、計算オーバーヘッドが大幅に増加する。
本稿では,ZKフレンドリーな後処理機構であるTeleSparseについて述べる。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:20:07 GMT)
SETBVE: Quality-Diversity Driven Exploration of Software Boundary Behaviors [6.7] ソフトウェアシステムは入力特性に基づいて異なる振る舞いを示し、しばしば入力ドメイン間の境界で障害が発生する。
従来の境界値分析(BVA)は手動のドメインに依存し、自動化された境界値探索(BVE)メソッドは通常、単一の品質メトリクスを最適化する。
我々は、品質多様性(QD)最適化を利用して、より広い範囲の境界を体系的に発見・洗練する、自動ブラックボックスBVEのためのカスタマイズ可能なモジュラーフレームワークSETBVEを紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:20:29 GMT)
Avoid Forgetting by Preserving Global Knowledge Gradients in Federated Learning with Non-IID Data [6.7] FedProjは、グローバルな意思決定境界をしっかりと学習し、ローカルトレーニング中に忘れることを避ける、連邦学習フレームワークである。
本稿では,ローカルトレーニングの各段階における勾配更新を規制するために,公開されていないデータセット上での平均アンサンブルロジットのエピソードメモリを活用することを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:43:11 GMT)
Can Visual Encoder Learn to See Arrows? [6.6] 画像エンコーダがエッジ表現を学習できるかどうかを図形データセット上で学習する。
そこで我々は,画像エンコーダを訓練するために,人工的に生成されたダイアグラム・キャプション・データセットに対してコントラスト学習を行う。
以上の結果から, 微調整モデルでは, プレトレーニング済みのCLIPよりも優れ, キャプションタスクではゼロショットGPT-4o, LLaVA-Mistralよりも優れていた。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:09:31 GMT)
A Tale of Two Structures: Do LLMs Capture the Fractal Complexity of Language? [6.5] 言語は情報理論の複雑さにおいてフラクタル構造を示す。
大規模言語モデル(LLM)がそのようなフラクタル特性を再現できるかどうかを検討する。
LLMが生成する24万以上の記事からなるデータセットをリリースする。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:07:54 GMT)
Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection [6.5] VDS-TTT(Verifier-Driven Sample Selection for Test-Time Training)と呼ばれる新しいフレームワークを導入する。
学習した検証器を用いて、生成された応答のプールをスコアし、高いランクの擬似ラベル付き例からのみ選び、微調整を施す。
低ランクなLoRAアダプタパラメータのみを微調整し、適応効率と高速収束を確保する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:54:47 GMT)
BlastOFormer: Attention and Neural Operator Deep Learning Methods for Explosive Blast Prediction [6.3] BlastOFormerは、フルフィールド最大圧力予測のためのトランスフォーマーベースの代理モデルである。
オープンソースの blastFoam CFD ソルバを使って生成されたデータセットでトレーニングされている。
推算には6.4ミリ秒しか必要とせず、CFDシミュレーションの600,000倍以上高速である。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:47:50 GMT)
My Answer Is NOT 'Fair': Mitigating Social Bias in Vision-Language Models via Fair and Biased Residuals [6.3] 我々は,モデルの応答と確率分布の両方に対する社会的バイアスの評価と緩和に焦点をあてる。
モデルがジェンダーバイアスや人種バイアスの反応を発生させることに悩まされていることがわかりました。
本稿では,学習自由でモデルに依存しない,社会的偏見を軽減するための推論段階のポストホック手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:14:16 GMT)
Bridging Privacy and Robustness for Trustworthy Machine Learning [6.3] 機械学習の出現は、さまざまな領域に変革をもたらしたが、データの繊細な性質は、プライバシとセキュリティに関する懸念を引き起こす。
近年の研究では、敵のベイジアン推論の視点に沿ったプライバシー概念が提案されている。
本稿では, LDP, ABP, MBPの複雑な関係と, そのアルゴリズム的堅牢性への影響について考察する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:31:39 GMT)
MetaWriter: Personalized Handwritten Text Recognition Using Meta-Learned Prompt Tuning [6.3] 従来の手書き文字認識法では、テスト時に書き手固有のパーソナライゼーションが欠如している。
本稿では、パーソナライズを即時チューニングとして定式化する効率的なフレームワークを提案する。
RIMES および IAM Handwriting Database ベンチマークに対する我々のアプローチを検証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:26:16 GMT)
Attentive Eraser: Unleashing Diffusion Model's Object Removal Potential via Self-Attention Redirection Guidance [6.2] Attentive Eraser は、安定かつ効果的な物体除去のために、事前訓練された拡散モデルを強化するチューニング不要な手法である。
本稿では、自己注意機構を再設計するASS(Attention Activation and Suppression)を紹介する。
また、ASSによる自己注意リダイレクトを利用して生成プロセスのガイドを行う自己注意リダイレクトガイダンス(SARG)についても紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:21:31 GMT)
Bias in Political Dialogue: Tagging U.S. Presidential Debates with an Extended DAMSL Framework [6.2] 我々は、ドナルド・トランプの修辞的戦略を考察し、2024年の米大統領選挙に関する批判的な談話分析を提示する。
本稿では,政治コミュニケーションにおけるバイアス駆動と敵対的談話の特徴を捉えた新しいアノテーションフレームワークBEADSを紹介する。
われわれの分析によると、トランプは、挑戦と敵対的取引所、選択的強調、恐怖への訴え、政治的バイアス、反感の知覚といった主要なカテゴリーを一貫して支配している。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:58:08 GMT)
Quantum dissipative dynamics of driven Duffing oscillator near attractors [6.2] 誘引子近傍のダッフィング発振子の量子特性を計算する。
本研究は, 強い減衰は, 余分なレベル間隔の再正規化を引き起こすことを示す。
我々の研究は、それらの安定状態に近い関連する量子システムに適用可能な理論的枠組みを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:55:42 GMT)
A Probabilistic Model for Non-Contrastive Learning [6.2] 自己教師付き学習(SSL)は、データ拡張を通じて意味的類似性を符号化することで、ラベルのないデータから意味のある表現を見つけることを目的としている。
一般的なSSL損失関数が統計モデルに関連があるかどうかはまだ分かっていない。
興味ある特性を示すSSLの潜在変数統計モデルを考える:データ拡張の情報性に応じて、モデルのMLEはPCAに還元するか、単純な非競合的損失にアプローチする。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:40:32 GMT)
Model Enumeration of Two-Variable Logic with Quadratic Delay Complexity [6.2] 2変数(FO2$)を持つ一階述語論理の関数自由有限領域フラグメントのモデル列挙問題について検討する。
サイズ$n$のドメイン上で$Gamma$のすべてのモデルを列挙するにはどうすればよいのか?
論文参考訳(メタデータ) (Mon, 26 May 2025 08:04:19 GMT)
Efficient Deconvolution in Populational Inverse Problems [6.1] この研究は、関心のパラメータよりも分布を推定し、複数の観測セットにつながる逆タスクに焦点を当てている。
このような分散反転問題を解決する可能性はデータの可用性の向上によってもたらされるが、大きな障害はブラインド・デコンボリューションである。
本研究では,同じ物理過程の異なるインスタンス化から収集した大規模な観測データを活用する手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:25:46 GMT)
MetaGMT: Improving Actionable Interpretability of Graph Multilinear Networks via Meta-Learning Filtration [6.1] 本稿ではメタGMTというメタラーニングフレームワークを提案する。
その結果,MetaGMTは説明品質(AUC-ROC,Precision@K)とスプリアスパターンに対するロバスト性の両方を著しく改善することがわかった。
我々の研究は、現実世界のアプリケーションのためのより信頼性が高く実用的なGNNシステムの構築に寄与します。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:07:58 GMT)
Frictional Agent Alignment Framework: Slow Down and Don't Break Things [6.1] 正確な文脈対応フリクションを生成するためのフリクションエージェントアライメントフレームワーク(FAAF)を提案する。
FAAFの2人のプレイヤーの目標はデータスキューから切り離され、介入政策は協力者優先の反応を生み出す。
実験の結果、FAAFは簡潔で解釈可能な摩擦やOODの一般化においてライバルよりも優れていた。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:39:07 GMT)
Spurious Privacy Leakage in Neural Networks [6.0] この現象は、急激な集団が非偽の集団よりも、プライバシー攻撃に対して著しく脆弱な現象である。
驚くべきことに、突発的なロバストな手法による素早い相関の低減は、突発的なプライバシー漏洩を緩和しない。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:04:39 GMT)
MM-Prompt: Cross-Modal Prompt Tuning for Continual Visual Question Answering [6.0] 本稿では,クロスモーダル・プロンプト・クエリとクロスモーダル・プロンプト・リカバリを組み合わせた新しいフレームワークMM-Promptを提案する。
大規模な実験により、MM-Promptは精度と知識保持の従来のアプローチを上回ることが示されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:21:21 GMT)
LangDAug: Langevin Data Augmentation for Multi-Source Domain Generalization in Medical Image Segmentation [6.0] ドメイン一般化(DG)手法は、表現学習またはデータ拡張(DAug)を通じてこれを克服する。
2次元医用画像セグメンテーションにおけるマルチソース領域一般化のための新しい$textbf$evin $textbfD$ata $textbfAug$mentationであるLangDAugを提案する。
我々は、LangDAugが最先端のドメイン一般化手法より優れており、既存のドメインランダム化アプローチを効果的に補完していることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:18:32 GMT)
Balancing Computation Load and Representation Expressivity in Parallel Hybrid Neural Networks [5.9] FlowHNは、ロードバランシングのさまざまな戦略に対応する、新しい並列ハイブリッドネットワークアーキテクチャである。
FlowHNの2つの革新的な差別化要因は、注意とSSMブランチの間で分割されたFLOP認識動的トークンである。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:52:22 GMT)
Skrull: Towards Efficient Long Context Fine-tuning through Dynamic Data Scheduling [5.9] Long-SFT(Long-SFT)は,大規模言語モデル(LLM)の性能向上に重要な役割を担っている。
高速長SFTに特化して設計された動的データスケジューラであるSkrullを提案する。
スクロールは、長いシーケンスと短いシーケンスの要求をバランスさせ、全体的なトレーニング効率を向上させる。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:22:39 GMT)
Evaluating Robustness of Large Audio Language Models to Audio Injection: An Empirical Study [5.8] 本研究は4つの攻撃シナリオにまたがる5つのLALMを系統的に評価する。
単一のモデルはすべての攻撃タイプで他のモデルより一貫して優れています。
命令追従能力とロバスト性の間の負の相関は、命令に厳密に固執するモデルはより感受性が高いことを示唆している。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:08:38 GMT)
Learning Optimal Multimodal Information Bottleneck Representations [5.8] 我々は,新しいマルチモーダル学習フレームワーク,Optimal Multimodal Information Bottleneck (OMIB)を提案する。
OMIBは理論上導かれた境界内に正規化重みを設定することにより最適MIBの達成性を保証する。
我々はOMIBの合成データに対する理論的特性を実証的に検証し、様々な下流タスクにおける最先端ベンチマーク手法よりも優れていることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:48:07 GMT)
Navigating Conflicting Views: Harnessing Trust for Learning [5.8] 我々は,エビデンシャル・マルチビュー・フレームワークを強化する計算信頼に基づく割引手法を開発した。
提案手法は,Top-1の精度,Fleiss' Kappa,および新たな測定基準であるMulti-View Agreement with Ground Truthを用いて,実世界の6つのデータセットに対して評価を行った。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:53:55 GMT)
Full Characterization of the Depth Overhead for Quantum Circuit Compilation with Arbitrary Qubit Connectivity Constraint [5.8] 量子コンピュータのいくつかの物理的実装では、2量子ビット演算は特定の量子ビットのペアにのみ適用できる。
本稿では、基礎となる制約グラフのルーティング数によって、深さオーバーヘッドを完全に特徴づける。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:11:14 GMT)
FruitNeRF++: A Generalized Multi-Fruit Counting Method Utilizing Contrastive Learning and Neural Radiance Fields [5.7] FruitNeRF++は、コントラスト学習とニューラルラディアンスフィールドを組み合わせた、新しいフルーツカウント手法である。
我々の研究はFruitNeRFに基づいており、FruitNeRFは、果物固有のクラスタリングアプローチと組み合わせて、ニューラルネットワークのセマンティックフィールドを利用している。
以上の結果から,FruitNeRF++は制御が容易で,他の最先端手法と比較できることがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:48:22 GMT)
AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition [5.7] イベントカメラは、必須のオブジェクト構造を超えた大量の冗長でノイズの多いデータを生成する。
本稿では,イベントベースオブジェクト認識のための適応グラフベースノイズデータ除去フレームワークを提案する。
提案手法は,正規化密度解析,多因子エッジ重み付け機構,適応グラフに基づく認知戦略に基づく適応イベントセグメンテーションを統合する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:26:42 GMT)
Regularized Personalization of Text-to-Image Diffusion Models without Distributional Drift [5.6] テキスト・ツー・イメージ拡散モデルを用いたパーソナライズには、事前訓練されたモデルを、少数の画像例だけで新規な被験者に適応させる必要がある。
フォーッティングは意図しない分布のドリフトを意味し、モデルの出力分布は、元の事前訓練されたモデルから逸脱する。
本稿では, 事前学習分布からの偏差を明示的に制限するリプシッツ境界定式化に基づく新たな学習目標を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:03:59 GMT)
Balancing Performance and Costs in Best Arm Identification [5.6] 本研究は、推奨アームの性能と、このアームを学習することで得られるコストとを明示的にバランスさせるリスク関数を最小化する新しいフォーマリズムを提案する。
この枠組みでは、サンプリングフェーズの各観察にコストがかかり、アームを推奨すると、最適下腕を特定するためにパフォーマンスペナルティが生じる。
性能ペナルティの2つの選択のリスク、誤識別の確率、単純な後悔のリスクについて理論的に下位境界を導出し、DBCAREと呼ばれるアルゴリズムを提案し、これらの下位境界をほぼ全ての問題インスタンス上のポリログ因子に一致させる。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:33:43 GMT)
Attention! You Vision Language Model Could Be Maliciously Manipulated [5.5] 視覚言語モデルマニピュレーションアタック(VMA)を提案する。
VMAは、対向摂動を効果的に最適化するために、一階と二階の運動量最適化技術と微分可能な変換機構を統合する。
脱獄、ハイジャック、プライバシー侵害、Denial-of-Service、スポンジの生成など、さまざまな攻撃を実装するために利用することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:38:58 GMT)
On the Guidance of Flow Matching [5.5] フローマッチングは、画像生成から意思決定まで、様々な生成タスクにおいて最先端のパフォーマンスを示している。
フローマッチングのための一般的なガイダンスの第一の枠組みを提案する。
一般的なフローマッチングに適用可能なガイダンス手法のファミリーを導出する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:27:36 GMT)
Reasoning LLMs are Wandering Solution Explorers [5.4] 本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。
以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:59:53 GMT)
Modulated differentiable STFT and balanced spectrum metric for freight train wheelset bearing cross-machine transfer monitoring under speed fluctuations [5.4] クロスマシントランスファー診断(pyDSN)ネットワークは、時間変化速度でドメイン不変および離散的特徴を学習するために提案される。
分類計量と領域差測度に加えて、物理インフォームド計量と呼ばれる第3の種類の計量を創造的に導入する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:42:24 GMT)
Linearization of ReLU Activation Function for Neural Network-Embedded Optimization: Optimal Day-Ahead Energy Scheduling [5.3] 電池劣化ニューラルネットワークに基づくマイクログリッドデイアヘッドエネルギースケジューリングのような応用では、訓練された学習モデルの入力特徴は最適化モデルで解決すべき変数である。
ニューラルネットワークにおける非線形アクティベーション関数の使用は、解けなければそのような問題を極端に解決し難いものにする。
本稿では,ReLU活性化関数に適した4つの線形化法を開発し,解析し,比較した。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:27:06 GMT)
WeatherEdit: Controllable Weather Editing with 4D Gaussian Field [5.2] 我々は3Dシーンで現実的な気象効果を生成するための新しい天気編集パイプラインであるWeatherEditを紹介する。
我々のアプローチは、気象背景編集と気象粒子構築という2つの重要な要素で構成されている。
複数の運転データセットの実験により、気象編集は制御可能な条件重大度で多様な気象効果を発生させることができることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:10:47 GMT)
Recurrent Self-Attention Dynamics: An Energy-Agnostic Perspective from Jacobians [5.2] この研究は、エネルギーの制約を緩和し、推論力学のエネルギーに依存しない特徴づけを提供することを目的としている。
まず、エネルギーベースの定式化において伝統的に必要とされる対称性と単頭制約を緩和することを検討する。
正規化層はヤコビアン複素固有値を効果的に正規化し、力学を臨界状態に近づける。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:24:59 GMT)
Weighted quantization using MMD: From mean field to mean shift via gradient flows [5.2] We show that a Wasserstein-Fisher-Rao gradient flow is well suit for design Quantizations optimal under MMD。
我々は平均シフト相互作用粒子(MSIP)と呼ばれる新しい固定点アルゴリズムを導出する。
我々の勾配流、平均シフト、MDD最適量子化の統合は、最先端の手法よりもアルゴリズムをより堅牢にします。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:54:16 GMT)
Bayesian Optimisation Against Climate Change: Applications and Benchmarks [5.2] 気候変動の応用におけるベイズ最適化の応用とベンチマークについて概観する。
材料発見,風力発電のレイアウト,最適再生制御,環境モニタリングの4つの主要な応用分野を同定する。
環境モニタリングに適したベンチマークがないため,大気汚染データに基づくLAQN-BOを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:20:48 GMT)
A Python workflow definition for computational materials design [5.2] ワークフロー交換フォーマットとしてPython Definition(PWD)を導入し、Pythonベースの管理システム(WfMS)間で共有する。
PWDは、(1)ソフトウェア依存関係を指定するコンダ環境、(2)ワークフローグラフのノードとして表現されるPython関数を含むPythonモジュール、(3)JavaScript Notation(JSON)に格納されたワークフローグラフの3つのコンポーネントで構成されている。
PWDへのインポートとエクスポートは、AiiDA、ジョブフロー、pyironでPWDを実装するPWD Pythonライブラリによって実現されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:05:50 GMT)
DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models [5.0] DiSa は Directional Saliency-Aware Prompt Learning フレームワークである。
一般化を強化するために2つの補完正則化戦略を統合する。
さまざまな設定において、最先端のプロンプト学習方法よりも一貫して優れています。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:14:52 GMT)
DoctorAgent-RL: A Multi-Agent Collaborative Reinforcement Learning System for Multi-Turn Clinical Dialogue [5.0] 大規模言語モデル (LLMs) は, バイオメディカルな質問応答の分野で優れた能力を発揮してきたが, 実際の臨床研究への応用はいまだに課題に直面している。
本稿では,医療相談を不確実性下での動的意思決定プロセスとしてモデル化する,強化学習(RL)に基づくマルチエージェント協調フレームワークであるDoctorAgent-RLを提案する。
実験により、DoctorAgent-RLは、マルチターン推論能力と最終的な診断性能の両方で既存のモデルより優れていることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:48:14 GMT)
CIDRe: A Reference-Free Multi-Aspect Criterion for Code Comment Quality Measurement [5.0] 本稿では,言語に依存しない参照のない品質基準であるCIDReを提案する。
実験では、CIDReが既存のメトリクスよりも優れていることを示し、クロスエントロピー評価の改善を実現している。
フィルタコメントに適用した場合、CIDReフィルタデータに微調整されたモデルでは、GPT-4o-miniアセスメントにおいて統計的に有意な品質向上を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:36:57 GMT)
A Temporal Difference Method for Stochastic Continuous Dynamics [4.9] ベルマンの最適性の原理はハミルトン・ヤコビ・ベルマン方程式(HJB)の形を取る。
HJB方程式を対象とするモデルフリーアプローチを提案し,対応する時間差分法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:20:08 GMT)
Convex Approximation of Two-Layer ReLU Networks for Hidden State Differential Privacy [4.9] DP-SGD(DP-SGD)を訓練した2層ReLUネットワークに匹敵する,プライバシユーティリティトレードオフによる凸問題をプライベートにトレーニングすることは可能であることを示す。
これにより、既存の隠れ状態のプライバシー分析が利用でき、ノイズの多いサイクリックなミニバッチ勾配降下(NoisyCGD)に対しても正確なプライバシー境界を提供する。
ベンチマーク分類タスクにおける実証的な結果から、NoisyCGDは2層ReLUネットワークに適用されたDP-SGDと同等のプライバシー利用トレードオフを達成できることが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:31:26 GMT)
Parallel Kac's Walk Generates PRU [4.8] 並列Kacのウォークの逐次繰り返しの線形数もまた適応セキュアなPRUを形成することを示す。
これは代替のPRU構造を提供し、パス記録技術の威力を示す別の例を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:03:06 GMT)
Explanation User Interfaces: A Systematic Literature Review [4.8] ユーザへの説明の提示は簡単ではなく、しばしばシステムの設計プロセスの二次的な側面として残される。
本稿では,XUI(Systematic Literature Review on Explanation User Interfaces)を,学術文献におけるソリューションと設計ガイドラインのより深い理解を得るために提案する。
我々はまた、XUIの設計と評価において実践者や学者を導くために、Human-cEnteRed DevelopmentMent of Explainable User InterfaceS (HERMES)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:00:17 GMT)
Named Entity Recognition in Historical Italian: The Case of Giacomo Leopardi's Zibaldone [4.8] 歴史的テキストの課題に適応できる計算技術が緊急に必要である。
大規模言語モデル(LLM)の台頭は、自然言語処理に革命をもたらした。
イタリア語のテキストに対する詳細な評価は提案されていない。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:16:48 GMT)
Accelerating Prefilling for Long-Context LLMs via Sparse Pattern Sharing [4.8] スパースアテンション手法は、長文推論のプレフィルフェーズを高速化するために、注意対象の空間性を利用する。
本稿では,頭部に共通する類似の注意パターンを共有する,高精度なスパースアテンション機構を提案する。
本手法は,少数の頭部のみに注意を払いながら,実際のパターンを効果的に把握する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:48:53 GMT)
MSD-LLM: Predicting Ship Detention in Port State Control Inspections with Large Language Model [4.8] 港湾州管理局(PSC)は安全規制の遵守を強制しており、船舶の留置は最も深刻な結果である。
船舶留置予測のための従来の機械学習手法は、表現学習の能力によって制限される。
本稿では,DSR(Double robust subspace recovery)層に基づく自動エンコーダと,プログレッシブラーニングパイプラインを統合した,大規模言語モデル(MSD-LLM)による海上船舶留置を提案する。
アジア太平洋地域のPSC検査記録31,707件の広範囲な評価によると、MSD-LLMは、AUC(Area Under the Curve)で12%以上の最先端の手法を上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:32:02 GMT)
Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review [4.5] 本稿では,モバイルサービスロボティクスにおける基礎モデルの統合に関する最初の体系的なレビューを紹介する。
本稿では, リアルタイムセンサ融合, 言語条件制御, 適応タスク実行におけるそのようなモデルの役割について検討する。
また、国内援助、医療、サービス自動化分野における現実世界の応用についても論じる。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:08:09 GMT)
Unveiling AI's Blind Spots: An Oracle for In-Domain, Out-of-Domain, and Adversarial Errors [4.5] AIモデルが犯す過ち、なぜ発生し、どのように予測するかを理解することは、依然としてオープンな課題である。
我々は、他の「メンタ」モデルのエラーを予測するために設計されたディープニューラルネットワークである「メンタ」モデルを用いて、経験的評価を行う。
我々は、ImageNet-1Kデータセットから異なるエラータイプのエラーを予測する上で、ベースラインのメンターよりも優れた、SuperMentorと呼ばれる"オークル"メンターモデルを開発した。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:27:53 GMT)
RDI: An adversarial robustness evaluation metric for deep neural networks based on model statistical features [4.4] ディープニューラルネットワーク(DNN)は、敵のサンプルに対して非常に感受性が高い。
本稿では,新しい対向ロバスト性評価指標であるロバスト性差指数(RDI)を提案する。
実験により、RDIはアタック成功率(ASR)の金標準対向ロバストネス指標とより強い相関を示すことが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:00:39 GMT)
MolEditRL: Structure-Preserving Molecular Editing via Discrete Diffusion and Reinforcement Learning [4.4] MolEditRLは、構造的制約と正確なプロパティ最適化を統合する分子編集フレームワークである。
包括的評価のために,最大かつ最も特性に富んだ分子編集データセットである MolEdit-Instruct を構築した。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:29:08 GMT)
Quantum suppression of cold reactions far from the s-wave energy limit [4.4] 我々は、多成分波状態における化学反応を抑制する量子干渉の最初の観測を報告する。
結果は、超低温限界を超える化学反応性の重要なメカニズムとして量子干渉を確立する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:06:16 GMT)
Multiple Descents in Deep Learning as a Sequence of Order-Chaos Transitions [4.4] LSTMのトレーニング過程において, モデルが過度に訓練された後, テスト損失が上下方向の長いサイクルを経る, 新たな「多重発色現象」が観察された。
モデルの安定性解析により,テスト損失の周期は秩序とカオスの間の相転移過程と密接に関連していることがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:18:22 GMT)
Parameter-Efficient Fine-Tuning with Column Space Projection [4.4] そこで我々は,微調整重みのスペクトル特性に基づくPEFT法として初めて理論的に確立されたPiCaを提案する。
従来のPEFT法と比較して,PiCaは最先端性能を実現していることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:52:40 GMT)
Energy-based Preference Optimization for Test-time Adaptation [4.4] テスト時間適応(TTA)アプローチは条件分布の調整に重点を置いている。
これらの手法はラベル情報の欠如による不確実な予測に依存することが多く、信頼性の低い性能をもたらす。
エネルギーベースのフレームワークは、不確実な予測に頼ることなく、ターゲットデータの限界分布を計算し、分散シフトに対処する、有望な代替手段を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:21:32 GMT)
Cellular Traffic Prediction via Deep State Space Models with Attention Mechanism [4.4] 本稿では,隣接する細胞間のセルトラフィックのパターンを明確に特徴付けるために,2つの変種を持つエンドツーエンドフレームワークを提案する。
空間力学を捉えるための注意機構を備えた畳み込みニューラルネットワークと、時間分解のためのカルマンフィルタを使用する。
実世界の3つのデータセットについて広範な実験を行った。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:32:15 GMT)
Analyzing Political Bias in LLMs via Target-Oriented Sentiment Classification [4.4] LLMによって符号化された政治的バイアスは下流のアプリケーションに有害な影響を及ぼす可能性がある。
我々は,LLMの感情予測が同一文の目的語と異なるという観察を活用する新しいアプローチを提案する。
我々は、人口統計学的および政治的に多様な政治家名を450の政治文に挿入し、6つの広く話される言語で7つのモデルを用いて目標志向の感情を予測する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:01:24 GMT)
Predicting Onflow Parameters Using Transfer Learning for Domain and Task Adaptation [4.3] 本稿では,オンフローパラメータ,特に攻撃角度とオンフロー速度を予測するための転送学習手法を提案する。
結果は、データ分散の変更、ドメイン拡張、タスク更新への適応に対するアプローチの可能性の実証に成功している。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:39:42 GMT)
Machine Learning Algorithm for Noise Reduction and Disease-Causing Gene Feature Extraction in Gene Sequencing Data [4.3] 本稿では,DeepSeqDenoiseアルゴリズムを用いた遺伝子シークエンシングにおけるノイズ低減と病因遺伝子の特徴抽出のための機械学習手法を提案する。
特徴工学により17つの重要な特徴をスクリーニングし,94.3%の精度で病原性遺伝子を予測する統合学習モデルを構築した。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:23:09 GMT)
Applications and Effect Evaluation of Generative Adversarial Networks in Semi-Supervised Learning [4.3] 我々はGAN(Generative Adrial Networks)に基づく半教師付き画像分類モデルを構築した。
我々は,制限付きラベル付きデータと大量の非ラベル付きデータの有効利用を実現し,画像生成の品質と分類精度を向上させるとともに,複雑な環境における画像認識のタスクに有効なソリューションを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:08:16 GMT)
Evaluating Quantumness, Efficiency and Cost of Quantum Random Number Generators via Photon Statistics [4.2] この研究は、量子乱数生成器(QRNG)メーカーとユーザの観点から、2つの重要な貢献を提示する。
製造業者にとって、単一光子ベースのQRNGの量子性を評価する従来の方法は、有限サンプルサイズのため統計的に信頼性が低い。
QRNGの基本的なパラメータは、量子性、効率性(ランダムエントロピーと乱数生成率)、コストである。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:32:40 GMT)
WQLCP: Weighted Adaptive Conformal Prediction for Robust Uncertainty Quantification Under Distribution Shifts [4.2] 本稿では,変分オートエンコーダ(VAE)から得られた復元損失を,スコア関数をスケールする不確実性指標として紹介する。
重み付き交換可能性の概念を取り入れてRL SCPを改良した量子損失スケールコンフォーマル予測(WQLCP)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:00:15 GMT)
CaseEdit: Enhancing Localized Commonsense Reasoning via Null-Space Constrained Knowledge Editing in Small Parameter Language Models [4.2] 大規模言語モデル(LLM)は、事実的リコールと一般的な推論において強い性能を示すが、ユーザ固有の常識知識に適応するのに苦労する。
我々は、ローカル化されたパーソナライズされたコモンセンス知識編集を評価するための新しいデータセットと生成パイプラインであるCaseEditを紹介する。
以上の結果から,AlphaEditのような効果的な編集技術を用いたCaseEditを使用することで,小型モデルで高品質で文脈に敏感な常識知識を内部化することが可能であることが示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:54:04 GMT)
Two Causally Related Needles in a Video Haystack [4.2] 本稿では,長期ビデオ中の2つの場所から情報を抽出し,共同で理解する能力を評価するベンチマークを提案する。
Caul2Needles氏は、長いビデオの中で、原因と影響の両方から情報を抽出する必要がある2-needleの質問を紹介している。
実験の結果,既存のベンチマークで優れているモデルでは,2-needleの視覚的接地が困難であることが判明した。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:37:34 GMT)
Estimating Motor Symptom Presence and Severity in Parkinson's Disease from Wrist Accelerometer Time Series using ROCKET and InceptionTime [4.1] InceptionTimeとRandOm Convolutional KErnel TransformをParkinsonの症状モニタリングに有効であるとして検討した。
InceptionTimeの高学習能力は複雑なムーブメントパターンのモデリングに適しており、ROCKETは小さなデータセットに適している。
以上の結果から, 震度とブラジキネジアの有無を適度に評価できるが, ジスキネジア検出の課題に遭遇する可能性が示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:19:12 GMT)
HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models [4.1] VLM(Vision-Language Models)は、マルチモーダルタスクにおいて大きな進歩を遂げた。
しかし、長文のシナリオではパフォーマンスが劣化することが多い。
本稿では,VLMの長文処理能力を改善するために,位置埋め込みのハイブリッドであるHoPEを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:37:40 GMT)
The Faetar Benchmark: Speech Recognition in a Very Under-Resourced Language [4.1] Faetarには標準的な正書法がなく、ベンチマークに含まれるもの以外のテキストや音声のリソースはほとんどない。
コーパスはフィールド録音に由来するが、ほとんどはノイズがあり、5時間しか一致した書き起こしがない。
我々は,現在最先端の多言語音声基礎モデルによる電話誤り率30.4%のベースライン結果について報告する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:36:55 GMT)
DoctorRAG: Medical RAG Fusing Knowledge with Patient Analogy through Textual Gradients [4.1] 既存の医療RAGシステムは、主に医療知識ベースからの知識を活用している。
本稿では,明示的な臨床知識と暗黙的な症例ベース体験を統合し,医師ライクな推論をエミュレートするRAGフレームワークであるDoctorRAGを提案する。
我々のアプローチは、より正確で、関連性があり、包括的な反応を生成し、医師のような医療推論システムに向けて一歩前進する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:56:23 GMT)
Detecting Many-Body Scars from Fisher Zeros [4.1] 我々はフィッシャーゼロに基づくQMBSの検出と診断のための代替ルートを提案する。
傷跡のある系では、フィッシャー零点の連続直線が虚数$beta$軸から現れ、上向きに伸びる。
個々の量子状態を徹底的に調べることなく、傷跡を発見できるという利点がある。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:54:07 GMT)
Conversation Kernels: A Flexible Mechanism to Learn Relevant Context for Online Conversation Understanding [4.0] 本稿では,会話におけるオンライン投稿に関する様々な側面について,適切な会話コンテキストを発見するための汎用的なメカニズムを提案する。
具体的には、会話カーネルの2つのファミリーを設計し、会話を表すツリー内のポストの近傍の異なる部分を探索する。
開発した手法をslashdot.orgからクロールした会話に適用することで,投稿に高度に異なるラベルを付けることができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:37:04 GMT)
SAIL: Self-supervised Albedo Estimation from Real Images with a Latent Diffusion Model [4.0] 内在的な画像分解は、イメージを根底にあるアルベドとシェーディングコンポーネントに分離することを目的としている。
本研究では,一視点実世界の画像からアルベド様の表現を推定する手法であるSAILを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:31:56 GMT)
Unlocking the Power of Diffusion Models in Sequential Recommendation: A Simple and Effective Approach [4.0] 逐次レコメンデーションモデルに埋没崩壊を緩和する革新的なフレームワークであるADRecを提案する。
ADRecはトークンレベルの拡散を通じてトークン単位の分散をモデル化しながら、自動回帰を通じてトークン間依存性をキャプチャする。
推論中、ADRecは最後のトークンのみにデノナイジングプロセスを適用し、歴史的相互作用における意味のあるパターンが保存されることを保証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:05:29 GMT)
Generalized and Personalized Federated Learning with Foundation Models via Orthogonal Transformations [4.0] Federated Learningは、集中的なデータ収集を必要とせずに、分散化されたクライアントやローカルデータを保持するデバイス間でモデルをトレーニングすることを目的としている。
我々は,ブラックボックス基盤モデルを活用した新しいアプローチであるFedOTを紹介する。
FedOTは、さまざまなクライアント間の勾配競合を緩和し、セマンティックな整合性を保持し、実質的なデータの存在下でも堅牢なパフォーマンスを達成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:18:24 GMT)
Information-theoretic Generalization Analysis for VQ-VAEs: A Role of Latent Variables [4.0] 遅延変数(LV)は、効率的なデータ圧縮、予測、生成を可能にすることで、エンコーダ・デコーダモデルにおいて重要な役割を果たす。
我々は、情報理論の一般化解析を、離散潜在空間を持つベクトル量子化(VQ)VAEに拡張する。
復号器に依存しないLVとエンコーダの複雑さにのみ依存するVQ-VAEの再構成損失の新たな一般化誤差を導出する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:51:44 GMT)
Information-theoretic Generalization Analysis for Expected Calibration Error [4.0] 本研究は,2つの共通ビンニング戦略,一様質量と一様幅ビンニングにおける推定バイアスの最初の包括的解析である。
私たちの境界は、推定バイアスを最小限に抑えるために、初めて最適なビンの数を明らかにします。
バイアス分析を情報理論に基づく一般化誤差解析に拡張する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:48:51 GMT)
NeuRadar: Neural Radiance Fields for Automotive Radar Point Clouds [4.0] 我々は、レーダー点雲、カメラ画像、ライダー点雲を共同で生成するNeuRadarについて紹介する。
レーダNeRFのさらなる開発を促進するため,NeuRadarのソースコードをリリースする。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:53:10 GMT)
WXImpactBench: A Disruptive Weather Impact Understanding Benchmark for Evaluating Large Language Models [4.0] WXImpactBenchは、大きな言語モデル(LLM)の破壊的な気象影響を評価するための最初のベンチマークである。
構築されたデータセットと評価フレームワークのコードは、社会が災害からの脆弱性を保護するのに役立つ。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:23:29 GMT)
TESSER: Transfer-Enhancing Adversarial Attacks from Vision Transformers via Spectral and Semantic Regularization [4.0] ディープニューラルネットワークの堅牢性を評価する上で、アドリヤルトランスファービリティは依然として重要な課題である。
textbfTESSERは、2つの主要な戦略を通じて転送可能性を高める新しい攻撃フレームワークである。
12の異なるアーキテクチャにわたるImageNetの実験では、TESSERはCNNでの攻撃成功率(ASR)が+10.9%高く、ViTでは+7.2%高かった。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:30:00 GMT)
Probabilistic Kernel Function for Fast Angle Testing [3.9] 本稿では,2つのプロジェクションに基づく確率的カーネル関数を提案し,その1つは角度比較用であり,もう1つは角度閾値付け用である。
特に、我々のカーネル関数は infinity の傾向にある射影ベクトルの数のような仮定を必要としない。
提案手法は,最新のグラフベース探索アルゴリズムであるHNSWと比較して,2.5倍のクエリ/秒(QPS)スループットを実現する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:53:28 GMT)
Origin Tracer: A Method for Detecting LoRA Fine-Tuning Origins in LLMs [3.9] 本稿では,モデルが特定のベースモデルから微調整されたかどうかを厳密に判定する新しい検出法を提案する。
このフレームワークは、モデルファインチューニングのソースをピンポイントすることに特化した形式化されたアプローチを初めて提供する。
我々は,実世界の難読化シナリオをシミュレートした条件下で,31種類のオープンソースモデルに対して,我々の手法を実証的に検証した。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:38:14 GMT)
Self-reflective Uncertainties: Do LLMs Know Their Internal Answer Distribution? [3.9] 本稿では,LLMの内部回答分布を文字列がいかに忠実に要約するかを評価する指標であるSelfReflectを提案する。
我々は、SelfReflectが候補の要約文字列の微妙な違いを識別できることを示した。
SelfReflectでは、いくつかの自己要約手法を調査し、最先端の推論モデルでさえ内部の不確実性を説明できないことを発見した。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:59:53 GMT)
MedDreamer: Model-Based Reinforcement Learning with Latent Imagination on Complex EHRs for Clinical Decision Support [3.8] 決定支援システムは通常、離散化と計算に頼り、臨界時間力学を歪曲し、決定品質を劣化させる。
既存の治療レコメンデーションシステムは、モデルフリーであり、オフラインデータのみに基づいて訓練されている。
パーソナライズされた治療レコメンデーションのための2相モデルベースRLフレームワークであるMedDreamerを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:16:39 GMT)
AmpleHate: Amplifying the Attention for Versatile Implicit Hate Detection [3.8] 暗黙のヘイトスピーチ検出は、明示的な攻撃的な言葉よりも文脈的解釈に微妙で依存しているため、難しい。
暗黙の憎しみ検出のための人間の推論を反映する新しいアプローチであるAmpleHateを提案する。
AmpleHateは最先端のパフォーマンスを達成し、平均82.14%の対照的な学習ベースラインを上回っている。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:27:10 GMT)
Gradient Flow Matching for Learning Update Dynamics in Neural Network Training [3.8] Gradient Flow Matching(GFM)は、ニューラルネットワークトレーニングを学習対応ベクトル場によって管理される動的システムとして扱う、連続的な時間モデリングフレームワークである。
条件付きフローマッチングを利用することで、GFMはSGD、Adam、RMSpropの基本的な更新ルールをキャプチャし、ウェイトトラジェクトリのスムーズな外挿を可能にする。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:03:22 GMT)
Enhancing Contrastive Learning-based Electrocardiogram Pretrained Model with Patient Memory Queue [3.8] ラベルのないデータに基づいて、堅牢なECG事前トレーニングモデルを構築する方法は、研究者にとって重要な分野である。
対照的な学習に基づく心電図事前訓練モデルの最近の進歩は、心電図固有の患者レベルの自己監督信号を活用する可能性を強調している。
患者記憶キュー(PMQ)により強化されたコントラスト学習型ECG事前学習モデルを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:04:03 GMT)
VTBench: Comprehensive Benchmark Suite Towards Real-World Virtual Try-on Models [3.7] VTBenchは、仮想画像試行を階層的、非絡み合いの次元に分解する階層型ベンチマークスイートである。
このベンチマークは仮想試行生成のための5つの重要な次元を含んでいる。
VTBenchは、すべてのテストセット、評価プロトコル、生成された結果、人間のアノテーションを含むオープンソースになる。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:37:11 GMT)
Sable: a Performant, Efficient and Scalable Sequence Model for MARL [3.7] 我々は、MARLに高性能で、メモリ効率が高く、スケーラブルなシーケンスモデリングアプローチであるSableを紹介した。
SableはRetentive Networksの保持メカニズムを適用することで機能する。
我々は、Sableが既存の最先端メソッドを多種多様なタスクで大幅に上回っていることを実証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:44:14 GMT)
CompMarkGS: Robust Watermarking for Compressed 3D Gaussian Splatting [3.7] 3DGSは数百万のガウシアンに依存しており、ギガバイトのストレージ、効率的な転送とストレージは圧縮を必要とする。
既存の3DGS透かし法は量子化に基づく圧縮に弱いため、しばしば埋め込み透かしが失われる。
本研究では,モデル圧縮後の透かしの堅牢性を保証し,高いレンダリング品質を維持しつつ,新しい透かし方式を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:38:13 GMT)
Automated Scientific Discovery: From Equation Discovery to Autonomous Discovery Systems [3.6] 本稿では、方程式発見から記号回帰から自律的な発見システムやエージェントまで、自動的な科学的発見を調査する。
我々は、Adamシステムに関する先駆的な研究から、物質科学から天文学まで、現在の分野への取り組みまで、クローズドループ科学発見システムを紹介する。
レベル5の最大レベルは、科学的知識の創出において人間の介入を必要としないと定義されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:59:45 GMT)
MetaSTNet: Multimodal Meta-learning for Cellular Traffic Conformal Prediction [3.6] マルチモーダルなメタ学習フレームワークに基づくディープラーニングモデルMetaSTNetを提案する。
これは、シミュレータでモデルをトレーニングし、メタ知識を実環境に転送するエンドツーエンドのネットワークアーキテクチャである。
少量の現実世界のトレーニングデータだけで、新しいタスクに対して迅速に適応し、正確な予測を得ることができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:23:54 GMT)
Search-Based Software Engineering in the Landscape of AI Foundation Models [3.6] 本研究では,SBSEの現在の景観を基礎モデル(FM)と関連づけた研究ロードマップを提案する。
このロードマップは、FM時代のSBSEの将来について、先進的で革新的な視点を確立することを目的としている。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:46:42 GMT)
Ab initio many-fermion structure calculations on a quantum computer [3.6] 完全境界状態スペクトルを解くことができる新しい量子古典的アプローチを導入し、実証する。
我々のアプローチは、新しい入力モデルとスキャンスキームを組み合わせることで、ハミルトンを第二量子化形式で表現することに基づいている。
我々は、このハイブリッド手法を、実効的な強相互作用ハミルトニアンを用いて、バウンドステートスペクトルと対応する20O$の値とを、初めて計算するために適用する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:35:42 GMT)
Cross-Chain Options: A Bridgeless, Universal, and Efficient Approach [3.6] 暗号通貨のようなブロックチェーン常駐資産の選択肢への関心が高まっているにもかかわらず、現在のオプションメカニズムは重大な課題に直面している。
当社のプロトコルは、信頼性のないサービス環境におけるオプションを確立する際に、オーバサが担保をポストする必要をなくす最初のものです。
その普遍性は、2つの異なるブロックチェーン上のほぼテキストティニーアセットを含むクロスチェーンオプションを可能にする。
提案手法により,提案手法はオプション転送遅延を既存手法の半分以下に削減できることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:46:13 GMT)
Weak-Jamming Detection in IEEE 802.11 Networks: Techniques, Scenarios and Mobility [3.6] 最先端のソリューションは、ジャミングが既に無線通信リンクを破壊している場合にのみ、ポスト前のジャミング攻撃を検出する。
弱いジャミングの検出が現実世界の通信技術で考慮できるという証拠は存在しない。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:49:59 GMT)
The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models [3.5] 本稿では,大言語モデル(LLM)における解釈可能な分類的特徴の出現について検討する。
機械的解釈にスパースオートエンコーダを用いることで、ニューラルアクティベーション内で特定の意味概念がいつどこで現れるかを特定する。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:59:54 GMT)
Conversational Lexicography: Querying Lexicographic Data on Knowledge Graphs with SPARQL through Natural Language [3.5] 本稿では,Wikidata などの知識グラフ上での語彙データ検索のための自然言語インタフェース構築の課題に対処する。
Wikidataの辞書データオントロジーモジュールの複雑さを4次元で把握する多次元分類法を開発した。
GPT-2 (124M)、Phi-1.5 (1.3B)、GPT-3.5-Turboによる実験は、モデル能力に大きな違いを示した。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:34:39 GMT)
Multi-Graph Inductive Representation Learning for Large-Scale Urban Rail Demand Prediction under Disruptions [3.5] 本稿では,大規模URTネットワークを対象としたMulti-Graph Inductive Representation Learning(mGraphSAGE)と呼ばれるOrigin-Destination(OD)需要予測モデルを提案する。
本稿では,日常業務の需要予測において,列車の遅延やキャンセルなどの運用上の不確実性を入力として含めることの重要性を示す。
実験の結果,mGraphSAGEは大規模URTネットワークにおけるOD需要予測に特に適しており,参照機械学習手法よりも優れていた。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:52:46 GMT)
VLMLight: Traffic Signal Control via Vision-Language Meta-Control and Dual-Branch Reasoning [3.5] VLMLightは、視覚言語メタコントロールとデュアルブランチ推論を統合する新しいフレームワークである。
大規模言語モデル(LLM)は、安全優先のメタコントローラとして機能し、ルーチントラフィックの高速なRLポリシーとクリティカルケースの構造化推論ブランチを選択できる。
実験によると、VLMLightは緊急車両の待ち時間を、RLのみのシステムよりも最大65%短縮する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:12:57 GMT)
Explanation-Driven Interventions for Artificial Intelligence Model Customization: Empowering End-Users to Tailor Black-Box AI in Rhinocytology [3.5] 本稿では、ブラックボックスAIモデルのための新しいエンドユーザー開発(EUD)アプローチを提案する。
提案手法はHuman-Centered AI(HCAI)を進化させ,人間と適応型ユーザカスタマイズ型AIシステムとの共生関係を促進する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:24:29 GMT)
Transformer in Protein: A Survey [3.4] トランスフォーマーモデルは、タンパク質研究にまたがる多様な課題に対処する前例のない可能性を示している。
本稿では, タンパク質構造予測, 機能予測, タンパク質-タンパク質相互作用解析, 機能アノテーション, 薬物発見・標的同定など, 重要な領域を体系的に検討する。
各研究領域について、その目的と背景を概説し、先行手法とその限界を批判的に評価し、トランスフォーマーモデルによって実現された変革的貢献を強調する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:08:18 GMT)
Variance-Reduced Cascade Q-learning: Algorithms and Sample Complexity [3.4] Variance-Reduced Cascade Q-learning (VRCQ)と呼ばれる新しいモデルなしアルゴリズムを導入し分析する。
VRCQは、既存のモデルフリー近似型アルゴリズムと比較して、$ell_infty$-normにおいて優れた保証を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:47:34 GMT)
On the (Non) Injectivity of Piecewise Linear Janossy Pooling [3.4] 我々は、最も人気のある多重集合モデルの多くを含む k-ary Janossy pooling の族を考え、一意的に線形な Janossy pooling 関数が射出できないことを証明している。
正の面では、多重度のない多重集合に制限された場合、単純な深部集合モデルでさえ射影率と双リプシッツ性に十分であることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:53:09 GMT)
Out-of-distribution Reject Option Method for Dataset Shift Problem in Early Disease Onset Prediction [3.4] 本稿では,リアルタイム設定におけるデータセットシフトを減少させるために,予測(ODROP)のアウト・オブ・ディストリビューション・リジェクションオプションを提案する。
我々は、糖尿病、ジスリピド血症、高血圧という3つの疾患発症予測タスクで、データセットシフトを伴う現実の健康チェックデータセットを2つ使用した。
5つのOOD手法では, 可変オートエンコーダ法によりAUROCの安定性が向上し, 改良が見られた。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:07:53 GMT)
A Novel Shape-Aware Topological Representation for GPR Data with DNN Integration [3.4] 地中貫入レーダ(GPR)は地下探査に広く用いられている非破壊試験(NDT)技術である。
本研究では,地下施設,特にパイプラインの発見を促進する新しい枠組みを提案する。
本研究では, 入力データの構造的特徴を増幅し, 埋設物の幾何学的特徴に対するモデルの応答性を向上する新しい形状対応トポロジ表現を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:43:34 GMT)
Explicit block encodings of boundary value problems for many-body elliptic operators [3.3] 離散化楕円演算子を符号化するブロックの量子回路複雑性を系統的に解析する。
我々は、多体ラプラシアンを分離可能な周期性、ディリクレ、ノイマン、ロビン境界条件で符号化する明示的な回路を提供する。
次に,多体対流作用素の符号化をブロックし,対ポテンシャルによって生じる力を受ける相互作用粒子を記述する。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:36:10 GMT)
Leveraging Novel Ensemble Learning Techniques and Landsat Multispectral Data for Estimating Olive Yields in Tunisia [3.3] オリーブ生産は地中海の気候において重要な樹種であるが、気候変動によりオリーブ収量は著しく異なる。
チュニジアのカイロイ県とスース県でオリーブ収量推定のための合理化パイプラインを開発した。
我々は、多スペクトル反射帯、ランドサット8OLIおよびランドサット9OLI-2衛星画像から得られた植生指標、およびデジタル標高モデルデータから特徴を抽出した。
本研究は,多種多様な農業地域に適用可能なオリーブ収量推定方法として,スケーラブルで費用対効果が高く,高精度な方法であることを示した。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:49:19 GMT)
Detecting LLM-Generated Korean Text through Linguistic Feature Analysis [3.2] LLM生成韓国語テキストを検出するための最初のベンチマークデータセットであるKatFishを紹介する。
音声の間隔パターン,部分音声の多様性,コンマ使用法を調べた結果,人文文とLLM生成韓国語文との言語的差異が明らかになった。
KatFishNetはAUROCよりも平均19.78%高い。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:39:34 GMT)
GPUMC: A Stateless Model Checker for GPU Weak Memory Concurrency [3.2] GPUMCは、スコープドRC11弱いメモリモデルの下でGPU共有メモリプログラムの正しさをチェックするステートレスモデルチェッカーである。
ベンチマークとリアルタイムGPUプログラムを用いてGPUMCを評価する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:47:44 GMT)
MultiPhishGuard: An LLM-based Multi-Agent System for Phishing Email Detection [3.2] MultiPhishGuardは動的マルチエージェント検出システムである。
本フレームワークでは, 政策最適化強化学習アルゴリズムを用いて, 自動決定重み付けを行う5つの協調エージェントを用いる。
実験により、MultiPhishGuardは偽陽性(2.73%)と偽陰性率(0.20%)で高い精度(97.89%)を達成することが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:27:15 GMT)
Understanding Transformer from the Perspective of Associative Memory [3.2] まず連想メモリの基本から始めて、メモリ容量とメモリ更新という2つの次元に飛び込みます。
我々は、FFNを連想記憶の一種と見なすことができ、その設計と潜在的な改善についての洞察をもたらすことを示す。
この調査は、トランスフォーマーのイノベーションに新たな洞察を与え、新たな道を開くことを目的としている。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:15:38 GMT)
FedECA: A Federated External Control Arm Method for Causal Inference with Time-To-Event Data in Distributed Settings [3.2] 外部制御アーム(ECA)は、実験薬の初期臨床開発を知らせることができる。
ECAは、規制承認の有効な証拠を提供することができる。
ECAを実装する上での大きな課題は、現実世界または歴史的な臨床試験データにアクセスすることである。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:41:33 GMT)
Safety Through Reasoning: An Empirical Study of Reasoning Guardrail Models [3.1] 推論に基づく言語モデルは、様々な領域で強いパフォーマンスを示している。
近年の研究では、推論は安全性とガードレールの応用にも大きなメリットをもたらすことが示されている。
本研究はデータ効率と推論効率の2つの重要な側面に焦点を当てている。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:01:37 GMT)
It's Not Just Labeling" -- A Research on LLM Generated Feedback Interpretability and Image Labeling Sketch Features [3.1] 本研究では,大規模言語モデル(LLM)がサポートするスケッチベースのアノテーション手法を提案する。
合成データセットを用いて,スケッチ認識機能とフィードバック指標との関連性を検討する。
私たちの主な貢献は、非専門家のアノテーションを単純化するスケッチベースの仮想アシスタントです。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:13:52 GMT)
CRSet: Private Non-Interactive Verifiable Credential Revocation [3.0] 検証クレデンシャル(VC)は、エラーや重要な妥協があった場合、それらを無効にする方法を必要とする。
既存のVCの取り消しソリューション、特にBitstring Status Listは、多くのユースケースで有効ではない。
我々は,発行者の活動の保護をキーギャップとして認識し,その機構の対応する特性に関する形式的定義を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:58:55 GMT)
Gradient Inversion Transcript: Leveraging Robust Generative Priors to Reconstruct Training Data from Gradient Leakage [3.0] Gradient Inversion Transcript (GIT) は、リークした勾配からトレーニングデータを再構成するための新しい生成手法である。
GITは、既存のメソッドを複数のデータセットで一貫して上回る。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:17:00 GMT)
Covariate-Adjusted Deep Causal Learning for Heterogeneous Panel Data Models [3.0] 本稿では,原因パネルデータモデルにおける不均一な処理効果を推定する作業について検討する。
フレキシブルなモデル構造と強力なニューラルネットワークアーキテクチャを用いたパネルデータモデルのための新しいCoAdjusted Deep Causal Learning(Co)を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:45:43 GMT)
Inceptive Transformers: Enhancing Contextual Representations through Multi-Scale Feature Learning Across Domains and Languages [3.0] textitInceptive Transformerは、トランスフォーマーベースのトークン表現を充実させるモジュール式で軽量なアーキテクチャである。
本モデルは,局所的およびグローバルな依存関係のバランスを,特定のタスクに対する関連性に基づいてトークンを動的に重み付けすることによって設計する。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:59:22 GMT)
We Need to Measure Data Diversity in NLP -- Better and Broader [3.0] 本論では,NLPデータセットにおけるデータ多様性の測定における概念的,方法論的課題について考察する。
学際的な観点はよりきめ細かな、有効な尺度を開発するのに不可欠である、と論じている。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:42:39 GMT)
Large Language Models in Code Co-generation for Safe Autonomous Vehicles [2.9] 大規模言語モデル(LLM)は、ソフトウェアシステムの一部を実装するプロセスを加速するために用いられる。
LLMは、その性質から、安全関連システムの開発に関する、十分に文書化された一連のリスクを伴っている。
4つの安全関連プログラミングタスクにおける6つの最先端LCMの性能を比較した。
我々はこれらのLSMが生み出す最も頻繁な欠陥を質的に分析し、人間のレビュアーを支援するための失敗モードカタログを作成します。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:18:30 GMT)
Universal non-thermal fixed point for quasi-1D Bose gases [2.9] 弱い相互作用を持つ低温原子系の実験的研究により、特定の誘引体に結合したスケーリングダイナミクスが発見された。
この結果から,準1次元ボソニック系の緩和を規定するアトラクションの大きい単一の普遍的固定点が示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:54:48 GMT)
The Problem of Algorithmic Collisions: Mitigating Unforeseen Risks in a Connected World [2.9] 人工知能(AI)やその他の自律的なアルゴリズムシステムの展開が増加し、世界は新たなシステム的リスクを抱えている。
現在のガバナンスフレームワークは、この複雑な相互作用のエコシステムの可視性を欠いているため、不十分です。
本稿では、この課題の性質を概説し、フェーズドシステム登録による透明性と説明責任の向上、デプロイメントのライセンスフレームワーク、監視機能の強化などに焦点を当てた初期方針を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:22:18 GMT)
Generative diffusion for perceptron problems: statistical physics analysis and efficient algorithms [2.9] 高次元極限における非数値重み付きパーセプトロン問題のランダムな例を考察する。
我々は、生成アルゴリズムを用いて近似サンプリング空間を予測するためのレプリカ理論に基づくフォーマリズムを開発する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:14:58 GMT)
Burst Image Super-Resolution via Multi-Cross Attention Encoding and Multi-Scan State-Space Decoding [2.9] マルチイメージ・スーパーレゾリューション(MISR)は、シングルイメージ・スーパーレゾリューション(SISR)よりも高画質を実現することができる
新たに設計された2つの注意機構を組み込んだ特徴抽出器を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:24:33 GMT)
Does Synthetic Data Help Named Entity Recognition for Low-Resource Languages? [2.8] 低リソース言語のための名前付きエンティティ認識は、ラベル付きトレーニングデータが限られている言語のための堅牢なシステムを作ることを目的としている。
低リソースラベル付きデータの量を増やすためのデータ拡張は一般的なプラクティスである。
この結果から, 合成データは低リソース言語であるNERを約束するが, 言語間では大きな違いがあることがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:32:38 GMT)
PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving [2.7] 大規模言語モデル(LLM)は通常、多数のデバイスで構成されるGPU/NPUのクラスタから提供される。
以前の作業では、計算との通信を重複させることでこの問題に対処していたが、これらの操作間のデータ依存関係のために厳しい制限が課された。
我々は,AIアクセラレータのオンチップキャッシュにオフチップメモリからモデルウェイトとKVキャッシュをプリセットする新しいフレームワークであるPreSERVEを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:30:17 GMT)
RDFGraphGen: An RDF Graph Generator based on SHACL Shapes [2.7] 合成RDFグラフを生成するために、SHACL形状で提供される特徴を利用したオープンソースのRDFグラフ生成器であるRDFGraphGenを提案する。
RDFGraphGenは、グラフ構造、値制約、分散を備えたドメインに依存しない。
以上の結果から,RDFGraphGenは拡張性が高く,任意の領域で小型,中型,大型のRDFグラフを生成することができることがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:36:00 GMT)
Entanglement Cost of Erasure Correction in Quantum MDS Codes [2.7] 量子最大距離分離可能符号(MDS)に基づく分散量子ストレージに着目した。
本研究では, 最小数の非消去ノードがアクセスされた場合に, 非消去キューディットをダウンロードし, 単一ノードでの操作を実行する簡単な方法が最適であることを示す。
最小限の非消去ノードがアクセスされた場合、絡み合うコストがどのようなものになるかは、まだわからない。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:58:43 GMT)
Retrieval Visual Contrastive Decoding to Mitigate Object Hallucinations in Large Vision-Language Models [2.7] RVCD(Retrieval Visual Contrastive Decoding)は、オブジェクトの幻覚を抑制するための高度な手法である。
提案手法は,既存の復号化手法よりも大幅に改善されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:06:54 GMT)
How Well Can Differential Privacy Be Audited in One Run? [2.7] 我々は,1回の監査で達成可能な最大効果を特徴付けるとともに,その有効性の鍵となる障壁は,異なるデータ要素の観測可能な効果間の干渉であることを示す。
本稿では,この障壁を最小化するための新しい概念的アプローチを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:02:05 GMT)
Exposing Go's Hidden Bugs: A Novel Concolic Framework [2.7] 本稿では,Goプログラムを包括的に評価する新しい方法論であるZoryaを紹介する。
従来のテスト以上の脆弱性を明らかにするために、システミックに実行パスを探索することで、象徴的な実行には明確なメリットがある。
我々の解は、GhidraのP-Codeを中間表現(IR)として採用する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:26:20 GMT)
Semi-Explicit Neural DAEs: Learning Long-Horizon Dynamical Systems with Algebraic Constraints [2.7] 本稿では,各ODEステップを制約多様体上に投影することにより,代数的制約を明示的に強制する手法を提案する。
PNODEは6つのベンチマーク問題において、平均的な制約違反エラーを10~10ドル以下で達成するベースラインを一貫して上回る。
これらの結果から,制約投影は物理的に一貫した長軸運動学を学習するための単純な戦略を提供することが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:31:15 GMT)
A Checks-and-Balances Framework for Context-Aware Ethical AI Alignment [2.5] 本稿では,大規模言語モデル(LLM)の倫理的アライメントのためのチェック・アンド・バランスフレームワークを提案する。
LLMは知識生成の執行部門、DIKEは倫理的ガードレールを確立する立法部門、ERISは文脈解釈の司法部門である。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:10:01 GMT)
Principal component analysis balancing prediction and approximation accuracy for spatial data [2.5] 我々は、下流モデルにおける元のデータに対する近似の近接性と低次元スコアの有用性を定式化する。
最適トレードオフを実現するフレキシブル次元削減アルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:15:54 GMT)
Smart Contract Vulnerabilities, Tools, and Benchmarks: An Updated Systematic Literature Review [2.5] スマートコントラクトはブロックチェーンプラットフォーム上でのセルフエグゼクティブプログラムであり、信頼性のないトランザクションと分散アプリケーションの運用を可能にして、分散金融に革命をもたらした。
その可能性にもかかわらず、スマートコントラクトのセキュリティは、悪意のあるアクターに公開する不変性と透明性のために、依然として重要な懸念事項である。
本稿では,スマートコントラクトの脆弱性を調査し,自動検出ツールとベンチマーク評価に焦点を当てた系統的な文献レビューを行う。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:15:48 GMT)
On the Relation between Rectified Flows and Optimal Transport [2.5] 整流流マッチングは、学習した輸送経路を直線化し、分布間のより直接的な流れを生み出すことを目的としている。
最近の主張は、学習速度場が勾配であるように制約された整流流が最適輸送問題への解をもたらすことを示唆している。
本稿では, 従来の等価性を無効にするいくつかの反例を提示し, 整流に勾配制約を課すことは, 一般には, 最適輸送マップを計算するための信頼性の高い方法ではないと論じる。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:01:53 GMT)
LLM-Agent-Controller: A Universal Multi-Agent Large Language Model System as a Control Engineer [2.4] LLM-Agent-Controllerは制御工学の幅広い問題に対処するために開発された多エージェント大言語モデル(LLM)システムである(制御理論)。
監督官は高いレベルの意思決定とワークフローの調整を監督し、システムの信頼性と効率を高める。
ユーザーは制御理論の事前知識を必要とせず、平易な言語で問題を入力し、完全なリアルタイムソリューションを受信できるように設計されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:30:13 GMT)
Exploring the Impact of Corpus Diversity on Financial Pretrained Language Models [2.4] 金融言語モデル(PLM)が十分に多様な財務データに事前訓練されていないことを示す。
この問題に対処するため、我々はこれらの多様なデータセットに基づいてFiLM(Financial Language Model)を訓練した。
実験の結果,FiLMは既存の金融PLMだけでなく一般ドメインPLMよりも優れていたことが確認された。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:20:45 GMT)
Agentic AI Process Observability: Discovering Behavioral Variability [2.3] 大規模言語モデル(LLM)を利用するAIエージェントは、現代のソフトウェアシステムの中核的な構成要素になりつつある。
フレームワークは自然言語のプロンプトを使ってエージェントの設定を定義することができる。
このような設定では、エージェントの振る舞いは任意の入力に対して非決定論的である。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:26:07 GMT)
Token-Importance Guided Direct Preference Optimization [2.2] 本研究では,大規模言語モデルが人間の嗜好に沿った出力を生成することを保証するため,TI-DPO(Token-Importance Guided Direct Preference Optimization)を提案する。
実験の結果,TI-DPOは高い精度とより強力な生成多様性を達成し,より安定かつ計算効率の良い解を提供することがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:11:24 GMT)
Classical-to-quantum transfer of geometric phase for non-interferometric phase measurement and manipulation of quantum state [2.2] 古典ビームの幾何位相を測定するために, 対光子の量子相関に基づく非干渉計測手法を提案する。
古典的なポンプビームの幾何位相を偏光絡み合ったペア光子に転送することで、量子状態を容易に制御できる。
その結果,ベル状態とベル様の最大絡み合い状態の遷移が生じ,ベルパラメータと状態の正弦波変調が観測された。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:12:04 GMT)
Democratizing Differential Privacy: A Participatory AI Framework for Public Decision-Making [2.2] 本稿では,パブリックセクターアプリケーションにおけるAIシステムの参加型設計を可能にする対話型インタフェースシステムを提案する。
我々の研究は、対話インタフェースがアルゴリズムのプライバシメカニズムにおける公的なエンゲージメントをいかに向上させるかを示すことによって、参加型AIの実践を前進させる。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:11:31 GMT)
PASS-FC: Progressive and Adaptive Search Scheme for Fact Checking of Comprehensive Claims [2.2] PASS-FCは、Fact Checkingのためのプログレッシブで適応的な検索スキームである。
各原子のクレームは、まず正確な時間と曖昧なエンティティ記述子で基礎付けられている。
一般的な知識、科学文献、現実世界の出来事、そして10の言語を含む6つのベンチマークの実験は、PASS-FCが従来のシステムより一貫して優れていることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:54:02 GMT)
Multi-Agent Reinforcement Learning in Cybersecurity: From Fundamentals to Applications [2.2] MARL(Multi-Agent Reinforcement Learning)は、現代のサイバーセキュリティ問題に対処するための適応的なソリューションとして大きな可能性を示している。
MARLは分散的で適応的で協調的な防衛戦略を可能にし、動的で協調的で洗練された脅威と戦うための自動メカニズムを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:19:43 GMT)
DGRAG: Distributed Graph-based Retrieval-Augmented Generation in Edge-Cloud Systems [2.2] エッジクラウドシステムにおいて,DGRAGと呼ばれる分散知識グラフに基づくRAGアプローチを提案する。
分散知識構築フェーズでは、DGRAGは知識グラフを使用してローカル知識を整理し、サブグラフの要約を生成し、それらをクラウドの要約データベースに格納する。
局所的な知識範囲を超えるクエリに対して、クラウドは要約に基づいて最も関連性の高いエッジから知識を取得し、より正確な回答を生成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:31:58 GMT)
Large Language Models for IT Automation Tasks: Are We There Yet? [2.0] 既存のベンチマークは、IT自動化ツールのニーズを捉えるのに失敗する合成タスクに依存しています。
多様なタスクのベンチマークであるITAB(IT Automation Task Benchmark)を提示する。
14のオープンソース LLM を評価しましたが,いずれも 12% を越えるペースで Pass@10 を達成していません。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:15:00 GMT)
Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism [2.0] 大規模言語モデル(LLM)は、r'esumのスクリーニングやコンテンツモデレーションといった意思決定タスクにますます使われています。
自閉症者を対象としたニュアンス能力の同定のための4つのLSMの能力について検討した。
以上の結果から, LLMは自閉症関連言語を識別できるが, 有害あるいは攻撃的な意味を欠くことが多いことが明らかとなった。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:01:44 GMT)
SCIRGC: Multi-Granularity Citation Recommendation and Citation Sentence Preference Alignment [2.0] 本稿では,引用記事を自動的に推薦し,引用箇所の引用文を生成するSciRGCフレームワークを提案する。
この枠組みは,(1)著者の引用意図を正確に識別し,関連する引用論文を見つける方法,(2)人間の嗜好に沿った高品質な引用文を生成する方法の2つの重要な課題に対処する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:09:10 GMT)
Evaluating Large Language Models for Code Review [2.0] GPT4oとGemini 2.0 Flashを492 AIでテストしました。
GPT4o と Gemini 2.0 Flash はそれぞれ68.50% と63.89% のコード正当性を正しく分類し、67.83% と54.26% のコード正当性を修正した。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:47:29 GMT)
Leveraging recurrence in neural network wavefunctions for large-scale simulations of Heisenberg antiferromagnets: the triangular lattice [2.0] 我々は、三角-格子反強磁性ハイゼンベルクモデルの研究のために、リカレントニューラルネットワーク(RNN)波動関数アンゼを用いている。
我々は、ハミルトニアン変換によりシミュレーションの精度を著しく改善できることを見出した。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:00:20 GMT)
A Fully Generative Motivational Interviewing Counsellor Chatbot for Moving Smokers Towards the Decision to Quit [1.9] 大規模言語モデル(LLM)は、自動トークセラピストとして機能する可能性がある。
喫煙者に対して喫煙をやめるよう動機づけることに焦点を当てたカウンセラーチャットボットを提示する。
最先端のLCMと、Motivational Interviewing (MI)と呼ばれる広く応用された治療アプローチを使用している。
被験者106名を対象に実験を行い,1週間後の会話前に喫煙をやめられるという自信を計測した。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:28:35 GMT)
Shift photocurrent vortices from topological polarization textures [1.9] トポロジカルに非自明な極性構造は、ねじれた二層構造で形成されると予測されている。
トポロジカル偏光テクスチャは、エキゾチックな非線形光学応答をもたらすことを示す。
以上の結果から,vdW材料における複雑な偏光テクスチャと非線形光学応答との相互作用が明らかになった。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:30:07 GMT)
A Responsible Face Recognition Approach for Small and Mid-Scale Systems Through Personalized Neural Networks [1.9] ベクトルベースの顔テンプレートを小さなパーソナライズされたニューラルネットワークに置き換える新しいモデルテンプレートアプローチを提案する。
MOTEは各ID専用のバイナリ分類器を作成し、入力顔が登録されたIDと一致するかどうかを判断するように訓練される。
複数のデータセットと認識システムに対する実験は、公正性、特にプライバシーにおいて大幅に改善されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:45:01 GMT)
Semantic-Aware Interpretable Multimodal Music Auto-Tagging [1.9] 本稿では,音楽に有意義なマルチモーダル特徴群を利用した自動タグ付けのための解釈可能なフレームワークを提案する。
提案手法は,意思決定プロセスのより深い理解を提供しながら,競争力のあるタグ付け性能を実現する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:40:25 GMT)
On the Volatility of Shapley-Based Contribution Metrics in Federated Learning [1.8] フェデレートラーニング(Federated Learning, FL)は、協調型およびプライバシ保護型機械学習パラダイムである。
不正確なコントリビューションの割り当ては、信頼を損なう可能性があり、不公平な報酬につながるため、参加者は連合への参加や積極的に貢献するインセンティブを欠く可能性がある。
集約戦略の集合において,Shapley値の相違点を広範囲に分析し,全体的および各クライアントレベルで検証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:20:12 GMT)
Ontology- and LLM-based Data Harmonization for Federated Learning in Healthcare [1.8] フェデレートラーニング(FL)は、データを共有せずに協調的なモデリングを可能にするが、さまざまな臨床データセットで生データを調和させるという課題に直面している。
本稿では,医療におけるセキュアでプライバシ保護のFLを支援するために,大規模モデル(LLM)を統合した2段階のデータアライメント戦略を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:09:17 GMT)
Correcting Popularity Bias in Recommender Systems via Item Loss Equalization [1.8] 人気アイテムの小さなセットが、高い相互作用率のために推奨結果を支配している。
この現象は、ニッチな興味のある人を無視しながら、メインストリームの趣味を持つユーザーに不当に利益をもたらす。
本稿では,推薦モデルのトレーニングプロセスに介入することで,この問題に対処するプロセス内アプローチを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:01:06 GMT)
Engineering Trustworthy Machine-Learning Operations with Zero-Knowledge Proofs [1.8] Zero-Knowledge Proofs (ZKPs) は、検証済みの計算を通じて、機密性の高いモデルの詳細やデータを明らかにすることなく、要求の遵守を証明できる暗号化ソリューションを提供する。
我々は、AI検証と検証パイプラインにおけるアプリケーションに不可欠な5つの重要な特性(非対話性、透過的なセットアップ、標準表現、簡潔性、および後セキュリティ)を特定します。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:39:11 GMT)
Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.7] AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。
本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。
我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:50:22 GMT)
Kernel-based estimators for functional causal effects [1.7] 実験的なFr'echet平均と演算子評価カーネルに基づく因果効果推定器を提案する。
これらの手法は、処理ミス特異性に対する堅牢性を維持しながら、高次元性、逐次順序付け、モデル複雑性の課題に対処する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:03:00 GMT)
The Beginner's Textbook for Fully Homomorphic Encryption [1.7] FHE(Fully Homomorphic Encryption)は、暗号化データ上で直接計算を行うことができる暗号方式である。
FHEは、サーバがクライアントのデータを暗号化形式でMLモデルで処理できるようにすることで、プライバシ保護機械学習を可能にする。
FHEの他のアプリケーションには、データ分析のセキュアなアウトソーシング、暗号化されたデータベースクエリ、プライバシー保護検索、デジタル署名のための効率的なマルチパーティなどがある。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:42:34 GMT)
Balancing Interference and Correlation in Spatial Experimental Designs: A Causal Graph Cut Approach [1.6] 本稿では,実験データから得られる情報の量を最適化するための空間実験の設計に焦点を当てる。
因果効果推定器の平均二乗誤差(MSE)に対する代理関数を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:29:01 GMT)
An Explainable Diagnostic Framework for Neurodegenerative Dementias via Reinforcement-Optimized LLM Reasoning [1.6] 診断透明性を高めるために2つのコアコンポーネントを統合するフレームワークを提案する。
まず,3次元T1強調脳MRIをテキスト・ラジオグラフィー・レポートに変換するモジュールパイプラインを提案する。
第2に,現代大規模言語モデル(LLM)の可能性を探り,臨床医の鑑別診断を支援する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:18:32 GMT)
Polynomial, trigonometric, and tropical activations [1.5] 本稿では、エルミート基底や三角基底を含む正則基底に基づく関数の族について考察する。
簡単な分散保存と追加のクラッピング機構を使わずに、これらの活性化が深層モデルの学習に有効であることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:55:48 GMT)
GSA-TTS : Toward Zero-Shot Speech Synthesis based on Gradual Style Adaptor [1.5] 本稿では,GSA-TTS (gradual style adaptor TTS) と新しいスタイルエンコーダについて述べる。
GSA-TTSは、ゼロショット音声合成のための音響参照から徐々に音声スタイルを符号化する。
未確認話者に対してGSA-TTSを試験し,自然性,話者類似性,知性について有望な結果を得た。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:58:16 GMT)
Truncated Kernel Stochastic Gradient Descent on Spheres [1.5] 球面高調波の構造に着想を得て,T-カーネルSGDアルゴリズムを提案する。
TカーネルSGDは、球面データフィッティングのための最小二乗損失関数を有する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:38:45 GMT)
Style2Code: A Style-Controllable Code Generation Framework with Dual-Modal Contrastive Representation Learning [1.4] コントラスト学習と条件デコーディングを組み合わせた2段階の学習フレームワークを提案する。
これは、スタイル誘導コード生成のためのコントラストアライメントと条件付きデコーディングを組み合わせた最初のアプローチの1つである。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:00:20 GMT)
Outcome-based Reinforcement Learning to Predict the Future [1.4] 報酬付き強化学習(RLVR)は、数学と大規模言語モデルでのコーディングを促進しているが、予測のような現実世界の領域にRLVRを拡張する努力はほとんどない。
結果のみのオンラインRLはフロンティアスケールの精度と一致し,キャリブレーションや仮説予測の市場賭けに勝ることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:34:33 GMT)
Phare: A Safety Probe for Large Language Models [1.4] 大規模言語モデル(LLM)の探索と評価を行うための診断フレームワークであるPhoreを紹介する。
本評価では, 筋力, 敏感性, ステレオタイプ再現など, あらゆる安全次元にまたがる系統的脆弱性のパターンを明らかにする。
Phareは研究者や実践者に、より堅牢で整合性があり、信頼できる言語システムを構築するための実用的な洞察を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:21:14 GMT)
Unfolding AlphaFold's Bayesian Roots in Probability Kinematics [1.4] 我々はAlphaFold1のポテンシャルを確率力学の例として再解釈する。
確率キネマティクスは、分割上の更新確率の形で不確実またはソフトな証拠を許容する。
この理論的な寄与は、AlphaFold1 をより広範に調整されたベイズ的方法に結び付ける。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:46:07 GMT)
V-RoAst: Visual Road Assessment. Can VLM be a Road Safety Assessor Using the iRAP Standard? [1.3] 道路の安全評価は伝統的に、労働集約的で時間を要する人為的なデータに依存している。
本研究では、ゼロショット機能を持つ視覚言語モデル(VLM)がこれらの制限を克服できるかどうかを考察する。
迅速なエンジニアリングの最適化とMapillaryからのクラウドソースイメージの利用により、V-RoAstはスケーラブルで費用対効果が高く、自動化されたソリューションを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:42:09 GMT)
The Quantum Approximate Optimization Algorithm Can Require Exponential Time to Optimize Linear Functions [1.3] ここでは,QAOAが線形関数を解くのに指数時間を要することを示す。
我々は QAOA が任意の定数 $p$ に対して線型関数の大域的最適化を求めるには指数時間が必要であると推測し、ランタイムが線型であることは$p geq n$ の場合のみである。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:23:43 GMT)
Leveraging Knowledge Graphs for Zero-Shot Object-agnostic State Classification [1.3] 我々は,オブジェクトの知識や推定に頼らずに,あるオブジェクトの状態を予測する最初のオブジェクト非依存状態分類法(OaSC)を提案する。
提案手法の各種環境における性能について検討した。
提案したOaSC法は,すべてのデータセットやベンチマークにおける既存手法よりも大きなマージンで優れている。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:39:07 GMT)
DiffNMR: Advancing Inpainting of Randomly Sampled Nuclear Magnetic Resonance Signals [1.3] 核磁気共鳴分光法は分子の化学環境、構造、力学を探索するために用いられる。
非均一サンプリング(NUS)はこれらの課題に対処するためのサブサンプリング手法として広く用いられている。
本研究では,NUSスペクトルの再構成品質を高めるためのディープラーニング手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:06:11 GMT)
Eradicating the Unseen: Detecting, Exploiting, and Remediating a Path Traversal Vulnerability across GitHub [1.2] オープンソースソフトウェアの脆弱性は、現代のデジタルエコシステムにカスケード効果をもたらす可能性がある。
1,756の脆弱性のあるオープンソースプロジェクトを特定しました。
当社は、この脆弱性をメンテナに責任を持って開示し、報告された脆弱性の14%が再報告されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:29:21 GMT)
Hardware-tailored logical Clifford circuits for stabilizer codes [1.2] 量子誤り訂正は、脆弱な量子情報を保護する技術である。
訂正不能なエラーを発生させることなく、符号化された量子データを操作することは、非常に難しい。
本稿では,ハードウェア化された量子回路を構築するための数学的枠組みを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:40:52 GMT)
Holes in Latent Space: Topological Signatures Under Adversarial Influence [1.2] 我々は,言語モデルにおける多スケール潜在空間力学を特徴付けるために,トポロジカルデータ解析のツールである永続ホモロジー(PH)を提案する。
逆数条件は連続的に遅延トポロジを圧縮し、より小さなスケールで構造的多様性を低減し、粗いトポロジにおける支配的特徴を増幅することを示した。
本稿では,層内および層間を流れる情報の流れを定量化するニューロンレベルのPHフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:31:49 GMT)
ArVoice: A Multi-Speaker Dataset for Arabic Speech Synthesis [1.1] ArVoiceは、多話者の現代標準アラビア語コーパス(MSA)である。
これは、音声によるダイアクリティカルな復元、音声変換、ディープフェイク検出などの他のタスクに有用である。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:15:15 GMT)
Towards End-to-End Training of Automatic Speech Recognition for Nigerian Pidgin [1.1] 本稿ではナイジェリアのピジン英語向けにカスタマイズされたエンドツーエンド音声認識システムの開発に焦点をあてる。
我々は,新しいデータセットを用いて,事前訓練された最先端アーキテクチャについて検討・評価を行った。
このアーキテクチャをデータセットで表現されたニュアンスに適応することにより、エラーを59.84%削減する。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:45:48 GMT)
Protocol-level description and self-contained security proof of decoy-state BB84 QKD protocol [1.1] 本稿では,デコイ状態のBB84量子鍵分布プロトコルに対する自己完結型情報理論セキュリティ証明を提案する。
我々の証明は、以前の結果と一致したキーレートが得られる。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:16:15 GMT)
Synthetic Time Series Forecasting with Transformer Architectures: Extensive Simulation Benchmarks [1.0] 時系列予測はエネルギー、金融、医療といった分野において重要な役割を果たす。
Autoformer、Informer、Patchtst-eachは3種類のアーキテクチャで評価された。
Koopman-enhanced TransformerフレームワークであるDeep Koopformerは、演算子理論の潜在状態モデリングを統合している。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:34:05 GMT)
KHRONOS: a Kernel-Based Neural Architecture for Rapid, Resource-Efficient Scientific Computation [0.9] 我々はモデルベース、モデルフリー、モデル反転タスクのためのAIフレームワークであるKHRONOSを紹介する。
KHRONOSは、次元ごとのカーネル展開の階層的な構成で連続的に微分可能な対象場を構築する。
逆問題に対して、KHRONOSは、サンプルレイテンシあたりのサブマイクロ秒で、数回のフォワード評価で、高速で反復的なレベルセットのリカバリを容易にする。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:40:00 GMT)
Survey of LLM Agent Communication with MCP: A Software Design Pattern Centric Review [0.9] 調査ではMediator, Observer, Publish-Subscribe, Brokerなど,確立したパターンを再検討している。
記事は、オープンな課題、潜在的なセキュリティリスク、堅牢で相互運用可能でスケーラブルなマルチエージェントエコシステムを前進させる有望な方向性を概説することで締めくくっている。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:11:17 GMT)
Multi-Type Point Cloud Autoencoder: A Complete Equivariant Embedding for Molecule Conformation and Pose [0.9] 我々は,マルチタイプの点群に対する新しいタイプのオートエンコーダである分子O(3)エンコーディングネット(Mo3ENet)を開発し,訓練し,評価する。
Mo3ENetはエンドツーエンドの同変であり、学習した表現は実用的なボーナスであるO(3)で操作できる。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:20:41 GMT)
Underwater Diffusion Attention Network with Contrastive Language-Image Joint Learning for Underwater Image Enhancement [0.9] UDAN-CLIPは、合成水中データセットで事前トレーニングされた画像間拡散フレームワークである。
視覚言語モデルに基づくカスタマイズされた分類器、空間的注意モジュール、新しいCLIP拡散損失で拡張される。
提案したコントリビューションにより、UDAN-CLIPモデルにより、より効果的な水中画像強調を行うことができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:24:56 GMT)
Diff-PCR: Diffusion-Based Correspondence Searching in Doubly Stochastic Matrix Space for Point Cloud Registration [0.8] 最先端の手法では、ソリューションを洗練させるためにRAFTのような反復的な更新が採用されている。
本稿では,最適マッチング行列の探索を予測するために,Denoising Diffusion Modelを利用する新しい手法を提案する。
提案手法は,オンラインバックボーンやホワイトノイズによって提供される任意の初期マッチング行列から検索を開始することで,柔軟性を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:37:25 GMT)
Position: Solve Layerwise Linear Models First to Understand Neural Dynamical Phenomena (Neural Collapse, Emergence, Lazy/Rich Regime, and Grokking) [0.8] 機械学習では、階層的な線形モデルはニューラルネットワークのダイナミクスを単純化した表現として機能する。
これらのモデルは動的フィードバックの原則に従い、レイヤが相互に統治し、互いの進化を増幅する方法を記述する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:30:50 GMT)
VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8] VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:20:44 GMT)
Retrieve to Explain: Evidence-driven Predictions for Explainable Drug Target Identification [0.8] Retrieve to Explain (R2E) は検索に基づくモデルで、可能なすべての回答をスコア付けし、ランク付けする。
R2Eはそれぞれの答えを、その裏付けとしてのみ表現し、答え自体が隠蔽されている。
薬物標的同定の挑戦的科学的発見課題としてR2Eを開発した。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:01:28 GMT)
Quantum Resilience: Canadian Innovations in Quantum Error Correction and Quantum Error Mitigation [0.8] 本稿は、2025年の国際量子科学年を記念して、カナダの機関、アカデミア、産業等による量子エラー補正と量子エラー軽減における先駆的な成果と継続的なイノベーションを取り上げる。
量子コンピュータを用いた場合の誤りの低減および/または除去を目的とした、目覚ましい理論的ブレークスルー、最先端の実験、および新興技術について要約する。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:39:46 GMT)
Decoding across transversal Clifford gates in the surface code [0.7] 回転しない曲面符号に対して任意のウィンドウゲート列をデコードする方法を示す。
我々の研究は、表面コードのための高速論理の効率的な復号化における複雑さと関心を強調している。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:55:16 GMT)
Upper Bounding Hilbert Space Dimensions which can Realize all the Quantum Correlations [0.7] ベルシナリオにおける量子相関を実現するのに必要なヒルベルト空間次元の新たな上限を導入する。
我々の結果は、十分なヒルベルト空間次元を決定するという問題の、未解決のいくつかの側面を埋める。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:50:48 GMT)
Automated data curation for self-supervised learning in underwater acoustic analysis [0.7] 海洋生態系の持続性は、音質汚染の増加によって脅かされている。
パッシブ・アコースティック・モニタリング (PAM) システムは大量の水中音響記録を収集する。
機械学習は潜在的な解決策を提供するが、ほとんどの水中音響記録はラベル付けされていない。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:50:04 GMT)
From learnable objects to learnable random objects [0.7] 本研究は,集合 X$ 上の関数の「基底クラス」の学習可能性と基底クラスから派生した統計関数の学習可能性の関係を考察する。
学習のためには,基礎クラスの次元の観点で述べた,統計クラスにおける学習のサンプル複雑性に関する改善された境界を確立する。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:20:48 GMT)
Live Video Captioning [0.6] オンラインで動画ストリームにキャプションを生成しなければならないLive Video Captioning (LVC) という,画期的なパラダイムを紹介した。
我々は,LVCの新たな課題を正式に定義し,このオンラインシナリオに特化して設計された革新的な評価指標を提案する。
本稿では,変形可能な変換器と時間的フィルタリングを組み合わせた新しいモデルを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:27:03 GMT)
Revolutionizing Wildfire Detection with Convolutional Neural Networks: A VGG16 Model Approach [0.6] 森林火災は、破壊的な結果を避けるために、いかに緊急に効率的な警報システムが必要かを強調している。
本研究では,VGG16アーキテクチャ上に構築された畳み込みニューラルネットワーク(CNN)を用いて,山火事検出の精度を高めることを目的とする。
低解像度の画像、データセットの不均衡、リアルタイム適用性の必要性などが主な課題である。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:02:26 GMT)
CSTrack: Enhancing RGB-X Tracking via Compact Spatiotemporal Features [0.6] CSTrackは、シンプルで効果的なトラッキングを実現するために、コンパクトな時間的特徴をモデル化することに重点を置いている。
メインストリームのRGB-Xベンチマークで新しいSOTA結果が得られる。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:53:12 GMT)
Catability as a metric for evaluating superposed coherent states [0.6] 量子状態における猫のような特徴を検出するための,新しい,直接測定可能な基準を導入する。
この方法は自然に多頭猫状態を含むよりエキゾチックな重ね合わせに一般化する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:11:44 GMT)
Device-Independent Ternary Quantum Key Distribution Protocol Based on the Impossible Colouring Game [0.6] 擬似テレパシーゲームにおいて,2次元Impossible Colouringに基づく量子鍵分布プロトコルを提案する。
このプロトコルはKochen-Speckerの定理から非文脈性を利用しており、古典的に達成不可能なタスクにおいて量子的優位性を提供する。
このプロトコルは適切なセキュリティフレームワーク内で安全であり、標準的なQKDプロトコルよりも高いキー生成率を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:26:58 GMT)
Toward Patient-specific Partial Point Cloud to Surface Completion for Pre- to Intra-operative Registration in Image-guided Liver Interventions [0.6] 画像と物理の登録は、術前情報と術中データの融合を可能にする。
登録プロセスを支援するために,患者固有のポイントクラウド補完手法を提案する。
我々はVN-OccNetを利用して部分的術中点群から完全肝表面を生成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:03:01 GMT)
Tensor decompositions with applications to LU and SLOCC equivalence of multipartite pure states [0.6] Kraus' (2010) アルゴリズムは HOSVD を用いて、局所ユニタリ群の作用の下でほぼすべての$n$-qubit純状態の正規形式を計算した。
我々は、SLOCC群の作用の下で、ほぼ全ての$n$-qubit純状態に対して正規形式を計算する類似のアルゴリズムを作成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:25:11 GMT)
APE: A Data-Centric Benchmark for Efficient LLM Adaptation in Text Summarization [0.5] APEは、最小限の計算資源を使用して、大きな言語モデルを特定のタスクに適応させる。
ニュース要約では、APEはわずか60分でT4 GPUを使用して、40%のBLEU改善を実現している。
オープンソースコードを提供し、自動メトリクスと人的評価の両方を通して、APEの有効性を実証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:39:24 GMT)
Deconstructing Obfuscation: A four-dimensional framework for evaluating Large Language Models assembly code deobfuscation capabilities [0.5] 大規模言語モデル (LLM) はソフトウェア工学において有望であるが、バイナリ解析の有効性は未定である。
組立コードの難読化のための商用LCMの総合評価を行った。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:16:44 GMT)
CITRAS: Covariate-Informed Transformer for Time Series Forecasting [0.5] 本稿では,複数ターゲット,過去の共変量,将来の共変量などを柔軟に活用するデコーダのみの変換器CITRASを提案する。
実世界の13のベンチマークにおいてCITRASが最先端のモデルより優れていることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:56:51 GMT)
(Un)supervised Learning of Maximal Lyapunov Functions [0.5] 我々は、(最大)リャプノフ関数の普遍近似器であることが証明された新しいニューラルネットワークアーキテクチャを設計する。
我々は、動的制約を伴う教師なし最適化問題として、リアプノフ関数を訓練する問題を定式化する。
提案手法は,アトラクションの近似領域の精度において,最先端の代替品と一致するか,より優れているかを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:43:07 GMT)
Recalibrating the Compass: Integrating Large Language Models into Classical Research Methods [0.5] 本稿では,大規模言語モデル (LLM) がコミュニケーション研究における中核的な定量的手法をどのように変換しているかを検討する。
古典的なアプローチを置き換えるのではなく、LLMはテキストのコーディングと解釈の新しい可能性を導入している。
この論文は、分野がLLMと生成AIを統合するため、古典的な研究ロジックは依然として不可欠であると主張している。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:38:02 GMT)
Vision-Based Risk Aware Emergency Landing for UAVs in Complex Urban Environments [0.5] 本稿では,セマンティックセグメンテーションを利用したリスク認識手法を提案する。
本手法は,臨界障害物を移動しながら安定な安全着陸ゾーン(SLZ)を適応的に同定する。
制御システムはUAVをこの低リスク領域に向けて誘導し、高度依存性の安全しきい値と時間的着地点安定化を利用する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:16:21 GMT)
From Chern to Winding: Topological Invariant Correspondence in the Reduced Haldane Model [0.4] 我々は、ジグザグエッジを持つハニカム格子上で定義されたハルダンモデルの位相的性質とエッジ状態について、正確に分析した。
この$nu$は、位相的に非自明な位相において、親モデルのチャーン数を正確に再現することを示す。
我々の分析により、エッジ状態がバルクエネルギーギャップを横切る臨界運動量$k_c$がさらに明らかになった。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:11:43 GMT)
CardioPatternFormer: Pattern-Guided Attention for Interpretable ECG Classification with Transformer Architecture [0.4] 解釈可能なECG分類のためのトランスフォーマーモデルであるCardioPatternFormerを提案する。
多様な心臓パターンを正確に識別し分類するために、洗練された注意機構を用いる。
微妙な異常を識別し、複数の共起条件を識別する。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:36:58 GMT)
Systems of Twinned Systems: A Systematic Literature Review [0.4] 現代のシステムは、その規模、相互接続性、デジタルおよび物理部品の不均一性により、前例のない複雑さを示す。
スケーリングの課題に対応するため、システム・オブ・システム(SoS)パラダイムは、サブシステムのより柔軟な集約を全体へ提案する。
サイバー物理収束に反応して、デジタルツイン(DT)パラダイムは、計算反射と正確な制御を通じて、デジタルコンポーネントと物理コンポーネントの密結合を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:40:38 GMT)
Vibe Coding vs. Agentic Coding: Fundamentals and Practical Implications of Agentic AI [0.4] レビューでは、AI支援ソフトウェア開発の新たなパラダイムとして、バイブコーディングとエージェントコーディングの2つを包括的に分析している。
Vibeのコーディングは、インプットベースで対話的なインタラクションを通じて、直感的で、ループ内の人間間インタラクションを強調する。
エージェントコーディングは、最小限の介入でタスクを計画、実行、テスト、反復できる目標駆動エージェントを通じて、自律的なソフトウェア開発を可能にする。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:00:21 GMT)
Complexity of quantum tomography from genuine non-Gaussian entanglement [0.3] 量子状態トモグラフィー(quantum state tomography)は、通常、システムサイズと指数関数的にスケールする多くの状態コピーを必要とする。
ボソニック系では、相関の性質が実際にこのスケーリングを完全に決定していることが示される。
香港・ウー・マンデル効果とボソン・サンプリングにより、分離可能なボソニックモード間の一般化された干渉によって生成されるガウス・アンタングルブル状態(GE)を定義する。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:15:38 GMT)
Quasi-Adiabatic Processing of Thermal States [0.3] 有限温度におけるギブス状態からの断熱進化プロトコルの性能について検討する。
エネルギー固有基底における最終状態の対角性、および理想的な断熱極限に対するエネルギーとエネルギーの差を同定する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:27:56 GMT)
Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations [0.3] タンパク質言語モデル(PLM)は、タンパク質配列の複雑なパターンを検出する強力なツールとして登場した。
PLMのマルチタスク事前学習戦略について検討した。
このマルチタスク事前学習は、PLMがタンパク質配列のみからよりリッチでより一般化可能な表現を学習できることを実証した。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:41:10 GMT)
Entailment vs. Verification for Partial-assignment Satisfiability and Enumeration [0.3] 文学における部分的な割り当てによる公式満足度の定義は、普遍的に一意に定義されていないようである。
文献で暗黙的に使用される2つの別の概念、すなわち検証と含意を識別する。
前者がチェックしやすく、現在のほとんどの検索手順で暗黙的に使用されるが、後者は理論上の特性が優れていることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:24:47 GMT)
The non-Clifford cost of random unitaries [0.3] 我々は$t$ドープクリフォード回路のアンサンブルを$n$ qubitsで探索する。
厳密な収束境界をユニタリな$k$-設計に向けて確立する。
ランダムドープされたクリフォード回路のアンサンブル上で回転する演算子の解析式を導出する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:52:57 GMT)
An Open-Source Python Framework and Synthetic ECG Image Datasets for Digitization, Lead and Lead Name Detection, and Overlapping Signal Segmentation [0.2] 合成ECG画像データセットを生成するためのオープンソースのPythonフレームワークを提案する。
各種リード構成のECG画像と、ECGデジタル化のための時系列信号との組み合わせ、リード領域とリード名を検出するためのYOLOフォーマット境界ボックス付ECG画像、U-Netモデルと互換性のあるセグメンテーションマスク付きシングルリード画像の4つのオープンアクセスデータセットを生成した。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:06:50 GMT)
On the Compatibility of Generative AI and Generative Linguistics [0.2] 我々は、生成型AIは生成型言語学と互換性があると主張している。
LMは、ユニバーサル文法と言語習得に対するチョムスキーの最小主義的アプローチの主要な資産となり得る。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:40:03 GMT)
Large Language Models' Reasoning Stalls: An Investigation into the Capabilities of Frontier Models [0.2] 我々は2023年12月から2024年8月にかけて,PRONTOQAスチームローラーの推理問題に対するState of the Artモデルの性能評価を行った。
以上の結果から, LLM推論能力の向上は9カ月間に停滞していることが明らかとなった。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:34:07 GMT)
Sensing high-frequency AC fields via a two-qubit probe [0.2] 1つの一般的なアプローチは、振動場を測定するために、印加制御パルスと共に単一の2レベル系の時間発展を利用することである。
高周波場の場合、印加パルス間の時間間隔は減少し、パルスの有限幅による誤差が重要になる可能性がある。
本稿では,短い時間間隔でパルスを印加することに依存しない代替方式を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:17:06 GMT)
On the class of coding optimality of human languages and the origins of Zipf's law [0.2] コーディングシステムに最適な新しいクラスを提示する。
Zipfの法則、サイズランク法則、サイズ確率法則は群のような構造を形成する。
Zipfの法則と十分な一致を示すすべての言語は、クラスのメンバーである可能性がある。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:05:45 GMT)
Domain-Agnostic Stroke Lesion Segmentation Using Physics-Constrained Synthetic Data [0.2] 合成定量的MRI(qMRI)画像を生成するための物理制約付きアプローチを2つ導入する。
私たちの最初のメソッドである$textttqATLAS$は、標準的なMPRAGE画像からqMRIマップを推定するためにニューラルネットワークを訓練する。
2番目のメソッドである$textttq Synth$は、組織ラベルから直接qMRIマップを合成する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:36:29 GMT)
Line search by quantum logic spectroscopy enhanced with squeezing and statistical tests [0.1] 固定されたイオンと分子の内部遷移は、可変周波数の印加光場によって生じる運動変位を検出することで探究することができる。
主なボトルネックは周波数帯域での探索速度であり、変位検出の感度を高めることで増大させることができる。
我々は,各手法が独立にスキャン速度を大幅に向上させることを示した。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:09:52 GMT)
An Empirical Study of JavaScript Inclusion Security Issues in Chrome Extensions [0.1] 36,324のChromeエクステンションの分析により、350,784のJavaScriptインクルージョンが明らかになった。
これらのインクルージョンの大部分はエクステンション内のローカルファイルに由来するが、22の脆弱性のあるリモートJavaScriptインクルージョンが特定されている。
これらのリモートインクルージョンは、悪意のあるアクターがエクステンションの実行コンテキスト内で任意のコードを実行する可能性を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:22:37 GMT)
KAN we improve on HEP classification tasks? Kolmogorov-Arnold Networks applied to an LHC physics example [0.1] Kolmogorov-Arnold Networks (KAN) は多層パーセプトロンの代替として提案されている。
我々は高エネルギー物理学における典型的な二項イベント分類タスクについて検討し、カンの性能と解釈可能性についてコメントする。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:47:49 GMT)
When the Left Foot Leads to the Right Path: Bridging Initial Prejudice and Trainability [0.1] 平均場解析(MF)は、ランダムネットワークにおけるパラメータ分布が勾配が消滅するか爆発するかを決定することを示した。
訓練されていないDNNでは、入力空間の広い領域が1つのクラスに割り当てられる。
本研究では、IGB理論と過去のMF理論の対応性を確立する理論的証明を導出する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:33:58 GMT)
mPOLICE: Provable Enforcement of Multi-Region Affine Constraints in Deep Neural Networks [0.0] mPOLICEは、POLICEを一般化し、複数の不随伴凸領域上のアフィン制約を確実に強制する新しいアプローチである。
従来のディープラーニングパイプラインにmPOLICEを組み込んだトレーニングアルゴリズムを導入する。
様々な応用実験を通じてmPOLICEの柔軟性と有効性を検証する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:16:03 GMT)
Zero-Shot Pseudo Labels Generation Using SAM and CLIP for Semi-Supervised Semantic Segmentation [0.0] 注釈付きラベルと擬似ラベルを用いた画像を用いた意味的セグメンテーションモデルを訓練する手法を提案する。
モデルの精度は、擬似ラベルの品質と注釈付きラベルによるデータの量に依存する。
提案手法の有効性は,公開データセットであるPASCALとMS COCOを用いて実証した。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:31:13 GMT)
WikiTermBase: An AI-Augmented Term Base to Standardize Arabic Translation on Wikipedia [0.0] この抽象化は、900K以上の用語で辞書データベースを構築するための体系的なアプローチを備えた、オープンソースのツールであるWikiTermBaseを紹介している。
このツールはアラビア語のウィキペディアで英語とフランス語の翻訳語を標準化することに成功した。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:27:01 GMT)
What does making money have to do with crime?: A dive into the National Crime Victimization survey [0.0] 私は1992年から2022年までの全国犯罪被害者調査を利用して、収入、教育、雇用、および重要な人口構成要素が犯罪被害者の体験(暴力と財産)のタイプをどう形作るかを調べる。
その結果、高い収入と教育が資産犯罪に対する暴力的リスクを減少させる一方、若い人や人種的マイノリティは不当に高い暴力的犯罪リスクに直面していることが一貫して証明された。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:32:23 GMT)
Weighted Leave-One-Out Cross Validation [0.0] We present a weighted version of Leave-One-Out (LOO) cross-validation for the Integrated Squared Error (ISE)。
この手法は任意の未サンプリング地点における2乗予測誤差の最適線形推定器の構成に依存する。
全体として、ISEの推定は古典的で非重み付きLOOクロスバリデーションよりもはるかに正確である。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:20:34 GMT)
Warm Up Before You Train: Unlocking General Reasoning in Resource-Constrained Settings [0.0] 限定的な監督下での理性学習のための2段階の学習戦略を提案する。
最初の段階では、おもちゃのドメインからロングCoTを蒸留することでモデルを「ウォームアップ」します。
第2段階では、ターゲットドメインの限られた例を用いて、RLVRをウォームアップモデルに適用する。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:43:26 GMT)
Von Neumann's 1927 Trilogy on the Foundations of Quantum Mechanics. Annotated Translations [0.0] ジョン・フォン・ノイマン(John von Neumann)が1927年に発表した、量子力学の基礎に関する三部作の英訳。
20世紀の最も重要な小説の紹介と解説。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:45:43 GMT)
Violation of no-signaling on a public quantum computer [0.0] 我々は、IBM Quantumデバイスからの量子ビットのバイパーティライトシステムにおいて、非常に大きな統計量で符号付けをテストした。
IBM Quantumの時間と空間スケールは原則としてサブルミナル通信を除外することはできないが、信号伝達に繋がる明らかな物理的メカニズムは存在しない。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:28:42 GMT)
Unitarity constrains the quantum information metrics for particle interactions [0.0] ユニタリティは、量子情報システムに関する数学的および物理的制約を提供する。
非相対論的量子力学は、ハード散乱の密度行列を導出する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:37:10 GMT)
Understanding the learned look-ahead behavior of chess neural networks [0.0] チェスをするニューラルネットワークのルックアヘッド能力について検討し,特にLeela Chess Zeroポリシーネットワークに着目した。
その結果,ネットワークのルックアヘッド動作は文脈に依存していることがわかった。
ネットワークが単一のプレーラインに注目するのではなく、複数の移動シーケンスを考慮している証拠を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:03:59 GMT)
Types of Relations: Defining Analogies with Category Theory [0.0] 本稿では,類推を構成する上で重要な領域の特徴について考察する。
私たちは知識領域をカテゴリとして定式化する。
また、ファクタ、プルバック、プッシュアウトを使ってアナログを定義する方法も示しています。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:22:44 GMT)
Turing Test 2.0: The General Intelligence Threshold [0.0] 本稿では,システムが汎用インテリジェンス(G.I.)を,シンプルで包括的で明確なフェール/パス方式で達成したかどうかを検出するための,テスト構築のための新しいフレームワークを提案する。
現代のA.I.モデル上でのチューリングテスト2.0フレームワークに従ってテストを適用する実例を実例で示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:13:15 GMT)
Truncated Variational Hamiltonian Ansatz: efficient quantum circuit design for quantum chemistry and material science [0.0] 本稿では、ノイズ中間スケール量子(NISQ)デバイス上で量子計算を行うための新しい回路設計である、Truncated Variational Hamiltonian Ansatz (tVHA)を紹介する。
提案したアンザッツはパラメータ数を大幅に削減し,回路サイズを大幅に削減し,高精度なトレードオフを実現する。
本稿では, 量子化学におけるtVHAの実用化に焦点をあてるが, その基本原理は, 量子コンピューティングプラットフォームにおける物質科学計算の幅広い分野にまで適用可能であることを示唆している。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:54:46 GMT)
Tight Generalization of Robertson-Type Uncertainty Relations [0.0] 我々は、量子状態の固有値スペクトルに明示的に依存するロバートソン型準備不確実性関係を確立する。
量子状態がより混合されると、我々の関係はより顕著になり、量子の不確実性におけるトレードオフを捉えます。
また,本システムと測定装置のスペクトル情報を組み込むことにより,誤差分散トレードオフを改良する。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:46:54 GMT)
Thermalization in open many-body systems and KMS detailed balance [0.0] 我々は、よく知られた回転波近似に依存しない量子マスター方程式を開発する。
結果のリンドブラディアン力学が熱平衡点を再現することを示す。
オープン量子システムと量子アルゴリズムの両方に関連する多体熱化の厳密なモデルを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:48:57 GMT)
The physics and metaphysics of the conceptuality interpretation of quantum mechanics [0.0] 量子論を理解することの難しさは、それを間違った概念的スキームに押し付けるのに失敗した試みである、と論じられている。
多くの思想家は、我々の物理的世界が不変の権力と効力の1つであるという事実に降伏しなければならないと示唆している。
しかし、もしポテンシャルが変化の過程にアクセントを置き、実際の性質と潜在的な性質の断続的な変化の原因となるとすれば、これらの変化がどんなものなのかは分からない。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:15:33 GMT)
The UD-NewsCrawl Treebank: Reflections and Challenges from a Large-scale Tagalog Syntactic Annotation Project [0.0] 本稿では,これまでで最大規模のタガログツリーバンクであるUD-NewsCrawlについて,Universal Dependenciesフレームワークに従って手作業で15.6kのツリーを作成した。
データ収集、前処理、手動アノテーション、品質保証手順など、ツリーバンクの開発プロセスについて詳述する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:25:10 GMT)
The Relative Fermionic Entropy in Two-Dimensional Rindler Spacetime [0.0] 二次元リンドラー時空におけるフェルミオン相対エントロピーは、モジュラー理論と縮小一粒子密度作用素の両方を用いて研究される。
応用として、相対エントロピーは非単項励起のクラスに対して計算される。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:05:11 GMT)
The Quantum Wave Function as a Complex Probability Distribution [0.0] 波動関数とその複素共役は複素確率分布と解釈できることを示す。
量子論におけるプロセスの考え方を受け入れることは、大きな物体に古典的な振る舞いが現れる理由を説明するかもしれないことが示唆されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:51:32 GMT)
The Many Challenges of Human-Like Agents in Virtual Game Environments [0.0] この記事では、ゲームで人間のようなAIを実装する上で最も重要な課題について調査する。
独自のディープリカレント畳み込みニューラルネットワークを用いた機械学習手法を提案する。
特定のゲームのために人間のようなAIを作るのが難しいほど、AI駆動のプレイヤーと人間を区別する手法を開発するのが簡単になる、という仮説を立てる。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:00:39 GMT)
The Fate of Entanglement [0.0] 量子絡み合いは、系の構成要素間の非局所的な相関に現れる。
我々は、物理的状態の典型的な進化の間に、すべての形態の多部交絡が完全に消失すると主張する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:05:38 GMT)
Tensorization is a powerful but underexplored tool for compression and interpretability of neural networks [0.0] テンソル化ニューラルネットワーク(TNN)は、ディープラーニングのための強力だが未探索のフレームワークである、と我々は主張する。
TNNの中心的な特徴は、従来のネットワークでは見つからない新しい潜伏空間を導入する結合指標の存在である。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:32:28 GMT)
Temporal dynamics in the Bragg reflection of light by cold atoms: flash effect and superradiant decay [0.0] 低温原子の1次元格子と相互作用する光の時間ダイナミクスについて検討する。
このようなシステムでは、フォトニックバンドギャップが開き、正しい角度で入射する入射場に対して効率的なブラッグ反射が得られる。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:56:46 GMT)
Techniques for Quantum-Computing-Aided Algorithmic Composition: Experiments in Rhythm, Timbre, Harmony, and Space [0.0] 量子コンピューティングは、異なる構造レベルで音楽の様々な属性を制御するために、コンピュータ支援の音楽合成に使用できる。
本稿では、構成決定のモデル化における量子シミュレーションの適用、ノイズに基づく摂動を生成するための量子粒子追跡のシミュレーション、空間音響パスのノイズ音色を引き起こすための量子測定誤差の活用について述べる。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:54:28 GMT)
Target Specific De Novo Design of Drug Candidate Molecules with Graph Transformer-based Generative Adversarial Networks [0.0] 薬物候補分子のデノボ設計のためのエンド・ツー・エンド生成システムであるDr.GENを提案する。
このシステムは、化合物のような薬物の大規模なデータセットを使用して訓練され、特定の生物活性分子をターゲットにしている。
実験で知られている生物活性分子のデータセットを考えると、他の薬剤性タンパク質のモデルを容易に訓練することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:04:26 GMT)
THiNK: Can Large Language Models Think-aloud? [0.0] ブルーム分類に基づく多エージェントフィードバック駆動評価フレームワークであるTHiNKを提案する。
我々は、THiNKを7つの最先端言語モデルに適用し、その出力の認知分析を行う。
結果は、モデルが確実に下位のカテゴリをうまく実行するが、現実的な文脈における知識の適用に苦慮していることを示している。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:27:02 GMT)
Symmetry constrained neural networks for detection and localization of damage in metal plates [0.0] 我々はニューラルネットワークをトレーニングし、薄いアルミニウム板の材料応答の時系列データを解析する。
各タスクに対して、最も性能の良いモデルは、トランスデューサがほぼ均一なプレート上の正方形パターンに類似し配置されているという帰納バイアスに基づいて設計された。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:39:27 GMT)
Strengthening Cybersecurity Resilience in Agriculture Through Educational Interventions: A Case Study of the Ponca Tribe of Nebraska [0.0] 農業経営のデジタル化が進み、農業社会に新たなサイバーセキュリティの課題がもたらされた。
本稿では、農家や食品生産者の間でのサイバーセキュリティ意識とレジリエンスを強化することを目的とした、サイバーセキュリティ改善イニシアチブ(CIIA)と呼ばれる教育介入を紹介する。
ネブラスカ州ポンカ・トライブ(Ponca Tribe of Nebraska)の農家を対象にしたケーススタディを用いて、CIIAへの曝露前後の参加者のサイバーセキュリティに関する知識と意識を評価するために、介入前および介入後の調査データを評価する。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:58:30 GMT)
Streamlining Resilient Kubernetes Autoscaling with Multi-Agent Systems via an Automated Online Design Framework [0.0] クラウドネイティブなシステムは、ワークロード管理の貧弱な問題のために、運用上のレジリエンスに直面することが多い。
協調エージェントに委譲された障害固有のサブゴールに、運用上のレジリエンスを維持するという、包括的な目標を分解することを提案する。
1)クラスタトレースから構築されたディジタルツインのモデリング,2)障害コンテキストに適した役割やミッションを用いたシミュレーションエージェントのトレーニング,3)説明可能性のためのエージェント動作の解析,4)学習ポリシを実クラスタに転送する。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:39:31 GMT)
Spinor Bose-Einstein condensate as an analog simulator of molecular bending vibrations [0.0] スピノルBose-Einstein Condensates (BEC) は二次元ビブロンモデルのアナログシミュレータとして動作可能であることを示す。
線形分子の曲げ力学の量子シミュレーションを実現する方法を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 11:18:16 GMT)
Solving the Nonlinear Vlasov Equation on a Quantum Computer [0.0] ここでは, (1+1) 次元格子上で離散化されたKrook型衝突作用素を用いた非線形静電ブラソフ方程式の写像について述べる。
大規模なグリッドサイズに制限された量子アルゴリズムのクエリとゲートの複雑さの上限を導出する。
量子アルゴリズムは潜在的な応用に厳しい制約を課すことを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:54:51 GMT)
Small Language Models: Architectures, Techniques, Evaluation, Problems and Future Adaptation [0.0] 小言語モデル(SLM)は、多種多様な言語タスクをうまく実行できることから、大きな注目を集めている。
本研究では,SLMの完全な評価,設計フレームワークの重視,トレーニングアプローチ,モデルサイズと複雑性の低減技術について述べる。
本研究では, SLM に適用された最適化手法を整理し, プルーニング, 量子化, モデル圧縮などの戦略を包含する新たな分類システムを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:29:47 GMT)
Simple finite-dimensional model of the metastable state [0.0] 近似解析解の正しさは直接数値計算により検証した。
提案されたモデルはファノ形式主義の有限次元アナログである。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:15:52 GMT)
Shutdownable Agents through POST-Agency [0.0] 同一長軌道(POST)間の優先事項を満たすためにエージェントを訓練することを提案する。
エージェントは、軌道長の確率分布を無視して、期待されたユーティリティを最大化する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:44:17 GMT)
Self-testing in a constrained prepare-measure scenario sans assuming quantum dimension [0.0] 本稿では,デバイス非依存型(DI)自己検査プロトコルについて,制約付き準備対策シナリオで述べる。
量子系の次元を仮定しないPOMタスクにおける最適量子成功確率を導出する。
論文参考訳(メタデータ) (Mon, 26 May 2025 06:55:02 GMT)
Self-adjointness and domain of generalized spin-boson models with mild ultraviolet divergences [0.0] 紫外偏光形状因子を持つ大規模一般化スピンボソンモデルの厳密な構成について述べる。
このクラスは、ボソン場と相互作用する任意のが有限の準位を持つ多くの非恒等原子の様々なモデルから構成される。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:34:14 GMT)
Seed Selection for Human-Oriented Image Reconstruction via Guided Diffusion [0.0] 拡散に基づく手法は、余分な情報のないマシン指向画像から人間指向画像を生成する。
この方法は1つのランダムなシードを使用し、最適化された画像の品質につながる可能性がある。
画像品質を向上させるために,複数の候補から最適な種を識別する種選択法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:29:53 GMT)
SESaMo: Symmetry-Enforcing Stochastic Modulation for Normalizing Flows [0.0] 本稿では,Symmetry-Enforcecing Modulation (SESaMo)を紹介する。
SESaMoは、誘導変調と呼ばれる新しい技術により、バイアス(例えば対称性)を正規化フローに組み込むことを可能にする。
数値実験では、8-ガウス混合モデルと物理的に関連する場理論を含む様々なシナリオでSESaMoをベンチマークした。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:34:11 GMT)
Rotary Masked Autoencoders are Versatile Learners [0.0] ロータリーマスク付きオートエンコーダ(RoMAE)について紹介する。
RoMAEはMasked Autoencoder(MAE)の拡張であり、多次元連続位置情報による表現学習を可能にする。
本稿では,不規則かつ多変量な時系列,画像,音声など,ロマエの性能について紹介する。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:45:18 GMT)
Robustly optimal dynamics for active matter reservoir computing [0.0] 貯水池計算のパラダイムにおいて, 活性物質の情報処理能力について検討し, カオス信号の将来状態を推定する。
我々はこれまで見過ごされてきたエージェント・ダイナミクスの並外れた体制を明らかにする。
多くの条件下での性能に対して堅牢に最適化されており、より一般的に物理システムによる計算に関する貴重な洞察を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:23:21 GMT)
Robust self-testing and certified randomness based on chained Bell inequality [0.0] ベル不等式の最適量子違反は、ソースと測定装置のデバイス非依存(DI)自己検査を可能にする。
量子違反の次元に依存しない最適化を可能にするエレガントな2乗和和法(SOS)を考案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:40:57 GMT)
Robust quantification of spectral transitions in perturbed quantum systems [0.0] 量子システムは、ギャップによって分離されたエネルギースペクトルの未結合領域間の漏れを経験することができる。
ブロック対角効果進化によって生じる真の力学と力学の間の距離の時間非依存境界を確立する。
適切な条件下では、この漏洩は永遠に小さいことを証明します。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:33:07 GMT)
Reconceptualizing Smart Microscopy: From Data Collection to Knowledge Creation by Multi-Agent Integration [0.0] 我々は、科学的研究のパートナーとして、スマート顕微鏡を再認識する理論的枠組みを導入する。
我々のフレームワークは、仮説生成、洞察発見、理論開発を積極的にサポートする自動化を超えて、マイクロスコープシステムを構築するためのロードマップを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:02:14 GMT)
Quantum simulations of complex systems [0.0] 特に、量子シミュレーションの基本的な考え方、ニューロモルフィック計算、Sachdev-Ye-Kitaevモデル、および量子電池への応用について述べる。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:35:56 GMT)
Quantum computing of magnetic-skyrmion-like patterns in Heisenberg ferromagnets [0.0] ジアロシンスキー-モリヤ相互作用(DMI)による量子二次元スピン-1/2ハイゼンベルク模型の対角化
計算された全エネルギー、磁化、およびトポロジカル電荷の外部磁場依存性は、顕著な不連続性を示す。
研究対象物は、スピントロニクスや情報キャリアーとしても最終的に応用できるほど安定している。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:45:43 GMT)
Quantum computation of hadron scattering in a lattice gauge theory [0.0] 1+1次元のZ$格子ゲージ理論における2ハドロン散乱のディジタル量子計算を提案する。
所望の運動量空間の波動関数を持つ高分離単一粒子波パケットを作成し、デジタル時間進化を通じてそれらの衝突をシミュレートする。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:00:49 GMT)
Quantitative analysis of the value of investment in research facilities, with examples from cyberinfrastructure [0.0] 研究施設への投資額は、長年、高等教育や研究政策において疑問視されてきた。
本研究では,研究施設への投資によって生み出された量的価値を評価する手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:51:01 GMT)
Project Riley: Multimodal Multi-Agent LLM Collaboration with Emotional Reasoning and Voting [0.0] 本稿では,感情状態に影響された推論のシミュレーションを目的とした,多モード・多モデル対話型AIアーキテクチャであるProject Rileyを提案する。
このシステムは、構造化された多ラウンド対話に携わる5つの異なる感情的エージェントから構成され、反応を生成、批判、反復的に洗練する。
このアーキテクチャには、高度な推論と自己修正プロセスとともに、テキストと視覚的大規模言語モデル(LLM)の両方が組み込まれている。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:53:53 GMT)
Program of Equations Thoughts to Solve Algebra Word Problems [0.0] 方程式のプログラム(Program of Equations Thoughts)は、解を推論するタスクを、方程式を予測し、コードを生成する2段階のタスクに変換する。
PENデータセットとALG514データセットの95.3%と98.0%の精度を実現し,SOTA(State-of-the-art)を新たに設定した。
ゼロショットPOETは、DRAW-1Kデータセットで95.5%のSOTA結果も達成している。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:12:04 GMT)
Probabilistic Spatial Interpolation of Sparse Data using Diffusion Models [0.0] 本研究では,1%の観測範囲から全温度場を再構成する条件付きデータ計算フレームワークを提案する。
我々は,2018-2020年夏期の午後の気温場に着目して,南大平原の枠組みを検証した。
論文参考訳(メタデータ) (Mon, 26 May 2025 21:19:09 GMT)
Phenomenology of Holography via Quantum Coherence on Causal Horizons [0.0] この研究は、すべての地平線がコヒーレント量子情報の普遍的境界であるという中心仮説に基づく候補モデルを提案する。
この予測は、地平線上のコヒーレントな状態を与えるブラックホール情報に対する't Hooft'の代数に着想を得たものである。
時間領域相関は、コヒーレンススケールが因果ダイヤモンドと一致するプランクアンジッタから予測される。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:07:00 GMT)
Phase Doubling and Entanglement in Coherent Many-Body Chemical Reactions [0.0] 量子退化状態において、原子と分子は単一の量子状態を占有し、コヒーレントな物質波を形成する。
ボゾン原子が分子に結合する際の物質波位相の2倍の観測について報告する。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:32:49 GMT)
Periodic Motzkin chain: Ground states and symmetries [0.0] モツキン鎖(Motzkin chain)は、開境界条件を持つ量子$s=1$スピンと隣り合う相互作用のモデルである。
独特な基底状態を持ち、モツキン経路の和と見なすことができる。
基底状態は縮退し、独立状態は全スピン作用素の第3成分の固有値によって区別される。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:54:27 GMT)
Parasitic RF-SQUIDs in superconducting qubits due to wirebonds [0.0] 超伝導量子ビットは、マイクロファブリック集積回路から実用的な量子コンピュータを実現することを非常に約束している。
しかし、その固体構造は、クビット材料の寄生モードと、クビットの脱コヒーレンスや干渉を引き起こす制御回路の負担を負っている。
ここでは、マイクロ回路に接触し、チップ・ツー・チップのエアブリッジを実現するために使用されるワイヤボンドが、寄生ジョセフソン接合を含む可能性があることを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:53:52 GMT)
PINN-MEP: Continuous Neural Representations for Minimum-Energy Path Discovery in Molecular Systems [0.0] 物理インフォームドニューラルネットワーク(PINN)を用いた連続最適化問題として遷移経路生成を再構成する手法を提案する。
遷移経路を暗黙的な神経機能として表現することにより、高価な経路サンプリングを必要とせず、物理的に現実的な遷移経路の効率的な発見を可能にする。
ウシ膵トリプシンインヒビター(BPTI)を8,300個以上含む2種類のタンパク質に対して,本法の有効性を実証した。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:09:57 GMT)
Optomechanical self-organization in a mesoscopic atom array [0.0] 光学キャビティ内部の低温原子配列を用いた光学的自己組織化相転移のメソスコピックシグネチャについて検討した。
これらの知見は, メソスコピック系における相転移の粒子数および時間分解特性の理解を前進させる。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:32:30 GMT)
Optimizing edge AI models on HPC systems with the edge in the loop [0.0] エッジデバイスにデプロイされるAIと機械学習モデルは、サイズが小さいことが多い。
これは、最適化された構成を見つけるために、アーキテクチャ空間を体系的に探索するアプローチである。
本研究では,ベルギーのエッジデバイスとドイツの高性能コンピューティングシステムを組み合わせたハードウェア対応NASワークフローを提案する。
この手法は、オープンなRAISE-LPBFデータセットに基づいてAMドメインのユースケースで検証され、モデル品質を1.35倍に高めながら8.8倍高速な推論速度を実現する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:47:36 GMT)
Optimizing SPION Labeling for Single-Cell Magnetic Microscopy [0.0] 本研究では, 細胞表面の鉄質量と磁場の関係について検討した。
ヒト大腸癌細胞 (HT29) にSPIONの濃度の変動を標識し, NV中心広視野磁気顕微鏡で観察した。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:47:40 GMT)
On the choice of non-linear terms in blocking cat states by energy conservation [0.0] エントロピー25, 564 (2023) ではスピンモデルの波動関数アンサンブルの問題を検討した。
W.D. Wick, arXiv:1710.03278]で導入された種類の非線形項は、測定問題の解法としてエネルギー保存によって空間猫をブロックすることであった。
最後に [W.D. Wick, arXiv:1710.03278] の提案を検証するための実験的見積もりを述べる。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:20:29 GMT)
On the Same Page: Dimensions of Perceived Shared Understanding in Human-AI Interaction [0.0] 共有理解は、人間と人間の相互作用の効果的なコミュニケーションとパフォーマンスにおいて重要な役割を担っている。
個人と職場の交流の未来は、共有された理解の認識が重要である人間とAIの相互作用(HAII)が現れる可能性が高い。
現存する文献は、ヒトとヒトの相互作用におけるPSUのプロセスと効果に対処しているが、このコンストラクチャルは、HAIIで過小評価されている。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:50:40 GMT)
On the Potential of Microtubules for Scalable Quantum Computation [0.0] マイクロチューブ(MT)格子におけるチューリンヘテロ二量体の量子コヒーレンス特性について検討した。
MT関連タンパク質を介して論理ゲート様の振る舞いを基盤とし、これらの構造がスケーラブルで環境温度の量子計算をどのようにサポートするのかを詳述する。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:47:33 GMT)
On Dequantization of Supervised Quantum Machine Learning via Random Fourier Features [0.0] 古典的RFFモデルと回帰および分類タスクの量子モデルとの一般化性能ギャップを導出する。
我々の発見は、RFFに基づく量子化の適用可能性を広げるだけでなく、実用的な機械学習タスクにおける潜在的な量子アドバンテージの理解を深める。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:24:23 GMT)
Observation of hadron scattering in a lattice gauge theory on a quantum computer [0.0] 我々は格子ゲージ理論(LGT)における散乱の最初の量子シミュレーションについて報告する。
具体的には、電子と陽電子の衝突ダイナミクスと1+1ドルの量子電磁力学(QED)を表す$mathrmU(1)$ LGTの中間子を量子シミュレーションする。
散乱過程の時間的進化を観察することにより、衝突後の2つの主要な状態を区別することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:00:00 GMT)
Modeling and Analysis of the Landing Gear System with the Generalized Contracts [0.0] 本稿では,ミナレット法が着陸装置システムのモデリング,構成,解析の難しさをいかに軽減するかを説明する。
提案手法は、より多くのファセットをカバーするために使用または拡張することができ、モデリング、多面契約の構成、そして最終的に異種システムの検証を通じて支援ツールを強化することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:27:16 GMT)
Mechanism of defect formation in the quantum annealing of random transverse-field Ising chain [0.0] ランダム逆場イジング鎖の量子アニールにおける欠陥形成の顕微鏡機構を提案する。
クラスターの強磁性基底状態は、一対のクラスターの融合で保存されるか励起される。
この理論の興味深い結果として、臨界点を取り巻くグリフィス-McCoy相は空隙を持たないが、これらの相は依然として効果的に空隙である。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:44:51 GMT)
Matrix-product-state approach for qubits-waveguide systems in real space [0.0] 複数の量子ビットと1次元導波路からなる系をシミュレーションするための行列生成状態に基づく数値計算手法を提案する。
我々は、ハミルトン力学における超ラジカル現象をシミュレートすることで、提示されたアプローチの可能性を示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:31:58 GMT)
Markov chain Monte Carlo Detector Tomography applied to a NbTiN nanobridge [0.0] 我々は、フレキシブルで高精度なマルコフ連鎖モンテカルロ量子検出器トモグラフィー法を用いて、効率の良い120nmのNbTiN超伝導ナノブリッジ単光子検出器の応答を記述する。
内部量子効率と外部量子効率の分離は、理想的な1光子閾値検出器の飽和挙動の違いにより可能である。
論文参考訳(メタデータ) (Mon, 26 May 2025 08:18:07 GMT)
Light distillation for Incremental Graph Convolution Collaborative Filtering [0.0] 本稿では, 歴史的相互作用から直接, 利用者の嗜好スコアを抽出する軽度嗜好駆動蒸留法を提案する。
提案手法は,既存の手法と比較して1.5倍から9.5倍のトレーニング時間を節約し,微細チューニング法からRecall@20を5.41%,10.64%改善する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:47:26 GMT)
Leveraging Descriptions of Emotional Preferences in Recommender Systems [0.0] ユーザが明示的に求めている感情状態のほとんど無拘束な範囲を活用できる新しい推薦タスクを導入する。
書籍レビューから抽出した、きめ細かい感情状態の表現を含む、ユーザの好みの大規模なデータセットを作成します。
次に、感情状態の嗜好のデータセットと、書籍の読み、評価、レビューのリンクされたユーザとその履歴を用いて、複数のレコメンデーションモデルのトレーニングと評価を行う。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:33:14 GMT)
Learning with Expected Signatures: Theory and Applications [0.0] 本稿では,期待署名の離散時間推定器と理論的連続時間値とのギャップを橋渡しする。
平均二乗誤差を著しく低減した予測シグネチャ推定器の簡単な修正を提案し、予測性能を向上させるために効果的に適用できることを実証的に示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:01:20 GMT)
Learning mechanical systems from real-world data using discrete forced Lagrangian dynamics [0.0] 位置測定から機械系の運動方程式を直接学習するデータ駆動手法を提案する。
これは、モーションキャプチャ、ピクセルデータ、低解像度追跡など、位置情報しか利用できないシステム識別タスクに特に関係している。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:13:00 GMT)
Learning Dynamics under Environmental Constraints via Measurement-Induced Bundle Structures [0.0] 本稿では,状態空間上の繊維束構造を通しての計測,制約,動的学習を統一する幾何学的枠組みを提案する。
ニューラルネットワークを統合することにより,センサの品質に依存した学習収束と制約満足度を理論的に保証し,幾何学的制約を保ちながら連続時間ダイナミクスを学習する。
論文参考訳(メタデータ) (Mon, 26 May 2025 05:07:57 GMT)
Laser-dressed partial density of states [0.0] 本稿では,レーザー被覆材料の電子動力学の詳細を明らかにするための新しい手法を提案する。
レーザー被覆されたPDOSは、レーザー被覆された電子密度を形成する結合の構造に関する情報を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:24:55 GMT)
Large Parts are Generically Entangled Across All Cuts [0.0] 部分系の約半数以上を占める汎用多部質純状態の十分に大きな辺縁が、すべての二分割に絡み合っていることを示す。
したがって、これらの純粋な状態は絡み合い分布の損失に対して堅牢であり、量子情報プロトコルにとって潜在的に有用である。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:09:15 GMT)
Lanczos-Pascal approach to correlation functions in chaotic quantum systems [0.0] カオス多体系における多体観測器の時間相関関数に対する近似を計算する手法を提案する。
ランツォス係数が滑らかに増大する構造を示す場合、収束がかなり速いことを数値的に発見し分析的に論じる。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:46:16 GMT)
Kuramoto-FedAvg: Using Synchronization Dynamics to Improve Federated Learning Optimization under Statistical Heterogeneity [0.0] 不均一(非IID)クライアントデータのフェデレーション学習は、クライアントのドリフトによる収束が遅い。
重み集約ステップを同期問題として再構成するフェデレート最適化アルゴリズムである倉本FedAvgを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:16:00 GMT)
Joint Encryption and Error Correction for Secure Quantum Communication [0.0] 暗号化とエラー訂正が可能な単一の統合プロセスを提供する。
これはセキュアな量子通信のための最初の試みである。
これにより、任意のキュービットを送信者から受信者へ送信し、提案されたプロトコルを汎用的に実現することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 02:25:33 GMT)
JingFang: An Expert-Level Large Language Model for Traditional Chinese Medicine Clinical Consultation and Syndrome Differentiation-Based Treatment [0.0] 従来の中国医学(TCM)の効果的な応用には、TCMと臨床経験の豊富な知識が必要である。
TCMのための既存のLarge Language Models (LLMs) は、不完全な臨床診断と診断の限界を示す。
JingFang(JF)は,臨床相談や症候群の鑑別における専門知識のレベルを示す新しいTLM LLMである。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:48:57 GMT)
Introduction of Additive Particle Theory for Path Integral Approaches [0.0] 経路積分アプローチは多ボソン系において成功している。
多重フェルミオン系では、符号問題のために経路積分アプローチは実現不可能である。
符号問題を回避する近似法を生成するために,加法粒子(AP)理論を導入する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:11:16 GMT)
Information-acquiring von Neumann architecture of a computer: Functionality and subjectivity [0.0] 我々は,コンピュータの情報取得型フォン・ノイマンアーキテクチャを,きめ細かなあるいは粗いモデルで設計する。
このアーキテクチャは、与えられた入力純状態からシステム内の他の出力純状態に変換するハミルトニアン過程(機能)と、情報を取得する物理過程(主観性)の両方を可能にする。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:29:29 GMT)
Improving Heart Rejection Detection in XPCI Images Using Synthetic Data Augmentation [0.0] StyleGANは利用可能な3Rバイオプシーパッチで訓練され、その後、1万のリアルな合成画像を生成するために使用された。
これらは、ResNet-18分類器をバイナリーリジェクション分類のために訓練するための様々な構成において、レジェクション無しのサンプルである実際の0Rサンプルと組み合わせられた。
その結果, 実検体と組み合わせて使用する場合, 合成データにより分類性能が向上することが示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:26:36 GMT)
Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases [0.0] 本論文は,OCT診断画像の分類精度を,大・稀なクラスで向上させるために,少数ショット学習を利用することに焦点を当てた。
最高のモデルはCBAMの注意機構と微調整のInceptionV3で作られ、全体的な精度は97.85%に達した。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:49:44 GMT)
High entanglement regimes in the Weisskopf-Wigner theory for spontaneous decay [0.0] 光の空間モードと外部原子自由度を考慮したWeisskopf-Wigner形式を概観する。
原子-光子系の運動量変数に符号化された絡み合いを定量化するために純度計算を行う。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:37:36 GMT)
HOT-FIT-BR: A Context-Aware Evaluation Framework for Digital Health Systems in Resource-Limited Settings [0.0] 低所得国におけるデジタルヘルスシステムの実施は、評価の欠如によりしばしば失敗する。
本稿では,HOT-FITモデルを拡張する文脈評価フレームワークであるHOT-FIT-BRを紹介する。
HOT-FIT-BRはHOT-FITよりも58%感度が高く,特に赤外指数が3。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:35:41 GMT)
Generating Asymmetric Einstein-Podolsky-Rosen Steering between Two movable Mirrors Exploiting Correlated-Emission Laser [0.0] 量子ステアリング(quantum steering)は、固有の非対称性を示す量子相関の一種である。
本稿では, 相関電子レーザーから量子コヒーレンスを伝達することにより, 2つのメカニカルモード間の非対称ステアリングを生成する手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:43:06 GMT)
Generalized Hall Conductivities in Local Commuting Projector Models: Generalized Symmetries and Protected Surface Modes [0.0] 我々は (2+1)D と (3+1)D の局所通勤プロジェクタモデルを構築し、非ゼロ一般化ホール導電率を持つ。
ホール導電性は、表面電流とバルクフラックス挿入と多くのボディチャーン数によって計算される。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:00:00 GMT)
Gain compression in Josephson Traveling-Wave Parametric Amplifiers [0.0] 4波混合プロセスに基づくジョセフソン走行波パラメトリック増幅器におけるゲイン圧縮の実験的検討を行った。
以上の結果から, 利得圧縮時にポンプの劣化が生じることが示唆されたが, TWPAの飽和に関与するメカニズムはそれだけではない。
本研究は、多重量子ビット読み出しやブロードバンド光子放出など、高い入力パワーを必要とするアプリケーションに対して、TWPAを最適化するための貴重な洞察を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:51:20 GMT)
Fundamentals of Trapped Ions and Quantum Simulation of Chemical Dynamics [0.0] トラップされた原子イオンは、量子シミュレーションの最も先進的なプラットフォームの一つである。
本稿では、イオントラップ、量子ビット符号化、レーザーイオン相互作用の物理について概説する。
我々は化学力学のシミュレーションにおける新たなフロンティアを強調した。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:01:03 GMT)
Exploring the Possibility of TypiClust for Low-Budget Federated Active Learning [0.0] FAL(Federated Active Learning)は、アクティブラーニング(AL)を活用したアノテーションの負担軽減を目指す。
低予算FAL設定における低予算AL戦略であるTypiClustの有効性を検討した。
論文参考訳(メタデータ) (Mon, 26 May 2025 01:40:52 GMT)
Experimental Approaches to Distinguishing Quantum Collapse from Unitary Evolution: A Weak Measurement Perspective [0.0] 本稿では,量子力学の競合する解釈を区別する実験を提案する。
実験は、観測者が波動関数を崩壊させることなくシステムを測定することができるかどうかをテストする。
論文参考訳(メタデータ) (Mon, 26 May 2025 00:45:02 GMT)
Exact solution and Luttinger liquid behavior of the quantum 1D hard rod model [0.0] 相関関数で示されるように, ハードロッドモデルでは, 幅広いパラメータ, ゼロ温度, 有限温度において, 液滴の挙動を示す。
この研究は、希薄な1Dシステムにおける強い相関状態を理解するための包括的な枠組みを提供し、量子ワイヤ、スピン鎖、超低温原子に応用する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:09:17 GMT)
Evaluating Software Plagiarism Detection in the Age of AI: Automated Obfuscation and Lessons for Academic Integrity [0.0] プログラミングの課題におけるプラジャリズムは、コンピュータサイエンス教育において永続的な問題である。
ソフトウェア盗作検知器は、大規模に不審な類似点を特定するために広く用いられている。
プログラムコードの構造的変更に基づく高度な難読化に対して脆弱である。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:59:01 GMT)
Evaluating Machine Translation Models for English-Hindi Language Pairs: A Comparative Analysis [0.0] 本研究の目的は、汎用言語ドメインと専門言語ドメインの両方を扱う際に、異なる機械翻訳アプローチの有効性についての洞察を提供することである。
結果は、様々なメトリクスのパフォーマンスレベルを示し、現在の翻訳システムを改善するための強みと領域を強調している。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:15:06 GMT)
Evaluating AI cyber capabilities with crowdsourced elicitation [0.0] 我々は、新興AI能力に対する時間的かつ費用対効果の高い状況認識を維持するための実践的なメカニズムとして、Elicitation bountiesを提案する。
METRの手法を適用すると、AIエージェントは中央のヒトCTF参加者から1時間以下の労力を必要とするサイバー課題を確実に解決できることがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:40:32 GMT)
Estimation of multivariate traces of states given partial classical information [0.0] バーグマン不変量の推定に用いられる標準的な量子回路は、サイクルテストである。
本稿では,$n$のシステムを与え,未知とする状況に適用可能なサイクルテストの一般化を提案する。
いくつかの状態における古典的な情報を使用することで、キュービットの少ない回路とゲートの少ない回路が実現され、その推定に対する実験的な要求が減少する。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:48:23 GMT)
Emotion Classification In-Context in Spanish [0.0] 顧客からのフィードバックを,肯定的,中立的,否定的という3つの感情カテゴリーに分類する。
伝統的な方法では、広く話される言語からのフィードバックをあまり一般的でない言語に翻訳し、意味的整合性が失われる。
本稿では,TF-IDFとBERTの埋め込みを組み合わせたハイブリッド手法を提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 23:09:41 GMT)
Emergent LLM behaviors are observationally equivalent to data leakage [0.0] 大規模言語モデル(LLM)は,人間の社会規範を連想させる言語慣習を自然に発達させることを示す。
著者らによる緩和策にもかかわらず、LLMが協調ゲームの構造を認識し、その結果を思い出すことを示す複数の分析結果を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:44:55 GMT)
Efficient fabrication of high-density ensembles of color centers via ion implantation on a hot diamond substrate [0.0] ダイヤモンド中の窒素空洞(NV)中心は量子技術にとって有望なシステムである。
本研究では, 高温ターゲット基板上のMeV N2+イオンの高流動注入によるNV中心密度の増大に対するアプローチを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 07:36:53 GMT)
Efficient Speech Translation through Model Compression and Knowledge Distillation [0.0] 本稿では,音声翻訳のための大規模音声モデルの効率的な展開という課題に対処する。
我々は,4ビット量子化(QLoRA)による低ランク適応,知識蒸留に基づく反復層プルーニングを用いる。
筆者ら(学生)モデルは,モデルパラメータとストレージフットプリントの両方を最大50%削減すると同時に,ドメイン内(教師)モデルの翻訳品質の97-100%を維持できる。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:17:08 GMT)
Efficient Optimization Accelerator Framework for Multistate Ising Problems [0.0] イジングマシン(Ising Machine)は、NPハード最適化問題の解決を目的とした、ハードウェアアーキテクチャの傑出したクラスである。
スピン相互作用を一般化論理関数としてモデル化し,探索空間を大幅に削減する。
また、最大10000倍の性能向上を示す1024ニューロン全接続型確率Isingアクセラレータを設計した。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:23:47 GMT)
EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion [0.0] EVM-Fusionは、医療画像分類のための新しいアルゴリズムニューラルネットワークフュージョン(NAF)機構を備えた説明可能な視覚マンバアーキテクチャである。
多様な9クラスの医療画像データセットの実験は、EVM-Fusionの強力な分類性能を示し、99.75%のテスト精度を達成した。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:40:44 GMT)
ETS: Open Vocabulary Electroencephalography-To-Text Decoding and Sentiment Classification [0.0] オープン語彙テキスト生成と感情分類という2つの重要な課題に対処するために,脳波と視線追跡データを統合するフレームワークであるETSを提案する。
脳波-テキスト復号法ではBLEUとRurgeのスコアに優れ,脳波に基づく3次感情分類では最大10%のF1スコアが得られた。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:58:13 GMT)
Dynamics of the Bose-Hubbard Model Induced by On-Site or Long-Range Two-Body Losses [0.0] 弱相互作用超流動状態における2体損失の突然のスイッチオンによって引き起こされるダイナミクスについて検討した。
密度の中間時間ダイナミクスは、相互作用に依存したパワーロー指数を示す。
後者の性質は、長い範囲の2体損失過程を保っているが、オンサイト損失を持つ2次元正方格子には欠落している。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:50:35 GMT)
Differentially private ratio statistics [0.0] 単純なアルゴリズムでさえ、プライバシー、サンプル精度、バイアスに関する優れた特性を提供できることを示す。
我々のアプローチは、差分プライバシーの文献のギャップを埋め、プライベート機械学習パイプラインにおける比率推定の実用的なソリューションを提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:28:27 GMT)
Detector noise in continuous-variable quantum key distribution [0.0] 検出器ノイズは量子鍵分布(QKD)システムの性能を決定する重要な要因である。
光コヒーレント検出を用いた連続可変(CV)QKDでは、秘密鍵レートと送信距離の両方を高めるために信頼検知ノイズモデルが広く用いられている。
このモデルは、コヒーレント検出器からのノイズは本質的にランダムであり、敵によってアクセスまたは操作できないと仮定する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:35:42 GMT)
Detection of Suicidal Risk on Social Media: A Hybrid Model [0.0] Redditの投稿を利用した堅牢な機械学習モデルを開発し、それらを自動的に4つの異なる自殺リスク重大度に分類する。
我々はこれをマルチクラス分類タスクとみなし,RoBERTa-TF-IDF-PCAハイブリッドモデルを提案する。
実験の結果, ハイブリッドモデルでは性能が向上し, 最大重み付きF_1$スコア0.7512が得られることがわかった。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:56:47 GMT)
Dagger categories and the complex numbers: Axioms for the category of finite-dimensional Hilbert spaces and linear contractions [0.0] 我々は、圏論における実数の極限と極限の間の深い関係を解明する。
実数の古典的特徴付けの新しい変種を用いて、有限次元ヒルベルト空間と線型収縮の圏を特徴づける。
これは、ハネン、コルネル、ファン・デル・シャフのすべてのヒルベルト空間と線型縮約の圏のキャラクタリゼーションの容易性に基づいている。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:23:49 GMT)
DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response [0.0] 大規模言語モデル(LLM)は、デジタルフォサイシクスとインシデント応答(DFIR)に新たな機会を提供する
LLMは、ログ分析やメモリなどのDFIRタスクに新たな機会を提供するが、エラーや幻覚への感受性は、高い文脈で懸念を引き起こす。
本稿では,DFIR領域と実用領域の双方にわたるLSMを評価するベンチマークであるDFIR-Metricを提案する。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:35:37 GMT)
Creating Automated Quantum-Assisted Solutions for Optimization Problems [0.0] ソリューションパスを探索し、自動化し、評価できるフレームワークであるQuaST決定ツリーを提案する。
私たちのセットアップはモジュール化され、高度に構造化され、柔軟性があり、どんな準備や前処理、後処理のステップも含められます。
論文参考訳(メタデータ) (Mon, 26 May 2025 09:43:41 GMT)
Correcting noisy quantum gates with shortcuts to adiabaticity [0.0] ユニタリ量子ゲートは、回路パラダイムにおける量子コンピューティングの構成要素を構成する。
実際には、量子ゲートは有限時間で実装されなければならないため、非断熱的および外部ノイズ効果はゲートの忠実性を不安定にする。
反断熱制御は、デコヒーレンスを受けるオープン量子系においても、ほぼ完全な忠実度でゲート性能を回復することができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:51:46 GMT)
Control, competition and coexistence of effective magnetic orders by interactions in Bose-Einstein condensates with high-Q cavities [0.0] 実効スピノルBose-Einstein凝縮体のキャビティ駆動による自己組織化において,原子多体相互作用がさらなる制御を可能にすることを示す。
磁気材料のアナログ量子シミュレーションに有用な需要構成を調整することが可能である。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:23:59 GMT)
Constructing a BPE Tokenization DFA [0.0] 決定論的有限オートマトン(DFA)の効率的な構築と解析
本稿では,文字列とそれらの正しいトークン化の関係を正確に記述した入力決定型文字列列列変換器の構築方法について述べる。
論文参考訳(メタデータ) (Mon, 26 May 2025 13:03:53 GMT)
Comparing Neural Network Encodings for Logic-based Explainability [0.0] ANNの異なるエンコーディングを論理的制約と比較する必要がある。
この研究は、ANNの2つのエンコーディングを比較した: 1つは、文献で説明を提供するために使われ、もう1つは、説明可能性の文脈に適応する。
実験では、同様の計算説明の実行時間を示したが、適応されたエンコーディングは論理的制約の構築において最大18%、全体的な時間では最大16%向上した。
論文参考訳(メタデータ) (Mon, 26 May 2025 17:45:18 GMT)
Cellwise and Casewise Robust Covariance in High Dimensions [0.0] cellRCovメソッドは、ケースワイド・アウトレイア、セルワイド・アウトレイア、および欠落したデータを同時に処理する。
シミュレーション研究は、汚染されたデータシナリオと欠落したデータシナリオにおいて、CellRCovの優れた性能を示す。
また、ロバストかつ規則化された正準相関解析のためのセルRCCA法の構築と説明を行う。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:46:44 GMT)
Causal Distillation: Transferring Structured Explanations from Large to Compact Language Models [0.0] 大規模なプロプライエタリな言語モデルは、小さなオープンソースモデルでは複製が困難である強力な因果推論能力を示している。
本稿では,強力な教師モデルからコンパクトなオープンソースモデルへ因果推論スキルを伝達する因果説明を蒸留する新しい枠組みを提案する。
鍵となる考え方は、教師モデルと整合した構造的原因・効果説明を生成することにより、因果推論能力を向上させるために、より小さなモデルを訓練することである。
論文参考訳(メタデータ) (Mon, 26 May 2025 04:50:42 GMT)
Bemba Speech Translation: Exploring a Low-Resource African Language [0.0] 本稿では,国際音声言語翻訳会議(IWSLT 2025)へのシステム提出について述べる。
我々はWhisperとNLLB-200をベースとしたカスケード音声翻訳システムを構築し,バックトランスレーションなどのデータ拡張技術を採用した。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:32:47 GMT)
Analytical Calculation of Weights Convolutional Neural Network [0.0] 本稿では,畳み込みニューラルネットワーク(CNN)の重みと閾値を,標準的な訓練手順を使わずに解析的に計算するアルゴリズムを提案する。
このアルゴリズムは、MNISTデータセットから選ばれた10の画像に基づいて、CNNパラメータを決定できる。
論文参考訳(メタデータ) (Mon, 26 May 2025 19:17:19 GMT)
Alpay Algebra III: Observer-Coupled Collapse and the Temporal Drift of Identity [0.0] 第3のインストールは、無限のカテゴリーフローと曲率駆動の恒等演算子を通して、オブザーバ結合されたフィコラプス過程を形式化する。
システムは、内部変換履歴を記号的固定点構造に符号化することで、説明可能なAI(XAI)における従来のアイデンティティモデリングを超越する。
結果はまた、安定した自己参照行動を持つ将来のAIシステムに対して、数学的に厳密な基礎を提供する。
論文参考訳(メタデータ) (Mon, 26 May 2025 10:20:12 GMT)
Almost Strong Zero Modes at Finite Temperature [0.0] 無限温度の反対の極限において、対応する非可積分スピン鎖は準強零モードをホストすることが知られている。
ここでは、ゼロと無限の2つの極端なケースを橋渡しする、未発見の領域について研究する。
これにより、任意に長い時間スケールで大規模システムのサイズを効率的にシミュレートし、温度依存の崩壊率を抽出できる。
論文参考訳(メタデータ) (Mon, 26 May 2025 16:26:04 GMT)
Algorithmic Control Improves Residential Building Energy and EV Management when PV Capacity is High but Battery Capacity is Low [0.0] ドイツ語圏における固定レート電気料金に関する90世帯の実世界データについて検討した。
頻繁なEV充電トランザクション、初期のEV接続、およびPV余剰は最適化の可能性を高めている。
バッテリー容量が比較的低い場合、DRLによるアルゴリズム制御は、関連するマージンによってエネルギー管理とコスト削減を改善する。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:19:01 GMT)
Advancing Superconducting Qubits: CMOS-Compatible Processing and Room Temperature Characterization for Scalable Quantum Computing beyond 2D Architectures [0.0] CMOSパイロットラインを用いた業界グレードのCMOS互換量子ビット製造手法について報告する。
我々の研究結果は、スケーラブルな量子コンピューティングのための超伝導量子ビットのCMOS互換産業スタイルの創出の大きな可能性を浮き彫りにしている。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:47:59 GMT)
Advancing Molecular Machine Learning Representations with Stereoelectronics-Infused Molecular Graphs [0.0] 分子グラフに量子化学的に豊富な情報を注入する新しい手法を立体電子効果により導入する。
小分子で訓練された学習表現は、はるかに大きな分子構造に正確に外挿できることが示される。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:48:43 GMT)
ALMA: a mathematics-driven approach for determining tuning parameters in generalized LASSO problems, with applications to MRI [0.0] ALMA(Algorithm for Lagrange Multipliers Approximation)は、MRI再構成中の一般化LASSO問題のチューニングパラメータを算出する。
ALMAはより一般化されたLASSO問題に適応するが、総変分を超えた他の形式の正規化に対応するためにも堅牢である。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:39:50 GMT)
AI Learning Algorithms: Deep Learning, Hybrid Models, and Large-Scale Model Integration [0.0] 人工知能(AI)、機械学習(ML)、ディープラーニング(DL)、ハイブリッドモデルの主な概念についてレビューする。
本稿では,学習アルゴリズムの概要と現状,応用,今後の方向性について概説する。
論文参考訳(メタデータ) (Mon, 26 May 2025 18:32:17 GMT)
A fast sound power prediction tool for genset noise using machine learning [0.0] 本稿では,音のパワーレベルを予測するために,カーネルリッジ回帰(KRR),フーバー回帰(HR),ガウスプロセス回帰(GPR)について検討する。
エンジンサイズや囲い寸法が一定であり、計測されたノイズデータが利用できない場合、これらのアルゴリズムは、未構築品の信頼性の高いノイズレベル推定を可能にする。
論文参考訳(メタデータ) (Mon, 26 May 2025 14:56:05 GMT)
A detailed study on ergodic to non-ergodic phase transition in the dissipative anisotropic Dicke model [0.0] 非エルゴード位相において、リウヴィリアンギャップはシステムサイズとは独立であることを示す。
我々は、Thue-Morseの準周期列が適用される場合まで解析を拡張した。
本研究は,非エルゴード相が,ボゾン散逸の存在下でのエルゴード相よりも好適であることが示唆された。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:24:40 GMT)
A ZeNN architecture to avoid the Gaussian trap [0.0] 我々は新しいシンプルなアーキテクチャであるゼータニューラルネットワーク(ZeNN)を提案する。
ZeNNは調和解析の3つの単純な原則にインスパイアされている。
無限幅の極限において、ZeNNは点的に収束する。
論文参考訳(メタデータ) (Mon, 26 May 2025 22:26:55 GMT)
A Novel Convolutional Neural Network-Based Framework for Complex Multiclass Brassica Seed Classification [0.0] 本研究では,10種類のブラシカ種子の効率的な分類のための,新しい畳み込みニューラルネットワーク(CNN)に基づくフレームワークを提案する。
収集したBrassicaシードデータセットを用いた実験結果から,提案モデルが93%の精度で達成できたことが示された。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:18:45 GMT)
A Note on Vectorial Boolean Functions as Embeddings [0.0] 我々は、$F$の少なくとも2M~2M-n$のコンポーネントはバランスが取れており、この最大値は、$F$が埋め込みであるときに正確に達成されることを示す。
部分ベント埋め込みでは、$n$が偶数であるとき、少なくとも2n − 1$のバランス成分が、$n$が奇数であるとき、$m-1 + 2n-1 - 1$のバランス成分が常に存在することを示す。
論文参考訳(メタデータ) (Mon, 26 May 2025 15:21:45 GMT)
A Langevin sampling algorithm inspired by the Adam optimizer [0.0] 本稿では,時間スケールのLangevinダイナミクスに基づく適応段階MCMCサンプリングのためのフレームワークを提案する。
我々のアルゴリズムは実装が簡単で、任意のオフザペグの固定ステップLangevinインテグレータと簡単に組み合わせることができる。
論文参考訳(メタデータ) (Mon, 26 May 2025 12:19:39 GMT)
A Feature-level Bias Evaluation Framework for Facial Expression Recognition Models [0.0] 我々は,偏り評価結果の統計的意義を保証するために,プラグアンドプレイ統計モジュールを導入する。
次に、包括的なバイアス分析を、3つのセンシティブな属性(年齢、性別、人種)、7つの表情、大規模データセット上の複数のネットワークアーキテクチャで実施する。
論文参考訳(メタデータ) (Mon, 26 May 2025 20:26:07 GMT)
A Comprehensive Survey on Bio-Inspired Algorithms: Taxonomy, Applications, and Future Directions [0.0] バイオインスパイアされたアルゴリズム (BIAs) は、複雑な非線形で高次元の最適化問題を解決するために、進化、群れの挙動、採餌、植物の成長などの自然なプロセスを利用する。
この調査は、BIAを8つのグループに分類する。進化的、群れ知性、物理学にインスパイアされた、生態系と植物に基づく、捕食者、神経にインスパイアされた、人間にインスパイアされた、ハイブリッドなアプローチ。
論文参考訳(メタデータ) (Mon, 26 May 2025 03:01:29 GMT)