MemOS: A Memory OS for AI System [116.9] 大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:11:37 GMT)
Stochastic Encodings for Active Feature Acquisition [100.5] Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:07:50 GMT)
Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction [95.9] 一連のオープンソースの言語モデルであるGoedel-Prover-V2は、自動定理の新たな最先端を証明した。
我々は、より複雑な定理をマスターするためにモデルを訓練することの困難さを増す合成タスクを生成する。
Goedel-Prover-V2-32Bは、標準モードのpass@32でMiniF2Fの88.1%、自己補正モードの90.4%を達成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:28:22 GMT)
CoAct-1: Computer-using Agents with Coding as Actions [95.0] CoAct-1はGUIベースの制御と直接プログラム実行を組み合わせた新しいマルチエージェントシステムである。
我々は、CoAct-1が60.76%の最先端の成功率を達成したOSWorldベンチマークで、我々のシステムを評価した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:33:36 GMT)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8] 推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:56:32 GMT)
Multimodal Referring Segmentation: A Survey [93.2] マルチモーダル参照セグメンテーション(Multimodal reference segmentation)は、テキストやオーディオフォーマットでの参照表現に基づいて、画像、ビデオ、および3Dシーンなどのターゲットオブジェクトを視覚シーンに分割することを目的としている。
過去10年間で、畳み込みニューラルネットワーク、トランスフォーマー、および大規模言語モデルの進歩によって、マルチモーダルコミュニティにおいて大きな注目を集めてきた。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:42:44 GMT)
ActionSink: Toward Precise Robot Manipulation with Dynamic Integration of Action Flow [93.0] 本稿では,アクション推定のための新しいロボット操作フレームワークであるActionSinkを紹介する。
その名前が示すように、ActionSinkは、アクションフローと呼ばれるビデオからのアクション起因の光学フローとして、ロボットのアクションを再構成する。
我々のフレームワークは,LIBEROベンチマークのSOTAよりも7.9%向上し,長軸視覚課題LIBERO-Longの精度は8%近く向上した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:46:17 GMT)
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation [90.0] LongVieは、制御可能なロングビデオ生成のためのエンドツーエンドの自動回帰フレームワークである。
LongVieは、長距離制御性、一貫性、品質において最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:59:58 GMT)
IntroStyle: Training-Free Introspective Style Attribution using Diffusion Features [90.0] スタイル帰属問題を解決するための学習自由フレームワークを提案する。
IntroStyleはスタイル属性の最先端モデルよりも優れたパフォーマンスを示している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:41:04 GMT)
Quantum algorithms: A survey of applications and end-to-end complexities [88.6] 期待されている量子コンピュータの応用は、科学と産業にまたがる。
本稿では,量子アルゴリズムの応用分野について検討する。
私たちは、各領域における課題と機会を"エンドツーエンド"な方法で概説します。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:02:02 GMT)
LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.7] 大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。
LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。
これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:18:48 GMT)
RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.3] 大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
既存のRLVR法と比較して、RL-PLUSは、1)6つの数学推論ベンチマークにおける最先端のパフォーマンス、2)6つの分布外推論タスクにおける優れたパフォーマンス、3)様々なモデルファミリー間での一貫性と顕著な向上、そして平均的な相対的改善は69.2%に達する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:06:11 GMT)
Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.8] テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:52:09 GMT)
MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh [79.2] MeshLLMは、大規模言語モデル(LLM)を活用して、テキストシリアライズされた3Dメッシュを理解して生成するフレームワークである。
我々は3次元メッシュを構造的に意味のあるサブユニットに分割するプリミティブ・メシュ分解戦略を導入する。
実験により、MeshLLMはメッシュ生成の品質と形状理解の両方において最先端のLLaMA-Meshよりも優れていることが示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:55:00 GMT)
$\texttt{Droid}$: A Resource Suite for AI-Generated Code Detection [75.6] $textbf$textttDroidCollection$$は、機械生成コード検出器のトレーニングと評価のためのオープンデータスイートである。
これには100万以上のコードサンプル、7つのプログラミング言語、43のコーディングモデルからの出力、3つの実世界のコーディングドメインが含まれている。
また、$textttDroidCollection$$でマルチタスクでトレーニングされたエンコーダのみの検出器も開発しています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:36:27 GMT)
Prior2Former -- Evidential Modeling of Mask Transformers for Assumption-Free Open-World Panoptic Segmentation [74.6] 顕在学習に根ざしたセグメンテーション・ビジョン・トランスフォーマの最初のアプローチである Prefer2Former (P2F) を提案する。
P2Fは、ピクセル単位のバイナリマスク割り当てにおいて、モデル不確実性を計算するためのベータを組み込むことで、マスクビジョントランスフォーマーアーキテクチャを拡張している。
未知のクラスに対処するほとんどのセグメンテーションモデルとは異なり、P2FはOODデータサンプルへのアクセスや、ヴォイド(ラベルなし)クラスに対する対照的なトレーニングなしで動作する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:25:45 GMT)
Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [71.6] MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:55:30 GMT)
GRASPing Anatomy to Improve Pathology Segmentation [68.0] 本稿では,病的セグメンテーションモデルを強化するモジュール型プラグイン・アンド・プレイフレームワークGRASPを紹介する。
2つのPET/CTデータセット上でGRASPを評価し、系統的アブレーション研究を行い、フレームワークの内部動作について検討する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:26:36 GMT)
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.7] 大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:47:50 GMT)
RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.5] 本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。
各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。
RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:50:29 GMT)
Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.8] スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。
性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。
本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:03:12 GMT)
GOBench: Benchmarking Geometric Optics Generation and Understanding of MLLMs [66.6] 本稿では,光学的認証画像の生成と光現象の理解という,MLLMの能力を評価する最初のベンチマークであるGOBenchを紹介する。
MLLMを用いてGOBench-Gen-1kデータセットを構築し,光学的正当性,審美的品質,インストラクション忠実度に基づいて生成した画像を評価する。
本研究は,11個の著名なMLLMの光学的理解能力をテストするために,工芸的な評価手法を適用し,実験結果から,光学的生成と理解の両方において,現在のモデルが重大な課題に直面していることが示されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:17:28 GMT)
UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying [64.5] 画像編集機能を備えた統合VLMを実現するために,UniEdit-Iという新しいトレーニングフリーフレームワークを導入する。
我々は最新のBLIP3-oに基づいて提案手法を実装し,GEdit-BenchベンチマークでSOTA(State-of-the-art)性能を達成した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:42:09 GMT)
IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.5] ブラックボックス・ジェイルブレイク攻撃のための悪意ある画像テキストペアを自律的に生成する新しいジェイルブレイク手法であるIDEATORを提案する。
実験では、IDEATORは平均5.34クエリでMiniGPT-4をジェイルブレイクする際に94%の攻撃成功率(ASR)を達成した。
IDEATORの強い転送性と自動化プロセスに基づいて,3,654個のマルチモーダルジェイルブレイクサンプルからなる安全性ベンチマークであるVLJailbreakBenchを紹介した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:11:25 GMT)
Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.1] 本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:33:39 GMT)
NoWag: A Unified Framework for Shape Preserving Compression of Large Language Models [63.3] 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示す。
LLMは膨大な計算量とメモリ需要に悩まされており、リソース制約のある環境への展開を制限している。
Normalized Weight and Activation Guided Compression (Normalized Weight and Activation Guided Compression) をゼロショット形状保存圧縮アルゴリズムの統一フレームワークとして提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:07:48 GMT)
MultiHuman-Testbench: Benchmarking Image Generation for Multiple Humans [60.6] マルチヒューマンテストベンチ(MultiHuman-Testbench)は、マルチヒューマン生成のための生成モデルを厳格に評価するための新しいベンチマークである。
ベンチマークには1800のサンプルが含まれており、慎重にキュレートされたテキストプロンプトが含まれており、単純で複雑な人間の動作を記述している。
顔数,ID類似度,迅速なアライメント,行動検出を定量化するために,4つの重要な指標を用いた多面評価スイートを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:44:46 GMT)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.4] CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:15:41 GMT)
T2UE: Generating Unlearnable Examples from Text Descriptions [60.1] Unlearnable Examples (UEs) は、無許可のモデルトレーニングに対する有望な対策として登場した。
textbfText-to-Unlearnable Example (T2UE)は,テキスト記述のみを用いてUEを生成する新しいフレームワークである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:10:14 GMT)
PAC Apprenticeship Learning with Bayesian Active Inverse Reinforcement Learning [59.9] 逆強化学習(IRL)は、実証から好みを推測するための有望なアプローチを提供する。
PAC-EIGは情報理論の獲得機能で、学習ポリシーのほぼ正当性(PAC)を直接ターゲットとしている。
本手法は,見習い政策の後悔に関する情報の獲得を最大化し,さらなる実演を必要とする国家を効率的に同定する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:59:56 GMT)
SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision [59.6] Style-Aware Visual Early Revision SAVERはトークンレベルの視覚的注意パターンに基づいてLVLMの最終出力を動的に調整する新しいメカニズムである。
我々は,SAVERが様々なモデル,データセット,タスクの幻覚緩和において,最先端のパフォーマンスを達成することを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:41:25 GMT)
Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.5] この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:31:15 GMT)
Neutralizing Token Aggregation via Information Augmentation for Efficient Test-Time Adaptation [59.1] TTA(Test-Time Adaptation)は、視覚変換器(ViT)を追加のトレーニングデータなしで分散シフトに適応するための有効なソリューションとして登場した。
推論コストを削減するために、プラグイン・アンド・プレイのトークン・アグリゲーション手法はViTに冗長なトークンをマージし、全処理されたトークンを減らす。
我々はこの問題をETTA(Efficient Test-Time Adaptation)として定式化し、推論遅延を低減しつつTTAの適応性を維持する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:40:55 GMT)
What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.6] 音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:59:37 GMT)
Collab-Solver: Collaborative Solving Policy Learning for Mixed-Integer Linear Programming [57.4] StackelbergゲームとしてMILP問題解決のための新しいマルチエージェントベースのポリシー学習フレームワークを提案する。
具体的には,スタックルバーグゲームとしてMILP解法におけるカット選択と分岐の協調を定式化する。
共同学習されたポリシーは、合成および大規模実世界のMILPデータセットの問題解決性能を著しく向上させる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:16:04 GMT)
A First-order Generative Bilevel Optimization Framework for Diffusion Models [57.4] 拡散モデルは、データサンプルを反復的に分解して高品質な出力を合成する。
従来の二値法は無限次元の確率空間と禁制的なサンプリングコストのために失敗する。
我々はこの問題を生成的二段階最適化問題として定式化する。
従来の2段階法と拡散過程の非互換性を克服する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:27:52 GMT)
The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation [56.3] 本稿では,最適輸送代入を計算する際に,コスト行列に条件付き重み付け項を追加する条件付き最適輸送C2OTを提案する。
実験では、この単純な修正は8gaussian-to-moons、CIFAR-10、ImageNet-32x32、ImageNet-256x256の離散的条件と連続的条件の両方で動作することを示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:25:22 GMT)
Statistical Confidence Rescoring for Robust 3D Scene Graph Generation from Multi-View Images [56.1] セマンティックシーングラフ推定法は, 対象物, 述語, 関係性を正確に予測するために, 3Dアノテーションを利用する。
我々は、予測深度マップから、ノイズの多い擬似点ベース形状を克服し、マルチビュー画像の特徴に現れる背景雑音の量を削減した。
提案手法は,初期入力としてマルチビュー画像を純粋に用いた現在の手法より優れている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:25:50 GMT)
Personalize Your Gaussian: Consistent 3D Scene Personalization from a Single Image [56.1] 本稿では,3次元ガウス平滑化(CP-GS)の一貫性パーソナライゼーションについて述べる。
特にCP-GSは、事前訓練された画像から3D生成と反復的なLoRAファインチューニングを統合して、参照外観を抽出し拡張する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:48:08 GMT)
Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [56.0] マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:07:31 GMT)
GUI-ReRank: Enhancing GUI Retrieval with Multi-Modal LLM-based Reranking [55.8] GUI-ReRankは、高速な埋め込みに基づく制約付き検索モデルと、非常に効果的なMLLMベースのリグレード技術を統合する新しいフレームワークである。
提案手法を確立されたNLベースのGUI検索ベンチマークで評価した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:17:38 GMT)
READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.6] 本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:57:03 GMT)
AI4Research: A Survey of Artificial Intelligence for Scientific Research [55.5] 我々はAI for Research(AI4Research)に関する総合的な調査を行う。
まず、AI4Researchの5つの主要なタスクを分類する系統分類を導入する。
主要な研究ギャップを特定し、将来有望な方向性を明らかにする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:19:40 GMT)
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.1] 大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。
しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。
本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:29:19 GMT)
Diffusion Models with Adaptive Negative Sampling Without External Resources [54.8] ANSWERは、CFGをサポートするあらゆるモデルに適用可能な、トレーニング不要の技法であり、負のプロンプトを明示することなく、イメージ概念の負のグラウンド化を可能にする。
実験により、既存のDMにANSWERを追加することは、複数のベンチマークでベースラインよりも優れており、他の方法よりも人間の方が2倍多いことが示されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:45:54 GMT)
Who is a Better Player: LLM against LLM [53.5] 本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:41:47 GMT)
AdaBrain-Bench: Benchmarking Brain Foundation Models for Brain-Computer Interface Applications [52.9] 非侵襲的なBrain-Computer Interface(BCI)は、人間の脳を外部デバイスに接続する安全でアクセスしやすい手段を提供する。
近年,自己指導型プレトレーニングの導入により,非侵襲的BCI研究の展望が変化しつつある。
AdaBrain-Benchは、広範囲にわたる非侵襲的BCIタスクにおける脳基盤モデルを評価するための標準化されたベンチマークである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:09:19 GMT)
Optimal Quantum $(r,δ)$-Locally Repairable Codes From Matrix-Product Codes [52.4] 最適量子$(r,delta)$-LRCを行列積(MP)符号から検討する。
フレキシブルパラメータを持つ最適量子$(r,delta)$-LRCの5つの無限族を提示する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:05:14 GMT)
SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [52.3] ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:00:39 GMT)
Evo-MARL: Co-Evolutionary Multi-Agent Reinforcement Learning for Internalized Safety [52.1] マルチモーダルな大規模言語モデル上に構築されたマルチエージェントシステム(MAS)は、強力な協調と性能を示す。
Evo-MARLは、新しいマルチエージェント強化学習フレームワークで、全てのタスクエージェントが防御能力を共同で取得できる。
Evo-MARLは攻撃成功率を最大22%削減し、推論タスクの精度を最大5%向上させる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:26:55 GMT)
Hide and Seek with LLMs: An Adversarial Game for Sneaky Error Generation and Self-Improving Diagnosis [51.9] 本稿では,エラー生成と診断のための動的対向フレームワークであるHie and Seek Game (HSG)を提案する。
HSGには2つの敵対的役割がある: Sneakyは、微妙で偽りの推論エラーを発生させることで「隠す」ことと、それらを正確に検出するために「探す」診断である。
いくつかの数学推論タスクの実験では、HSGはエラー診断を著しく向上し、GPT-4oのようなベースラインよりも16.8%--31.4%高い精度を達成している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:45:21 GMT)
BriLLM: Brain-inspired Large Language Model [51.8] BriLLMは脳にインスパイアされた大きな言語モデルであり、生成言語モデリングの基礎を再定義する。
2B と 1B のパラメータを持つ中国語と英語の BriLLM バージョンをそれぞれリリースし,GPT-1 に匹敵する性能を実現した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:19:51 GMT)
Self-Questioning Language Models [51.8] 本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。
提案者と解答者はともに強化学習を通じて訓練される。
3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:51:33 GMT)
AlignCAT: Visual-Linguistic Alignment of Category and Attributefor Weakly Supervised Visual Grounding [51.7] 弱教師付きビジュアルグラウンドティングは、テキスト記述に基づいて画像中のオブジェクトを見つけることを目的としている。
既存の手法では、テキスト表現の微妙な意味的差異を区別するために、強力なクロスモーダル推論が欠如している。
本稿では、弱教師付きVGのための新しいクエリベースのセマンティックマッチングフレームワークAlignCATを紹介する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:16:35 GMT)
Divide-Then-Rule: A Cluster-Driven Hierarchical Interpolator for Attribute-Missing Graphs [51.1] ディープグラフクラスタリングは、不完全な属性を持つノードを異なるクラスタに分割することを目的とした教師なしのタスクである。
既存の属性欠落グラフの計算法は、ノード近傍で利用可能な情報の量が異なることを説明できないことが多い。
この問題に対処するために、DTRGC(Divide-Then-Rule Graph Completion)を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:10:42 GMT)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [51.0] 評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:55:24 GMT)
SAM2-UNeXT: An Improved High-Resolution Baseline for Adapting Foundation Models to Downstream Segmentation Tasks [51.0] SAM2-UNeXTはSAM2-UNetの中核となる原理を基盤とした高度なフレームワークである。
我々は、補助的なDINOv2エンコーダの統合によりSAM2の表現能力を拡張する。
我々のアプローチは、単純なアーキテクチャでより正確なセグメンテーションを可能にし、複雑なデコーダ設計の必要性を緩和する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:36:13 GMT)
ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark [50.9] 有害なコンテンツ検出のための既存のリソースは、主に英語に重点を置いており、中国のデータセットは乏しく、スコープは限られている。
我々は,6つの代表的なカテゴリを網羅し,実世界のデータから構築した,中国のコンテンツ害検知のための包括的,専門的な注釈付きベンチマークを提案する。
本研究では,人間の注釈付き知識規則と大規模言語モデルからの暗黙的知識を統合した知識強化ベースラインを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:58:05 GMT)
Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation [50.4] 現在の自己回帰拡散モデルは、ビデオ生成時に優れるが、一般的には短時間の時間に限られる。
長期ビデオ生成のためのマクロからマイクロプランニング(MMPL)を主眼としたプランニング・テーマ・ポピュレーション・フレームワークを提案する。
MMPLは、マイクロプランニングとマクロプランニングという2つの階層的なステージを通じて、ビデオ全体のグローバルなストーリーラインをスケッチします。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:21:54 GMT)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.4] Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:08:38 GMT)
Neuro-3D: Towards 3D Visual Decoding from EEG Signals [49.5] 脳波信号から3次元視覚知覚を復号する新しい神経科学タスクを導入する。
まず、ビデオと画像の両方でレンダリングされた72の3Dオブジェクトのカテゴリを閲覧する12人の被験者から、マルチモーダル分析データと脳波記録を含むデータセットであるEEG-3Dを提示する。
脳波信号に基づく3次元視覚デコーディングフレームワークNeuro-3Dを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:37:15 GMT)
CardiffNLP at CLEARS-2025: Prompting Large Language Models for Plain Language and Easy-to-Read Text Rewriting [49.4] 本稿では、CardiffNLPチームのCLEARS共有タスクへの貢献について詳述する。
多数の急激なバリエーション、例、実験結果について詳述する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:16:19 GMT)
Bridging LLMs and KGs without Fine-Tuning: Intermediate Probing Meets Subgraph-Aware Entity Descriptions [49.4] 大規模言語モデル(LLM)は、幅広い世界の知識をカプセル化し、強力なコンテキストモデリング能力を示す。
実効的で効率的なKGCを実現するために,LLMの強みを頑健な知識表現と相乗化するための新しいフレームワークを提案する。
従来手法に比べて47%の相対的な改善を達成し,我々の知る限り,ファインチューニング LLM に匹敵する分類性能を初めて達成した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:56:40 GMT)
VAE-DNN: Energy-Efficient Trainable-by-Parts Surrogate Model For Parametric Partial Differential Equations [49.2] 本稿では, 前方および逆パラメータ化非線形偏微分方程式を解くための, トレーニング可能な各部分サロゲートモデルを提案する。
提案手法はエンコーダを用いて高次元の入力$y(bmx)$を低次元の潜在空間である$bmmu_bmphi_y$に還元する。
完全連結ニューラルネットワークを用いて、Pの潜伏空間に$bmmu_bmphi_y$、$bmmu_bmphi_h$をマッピングする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:37:32 GMT)
Performance and Storage Analysis of CRYSTALS Kyber as a Post Quantum Replacement for RSA and ECC [49.2] CRYSTALS-Kyberは、2022年にNISTによって標準化されたポスト量子暗号ソリューションである。
本研究は,様々な実装方式における性能試験を通じて,Kyberの実用可能性を評価する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:45:03 GMT)
EgoPrompt: Prompt Pool Learning for Egocentric Action Recognition [49.1] EgoPromptは、エゴセントリックな行動認識タスクを実行するための、素早い学習ベースのフレームワークである。
EgoPromptは、内部データセット、クロスデータセット、ベース・ツー・ノーベルの一般化ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:47:07 GMT)
Neovascularization Segmentation via a Multilateral Interaction-Enhanced Graph Convolutional Network [48.8] 本稿では,新しい多面グラフ畳み込み相互作用型CNVセグメンテーションネットワーク(MTG-Net)を提案する。
MTG-Netはマルチタスクフレームワークと2つのグラフベースのクロスタスクモジュールで構成されている。
実験の結果、MTG-Netは既存の手法よりも優れており、領域分割は87.21%、血管分割は88.12%である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:10:19 GMT)
GeoShield: Safeguarding Geolocation Privacy from Vision-Language Models via Adversarial Perturbations [48.8] VLM(Vision-Language Models)は、パブリック共有画像からユーザの位置を推測し、ジオプライバシーに重大なリスクをもたらす。
実世界のシナリオにおいて,ロバストなジオプライバシー保護のために設計された,新しい敵対的フレームワークであるGeoShieldを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:37:06 GMT)
LMME3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs [48.5] LMME3DHFは3DHFの評価基準として,品質および信頼性スコア予測,歪み認識型視覚質問応答,歪み認識型サリエンシ予測を提案する。
実験結果から, LMME3DHFは, 従来の手法を上回り, 人間の顔の精度を正確に予測できることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:26:01 GMT)
BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [48.2] 現在のEEG/MEG-to-textデコーディングシステムには3つの重要な制限がある。
BrainECHOは、分離された表現学習を利用する多段階フレームワークである。
BrainECHOは文、セッション、主題に依存しない条件をまたいだ堅牢性を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:59:44 GMT)
Enhancing Spectral Graph Neural Networks with LLM-Predicted Homophily [48.1] スペクトルグラフニューラルネットワーク(SGNN)は,ノード分類などのタスクにおいて顕著な性能を実現している。
本稿では,Large Language Models (LLMs) を利用してグラフのホモフィリーレベルを推定する新しいフレームワークを提案する。
我々のフレームワークは、強力なSGNNベースラインよりもパフォーマンスを継続的に改善します。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:35:26 GMT)
After the Party: Navigating the Mapping From Color to Ambient Lighting [48.0] CL3ANは,この種の大規模かつ高解像度なデータセットである。
先導的なアプローチは、照明の不整合、テクスチャリーク、色歪みなどのアーティファクトをしばしば生み出す。
我々は、新しい学習フレームワークを通じて、そのような所望の分解を実現する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:52:10 GMT)
PRE-Mamba: A 4D State Space Model for Ultra-High-Frequent Event Camera Deraining [47.8] イベントカメラは高時間分解能とダイナミックレンジで優れるが、降雨条件下では高密度ノイズに悩まされる。
イベントデライニングのための新しいポイントベースカメラフレームワークであるPre-Mambaを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:20:24 GMT)
Bernoulli-LoRA: A Theoretical Framework for Randomized Low-Rank Adaptation [46.7] 我々は既存のLoRAアプローチを統合する新しい理論フレームワークであるBernoulli-LoRAを紹介する。
本手法は,理論的トラクタビリティを維持しつつ,既存の更新戦略を理論的に包含する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:09:55 GMT)
Constraint-Preserving Data Generation for Visuomotor Policy Learning [46.6] 我々は、単一の専門家軌道を用いて、新しいオブジェクトジオメトリとポーズを含むロボットデモを生成する。
これら生成されたデモは、ゼロショットを現実世界に転送するクローズドループビジュモータポリシーのトレーニングに使用される。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:20:02 GMT)
Large Learning Rates Simultaneously Achieve Robustness to Spurious Correlations and Compressibility [46.2] 高い学習率を高い相関性とネットワーク圧縮性を同時に達成するためのファシリテータとして同定する。
大規模な学習速度は、不変特徴利用、クラス分離、アクティベーション空間といった望ましい表現特性を生成する。
この現象のメカニズムを調査した結果,大きな学習率下での偏りを伴うサンプルの確実な誤予測の重要性が示唆された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:46:33 GMT)
Recommending With, Not For: Co-Designing Recommender Systems for Social Good [46.0] 社会的善の改善を目的としたレコメンデーターシステムは、利益と害を経験する人々だけでなく、** と *with* によって設計されるべきである、と我々は主張する。
推奨システムは、ユーザ、クリエーター、その他のステークホルダーと完全な共同設計者として協調して設計されるべきです。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:50:39 GMT)
Scaling Up Audio-Synchronized Visual Animation: An Efficient Training Paradigm [46.0] そこで本研究では,音声同期型ビジュアルアニメーションを,豊富なノイズのあるビデオでスケールアップするための,効率的な2段階トレーニングパラダイムを提案する。
ステージ1では,事前学習のための大規模ビデオを自動的にキュレートし,多様だが不完全なオーディオ映像アライメントを学習する。
ステージ2では、手作業による高品質な例でモデルを微調整するが、小規模でしかなく、必要な人的労力を大幅に削減する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:44:36 GMT)
Listening to the Unspoken: Exploring "365" Aspects of Multimodal Interview Performance Assessment [45.9] インタビューパフォーマンスの365の側面を探求する,斬新で包括的なフレームワークを提案する。
このフレームワークは、不均一なデータストリームをエンコードするために、モダリティ固有の特徴抽出器を使用する。
提案手法は,マルチモーダルデータから暗黙の手がかりと暗黙の手がかりを抽出する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:29:09 GMT)
GTPO: Trajectory-Based Policy Optimization in Large Language Models [45.8] 政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:15:01 GMT)
EmbedGrad: Gradient-Based Prompt Optimization in Embedding Space for Large Language Models [45.8] グラデーションベースのリファインメントによるテキストプロンプト埋め込みを最適化するフレームワークであるEmbedGradを提案する。
当社のアプローチは,デプロイメントからトレーニングを分離するものです。
数学的推論、感情分析、因果判断タスクの総合的な評価は、EmbedGradの有効性を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:03:10 GMT)
LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training [45.7] 大規模言語モデル(LLM)は、入力が事前学習されたコンテキストウインドウを超えると、大幅な性能低下を経験する。
近年の研究では、OOD位置を固定写像戦略で分配範囲に再配置することでこの問題を緩和している。
本研究では,Longth-aware Multi-grained Positional Scaling (LaMPE)を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:16:08 GMT)
La La LiDAR: Large-Scale Layout Generation from LiDAR Data [45.5] 現実的なLiDARシーンの制御可能な生成は、自律運転やロボット工学といった応用に不可欠である。
レイアウト誘導型大規模LiDAR生成モデル(La La LiDAR)を提案する。
La La LiDARは、LiDAR生成と下流認識の両方で最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:59:55 GMT)
A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models [45.1] Webのコンテキストでは、退屈な日々のタスクを扱う人々を支援するために、AI Agents -- WebAgents -- を活用することで、生産性と効率が劇的に向上する。
LFMの可能性を十分に探求するために、ユーザの指示に従って日々のWebタスクを完了させるように設計されたWebAgentsに広範な研究が登場した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:47:41 GMT)
Beyond Isolated Words: Diffusion Brush for Handwritten Text-Line Generation [45.1] DiffBrushは手書きテキストライン生成のための新しい拡散ベースモデルである。
2つの重要な戦略を通じて、スタイルの模倣とコンテンツの正確さの両面で優れている。
実験によると、DiffBrushは高品質なテキスト行を生成するのに優れている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:34:06 GMT)
CHARM: Collaborative Harmonization across Arbitrary Modalities for Modality-agnostic Semantic Segmentation [44.5] Modality-Agnostic Semantic (MaSS) は入力モダリティの任意の組み合わせにまたがる堅牢なシーン理解の実現を目的としている。
我々は、モダリティに特有な利点を保ちつつ、暗黙的にコンテンツをアライメントする新しい補完学習フレームワークであるCHARMを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:10:51 GMT)
V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction [44.4] V2X(Valby-to-everything)技術は、単一車両システムにおける制限された可観測性の制限を提供する。
我々は,1段階,複数段階の通信戦略(送信時)に焦点を当て,その統合を3つの融合戦略で検討する。
我々のフレームワークは、認識タスクと予測タスクの両方において最先端の手法より優れています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:48:49 GMT)
Efficient Time Series Processing for Transformers and State-Space Models through Token Merging [44.3] コンピュータビジョンアーキテクチャにおける計算効率を向上させるソリューションとして、トークンマージが登場している。
局所的マージとは、局所的な領域内でトークンを選択的に結合する、ドメイン固有のトークンマージアルゴリズムである。
総合的な実証実験により,局所的なマージは精度に最小限の影響を伴って,実質的な効率向上をもたらすことが示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:39:31 GMT)
Byte Pair Encoding for Efficient Time Series Forecasting [44.3] 既存の時系列トークン化法は主に、一定の数のサンプルを個々のトークンにエンコードする。
バイトペア符号化の成功に触発されて、時系列解析のための最初のパターン中心トークン化スキームを提案する。
本手法は, 頻繁なモチーフの個別語彙に基づいて, 基本パターンをトークンにマージし, 時系列を適応的に圧縮する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:23:07 GMT)
From Text to Trajectories: GPT-2 as an ODE Solver via In-Context [44.2] In-Context Learning (ICL)は、大規模言語モデル(LLM)における新しいパラダイムとして登場した。
本稿では, LLM が通常の微分方程式(ODE)を ICL 設定下で解くことができるかどうかを検討する。
2種類のODEの実験により、GPT-2はEuler法と同等かそれ以上の収束挙動を持つメタODEアルゴリズムを効果的に学習できることが示されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:16:37 GMT)
A Survey of Conversational Search [44.1] 会話検索における最近の進歩と今後の方向性について検討する。
これらのシステムの拡張において,大規模言語モデル(LLM)の統合を強調した。
我々は,現実のアプリケーションに対する洞察と,現在の対話型検索システムの堅牢な評価を提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:18:07 GMT)
UniDet-D: A Unified Dynamic Spectral Attention Model for Object Detection under Adverse Weathers [44.0] 各種気象条件下での物体検出に挑戦する統合フレームワークUniDet-Dを提案する。
具体的には、UniDet-Dは、非関連成分を抑えつつ、情報的スペクトル成分を適応的に強調するダイナミックスペクトルアテンション機構を組み込んでいる。
広汎な実験により、UniDet-Dは各種の悪天候劣化に対して優れた検出精度が得られることが示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:43:14 GMT)
Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation [43.7] 本稿では,DINOv2の空間的精度とCLIPの言語理解を組み合わせた,新しいハイブリッドアプローチであるTalk2DINOを提案する。
本研究では,Talk2DINOの強力なセマンティック・ローカライゼーション能力によってセグメンテーションのプロセスが強化されることを示す。
実験の結果、Talk2DINOは教師なしのOVSベンチマークで最先端のパフォーマンスを達成した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:26:14 GMT)
CTR-Sink: Attention Sink for Language Models in Click-Through Rate Prediction [42.9] $textitCTR-Sink$は、レコメンデーションシナリオに適した振る舞いレベルの注意シンクを導入した、新しいフレームワークである。
注意シンク理論にヒントを得て、注意集中シンクを構築し、外部情報を介して注意集約を動的に制御する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:30:34 GMT)
Can Performant LLMs Be Ethical? Quantifying the Impact of Web Crawling Opt-Outs [42.6] 私たちはこの効果を$textitdata compliance gap$ (DCG)として概念化します。
1.5Bモデルを用いた実験の結果,2025年1月現在,Webデータオプトアウトの遵守は一般知識獲得を損なうものではないことがわかった。
しかし、医学研究などの専門分野では、大手出版社を除くと性能が低下する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:55:24 GMT)
Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration [42.2] オープンヒューマンオブジェクトインタラクション(HOI)は、人間とオブジェクト間のインタラクションを検出することを目的としている。
現在の手法はビジョンと言語モデル(VLM)に頼っていることが多いが、最適な画像エンコーダによる課題に直面している。
Interaction-aware Prompting with Concept (INP-CC) を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:33:58 GMT)
JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers [41.8] RGBと深さの関節分布をモデル化した拡散変圧器であるJointDiTを提案する。
JointDiTは高忠実度画像を生成するが、幾何学的に可視で正確な深度マップも生成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:00:04 GMT)
Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer [41.3] Diffusion Transformer (DiT) モデルは3Dフルアテンションを使用し、時間的・空間的な情報を明示的に分離しない。
本稿では,動き伝達能力を向上させるためにDiTモデルを適用するDeTを提案する。
提案手法では, 時間次元に沿って円滑なDiT機能を実現するために, 単純で効果的な時間的カーネルを導入する。
また,動作の整合性を高めるために,潜在特徴空間における高密度軌跡に沿った明示的な監督も導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:28:05 GMT)
Exploring Stability-Plasticity Trade-offs for Continual Named Entity Recognition [41.1] CNER(Continuousal Named Entity Recognition)のためのSPT(Stable-Plasticity Trade-off)手法を提案する。
表現の観点からは,元のKDにプーリング操作を導入し,表現次元を統一することで可塑性のレベルを実現する。
重みの観点からは、古いモデルと新しいモデルの重みを動的にマージし、新しい知識を維持しながら古い知識を強化する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:35:55 GMT)
Beyond Images: Adaptive Fusion of Visual and Textual Data for Food Classification [40.9] このフレームワークはUPMC Food-101データセットで厳格に評価され、画像の73.60%、テキストの88.84%の単調な分類精度を達成した。
両方のモダリティが融合されたとき、このモデルは97.84%の精度を達成し、いくつかの最先端の手法を上回った。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:28:35 GMT)
VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting [40.8] 視覚言語行動(VLA)モデルは、自然言語で案内されるロボット操作タスクにおいて優れた性能を示している。
現在のVLAモデルは、2つの欠点に悩まされている: (i) 高い推論遅延とトレーニングコストの増加につながる大量のトークンの生成、 (ii) 生成されたアクションの不十分な利用により性能が低下する。
並列性の高いアクショントークンを生成するために,VLAモデルを微調整するトレーニングフレームワークを開発し,推論遅延とトレーニングコストを効果的に低減する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:02:26 GMT)
SSFMamba: Symmetry-driven Spatial-Frequency Feature Fusion for 3D Medical Image Segmentation [40.7] 3次元医用画像分割のためのシンメトリー駆動型空間周波数特徴融合ネットワークであるSSFMambaを提案する。
SSFMambaは、空間領域と周波数領域の両方から特徴を抽出する補完的な二重ブランチアーキテクチャを採用している。
周波数領域分岐では、マンバの異常な能力を利用して、グローバルな文脈情報を抽出する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:36:04 GMT)
OmniShape: Zero-Shot Multi-Hypothesis Shape and Pose Estimation in the Real World [40.6] 確率的ポーズと形状推定を可能にする手法として,OmniShapeを提案する。
実世界のデータセットに挑戦する上で、魅力的なパフォーマンスを示します。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:30:41 GMT)
Principled Foundations for Preference Optimization [40.6] 直接選好最適化(DPO)はML文脈における2つの主要な理論間の関係の非常に特異な形式であることを示す。
この関係は、サヴェージの損失の全てと、このレベルの一般性の優先のために確立されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:18:32 GMT)
Knowledge Distillation for Underwater Feature Extraction and Matching via GAN-synthesized Images [40.4] 水パラメータと水中雑音分布を推定する適応的なGAN合成法を提案する。
次に、異なる教師モデルと互換性のある一般知識蒸留フレームワークを導入する。
VSLAMは、転送されたモデルの有効性を検証するために、実際の水中シークエンスに使用される。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:19:41 GMT)
Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers [40.4] HIN(Hidden in the Noise)は、微妙でオーディオ特有の機能を活用するために設計された、新しいバックドアアタックフレームワークである。
HINは、時間的ダイナミクスの変更やスペクトル調整されたノイズの戦略的注入など、生のオーディオ波形に音響的修正を適用している。
音声機能に基づくトリガに対するALLMロバスト性を評価するため、AudioSafeベンチマークを開発し、9つの異なるリスクタイプを評価する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:45:30 GMT)
QPing: a Quantum Ping Primitive for Quantum Networks [40.4] 将来の量子ネットワークの診断プリミティブとして量子ピン(QPing)の概念を導入する。
我々は、QPingのための正式なフレームワークを開発し、シーケンシャル仮説テストのような様々なツールを活用する。
我々は,経路ベースとセグメントベースを併用したアクティブ戦略や,事前に共有されたリソースを利用するパッシブ戦略など,いくつかの戦略を提示する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:00:06 GMT)
H3R: Hybrid Multi-view Correspondence for Generalizable 3D Reconstruction [39.2] H3Rは、潜在融合と注目に基づく機能集約を統合するハイブリッドフレームワークである。
両パラダイムを統合することで,既存手法よりも2$times$高速に収束しながら,一般化が促進される。
本手法は,ロバストなクロスデータセットの一般化を実証しながら,可変数および高分解能な入力ビューをサポートする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:56:30 GMT)
Multilingual Performance Biases of Large Language Models in Education [39.1] 大規模言語モデル(LLM)は、教育環境においてますます採用されている。
この研究は、非英語の教育環境での使用が保証されているかどうかを確かめるものである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:55:35 GMT)
Far from Perfect: Quantum Error Correction with (Hyperinvariant) Evenbly Codes [38.7] Evenbly コードと呼ばれる新しいクビット符号のクラスを導入します。
我々の研究は、イブリー符号が実用的な量子コンピューティングアプリケーションにとって有望であることを示している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:32:24 GMT)
ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems [38.6] 大規模マルチモーダルモデル(LMM)は自律運転システム(ADS)において有望であることを示す
本稿では,モデル動作のターゲット変更を,完全なリトレーニングを必要とせずに行える知識編集手法を提案する。
ADSに特化して設計されたマルチモーダル知識編集データセットであるADS-Editを紹介する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:00:20 GMT)
WSI-LLaVA: A Multimodal Large Language Model for Whole Slide Image [38.0] ギガピクセルのWSI理解のためのフレームワークであるWSI-LLaVAを3段階のトレーニングアプローチで紹介する。
実験の結果、WSI-LLaVAはすべての能力範囲で既存のモデルより優れています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:25:03 GMT)
Aerobatic maneuvers in insect-scale flapping-wing aerial robots via deep-learned robust tube model predictive control [38.0] 航空昆虫は、鋭い制動、ササード、身体のフリップのような非常に機敏な行動を示す。
昆虫のようなササードの動きを示し, 横速度と加速速度は1秒あたり197センチメートル, 1秒あたり1.7メートルであった。
ロボットはまた、秒速160cm以下でのササード操作や、大きなコマンド・ツー・フォースのマッピングエラーを実行することもできる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:40:11 GMT)
ChartCap: Mitigating Hallucination of Dense Chart Captioning [38.0] ChartCapは、565Kの現実世界のグラフ画像と、タイプ固有で密度の高いキャプションを組み合わせた大規模なデータセットである。
ChartCapを構築するために、チャートから識別可能なデータのみを使用してキャプションを生成する4段階のパイプラインを設計する。
本稿では,キャプションから再生したチャートと元のチャートとの類似度を測定し,キャプションの品質を評価する新しいメトリクスであるビジュアル一貫性スコアを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:09:07 GMT)
GACL: Grounded Adaptive Curriculum Learning with Active Task and Performance Monitoring [38.0] グラウンドド・アダプティブ・カリキュラム・ラーニング(英語: Grounded Adaptive Curriculum Learning)は、ロボティクスのカリキュラム学習用に設計されたフレームワークである。
複雑なロボットタスク設計を一貫して扱うタスク表現を提案する。
また,ロボットの現在の能力に適合した適応型カリキュラム生成を可能にする能動的性能追跡機構を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:32:37 GMT)
Duplex-GS: Proxy-Guided Weighted Blending for Real-Time Order-Independent Gaussian Splatting [37.2] 本稿では、プロキシガウス表現と順序に依存しないレンダリング技術を統合する二重階層フレームワークを提案する。
我々は、我々のフレームワークとオーダー独立透明性(OIT)をシームレスに組み合わせることで、物理的にインスパイアされた重み付けされた和レンダリング技術を開発し、同時に「ポーピング」と「透明性」アーティファクトを除去する。
提案手法は,既存のOITをベースとしたガウス版よりも1.5~4倍高速で高品質なレンダリングを実現し,ガウス版におけるOITレンダリングの利点を検証した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:44:30 GMT)
Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition [36.7] Trokensは、トラジェクトリポイントをアクション認識のための意味認識型リレーショナルトークンに変換する新しいアプローチである。
本研究では, 軌跡のヒストグラム(Histogram of Oriented Displacements, HoD)と, 複雑な行動パターンをモデル化するための軌跡間関係(inter-trajectory relationship)により, 軌道内力学を捉える運動モデリングフレームワークを開発した。
提案手法は,これらのトラジェクトリトークンとセマンティックな特徴を効果的に組み合わせて,動作情報による外観特徴の向上と,6つの多種多様なアクション認識ベンチマークにおける最先端性能の実現を実現する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:59:58 GMT)
Personalized Recommendation of Dish and Restaurant Collections on iFood [36.2] REDは、ラテンアメリカ最大のオンデマンドフードデリバリープラットフォームであるiFood向けに設計された自動レコメンデーションシステムである。
本手法では,3つの特徴群(コレクション特性,ユーザ・コレクションの類似性,コンテキスト情報)に基づいて,コレクションをスコアするLightGBM分類器を用いる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:34:19 GMT)
The Open DAC 2025 Dataset for Sorbent Discovery in Direct Air Capture [36.1] Open DAC 2025 (ODAC) はODAC23 (Sriram et al., ACS Central Science, 10 (2024) 923の大幅な拡張と改良である。
ODACは、機能化されたMOF、高エネルギーGCMC由来の配置、および合成生成フレームワークを通じて、化学および構成の多様性を導入する。
我々は、ODAC25で訓練された最先端の機械学習型原子間ポテンシャルを新たにリリースし、ヘンリーの法則予測に基づいて評価する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:08:01 GMT)
Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images [36.1] スパース2Dビューから3Dシーンを再構築し、意味的に解釈することは、コンピュータビジョンの根本的な課題である。
本稿では,オープンな語彙意味論に富んだ統一された3次元シーン表現を共同で再構築する,新しいフィードフォワードフレームワークであるUni3Rを紹介する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:54:55 GMT)
ELFuzz: Efficient Input Generation via LLM-driven Synthesis Over Fuzzer Space [36.0] ジェネレーションベースのファジリングは、入力文法とテストシステムとソフトウェアに対する意味制約の仕様に従って適切なテストケースを生成する。
本稿では,LLMによるファジィ空間上でのファジィ合成により,テスト対象システム(SUT)に適合した生成系ファジィを自動で合成するELFuzzを提案する。
ELFuzz canは,従来のアプローチと比較して,1)実世界のSUT – 評価において最大1,791,104行のコード – にシームレスにスケールし,2) 興味深い文法構造と人間の理解可能な方法でセマンティック制約をキャッチする効率的なファッジャを合成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:21:37 GMT)
Unifying Locality of KANs and Feature Drift Compensation for Data-free Continual Face Forgery Detection [35.9] Kolmogorov-Arnold Networks (KAN) は、その活性化機能として、局所的なプラスチックスプラインを利用している。
本稿では,DG-KD(Domain-Group Kan Detector)とKan Drift Compensation Projection(FS-KDCP)によるデータフリーリプレイ特徴分離戦略を含む,KAN-CFD(Continual Face Forgery Detection)フレームワークを提案する。
実験結果から,提案手法は特に忘れを少なくしながら優れた性能を発揮することが示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:56:21 GMT)
SlotMatch: Distilling Temporally Consistent Object-Centric Representations for Unsupervised Video Segmentation [35.6] 本稿では,オブジェクト中心の表現を軽量な学生に効果的に伝達する知識蒸留フレームワークを提案する。
提案したフレームワークは、SlotMatchと呼ばれ、コサインの類似性を通じて、対応する教師と生徒のスロットを調整する。
2つのデータセットで実験を行い、最先端の教師モデルであるSlotContrastと蒸留した学生を比較した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:58:09 GMT)
Semantic-aware Graph-guided Behavior Sequences Generation with Large Language Models for Smart Homes [35.4] SmartGenは、コンテキスト対応のユーザ行動データを合成して、下流のスマートホームモデルの継続的な適応をサポートするフレームワークである。
SmartGenは、振る舞いドリフト時の異常検出と振る舞い予測タスクにおけるモデルパフォーマンスを著しく向上する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:16:10 GMT)
Sotopia-RL: Reward Design for Social Intelligence [35.3] 強化学習(Reinforcement Learning, RL)は、社会的に知的なエージェントの訓練に適している。
社会的相互作用には、RLトレーニングの障壁となる2つの重要な特徴がある。
粗いエピソードレベルのフィードバックを発話レベルの多次元報酬に緩和する新しいフレームワークであるSotopia-RLを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:43:42 GMT)
BRIDGE: Bootstrapping Text to Control Time-Series Generation via Multi-Agent Iterative Optimization and Diffusion Modeling [35.2] 時系列生成(TSG、Time-Series Generation)は、シミュレーション、データ拡張、および反事実分析に広く応用された、顕著な研究分野である。
我々は、テキストが意味的な洞察、ドメイン情報、インスタンス固有の時間パターンを提供し、TSGをガイドし改善することができると論じている。
BRIDGEはテキスト制御型TSGフレームワークで,テキスト記述とセマンティックプロトタイプを統合し,ドメインレベルのガイダンスをサポートする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:32:15 GMT)
HPSv3: Towards Wide-Spectrum Human Preference Score [35.1] 我々は、1.08Mのテキストイメージペアと1.17Mの注釈付きペアワイズ比較を統合した、初めてのワイドスペクトルヒトの嗜好データセットをリリースする。
微粒なランク付けのための不確実性認識ランキング損失を用いて訓練されたVLMに基づく選好モデルを提案する。
さらに,余分なデータなしで品質を向上させる反復画像改善法であるChain-of-Human-Preference (CoHP)を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:17:13 GMT)
Dynamic 2D Gaussians: Geometrically Accurate Radiance Fields for Dynamic Objects [35.0] D-2DGS(Dynamic 2D Gaussian)と呼ばれるスパース画像入力から正確なメッシュを再構築できる新しい表現を提案する。
レンダリングされた高画質画像からオブジェクトマスクを抽出し、描画された深度マップをマスキングすることにより、再構築時に発生する傾向のあるフローターを除去する。
我々のD-2DGSはスパース入力から詳細でスムーズな高品質メッシュを再構築するのに優れていることを示す実験である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:42:07 GMT)
PositionIC: Unified Position and Identity Consistency for Image Customization [34.9] 最近の被写体駆動画像のカスタマイズは、忠実度において顕著な進歩を遂げているが、細粒度のインスタンスレベルの空間制御はいまだ解明されていない。
この制限は主に、アイデンティティと正確な位置の手がかりを結合するスケーラブルなデータセットがないためである。
マルチオブジェクトのカスタマイズのための位置とアイデンティティの整合性を実現する統合フレームワークであるPlaceICを導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:28:24 GMT)
Reliable Evaluation Protocol for Low-Precision Retrieval [34.7] スコア変動を低減するために,より堅牢な検索評価プロトコルを提案する。
本研究は,(1)計算コストを最小に抑えるため最終採点段階を高い精度に引き上げるHPS(High-Precision Scoring),(2)予測スコア,範囲,偏差を報告するTRM(Tie-Aware Retrieval Metrics)から構成される。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:27:57 GMT)
UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation [34.6] Cued Speech (CS) は、手書きによる唇読取を強化し、聴覚障害者の正確な音声知覚を支援する視覚的音声手がかりを提供する。
CSビデオ音声生成(CSV2S)の課題は,CS動画を音声信号に変換することである。
中間テキストに頼ることなくCSビデオから直接音声を生成する最初のCSV2SであるUniCUEを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:57:37 GMT)
EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering [34.6] EmoSteer-TTSは、きめ細かい音声感情制御を実現するための、新しい訓練不要のアプローチである。
EmoSteer-TTSは、音声感情のきめ細かな、解釈可能な、連続的な制御を可能にし、最先端(SOTA)よりも優れている
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:12:49 GMT)
LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Text-to-Image Generation [34.1] トレーニング後の量子化(PTQ)は、メモリ使用量を減らすとともに、推論を高速化する有望なソリューションである。
既存のPTQ手法は、極端に低ビット設定下での厳しい性能劣化に悩まされる。
本稿では,効率的なPTQフレームワークであるLRQ-DiTを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:16:11 GMT)
What If, But Privately: Private Counterfactual Retrieval [34.1] 透明性と説明可能性は、ブラックボックス機械学習モデルを高精細なアプリケーションに採用する際に考慮すべき重要な2つの側面である。
反事実的説明を提供することは、この要件を満たす一つの方法であるが、説明を提供する機関のプライバシーと、それを要求している利用者に脅威を与える。
本フレームワークは,利用者の完全かつ情報理論的,プライバシーを達成しつつ,受理点のデータベースから最も近い近隣の偽説明を検索する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:51:01 GMT)
RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm [34.0] Contrastive Language-Image Pre-Training (CLIP)は、様々なベンチマークで有望なパフォーマンスを示す。
マルチモーダルなインターリーブド文書のかなりの量は、コントラッシブな視覚言語表現学習に使われていない。
高品質な画像やテキストを抽出するリアルタイムデータ抽出パイプラインを構築した。
そして,各画像と複数の意味的関連現実的テキストを効率的に関連付ける階層的検索手法を設計する。
リアルテキストと合成テキストを組み合わせたデータセットであるRealSynを構築し,15M,30M,100Mの3つのスケールで利用可能である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:24:55 GMT)
RIVAL: Reinforcement Learning with Iterative and Adversarial Optimization for Machine Translation [33.8] 大規模言語モデル(LLM)は、強い多言語機能を有し、ヒューマンフィードバックからの強化学習と翻訳タスクを組み合わせることは大きな可能性を示している。
このパラダイムは、単語の字幕翻訳タスクに適用した場合、予期せぬ性能が低下するのを観察する。
本稿では,RM と LLM の間の min-max ゲームとしてプロセスを定式化する,対角的学習フレームワーク RIVAL を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:45:24 GMT)
Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.1] 本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:40:14 GMT)
CLIPPER: Compression enables long-context synthetic data generation [33.1] ナラティブなクレーム検証に適した合成データを生成するための圧縮ベースのアプローチであるCLIPPERを紹介する。
そこで本研究では,19万冊の合成本を,その原文とチェーン・オブ・シークレットの推論に組み合わせたデータセットを構築した。
我々の最良のモデルは、物語的クレーム検証(テストセットで28%から76%の精度)におけるブレークスルー結果を達成し、サブ10Bモデルの新たな最先端モデルを設定します。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:43:33 GMT)
Zero-Variance Gradients for Variational Autoencoders [32.8] 変分オートエンコーダ(VAE)のような深層生成モデルの訓練は、潜伏変数のサンプリングを通じて勾配をバックプロパゲートする必要性によって、しばしば妨げられる。
本稿では,この問題をサイドステップとして,Silent Gradientsと呼ぶ新しい視点を提案する。
推定器を改良する代わりに、特定のデコーダアーキテクチャを解析的に利用して予測されるELBOを計算する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:54:21 GMT)
GL-LCM: Global-Local Latent Consistency Models for Fast High-Resolution Bone Suppression in Chest X-Ray Images [32.2] 肺疾患診断のための胸部X線撮影(CXR)は、骨構造が正確な診断に必要な重要な詳細を曖昧にするため、大きな課題を提起する。
近年のディープラーニング、特に拡散モデルによる進歩は、CXR画像における骨構造の視認性を効果的に最小化するための重要な約束を提供する。
CXR画像における高速な高分解能骨抑制を実現するため,肺分画,デュアルパスサンプリング,グローバル局所核融合を組み合わせたGlobal-Local Latent Consistency Model (GL-LCM) アーキテクチャを導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:02:38 GMT)
DeepFaith: A Domain-Free and Model-Agnostic Unified Framework for Highly Faithful Explanations [31.7] 本稿では,忠実度を前提としたドメインフリーでモデルに依存しない統一的説明フレームワークを提案する。
複数の広く利用されている信頼度尺度の統一的な定式化を確立することにより、最適な説明目的を導出する。
DeepFaithは,すべての基準手法と比較して,10の指標において最も総合的な忠実性を実現していることを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:53:05 GMT)
Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning [31.5] 我々はQwen2.5-72B-Instructに基づくエージェントを訓練し、実世界のソフトウェア工学の課題を解決する。
提案手法は,SWE-bench Verifiedベンチマークにおけるエージェントの成功率を20%の微調整ベースラインから39%に向上させる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:30:47 GMT)
MegaWika 2: A More Comprehensive Multilingual Collection of Articles and their Sources [31.3] MegaWika 2はオリジナルのMegaWikaから大きくアップグレードされ、記事数は6倍、完全にスクラップされた引用の2倍になった。
MegaWikaとMegaWika 2はともにレポート生成研究を支援している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:18:17 GMT)
LightRetriever: A LLM-based Hybrid Retrieval Architecture with 1000x Faster Query Inference [31.0] 大規模言語モデル(LLM)に基づくテキスト検索は、ベクトル類似性に基づいて検索クエリに関連する文書を検索する。
非常に軽量なクエリエンコーダを備えた新しいLCMベースのレトリバーであるLightRetrieverを提案する。
本手法は,クエリエンコーディングの1000倍以上の高速化と,エンドツーエンドの検索スループットの10倍以上の高速化を実現する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:01:24 GMT)
Collaborative Chain-of-Agents for Parametric-Retrieved Knowledge Synergy [31.0] コラボレーティブ・チェーン・オブ・アジェンツ(Collaborative Chain-of-Agents)は、パラメトリックと検索された知識の相乗効果を高めるために設計されたフレームワークである。
CoCoA-zeroとCoCoAは、オープンドメインおよびマルチホップQAタスクにおいて優れたパフォーマンスを達成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:00:17 GMT)
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes [30.9] 複雑なビジュアルテキスト生成(CVTG)は、視覚画像内の様々な領域に分散した複雑なテキストコンテンツを生成することに焦点を当てている。
InGでは、画像生成モデルはしばしば歪んだ、ぼやけたビジュアルテキストをレンダリングするか、あるいは視覚的なテキストを欠いている。
我々は,新しいマルチビジュアルテキストレンダリング手法であるTextCrafterを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:04:09 GMT)
Selection-Based Vulnerabilities: Clean-Label Backdoor Attacks in Active Learning [30.8] 本稿では, 能動学習の弱点を明らかにするために, 中毒攻撃面として取得関数を利用するフレームワークであるALAを紹介する。
3つのデータセット、3つの取得機能、および2種類のクリーンラベルバックドアトリガに関する実験を行います。
その結果,低毒度でも高い成功率(最大94%)を達成できることが示唆された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:59:19 GMT)
Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection [30.8] ARAS(ARAS)は、言語条件付き自動回帰異常合成手法である。
トークンアンコールによる遅延編集によって、ローカルでテキスト指定の欠陥を通常の画像に注入する。
欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:07:32 GMT)
Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning [30.6] Francaは、最初の完全なオープンソース(データ、コード、重み付け)ビジョン基盤モデルである。
多くの場合、最先端のプロプライエタリモデルのパフォーマンスを上回る。
私たちのコントリビューションは、透明で高性能なビジョンモデルのための新しい標準を確立します。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:34:09 GMT)
From Answers to Questions: EQGBench for Evaluating LLMs' Educational Question Generation [30.6] 大規模言語モデル (LLM) は数学的な問題解決において顕著な能力を示した。
中国教育質問生成におけるLLMの性能を評価するためのベンチマークであるEQGBenchを紹介する。
このデータセットには、さまざまな知識ポイント、難易度勾配、質問タイプ仕様を含むユーザクエリが組み込まれ、現実的な教育シナリオをシミュレートする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:16:42 GMT)
AttnTrace: Attention-based Context Traceback for Long-Context LLMs [30.5] 本研究では,LLMがプロンプトのために生成した注目重みに基づく新しいコンテキストトレース手法であるAttnTraceを提案する。
その結果、AttnTraceは既存の最先端のコンテキストトレース手法よりも正確で効率的であることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:56:51 GMT)
Data Dependency Inference for Industrial Code Generation Based on UML Sequence Diagrams [30.1] 本稿では,API2Depという新しいステップバイステップコード生成フレームワークを提案する。
まず、サービス指向アーキテクチャに適した拡張Unified Modeling Language (UML) APIダイアグラムを紹介します。
次に、データフローの重要な役割を認識し、専用のデータ依存推論タスクを導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:28:23 GMT)
Variety Is the Spice of Life: Detecting Misinformation with Dynamic Environmental Representations [30.1] 動的環境表現を用いた誤情報検出手法(MISDER)を提案する。
MISDERの基本的な考え方は、各期間の社会環境表現を学習し、将来の期間の表現を予測するための時間モデルを採用することである。
MISDERの性能を評価するために、2つの一般的なデータセットの様々なMDベースラインと比較する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:01:13 GMT)
VRPO: Rethinking Value Modeling for Robust RL Training under Noisy Supervision [29.8] 不安定な信号を吸収し、より信頼性の高い優位性推定を可能にすることにより、雑音の緩和に強い値モデルが不可欠であることを示す。
ノイズの多い監督下での堅牢なPPOトレーニングのための価値中心のフレームワークであるVRPOを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:05:15 GMT)
A System Model Generation Benchmark from Natural Language Requirements [29.8] 今回紹介するSysMBenchは,広く普及しているドメインにまたがる151の人間計算シナリオで構成されている。
各シナリオは、主に自然言語要求記述、特定のモデル記述言語で表現されたシステムモデル、可視化されたシステムモデル図で構成されます。
生成したシステムモデルの品質を評価するためのセマンティック・アウェア評価指標であるSysMEvalを紹介する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:45:19 GMT)
T-GVC: Trajectory-Guided Generative Video Coding at Ultra-Low Bitrates [29.6] Trajectory-Guided Generative Video Coding (dubed TGVC)は、低レベルなモーショントラッキングと高レベルなセマンティック理解を橋渡しする。
本フレームワークは,既存のテキスト誘導方式よりも高精度な動作制御を実現する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:55:41 GMT)
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs [28.2] 下流の多様なタスクに対する差別表現を学習する新しいフレームワークであるUniMEを紹介する。
最初の段階では、強力なLLMベースの教師モデルからテキスト識別的知識蒸留を行う。
第2段階では、識別表現学習をさらに進めるために、強陰性強化命令チューニングを導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:40:26 GMT)
Vertical Federated Continual Learning via Evolving Prototype Knowledge [28.1] 本稿では,進化型プロトタイプ知識(V-LETO)を用いた垂直連合型連続学習という,新しい垂直連合型連続学習手法を提案する。
具体的には,グローバルモデルにおいて,従来のタスク知識と現在のタスク知識の両方を維持可能なプロトタイプ知識手法を提案する。
CIL設定とFIL設定の両方で実施した実験は、我々の手法であるV-LETOが他の最先端手法よりも優れていることを示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:19:56 GMT)
PPFL: A Personalized Federated Learning Framework for Heterogeneous Population [27.9] パーソナライゼーションは個人の好みを特徴づけることを目的としており、多くの分野に広く適用されている。
従来のパーソナライズされた方法は中央集権的な方法で動作し、個々の情報をプールする際の生データを公開する可能性がある。
我々は,人口パーソナライズド・フェデレーション・ラーニングのパラダイムの中で,フレキシブルかつ解釈可能なパーソナライズド・フレームワークを開発する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:52:23 GMT)
LaTCoder: Converting Webpage Design to Code with Layout-as-Thought [27.8] LaTCoderは、レイアウト・アズ・ソート(LaT)によるコード生成中のWebページ設計におけるレイアウトの保存性を高める新しいアプローチである。
具体的には、まず、Webページのデザインを画像ブロックに分割する単純なアルゴリズムを導入する。次に、CoTベースのアプローチを用いて、各ブロックのコードを生成する。最後に、2つのアセンブリ戦略絶対位置決めと、動的選択によりMLLMベースのメソッドを適用して、最適出力を決定する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:28:48 GMT)
TAPAS: Fast and Automatic Derivation of Tensor Parallel Strategies for Large Neural Networks [27.6] 我々はTAPASという自動並列処理フレームワークを構築し、冗長な探索作業を排除した。
TAPASは、これらのユニークな部分構造を識別することによって、探索空間を効率的に折り畳む分割線形アプローチを採用している。
評価の結果,TAPASは最先端の自動並列処理フレームワークを最大160倍の高速化を実現している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:55:48 GMT)
Adaptive Sparse Softmax: An Effective and Efficient Softmax Variant [27.5] ソフトマックス」は現在のニューラル分類モデルの標準構成である。
本稿では,適応スパースソフトマックス (AS-Softmax) を提案する。
提案したAS-Softmaxは,5~5000以上のクラスサイズを持つテキストマルチクラス,テキストマルチラベル,テキストトークン分類,画像分類,音声分類タスクで検証する。
その結果、AS-Softmaxはソフトマックスとその変種を一貫して上回り、AS-Softmaxの損失は検証における分類性能と著しく相関していることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:36:32 GMT)
4D Scaffold Gaussian Splatting with Dynamic-Aware Anchor Growing for Efficient and High-Fidelity Dynamic Scene Reconstruction [27.5] 異なる視点でストレージコストに対処する4Dアンカーベースのフレームワークを導入する。
提案手法は, 動的領域における最先端の視覚的品質を実現し, 実用的ストレージコストに比して, 全ベースラインをはるかに上回っている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:18:37 GMT)
Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing [27.2] ガウススプラッティングにおける2次元視覚分割を3次元に引き上げることの課題に対処する。
既存の方法は、視界を横断する不整合な2Dマスクに悩まされ、うるさいセグメンテーション境界を生成する。
本稿では,標準ガウス表現を入力ビュー全体にわたってインスタンス重み行列で拡張するガウスインスタンス追跡(GIT)を紹介する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:54:17 GMT)
Long-term Traffic Simulation with Interleaved Autoregressive Motion and Scenario Generation [27.0] 理想的なトラフィックシミュレータは、デプロイ中に自動運転システムが経験する現実的な長期的ポイントツーポイントトリップを再現する。
InfGenは、インターリーブドクローズドループモーションシミュレーションとシーン生成を行う統合型次世代予測モデルである。
InfGenは短期(9秒)のトラフィックシミュレーションにおいて最先端で動作し、長期(30秒)のシミュレーションでは他のすべての手法よりも大幅に優れています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:06:16 GMT)
The Promise of RL for Autoregressive Image Editing [26.9] 本稿では,幅広い画像編集タスクの性能向上のための3つの戦略について検討する。
我々は,テキストトークンと視覚トークンを統一的に処理する自動回帰マルチモーダルモデルを採用する。
RLと大規模マルチモーダルLLM検証器を組み合わせることで,これらの戦略の最も効果的な方法が分かる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:59:05 GMT)
HiTeC: Hierarchical Contrastive Learning on Text-Attributed Hypergraph with Semantic-Aware Augmentation [26.8] テキスト分散ハイパーグラフを用いたスケーラブルで効果的な自己教師型学習のための意味認識機能を備えた2段階階層型コントラスト学習フレームワークであるHiTeCを紹介する。
最初の段階では、従来の手法のグラフに依存しない性質を克服するために、構造を意識したコントラスト目的でテキストエンコーダを事前訓練する。
第2段階では、情報的ビュー生成を容易にするために、アクセシブル・エンハンスド・テキスト・エンハンスメントとセマンティック・アウェア・ハイパーエッジ・ドロップを含む2つのセマンティック・アウェア・エンハンスメント戦略を導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:32:32 GMT)
Privacy-Aware Decoding: Mitigating Privacy Leakage of Large Language Models in Retrieval-Augmented Generation [26.6] プライバシ・アウェア・デコーディング(英: Privacy-Aware Decoding、PAD)は、ガウス雑音を発生時にトークンロジットに適応的に注入する軽量な推論時防御法である。
PADは信頼性ベースのスクリーニングを統合して、リスクの高いトークンを選択的に保護し、不要なノイズを最小限に抑える効率的な感度推定と、プライバシと生成品質のバランスをとるためのコンテキスト対応ノイズ校正を行う。
我々の研究は、機密ドメインにおける普遍的でスケーラブルなプライバシソリューションを実現するために、デコード戦略を通じて、RAGのプライバシリスクを軽減するための重要な一歩を踏み出しています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:22:13 GMT)
Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models [26.6] 個別のコンテンツと動作動態を保存したプルーニングと整合性損失を用いた新しいビデオ拡散モデル圧縮手法を提案する。
テキスト・トゥ・ビデオ(T2V)と画像・トゥ・ビデオ(I2V)の2つの重要なビデオ生成タスクにおけるVDMiniの有効性を実証する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:33:54 GMT)
Geoint-R1: Formalizing Multimodal Geometric Reasoning with Dynamic Auxiliary Constructions [26.5] Geoint-R1はテキスト記述と視覚図から検証可能な幾何学的解を生成するために設計された多モード推論フレームワークである。
形式的幾何学的推論を体系的に評価し,先進的に進めるために,1,885個の厳密な注釈付き幾何学的問題を含むGeointベンチマークを提案する。
Geoint-R1は既存のマルチモーダルおよび数学固有の推論モデルを大きく上回る。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:29:58 GMT)
An Entity Linking Agent for Question Answering [26.2] 本稿では,人間の認知タスクをシミュレートする大規模言語モデルに基づく質問応答システム(QA)のためのエンティティリンクエージェントを提案する。
エージェントは、エンティティの言及を積極的に識別し、候補エンティティを検索し、決定する。
その結果, エージェントの堅牢性と有効性が確認された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:28:43 GMT)
Exploring Fairness across Fine-Grained Attributes in Large Vision-Language Models [26.2] 我々は,Large Language Models (LLMs) を利用したバイアス属性のオープンセット知識ベースを構築し,よりきめ細かな属性にまたがるLVLMの公平性を評価する。
実験の結果,LVLMは多様な属性の集合に偏りのある出力を示し,文化的,環境的,行動的要因が従来の属性よりもLVLMの意思決定に顕著な影響を与えていることが明らかとなった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:52:32 GMT)
Negation-Aware Test-Time Adaptation for Vision-Language Models [26.0] 視覚言語モデル(VLM)における実用的だが触覚の少ない問題について検討する。
多くの現実世界のアプリケーションは、偽物や存在しないものを明確に識別するためにモデルを必要とする。
本研究では,推論中の分布関連パラメータを効率的に調整するNegation-Aware Test-Time Adaptation (NEAT)法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:36:50 GMT)
VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo [25.9] Ve Omni - 大規模言語モデル(LLM)のトレーニングフレームワーク。
Ve Omni氏は、計算からコミュニケーションを分離するモデル中心の分散レシピを紹介した。
Ve Omniは2,800トークン/秒/GPUスループットでトレーニングでき、128GPU上の3D並列処理によって160Kのコンテキスト長にスケールすることができる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:34:20 GMT)
Genetic Programming with Reinforcement Learning Trained Transformer for Real-World Dynamic Scheduling Problems [25.6] 本稿では,GPRT(Reinforcement Learning)を用いて学習したトランスフォーマーと遺伝的プログラミング(GP)を組み合わせた革新的なアプローチを提案する。
GPRTは動的スケジューリングシナリオの複雑さに対処するように設計されている。
この統合アプローチの有効性は,コンテナターミナルトラックスケジューリングの実用化を通じて実証される。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:32:08 GMT)
Spatio-Temporal Distortion Aware Omnidirectional Video Super-Resolution [25.6] Omnidirectional (ODV)は360degシーンをキャプチャすることで没入型視覚体験を提供する。
ODVは、デバイスと伝送帯域幅の広い視野と制限のために、低解像度に悩まされることが多い。
本研究では,空間的投影歪みとODVの時間的フリッカリングを軽減するため,時空間アウェア歪みネットワーク(STDAN)を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:14:21 GMT)
Game Theory Meets Large Language Models: A Systematic Survey with Taxonomy and New Frontiers [25.5] 本稿では,ゲーム理論と大規模言語モデル (LLM) の関係を包括的に調査する。
本稿では,この交差点における研究を4つの異なる視点に分類する新しい分類法を提案する。
重要な課題を特定し、今後の研究の方向性を概説する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:23:31 GMT)
FGBench: A Dataset and Benchmark for Molecular Property Reasoning at Functional Group-Level in Large Language Models [25.4] FGBenchは、625Kの分子特性解析問題と機能的グループ情報を組み合わせたデータセットである。
FGBenchは、分子特性推論のための3つのカテゴリにまたがる245の異なる官能基上の回帰タスクと分類タスクを含む。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:05:17 GMT)
Urban In-Context Learning: Bridging Pretraining and Inference through Masked Diffusion for Urban Profiling [24.6] 都市プロファイリングは、未知の地域の都市プロファイルを予測することを目的としており、経済と社会の国勢調査において重要な役割を果たしている。
本研究では,都市における事前学習と推論をマスク付き自動符号化プロセスを通じて統合するフレームワークであるUrban In-Context Learningを提案する。
我々の一段法は最先端の2段法より一貫して優れている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:38:48 GMT)
AGENTiGraph: A Multi-Agent Knowledge Graph Framework for Interactive, Domain-Specific LLM Chatbots [24.3] AgentiGraphは、ドメイン固有のデータの直感的なインタラクションと管理を可能にする、ユーザフレンドリでエージェント駆動のシステムである。
技術的でないユーザには,知識ベースを段階的に構築し,洗練するための,完全な視覚的なソリューションが提供される。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:55:06 GMT)
AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.2] AudioGen-Omniは、入力されたビデオとコヒーレントに同期した高忠実な音声、音声、歌を生成する。
ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。
密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。
推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:59:52 GMT)
Agent Lightning: Train ANY AI Agents with Reinforcement Learning [24.1] 我々は,任意のAIエージェントに対して,強化学習(RL)に基づくLarge Language Models(LLM)のトレーニングを可能にするフレームワークであるAgens Lightningを提案する。
エージェント実行をマルコフ決定プロセスとして定式化することにより、統一データインターフェースを定義し、クレジット代入モジュールを含む階層的RLアルゴリズムLightningRLを提案する。
システム設計のために、トレーニング・エージェント・デアグリゲーションアーキテクチャを導入し、エージェント・オブザーバビリティ・フレームワークをエージェント・ランタイムに導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:50:13 GMT)
Understanding In-Context Learning of Linear Models in Transformers Through an Adversarial Lens [23.7] 本研究では, ハイジャック攻撃に対する変換器における文脈内学習の対角的堅牢性について検討する。
GPT-2アーキテクチャを持つ線形変圧器と変圧器の両方がこのようなハイジャック攻撃に対して脆弱であることを示す。
このような攻撃に対する敵の堅牢性は、敵の訓練によって著しく改善される。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:08:58 GMT)
LeakyCLIP: Extracting Training Data from CLIP [23.7] textbfLeakyCLIPは、CLIP埋め込みから高品質でセマンティックに正確な画像再構成を実現することを目的としている。
CLIPのインバージョンでは,1)非破壊的特徴,2)テキスト埋め込みにおける視覚的セマンティクスの制限,3)再構築精度の低下,の3つの課題が指摘されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:13:41 GMT)
Differentially Private Adaptation of Diffusion Models via Noisy Aggregated Embeddings [23.7] Textual Inversion (TI)は、画像や画像の集合に対する埋め込みベクトルを学習し、差分プライバシー制約の下で適応を可能にする。
DPAgg-TIはDP-SGDファインタニングを同一のプライバシー予算の下で実用性と堅牢性の両方で上回ることを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:21:05 GMT)
Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [23.6] 我々は、大規模言語モデル(RLLM)を推論するための文脈内学習(ICL)パラダイムとして、思考を伴う思考(JointThinking)を提案する。
提案手法は,思考モードと思考モードの2つの回答を並列に生成する。
JointThinkingは、数発のチェーン・オブ・シークレット・ロバスト性(CoT)と、回答の改善による多数決を著しく上回っている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:09:55 GMT)
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens [23.3] CoT(Chain-of-Thought)プロンプトにより,様々なタスクにおいてLLM(Large Language Model)のパフォーマンスが向上することが示されている。
しかしながら、いくつかの初期の発見は、CoT推論が見かけよりも表面的であることを示唆している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:11:02 GMT)
CyGym: A Simulation-Based Game-Theoretic Analysis Framework for Cybersecurity [23.3] 本稿では,ネットワークディフェンダーと攻撃者の間に新たなサイバーセキュリティ遭遇シミュレータを導入する。
OpenAI Gymフレームワーク内に構築されたシミュレータには、現実的なネットワークトポロジ、脆弱性、エクスプロイト(ゼロデイを含む)、防御メカニズムが組み込まれています。
我々はシミュレータと関連するゲーム理論のフレームワークを用いて、ボルト台風の持続的脅威(APT)を分析する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:32:57 GMT)
ConfGuard: A Simple and Effective Backdoor Detection for Large Language Models [23.2] バックドア攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
既存の防衛手法の多くは、主に分類タスクのために設計されており、自己回帰性やLLMの膨大な出力空間に対して効果がない。
本稿では,トークンの信頼度をスライディングウィンドウに監視してシーケンスロックを識別する,軽量かつ効果的な検出手法ConfGuardを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:37:30 GMT)
Gradient as Conditions: Rethinking HOG for All-in-one Image Restoration [23.2] 古典的勾配表現としての向き付け勾配(HOG)のヒストグラムは、様々な劣化に対して強い識別能力を有する。
本稿では,学習可能なHOG機能を統合した変換器モデルHOGformerを提案する。
HOGformerは最先端のパフォーマンスを実現し、複雑な現実世界のシナリオを一般化する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:12:29 GMT)
DiWA: Diffusion Policy Adaptation with World Models [23.1] 強化学習(RL)による微調整拡散政策は重要な課題である。
RL法は数百万の現実世界の相互作用を必要とし、実用的な微調整のボトルネックとなる。
拡散型ロボット技術の微調整に世界モデルを活用する新しいフレームワークであるDiWAを導入し、強化学習で完全にオフライン化する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:55:50 GMT)
MetaScope: Optics-Driven Neural Network for Ultra-Micro Metalens Endoscopy [23.0] 小型内視鏡は、人間の体内で正確な視覚を正確に知覚する。
メタ光学の出現に伴い、メタセンス(ミクロンスケール)に基づく超微細イメージングが注目されている。
メタレンの物理的差異のため、データ取得とアルゴリズム研究には大きなギャップがある。
物理的光学によって駆動されるメタスコープ内視鏡に適した,光学駆動型ニューラルネットであるMetaScopeを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:01:00 GMT)
Towards Trustworthy Multimodal Moderation via Policy-Aligned Reasoning and Hierarchical Labeling [22.9] Hi-Guardは、新しいポリシーに沿った決定パラダイムを導入するマルチモーダルモデレーションフレームワークである。
進化するモデレーションポリシとの整合性を確保するため、Hi-Guardはモデルプロンプトにルール定義を直接組み込む。
実験と実世界の展開は、Hi-Guardが優れた分類精度、一般化、解釈可能性を達成することを示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:16:04 GMT)
Low-Frequency First: Eliminating Floating Artifacts in 3D Gaussian Splatting [22.6] 3D Gaussian Splatting (3DGS)は、3D再構成のための強力な表現である。
3DGSはフローティングアーティファクトをしばしば生成し、これは実際の幾何学から切り離された誤った構造である。
最適化されていないガウスを選択的に拡張し、高精度な低周波学習を優先するEFA-GSを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:28:05 GMT)
Efficient Morphology-Aware Policy Transfer to New Embodiments [22.3] 形態認識型政策学習は、複数のエージェントからのデータを集約することで、政策サンプルの効率を高める手段である。
これらのポリシーは、デプロイメント時のモルフォロジーをエンドツーエンドで微調整するのに比べて、最適化されたゼロショットのパフォーマンスが低い。
形態素認識の事前学習とパラメータ効率のよい微調整(PEFT)技術を組み合わせることで,形態素認識のポリシーを目的の具体化に専門化するのに必要な学習可能なパラメータを削減できる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:15:35 GMT)
CHIRP: A Fine-Grained Benchmark for Open-Ended Response Evaluation in Vision-Language Models [22.1] 近年のVLM(Vision-Language Models)の普及は、厳密で包括的な評価手法とベンチマークを求めている。
この研究は、自動化されたメトリクス、AIベースの評価、さまざまなタスクにわたる人的評価を含む、既存のVLM評価技術を分析する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:04:22 GMT)
What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning [22.0] 状態変化記述を取り入れたプロシージャ対応ビデオ表現学習について検討する。
我々は、仮説化された失敗の結果をシミュレートする状態変化反事実を生成する。
本研究は,提案した状態変化記述の有効性と,その有効性を実証するものである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:23:23 GMT)
Style Composition within Distinct LoRA modules for Traditional Art [22.0] 複数のスタイルを自然にブレンドするゼロショット拡散パイプラインを提案する。
我々は低騒音の潜伏者がより強いスタイル情報を持っているという事実を活用している。
ControlNetによる奥行きマップの条件付けを拡散フレームワークに組み込む。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:45:30 GMT)
SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models [21.9] SCFlowは、絡み合った表現と非絡み合った表現の双方向マッピングを学習するフローマッチングフレームワークである。
SCFlowは画像Net-1kとWikiArtにゼロショット設定で一般化し、競合性能を実現する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:50:46 GMT)
Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [21.7] 過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。
視覚エコー」は「視覚エコー」という時間的冗長性を有する
AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。
我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:31:55 GMT)
UniFucGrasp: Human-Hand-Inspired Unified Functional Grasp Annotation Strategy and Dataset for Diverse Dexterous Hands [21.6] 有害な把握データセットはインテリジェンスに欠かせないが、ボトルキャップの開いたりカップハンドルを握ったりするのに必要な機能的把握は無視される。
UniFucGraspは,多種多様な手型のための汎用的機能的グリップアノテーション戦略とデータセットである。
バイオミミクリーに基づいて、自然の人間の動きを様々な手の構造にマッピングし、幾何学に基づく力の閉鎖を利用して、機能的で安定した人間のような握りを確実にする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:37:38 GMT)
Video Demoireing using Focused-Defocused Dual-Camera System [21.6] 既存の復号法は、単一カメラの画像/ビデオ処理に依存している。
同じシーンの同期映像をキャプチャするデュアルカメラフレームワークを提案する。
焦点を絞ったビデオは、モアレのパターンと実際のテクスチャを区別するのに役立ち、焦点を絞ったビデオの陳腐化を導くのに役立ちます。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:49:49 GMT)
DepthGait: Multi-Scale Cross-Level Feature Fusion of RGB-Derived Depth and Silhouette Sequences for Robust Gait Recognition [21.5] 本稿では,RGB由来の深度マップとシルエットを組み込んだ歩行認識のための新しいフレームワークであるDepthGaitを紹介する。
具体的には、人体の2次元シルエット表現とは別に、提案したパイプラインは、所定のRGB画像列から奥行きマップを明示的に推定する。
深度マップとシルエットの間のモダリティギャップを橋渡しする新しいマルチスケールおよびクロスレベル融合スキームも開発されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:45:29 GMT)
ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants [21.4] ASTRAはAIによるコード生成とセキュリティガイダンスシステムの安全性上の欠陥を明らかにするために設計された自動化システムである。
ASTRAは、既存のテクニックよりも11~66%多くの問題を見つけ、17%の効果的なアライメントトレーニングにつながるテストケースを生成します。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:57:52 GMT)
4D-PreNet: A Unified Preprocessing Framework for 4D-STEM Data Analysis [21.3] 注意力強化されたU-NetアーキテクチャとResNetアーキテクチャを統合したエンドツーエンドのディープラーニングパイプラインである4D-PreNetを,デノナイズ,中心補正,楕円歪み校正を同時に行う。
我々のパイプラインは、偏光中に平均2乗誤差を最大50%削減し、中心検出タスクにおいて、平均誤差が0.04ピクセル未満で、サブピクセル中心の局所化を実現する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:35:28 GMT)
Principle-Guided Verilog Optimization: IP-Safe Knowledge Transfer via Local-Cloud Collaboration [21.3] 本稿では,機密IP情報を漏らさずに,特定の属性に対してVerilogコードを最適化しなければならない新たなシナリオを提案する。
両パラダイムのメリットを活用した,IP保護型エッジクラウドコラボレーションフレームワークを初めて紹介する。
我々の研究は、性能向上とIP保護のバランスをとるために、セキュアなハードウェア設計最適化のための新しいパラダイムを確立する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:50:55 GMT)
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation [21.3] 画像理解,テキスト・ツー・イメージ生成,画像編集をひとつのアーキテクチャで統一するモデルであるSkywork UniPicを紹介する。
Skywork UniPicのGenEvalスコアは0.86で、既存の統一モデルを上回る。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:59:01 GMT)
LLMs Have a Heart of Stone: Demystifying the Soft Thinking Ability of Large Reasoning Models [21.2] 本稿では,大規模言語モデル(LLM)のソフトな抽象トークン生成能力について検討する。
一般的な信念とは対照的に,LSMはその後の復号過程において,ソフトインプットの最も影響力のある要素に依存していることが明らかとなった。
この問題に対処するために,ディリクレ再サンプリングやGumbel-Softmax トリックなどの手法を用いて,エミュランドネスを導入するためのサンプリング戦略を検討する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:38:33 GMT)
ContractEval: Benchmarking LLMs for Clause-Level Legal Risk Identification in Commercial Contracts [21.2] 法的なリスク分析のような専門分野における大規模言語モデル(LLM)の可能性はいまだ未解明である。
本稿では,オープンソース LLM が商用契約における条項レベルの法的リスクを特定する上で,プロプライエタリ LLM に適合するかどうかを徹底的に評価する最初のベンチマークである ContractEval を紹介する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:53:05 GMT)
Learning quadratic neural networks in high dimensions: SGD dynamics and scaling laws [21.2] 高次元状態における二次活性化関数を持つ2層ニューラルネットワークの勾配に基づくトレーニングの最適化とサンプル複雑性について検討する。
本稿では,特徴学習体制における動態の急激な解析を行い,人口制限と有限サンプルの離散化について述べる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:57:56 GMT)
SkeNa: Learning to Navigate Unseen Environments Based on Abstract Hand-Drawn Maps [21.0] 我々はSketch map-based visual Navigation (SkeNa)を紹介する。
SkeNaは、手書きのスケッチマップのみをガイダンスとして、エージェントが見えない環境でゴールに到達しなければならない、具体化されたナビゲーションタスクである。
我々は,71の屋内シーンにわたる54k軌道とスケッチマップのペアからなる大規模データセットSoRを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:56:32 GMT)
Injecting Measurement Information Yields a Fast and Noise-Robust Diffusion-Based Inverse Problem Solver [21.0] 条件付き後続平均 $mathbbE [mathbfx_t, mathbfy]$ を推定する。
結果として得られる予測は、任意の標準サンプリングに組み込むことができ、高速でメモリ効率の良い逆解法をもたらす。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:01:41 GMT)
MM-Gesture: Towards Precise Micro-Gesture Recognition through Multimodal Fusion [20.8] MM-Gestureは微妙で短期的なマイクロジェスチャー(MG)を認識するためのフレームワークである
関節、手足、RGBビデオ、テイラーシリーズビデオ、オプティカルフロービデオ、深度ビデオモダリティの補完的手がかりを統合している。
MM-Gestureは、IJCAI 2025で第3回MiGAチャレンジの微地形分類トラックで1位にランクインした。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:39:55 GMT)
Post-Completion Learning for Language Models [20.6] 現在の言語モデルトレーニングパラダイムは、エンド・オブ・シーケンス(eos>)トークンに到達して学習を終了する。
モデル出力完了後のシーケンス空間を体系的に活用する新しい学習フレームワークであるポストコンプリート学習(PCL)を提案する。
PCLは、学習中の自己評価と報奨予測を継続し、完了点に停止することで効率的な推論を維持する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:29:38 GMT)
MoCA: Identity-Preserving Text-to-Video Generation via Mixture of Cross Attention [20.5] MoCA は Diffusion Transformer (DiT) のバックボーン上に構築されたビデオ拡散モデルである。
我々のフレームワークは、各DiTブロックにMoCA層を埋め込むことで、フレーム間のID整合性を改善する。
また、Latent Video Perceptual Lossを組み込んで、ビデオフレーム間のアイデンティティの一貫性と細かな詳細性を高める。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:24:08 GMT)
Software Fairness Dilemma: Is Bias Mitigation a Zero-Sum Game? [20.5] フェアネスは機械学習(ML)ソフトウェアにとって重要な要件である。
これまでの研究では、コンピュータビジョンと自然言語処理タスクに対するバイアス軽減のレベルダウン効果が特定されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:05:20 GMT)
Causally Steered Diffusion for Automated Video Counterfactual Generation [20.4] 本稿では,アウト・オブ・ディストリビューション(OOD)予測問題として定式化された,反ファクトビデオ生成のための因果的忠実なフレームワークを提案する。
我々は、因果グラフに指定された関係をテキストプロンプトにエンコードし、生成プロセスを導くことによって、先行因果知識を組み込む。
この損失は、LDMの潜伏空間において、OODの変動を反ファクトの形で捉え、因果的に有意な代替品に向けて効果的に生成を操る。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:10:38 GMT)
Understanding the Embedding Models on Hyper-relational Knowledge Graph [20.4] ハイパーリレーショナル知識グラフ(HKG)は、従来の知識グラフ(KG)の拡張として提案されている。
3つの分解法を用いてHKGをKG形式に変換する。
HKG上でのいくつかの古典的KGEモデルの性能を評価する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:59:02 GMT)
Learning Pivoting Manipulation with Force and Vision Feedback Using Optimization-based Demonstrations [20.2] クローズドループのピボット操作を学習するためのフレームワークを提案する。
計算効率のよい接触型軌道最適化を利用して,実演指導による深層強化学習を設計する。
また、特権訓練戦略を用いて、ロボットがピボット操作を行うことができるシミュレート・トゥ・リアル・トランスファー手法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 23:03:27 GMT)
Science Hierarchography: Hierarchical Organization of Science Literature [20.2] 我々は、科学文献を高品質な階層構造に整理する目的であるSCIENCE HIERARCHOGRAPHYを動機付けている。
我々は、効率的な埋め込みベースのクラスタリングとLLMベースのプロンプトを組み合わせたハイブリッドアプローチを開発した。
その結果,本手法は解釈可能性を改善し,科学的文献を探索するための代替経路を提供することがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:47:21 GMT)
Efficient Multi-Slide Visual-Language Feature Fusion for Placental Disease Classification [20.1] 本研究では,EMmPDと命名された患者レベルの胎盤疾患診断のための効率的なマルチモーダルフレームワークを提案する。
本稿では,パラメータフリーと学習可能な圧縮戦略を組み合わせた2段階のパッチ選択モジュールを提案する。
我々は適応的なグラフ学習を活用して病理的特徴表現を強化するハイブリッドマルチモーダル融合モジュールを開発した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:56:12 GMT)
Breaking Imitation Bottlenecks: Reinforced Diffusion Powers Diverse Trajectory Generation [20.1] DIVERは、強化学習と拡散ベースの生成を統合するエンドツーエンドの自動運転フレームワークである。
また,DIVERは軌道の多様性を著しく改善し,模倣学習に固有のモード崩壊問題に効果的に対処することを示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:40:32 GMT)
SpectrumWorld: Artificial Intelligence Foundation for Spectroscopy [20.0] 本稿では,分光学における深層学習研究の体系化と高速化を目的とした,先駆的な統一プラットフォームであるSpectrumLabを紹介する。
SpectrumLabには,重要なデータ処理と評価ツールを備えた包括的なPythonライブラリとリーダボード,限定されたシードデータから高品質なベンチマークを生成する革新的なSpectrumAnnotatorモジュールという,3つのコアコンポーネントが統合されている。
私たちはSpectrumLabが、ディープラーニング駆動分光の今後の進歩の重要な基盤になることを期待しています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:22:33 GMT)
IKOD: Mitigating Visual Attention Degradation in Large Vision-Language Models [20.0] 本稿では,LVLM(Large Vision-Language Models)が,シーケンス長の増大に伴って幻覚が増大する長期バイアスを示すことを示す。
我々は、より画像中心のシーケンスを生成する協調デコーディング戦略である、イメージアテンション誘導キー値マージcOllaborative Decoding (IKOD)を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:05:15 GMT)
Enhancing Long Video Question Answering with Scene-Localized Frame Grouping [19.8] 現在のMultimodal Large Language Models (MLLMs) は、長いビデオ理解ではよく機能しない。
本稿では,ビデオ質問応答タスクであるSceneQAの新たなシナリオを提案する。
本研究では,個々のフレームを意味的に一貫性のあるシーンフレームに結合する,SLFGと呼ばれる新しい手法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:28:58 GMT)
Beyond Content: How Grammatical Gender Shapes Visual Representation in Text-to-Image Models [19.8] 文法的性別がステレオタイプ性関連に矛盾する単語を比較検討する言語間ベンチマークを導入する。
我々のデータセットは5つのジェンダー言語(フランス語、スペイン語、ドイツ語、イタリア語、ロシア語)と2つのジェンダーニュートラル制御言語(英語、中国語)にまたがっている。
男性文法マーカーは平均で男性表現を73%(性中立英語と比較して22%)、女性文法マーカーは女性表現を38%(英語では28%)に増やす
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:13:07 GMT)
Boost Self-Supervised Dataset Distillation via Parameterization, Predefined Augmentation, and Approximation [19.6] 本稿では,画像とその自己教師付き表現を蒸留セットに蒸留する手法を提案する。
この方法では、実データセットからリッチな情報を効果的に抽出し、クロスアーキテクチャの一般化性を高めた蒸留セットを得る。
特に、異なる低次元の基底を用いて、画像や表現に革新的なパラメータ化を導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:51:05 GMT)
On Conformal Machine Unlearning [19.3] コンフォーマル予測(CP)に基づくマシン・アンラーニング(MU)の新しい定義を導入する。
CPは、ナイーブリトレーニングという概念を必要とせず、統計的に健全で不確実性を意識した保証を提供する。
我々は,CP集合から忘れられたサンプルの頻度を定量化するコンフォメーション基準を定式化し,未学習の有効性を測定するための経験的指標を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:24:09 GMT)
Topology Optimization in Medical Image Segmentation with Fast Euler Characteristic [19.1] 医用画像のセグメンテーションでは、必要なトポロジカル属の観点からのセグメンテーションの正しさは、ピクセルの精度よりも重要な場合もある。
オイラー特性(chi$)に基づく位相認識セグメンテーションの新しい高速手法を提案する。
実験は2次元と3次元の両方のデータセットを用いて行われ、画素分割精度を保ちながら、トポロジカルな精度を著しく向上できることを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:17:23 GMT)
Empirical Analysis of Sim-and-Real Cotraining of Diffusion Policies for Planar Pushing from Pixels [18.9] シミュレーションと実際のハードウェアの両方で生成された実演データとのコトレーニングが、ロボット工学における模倣学習をスケールするための有望なレシピとして登場した。
この研究は、シミュレーション設計、sim-and-realデータセット作成、ポリシートレーニングを知らせるために、sim-and-realコトレーニングの基本原則を解明することを目指している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:17:52 GMT)
MalFlows: Context-aware Fusion of Heterogeneous Flow Semantics for Android Malware Detection [18.8] MalFlowsは、Androidマルウェア検出のための異種フローセマンティクスのコンテキスト認識融合を実現する新しい技術である。
Flow2vecは、コンテキスト制約に基づいて、HINエンティティのセマンティクスを必要に応じて区別する、コンテキスト対応のHIN埋め込み技術である。
実世界の31,000以上のアプリから2000万以上のフローインスタンスを抽出した大規模データセット上でMalFlowsを評価する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:54:52 GMT)
RCP-Merging: Merging Long Chain-of-Thought Models with Domain-Specific Models by Considering Reasoning Capability as Prior [18.7] ロングチェーン・オブ・シント(CoT)機能を持つ大規模言語モデル(LLM)は、推論モデルと呼ばれ、より複雑な問題解決能力を示している。
RCP-Merging: Reasoning Capability を優先として,Long Chain-of-Thought Models と Domain-Specific Models を併用する。
その結果、RCP-Mergingはドメイン固有の推論モデルとうまく融合し、最先端の手法よりもドメインタスクのパフォーマンスを9.5%向上し、9.2%向上した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:38:18 GMT)
CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction [18.7] 大規模言語モデル(LLM)は、ステップバイステップの推論とテキストデータの統合を通じて、有望な代替手段を提供する。
我々は,多毒性予測のためのLLMとチェーン・オブ・シント(CoT)推論を統合する新しいフレームワークであるCoToxを提案する。
GPT-4oを用いて、CoToxが従来の機械学習モデルとディープラーニングモデルの両方より優れていることを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:04:44 GMT)
Towards Effective Offensive Security LLM Agents: Hyperparameter Tuning, LLM as a Judge, and a Lightweight CTF Benchmark [18.7] エージェントの成功を促す重要な要因を体系的に検討し、LLMをベースとした効果的な攻撃セキュリティエージェントを構築するための詳細なレシピを提供する。
CTFJudgeは、LCMを審査員として活用し、エージェントトラジェクトリを分析し、CTF解決ステップ全体にわたってきめ細かい評価を行うフレームワークである。
高速な評価のために、バイナリエクスプロイト、Web、リバースエンジニアリング、法医学、暗号の50の代表的なCTF課題をキュレートしたベンチマークであるCTFTinyを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:25:09 GMT)
WiFinger: Fingerprinting Noisy IoT Event Traffic Using Packet-level Sequence Matching [18.6] WiFingerは、ノイズの多いトラフィックに対して、きめ細かいマルチIoTイベントのフィンガープリントアプローチである。
提案手法は,様々なIoTイベントに対して平均85%のリコールを達成し,ほとんどのIoTイベントに対してほぼゼロの偽陽性を維持できる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:55:21 GMT)
Veila: Panoramic LiDAR Generation from a Monocular RGB Image [18.5] 現実的で制御可能なパノラマLiDARデータ生成は、自律運転およびロボット工学におけるスケーラブルな3D知覚に不可欠である。
空間制御信号として単眼RGB画像を活用することは、スケーラブルで低コストな代替手段を提供する。
局所的な信頼性に応じて意味と深度を統合した新しい条件拡散フレームワークであるVeilaを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:59:53 GMT)
MAUP: Training-free Multi-center Adaptive Uncertainty-aware Prompting for Cross-domain Few-shot Medical Image Segmentation [18.5] クロスドメインFew-shot Medical Image (CD-FSMIS) は、他のドメインからの知識を用いて、限られたアノテーションで医療画像をセグメント化するための潜在的ソリューションである。
マルチセンター適応不確実性認識プロンプティング(MAUP)戦略を導入する訓練不要CD-FSMISモデルを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:37:42 GMT)
RooseBERT: A New Deal For Political Language Modelling [18.4] RooseBERTは、政治談話のための事前訓練された言語モデルである。
大規模な政治討論や演説のコーパスで訓練されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:28:20 GMT)
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping [18.4] 汎用ロボットは任意のシナリオで多様な物体を把握できなければならない。
DexGraspVLAは,言語誘導型汎用デキスタラスグルーピングにおける堅牢な一般化のための階層的フレームワークである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:10:26 GMT)
Mechanism Design for Facility Location using Predictions [18.2] 本研究では,最適な施設位置の予測を付加した施設位置問題のメカニズムについて検討する。
我々は、一貫性(予測が正確である場合)と頑健性(予測の正確性によらぬ場合)の観点から、性能を考察する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:05:32 GMT)
From Entanglement to Alignment: Representation Space Decomposition for Unsupervised Time Series Domain Adaptation [18.1] DARSDは,表現空間の分解の観点から,UDAタスクを明示的に実現する理論的説明可能性を備えた,新しいUDAフレームワークである。
DarSDは3つの相乗的要素から構成される: (I) 意味的コンテンツを保存しながら、元の特徴をドメイン不変のサブ空間に投影する逆学習可能な共通不変基底; (II) 信頼、エラーの蓄積を妨げ、ターゲット特徴を動的に分離する擬似ラベル機構; (III) 機能クラスタリングと一貫性を同時に実施しながら、新興ディストリビューションギャップを緩和するハイブリッドコントラスト最適化戦略。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:35:56 GMT)
A Comprehensive Review of Diffusion Models in Smart Agriculture: Progress, Applications, and Challenges [18.1] 本稿では,農業における拡散モデルの適用の最近の進歩を概観する。
作物病や害虫検出、リモートセンシング画像強調、作物の生育予測、農業資源管理における役割に重点を置いている。
計算効率と領域一般化の継続的な課題にもかかわらず、拡散モデルは知的農業の将来においてますます重要な役割を果たすことが期待されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:26:22 GMT)
MoCHA: Advanced Vision-Language Reasoning with MoE Connector and Hierarchical Group Attention [18.0] 視覚大言語モデル(VLLM)は、高度な視覚エンコーダを導入し、視覚モデルをスケールアップすることによって、複雑できめ細かな視覚情報を扱うことに重点を置いている。
本研究では,これらの問題に対処する新しい視覚的枠組みであるMoCHAを提案する。
我々のフレームワークは、4つの視覚バックボーン(CLIP、SigLIP、DINOv2、ConvNeXt)を統合して補完的な視覚的特徴を抽出し、疎密なMixture of Experts Connectors (MoECs)モジュールを備えている。
MoECsモジュールで符号化された視覚情報の冗長性や不十分性を軽減するため、我々は、
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:25:11 GMT)
Full-History Graphs with Edge-Type Decoupled Networks for Temporal Reasoning [17.9] 我々は、各時間ステップ毎に各エンティティの1つのノードをインスタンス化するフルヒストリーグラフを導入する。
運転注意予測(Waymo)とBitcoin不正検出(Elliptic++)で評価する。
これらの利得は、1つのグラフにおいて異なるエッジとして構造的および時間的関係を表す利点を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:29:07 GMT)
Attack Anything: Blind DNNs via Universal Background Adversarial Attack [17.7] ディープニューラルネットワーク(DNN)は、敵の摂動に感受性があり、弱いことが広く実証されている。
本稿では,攻撃効果を多種多様な対象,モデル,タスク間でよく一般化する,攻撃の背景攻撃フレームワークを提案する。
我々は,様々な対象,モデル,タスクにまたがるデジタルドメインと物理ドメインの両方において,包括的かつ厳密な実験を行い,提案手法のあらゆる攻撃の有効性を実証した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:11:44 GMT)
EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving [17.6] EvaDriveは、自動運転のための新しい強化学習フレームワークである。
ヒューマンライクな反復的意思決定のためのクローズドループ対向フレームワークを提供する。
NAVSIMとBench2Driveベンチマークの大規模な実験では、SOTAのパフォーマンスが示されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:26:28 GMT)
Optimizing Bipedal Locomotion for The 100m Dash With Comparison to Human Running [17.4] 本稿では,ハードウェア上での超高速走行を実現することを目的として,歩行効率の最適化手法を提案する。
これは、結果として生じる歩幅が、四足歩行と比較して非常に効率的であることが知られている人間のランニングメカニクスとどのように比較されるのかという疑問を提起する。
カッシーと人間の形態的差異にもかかわらず、歩行の重要な特性は幅広い速度で非常によく似ていることが判明した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:39:27 GMT)
Entity Representation Learning Through Onsite-Offsite Graph for Pinterest Ads [17.3] 我々は,ユーザのオンサイトおよびオフサイト変換活動に基づく大規模異種グラフを開発する。
我々は,新しい知識グラフ埋め込み(KGE)モデルであるTransRAを導入し,グラフ埋め込みをより効率的にAdsランキングモデルに統合する。
我々はClick-Through Rate (CTR) とConversion Rate (CVR) の予測モデルにおいて重要なAUCリフトを観測する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 23:18:40 GMT)
Towards Optimal Aggregation of Varying Range Dependencies in Haze Removal [17.3] 既存の手法は、局所的な詳細を保存するための短距離依存関係や、グローバルなコンテキストを捉えるための長距離依存関係を専門にすることで、顕著な成功を収めている。
DehazeMaticを提案する。これは、デュアルストリーム設計により、短距離および長距離の両方の依存関係を同時に、かつ明示的にキャプチャする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:52:51 GMT)
LumiNet: Perception-Driven Knowledge Distillation via Statistical Logit Calibration [17.3] 本稿では,ロジットに基づく蒸留を促進するために設計された新しい知識蒸留アルゴリズムであるLumiNetを紹介する。
モデル表現能力に基づいてロジットを校正することを目的としたパーセプションの概念を導入する。
LumiNetは、CIFAR-100、ImageNet、MSCOCOなどのベンチマークに優れ、主要な機能ベースのメソッドよりも優れています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:59:01 GMT)
D3: Training-Free AI-Generated Video Detection Using Second-Order Features [17.3] 差分検出法(D3)は,合成ビデオの新しいトレーニング不要検出法である。
4つのオープンソースデータセット上でのD3の優位性を検証する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:05:49 GMT)
ADSeeker: A Knowledge-Infused Framework for Anomaly Detection and Reasoning [17.2] 本稿では,知識基底推論による検査性能向上を目的とした異常タスクアシスタントであるADSeekerを提案する。
業界異常検出(IAD)データの制限に対処するため,最大規模のADデータセットであるMulA(Multi-type Anomaly)を導入する。
我々のプラグイン・アンド・プレイフレームワークであるADSeekerは、いくつかのベンチマークデータセットで最先端のゼロショット性能を実現しています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:05:06 GMT)
Prediction-Oriented Subsampling from Data Streams [17.2] データストリームからモデルを学ぶ上で重要な課題は、計算コストを管理しつつ、関連する情報をキャプチャすることだ。
関心の下流予測における不確実性を低減することに焦点を当てた情報理論手法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:30:28 GMT)
SA-3DGS: A Self-Adaptive Compression Method for 3D Gaussian Splatting [17.2] 近年の3次元ガウス平滑化は, 効率的かつ高品質な新規なビュー合成を向上している。
シーンを表すには多数のガウスポイントが必要で、高いストレージ要求と実用的なデプロイメントの制限につながります。
レンダリング品質を維持しながらストレージコストを大幅に削減するSA-3DGSを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:55:47 GMT)
Peer Effect Estimation in the Presence of Simultaneous Feedback and Unobserved Confounders [17.0] 既存の方法は、同時にフィードバックを無視しながら、観測されていない共同創設者に対処するか、あるいは、制限された線形仮定の下でフィードバックを考慮に入れます。
DIG2RSIは,同時フィードバックと非観測共起の両方に対処する新しいディープラーニングフレームワークである。
我々は、標準条件下での推定器の整合性を証明し、真のピア効果の回復を確実にする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:49:49 GMT)
Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery [16.9] Landsat30-AU(ランドサット30-AU)は、オーストラリア上空の4つのランドサット衛星によって収集された30メートルの解像度画像から構築された視覚言語データセットである。
データセットには、196,262枚の画像キャプチャーペアを含むLandsat30-AU-Capと、17,725個の人間の検証された視覚的質問応答(VQA)サンプルを含むLandsat30-AU-VQAの2つのコンポーネントが含まれている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:16:46 GMT)
Environmental Sound Classification on An Embedded Hardware Platform [16.9] Raspberry Piなどのハードウェアにデプロイした場合,大規模な事前学習型オーディオニューラルネットワークの性能がどう変化するかを分析する。
我々は,CPU温度,マイクロホン品質,音声信号量が性能に与える影響を実証研究した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 23:03:09 GMT)
Beyond the Surface: Enhancing LLM-as-a-Judge Alignment with Human via Internal Representations [16.9] LLMas-a-judgeはLLMas-a-judgeとして知られるパラダイムである
内部表現による「LLMas-a-judge」アライメント向上のためのフレームワークであるLAGERを提案する。
本研究では,Frask,HelpSteer,BIGGenの標準アライメントベンチマークをSpearman相関を用いて評価し,LAGERがこれらのベンチマークで最高のベースラインに対して最大7.5%の改善を実現していることを確認した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:18:36 GMT)
SustainableQA: A Comprehensive Question Answering Dataset for Corporate Sustainability and EU Taxonomy Reporting [16.9] 企業サステナビリティレポートと年次レポートから包括的なQAデータセットを生成するための,新しいデータセットとスケーラブルなパイプラインであるSustainableQAを紹介する。
195,000以上の多様なファクトイドと非ファクトイドのQAペアを持つSustainableQAは、高度な知識アシスタントの開発とベンチマークに有効なリソースである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:03:59 GMT)
FedPromo: Federated Lightweight Proxy Models at the Edge Bring New Domains to Foundation Models [16.8] Federated Learning(FL)は、分散データ上でディープラーニングモデルをトレーニングするための確立したパラダイムである。
我々はFedPromoを紹介した。FedPromoは、中央サーバに格納された大規模基盤モデルの、リモートクライアントのみにのみ遭遇する新しいドメインへの効率的な適応を可能にする新しいフレームワークである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:00:49 GMT)
On the Need to Rethink Trust in AI Assistants for Software Development: A Critical Review [16.8] 信頼は人間の意思決定とコラボレーションの基本的な概念である。
ソフトウェア工学の記事は、しばしば非公式に信頼という用語を使う。
関連する規律は、一般的に彼らの方法論と結果を確立された信頼モデルに組み込む。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:18:02 GMT)
Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? [16.7] Double-Benchは、大規模、多言語、マルチモーダル評価システムである。
ドキュメントRAGシステム内の各コンポーネントに対してきめ細かい評価を行う。
3,276のドキュメント(72,880ページ)と6言語で5,168のシングルホップクエリで構成されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:55:02 GMT)
Dual-disentangle Framework for Diversified Sequential Recommendation [16.7] DDSRec(Diversified Sequential Recommendation)のためのモデルに依存しないDual-Disanglingフレームワークを提案する。
このフレームワークは、相互作用モデリングと表現において不合理な視点を採用することにより、ユーザ関心と意図モデリングを洗練させる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:25:56 GMT)
How Can Objects Help Video-Language Understanding? [16.6] 本稿では,任意のコンピュータビジョンアルゴリズムを利用して視覚表現を抽出・構造化するフレームワークであるObjectMLを紹介する。
6つのビデオ質問ベンチマークの広範な評価を通じて、対象中心表現の明示的な統合が依然として必要であることを確認した。
意外なことに、連続的、構造化されたオブジェクト情報を定量化し、それらをプレーンテキストとして表現する単純なアプローチが最善である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:48:08 GMT)
Data-Driven Spectrum Demand Prediction: A Spatio-Temporal Framework with Transfer Learning [16.6] 本稿では,クラウドソーシングされたユーザサイドキーパフォーマンス指標(KPI)とデータセットを利用して,スペクトル需要を予測する効果的な規制予測フレームワークを提案する。
提案手法は, 高度な特徴工学, 包括的相関解析, 伝達学習技術を導入することにより, 予測精度と地域間一般化性を向上する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:24:55 GMT)
KBest: Efficient Vector Search on Kunpeng CPU [16.4] KBestは最新のHuawei Kunpeng 920 CPU用に設計されたベクトル検索ライブラリである。
KBestはハードウェア認識とアルゴリズムの最適化を多用している。
実験の結果,KBestはx86 CPUで動作するSOTAベクトル探索ライブラリより優れていることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:52:15 GMT)
Robust Sparse Bayesian Learning Based on Minimum Error Entropy for Noisy High-Dimensional Brain Activity Decoding [16.4] スパースベイズ学習は、脳信号復号における高次元問題の解決に有効なスキームを提供する。
二項法のようなデータ分布に関する従来の仮定は、脳活動のノイズ信号を特徴づけるには不十分である可能性がある。
この研究は、堅牢な脳のデコードを実現する強力なツールを提供し、脳-コンピュータインタフェースのような生体工学の応用を前進させる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:46:18 GMT)
Revisiting Deep Information Propagation: Fractal Frontier and Finite-size Effects [16.4] 本研究では,有限幅のランダムニューラルネットワークにおける情報伝達について検討し,秩序構造とカオス構造の境界がフラクタル構造を示すことを示した。
これは、入力データと最適化とは無関係な設定で、ニューラルネットワークのダイナミクスの基本的な複雑さを示しています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:49:24 GMT)
Generating Accurate Synthetic Survival Data by Conditioning on Outcomes [16.4] 合成されたデータは、プライバシ、公正性、データアクセシビリティを改善することができる。
この設定における重要な課題の1つは検閲、すなわちイベントのタイミングが不明な場合である。
既存の手法では、合成データを生成する際に観測時間と検閲時間の両方の分布を正確に再現することが困難である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:45:08 GMT)
Diffuse-CLoC: Guided Diffusion for Physics-based Character Look-ahead Control [16.3] 物理に基づくルックアヘッド制御のためのガイド付き拡散フレームワークであるDiffuse-CLoCを提案する。
直感的で、ステアブルで、物理的にリアルなモーション生成を可能にする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:46:24 GMT)
Learning Interpretable Queries for Explainable Image Classification with Information Pursuit [16.2] Information Pursuit (IP) は、データに関する解釈可能なクエリのシーケンスを欲求的に選択する説明可能な予測アルゴリズムである。
本稿では,データセットから直接解釈可能なクエリの辞書を学習する,新しいアプローチを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:31:31 GMT)
Do language models accommodate their users? A study of linguistic convergence [16.0] モデルは会話のスタイルに強く収束し、しばしば人間のベースラインに対してかなり過度に適合する。
モデル設定間の収束の連続的な変化を観察し、事前訓練されたモデルよりも少ない精度で収束する命令調整および大規模モデルについて考察する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:55:40 GMT)
AttZoom: Attention Zoom for Better Visual Features [15.7] 我々は、畳み込みニューラルネットワーク(CNN)における特徴抽出を改善するために設計されたモデルに依存しない空間的注意機構である注意型Zoomを提案する。
本手法では,入力中の高重要領域を空間的に強調するスタンドアロン層を導入する。
Grad-CAMと空間ゆらぎを用いた視覚解析により,本手法は細粒度,多彩な注意パターンを助長することが示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:42:08 GMT)
FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing [15.6] シーンテキスト編集は、背景に整合したテキストの忠実さと全体的な視覚的品質を確保しながら、画像上のテキストを修正または追加することを目的としている。
最近の手法は主にUNetベースの拡散モデルに基づいており、シーンテキストの編集結果が改善されたが、複雑なグリフ構造に苦戦している。
単純かつ高度な多言語シーンテキスト編集用DiT法である textbfFLUX-Text を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:34:24 GMT)
Reinforcement Learning for Target Zone Blood Glucose Control [15.6] 強化学習は治療のパーソナライズを約束するが、介入の遅延と不均一な効果に苦しむ。
本稿では,自動インスリンデリバリーなどT1DM技術における意思決定を支援するための新しいRLフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:35:41 GMT)
Frontier: Simulating the Next Generation of LLM Inference Systems [15.6] 私たちはFrontierを紹介します。Frontierは、この新しい風景のためにゼロから設計された高忠実度シミュレータです。
同時に配置されたシステムと分離されたシステムの両方をモデル化するための統一されたフレームワークを導入している。
これにより、クラスタ間のエキスパートルーティングや、遅延隠蔽のための高度なパイプライン戦略といった複雑なシミュレーションが可能になる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:53:28 GMT)
EoH-S: Evolution of Heuristic Set using LLMs for Automated Heuristic Design [15.6] 大規模言語モデル(LLM)駆動型自動ヒューリスティックデザイン(AHD)の新しい定式化を提案する。
AHSDの目的は、多様な問題インスタンスを提供するための小さな補完セットを自動生成することである。
AHSDの目的関数は単調で超モジュラーであることを示す。
相補的な集団管理と相補的なミーメティックサーチの2つの新しいメカニズムにより、EoH-Sは、高品質で相補的な一般化のセットを効果的に生成することができた。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:55:03 GMT)
Monocular Depth Estimation with Global-Aware Discretization and Local Context Modeling [15.6] 局所的および大域的両方の手がかりを組み合わせて予測精度を向上させる新しい深度推定法を提案する。
具体的には,Gated Large Kernel Attention Module (GLKAM)を提案する。
ネットワークのグローバルな認識をさらに高めるため、Global Bin Prediction Module (GBPM)を導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:51:37 GMT)
Why do LLMs attend to the first token? [15.5] 大規模言語モデル(LLM)は、シーケンスの最初のトークンに大きく関与する傾向があり、いわゆるアテンションシンクを生成する。
我々は、このメカニズムがLLMの過剰混合を回避する方法を提供すると理論的、実証的に主張する。
理論的直観を検証し、文脈長、深さ、データパッキングなどの選択がシンク行動にどのように影響するかを示す実験を行う。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:43:21 GMT)
SolarSeer: Ultrafast and accurate 24-hour solar irradiance forecasts outperforming numerical weather prediction across the USA [15.5] SolarSeer (SolarSeer) は、米国大陸を横断する太陽照射予測のための、エンドツーエンドの大規模人工知能(AI)モデルである。
過去の衛星観測を直接将来の予測にマッピングし、データの同化とPDEの解決の計算オーバーヘッドをなくすように設計されている。
太陽放射の根平均2乗誤差を27.28%減らし、1,800局で15.35%減らす。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:57:22 GMT)
LADSG: Label-Anonymized Distillation and Similar Gradient Substitution for Label Privacy in Vertical Federated Learning [15.5] VFL(Vertical Federated Learning)のための統一的で軽量な防衛フレームワークであるLADSG(Lallel-Anonymized Defense with Substitution Gradient)を提案する。
LADSGはまず、ソフト蒸留により真のラベルを匿名化し、セマンティックな露出を減らす。
6つの実世界のデータセットに対する大規模な実験により、LADSGは3種類のラベル推論攻撃の成功率を30~60%削減し、計算オーバーヘッドを最小限に抑え、その実用性を示している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:48:49 GMT)
AI-driven Wireless Positioning: Fundamentals, Standards, State-of-the-art, and Challenges [15.4] AI/機械学習(ML)ベースの細胞位置決めは、従来の手法の限界を克服するための重要な技術になりつつある。
我々は、最先端のSOTA(State-of-the-art)研究を、AI/ML支援位置決めとAI/MLベース位置決めの2つの主要なクラスに分類し、まとめる。
我々は、AI駆動の無線位置決めの課題と機会をまとめて結論付ける。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:06:54 GMT)
Multi-Granularity Feature Calibration via VFM for Domain Generalized Semantic Segmentation [15.4] ドメイン一般化セマンティック(DGSS)は、トレーニング中にターゲットデータにアクセスすることなく、目に見えないドメインにまたがるモデルの一般化能力を改善することを目的としている。
DGSSの最近の進歩は、パラメータ効率の良い微調整戦略を通じて、視覚基盤モデル(VFM)をますます活用している。
ドメインシフト下での強靭性を高めるために,VFM特徴の粗大なアライメントを行う新しいフレームワークであるMulti-Granularity Feature (MGFC)を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:24:31 GMT)
MedCAL-Bench: A Comprehensive Benchmark on Cold-Start Active Learning with Foundation Models for Medical Image Analysis [15.4] CSAL (Cold-Start Active Learning) は、事前の知識を必要とせずに、アノテーションのための情報的サンプルを選択することを目的としている。
既存のCSALメソッドの多くは、特徴抽出のためにターゲットデータセットの自己監視学習(SSL)に依存している。
MedCAL-Benchは,医療画像解析のためのFMベースのCSALベンチマークである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:39:39 GMT)
CADDesigner: Conceptual Design of CAD Models Based on General-Purpose Agent [15.3] 大規模言語モデル(LLM)を用いたCAD概念設計のためのエージェントを提案する。
CIP(Context-Independent Imperative Paradigm)に基づいて構築され、高品質なCADモデリングコードを生成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:26:43 GMT)
Reliable Programmatic Weak Supervision with Confidence Intervals for Label Probabilities [15.2] 本稿では,ラベル確率の信頼区間を提供し,より信頼性の高い予測を行うプログラム弱監視手法を提案する。
複数のベンチマークデータセットを用いた実験により,提案手法の最先端性の向上と,提示される信頼区間の実用性を示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:34:04 GMT)
Long-tailed Adversarial Training with Self-Distillation [15.2] 本研究は,長期分布におけるテールクラスの性能向上に苦慮していることを示す。
本研究では, 長期分布における対向ロバスト性向上のための新しい自己蒸留法を提案する。
本実験は, 長距離対向ロバスト性に対して, クリーンかつロバストな両精度で, 最先端の性能を示すものである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:59:11 GMT)
NLP Methods May Actually Be Better Than Professors at Estimating Question Difficulty [15.1] 様々な大規模言語モデルに基づく手法を3人の教授と比較し,真偽試験質問に対する学生の正解率を推定した。
教師付き学習環境におけるLLMの不確実性を用いて,42のトレーニングサンプルを用いて,より優れた結果を得た。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:12:38 GMT)
Beyond Policy Optimization: A Data Curation Flywheel for Sparse-Reward Long-Horizon Planning [15.1] スパース環境のためのロバスト推論モデルを開発するための3段階フレームワークを提案する。
本フレームワークは,長短連鎖融合を用いた計画四元数を用いた効率的な推論をブートストラップする。
ALFWorld、ScienceWorld、WebShopの実験は、我々のアプローチがトークンの効率を著しく向上することを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:56:58 GMT)
SALAD: Systematic Assessment of Machine Unlearning on LLM-Aided Hardware Design [15.0] 大規模言語モデル(LLM)は、ハードウェア設計自動化のための変換機能を提供する。
LLMは、Verilog評価データ汚染、知的財産権(IP)設計リーク、悪意のあるVerilog生成のリスクなど、重要なデータセキュリティ上の課題を提起する。
SALADは、機械学習を利用してこれらの脅威を緩和する包括的アセスメントである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:08:15 GMT)
Retinal Lipidomics Associations as Candidate Biomarkers for Cardiovascular Health [15.0] 本研究では,血清脂質サブクラス,遊離脂肪酸(FA),ジアシルグリセロール(DAG),トリアシルグリセロール(TAG),コレステリルエステル(CE)の関係について検討した。
FAは網膜血管ゆがみと相関し,CEは平均血管幅および静脈幅と相関した。
これらの結果から,網膜血管構築は脂質の循環プロファイルを反映し,全身代謝の非侵襲マーカーとしての役割を担っていることが示唆された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:07:02 GMT)
Nexus-INR: Diverse Knowledge-guided Arbitrary-Scale Multimodal Medical Image Super-Resolution [15.0] 任意分解能超解像は、多様な空間分解能に適応することにより、医用画像解析に重要な柔軟性を提供する。
従来のCNNベースの手法は、基本的にARSRには適さない。
高品質で適応性のある医用画像の超高解像度化を実現するために,様々な情報と下流タスクを利用する多言語知識誘導ARSRフレームワークであるNexus-INRを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:44:35 GMT)
Diffusion Once and Done: Degradation-Aware LoRA for Efficient All-in-One Image Restoration [14.9] Diffusion Once and Done (DOD) 法は, 安定拡散(SD)モデルの1段階サンプリングのみで, 優れた復元性能を実現することを目的としている。
本手法は,視覚的品質と推論効率の両方において,既存の拡散型修復手法よりも優れる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:26:28 GMT)
Can Large Vision-Language Models Understand Multimodal Sarcasm? [14.9] サルカスム(Sarcasm)は、リテラルと意図された意味の相違を含む複雑な言語現象である。
マルチモーダルサルカズム解析(MSA)タスクにおける大規模視覚言語モデル(LVLM)の評価を行った。
深度オブジェクト抽出と外部概念知識を統合した学習自由フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:05:11 GMT)
Adaptive AI Agent Placement and Migration in Edge Intelligence Systems [14.8] 本稿では,エッジインテリジェンスシステムにおけるAIエージェント配置とマイグレーションのための新しいフレームワークを提案する。
エージェントを自律的に配置してリソース利用を最適化し、必須状態のみを転送することで、軽量なエージェントマイグレーションを可能にする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:47:46 GMT)
Aligning Constraint Generation with Design Intent in Parametric CAD [14.7] エンジニアリングスケッチは、制約によって連結された幾何学的プリミティブで構成されている。
設計が容易に編集できるように、制約は設計意図を効果的に捉えなければならない。
生成CADモデルの整列に向けた重要な第一歩は、すべての幾何学的プリミティブを完全に制約する制約を生成することである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:29:54 GMT)
Efficient Variational Quantum Algorithms via Circuit Knitting and Architecture Search [14.7] 変動量子アルゴリズム(VQA)に回路ニットを適用するフレームワークであるCKVQAを紹介する。
CKVQAは,アルゴリズム性能とサンプリングオーバーヘッドのバランスが良好であるパラメータ化量子回路を同定し,サンプリングオーバーヘッドを最小化することを目的としている。
我々は,VQAのトレーニングを高速化し,全体の実行時間を短縮するサブ回路レベルの最適化手法を開発した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:27:19 GMT)
Entropy-Lens: The Information Signature of Transformer Computations [14.6] 語彙空間におけるトークンレベルの分布の進化を直接研究する。
我々は,各中間予測分布のシャノンエントロピーを計算し,各層に1つの解釈可能なスカラーを与える。
本稿では, 既成の冷凍変圧器からエントロピープロファイルを抽出するモデルに依存しないフレームワークであるEntropy-Lensを紹介する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:02:18 GMT)
Statistical QoS Provision in Business-Centric Networks [14.6] Business-Centric Network(BCN)は、アプリケーション、トランスポートパラメータ、チャネルの関係をキャプチャするクロスレイヤフレームワークである。
電力と帯域幅の割り当て、送信パラメータ、APネットワークトポロジを共同で検討することにより、重み付けされた資源効率を最適化する。
トレーニングを加速し、報酬を高めるために、新しいマルチスレッド体験共有機構を導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:19:04 GMT)
RAVID: Retrieval-Augmented Visual Detection: A Knowledge-Driven Approach for AI-Generated Image Identification [14.4] RAVIDは、視覚検索強化生成(RAG)を活用するAI生成画像検出のための最初のフレームワークである
提案手法では,表現学習を改善するためにカテゴリ関連プロンプトを付加した細調整のCLIP画像エンコーダであるRAVID CLIPを利用する。
RAVIDの平均精度は80.27%で、最先端のC2P-CLIPでは63.44%である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 23:10:56 GMT)
Seeing It Before It Happens: In-Generation NSFW Detection for Diffusion-Based Text-to-Image Models [14.4] In-Generation Detection (IGD) は、拡散過程中の予測ノイズを内部信号として利用し、NSFWの内容を識別する単純な方法である。
IGDの平均検出精度は91.32%で、NSFWプロンプトは7つのベースライン法より優れている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:23:30 GMT)
Augmented Adversarial Trigger Learning [14.4] 我々は、敵のトリガー学習の目的を詳しく検討し、ATLA:Adversarial Trigger Learning with Augmented objectivesを提案する。
ALTAは1つのクエリ-レスポンスペアから逆トリガを学習し、学習したトリガは他の類似したクエリとよく合うように一般化する。
我々は、ATLAが現在の最先端技術より一貫して優れており、80%のクエリを必要としながら攻撃にほぼ100%成功していることを実証した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:38:51 GMT)
Out-of-Context Relational Reasoning in Large Language Models [14.3] 新たに導入されたトークンの表現を学習するだけで,Large Language Models (LLM) が二項関係の文脈外推論をいかにうまく行うかを検討する。
我々の実験は、平等(=$)、不平等($)、包含($subset$)およびそれらが満たす特性に焦点を当てている。
LLMは、ランダムな精度よりも優れているが、バイナリ関係を含む比較的単純な推論タスクであっても、まだ完璧ではない。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:45:28 GMT)
V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models [14.3] 本稿では, DPO と SFT を統合した有効蒸留法 ReDPO を提案する。
提案手法はDPOを利用して,教師を受動的に模倣するのではなく,対象物のみを回収することに集中するよう学生モデルに誘導する。
さらに、高品質なペアデータセットのフィルタリングとキュレーションのための新しいフレームワークであるV.I.P.と、校正トレーニングのためのステップバイステップオンラインアプローチを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:31:54 GMT)
FCDM: A Physics-Guided Bidirectional Frequency Aware Convolution and Diffusion-Based Model for Sinogram Inpainting [14.0] フルビューのシノグラムは高い放射線線量と長いスキャン時間を必要とする。
スパースビューCTは、この負担を軽減するが、構造的な信号損失を伴う不完全なシノグラムを生じる。
本研究では,Ninogram に適した拡散型フレームワークであるmodelnameを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:49:04 GMT)
VideoForest: Person-Anchored Hierarchical Reasoning for Cross-Video Question Answering [14.0] ビデオ間の質問応答は、従来のシングルビデオ理解以上の大きな課題を提示する。
我々は、人による階層的推論を通じてこれらの課題に対処する、新しいフレームワークであるVideoForestを紹介する。
提案手法では,ビデオ間の自然なブリッジポイントとして人間レベルの特徴を活用し,エンドツーエンドのトレーニングを必要とせず,効果的にビデオ間の理解を可能にする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:33:24 GMT)
Tree-of-Reasoning: Towards Complex Medical Diagnosis via Multi-Agent Reasoning with Evidence Tree [14.0] 複雑なシナリオを扱うために設計された新しいマルチエージェントフレームワークであるTree-of-Reasoning (ToR)を提案する。
具体的には、大規模言語モデル(LLM)の推論経路とそれに対応する臨床証拠を明確に記録できるツリー構造を導入する。
同時に,マルチエージェント意思決定の整合性を確保するためのクロスバリデーション機構を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:31:28 GMT)
Revisiting Heat Flux Analysis of Tungsten Monoblock Divertor on EAST using Physics-Informed Neural Network [13.8] 核融合装置EASTにおける熱フラックスの推定は極めて重要な課題である。
FEMは計算のグリッドベースのサンプリングに依存しており、計算的に非効率であり、リアルタイムのシミュレーションを行うのが困難である。
本稿では,この課題に対処する新しい物理情報ニューラルネットワーク(PINN)を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:42:02 GMT)
CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [13.7] 音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:06:16 GMT)
KAN or MLP? Point Cloud Shows the Way Forward [13.7] 我々は、クラウド分析タスクにKAN(Kolmogorov-Arnold Learning Networks)を適用したPointKANを提案する。
我々は、ModelNet40、ScanNN、ShapeNetPartなどのベンチマークデータセットにおいて、PointKANがPointMLPより優れていることを示す。
この研究は、3Dビジョンにおけるkansベースのアーキテクチャの可能性を強調し、ポイントクラウド理解における研究のための新たな道を開く。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:37:40 GMT)
Constraining the outputs of ReLU neural networks [13.6] 本稿では、ReLUニューラルネットワークに自然に関連付けられた代数多様体のクラスを紹介する。
各活性化領域内のネットワーク出力のランク制約を解析することにより、ネットワークが表現可能な関数を特徴付ける構造を導出する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:30:11 GMT)
Fast and Accurate Explanations of Distance-Based Classifiers by Uncovering Latent Explanatory Structures [13.6] 距離ベース分類器に隠れたニューラルネットワーク構造を明らかにすることで貢献する。
本稿では,2つの実践事例を通して距離モデルを説明することの全体的な有用性を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:01:58 GMT)
MILD: Multi-Layer Diffusion Strategy for Complex and Precise Multi-IP Aware Human Erasing [13.6] 本稿では,多彩なポーズのバリエーションと複雑な背景を持つ高品質なマルチIPヒューマン消去データセットを提案する。
次に、各インスタンスと背景に対して意味的に分離された経路に生成を分解する新しい戦略であるMulti-Layer Diffusion (MILD)を提案する。
人間中心の理解を深めるために、ポーズ、パーシング、空間関係を統合したヒューマン・モルフォロジー・ガイダンスを導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:56:24 GMT)
StoryEnsemble: Enabling Dynamic Exploration & Iteration in the Design Process with AI and Forward-Backward Propagation [13.4] 設計プロセスには、ペルソナの生成、問題フレーミング、ソリューションの構想、プロトタイピングなど、相互に結びついた段階にわたる探索、反復、移動が含まれる。
これらの課題をより深く理解するために、UX実践者、学生、インストラクターからなる15人の参加者を対象に、フォーマティブな研究を行った。
この結果に基づいて、私たちは、ノードリンクインターフェースにAIを統合するツールであるStoryEnsembleを開発し、前方および後方の伝搬を活用して、設計プロセス全体の動的探索とイテレーションをサポートする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:47:23 GMT)
Vision without Images: End-to-End Computer Vision from Single Compressive Measurements [13.3] Snapshot Compressed Imaging (SCI)は、高速、低帯域幅、エネルギー効率の画像取得を提供する。
高解像度センサーにおける実用的なハードウェア制約は、大きなフレームサイズのマスクの使用を制限する。
本稿では,仮想的に実現可能な実装のために,仮想ランダムな2値マスクを8ドル(約8,800円)程度しか持たない,新しいSCIベースのコンピュータビジョンフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:56:39 GMT)
On the Evaluation of Large Language Models in Multilingual Vulnerability Repair [13.3] 大きな言語モデル(LLM)は言語に依存しない機能と強力な意味理解を提供する。
大規模言語モデル(LLM)の最近の進歩は、言語に依存しない機能と強力な意味理解を提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:05:32 GMT)
PatchDSU: Uncertainty Modeling for Out of Distribution Generalization in Keyword Spotting [13.2] 不確実性を伴うドメインシフト(DSU)は、入力特徴統計に基づいて、各ニューラルネットワーク層の入力を強化する。
コンピュータビジョンに有効であるが、DSUを音声に適用することは、データの性質による課題を提示する。
そこで我々は,DSUを拡張したPatchDSUを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:57:01 GMT)
ParticleSAM: Small Particle Segmentation for Material Quality Monitoring in Recycling Processes [13.1] 分割基礎モデルの小型で高密度な画像への適応であるParticleSAMを提案する。
我々は、自動データ生成およびラベリングパイプラインの助けを借りて、孤立した粒子画像からシミュレーションされた新しい高密度多粒子データセットを作成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:20:14 GMT)
Untraceable DeepFakes via Traceable Fingerprint Elimination [13.0] 追跡不能なDeepFakeは乗算攻撃によって実現でき、GMのトレースを根本的に排除することができる。
我々は、実データのみを用いて敵モデルを訓練する普遍的かつブラックボックス攻撃法を設計する。
我々の研究は、乗法攻撃による潜在的な課題を強調し、より堅牢な帰属モデルの必要性を強調している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:27:57 GMT)
Think Outside the Data: Colonial Biases and Systemic Issues in Automated Moderation Pipelines for Low-Resource Languages [13.0] AIによるモデレーションシステムは、Global Southで話されている低リソース言語と競合する。
調査の結果,データ不足に加えて,IT企業によるユーザデータの独占といった社会的政治的要因が,歴史的不平等を悪化させることが明らかとなった。
これらの制限は、単に「データ不足」によって引き起こされる技術的なギャップであるだけでなく、非西洋語の植民地的抑圧に根ざした構造的不平等を反映している、と我々は主張する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:46:59 GMT)
Mind the Gap: The Divergence Between Human and LLM-Generated Tasks [13.0] 大規模言語モデル(LLM)を用いたエージェントとヒューマンタスク生成の比較を行った。
人間のタスク生成は、個人的価値観や認知スタイルを含む心理的ドライバの影響を一貫して受けている。
我々は,人間の認知の価値観,具体的性質とLLMの統計的パターンとの間には,中核的なギャップが存在すると結論付けた。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:10:21 GMT)
Anti-Tamper Protection for Unauthorized Individual Image Generation [12.9] ATP(Anti-Tamper Perturbation)は、摂動のタンパー防御機構である。
ATPは様々な攻撃設定で偽造攻撃を防御する効果を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:34:25 GMT)
Streaming Generated Gaussian Process Experts for Online Learning and Control [12.8] 我々は、アンダーラインガウスアンダーラインプロセス(SkyGP)のアンダーラインストリーム化によるプログレッシブランダーライン生成の専門家フレームワークを提案する。
SkyGPは、束縛された専門家の集合を維持しながら、正確なガウス過程から学習性能保証を継承することで、計算とメモリの制約に対処する。
予測精度を最大化する(SkyGP-Dense)か、計算効率を改善する(SkyGP-Fast)。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:50:03 GMT)
Attack the Messages, Not the Agents: A Multi-round Adaptive Stealthy Tampering Framework for LLM-MAS [12.6] 言語モデルに基づく大規模マルチエージェントシステム(LLM-MAS)は,エージェント間通信によって複雑な動的タスクを効果的に実現する。
LLM-MASを標的とする既存の攻撃方法は、エージェント内部を妥協するか、直接的および過度な説得に依存している。
システム内の通信脆弱性を利用したマルチラウンド適応型ステルスタイピングフレームワークであるMASTを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:14:53 GMT)
Live Demonstration: Neuromorphic Radar for Gesture Recognition [12.6] 本稿では,生物センシングにインスパイアされたイベント駆動型アーキテクチャを用いて,リアルタイム・低消費電力ハンドジェスチャ認識(HGR)のためのニューロモルフィックレーダフレームワークを提案する。
本システムは24GHzドップラーレーダのフロントエンドと、中間周波数(IF)信号をスパーススパイクベース表現に変換する独自のニューロモルフィックサンプリング器を備える。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:06:22 GMT)
Compressing Chain-of-Thought in LLMs via Step Entropy [12.6] Chain-of-Thought (CoT) を用いた大規模言語モデル (LLM) は複雑な推論において優れるが、かなりの冗長性を持つ思考プロセスを生成し、推論コストが増加し効率が低下する。
本稿では,ステップエントロピーに基づく新しいCoT圧縮フレームワークを提案する。これは,個々の推論ステップの情報的寄与を定量化し,冗長性を識別する指標である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:48:18 GMT)
Energy-Efficient Stochastic Computing (SC) Neural Networks for Internet of Things Devices With Layer-Wise Adjustable Sequence Length (ASL) [12.4] Adjustable Sequence Length (ASL)は、ニューラルネットワーク(NN)に特異的に混合精度の概念を適用する新しいスキームである。
本稿では,SC NN に対して混合精度の概念を適用した新しいスキーム ASL を紹介する。
32nmで合成されたパイプラインSCの評価は、ASLがエネルギーと遅延オーバーヘッドを最大60%削減できることを示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:45:24 GMT)
BaroPoser: Real-time Human Motion Tracking from IMUs and Barometers in Everyday Devices [12.4] スマートフォンとスマートウォッチで記録された、IMUとバロメトリックデータを組み合わせて、人間のポーズとグローバルな翻訳をリアルタイムで推定する、最初の方法であるBaroPoserを提案する。
本研究では, センサの高さ変化を推定し, 人間のポーズ推定精度の向上と非平坦な地形でのグローバルな翻訳予測の両立を図った。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:46:59 GMT)
Stereographic Multi-Try Metropolis Algorithms for Heavy-tailed Sampling [12.3] 本稿では、重み付きターゲットからの効率的なサンプリングのための、勾配のないMCMCアルゴリズムの新たなファミリを紹介する。
提案手法は, 従来のユークリッドMTMと既存の立体ランダムウォークMetropolis法に勝るだけでなく, MTMでよく見られる病理収束挙動を回避している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:40:04 GMT)
Beyond Surface-Level Detection: Towards Cognitive-Driven Defense Against Jailbreak Attacks via Meta-Operations Reasoning [12.3] 大規模な言語モデルをジェイルブレイク攻撃から守ることは、安全で信頼性の高いデプロイメントに不可欠である。
本稿では,メタオペレーションを適用することでジェイルブレイクプロンプトの基盤となる構造を目標とする認知駆動型防衛フレームワークを提案する。
実験により、CDDは最先端の防御性能を達成でき、目に見えないジェイルブレイク攻撃に対する強力な一般化を示すことが示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:58:15 GMT)
Board Game Arena: A Framework and Benchmark for Assessing Large Language Models via Strategic Play [12.2] Board Game Arenaライブラリは、Google OpenSpielライブラリに実装された戦略的ボードゲームを通じて、大きな言語モデル(LLM)の決定能力を評価するためのフレームワークを提供する。
LiteLLMによるモデルへのAPIアクセス、vLLMによるローカルモデルデプロイメント、Rayによる分散実行を提供する。
本稿では,レポジトリの構造,特徴,モチベーションを要約し,LLMの推論とゲーム理論的振る舞いの実証的評価にどのように貢献するかを明らかにする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:15:59 GMT)
Multi-Modal Multi-Task Federated Foundation Models for Next-Generation Extended Reality Systems: Towards Privacy-Preserving Distributed Intelligence in AR/VR/MR [12.1] 我々は,マルチモーダルマルチタスク(M3T)フェデレーション基盤モデル(FedFM)が,XRシステムに変換機能を提供することを想定する。
モデルトレーニングとアグリゲーションのための異なる調整パラダイムを必要とするFedFMのモジュラーアーキテクチャを提案する。
この視点は、次世代のXRシステムにおいて、コンテキスト対応のプライバシ保護インテリジェンスのための技術的および概念的な基礎をグラフ化することを目的としている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 23:18:51 GMT)
Imbalance-Robust and Sampling-Efficient Continuous Conditional GANs via Adaptive Vicinity and Auxiliary Regularization [12.1] CcGAN(Continuous Conditional Generative Adversarial Network)とCCDM(Continuous Conditional Diffusion Model)
CcGANは固定サイズ近傍の制約によりデータ不均衡に悩まされ、CCDMは計算コストのかかる反復サンプリングを必要とする。
1) GANフレームワークのネイティブワンステップ生成を活用してCCDMのサンプリングボトルネックを克服し、(2)データ不均衡を特にターゲットとする2つの新しいコンポーネントを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:15:18 GMT)
Toward a Trustworthy Optimization Modeling Agent via Verifiable Synthetic Data Generation [12.0] 本稿では,信頼性の高い大規模言語モデル(LLM)エージェントを合成データ生成パイプラインを介して訓練するためのフレームワークを提案する。
OptiTrustは、自然言語からソルバ対応コードへの多言語翻訳を行うモジュール型LLMエージェントである。
我々のエージェントは、標準ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:54:20 GMT)
From Text to Trajectory: Exploring Complex Constraint Representation and Decomposition in Safe Reinforcement Learning [11.9] 手作業で設計したコスト関数を置き換えるために,T Trajectory-level Textual Constraints Translator (TTCT)を導入した。
実験の結果,TTCTはテキストの制約や軌道を効果的に理解しており,TTCTが訓練したポリシーは標準コスト関数よりも低い違反率が得られることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:50:26 GMT)
SMART-Editor: A Multi-Agent Framework for Human-Like Design Editing with Structural Integrity [11.8] SMART-Editorは、構造化(ポスター、ウェブサイト)と非構造化(自然画像)ドメイン間で構成レイアウトとコンテンツ編集を行うフレームワークである。
ローカル編集を行う従来のモデルとは異なり、SMART-Editorは2つの戦略によりグローバルコヒーレンスを保存する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:25:29 GMT)
BitsAI-Fix: LLM-Driven Approach for Automated Lint Error Resolution in Practice [11.8] BitsAI-FixはLarge Language Models (LLM)に基づく自動リントエラー修復ワークフローである。
ByteDanceのプロダクションデプロイメントでは、5,000人以上のエンジニアをサポートし、12,000以上の静的解析問題を解決し、約85%の修正精度を達成し、毎週1,000人のアクティブアダプターが参加しています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:17:30 GMT)
Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning [11.8] Causal CLIP Adapter(CCA)は、CLIPから抽出された視覚的特徴を明示的に分離する新しいフレームワークである。
本手法は, 分散シフトに対する数ショット性能とロバスト性の観点から, 常に最先端の手法より優れる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:30:42 GMT)
Parameter-Efficient Single Collaborative Branch for Recommendation [11.6] 本稿では、ユーザとアイテムNNモジュール間の重み共有を利用して、共有埋め込み空間における潜在表現を得る新しいRSを提案する。
提案するフレームワークは,1つのコラボレーティブブランチ・フォー・レコメンデーション(CoBraR)で構成されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:46:06 GMT)
Potential Score Matching: Debiasing Molecular Structure Sampling with Potential Energy Guidance [11.6] 本稿では、ポテンシャルエネルギー勾配を利用して生成モデルを導出する手法として、ポテンシャルスコアマッチング(PSM)を提案する。
PSMは正確なエネルギー関数を必要とせず、限られた偏りのデータで訓練してもサンプル分布を偏りなくすることができる。
PSMにより生成された分子分布は従来の拡散モデルよりもボルツマン分布に近似していることを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:07:32 GMT)
Dynaword: From One-shot to Continuously Developed Datasets [11.5] Dynawordは大規模でオープンなデータセットを作成するためのフレームワークで、コミュニティのコラボレーションを通じて継続的に更新できる。
デンマーク語のDynawordは、このアプローチを検証し、その可能性を実証する具体的な実装である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:27:09 GMT)
Clinical Expert Uncertainty Guided Generalized Label Smoothing for Medical Noisy Label Learning [11.5] 従来,臨床ノートから画像ラベルを抽出し,大規模医用画像データセットを低コストで作成する手法が提案されてきた。
これらのアプローチは本質的に,臨床専門家の不確実性によるラベルノイズに悩まされている。
本稿では,臨床専門家による不確実性評価ベンチマークとラベル平滑化手法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:58:15 GMT)
Refining Critical Thinking in LLM Code Generation: A Faulty Premise-based Evaluation Framework [11.5] 本稿では,FPBenchを提案する。
ほとんどのモデルは、欠陥のある前提下での推論能力と最適コード生成性能が劣っている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:39:39 GMT)
NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models [11.2] シーン理解のためのマルチビュー・マルチモーダル評価ベンチマークであるNuPlanQA-Evalを紹介する。
また,NuPlanQA-1Mは,実世界の視覚的質問応答(VQA)ペア100万個からなる大規模データセットである。
評価の結果,エゴ中心の視点から,既存のMLLMがシーン特有の知覚と空間的推論を駆動する上で直面する重要な課題が明らかになった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:28:06 GMT)
Model Compression vs. Adversarial Robustness: An Empirical Study on Language Models for Code [11.2] コードに対するトランスフォーマーベースの言語モデルは、様々なソフトウェア分析タスクにおいて顕著なパフォーマンスを示している。
彼らの採用は高い計算コスト、推論速度の遅さ、環境への影響によって妨げられている。
プルーニング、量子化、知識蒸留といったモデル圧縮技術は、これらの課題に対処する上で大きな役割を果たしている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:32:32 GMT)
Wearable Music2Emotion : Assessing Emotions Induced by AI-Generated Music through Portable EEG-fNIRS Fusion [11.1] MEEtBrainは、感情分析のためのポータブルでマルチモーダルなフレームワークである
それは、AIが生成した音楽刺激とEEG-fNIRSの買収をワイヤレスヘッドバンドを介して統合する。
フレームワークの有効性を検証するため、20人の参加者による14時間のデータセットが収集された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:25:35 GMT)
When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models [11.0] 利用者の意見が、異なるモデル家族間でどのように梅毒を誘発するかを考察する。
ファースト・パーソン・プロンプトは、サード・パーソン・フレーミングよりも、常に高いサイコフィナンシー・レートを誘導する。
これらの知見は, サイコフィナンシーは表面レベルの人工物ではなく, 深層における学習知識の構造上のオーバーライドから生じることを示唆している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:26:47 GMT)
MoKA: Mixture of Kronecker Adapters [11.0] 低ランクなファミリーアダプタは、大きな言語モデルの生成能力を保ちながらパラメータサイズを効率的に制御するために一般的に使用される。
そこで我々は,Kronecker 製品の混合として重み更新をモデル化することにより,この制限に対処する新世代の Kronecker アダプタを提案する。
我々はLLaMA2-7BモデルとLLaMA3-8Bモデルの低ビット量子化バージョンを用いた命令調整および常識推論タスクの広範な実験を行った。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:58:14 GMT)
Cropping outperforms dropout as an augmentation strategy for training self-supervised text embeddings [10.9] 我々は、テキスト埋め込みの対照的な学習において、正ペア生成において最もよく知られた2つの拡張戦略を比較した。
ドメイン外のデータでは、結果として得られる埋め込みの質は、教師付きSOTAモデルより低いが、ドメイン内データでは、自己監督型微調整が高品質なテキスト埋め込みを生成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:54:01 GMT)
Forecasting When to Forecast: Accelerating Diffusion Models with Confidence-Gated Taylor [10.9] 拡散変換器(DiT)は視覚生成タスクにおいて顕著な性能を示した。
最近のトレーニングなしのアプローチでは、推論を加速するために過去の表現をキャッシュしたり再利用したりすることで、タイムステップにまたがる機能の冗長性を悪用している。
TaylorSeerはキャッシュ機能を使用して、Taylor拡張を通じて将来の機能を予測する。
そこで我々はTaylorベースの加速度をよりよく活用するための新しい手法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:13:39 GMT)
Towards Robust Image Denoising with Scale Equivariance [10.9] 我々は,空間的一様雑音のトレーニングから,空間的非一様劣化の推論まで,モデルがより適応できるようになることを論じる。
本稿では,HNM (Heterogeneous Normalization Module) とIGM (Interactive Gating Module) の2つの主要コンポーネントを備える頑健なブラインド認知フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:06:28 GMT)
Markov Chain Estimation with In-Context Learning [10.8] ランダムな遷移行列でマルコフ連鎖を設定し、次のトークンを予測するためにトランスフォーマーを訓練する。
モデルがその文脈から遷移確率を推定できるようなトランスフォーマーサイズとトレーニングセットサイズにはしきい値が存在することを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:55:17 GMT)
Agoran: An Agentic Open Marketplace for 6G RAN Automation [10.7] Agoranはエージェント型のマーケットプレースで、利害関係者を直接運用ループに持ち込む。
古代ギリシアのアダラに触発され、アゴランは3つの自律的なAI部門に権限を分配した。
ライブデモが公開されています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:17:03 GMT)
Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired [10.6] 視力障害8例(BVI)を主訴に来院した。
この結果から,現在のライブビデオAIは静的なシーンのガイダンスや回答を効果的に提供するが,ダイナミックな状況において必要不可欠なライブ記述の提供には不十分であることが示唆された。
我々は、実世界の利用に付加的なセンシング機能を導入することを含む、補助的なビデオAIエージェントへの影響について論じる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:59:02 GMT)
Separating Shared and Domain-Specific LoRAs for Multi-Domain Learning [10.6] 本稿では,共有とドメイン固有のLoRAが異なる部分空間に存在することを保証する手法を提案する。
提案手法を3つのデータセットを用いた行動認識に適用する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:04:32 GMT)
Automated Algorithmic Discovery for Gravitational-Wave Detection Guided by LLM-Informed Evolutionary Monte Carlo Tree Search [10.6] Evo-MCTSは、木構造探索と進化的最適化と大規模言語モデルを組み合わせて解釈可能なアルゴリズムソリューションを作成するフレームワークである。
MLG-1WSCベンチマークデータセット上で,最先端の重力波検出アルゴリズムよりも20.2%向上した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:18:20 GMT)
A Survey of AI Agent Registry Solutions [10.5] 自律型AIエージェントがクラウド、エンタープライズ、分散環境にわたってスケールするにつれ、標準化されたレジストリシステムの必要性が重要になっている。
本稿では,MCP の mcp.,A2A の Agent Card,NANDA の AgentFacts という,それぞれ独自の検証可能なメタデータモデルによって定義された3つの著名なレジストリアプローチについて検討する。
論文は、AIエージェントのインターネットのためのレジストリシステムの設計と採用を導くための提案と勧告で締めくくっている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:17:18 GMT)
Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting [10.5] 本稿では,外見符号と二元格子を統一する多スケール二元格子を提案する。
本手法は動的に分離された自律走行シーン再構築における幾何的精度を大幅に向上することを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:26:24 GMT)
The Multi-Round Diagnostic RAG Framework for Emulating Clinical Reasoning [10.5] 現代医学と漢方医学の両方をカバーする知識グラフであるDiagnosGraphを構築した。
口語患者の物語と学術的な医療知識のギャップを埋めるために、DiagnosGraphは1,908ドルの医療記録も導入している。
MRD-RAGがLSMの診断性能を向上させることを実証した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:27:55 GMT)
LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences [10.4] LiDARCrafterは、4D LiDARの生成と編集のための統一されたフレームワークである。
あらゆるレベルの忠実さ、可制御性、時間的一貫性において、最先端のパフォーマンスを達成する。
コードとベンチマークはコミュニティにリリースされている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:59:56 GMT)
Where and How to Enhance: Discovering Bit-Width Contribution for Mixed Precision Quantization [10.3] 混合精度量子化(Mixed precision Quantization、MPQ)は、ニューラルネットワークの精度・複雑さのトレードオフを実現するための効果的な量子化手法である。
本稿では,MPQタスクに対するビット幅演算を直接寄与するShapley-based MPQ(SMPQ)手法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:14:21 GMT)
Putnam-AXIOM: A Functional and Static Benchmark [10.3] 大規模言語モデル(LLM)の現在のベンチマークは飽和状態に近づき、トレーニングセットの汚染によってますます損なわれている。
我々は、有名なウィリアム・ローウェル・パットナム数学コンペティションのベンチマークであるPatnam-AXIOMを紹介する。
変更プロトコルは、同じように困難で目に見えないインスタンスの無制限ストリームを生成します。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:57:50 GMT)
Empathy Guidelines for Improving Practitioner Well-being & Software Engineering Practices [10.3] 共感は、ソフトウェアエンジニアリング(SE)において強力だが見過ごされる要素である
本稿では、実践者、チーム、組織を支援するために設計された17の行動可能な共感ガイドラインを紹介する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:44:12 GMT)
The Xeno Sutra: Can Meaning and Value be Ascribed to an AI-Generated "Sacred" Text? [10.3] 本稿では,大言語モデルを用いた架空の仏教「ストラ」を創出する事例について述べる。
テキストに見られる概念的微妙さ、豊かなイメージ、そしてアルーシオンの密度は、その機械的起源から慎重に否定するのを困難にしている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:28:00 GMT)
Can Large Language Models Adequately Perform Symbolic Reasoning Over Time Series? [10.2] 実世界の時系列のシンボリック推論を評価するためのベンチマークであるSymbolBenchを紹介する。
以前の取り組みとは異なり、SymbolBenchは様々な複雑さを持つ様々な記号形式にまたがっている。
本稿では,大規模言語モデルと遺伝的プログラミングを統合し,閉ループシンボリック推論システムを構築する統一フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:58:54 GMT)
Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.1] 思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:42:00 GMT)
Distribution-aware Knowledge Unification and Association for Non-exemplar Lifelong Person Re-identification [10.1] 生涯人物再識別(LReID)は、古い知識の保存と新しい情報への適応のバランスをとるという重要な課題に遭遇する。
本稿では,これらの制約を克服する新しい分布認識型知識統合とアソシエイトフレームワークを提案する。
実験の結果,DKUAは従来の手法よりも7.6%/5.3%,平均mAP/R@1の改善率および一般化能力に優れていた。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:44:29 GMT)
Investigating the Cognitive Response of Brake Lights in Initiating Braking Action Using EEG [10.1] ブレーキを踏む際に点灯するリアマウント式ストップランプは、速度やブレーキを減らさないようにドライバーに警告する主要なメカニズムである。
本稿では、異なるブレーキ光設計に対する被験者反応を測定するための新しい脳反応法を開発した。
脳波分析により、どちらの白熱電球系光も統計的に遅く、全てのLED系光よりも認知反応を誘発することがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:52:53 GMT)
Macroscopic entanglement between localized domain walls inside a cavity [10.0] 絡み合いは、空洞光子とピン付きドメイン壁の2つのマクロな集合モードの間の効果的な光学的相互作用によって媒介される。
ピン止め電位と光駆動周波数を制御することにより、安定な安定状態の絡み合いはミリケルビン温度範囲を超えて生き残ることができる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:50:23 GMT)
Open-Attribute Recognition for Person Retrieval: Finding People Through Distinctive and Novel Attributes [9.9] The Open-Attribute Recognition for Person Retrieval (OAPR) task aimed to retrieve individuals based on attribute cues, whether that attribute were seen in training。
本稿では,幅広い属性カテゴリをカバーする一般化可能なボディ部分表現の学習を目的とした,新しいフレームワークを提案する。
オープン属性認識のための4つの広く使われているデータセットを再構成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:18:01 GMT)
Neural Speech Extraction with Human Feedback [9.9] 本稿では,人間のフィードバックを反復的改善に用いる最初のニューラルターゲット音声抽出システムを提案する。
提案手法では,ユーザがTSE出力の特定のセグメントをマークし,編集マスクを生成する。
改良されたシステムは、マークされていない領域を保存しながら、マークされたセクションを改善します。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:35:36 GMT)
Energy-Based Reward Models for Robust Language Model Alignment [9.8] 省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:01:15 GMT)
NANDA Adaptive Resolver: Architecture for Dynamic Resolution of AI Agent Names [9.8] AdaptiveResolverは、AIエージェント通信の静的エンドポイント解決の制限に対処するために設計された、動的マイクロサービスアーキテクチャである。
従来のDNSや静的URLとは異なり、AdaptiveResolverはコンテキスト対応でリアルタイムな通信エンドポイントの選択を可能にする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:47:39 GMT)
ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools [9.8] 本稿では,23Kインスタンスからなる大規模マルチモーダルデータセットであるToolVQAを紹介する。
ToolVQAは現実世界の視覚的コンテキストと暗黙の多段階推論タスクを備え、実際のユーザインタラクションとの整合性が向上する。
このデータセットを構築するために,Depth-First Search(DFS)と動的インコンテキストのサンプルマッチング機構を組み合わせた新しいデータ生成パイプラインであるToolEngineを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:06:16 GMT)
Using the NANDA Index Architecture in Practice: An Enterprise Perspective [9.7] 自律型AIエージェントの普及は、従来のWebアーキテクチャから協調的なインテリジェントシステムへのパラダイムシフトを表している。
本稿では,セキュアで信頼性が高く,相互運用可能なAIエージェントエコシステムの基盤要件に対処する包括的なフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:27:27 GMT)
SmartLLMs Scheduler: A Framework for Cost-Effective LLMs Utilization [9.6] 大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示している。
多様なタスクにLLMをデプロイするための既存の最適化戦略は、静的スケジューリングに重点を置いている。
本稿では,動的かつ費用対効果の高いスケジューリングソリューションであるSmartLLMs Scheduler (SLS)を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:35:52 GMT)
How Do Generative Models Draw a Software Engineer? A Case Study on Stable Diffusion Bias [9.6] 我々は,ソフトウェア工学タスクに対する安定拡散モデルの3つのバージョンで表される性別と民族性バイアスを評価する。
結果は、すべてのモデルが、ソフトウェアエンジニアを代表する男性の数字に大きく偏っていることを示している。
しかしながら、すべてのモデルは、使用するプロンプトスタイルに関係なく、黒とアラブのフィギュアを著しく下回っている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:37:35 GMT)
Identifying actionable driver mutations in lung cancer using an efficient Asymmetric Transformer Decoder [9.5] 本研究は,6つの重要なNSCLCドライバ変異を検出するために,MIL(Multiple Instance Learning)技術を評価する。
クエリと様々な次元のキー値を用いて低クエリ次元を維持する非対称トランスフォーマーデコーダモデルを提案する。
ERBB2 や BRAF などの稀な変異を予測した場合, 平均3%, 4%以上で上位 MIL モデルを上回った。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:21:24 GMT)
Two-dimensional Sparse Parallelism for Large Scale Deep Learning Recommendation Model Training [9.5] ディープラーニングレコメンデーションモデル(DLRM)では、スパース埋め込みテーブルはスパースカテゴリの特徴を管理する重要なコンポーネントである。
本稿では,スケーラビリティの課題を克服する新しい2次元スパース並列化手法を提案する。
提案手法は,モデル性能の同等性を保ちながら,トレーニング効率を大幅に向上することを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:12:18 GMT)
FairPOT: Balancing AUC Performance and Fairness with Proportional Optimal Transport [9.5] 医療などのハイテイクな領域では、公正さは二進的な結果よりもリスクスコアよりも評価されることが多い。
本稿では,Fair Proportional Optimal Transport (FairPOT)を提案する。
また,FairPOTは,グローバルおよび部分的なAUCシナリオにおいて,既存の後処理技術より一貫して優れていることを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:13:08 GMT)
BDFirewall: Towards Effective and Expeditiously Black-Box Backdoor Defense in MLaaS [9.4] 本稿では,ブラックボックスシナリオにおけるバックドア攻撃対策の課題について述べる。
我々はまず、新しい視点、すなわちパッチされた領域への影響からバックドアトリガを分類し、それらを分割する: ハイビジョントリガー(HVT)、セミヴィジュアビリティトリガー(SVT)、ロービジョントリガー(LVT)。
この分類に基づいて、モデルアクセスを必要とせずに、これらのトリガを最も目立ったものから最も微妙なものへと取り除くプログレッシブディフェンスフレームワークであるBDFirewallを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:28:07 GMT)
How Well Do LLMs Represent Values Across Cultures? Empirical Analysis of LLM Responses Based on Hofstede Cultural Dimensions [9.3] ユーザの既知の国のステレオタイプ値に基づいて,大規模言語モデルがユーザに対して異なる値を示すかどうかを理解することが重要である。
我々は,5つのホフスティード文化次元に基づく一連のアドバイス要請で,異なるLCMを刺激する。
LLMは、ある価値の一方の側面と他方の側面を区別することができ、また、国が異なる価値を持っていることを理解できます。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:30:19 GMT)
Prototype-Enhanced Confidence Modeling for Cross-Modal Medical Image-Report Retrieval [9.2] イメージ・ツー・レポーティングやレポート・ツー・イメージ検索といったクロスモーダル検索タスクは,医療データに固有の曖昧さと変動性のために不可欠だが困難である。
既存のモデルは、ラジオロジーデータにおけるニュアンスで多段階のセマンティックな関係を捉えるのに苦労することが多く、信頼性の低い検索結果をもたらす。
本稿では,各モータリティの多段階プロトタイプを導入し,セマンティック・バリアビリティを向上し,検索ロバスト性を向上するPrototype-Enhanced Confidence Modelingフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:26:41 GMT)
3DRot: 3D Rotation Augmentation for RGB-Based 3D Tasks [9.2] 3DRotはプラグ・アンド・プレイで、カメラの光学中心の画像を回転させてミラーする。
古典的な3Dタスク, モノクロ3D検出による3DRotの検証を行った。
カメラ空間変換によって純粋に動作するため、3DRotは他の3Dタスクに簡単に転送できる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:38:20 GMT)
CAMEF: Causal-Augmented Multi-Modality Event-Driven Financial Forecasting by Integrating Time Series Patterns and Salient Macroeconomic Announcements [9.2] 金融予測のための多モードフレームワークであるCAMEF(Causal-Augmented Multi-Modality Event-Driven Financial Forecasting)を提案する。
1)政策文書と歴史的価格データの因果関係を捉えたマルチモーダル・フレームワーク,(2)2008年から2024年4月までの6種類のマクロ経済学的リリースを含む新たな金融データセット,および5つの米国主要金融資産の高周波実取引データ,(3)LLMに基づく対実イベント拡張戦略。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:00:01 GMT)
Proof2Hybrid: Automatic Mathematical Benchmark Synthesis for Proof-Centric Problems [9.0] 本稿では,自然言語の数学的コーパスから高品質な証明中心ベンチマークを合成するフレームワークProof2Hybridを提案する。
我々のフレームワークとベンチマークは、AIシステムの数学的インテリジェンスに関する、より深い研究の波の道を開く。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:01:00 GMT)
Set-Based Training for Neural Network Verification [9.0] 小さな入力摂動はニューラルネットワークの出力に大きな影響を与える。
安全クリティカルな環境でのニューラルネットワークの安全性を確保するためには、ニューラルネットワークの堅牢性を検証する必要がある。
本稿では,可能な出力の集合を計算するための,新しいセットベーストレーニング手順を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:13:16 GMT)
BadBlocks: Low-Cost and Stealthy Backdoor Attacks Tailored for Text-to-Image Diffusion Models [9.0] BadBlocksは、新しいタイプのバックドア脅威であり、既存のアプローチよりも軽量で隠蔽されている。
バックドアを注入し、最も先進的な防御フレームワークを避けることに成功した。
BadBlocksは高い攻撃成功率(ASR)と低い知覚的品質損失を達成する(FIDスコアによる測定)
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:48:37 GMT)
VFLAIR-LLM: A Comprehensive Framework and Benchmark for Split Learning of LLMs [8.9] VFLAIR-LLMは、大規模言語モデルのための軽量な分割学習フレームワークである。
LLM(SL-LLM)設定の各種スプリットラーニングにおける5つの攻撃と9つの防御のベンチマークを行った。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:20:33 GMT)
M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs [8.9] 本稿では,マルチターン対逆ジェイルブレイクのプロンプトを単一ターンクエリに集約する新しいフレームワークを提案する。
マルチターン・ツー・シングルターン(M2S)手法は,多ターン対話を構造化シングルターンプロンプトに体系的に再構成する。
注目すべきは、シングルターンはオリジナルのマルチターン攻撃を最大17.5ポイント上回ったことである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:06:33 GMT)
VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation [8.9] ポストトレーニング量子化(PTQ)は、大規模なモデルを圧縮し、再トレーニングせずに推論を加速するための効果的なアプローチとして登場した。
PTQは大規模言語モデル (LLMs) の文脈で広く研究されているが、視覚言語モデル (VLMs) への適用性はまだ未検討である。
本稿では,VLMQ と呼ばれる VLM に適した PTQ フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:57:03 GMT)
Maximally non-projective measurements are not always symmetric informationally complete [8.9] 最も有名な非射影測定のクラスは対称情報完備(SIC)と呼ばれる。
我々は、キュービット系を超えて、SIC特性は一般に最も非射影的な測定とは無関係であることを示す。
この手法により、一般的なPOVMの定量的シミュラビリティしきい値を決定することができ、クォートとクォートの測定が最も強く非射影的な予想を提示することができる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:01:03 GMT)
Human-Centered Human-AI Interaction (HC-HAII): A Human-Centered AI Perspective [8.8] この章は体系的に、人間と芸術の知能相互作用の学際的な分野を促進する。
ヒト中心型HAII(HC-HAII)の枠組みを導入する
この章では、人間中心の方法、プロセス、学際チーム、多段階の設計パラダイムなど、HC-HAII方法論を紹介している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 23:13:39 GMT)
UPLME: Uncertainty-Aware Probabilistic Language Modelling for Robust Empathy Regression [8.8] 共感回帰のための教師付き学習は、騒々しい自己報告の共感スコアによって挑戦される。
回帰設定におけるラベルノイズを捕捉する不確実性を考慮した確率的言語モデリングフレームワークUPLMEを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:46:28 GMT)
Causality-Driven Audits of Model Robustness [8.7] ディープニューラルネットワーク(DNN)のロバストネス監査は、現実の状況に挑戦するモデル感度を明らかにする手段を提供する。
複雑な歪みを引き起こす撮像過程の因子に対するDNN感度を測定するために因果推論を用いた新たなロバストネス監査法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:14:49 GMT)
Two Means to an End Goal: Connecting Explainability and Contestability in the Regulation of Public Sector AI [8.6] 本研究では, 説明可能性と競争可能性の交差と実装, 異なる研究コミュニティにおける理解について検討する。
本稿では、トップダウンとボトムアップの規制の整合性、責任の割り当て、学際的協力の必要性など、両原則の実現における摩擦の要点について述べる。
当社のコントリビューションは、これらの中核原則の政策決定と規制を通知し、より効果的で公平な設計、開発、信頼性の高い公開AIシステムのデプロイを可能にします。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:14:22 GMT)
When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs [8.6] 大規模言語モデル(LLM)は能力と自律性が向上し、特にオープンで複雑なタスクにおいて、アウトプットの評価が重要なボトルネックとなっている。
新たなパラダイムが生まれつつある。AIエージェントを評価対象として使用することだ。
本稿では,エージェント・アズ・ア・ジャッジの概念を定義し,単一モデル審査員から動的マルチエージェント・ディスカッション・フレームワークへの進化を辿り,その強みと欠点を批判的に検証する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:42:25 GMT)
Multi-Objective Infeasibility Diagnosis for Routing Problems Using Large Language Models [8.5] 現実世界のルーティング問題では、ユーザーは矛盾や不合理な要求を提案し、空の実現可能なソリューションセットに繋がる。
既存のLarge Language Model (LLM) ベースの手法は、実現不可能なモデルの診断を試みる。
LLMエージェントと自動ルーティング解決器内の多目的最適化を組み合わせたMOID(Multi-Objective Infeasibility Diagnosis)を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:53:20 GMT)
MoExDA: Domain Adaptation for Edge-based Action Recognition [8.5] MoExDAは、RGBフレームに加えてエッジフレームを使用したRGBとエッジ情報間の軽量な適応であり、静的バイアス問題に対処する。
実験により,提案手法は計算コストの低い静的バイアスを効果的に抑制することを示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:14:05 GMT)
VideoGuard: Protecting Video Content from Unauthorized Editing [8.4] 生成技術は、高忠実なデジタルコンテンツを生成し、それを制御された方法で編集することができる。
既存の研究では、画像が生成モデルによって操作されるのを防ぐ試みがなされている。
本稿では,不正な編集から映像を効果的に保護するVideoGuardという保護手法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:13:31 GMT)
Reinforcing VLMs to Use Tools for Detailed Visual Reasoning Under Resource Constraints [8.4] 我々は、視覚言語モデル(VLM)のためのDeepseek-r1のような手法からインスピレーションを得て、グループ相対ポリシー最適化(GRPO)を用いて小規模モデルを訓練し、ズームのような外部ツールを使用する。
最大のメリットは、GRPO学習、単純な報酬構造、シンプルなツール呼び出しインターフェース、そして視覚的に難しい例を過剰に表現するトレーニングデータミックスを組み合わせることで得られる。
同様に大規模なベースラインモデルと比較して,外部ツールから収集した詳細な視覚情報により,視覚的質問応答(VQA)タスクの性能が向上する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:49:33 GMT)
ProRefine: Inference-Time Prompt Refinement with Textual Feedback [8.3] AgenticRefineは、複数のAIエージェントが協力して推論や計画といった複雑なタスクを遂行する。
本稿では,LLMのエージェントループを用いてテキストフィードバックを生成し,適用する,革新的な推論時間最適化手法ProRefineを紹介する。
ProRefineはゼロショットチェーンのベースラインを3~37ポイント上回っている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:56:29 GMT)
Zero Shot Domain Adaptive Semantic Segmentation by Synthetic Data Generation and Progressive Adaptation [8.1] 本稿では,ゼロショット領域適応型セマンティックセマンティックセグメンテーションに挑戦する新たな手法を提案する。
トレーニング済みオフザシェルフテキスト・ツー・イメージ拡散モデルを用いて,ソース・ドメイン・イメージをターゲット・スタイルに転送することでトレーニング・イメージを生成する。
合成データにおけるノイズの影響を軽減するため,我々は,学習過程を通じて堅牢な学習を確実にする,進行的適応戦略を設計する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:21:09 GMT)
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders [8.1] LLMの推論の背後にある内部メカニズムは未解明のままである。
仮説をテストするためにスパースオートエンコーダを使用します。
私たちの研究は、LLMにおける推論の機械的理解に向けた第一歩を提供します。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:14:47 GMT)
GaitAdapt: Continual Learning for Evolving Gait Recognition [8.1] 本稿では,歩行認識能力の段階的向上を支援する連続歩行認識タスクであるGaitAdaptを提案する。
また,歩行認識のための非再生連続学習手法であるGaitAdapterを提案する。
GitAdapterは、さまざまなタスクから取得した歩行知識を効果的に保持する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:26:52 GMT)
Investigating Gender Bias in LLM-Generated Stories via Psychological Stereotypes [8.1] 本研究では,大規模言語モデル(LLM)におけるジェンダーバイアスについて,心理学で研究されたジェンダーステレオタイプを用いて検討する。
我々は,25の心理的ステレオタイプから1,2,6のランダム属性に無条件または条件付きのいずれかの短いストーリーを含むStereoBias-Storiesという新しいデータセットを紹介した。
これらの属性に反応して、全体の物語におけるジェンダーコントリビューションがどのように変化するかを分析し、3つの重要な知見を提示する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:10:26 GMT)
Decomposition Strategies and Multi-shot ASP Solving for Job-shop Scheduling [8.0] ジョブショップスケジューリング問題(JSP、Job-shop Scheduling Problem)は、ジョブを含むタスクをできるだけ早く完了するように、マシンを共有するタスクをシーケンスに配置する、よく知られた、困難な最適化問題である。
本稿では,ASP(Multi-shot Answer Set Programming)の解法を用いて,操作を逐次スケジュールし,最適化可能な時間窓への問題分解について検討する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:48:40 GMT)
COFFEE: A Shadow-Resilient Real-Time Pose Estimator for Unknown Tumbling Asteroids using Sparse Neural Networks [8.0] 我々は,小惑星のリアルタイムポーズ推定フレームワークであるCOFFEEを提案する。
投射影に有意な輪郭を関連付けることにより、まばらな特徴群を検出する。
得られたポーズ推定パイプラインは、古典的なポーズ推定パイプラインよりもバイアスのない、より正確なものである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:27:14 GMT)
Probing Syntax in Large Language Models: Successes and Remaining Challenges [7.9] 構造的要因や統計的要因がこれらの構文的表現に体系的に影響を及ぼすかどうかは不明である。
3つの制御されたベンチマーク上で構造プローブの詳細な解析を行う。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:41:14 GMT)
Reinforcement Learning in MDPs with Information-Ordered Policies [7.9] 無限水平平均コストマルコフ決定過程に対するエポック型強化学習アルゴリズムを提案する。
我々は,このアルゴリズムが,部分順序の幅を$w$とする$O(sqrtw log(|Theta|) T)$の残差を達成していることを示す。
本稿では、在庫管理やキューシステムなど、オペレーション研究におけるこれらの部分的な注文の適用性について説明する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:43:23 GMT)
A Causal Framework for Aligning Image Quality Metrics and Deep Neural Network Robustness [7.9] ディープニューラルネットワーク(DNN)の性能に画像品質が重要な役割を果たす
我々は,従来のIQA指標が画像分類におけるDNN性能の弱い予測因子であることを理論的,実証的に示す。
そこで我々は,DNNの性能と強い相関を示す指標を開発し,大規模な画像データセットの品質分布を効果的に推定する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:30:50 GMT)
Traceable Black-box Watermarks for Federated Learning [7.8] この研究は、追跡可能なブラックボックスの透かしをフェデレートラーニングシステムに注入する問題を定式化する。
本稿では,サーバ側の新しい透かし方式である$mathbfTraMark$を提案し,各クライアントに対してトレース可能な透かしモデルを作成する。
その結果、$mathbfTraMark$は、主要なタスクパフォーマンスを維持しながら、すべてのウォーターマークされたモデルのトレーサビリティを保証する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:24:55 GMT)
Spatiotemporal wall pressure forecast of a rectangular cylinder with physics-aware DeepUFNet [7.8] 本研究では,DeepUFNet(DeepUFNet)ディープラーニングモデルを開発した。
DeepUFNetはUNet構造で構成され、物理周波数損失制御係数はモデルの訓練段階に埋め込まれている。
このモデルにより,壁圧情報を高精度に予測できることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:48:09 GMT)
Cross-patient Seizure Onset Zone Classification by Patient-Dependent Weight [7.8] そこで本研究では, 患者固有の重み付けを用いて, 術前モデルを微調整し, 診断性能を向上させる方法を提案する。
その結果,各検査症例の分類精度は向上し,平均10%以上の改善が得られた。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:50:50 GMT)
Spatial Imputation Drives Cross-Domain Alignment for EEG Classification [7.7] 本稿では,新しいチャネル依存型マスクと命令型自己教師型フレームワークであるIMACを紹介する。
IMACは、空間時系列計算タスクとしてクロスドメインデータシフトのアライメントを定式化する。
公開されている10のEEGデータセットに対する総合的な評価は、IMACの優れたパフォーマンスを示している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:28:05 GMT)
Learning Latent Representations for Image Translation using Frequency Distributed CycleGAN [7.6] Fd-CycleGANはイメージ・ツー・イメージ(I2I)翻訳フレームワークであり、遅延表現学習を強化して実データ分布を近似する。
Horse2Zebra、Monet2Photo、および合成強化されたStrike-offデータセットなど、さまざまなデータセットに関する実験を行います。
その結果,周波数誘導型潜時学習は画像翻訳タスクの一般化を著しく向上させることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:59:37 GMT)
Toward Practical Equilibrium Propagation: Brain-inspired Recurrent Neural Network with Feedback Regulation and Residual Connections [7.5] 生物学的にプラウブルなフィードバック制御型Residual Recurrent Neural Network (FRE-RNN) を提案し,その学習性能について検討した。
収束特性の改善は、EPの計算コストと列車運行時間を桁違いに削減する。
提案手法は,人工知能を駆使しない大規模ネットワークにおけるEPの適用性と実用性を大幅に向上させる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:07:50 GMT)
Token-Level Precise Attack on RAG: Searching for the Best Alternatives to Mislead Generation [7.4] Token-level Precise Attack on the RAG (TPARAG) は、ホワイトボックスとブラックボックスの両方のRAGシステムをターゲットにした新しいフレームワークである。
TPARAGは、検索ステージとエンド・ツー・エンド・アタックの有効性において、従来のアプローチを一貫して上回っている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:44:19 GMT)
UFEval: Unified Fine-grained Evaluation with Task and Aspect Generalization [7.4] UFEvalは4つの評価タスクに対してタスクとアスペクトを一般化した最初の統一された粒度評価器である。
FRABenchは、トレーニングおよびテスト評価のための大規模、マルチモーダル、アスペクトレベルのリソースである。
実験により、特定の側面での学習により、UFEvalは目に見えない側面に一般化できることが示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:17:42 GMT)
BubbleONet: A Physics-Informed Neural Operator for High-Frequency Bubble Dynamics [7.4] BubbleONetは、入力関数空間から対応する気泡半径応答に圧力プロファイルをマッピングするために設計された演算子学習モデルである。
このモデルは,(1)1つの初期半径を持つレイリー・プレセット方程式に基づく気泡力学,(2)1つの初期半径を持つケラー・ミクシス方程式に基づく気泡力学,(3)複数の初期半径を持つケラー・ミクシス方程式に基づく気泡力学など,様々なシナリオで評価されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 23:05:20 GMT)
One Model, Any Conjunctive Query: Graph Neural Networks for Answering Queries over Incomplete Knowledge Graphs [7.3] 我々は,任意の知識グラフ上の任意の共役クエリに対する回答を分類できるモデルであるAnyCQを提案する。
我々は,適切なリンク予測モデルを備えた場合,AnyCQが全く新しい知識グラフに効果的に転送できることを実証的に示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:13:11 GMT)
SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering [7.3] 録音は、過剰な残響、歪み、クリップング、音調の不均衡、狭いステレオ画像などの音質の問題に悩まされることが多い。
SonicMasterは、テキストベースの制御によって幅広いオーディオアーティファクトに対処する、音楽復元とマスタリングのための最初の統一された生成モデルである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:49:04 GMT)
Neural Field-Based 3D Surface Reconstruction of Microstructures from Multi-Detector Signals in Scanning Electron Microscopy [7.3] NFH-SEMは、多視点2次元SEM画像を入力として、幾何学的および測光的情報を連続した神経野表現に融合する。
NFH-SEMは、エンドツーエンドの自己校正によって手動の校正手順を排除し、トレーニング中にSEMイメージから自動的に影をアンタングルする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:00:57 GMT)
RAAG: Ratio Aware Adaptive Guidance [7.2] 非条件予測に対する相対的強度(RATIO)の急激な上昇により,初期の逆ステップは誘導尺度に非常に敏感であることが示唆された。
進化するRATIOに基づいて,誘導尺度を早期段階において自動的に減衰させる,シンプルな,理論的に基礎付けられた適応型ガイダンススケジュールを提案する。
我々のアプローチは、生成品質、堅牢性、セマンティックアライメントを維持したり改善したりしながら、最大3倍のサンプリングを可能にします。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:41:05 GMT)
MiSTR: Multi-Modal iEEG-to-Speech Synthesis with Transformer-Based Prosody Prediction and Neural Phase Reconstruction [7.2] 我々は,iEEG信号の時間的,スペクトル的,神経生理学的表現を統合した深層学習フレームワークMiSTRを紹介する。
パブリックなiEEGデータセットに基づいて、MiSTRは最先端の音声インテリジェンスを達成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:12:52 GMT)
Majority Bit-Aware Watermarking For Large Language Models [7.2] MajorMarkは、多数ビット認識エンコーディングによるこのトレードオフを改善する新しい透かし手法である。
トークン周波数分析を利用した復号化手法とは対照的に、MajorMarkはクラスタリングベースの復号化戦略を採用している。
我々の手法は復号精度とテキスト生成品質の両方を著しく向上させる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:19:00 GMT)
Shaping Sparse Rewards in Reinforcement Learning: A Semi-supervised Approach [7.2] Atariとロボット操作の実験結果から,提案手法は報酬推論における教師ありアプローチよりも優れていることが示された。
よりスパース・リワード環境では,教師付きベースラインに比べてピークスコアが最大2倍に達する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:02:43 GMT)
Ultralight Polarity-Split Neuromorphic SNN for Event-Stream Super-Resolution [7.2] イベントカメラは、高時間分解能、低レイテンシ、高ダイナミックレンジなどの非並列的な利点を提供する。
その限定された解像度は、きめ細かい知覚タスクに課題をもたらす。
スパイキングニューラルネットワーク(SNN)に基づく超軽量ストリームベースイベント・ツー・イベント・イベント・イベント・イベント・イベント・イベントの超解法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:24:02 GMT)
Adversarial Attention Perturbations for Large Object Detection Transformers [6.8] 敵対的摂動は、ニューラルネットワークの脆弱性を露呈するための有用なツールである。
本稿では,物体検出変換器に対するAFOG攻撃について述べる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:31:10 GMT)
Scalable Varied-Density Clustering via Graph Propagation [6.8] 本研究では,近傍グラフのラベル伝播過程としてフレーミングすることで,高次元データに対する多様な密度クラスタリングの新たな視点を提案する。
本手法は,グラフ接続と密度ベースのクラスタリングを接続し,グラフの効率的な伝播手法を実現する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:33:41 GMT)
Adaptive Command: Real-Time Policy Adjustment via Language Models in StarCraft II [6.7] 本稿では,大規模言語モデル(LLM)と行動木を統合する新しいフレームワークであるAdaptive Commandを紹介し,StarCraft IIにおける戦略的意思決定をリアルタイムに行う。
本システムは,自然言語インタラクションによる複雑な動的環境における人間とAIの協調性の向上に重点を置いている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:26:58 GMT)
Pseudo-label Induced Subspace Representation Learning for Robust Out-of-Distribution Detection [6.6] 擬似ラベルによる部分空間表現に基づく新しいOOD検出フレームワークを提案する。
さらに,クロスエントロピーに基づくID分類損失と部分空間距離に基づく正規化損失を統合し,ID-OOD分離性を向上する単純な学習基準を導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:38:00 GMT)
Taking Language Embedded 3D Gaussian Splatting into the Wild [6.6] 制約のない写真コレクションからのオープン語彙シーン理解のための新しいフレームワークを提案する。
具体的には、まず同じ視点から複数の外観画像を描画し、次に複数出現するCLIP特徴を抽出する。
次に,言語特徴を効果的に圧縮し,学習し,融合させるための,過渡的不確実性を考慮したオートエンコーダ,多言語言語フィールド3DGS表現,および後アンサンブル戦略を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:40:57 GMT)
MM-FusionNet: Context-Aware Dynamic Fusion for Multi-modal Fake News Detection with Large Vision-Language Models [6.5] ソーシャルメディア上でのマルチモーダルフェイクニュースの拡散は、公共の信頼と社会的安定に重大な脅威をもたらす。
従来の検出方法(主にテキストベース)は、誤解を招くテキストと画像間の誤認識によってしばしば不足する。
本稿では,マルチモーダルなフェイクニュース検出にLVLMを活用する革新的なフレームワークMM-FusionNetを紹介する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:27:13 GMT)
The Power of Many: Synergistic Unification of Diverse Augmentations for Efficient Adversarial Robustness [6.5] 敵対的摂動はディープラーニングモデルに重大な脅威をもたらす。
対人訓練(AT)は、高い計算コストと標準性能の低下という課題に直面している。
本稿では,そのプラグ・アンド・プレイ特性とトレーニング効率を特徴とするユニバーサル・アドバーサリアル・オーグメンタ(UAA)フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:42:14 GMT)
LRDDv2: Enhanced Long-Range Drone Detection Dataset with Range Information and Comprehensive Real-World Challenges [6.4] Long Range Drone Detectionデータセットは、39,516の微妙な注釈付き画像からなる。
LRDDv2データセットには8000以上の画像のターゲット範囲情報が含まれている。
LRDDv2のデータセットの大部分は、1080p解像度で50ピクセル以下のドローンをキャプチャする画像で構成されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:16:20 GMT)
Information Bottleneck-Guided Heterogeneous Graph Learning for Interpretable Neurodevelopmental Disorder Diagnosis [6.4] I2B-HGNN(Interpretable Information Bottleneck Heterogeneous Graph Neural Network)を提案する。
I2B-HGNNは、インフォメーションボトルネックの原則を適用して、脳のコネクティビティモデリングとクロスモーダル機能統合の両方を導く。
I2B-HGNNはNDDの診断において優れた性能を示し,高い分類精度と解釈可能なバイオマーカーの同定能力を示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:49:32 GMT)
Glioblastoma Overall Survival Prediction With Vision Transformers [6.3] グリオ芽腫は最も攻撃的で一般的な脳腫瘍の1つで、生存期間は10~15ヶ月である。
本研究では,MRI画像を用いた総合生存(OS)予測のための新しい人工知能(AI)手法を提案する。
我々は視覚変換器(ViT)を用いてMRI画像から直接隠れた特徴を抽出し,腫瘍のセグメンテーションの必要性を排除した。
提案したモデルは、BRATSデータセットで評価され、テストセット上で62.5%の精度を達成した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:03:24 GMT)
Foundation Model of Electronic Medical Records for Adaptive Risk Estimation [6.2] ETHOSは幅広いアプリケーションを開発するための多用途フレームワークである。
ARESは、臨床が定義した臨界事象に対するダイナミックでパーソナライズされたリスク確率を計算するためにETHOSを使用する。
ARESはパーソナライズされた説明可能性モジュールも備えており、リスク見積に影響を与える重要な臨床要因を強調している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:10:15 GMT)
A Fully-integrated Diamond Nitrogen-Vacancy Magnetometer with Nanotesla Sensitivity [6.2] この研究は、従来のプラットフォームで一般的に見られるすべての必須成分を包含する完全に統合されたDNV磁気センサを導入している。
従来の取り組みとは対照的に、高出力レーザー、ロックイン増幅器、デジタル変調マイクロ波源を統合することで、これらの課題に対処することに成功している。
これらの自家製部品は、我々の状況下での商用機器と同等の性能を示し、最適感度は2.14 nT/sqrtHzである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:06:45 GMT)
GeoFlow: Agentic Workflow Automation for Geospatial Tasks [6.2] 地理空間タスクのためのエージェントを自動生成するGeoFlowを提案する。
GeoFlowはエージェント的成功を6.8%増加させ、トークン使用量を最大4倍に削減する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:14:58 GMT)
Investigation on deep learning-based galaxy image translation models [6.2] 銀河画像変換は、銀河物理学や宇宙論において重要な応用である。
画像翻訳におけるほとんどの取り組みは、銀河画像のピクセルレベルとモルフォロジーレベル統計に焦点を当てている。
本研究では,高次物理情報保存における生成モデルの有効性について検討した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:08:26 GMT)
Decoding and Engineering the Phytobiome Communication for Smart Agriculture [6.0] 我々は,植物バイオームコミュニケーションの総合的な理解を深めるために,コミュニケーション工学的視点を利用する動機がある。
分子・電気生理学的信号による植物バイオーム通信の概要について述べる。
ファイトバイオームを通信ネットワークとしてモデル化するマルチスケールフレームワークを概念化する。
植物バイオーム通信の工学を通して, スマート灌水やアグロケミカルの宅配など, スマート農業の応用が提案されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:50:19 GMT)
Ensemble Learning for Large Language Models in Text and Code Generation: A Survey [6.0] 本稿では,理解を深め,さらなる研究を奨励し,テキストおよびコード生成における実践的実装を促進するための,新たなアンサンブルアプローチについてレビューする。
大規模言語モデルは、重み付け、知識融合、エキスパートの混合、出力アンサンブル、ルーティング、カスケードの7つの主要な方法に分類する。
この結果から,多様性表現の改善,出力品質の向上,アプリケーション柔軟性の向上など,重要なメリットが浮かび上がっている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:07:50 GMT)
EditGarment: An Instruction-Based Garment Editing Dataset Constructed with Automated MLLM Synthesis and Semantic-Aware Evaluation [6.0] 衣服編集のための自動データセットパイプラインを提案する。
まず,実世界のファッションに整合した6つの編集指導カテゴリを定義し,バランスの取れた命令イメージ三重項の生成を導く。
第二に、Fashion Edit Scoreは、衣服属性間のセマンティックな依存関係をキャプチャし、構築中に信頼できる監視を提供する意味認識評価指標である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:28:45 GMT)
Model Accuracy and Data Heterogeneity Shape Uncertainty Quantification in Machine Learning Interatomic Potentials [6.0] 機械学習原子間ポテンシャル(MLIP)は正確な原子モデルを可能にするが、信頼性のある不確実性定量化(UQ)はいまだ解明されていない。
本研究では,原子クラスター拡張フレームワーク内でのアンサンブル学習とD-最適性の2つのUQ戦略について検討する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:52:49 GMT)
CIVQLLIE: Causal Intervention with Vector Quantization for Low-Light Image Enhancement [5.9] 現在の低照度画像強調法は重大な課題に直面している。
CIVQLLIEは、因果推論による離散表現学習のパワーを活用する新しいフレームワークである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:36:39 GMT)
Long Story Generation via Knowledge Graph and Literary Theory [5.8] 数千語からなる長文の生成は、長文生成(LTG)の分野におけるサブタスクである
これまでの研究では、ストーリーのアウトラインを生成するためのマルチステージ手法であるアウトラインベースの生成を通じて、この問題に対処してきた。
このアプローチには、以前のアウトラインの記憶が失われることによる、ほぼ避けられないテーマドリフトと、人間の読者にはあまりアピールしない不整合論理による退屈なプロットの2つの一般的な問題がある。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:35:14 GMT)
Calibrating Biophysical Models for Grape Phenology Prediction via Multi-Task Learning [5.8] 本稿では,マルチタスク学習と繰り返しニューラルネットワークを組み合わせたハイブリッドモデリング手法を提案する。
生物物理モデルのパラメータを予測するためにマルチタスク学習を用いることで,生物構造を保ちながら品種間の共有学習を可能にする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:36:11 GMT)
TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control [5.6] 様々なシナリオや画像領域のテキストを正確に編集できるソリューションであるTextMasterを提案する。
本手法は,高解像度標準グリフ情報を組み込むことにより,テキストレンダリングの精度と忠実度を向上させる。
また,入力テキストに対して制御可能なスタイル転送を可能にする新しいスタイルインジェクション手法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:34:56 GMT)
HGCN(O): A Self-Tuning GCN HyperModel Toolkit for Outcome Prediction in Event-Sequence Data [5.6] イベントシーケンス予測のためのグラフ畳み込みネットワーク(GCN)モデルを用いた自己調整ツールキットHGCN(O)を提案する。
我々のツールキットは、ノードレベルの属性とグラフレベルの属性の異なるイベントシーケンスの複数のグラフ表現を統合する。
実験によると、GCNConvモデルはバランスの取れていないデータで排他的であり、全てのモデルはバランスの取れたデータで一貫して動作する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:47:30 GMT)
Comprehensive Attribute Encoding and Dynamic LSTM HyperModels for Outcome Oriented Predictive Business Process Monitoring [5.6] 予測的ビジネスプロセスモニタリングは、進行中のビジネスプロセスの将来の結果を予測することを目的としています。
既存のメソッドは、同時イベントやクラス不均衡、マルチレベル属性といった現実世界の課題を扱う柔軟性に欠けることが多い。
本稿では,イベント属性とシーケンス属性の2レベル階層符号化を統合した動的LSTMハイパーモデルを提案する。
多次元埋め込みと時間差フラグ拡張を活用する、同時イベントモデリングのための特殊なLSTM変種。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:24:39 GMT)
Rethinking Selectivity in State Space Models: A Minimal Predictive Sufficiency Approach [5.6] 状態空間モデル(SSM)はシーケンスモデリングの主要なアーキテクチャとして登場し、トランスフォーマーの優位性に挑戦している。
本稿では, 未来を予測する上で, 理想的な隠れ状態は過去において最小限の統計量でなければならない, という新しい情報理論的基準である予測能力の原理を紹介する。
目的関数を最適化することで選択的なメカニズムを導出する新しいフレームワークであるMPS-SSM(Minimmal Predictive Sufficiency State Space Model)を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:04:00 GMT)
Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.6] 本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。
我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。
本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:37:40 GMT)
Forest vs Tree: The $(N, K)$ Trade-off in Reproducible ML Evaluation [5.5] 信頼性の高い機械学習評価に必要なアイテム数(N$)とアイテムあたりのレスポンス数(K$)のトレードオフについて検討する。
人間の不一致の原因は、少なくとも1つのメトリクスでテストされたデータセットに対して、1000ドル以下で、N倍のK$が伴う可能性がある。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:18:34 GMT)
Probing Defects with Quantum Simulator Snapshots [5.5] 本稿では、スナップショットを用いて欠陥の物理を実験的に探索するための簡単なプロトコルを提案する。
我々のプロトコルは、欠陥を明示的に導入することなく、バルクシステムからのスナップショットに依存する。
例えば、Rydberg原子が量子イジング臨界性を実現するときの局所スピン配置のスナップショットで、欠陥エントロピーを抽出できることを実証する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:51:42 GMT)
BlockA2A: Towards Secure and Verifiable Agent-to-Agent Interoperability [5.5] BlockA2Aはエージェントとエージェントの相互運用性のための統合されたマルチエージェント信頼フレームワークである。
集中的な信頼ボトルネックを排除し、メッセージの信頼性と実行の整合性を確保し、エージェント間のインタラクションにおける説明責任を保証する。
ビザンチンエージェントのフラグング、リアクティブ実行停止、即時許可取り消しなど、リアルタイムメカニズムによる攻撃を中和する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:20:53 GMT)
Policy to Assist Iteratively Local Segmentation: Optimising Modality and Location Selection for Prostate Cancer Localisation [5.4] 機械学習に基づくセグメンテーションモデルを支援するリコメンデーションシステムを提案する。
我々のアプローチは腫瘍の局所化を支援する政策ネットワークを訓練する。
前立腺癌患者からの1325個のラベル付きマルチパラメトリックMRI画像を用いて本法の有効性を検証した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:40:18 GMT)
NAEx: A Plug-and-Play Framework for Explaining Network Alignment [5.3] ネットワークアライメント(NA)は、複数のネットワークにまたがる対応するノードを特定し、ソーシャルネットワーク、共著者、生物学などの分野に応用する。
アライメントモデルの進歩にもかかわらず、その解釈可能性はまだ限られている。
NAExは,アライメントモデルに重要な部分グラフを識別し,予測に影響を及ぼす特徴を記述した,プラグアンドプレイのモデルに依存しないフレームワークである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:46:45 GMT)
Draw Your Mind: Personalized Generation via Condition-Level Modeling in Text-to-Image Diffusion Models [5.3] 本稿では,ユーザプロファイリングをトランスフォーマーベースのアダプタと統合し,パーソナライズ可能なDrUMを提案する。
DrUMは大規模なデータセットで強力なパフォーマンスを示し、オープンソースのテキストエンコーダとシームレスに統合する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:14:55 GMT)
Domain-Independent Automatic Generation of Descriptive Texts for Time-Series Data [5.3] 時系列データからドメインに依存しない記述テキストを生成する手法を提案する。
新たな後方アプローチを実装することで、観測データセットのための時間自動キャプションを作成する。
実験の結果,TACOデータセットを用いて学習した対照的な学習ベースモデルでは,新しいドメインにおける時系列データのための記述テキストを生成することができることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:54:15 GMT)
Error Detection and Correction for Interpretable Mathematics in Large Language Models [5.3] EDCIM (Error Detection and Correction for Interpretable Mathematics) は、解釈可能な数学タスクにおいて、これらの誤りを検出し、修正する手法である。
軽量でオープンソースのLCMとより強力なプロプライエタリなモデルを統合し、コストと精度のバランスをとる。
実験の結果,EDCIMは予測精度を維持しつつも,計算コストと財務コストの両方を著しく削減することがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:30:35 GMT)
Discovering group dynamics in coordinated time series via hierarchical recurrent switching-state models [5.3] 我々は、複数の相互作用する実体(つまり「エージェント」)から生じる時系列の集合に対する計算学的に効率的なモデルを求める。
個人間の時間パターンの最近のモデルでは、個々の実体の軌跡に影響を与える可能性のある明示的なシステムレベルの集団行動が組み込まれていない。
我々は、遅延系レベル離散状態マルコフ連鎖を用いて、遅延系レベルチェーンにトップダウンの影響を与え、各観測時系列の排出を制御している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:10:13 GMT)
MultiRAG: A Knowledge-guided Framework for Mitigating Hallucination in Multi-source Retrieval Augmented Generation [5.2] MultiRAGは、マルチソース検索拡張世代における幻覚を緩和する新しいフレームワークである。
複数ソースのライングラフを使用して、異なる知識ソース間の論理的関係を効率的に集約する。
マルチレベル信頼度計算機構を実装し、信頼できない情報ノードを識別・排除するために、グラフレベルとノードレベルのアセスメントを実行する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:20:52 GMT)
FedSA-GCL: A Semi-Asynchronous Federated Graph Learning Framework with Personalized Aggregation and Cluster-Aware Broadcasting [5.1] Federated Graph Learning(FGL)は、複数のローカルシステムに位置する大規模サブグラフ上での協調トレーニングを可能にする分散学習パラダイムである。
本稿では,効率的な学習のための新しいClusterCast機構を通じて,クライアント間ラベル分布のばらつきとグラフトポロジ特性の両方を活用する半非同期フェデレーションフレームワークであるFedSA-GCLを提案する。
我々は,LouvainとMetisの分割アルゴリズムを用いて,複数の実世界のグラフデータセット上でFedSA-GCLを評価し,9つのベースラインと比較した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:52:53 GMT)
No LLM Solved Yu Tsumura's 554th Problem [5.0] 津村雄の54番目の問題は、証明の洗練の観点からは、IMO問題の範囲内にはないことを示す。
市販のLLMでは,既存の既成のLCMでは容易には解けない。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:55:20 GMT)
Frequency conversion in topological plasmonic THz photo-mixer [5.0] 我々は、赤外線、ミリ波、マイクロ波光子を含むレーザー対応プラズモニック光ミキサーにおいて、観測されたコヒーレントダウンコンバージョンに対する別の説明法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:57:51 GMT)
Towards Revealing the Effectiveness of Small-Scale Fine-tuning in R1-style Reinforcement Learning [5.0] R1スタイル強化学習(RL)は、大規模言語モデルの推論能力を大幅に向上させる。
その結果,小型SFTはRLにかなりの影響を及ぼすが,効率は良くないことがわかった。
小規模蒸留の有効性を高める技術であるtextbfRe-distillation を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:46:13 GMT)
PrivDiffuser: Privacy-Guided Diffusion Model for Data Obfuscation in Sensor Networks [4.9] IoT(Internet of Things)デバイスによって収集されたセンサデータは、個人に関する機密性の高い個人情報を明らかにすることができる。
生成モデルによって強化されたデータ難読化は、合成データを生成するための有望なアプローチである。
データユーティリティとプライバシのトレードオフを優れたものにする新しいデータ難読化手法であるPrivDiffuserを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:14:07 GMT)
PennyLang: Pioneering LLM-Based Quantum Code Generation with a Novel PennyLane-Centric Dataset [4.8] PennyLang(ペニーラン)は、ペニーレーン固有の量子コードサンプル3,347の、市販の高品質データセットである。
コントリビューションは、(1)PennyLangの作成とオープンソースリリース、(2)自動量子コードデータセット構築のためのフレームワーク、(3)データセットのベースライン評価である。
Qiskitにフォーカスした研究を超えて、私たちはLLMベースのツールと再現可能なメソッドをPennyLaneに持ち込み、AI支援量子開発を前進させます。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:34:32 GMT)
Mechanical Squeezed-Fock Qubit: Towards Quantum Weak-Force Sensing [4.8] メカニカルキュービットは、他のキュービットプラットフォームに対して独特な利点を提供するが、そのポテンシャルは本質的に弱い非線形性とナノメカニカル共振器の小さな非調和性によって制約される。
我々は、パラメトリック駆動非線形機械振動子におけるフォノンの圧縮フォック状態を用いることで、この欠点を克服することを提案する。
我々の機械的量子ビットは弱い力の量子センサーとして機能し、その結果、従来の機械的量子ビットよりも少なくとも1桁の感度が増大することを示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:57:36 GMT)
SARD: Segmentation-Aware Anomaly Synthesis via Region-Constrained Diffusion with Discriminative Mask Guidance [4.7] SARD (Segmentation-Aware anomaly synthesis via Region-constrained Diffusion with discriminative mask Guidance) は, 異常生成に特化して設計された新しい拡散型フレームワークである。
SARDは、セグメンテーションの精度と視覚的品質において既存の手法を超越し、ピクセルレベルの異常合成のための新しい最先端技術を確立している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:43:01 GMT)
LAMA: Stable Dual-Domain Deep Reconstruction For Sparse-View CT [4.6] 我々は,2ブロック最適化による問題を解決するための学習交替最小化アルゴリズム (LAMA) を開発した。
LAMAはデータ領域と画像領域の両方で学習可能な正規化子を持つ変分モデルとして自然に誘導される。
LAMAは、ネットワークの複雑さ、メモリ効率、再構成精度、安定性、解釈可能性を低減する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:16:32 GMT)
AI on the Pulse: Real-Time Health Anomaly Detection with Wearable and Ambient Intelligence [4.5] 我々は、患者を継続的に監視する現実世界の異常検知システムであるPulseにAIを導入する。
SoTA(State-of-the-art)のユニバーサル時系列モデルであるUniTSによって、我々のフレームワークは患者のユニークな生理的および行動的パターンを自律的に学習する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:24:15 GMT)
A Generative Neural Annealer for Black-Box Combinatorial Optimization [4.4] ブラックボックス最適化問題に対する生成的エンドツーエンドの解法を提案する。
ニューラルネットワークをトレーニングして、関連するボルツマン分布をモデル化する。
最先端のブラックボックスモデルに対する競合性能を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:14:19 GMT)
KCR: Resolving Long-Context Knowledge Conflicts via Reasoning in LLMs [4.4] 我々は,LLMが矛盾する知識を解決する能力を高める,知識衝突推論(KCR)フレームワークを提案する。
KCRの基本的な考え方は、コンテキストの選択と定着に報いることによって、バックボーンLSMをトレーニングして正しい推論プロセスを確立することである。
我々は、モデルに正しい推論経路に従う推論プロセスのパラダイムを学ぶよう促すために強化学習を採用する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:26:20 GMT)
A Rolling Stone Gathers No Moss: Adaptive Policy Optimization for Stable Self-Evaluation in Large Multimodal Models [4.4] 本稿では,学習目標をリアルタイムで適応的に調整できるオンライン強化学習フレームワークであるAdaPOを提案する。
その結果,本手法は直接推論と自己評価能力の両方を著しく向上させることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:54:01 GMT)
Vision-based Perception System for Automated Delivery Robot-Pedestrians Interactions [4.4] 単一視覚センサを用いたマルチペデストリアン検出・追跡,ポーズ推定,単眼深度知覚のための完全なパイプラインを開発した。
結果は、最大10%のアイデンティティ保存の増加を含む測定可能な改善を示している。
このシステムは、より社会的に認識され、包括的なロボット行動を支援する、脆弱な歩行者グループを特定する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:10:09 GMT)
From Queries to Criteria: Understanding How Astronomers Evaluate LLMs [4.3] 本研究では,LCMの評価方法の理解を深め,評価方法の改善を図る。
Slack経由でデプロイした天文学文献を扱うLLMを使った検索拡張生成ボットです。
4週間にわたって368のクエリをボットにインダクティブにコーディングし、11人の天文学者とのインタビューで、質問の種類や回答の基準など、人間がこのシステムをどのように評価したかを明らかにしました。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:19:37 GMT)
Understanding protein function with a multimodal retrieval-augmented foundation model [4.3] PoET-2は、家族固有の進化的制約の文脈内学習を取り入れた検索強化タンパク質基盤モデルである。
PoET-2はゼロショット変動効果予測において最先端の性能を達成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:11:25 GMT)
When Cars Have Stereotypes: Auditing Demographic Bias in Objects from Text-to-Image Models [4.2] このようなバイアスを測定するための新しいフレームワークであるSODA(Stereotyped Object Diagnostic Audit)を紹介する。
提案手法は, 対象物の視覚特性を人口統計学的手がかりと中性プロンプトとを比較した。
性別や民族によって引き起こされる色パターンの反復など、特定の人口集団と視覚特性の強い関連を明らかにする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:15:53 GMT)
Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models [4.2] LieQは、極端に低ビット圧縮下でのサブ7Bモデルの精度を維持するという課題に対処するメトリック駆動フレームワークである。
提案手法では,3つの相補的レイヤワイド診断手法(パープレキシティ・ドロップ,表現コンパクト性,トップkエネルギーゲイン)を導入している。
Qwen3-4Bでは、2.05ビット量子化でFP16ベースライン性能の95.9%を回復し、GPTQを19.7%、AWQを18.1%上回った。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:17:04 GMT)
Developer Perceptions on Utilising Low-Code Approaches to Build Accessible and Adaptive Applications for Seniors [4.2] AdaptForgeはローコードモデル駆動のエンジニアリングツールで、高齢者向けにアクセシブルで適応的なアプリケーションを効率的に作成できる。
本稿では,AdaptForgeを評価した18人のソフトウェア実践者を対象としたインタビューベースの実証的研究について述べる。
このようなツールを採用することに対する開発者の期待を認識し、アクセシブルで適応的なソフトウェア開発をサポートするローコードツールを設計するための、経験的に根底から推奨する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:14:52 GMT)
Approximate Proportionality in Online Fair Division [4.2] 我々は、近似性が未解決のままである比例性の自然な緩和である1つの善(PROP1)に比例性に焦点を当てる。
3つの自然なグリージーアルゴリズムは、適応的敵に対して、一般にPROP1に対する正の近似を保証できないことを示す。
本稿では,最大項目値の予測を行う際に,PROP1に対するロバストな近似比を求めるアルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:31:42 GMT)
Somatic in the East, Psychological in the West?: Investigating Clinically-Grounded Cross-Cultural Depression Symptom Expression in LLMs [4.2] 大規模な言語モデルがこれらの文化パターンを再現するかどうかを西方または東方ペルソナで促すことで検証する。
その結果、LLMは英語で促すとパターンの複製にほとんど失敗していることがわかった。
我々の分析は、モデルが文化的ペルソナに対する感度の低いことと、強い文化的に不変な症状階層の2つの主な原因を指摘した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:25:38 GMT)
MOTIF: Multi-strategy Optimization via Turn-based Interactive Framework [4.0] 本稿では,多戦略最適化問題として,より広範な解法設計の定式化を導入する。
各ターンで、エージェントは、自分自身と相手の以前の更新履歴を活用することで、1つのコンポーネントを改善する。
複数のCOPドメインにわたる実験により、MOTIFは最先端の手法よりも一貫して優れていることが示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:45:36 GMT)
FactEHR: A Dataset for Evaluating Factuality in Clinical Notes Using LLMs [3.9] FactEHRは,3つの病院システムから4つの病院システムにまたがる2,168件の臨床記録の文書的事実分解からなるNLIデータセットである。
我々は, LLMの細部評価から定性解析まで, 異なる軸上の生成事実を評価する。
その結果、臨床テキストの事実検証を支援するため、LCM機能の改善の必要性が浮き彫りになった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:06:49 GMT)
User Perception of Attention Visualizations: Effects on Interpretability Across Evidence-Based Medical Documents [3.9] 我々は,バイオメディカル文書分類において,注意に基づく説明がユーザを支援するかどうかを評価するために,ユーザスタディを行った。
その結果,Transformer Model (XLNet) は文書を正確に分類した。
本研究の結果は, 注意重みの全体的有用性は確認されていないが, その有用性は視覚的提示の仕方に影響されることが示唆された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:24:52 GMT)
Key-Augmented Neural Triggers for Knowledge Sharing [3.9] Key-Augmented Neural Triggersは、知識アンカーをトレーニングと推論の両方に組み込む。
局所的なコンテキストにおけるフラグメンテーションとグラウンドディング推論を減らす。
スケーラブルで低レイテンシでオンプレミスのデプロイメントに適している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:40:56 GMT)
Training Multi-Layer Binary Neural Networks With Local Binary Error Signals [3.8] 多層2層ニューラルネットワーク(BNN)のための完全二分法および勾配自由学習アルゴリズムを提案する。
提案アルゴリズムは局所的な二分誤差信号と二分重更新に依存しており、シナプス的メタ可塑性機構として機能する整数値の隠蔽重みを用いる。
実験の結果、既存の完全バイナリ単一層状態のソリューションに比べて、テスト精度は最大で+35.47%向上した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:01:00 GMT)
OpenLifelogQA: An Open-Ended Multi-Modal Lifelog Question-Answering Dataset [3.8] 本稿では,OpenLifelogQAと呼ばれる新しいライフログQAデータセットを提案する。
われわれのデータセットは、日々のライフログ利用における実世界の応用による、オープンで実用的なQAに焦点を当てている。
我々はこのQ&Aデータセットを研究コミュニティに公開し、ライフログ技術の新たな研究を支援する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:50:16 GMT)
CoCoTen: Detecting Adversarial Inputs to Large Language Models through Latent Space Features of Contextual Co-occurrence Tensors [3.7] 本稿では,コンテキスト共起行列を用いた検出問題について検討する。
本論文では,コンテキスト共起行列の潜在空間特性を利用した新しい手法を提案する。
評価の結果,ラベル付きプロンプトの0.5%しか使用せず,F1スコアの0.83を達成できた。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:53:32 GMT)
Unveiling Location-Specific Price Drivers: A Two-Stage Cluster Analysis for Interpretable House Price Predictions [3.7] 住宅価格のバリュエーションは、ローカライズされた市場の変動のため、依然として困難である。
既存のアプローチはしばしば、解釈可能性に欠けるブラックボックス機械学習モデルに依存している。
本稿では,2段階のクラスタリングを応用した機械学習手法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:00:42 GMT)
Overcoming Algorithm Aversion with Transparency: Can Transparent Predictions Change User Behavior? [3.7] これまでの研究によると、機械学習(ML)モデルの予測を調整することで、不完全なアルゴリズム決定を回避できた。
解釈可能なMLモデルがアルゴリズムの逆転をさらに減らすのか、あるいは時代遅れになるのかは不明だ。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:15:27 GMT)
PyLate: Flexible Training and Retrieval for Late Interaction Models [3.7] マルチベクタアーキテクチャをサポートするために,Sentence Transformer上に構築されたライブラリであるPyLateを紹介した。
PyLateは、効率的なインデックスのようなマルチベクタ固有の機能を提供することで、遅延相互作用モデルの研究開発と実世界の応用を加速することを目指している。
PyLateはすでに、GTE-ModernColBERTやReason-ModernColBERTなど、最先端のモデルの開発を可能にしている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:23:40 GMT)
When Deep Learning Fails: Limitations of Recurrent Models on Stroke-Based Handwriting for Alzheimer's Disease Detection [3.6] アルツハイマー病の検出には高価な神経画像撮影や侵襲的な処置が必要で、アクセシビリティが制限される。
本研究は, 深層学習が手書き解析による非侵襲的アルツハイマー病の検出を可能にするかどうかを考察する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:10:11 GMT)
Nonconvex Optimization Framework for Group-Sparse Feedback Linear-Quadratic Optimal Control: Penalty Approach [3.6] 本稿では,無限水平線形四元数(LQ)問題における設計グループパースフィードバックコントローラの統一的非最適化フレームワークを開発する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:45:20 GMT)
Are Inherently Interpretable Models More Robust? A Study In Music Emotion Recognition [3.6] ブラックボックスのモデルと比較して、本質的に解釈可能なディープモデルがデータ内の無関係な摂動に対して堅牢であるかどうかを検討する。
我々の結果は、本質的に解釈可能なモデルの方がブラックボックスモデルよりも頑丈であることを示し、敵対的に訓練されたモデルと同じような堅牢性を達成することを示唆している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:29:29 GMT)
CoEmoGen: Towards Semantically-Coherent and Scalable Emotional Image Content Generation [3.5] 感情画像コンテンツ生成(EICG)は、与えられた感情カテゴリに基づいて、意味的に明確で、感情的に忠実な画像を生成することを目的としている。
セマンティックコヒーレンスと高いスケーラビリティで有名な新しいパイプラインであるCoEmoGenを提案する。
スケーラビリティを直感的に示すために,情緒的な芸術的イメージの大規模なデータセットであるEmoArtをキュレートする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:04:34 GMT)
Beyond Illumination: Fine-Grained Detail Preservation in Extreme Dark Image Restoration [3.5] 暗黒画像のディテールリカバリを主眼とした,効率的な2段階探索手法を提案する。
第1段階では、周波数領域のグローバル照明を効果的に復元するResidual Fourier-Guided Module (RFGM)を導入する。
RFGMは、残コネクションを介して、ステージ間およびチャネル間依存関係をキャプチャする。
Patch Mamba はチャネル結合された非サンプルパッチで動作し、ピクセルレベルの相関を慎重にモデル化し、解像度損失を伴わずに微細な詳細を向上する。
グラッド・マンバ(Grad Mamba)は、高次領域、状態空間モデルにおける状態崩壊の緩和、シャープの優先順位付けなどに焦点を当てている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:31:08 GMT)
Causal identification with $Y_0$ [3.5] $Y_$は、データに対する介入、反ファクト、トランスポートビリティクエリを適用する因果識別アルゴリズムを実装している。
$Y_$は、因果クエリと評価を表現するためのドメイン固有の言語を提供する。
$Y_$ は pip install y0 でインストールできる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:13:33 GMT)
Thought Anchors: Which LLM Reasoning Steps Matter? [3.4] 文レベルでの推論トレースの分析は、推論過程を理解するための有望なアプローチである、と我々は主張する。
それぞれの手法は、思考のアンカーの存在を証明し、より重要視された推論ステップを提供する。
本稿では,モデルがどのように多段階の推論を行うかを示す手法間の収束パターンを示すケーススタディを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:34:19 GMT)
Physics-Constrained Fine-Tuning of Flow-Matching Models for Generation and Inverse Problems [3.4] 本稿では、物理制約を強制し、科学的システムにおける逆問題を解決するための微調整フローマッチング生成モデルの枠組みを提案する。
我々のアプローチは、生成的モデリングと科学的推論を橋渡し、シミュレーション強化された発見と物理システムのデータ効率のモデリングのための新たな道を開く。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:32:04 GMT)
Analyzing German Parliamentary Speeches: A Machine Learning Approach for Topic and Sentiment Classification [3.4] 本研究は、ドイツの議会である連邦議会における政治談話について、約28,000の議会演説を分析して調査する。
トピック分類と感情分類のための2つの機械学習モデルを開発し、手動でラベル付けされたデータセットで訓練した。
これらのモデルでは, トピック分類において, 受信機動作特性曲線(AUROC)0.94の領域を達成し, 高い分類性能を示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:44:42 GMT)
BSMamba: Brightness and Semantic Modeling for Long-Range Interaction in Low-Light Image Enhancement [3.3] 現在の低照度画像強調法(LLIE)は、セマンティック一貫性、細部、計算効率を保ちながら、輝度を同時に改善する上で重要な制限に直面している。
BSMamba は,Brightness Mamba と Semantic Mamba の2つの特別に設計されたコンポーネントからなる新しい視覚的マンバアーキテクチャである。
BSMambaは、セマンティック一貫性を維持しながらLLIEで最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:27:12 GMT)
A Comprehensive Evaluation of Semantic Relation Knowledge of Pretrained Language Models and Humans [3.3] ハイパーネミーを超えた5つの関係を包括的に評価する枠組みを導入する。
我々は最近セマンティック・リレーション・ナレッジの未処理の側面に5つのメトリクスを使用します。
その結果、人間と全ての意味関係のモデルの間に大きな知識ギャップがあることが判明した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:59:05 GMT)
Graph Attention-Driven Bayesian Deep Unrolling for Dual-Peak Single-Photon Lidar Imaging [3.3] 単光子ライダーイメージングは高解像度と長距離の能力のために3Dイメージングにおいて大きな利点がある。
1ピクセル当たりの複数のターゲットを持つノイズの多い環境では、適用が難しい。
デュアルピーク単光子ライダーイメージングのためのディープアンローリングアルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:46:20 GMT)
Probing strongly driven and strongly coupled superconducting qubit-resonator system [3.3] 測定システムはコプラナー導波管共振器に結合した超伝導束量子ビットである。
このハイブリッド量子共振器は磁束によって駆動され、フィードラインを介して弱いプローブ信号でプローブされる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:53:24 GMT)
All-optical temporal integration mediated by subwavelength heat antennas [3.2] 統合されたフレームワーク内で25万要素を超える入力ベクトルを処理できる光ニューロモルフィックコンピューティングシステム。
システムは、波長選択吸収体として機能するチタンナノアンテナを用いて、立波光学場における光駆動熱光学変調を利用する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:09:26 GMT)
RegMean++: Enhancing Effectiveness and Generalization of Regression Mean for Model Merging [3.2] RegMean++は、シンプルなが効果的なRegMeanの代替品です。
RegMean++は、モデルをマージする層間の層内および層間依存関係をRegMeanの目的に明示的に組み込んでいる。
我々の実験によると、RegMean++はさまざまな設定でRegMeanよりも一貫して優れています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:08:26 GMT)
Agentic AI in 6G Software Businesses: A Layered Maturity Model [3.2] エージェントAIシステムは、分散環境における自律性、スケーラビリティ、インテリジェントな意思決定を促進することを約束する。
彼らの採用は、技術的な複雑さ、統合、組織的準備、パフォーマンスコストのトレードオフに関する懸念を提起する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:42:46 GMT)
Absence of dissipation-free topological edge states in quadratic open fermions [3.1] 一般二次開フェルミオン系は散逸のない位相的エッジ状態をホストできないというノーゴー定理を証明する。
この結果は、オープンフェルミオン系におけるロバストなトポロジカル現象の存在の確定的な境界を定めている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:10:11 GMT)
Navigation Pixie: Implementation and Empirical Study Toward On-demand Navigation Agents in Commercial Metaverse [3.1] 本稿では,構造化空間メタデータと自然言語処理を統合した疎結合アーキテクチャを用いたオンデマンドナビゲーションエージェントであるNavigation Pixieを提案する。
99のPCクライアントと94のVR-HMD参加者による商用メタバースプラットフォームであるClusterのクロスプラットフォーム実験では、Navigation Pixieが居住時間と自由探索時間を大幅に増加させることを示した。
本研究は,対話型空間ナビゲーションエージェントによるVRインタラクション設計の進展に寄与する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:45:34 GMT)
Topos Theory for Generative AI and LLMs [3.0] トポス理論を用いた新しい分類型生成型AIアーキテクチャ(GAIA)の設計を提案する。
大規模言語モデル (LLM) のカテゴリは,集合のようなカテゴリーであるトポを形成することを示す。
LLMトポスアーキテクチャの実装の可能性を定義するために,バックプロパゲーションのファンクリアルな特徴付けを用いる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:00:06 GMT)
Topos Causal Models [3.0] 本稿では, Topos causal model (TCMs)を提案する。
本論文の主な目的は、これらの特性が因果推論における多くの応用の中心であることを示すことである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:50:57 GMT)
Two-sample comparison through additive tree models for density ratios [3.0] 本研究では, 分散損失と呼ばれる新たな損失関数を用いて, 密度比の加算木モデルを訓練するアルゴリズムを提案する。
損失関数が指数族核に類似していることから、新しい損失は共役前駆体が存在する擬似類似体として機能することを示す。
本稿では,二分分類における指数的損失とf-発散の変分形式との密接な関係を通してのバランス損失について考察する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:08:49 GMT)
Deep learning framework for crater detection and identification on the Moon and Mars [3.0] 衝突クレーターは、惑星の表面組成、地質学的履歴、衝突過程に関する重要な情報を提供する。
本稿では,衝突クレーターの検出と同定にディープラーニングモデルを適用した。
畳み込みニューラルネットワーク(CNN)やYOLOやResNetなど,新しいモデルを用いています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:29:34 GMT)
Supervised Dynamic Dimension Reduction with Deep Neural Network [3.0] 本稿では,新しい動的主成分分析フレームワークであるSupervised Deep Dynamic principalを提案する。
我々は、元の予測を教師付きでスケーリングすることで、ターゲット対応予測器を構築する。
次に、ターゲット認識予測器上で主成分分析を行い、推定されたSDDP因子を抽出する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:15:30 GMT)
A Low-Power Evanescent Field Atom Guide Based on Nanofiber Testbeds for Chip-Scale Quantum Inertial Sensors with Photonic Integrated Circuits [3.0] 本研究では,フォトニック集積回路(PIC)への応用を目的としたナノファイバーテストベッドを用いたEF原子ガイドの実現可能性について検討した。
我々は、移動するエバネッセント波を導電するEF原子を実証し、マイクロ波場およびファイバ導電性EFドップラーフリーラマンビームによるEF原子の原子コヒーレンスを検証した。
ナノファイバーテストベッドをベースとした低消費電力のEF原子ガイドでは、793nmと937nmの光を使って133Csの原子を捕捉しています。
このアプローチは電力要求を10mWに減らし、真空環境における熱管理を容易にする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:37:23 GMT)
Unravelling the Probabilistic Forest: Arbitrage in Prediction Markets [2.9] Polymarketは予測市場プラットフォームであり、ユーザーは条件として知られる特定の結果に結びついた共有によって将来の出来事を推測することができる。
この設計にもかかわらず、ポリマーケットは依存資産が不利な場合を示す。
この現象は調停と呼ばれ、洗練された参加者がこのような矛盾を活用できる可能性がある。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:06:50 GMT)
Stabilizer Rényi Entropy for Translation-Invariant Matrix Product States [2.9] R'enyi entropy (SRE)は、従来の手法の複雑さを回避して、魔法の抽出可能な尺度を提供する。
我々は、魔法と絡み合いの基本的な関係を数値的に明らかにし、それらの相互作用に関するより深い理論的研究の道を開く。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:04:03 GMT)
HALO: Hindsight-Augmented Learning for Online Auto-Bidding [2.9] デジタル広告プラットフォームはリアルタイム入札(RTB)システムを通じてミリ秒レベルのオークションを運営している。
このダイナミックなメカニズムは、正確なオーディエンスターゲティングを可能にするが、深い運用上の複雑さをもたらす。
HALO: オンライン自動入札のための隠れた学習法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:47:26 GMT)
Sparsity and Total Variation Constrained Multilayer Linear Unmixing for Hyperspectral Imagery [2.9] ハイパースペクトルアンミキシング(Hyperspectral unmixing)は、材料シグネチャ(エンドメンバーと呼ばれる)と対応する割合(アブリダンスを参照)を推定することを目的としている。
本研究は,高スペクトル画像に対するスペーサシティと全変動(TV)制約付き多層リニアアンミキシング(STVMLU)と呼ばれる新しいアプローチを開発する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:50:55 GMT)
Semantic Mosaicing of Histo-Pathology Image Fragments using Visual Foundation Models [2.8] 病理組織学では、組織サンプルは標準的な顕微鏡のスライドよりも大きく、複数の断片を縫合する必要がある。
これにより、境界形状マッチングアルゴリズムを用いて、人工的なマウントスライドを再構築する最先端の縫合法が制限される。
本稿では,視覚病理基盤モデルから派生した潜在特徴表現を用いてSemanticStitcherを導入し,周辺領域を同定する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:51:44 GMT)
Characterizing and Mitigating Flux Crosstalk in Superconducting Qubits-Couplers System [2.8] 超伝導量子ビットは、近年では誤差補正しきい値を超え、例外的なゲート忠実性を実現している。
このような改善の鍵となる要素は、周波数調整による量子ビット間結合を制御するチューナブルカプラの導入である。
フォールトトレラント量子計算に向けて、物理量子ビットの数を増やすことは、効果的な誤り訂正符号への別のステップである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:22:57 GMT)
Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences [2.7] 音声の数学的表現の変換は、厳密に構造化された記号表現への音声の書き起こしを伴う難しい作業である。
66,000人以上の人手による数学的方程式と文のオーディオサンプルからなる、最初の完全にオープンソースな大規模データセットを提示する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:11:37 GMT)
Domain-Specific Fine-Tuning and Prompt-Based Learning: A Comparative Study for developing Natural Language-Based BIM Information Retrieval Systems [2.7] 自然言語インタフェース(NLI)システムは,建築情報モデリング環境において,情報検索のためのユーザフレンドリなツールとして研究されている。
その可能性にもかかわらず、自然言語クエリを通して正確にBIM関連のデータを抽出することは、依然として永続的な課題である。
本研究では,NLIに基づくBIM情報検索システムを構築するための2つの重要なアプローチの比較分析を行った。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:51:51 GMT)
Optimized Clifford Noise Reduction: Theory, Simulations and Experiments [2.7] 本稿では,CliNR部分誤り訂正方式の最適化について述べる。
誤差は、パウリ作用素の列を測定することによって補正される。
提案アルゴリズムは,CliNRの性能を25%向上させる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:11:11 GMT)
ReDSM5: A Reddit Dataset for DSM-5 Depression Detection [2.7] うつ病は、世界中で数億人の個人に影響を与える広範囲な精神状態である。
ReDSM5は1484の長文の投稿からなるRedditの新しいコーパスであり、それぞれが9つのDSM-5うつ病症状に対して、許可された心理学者によって全文で注釈付けされている。
ソーシャルメディアの物語における症状表現を特徴付ける語彙的,統語的,感情的なパターンを探索的に分析する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:48:06 GMT)
Intelligent Sampling of Extreme-Scale Turbulence Datasets for Accurate and Efficient Spatiotemporal Model Training [2.6] 能率学習のためのスパース知的キュレーションフレームワークであるSICKLEを開発した。
予備処理ステップとしてのサブサンプリングにより,モデル精度が向上し,エネルギー消費が大幅に低減できることを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:34:59 GMT)
Tool-integrated Reinforcement Learning for Repo Deep Search [2.6] 本稿では,2段階のツール統合学習フレームワークであるToolTrainについて紹介する。
実験の結果,ToolTrainでトレーニングしたモデルでは最先端の性能が得られ,32Bモデルは関数レベルのローカライゼーションにおいてClaude-3.7を超えていることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:44:21 GMT)
Can Large Language Models Bridge the Gap in Environmental Knowledge? [2.5] 本研究では,環境概念の伝達における大規模言語モデル(LLM)の有効性を評価する。
結果は、AIモデルは学生と学術スタッフの両方に力を与える可能性を秘めた、広く、アクセスしやすく、有効な知識基盤を持っている一方で、環境科学の人間分野の専門家は、提供された情報の正確性を検証する必要があることを示唆している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:55:07 GMT)
Filtering with Self-Attention and Storing with MLP: One-Layer Transformers Can Provably Acquire and Extract Knowledge [2.5] 現代の大きな言語モデルは知識集約的なタスクに優れています。
トランスフォーマーは、事前学習中に知識を習得(保存)し、ポストファインニング中にそれを抽出(回収)する方法は、いまだに不透明である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:25:50 GMT)
Bidirectional TLS Handshake Caching for Constrained Industrial IoT Scenarios [2.5] BiTHaCは、繰り返しTLSハンドシェイクの重要な部分、特に証明書が静的であることを利用して、双方向TLSハンドシェイクキャッシュを実現する。
本研究では,TLSハンドシェイクの帯域幅を最大61.1%削減し,計算オーバーヘッドを最大8.5%削減すると同時に,メモリオーバーヘッドを十分に管理し,TLSの厳格なセキュリティ保証を確保できることを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:00:41 GMT)
Improving the fact-checking performance of language models by relying on their entailment ability [2.5] ファクトチェック性能を改善するための簡易かつ効果的な戦略を提案する。
この戦略は、ファクトチェックのパフォーマンスを改善するために言語モデルの詳細な能力に依存する。
結果を再現するために、コードリポジトリを共有しました。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:17:28 GMT)
Fairness Definitions in Language Models Explained [2.4] 言語モデル (LM) は様々な自然言語処理 (NLP) タスクにおいて例外的な性能を示した。
これらの進歩にもかかわらず、LMは性別や人種などのセンシティブな属性に関連する社会的バイアスを継承し、増幅することができる。
本稿では,LM に適用されるフェアネスの定義を明らかにするための体系的な調査を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:22:54 GMT)
Video Is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation [2.4] この記事の執筆時点では、現在最先端のシステムであるOpenAIのSoraは、最大1分間のビデオ制作に制限されている。
本稿では,GANや拡散モデル,ビデオ生成戦略,大規模トレーニングデータセット,長大映像の評価のための品質指標,および既存の映像生成能力の限界に対処するための今後の研究領域について,現在の長大映像生成の状況について検討する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:03:48 GMT)
Enhancing Certified Robustness via Block Reflector Orthogonal Layers and Logit Annealing Loss [2.4] リプシッツニューラルネットワークは、ディープラーニングにおいて証明された堅牢性を提供することでよく知られている。
本稿では,新しい反射ブロック直交層(BRO)を提案する。
BRO層と損失関数を用いることで、シンプルなが効果的なリプシッツニューラルネットワークであるBRONetを設計する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:36:59 GMT)
PhenoBench: A Comprehensive Benchmark for Cell Phenotyping [2.4] フェノベンチ(PhenoBench)は、ヘマトキシリンとエオシン染色組織像の細胞性形質転換のベンチマークである。
PhenoCellは、多重イメージングを用いて識別された14の粒状細胞を特徴とする新しいデータセットである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:54:04 GMT)
The Impact of Item-Writing Flaws on Difficulty and Discrimination in Item Response Theory [2.4] 質の高いテスト項目は、特にIRTにおける教育評価に不可欠である
従来の検証方法は、アイテムの難易度と差別を見積もるために、リソース集約的なパイロットテストに依存している。
テキスト機能に基づいたテスト項目評価のためのドメイン汎用アプローチとして,IWF(Item-Writing Flaw)ルーブリックが登場した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:38:17 GMT)
STRUCTSENSE: A Task-Agnostic Agentic Framework for Structured Information Extraction with Human-In-The-Loop Evaluation and Benchmarking [2.4] StructSenseは、大規模言語モデル上に構築された構造化情報抽出のためのモジュラーでタスクに依存しないオープンソースのフレームワークである。
複雑なドメインコンテンツを効果的にエンコードできるドメイン固有のシンボリック知識によって導かれる。
我々は、StructSenseがドメイン感度の限界とクロスタスクの一般化性の欠如を克服できることを実証した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:53:34 GMT)
15,500 Seconds: Lean UAV Classification Using EfficientNet and Lightweight Fine-Tuning [2.3] 無人航空機(UAV)は、消費者と軍事用UAVの市場が拡大するにつれて、セキュリティ上の懸念がエスカレートする。
本稿では,UAV音声分類における重要データ不足問題に対処する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:30:07 GMT)
From App Features to Explanation Needs: Analyzing Correlations and Predictive Potential [2.2] 本研究では,ユーザレビューから分類した説明要求が,アプリ特性に基づいて予測可能であるかを検討する。
メタデータに富んだ4,495のアプリレビューのゴールド標準データセットを分析した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:46:13 GMT)
Comparing Normalization Methods for Portfolio Optimization with Reinforcement Learning [2.2] 近年、強化学習はロボット工学、ゲーム、自然言語処理、金融など様々な分野で顕著な成果を上げている。
本稿では,3つの市場において最も広く使用されている正規化手法の2つについて検討し,トレーニング前のデータ正規化の標準手法と比較する。
結果は、この特定の領域において、状態正規化はエージェントのパフォーマンスを実際に低下させることができることを示している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:51:13 GMT)
Likelihood Matching for Diffusion Models [2.2] 学習拡散モデルのためのLikelihood Matchingアプローチを提案する。
準類似性は、ガウス分布によって各逆遷移密度を近似すると考えられる。
推定スコアとヘッセン情報の両方を利用する計算を容易にするために、サンプリング器が導入された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:51:29 GMT)
REALM-Bench: A Benchmark for Evaluating Multi-Agent Systems on Real-world, Dynamic Planning and Scheduling Tasks [2.1] このスイートは、基本的なものから非常に複雑なものへと進化する14の計画とスケジューリングの問題を含んでいる。
それぞれの問題は、並列計画スレッドの数、依存性間の複雑さ、予期せぬディスラプションの頻度の3つの次元に沿ってスケールすることができる。
このベンチマークは一般公開を目標とし、現実のアプリケーションのためのより適応性があり、堅牢でスケーラブルなAI計画システムの開発を進めることを目指している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:22:49 GMT)
MissDDIM: Deterministic and Efficient Conditional Diffusion for Tabular Data Imputation [2.1] 表計算にDenoising Diffusion Implicit Models(DDIM)を適用する条件拡散フレームワークMissDDIMを提案する。
サンプリングは多様な補完を可能にするが、下流処理を複雑にする出力の可変性も導入している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:55:26 GMT)
The Unified Cognitive Consciousness Theory for Language Models: Anchoring Semantics, Thresholds of Activation, and Emergent Reasoning [2.1] 統一認知意識理論(UCCT)は、これらを巨大な無意識パターンリポジトリとみなしている。
UCCTはこの過程を、事前学習で学んだ統計的事前学習と文脈駆動のターゲットパターンの間のベイズ的競争として定式化している。
我々はこの理論を、しきい値交差、モダリティ、密度距離予測力の3つの原理で基礎づける。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:28:34 GMT)
Estimating the Schmidt numbers of quantum states via symmetric measurements [2.0] 対称測定から得られた相関行列のトレースノルムに基づいてシュミット数基準を導出する。
以上の結果から,既存のシュミット数基準よりも有効であり,優れた結果が得られた。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:14:26 GMT)
FilBench: Can LLMs Understand and Generate Filipino? [2.0] FilBenchはフィリピン中心のベンチマークであり、フィリピン、タガログ、セブアーノにおける様々なタスクと能力のセットでLCMを評価するように設計されている。
FilBench 上で27の最先端 LLM を評価することで,複数の LLM が読解能力や翻訳能力に悩まされていることがわかった。
我々の研究は、フィリピンのNLPの進歩を促進するために、言語固有のベンチマークをキュレートすることの価値を実証している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:48:32 GMT)
Interpretable Estimation of CNN Deep Feature Density using Copula and the Generalized Characteristic Function [2.0] 畳み込みニューラルネットワーク(CNN)の深い特徴の確率密度関数(PDF)を推定するための新しい実証的アプローチを提案する。
主要ブロック後の非負の深いCNN特徴の1次元境界はガウス分布によってよく近似されない。
ネットワークの深度によって深い特徴が長期化していくのを我々は観察するが、驚くべきことにこの増加率は理論的な推定よりもはるかに遅い。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:59:24 GMT)
Pay What LLM Wants: Can LLM Simulate Economics Experiment with 522 Real-human Persona? [1.9] 実際の522人の人物を用いたPay-What-You-Want価格設定実験を用いて,大規模言語モデルによる個人経済意思決定の予測能力を評価する。
その結果、LSMは正確な個人レベルの予測に苦しむ一方で、合理的なグループレベルの行動傾向を示すことが明らかとなった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:37:37 GMT)
Evaluating Detection Thresholds: The Impact of False Positives and Negatives on Super-Resolution Ultrasound Localization Microscopy [1.9] 本研究では, 偽陽性 (FPs) と偽陰性 (FNs) がULM画像品質に与える影響について検討した。
厳密なMB領域は検出エラーに対してより耐性があり、スパース領域は高い感度を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:08:49 GMT)
When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs [1.9] 本稿では,WhisperInjectについて紹介する。
最先端のオーディオ言語モデルを操作して有害なコンテンツを生成することができる。
提案手法は,人間の聴取者に不慣れな音声入力において,知覚不能な摂動を用いる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:14:01 GMT)
More Than a Score: Probing the Impact of Prompt Specificity on LLM Code Generation [1.9] 大規模言語モデル(LLM)は、HumanEvalのような一般的なベンチマークでは高いパス@1を達成するが、ParEvalのような特殊なスイートではパフォーマンスが低い。
これは、最小限から最大詳細まで部分的なプロンプトの順序でコード生成ベンチマークを拡張するものです。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:49:48 GMT)
Understanding Demand for Shared Autonomous Micro-Mobility [1.8] 本研究は、米国における自動運転自転車と交通機関の統合に焦点を当てたものである。
我々は、現実世界の旅行に基盤を置き、個別選択モデルを推定する、記述された嗜好調査を設計する。
発見は、採用、モードシフト、環境への影響がサービス設計に非常に敏感であることを示している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:47:41 GMT)
Increasing Interaction Fidelity: Training Routines for Biomechanical Models in HCI [1.8] 強化学習を用いたバイオメカニカルモデルの訓練は,特に精密かつ巧妙な動作において困難である。
現在のアプローチは相互作用の忠実度に制限されており、複雑さを減らすために基盤となる生体力学モデルを制限することが必要であり、うまく一般化しない。
本研究では,訓練時間を短縮し,既存の手法を超えて相互作用の忠実度を高め,より複雑な生体力学モデルの使用を可能にする訓練ルーチンの実践的改善を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:39:30 GMT)
GP and LLMs for Program Synthesis: No Clear Winners [1.8] 遺伝的プログラミング(GP)と大規模言語モデル(LLM)は、プログラム仕様の提供方法が異なる。
我々はPSB2ベンチマークスイートからタスクのコンピュータプログラムを合成するPushGPとGPT-4oの能力を比較した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 23:09:45 GMT)
LECTOR: LLM-Enhanced Concept-based Test-Oriented Repetition for Adaptive Spaced Learning [1.8] LECTORは、テスト指向学習シナリオのための新しい適応スケジューリングアルゴリズムである。
語彙学習における意味的混乱の課題に対処する。
LECTORは、最高のベースラインアルゴリズムでは88.4%に比べて90.2%の成功率を達成した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:53:26 GMT)
NameTag 3: A Tool and a Service for Multilingual/Multitagset NER [1.8] NameTag 3は、多言語、マルチデータセット、マルチタグのエンティティ認識のためのオープンソースツールである。
コマンドラインツールとして、およびクラウドベースのサービスとして利用可能で、ローカルインストールなしで使用することができる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:11:01 GMT)
A semi-automatic approach to study population dynamics based on population pyramids [1.8] 本稿では,アルゴリズムによる個体群データの分類を,異なる形状の「ピラミド」に分類する。
本研究では,1970年から2024年までの世界の哺乳類の動物園個体数に関するデータを用いた。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:59:14 GMT)
Point-Based Shape Representation Generation with a Correspondence-Preserving Diffusion Model [1.6] 本稿では,対応した点ベース形状表現を生成するための拡散モデルを提案する。
OASIS-3(Open Access Series of Imaging Studies 3, OASIS-3)と対応した形状表現データを用いて,我々の対応保存モデルがポイントベース海馬形状表現を効果的に生成できることを実証した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:36:26 GMT)
A Compression Based Classification Framework Using Symbolic Dynamics of Chaotic Maps [1.5] カオスマップを用いた記号力学とデータ圧縮に基づく新しい分類フレームワークを提案する。
中心となる考え方は、閾値付き実数値トレーニングデータから記号列を生成して各クラスをモデル化し、1次元のカオスマップを通して進化させることである。
提案手法は,合成データセットと実世界のデータセットの両方にemphChaosCompを適用し,従来の機械学習アルゴリズムと比較して競合性能を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:35:41 GMT)
RadProPoser: A Framework for Human Pose Estimation with Uncertainty Quantification from Raw Radar Data [1.5] 複素数値レーダテンソルを処理する確率的エンコーダデコーダアーキテクチャであるRadProPoserを紹介する。
変分推論をキーポイント回帰に組み込むことで、RadProPoserは26の3次元関節位置を共同で予測する。
RadProPoserは、光学式モーションキャプチャー地上真実を用いて、45度の角度で5.678cmの6.425cmの総合平均接合位置誤差(MPJPE)を達成した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:46:05 GMT)
CLARIFID: Improving Radiology Report Generation by Reinforcing Clinically Accurate Impressions and Enforcing Detailed Findings [1.5] 専門家の2段階のワークフローを反映して診断精度を直接最適化する新しいフレームワークであるCLARIFIDを提案する。
CLARIFIDは、セクション認識事前学習を通じて、FundingsからImpressionへの論理フローを学習する。
本手法は,NLGの基準値と臨床意識スコアの両方において,優れた臨床効果を達成し,既存の基準値よりも優れていることを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:52:49 GMT)
First result for testing semiclassical gravity effect with a torsion balance [1.5] Schr"odinger-Newton方程式は、低周波力学系において重力が測定可能な偏差を引き起こすことを予測している。
この研究は、量子力学と重力の間の相互作用を探索する精密光学の可能性を実証している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:43:38 GMT)
Advancing Precision in Multi-Point Cloud Fusion Environments [1.5] 本研究は,多点クラウドと多点クラウドマッチング手法の評価による視覚的産業検査に焦点を当てた。
本稿では,複数の点群をマージし,表面欠陥を可視化し,自動検査システムの精度と効率を向上させるための新しいCloudCompareプラグインを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:43:52 GMT)
MedFormer: Hierarchical Medical Vision Transformer with Content-Aware Dual Sparse Selection Attention [1.5] MedFormerは、2つの重要なアイデアを持つ効率的な医療ビジョントランスフォーマーである。
まず、様々な医用画像認識タスクのための多用途バックボーンとしてピラミッドスケーリング構造を用いる。
第2に、コンテンツ認識による計算効率の向上を目的とした、新しいDual Sparse Selection Attention (DSSA)を導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:35:06 GMT)
Nemori: Self-Organizing Agent Memory Inspired by Cognitive Science [1.5] 人間の認知原理に触発された,新たな自己組織型メモリアーキテクチャであるNemoriを紹介する。
ネモリの中核的な革新は、会話の流れを意味的に一貫性のあるエピソードに自律的に整理するトップダウン手法である。
ネモリは最先端のシステムよりも優れており、その利点は特に長い文脈で顕著である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:41:13 GMT)
Modeling Deontic Modal Logic in the s(CASP) Goal-directed Predicate Answer Set Programming System [1.5] デフォルトの否定と強い否定を用いて、(決定的な)モーダル作用素をエレガントに表現する方法を示す。
本稿では、ASPのグローバル制約を用いて、デオン型モーダル論理の義務と不完全性を表現することを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:42:51 GMT)
FFHQ-Makeup: Paired Synthetic Makeup Dataset with Facial Consistency Across Multiple Styles [1.5] FFHQ-Makeupは高品質な合成化粧データセットで、それぞれのアイデンティティと複数のメイクスタイルをペアリングする。
私たちの知る限りでは、メークアップデータセットの構築に特化している最初の作品です。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:16:43 GMT)
LLMDistill4Ads: Using Cross-Encoders to Distill from LLM Signals for Advertiser Keyphrase Recommendations at eBay [1.5] 本研究では,クリックデータから埋め込みベース検索モデル(EBR)をデバイアスするLLM-judgeを用いた新しい2段階LLM蒸留プロセスを提案する。
クロスエンコーダアシスタントを介してLLM教師からマルチタスクトレーニングアプローチを用いてバイエンコーダの学生に蒸留し、最終的には学生バイエンコーダを用いて関連する広告主キーフレーズを検索する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:47:17 GMT)
Uncertainty-Guided Face Matting for Occlusion-Aware Face Transformation [1.4] フェースフィルターはショートフォームビデオコンテンツの重要な要素となり、スタイリゼーションやフェイススワップといった幅広い視覚効果を可能にしている。
そこで我々は, 顔領域から咬合要素を分離するために, 微細なアルファマットを推定する, 顔マッチングの新たな課題を紹介した。
複雑な閉塞下で高品質なアルファマットを予測する,トリマップフリーで不確実性を考慮したフレームワークFaceMatを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:00:14 GMT)
Industrial LLM-based Code Optimization under Regulation: A Mixture-of-Agents Approach [1.4] 複数の特殊言語モデル(LLM)からコードを直接合成するMixture-of-Agents (MoA) アプローチを実装した。
本研究では,TurinTech AIのvanilla Genetic Algorithm(GA)ベースのアンサンブルシステムと,実世界の産業技術を用いた個々のLLMを比較した。
主要なコントリビューションとしては,(1) 実世界を用いた産業用コード最適化への最初のMoA適用,(2) MoAがオープンソースモデルに優れているという実証的証拠,(3) GAの商用モデルに対する優位性を実証するデプロイガイドライン,(4) 実世界における50個のコードスニペットの検証などがあります。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:15:06 GMT)
CF-RAG: A Dataset and Method for Carbon Footprint QA Using Retrieval-Augmented Generation [1.4] 我々は、PDF形式で利用可能な持続可能性レポート内の炭素フットプリントに関する質問に答えることに挑戦する。
従来のアプローチとは異なり、PDF解析から抽出したテキストの非構造的かつ一貫性のない性質によって引き起こされる困難に対処することに注力する。
LLMに基づく手法であるCarbonPDFを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:20:10 GMT)
VRPRM: Process Reward Modeling via Visual Reasoning [1.4] 視覚的推論によるプロセス報酬モデルであるVRPRMを提案し、効率的な2段階トレーニング戦略を設計する。
わずか3.6KのCoT-PRM SFTデータと50Kの非CoT PRM RLトレーニングデータを使用すると、VRPRMは総データ量400Kの非考えのPRMを超えることができる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:25:24 GMT)
Architectural Insights into Knowledge Distillation for Object Detection: A Comprehensive Review [1.4] このレビューでは、CNNベースの検出器とTransformerベースの検出器を区別する、KD手法のための新しいアーキテクチャ中心の分類法を紹介した。
提案した分類と分析は,オブジェクト検出におけるKDの進化する状況を明らかにすることを目的としており,現状の課題を浮き彫りにして,効率的でスケーラブルな検出システムに向けた今後の研究を導くことを目的としている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:53:46 GMT)
CADD: Context aware disease deviations via restoration of brain images using normative conditional diffusion models [1.3] 本稿では、3次元画像における規範的モデリングのための最初の条件拡散モデルCADDを提案する。
本稿では,異常除去と主観的特徴の保持を両立させる新しい推論塗装戦略を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:59:19 GMT)
Active Learning and Transfer Learning for Anomaly Detection in Time-Series Data [1.3] 本稿では,ドメイン間時系列データの異常検出における能動学習と移動学習の併用の有効性について検討する。
アクティブラーニングを用いたトレーニングセットに新たなサンプルを追加することでモデルの性能が向上することがわかったが、一般的には、改善の速度は文献が示唆する結果よりも遅いことが判明した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:30:41 GMT)
Residual Neural Terminal Constraint for MPC-based Collision Avoidance in Dynamic Environments [1.3] 本稿では,学習に基づく安全集合の近似を用いたハイブリッドMPCローカルプランナを提案する。
我々は,HJ値関数が対応する符号距離関数(SDF)と非負残関数の差として表現できるという特性を利用する。
残余成分は、非負の出力を持つニューラルネットワークとしてモデル化され、計算されたSDFから減算され、結果として、設計上、SDFと同じくらい安全である実時間値関数の推定結果が得られる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:17:13 GMT)
Entanglement swapping systems toward a quantum internet [1.3] 電気通信波長が1536.4nmで87%の時間ビン量子ビット間の条件エンタングルメントスワップを実証した。
我々のシステムは、モジュール式、オフザシェルフ、ファイバカップリング、電気光学変調器などの電気制御部品を利用して、展開可能である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:11:29 GMT)
Unified Tool Integration for LLMs: A Protocol-Agnostic Approach to Function Calling [1.3] 大規模言語モデル(LLM)は、開発者が複数のプロトコルをナビゲートしなければならない断片化されたエコシステムを作り上げた。
本稿では,実行性能を最適化しながらプロトコルの違いを抽象化するツール統合への統一的なアプローチを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:06:49 GMT)
TaylorPODA: A Taylor Expansion-Based Method to Improve Post-Hoc Attributions for Opaque Models [1.3] 既存のポストホックモデルに依存しない手法は、不透明なモデルに対する外部説明を生成する。
本稿では,Taylor項固有の属性を管理するために,厳密な仮定,すなわち「精度」,「フィード」,「ゼロ差分性」を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:03:04 GMT)
Telegrapher's Generative Model via Kac Flows [1.2] 本稿では,減衰波方程式に基づく新しい流れベース生成モデルを提案する。
フローマッチングの枠組みを用いて、速度場を近似したニューラルネットワークをトレーニングし、サンプル生成に使用する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:49:40 GMT)
A Survey of Medical Point Cloud Shape Learning: Registration, Reconstruction and Variation [1.2] ポイントクラウドは、従来のボクセルやメッシュベースのアプローチに代わる、コンパクトで表面保存の可能な3D医療画像の表現として、ますます重要になっている。
近年のディープラーニングの進歩により、ポイントクラウドデータから直接解剖学的形状の抽出、モデリング、分析の急速な進歩が可能となった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:04:20 GMT)
Fitness and Overfitness: Implicit Regularization in Evolutionary Dynamics [1.2] 進化力学と学習理論の数学的同型を利用して,進化する生物の複雑性と環境の複雑さの関係を考察する。
これらの結果は、環境の複雑さと一致するように進化する生物の複雑さと解釈される進化的な環境へと自然に引き継がれるかを示す。
以上の結果から,過度適応と過渡的環境特性のバランスと,環境問題に対応するための柔軟性の不足が,最適な複雑性の出現を促すことが示唆された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:52:46 GMT)
Uint: Building Uint Detection Dataset [1.2] ファイアシーンデータセットは、堅牢なコンピュータビジョンモデルのトレーニングに不可欠である。
ビルディングユニットを対象とする注釈付きデータはかなり不足している。
ドローンによって捕獲された建築ユニットの注釈付きデータセットを導入し、複数の拡張手法を取り入れた。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:36:41 GMT)
Cross-Model Semantics in Representation Learning [1.2] 構造的正則性は、構造的変動の下でより安定な表現幾何学を誘導することを示す。
これは、ある種の帰納バイアスがモデル内の一般化をサポートするだけでなく、モデル間の学習された機能の相互運用性を向上させることを示唆している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:57:24 GMT)
Beyond Platforms -- Growing Distributed Transaction Networks for Digital Commerce [1.2] 分散インフラストラクチャを進化させ、適応し、管理する方法はよく理解されていない。
本稿では,Beckn Protocolの開発とガバナンスに関する実証的研究について報告する。
アーキテクチャとガバナンスが、特定のビジネスドメインのローカルイノベーションをどのようにサポートするかを説明する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:21:12 GMT)
Augmenting Continual Learning of Diseases with LLM-Generated Visual Concepts [1.2] 本稿では,大規模言語モデル(LLM)が生成する視覚概念を識別的意味指導として活用する新しいフレームワークを提案する。
本手法は,類似性に基づくフィルタリング機構を備えた視覚概念プールを動的に構築し,冗長性を防止する。
注目することで、モジュールは関連する視覚概念から意味的知識を活用でき、分類のためのクラス表現の融合した特徴を生成できる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:15:54 GMT)
LumiGen: An LVLM-Enhanced Iterative Framework for Fine-Grained Text-to-Image Generation [1.1] 視覚言語モデル (LVLM) は、モーダルな理解と指示の追従において強力な能力を示した。
LumiGenは、T2Iモデルの性能を高めるために設計された新しいLVLM拡張反復フレームワークである。
LumiGenは平均スコア3.08で、最先端のベースラインを上回っている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:53:43 GMT)
OSINT or BULLSHINT? Exploring Open-Source Intelligence tweets about the Russo-Ukrainian War [1.1] 本稿では,ロシア・ウクライナ戦争におけるオープンソース・インテリジェンス(OSINT)の役割について考察する。
我々は、リアルタイムの軍事的エンゲージメントについて議論する約1,040人のユーザーから200万近いツイートを分析した。
我々は,OSINTコミュニティ内のコミュニケーションパターンと普及戦略を明らかにする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:06:36 GMT)
An Unsupervised Deep XAI Framework for Localization of Concurrent Replay Attacks in Nuclear Reactor Signals [1.1] 次世代の先進的な原子炉は、サイズと出力の両方が小さくなると予想されている。
ネットワーク通信においては,不正攻撃に対するデータの整合性の確保がますます重要になっている。
本稿では,オートエンコーダとカスタマイズされたウィンドウSHAPアルゴリズムを組み合わせて,リアルタイムのリプレイ攻撃を完全に特徴付ける,教師なし説明可能なAIフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:21:02 GMT)
Simulating Cyberattacks through a Breach Attack Simulation (BAS) Platform empowered by Security Chaos Engineering (SCE) [1.1] セキュリティカオスエンジニアリング(SCE)は、チームが防御をテストし、脆弱性を効果的に識別することを可能にする。
本稿では,既存の脅威情報データベースから,敵のプロファイルと能力を活用して,SCEをブレッハ攻撃シミュレーションプラットフォームに統合することを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:52:57 GMT)
Predicting EGFR Mutation in LUAD from Histopathological Whole-Slide Images Using Pretrained Foundation Model and Transfer Learning: An Indian Cohort Study [1.0] 肺腺癌 (LUAD) は非小細胞肺癌(NSCLC)の亜型である
EGFR遺伝子変異を有するLUADは、LUAD症例の約46%を占める。
AIモデルの最近の進歩は、がんの検出と分類において有望な結果を示している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:14:32 GMT)
CloudBreaker: Breaking the Cloud Covers of Sentinel-2 Images using Multi-Stage Trained Conditional Flow Matching on Sentinel-1 [1.0] 雲の覆いと夜間の条件は、衛星によるリモートセンシングにおいて重要な制限を保っている。
我々は、Sentinel-1データから高品質なマルチスペクトルSentinel-2信号を生成する新しいフレームワークであるCloudBreakerを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:25:18 GMT)
Intrusion Detection in Heterogeneous Networks with Domain-Adaptive Multi-Modal Learning [1.0] 我々は,マルチモーダル学習とドメイン適応手法を統合したディープニューラルネットワークを開発した。
我々のモデルは、様々なソースから連続的にデータを処理し、複数のデータセットから学習し、様々な特徴空間に適応できるようにします。
実験により,提案モデルがネットワーク侵入の分類において,ベースラインニューラルモデルよりも有意に優れていることが示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:46:03 GMT)
A Dual Optimization View to Empirical Risk Minimization with f-Divergence Regularization [1.0] ERM-fDRに対する双対最適化問題の解は、暗黙関数として導入された正規化関数の概念に関係している。
レジェンダー=フェンシェル変換と暗黙関数定理は正規化関数に非線形ODE表現を与える。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:48:40 GMT)
Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models [1.0] 大規模言語モデル(LLM)は、不正確なコンテンツや誤解を招くコンテンツを含む多種多様なインターネットコーパスで訓練されている。
本総説では,LLM生成したコンテンツが現実の精度でどのように評価されるかを系統的に分析する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:20:05 GMT)
Heterophily-Aware Fair Recommendation using Graph Convolutional Networks [1.0] 我々は,アイテム側のフェアネスを改善するために,HetroFairと呼ばれる公正なGNNベースのレコメンデーションシステムを提案する。
HetroFairは2つの別々のコンポーネントを使用して、フェアネスを意識した埋め込みを生成する。
実験の結果,HetroFairはアイテム側の不公平さや人気バイアスを軽減するだけでなく,ユーザ側の精度も向上することがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:31:51 GMT)
Learning in Focus: Detecting Behavioral and Collaborative Engagement Using Vision Transformers [1.0] 本稿では、視線方向、インタラクション、ピアコラボレーションなどの視覚的手がかりを用いて、子どものエンゲージメントを自動的に分類するAI駆動型アプローチを提案する。
本研究では,視覚変換器(ViT),データ効率のよい画像変換器(DeiT),スウィン変換器(Swin Transformer)の3つの最先端変換器モデルについて検討した。
Swin Transformerは97.58%の精度で最高の分類性能を達成し、局所的およびグローバルな注意をモデル化する効果を実証した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:26:07 GMT)
Taggus: An Automated Pipeline for the Extraction of Characters' Social Networks from Portuguese Fiction Literature [1.0] 我々はタッグスと呼ばれるパイプラインを提案し、ポルトガルの文学作品からソーシャルネットワークを抽出する。
その結果,手軽に利用できるState-of-the-Artツールと比較して,パイプラインは満足な結果が得られることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:03:03 GMT)
SoilNet: A Multimodal Multitask Model for Hierarchical Classification of Soil Horizons [1.0] 土壌の正確な分類は土壌の健康のモニタリングに不可欠である。
提案手法では, 地層分布を地平線候補に分割し, 画像データと時空間第一深度を推定する。
我々の手法は複雑な階層分類に対処するために設計されており、可能なラベルの数は、非常に大きく、不均衡であり、非自明に構造化されている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:29:57 GMT)
Zero-shot Shape Classification of Nanoparticles in SEM Images using Vision Foundation Models [0.9] 形状分類のための従来のディープラーニング手法は、広範囲なラベル付きデータセットと計算的な訓練を必要とする。
本研究では,2つの視覚基盤モデルを利用したゼロショット分類パイプラインを提案する。
我々は3つの形態学的に多様なナノ粒子データセットにまたがる高精度な形状分類を実現する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:03:56 GMT)
Marito: Structuring and Building Open Multilingual Terminologies for South African NLP [0.9] 南アフリカの公用語ハマーの構造化された用語データが不足しているため、多言語NLPは進歩している。
本研究では,アフリカ中心のNOODLフレームワークを用いて,基盤となるEmphMaritoデータセットについて紹介する。
実験では、英語からツシヴェンダ語への機械翻訳の精度とドメイン固有の一貫性が大幅に向上した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:00:02 GMT)
Beyond Meme Templates: Limitations of Visual Similarity Measures in Meme Matching [0.9] テンプレートマッチングを超えて拡張されたミームマッチングのより広範な定式化を導入する。
従来の類似度尺度はテンプレートベースミームのマッチングでは優れているが,非テンプレートベースミームに適用した場合は低下することを示す。
私たちの結果は、背景テンプレートだけでなく、共有視覚要素によるミームの正確なマッチングが依然としてオープンな課題であることを示している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:31:00 GMT)
Advancing Wildlife Monitoring: Drone-Based Sampling for Roe Deer Density Estimation [0.9] 無人のドローンを使ってオーストリア南東部の野生生物の密度を推定します。
熱(IR)とRGB画像を使用することで、ドローンは効率よく非侵襲的な動物計数を可能にする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:14:30 GMT)
SLA-MORL: SLA-Aware Multi-Objective Reinforcement Learning for HPC Resource Optimization [0.9] 本稿では、ユーザの好みに基づいてリソースをインテリジェントに割り当てる適応型多目的強化学習フレームワークSLA-MORLを提案する。
SLA-MORLは、納期クリティカルなジョブのトレーニング時間を67.2%削減し、予算制約のあるワークロードのコストを68.8%削減し、静的ベースラインと比較してSLA全体の73.4%改善したことを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:37:24 GMT)
Quantum circuits for simulating neutrino propagation in matter [0.9] 我々はニュートリノ振動において重要な役割を果たす現象である物質中のニュートリノ伝播の量子シミュレーションを行う。
本研究では, ニュートリノ伝搬を定値および変動物質密度プロファイルでシミュレートする新しいゲート配置の量子回路を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:08:44 GMT)
Lightweight Fault Detection Architecture for NTT on FPGA [0.9] ポスト量子暗号(PQC)アルゴリズムは数学的に安全であり、量子攻撃に耐性がある。
天然の欠陥や意図的な障害注入のために、ハードウェア実装の機密情報を漏洩することができる。
本研究は,軽量で効率的な再計算に基づく故障検出モジュールを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:23:50 GMT)
The Science Fiction Science Method [0.9] 本稿では,実験手法を用いて将来の技術をシミュレートする手法について述べる。
我々は、未来の制御されたバリエーションに割り当てられた参加者の態度と行動の定量的測定を収集する。
この方法がまだ十分に受け入れられていない理由は、その潜在的な利点にもかかわらず、実験科学者が深刻な妥当性の脅威に直面している仕事に従事することに消極的である可能性があることを示唆する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:20:12 GMT)
Aether Weaver: Multimodal Affective Narrative Co-Generation with Dynamic Scene Graphs [0.9] Aether Weaverは、マルチモーダルテキスト-視覚パイプラインの制限を克服する、物語的コジェネレーションのための新しいフレームワークである。
本システムは,テキスト物語,動的シーングラフ表現,視覚シーン,情緒的サウンドスケープを同時に合成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:01:48 GMT)
Tiny-BioMoE: a Lightweight Embedding Model for Biosignal Analysis [0.9] The textitSecond Multimodal Sensing Grand Challenge for Next-Gen Pain Assessment (AI4PAIN)に提出された。
提案手法は,生体信号解析のための軽量な事前学習型埋め込みモデルである textitTiny-BioMoE を導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:30:22 GMT)
Psychological safety in software workplaces: A systematic literature review [0.8] 心理的安全性(PS)は、チームの幸福とパフォーマンスに影響を与える重要な要素である。
ソフトウェア工学の分野におけるPSの研究は依然として限られている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:19:17 GMT)
Physics-Guided Memory Network for Building Energy Modeling [0.7] 本稿では,ディープラーニングモデルと物理モデルからの予測を統合し,それらの制約に対処するニューラルネットワークであるPgMNを紹介する。
PgMNは、スマートグリッドとスマートビルディングシステムにおける運用上の意思決定において重要な、短時間のエネルギー予測で評価された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:16:19 GMT)
Krylov Complexity as a Probe for Chaos [0.7] 飽和に対する力学がカオス系と可積分系を正確に区別していることが示される。
カオスモデルでは、複雑性の飽和値は有限飽和時間で無限の時間平均に達する。
可積分モデルにおいて、複雑性はより長い時間スケールで下から無限の時間平均値にアプローチする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:34:35 GMT)
MRG-Bench: Evaluating and Exploring the Requirements of Context for Repository-Level Code Generation [0.7] 大規模言語モデルのより正確な評価を提供する新しいデータセットである textbfMRG-Bench を紹介する。
我々は,大規模言語モデル,長期コンテキストモデル,RAG関連手法を含む実験を行う。
その結果、ほとんどの手法は「ユーザ要求を理解することの難しさ」に悩まされており、割り当てられたタスクを正確に理解できないことがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:53:45 GMT)
QCPINN: Quantum-Classical Physics-Informed Neural Networks for Solving PDEs [0.7] 物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)を解くための有望な方法として登場した。
本稿では、量子と古典成分を組み合わせた量子古典物理学インフォームドニューラルネットワーク(QCPINN)を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:17:28 GMT)
Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis [0.7] 本研究では,動的学習速度とバッチサイズスケジュール下での勾配降下運動量(SGDM)の収束挙動を解析した。
具体的には、Deep Learningで一般的に使用される3つの実用的なスケジューリング戦略をカバーするため、理論的枠組みを拡張した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:32:36 GMT)
AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video [0.7] AVATAR(Audio-Video Agent for Alignment and Reasoning, AVATAR)は,長時間ビデオの多時間推論を改善するフレームワークである。
AVATARは様々なベンチマークで高い性能を示し、サンプル効率は35%以上向上した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:25:17 GMT)
Toward Verifiable Misinformation Detection: A Multi-Tool LLM Agent Framework [0.6] 本研究は、革新的な誤情報検出LLMエージェントを提案する。
エージェントは、多様なWebソースとの動的相互作用を通じて、クレームを積極的に検証する。
情報ソースの信頼性を評価し、証拠を合成し、完全な検証可能な推論プロセスを提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:15:03 GMT)
Moveless: Minimizing Overhead on QCCDs via Versatile Execution and Low Excess Shuttling [0.6] 本稿では,QEC回路の構造規則性に特化したコンパイル方式を提案する。
その結果,QEC回路の動作速度は平均3.38倍に向上し,論理誤差率を最大2桁向上させることができた。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:02:29 GMT)
VITA: Variational Pretraining of Transformers for Climate-Robust Crop Yield Forecasting [0.6] 現在のAIモデルは、収穫が歴史的傾向から逸脱した場合、体系的に過小評価される。
この非対称性に対処する変分事前学習フレームワークであるVITAを導入する。
VITAは、事前訓練中に詳細な気象変数をプロキシターゲットとして使用し、自己監督された特徴マスキングを通じてリッチな大気状態を予測することを学ぶ。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:56:36 GMT)
An almost-linear time decoding algorithm for quantum LDPC codes under circuit-level noise [0.6] フォールトトレラントな量子コンピュータは古典的コプロセッサと組み合わせて設計されなければならない。
我々は、量子低密度パリティチェック符号のほぼ線形時間デコーダとして、信念伝播と順序付きタナーフォレスト(BP+OTF)アルゴリズムを導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:38:16 GMT)
Towards Interpretable Concept Learning over Time Series via Temporal Logic Semantics [0.6] 本稿では,軌道の直接埋め込みによる分類と説明を統一するニューロシンボリック・フレームワークを提案する。
実時間列と予め定義されたSTL式とのアライメントをマッピングする新しいSTLインスパイアされたカーネルを導入することで,モデルの精度と解釈性が向上する。
初期の結果は、モデル決定のための高品質な論理的正当性を提供しながら、競争性能を示している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:50:55 GMT)
StoneDetector: Conventional and versatile code clone detection for Java [0.5] StoneDetectorは、パスのテキスト比較に基づいて、従来のクローン検出アプローチを実装している。
StoneDetectorのJavaソースとBytecodeの両方でコードクローンを見つける際のパフォーマンスとスケーラビリティを示します。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:23:13 GMT)
From Legacy to Standard: LLM-Assisted Transformation of Cybersecurity Playbooks into CACAO Format [0.5] 既存のサイバーセキュリティのプレイブックは、しばしば異質で非機械可読なフォーマットで書かれる。
本稿では,従来のインシデント対応プレイブックを機械可読のCACAOフォーマットに自動翻訳するために,Prompt Engineeringと組み合わされた大規模言語モデルの適合性について検討する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:43:54 GMT)
On the (In)Significance of Feature Selection in High-Dimensional Datasets [0.5] 本研究では,ランダムに選択した特徴を用いたヌル仮説をFSアルゴリズムで選択した特徴と比較する。
その結果,分類作業における高次元データセット(特に遺伝子発現)上のFSは有用ではないことがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:58:31 GMT)
Presenting DiaData for Research on Type 1 Diabetes [0.5] この研究は15のデータセットを体系的に統合し、5分ごとにブドウ糖の測定値が記録された2510人の被験者の大規模なデータベースを提供する。
合計で1億1900万の計測結果が含まれており、そのうち4%が低血糖域の値を示している。
統合データセットは、性別と年齢の均等な分布を提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:29:43 GMT)
Understanding Transformers through the Lens of Pavlovian Conditioning [0.5] 本稿では,注意のコア計算をパブロヴィアン条件付けとして再解釈する理論的枠組みを提案する。
注意点のクエリ,キー,値が,古典的条件付けの3つの要素にマッピング可能であることを示す。
我々の枠組みは、この線形化モデルに基づくいくつかの理論的洞察をもたらす。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:00:00 GMT)
GEDAN: Learning the Edit Costs for Graph Edit Distance [0.5] 本稿では,教師なしトレーニングと教師なしトレーニングの両方を用いてグラフ編集距離(GED)を近似する新しいグラフニューラルネットワークフレームワークを提案する。
私たちのアーキテクチャの中核となるコンポーネントは、コンテキスト対応編集コストの柔軟かつ解釈可能な学習を可能にする一般化付加モデルの統合です。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:44:28 GMT)
Moment Estimate and Variational Approach for Learning Generalized Diffusion with Non-gradient Structures [0.5] 本稿では,非次成分を用いた一般化拡散法則を規定するデータ駆動学習フレームワークを提案する。
エネルギー散逸法則を物理的に一貫したペナルティと第1モーメントの進化とを組み合わせることで、一般化拡散における非勾配ドリフト群の点分解における擬ポテンシャルと回転を回復する2段階の手法を設計する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:56:59 GMT)
Measuring the stability and plasticity of recommender systems [0.5] 本稿では,レコメンデーションモデルが再訓練されたときにどのように振る舞うかを研究する方法論を提案する。
その考え方は、過去のパターンを保持する能力に応じてアルゴリズムをプロファイリングすることだ。
予備的な結果は,アルゴリズムの手法によって安定性と可塑性のプロファイルが異なることを示している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:15:43 GMT)
Accelerating Scientific Discovery with Multi-Document Summarization of Impact-Ranked Papers [0.4] 我々は、BIPに要約機能を導入している。Finderは、人気や影響力といった異なる影響面に基づいて文学をランク付けする学術検索エンジンである。
提案手法では,上位の検索結果から2種類の要約を生成することができる: 即時的な理解のための簡潔な要約と,より包括的な文献レビュースタイルの要約により,より大きく,より整理された理解のための要約である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:56:09 GMT)
Automatic Configuration Protocols for Optical Quantum Networks [0.4] このような2つの手作業を自動化するためのプロトコルとアルゴリズムを提案する。
量子ネットワークノードと時間-デジタルコンバータ間の接続を自動的に識別する問題に対処する。
量子ネットワークの光スイッチに付随するノードを特定するという、より複雑な課題に目を向ける。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:14:10 GMT)
The Cost of Nonlocality: A Dynamical Performance Equation of Energy-Entanglement-Complexity [0.4] この研究は、局所的な相互作用によって支配されるシステムにおける非局所的な絡み合いを生成する物理的コストの定量化を目的としている。
量子速度限界とリーブ・ロビンソン境界を統一することにより、「エネルギー-絡み合い性能方程式」を確立する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:49:45 GMT)
A Robust and Efficient Pipeline for Enterprise-Level Large-Scale Entity Resolution [0.4] 本稿では、エンタープライズレベルでの高ボリュームデータセットにおけるレコード重複とリンクの問題に対処するために設計された堅牢なパイプラインであるMERAIを紹介する。
私たちは、よく知られた2つのエンティティ解決ライブラリであるDedupeとSplinkと比較します。
MERAIは、エンタープライズレベルの大規模エンティティ解決のためのスケーラブルで信頼性の高いソリューションを提供し、実際のアプリケーションにおけるデータの整合性と一貫性を保証する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:24:56 GMT)
Unraveling the Black-box Magic: An Analysis of Neural Networks' Dynamic Extrema [0.4] ニューラルネットワークにおけるエクストリーム数とパラメータ数との正の相関性を示す。
本稿では,バックプロパゲーションアルゴリズムとは大きく異なる新しいアルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:09:21 GMT)
Inductive transfer learning from regression to classification in ECG analysis [0.4] 心臓血管疾患(CVD)は、世界の死亡率の30%以上を占め、世界的死亡率の主要な原因である。
研究における患者の心電図データの使用に関するプライバシー上の懸念が、合成データへの関心を喚起している。
本研究では、回帰から分類までの深層学習モデルを学習するための合成ECGデータの可能性について検討する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:43:20 GMT)
Tackling Distribution Shift in LLM via KILO: Knowledge-Instructed Learning for Continual Adaptation [0.4] 大規模言語モデル(LLM)は、ドメインシフトに直面すると、しばしばパフォーマンスの低下に悩まされる。
本稿では,動的知識グラフと命令チューニングを統合した新しい連続学習フレームワークKILOを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:39:37 GMT)
HypRL: Reinforcement Learning of Control Policies for Hyperproperties [0.3] 仕様誘導型強化学習フレームワークHYPRLを提案する。
我々はSkolemizationを適用して量化器の変質を管理し、報酬を形作る定量的関数を定義する。
次に、適切なRLアルゴリズムを用いて、期待される報酬を最大化するポリシーを学ぶ。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:20:00 GMT)
DiffGAN: A Test Generation Approach for Differential Testing of Deep Neural Networks for Image Analysis [0.3] DiffGANはディープニューラルネットワーク(DNN)の差分テストのためのブラックボックステスト画像生成手法である
それは多様で有効なトリガー入力を生成し、モデル間の振る舞いの相違を明らかにする。
その結果、DiffGANはSOTAベースラインを著しく上回り、同じ予算内で4倍のインプットをトリガーし、多様性と妥当性が向上した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:12:52 GMT)
Pre-trained Transformer-Based Approach for Arabic Question Answering : A Comparative Study [0.3] 4つの読解データセットを用いて、アラビア語のQAに対する最先端の事前学習変圧器モデルの評価を行った。
我々は, AraBERTv2-baseモデル, AraBERTv0.2-largeモデル, AraELECTRAモデルの性能を微調整し, 比較した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:43:16 GMT)
Dynamic and Static Analysis of Python Software with Kieker Including Reconstructed Architectures [0.3] Kiekerオブザーバビリティフレームワークは、アプリケーション用にカスタムなオブザーバビリティパイプラインを設計する手段をユーザに提供するツールである。
元々はJava用に調整され、PythonをKeekerでサポートするのは価値がある。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:39:09 GMT)
LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing [0.3] トレーニング不要で効率的な画像編集手法であるLOREを紹介する。
LOREは逆ノイズを直接最適化し、既存のアプローチの一般化と制御可能性の限界に対処する。
実験の結果,LOREはセマンティックアライメント,画像品質,背景忠実度において,強いベースラインを著しく上回ることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:45:04 GMT)
Zero-shot Segmentation of Skin Conditions: Erythema with Edit-Friendly Inversion [0.3] 本研究は, 拡散モデルにおける編集フレンドリーな逆転を用いたエロテマ(皮膚の赤み)の検出のためのゼロショット画像分割フレームワークを提案する。
この方法は、生成的編集により、エリスマのない同一患者の参照画像を合成し、これらの参照を元の画像と正確に整合させる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:33:34 GMT)
SINDyG: Sparse Identification of Nonlinear Dynamical Systems from Graph-Structured Data, with Applications to Stuart-Landau Oscillator Networks [0.3] グラフ構造化データ(SINDyG)から動的システムのスパース同定法を開発した。
SINDyGはネットワーク構造をスパース回帰に組み込んで、基礎となるネットワーク力学を説明するモデルパラメータを識別する。
本実験は, ネットワーク力学の精度向上と簡易性を検証した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 23:27:08 GMT)
On the Fast Adaptation of Delayed Clients in Decentralized Federated Learning: A Centroid-Aligned Distillation Approach [0.3] DFedCADはCentroid-Aligned Distillationによる迅速な適応のための新しいフレームワークである。
遅延クライアントがインテリジェントに評価し、ピアナレッジと整合することを可能にする。
CIFAR-10、CIFAR-100、Tiny-ImageNetの実験では、DFedCADは一貫して最先端のパフォーマンスを実現している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:41:30 GMT)
pyhgf: A neural network library for predictive coding [0.2] texttpyhgfは、予測コーディングのための動的ネットワークの作成、操作、サンプリングのためのPythonパッケージである。
ネットワークコンポーネントを透過的でモジュール的で、拡張可能な変数としてメッセージパッシングステップに囲み込むことで、他のフレームワークよりも改善します。
コア変数の透明性は、自己組織化の原則を活用する推論プロセスにも変換できる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:48:00 GMT)
Are All Genders Equal in the Eyes of Algorithms? -- Analysing Search and Retrieval Algorithms for Algorithmic Gender Fairness [0.2] 本稿では,アルゴリズムによる性公正のバイアス保存的定義を導入し,適用する。
我々は、メタデータの完全性、学術データベースでの公開検索、Google検索結果の可視性における男女差を分析した。
男性教授はより多くの検索結果とより整列した出版記録に関連付けられ、女性教授はデジタル視認性においてより多様性を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:33:01 GMT)
Enhancing AI System Resiliency: Formulation and Guarantee for LSTM Resilience Based on Control Theory [0.2] 我々は,LSTMが異常入力後に正常状態に戻るために必要な時間を定量化するために,新たな回復時間(recovery time)をレジリエンスの指標として導入する。
簡易モデルを用いた実験により, レジリエンス推定と制御手法の有効性が示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:29:45 GMT)
The AlphaPhysics Term Rewriting System for Marking Algebraic Expressions in Physics Exams [0.2] 本稿では,物理検査を自動的にマークする手法を提案する。
マーキング問題は、基底真理解に対する正当性について、型付き学生回答を評価することである。
我々は,2023年のオーストラリア物理学オリンピックで,1500人以上の学生の受験結果の豊富なプールにおいて,本システムの評価を行った。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:42:48 GMT)
Charge sensitivity in the transmon regime [0.2] 我々は、$E_textJ/E_textC approx 50$ であっても、トランスモンはチャージノイズで制限できることを示した。
E_textJ/E_textC approx 50$でも、トランスモンはチャージノイズで制限できる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 23:33:57 GMT)
Evaluating the Predictive Value of Preoperative MRI for Erectile Dysfunction Following Radical Prostatectomy [0.1] 前立腺機能不全(ED)の術前予測は,根治的前立腺切除術を施行した患者のカウンセリングに重要である。
臨床のみのベースライン,MRIによる手作り解剖学的特徴を用いた古典的モデル,MRIスライスを直接訓練したディープラーニングモデル,画像と臨床入力のマルチモーダル融合の4つのモデル戦略を評価した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:00:07 GMT)
Quality Versus Sparsity in Image Recovery by Dictionary Learning Using Iterative Shrinkage [0.1] 本稿では,様々な最適化手法を用いて得られる解の空間性に焦点をあてる。
その結果, 使用法によって, 空間性は異なることが判明した。
得られた画像が学習データベースとは全く異なる場合でも、高い空間性は一般に回復品質を損なわないことを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:23:03 GMT)
ERDES: A Benchmark Video Dataset for Retinal Detachment and Macular Status Classification in Ocular Ultrasound [0.1] ERDES(Eye Retinal Detachment UltraSound)は,網膜剥離の有無をラベル付けした最初の眼超音波クリップのオープンアクセスデータセットである。
このデータセットは、網膜剥離を検出する機械学習モデルの開発と評価を容易にすることを目的としている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:55:54 GMT)
AVPDN: Learning Motion-Robust and Scale-Adaptive Representations for Video-Based Polyp Detection [0.1] 大腸内視鏡画像における多目的ポリープ検出のための頑健なフレームワークであるadaptive Video Polyp Detection Network (AVPDN)を提案する。
AVPDNにはAdaptive Feature Interaction and Augmentation (AFIA)モジュールとScale-Aware Context Integration (SACI)モジュールという2つの重要なコンポーネントが含まれている。
提案手法の有効性と一般化能力について,いくつかの挑戦的な公開ベンチマーク実験を行った。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:59:18 GMT)
AION-10: Technical Design Report for a 10m Atom Interferometer in Oxford [0.0] AION-10は、超低温ストロンチウム原子を用いた10メートルの原子干渉計である。
設計は、超高真空環境で2つの原子干渉計源を収容する10メートルの垂直塔を特徴としている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:20:34 GMT)
fact check AI at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-checked Claim Retrieval [0.0] 訓練では、原語と英訳の両方を多言語検索に用い、英訳のみを言語横断検索に用いた。
この手法は多言語で92%のSuccess@10、多言語で5番目のSuccess@10、多言語で10番目のSuccess@10を達成した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:10:09 GMT)
evTransFER: A Transfer Learning Framework for Event-based Facial Expression Recognition [0.0] イベントベースカメラを用いた顔の表情認識のための学習型フレームワークとアーキテクチャを提案する。
提案手法は,表情認識能力を大幅に向上させることを示す。
さらに,LSTMを組み込んで顔表情の長期的ダイナミクスをキャプチャするアーキテクチャを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:26:09 GMT)
Why Evolve When You Can Adapt? Post-Evolution Adaptation of Genetic Memory for On-the-Fly Control [0.0] 本稿では,ジェネティック・アルゴリズム・コントローラとオンライン・ヘビアン・プラスティックを融合した,進化型ロボットのためのゼロショット適応機構を提案する。
生物学的システムにインスパイアされたこの方法は、学習と記憶を分離し、ジェノタイプが記憶として機能し、ヘビアンが学習を扱うように更新する。
光条件や障害物を変化させるT迷路ナビゲーションタスクにおいて,このハイブリッドGA-Hebbianコントローラをe-puckロボット上で検証する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:07:25 GMT)
When Algorithms Meet Artists: Topic Modeling the AI-Art Debate, 2013-2025 [0.0] この研究は、2013年から2025年までの12年間のAI生成芸術を取り巻く英語の談話について分析した。
これは、意見記事、ニュース記事、ブログ、法的書類、および話し言葉の書き起こしからサンプリングされた439の500ワードの抜粋から引用される。
我々の発見は、技術ジャーゴンの使用がゲートキーピングの微妙な形態として機能し、しばしばアーティストが最も緊急とみなす問題の側面を埋めるものであることを強調している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:26:00 GMT)
When Agents Break Down in Multiagent Path Finding [0.0] 我々は、一部のエージェントが誤動作による遅延を経験するシナリオを形式的にモデル化する新しい変種を導入する。
本稿では,完全な計画変更に依存しない動的スケジュール適応のためのフレームワークを提案する。
第一の通信プロトコルに従えば、k の誤動作後のメイスパンの増加は k の余分な回転によって制限されることを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:59:30 GMT)
Visual Execution and Validation of Finite-State Machines and Pushdown Automata [0.0] 形式言語とオートマタ理論のコースでは、学生は非決定論的有限状態とプッシュダウンオートマトンを理解するのが困難である。
本稿では,FSMのための動的可視化ツールを2つ提案する。
これらのツールは、非決定論的有限状態マシンまたはプッシュダウンオートマトンによって、段階的に実行される全ての計算を視覚化する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:54:01 GMT)
Vision-Language Fusion for Real-Time Autonomous Driving: Goal-Centered Cross-Attention of Camera, HD-Map, & Waypoints [0.0] XYZ-Driveは、フロントカメラフレームを読み、25m$times$25mのオーバーヘッドマップと次のウェイポイントを出力し、ステアリングとスピードを出力する単一の視覚言語モデルである。
軽量な目標中心のクロスアテンション層では、融合トークンが部分的に微調整されたLLaMA-3.2 11Bモデルに入る前に、ウェイポイントトークンが関連する画像とマップパッチをハイライトすることができる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:56:37 GMT)
Viability of perturbative expansion for quantum field theories on neurons [0.0] 無限のニューロン数制限では、単層NNは局所量子場理論を正確に再現することができる。
再正規化された$O(1/N)$を2点と4点の相関子に補正すると、紫外線遮断に敏感な摂動列が得られる。
我々は,この収束性を改善するためにアーキテクチャの変更を提案し,理論のパラメータとNのスケーリングに関する制約について議論し,正確な場の理論結果の抽出を可能にする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:00:31 GMT)
VQA support to Arabic Language Learning Educational Tool [0.0] 非ネイティブ話者に対するアラビア語学習を強化するために設計されたAIを活用した教育ツールの設計と評価について検討する。
このツールは、高度なAIモデルを活用してインタラクティブなビジュアルクイズを生成し、視覚質問回答を主要なアクティビティとしてデプロイする。
このツールの有効性は、1266個の実生活の視覚的クイズからなる手動のアノテートベンチマークで評価され、人間の参加者がフィードバックを提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:18:25 GMT)
Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics [0.0] フィデューシャルマーカーは、ナビゲーション、オブジェクト認識、シーン理解を促進する様々なロボティクスタスクで広く使われている。
本稿では,特殊センサーを搭載したロボットでのみ検出可能な「iMarkers」のイノベーティブで邪魔にならないフィデューシャルマーカーを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:00:05 GMT)
Universal bounds for quantum metrology in the presence of correlated noise [0.0] 時間的および空間的相関を含む一般量子力学モデルの基本的境界を導出する。
境界は一般に厳密であることは保証されていないが、その厳密性は数値複雑性を増大させることで体系的に増大する可能性がある。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:58:33 GMT)
Unified Framework for Quantum Code Embedding [0.0] 出力コードと入力コードの間の自然な同型を保証する統一的なフレームワークを提供する。
これまでの作業が私たちのフレームワークにどのように当てはまるかを明確に示します。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:00:07 GMT)
Trustworthiness of Legal Considerations for the Use of LLMs in Education [0.0] 本稿では、主要なグローバルリージョンにおけるAI関連規制および倫理的枠組みの比較分析を行う。
透明性、公正性、説明責任、データプライバシ、人間の監視といった中核的な信頼性原則が、地域法やAIガバナンス構造にどのように埋め込まれているのかをマップします。
この論文は、教育における法的に健全で倫理的基盤があり、文化的に敏感なAIシステムを構築するための実践的なガイダンスに貢献する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:44:33 GMT)
Toward a Graph-Theoretic Model of Belief: Confidence, Credibility, and Structural Coherence [0.0] 本稿では、有向重み付きグラフとして、信念システムに対する最小の定式化を導入する。
論理的および議論に基づくフレームワークとは異なり、バイナリの正当化ステータスや推論的クロージャをコミットすることなく、きめ細かい構造表現をサポートする。
その目的は、信念体系の内部組織を解析するための基盤となる基盤を提供することである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:03:23 GMT)
Toward Low-Latency End-to-End Voice Agents for Telecommunications Using Streaming ASR, Quantized LLMs, and Real-Time TTS [0.0] リアルタイムの対話型通信を実現するために,低レイテンシな通信AI音声エージェントパイプラインを導入する。
このソリューションは、NetoAIの4つの特殊なモデルを組み合わせて、テレコム用に構築されている。
このパイプラインは、ストリーミングASR(TTE)、会話インテリジェンス(TSLAM)、テレコム文書による検索拡張生成(RAG)、リアルタイムTS(T-Synth)を統合している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:39:35 GMT)
Today's Experiments Suffice to Verify the Quantum Essence of Gravity [0.0] 現在の物質波干渉計は、重力相互作用が2つの系間の絡み合いを生み出すことを間接的に証明するのに十分であると主張する。
この結果は、重力の量子的性質の実験的検証が地平線上にあることを示唆している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:56:01 GMT)
Thermodynamic Signature of Logical Depth in Quantum Circuits [0.0] 量子回路の内部論理構造は、プログレッシブデコヒーレンスの下で異なる熱力学的シグネチャを残すことができる。
分岐アーキテクチャは環境へのエントロピーフローを増大させることを示す。
本結果は,回路設計に影響を及ぼす物理測定可能な量として論理深度を確立した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:23:00 GMT)
The thread embodiment of holographic quantum entanglement [0.0] 本稿では,ホログラム双対構造を特徴付ける絡み合いスレッドの概念を体系的に開発する。
テンソルネットワークモデルが量子回路形式に変形できるという事実に着想を得て、エンタングルメントスレッドの概念を抽象化する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:14:09 GMT)
The alpha-beta divergence for real and complex data [0.0] 多様性は、ほとんどの信号処理アルゴリズムの基盤となる情報基準の基本である。
この研究は、複雑なデータに対応するためにα-β分岐の定義を拡張した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:51:55 GMT)
The Price equation reveals a universal force-metric-bias law of algorithmic learning and natural selection [0.0] プライス方程式による変化の単純な記法分割は、普遍力計量バイアス(FMB)法則を明らかにすることを示す。
FMB法は、規律を越えて学習アルゴリズムを理解し、比較し、設計するための原則化された基盤を提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:39:19 GMT)
The Covariant Relativistic Derivation of De Broglie Relation [0.0] 本稿は、プランクとアインシュタインが提唱した量子仮説から、同変相対論的導出まで、その歴史的発展を辿る、ド・ブロリー関係について考察する。
普遍性と相対論的アプローチの比較分析は、後者の概念的コヒーレンスを強調している。
この論文は、波動-粒子双対性の一貫した基盤を確立することにおける相対論的力学の重要性を強調して締めくくる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:47:21 GMT)
Subwavelength arrays of quantum emitters: nonlinearities enter the weak-drive regime, and lead to correlated subradiant states [0.0] 量子エミッタアレイは、強力な光-物質相互作用を達成し、正確に制御できる重要なプラットフォームとして登場した。
サブ波長状態において、それらは新しい量子多体状態をホストできるサブラジアント固有状態の多様体によって特徴づけられる。
弱い駆動状態は、古典方程式によってよく説明される線形状態として広く見なされてきた。
我々は, 高次, 共鳴, 運動量保存過程を励起するサブラディアント状態が, 相互作用するサブラディアント励起対の定常状態をもたらすことを示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:24:06 GMT)
Squeezed Quasinormal Modes from Nonlinear Gravitational Effects [0.0] 我々は、長寿命ブラックホール準正規モードが非線形重力効果により量子的に圧縮されることを実証した。
シュワルツシルトブラックホールの基本モードに対するスクイージングの度合いを定量的に推定する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:28:32 GMT)
Spectral Architecture Search for Neural Network Models [0.0] 本稿では,層間転送行列のスペクトル特性を利用した新しいアーキテクチャ探索プロトコルを提案する。
提案手法は, 最小限の表現率を有する自己創出型アーキテクチャで, 調査対象のタスクを処理可能であることを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:10:48 GMT)
Smart Car Privacy: Survey of Attacks and Privacy Issues [0.0] Vehicular Adhoc Networks (VANETs) はモバイルアドホックネットワークの新興技術である。
セキュリティとプライバシは、車両の移動性のためにVANETの主要な懸念事項である。
本稿では,各種車両ネットワークアーキテクチャの概要について述べる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:59:17 GMT)
SemiSegECG: A Multi-Dataset Benchmark for Semi-Supervised Semantic Segmentation in ECG Delineation [0.0] SemiSegECGは、ECGの半教師付きセマンティックセグメンテーション(SemiSeg)のための最初の体系的ベンチマークである。
本稿では、ECG固有のトレーニング設定と強化戦略を提案し、標準化された評価フレームワークを導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:06:11 GMT)
ReFuzzer: Feedback-Driven Approach to Enhance Validity of LLM-Generated Test Programs [0.0] 既存のコンパイラファジィは、しばしば構文的にも意味的にも無効なテストプログラムを生成する。
本稿では,LLM生成テストプログラムを精錬するフレームワークであるReFuzzerを紹介する。
我々は,LLVM/Clangをターゲットとした黒,グレー,ホワイトボックスファジィ手法におけるReFuzzerの有効性を評価する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:17:02 GMT)
RX-INT: A Kernel Engine for Real-Time Detection and Analysis of In-Memory Threats [0.0] 本稿では,TOCTOU攻撃に対するレジリエンスを提供するアーキテクチャを特徴とするカーネル支援システムであるRX-INTを提案する。
RX-INTはリアルタイムスレッド生成モニタとステートフル仮想アドレス記述子(VAD)スキャナを組み合わせた検出エンジンを導入した。
RX-INTは,PE-sieveで同定されなかった手動マッピング領域を正常に検出した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:43:25 GMT)
Quantum-Resistant RSA Modulus Decomposition via Adaptive Rényi Entropy Optimization [0.0] 本稿では,RSAの量子攻撃に対する耐性を高めるための理論的アプローチについて検討する。
我々は素数が制御された近接で生成される枠組みを開発する。
主な貢献は、素分布特性と量子攻撃複雑性の接続を確立することである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:07:27 GMT)
Quantum control of continuous systems via nonharmonic potential modulation [0.0] 非調和ポテンシャルに制限された1つの連続変数自由度の状態を操作する理論的提案を提案する。
Fock, Gottesman-Kitaev-Preskill, multi-legged-cat, 立方相状態を含む非ガウス状態の生成を示す。
本稿では, 単発状態判別, アルゴリズム冷却, 非線形進化の補正のためのプロトコルを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:38:51 GMT)
Quantum chemistry for solids made simple with the Clifford formalism [0.0] 本稿では, 周期固体を量子化学法で扱うための一般理論を提案する。
1) クリフォードトーラスとしての固体のモデリングは、周期的かつ平坦なトーラスであり、2) 周期的なガウス基底集合の導入である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:07:51 GMT)
Quantum Spectral Reasoning: A Non-Neural Architecture for Interpretable Machine Learning [0.0] 本稿では,従来のニューラルネットワークのパラダイムから外れた,新しい機械学習アーキテクチャを提案する。
我々は、量子スペクトル法、特にPade近似法とLanczosアルゴリズムを用いて、解釈可能な信号解析とシンボリック推論を行う。
その結果,このスペクトル記号型アーキテクチャは,解釈可能性とデータ効率を保ちながら,競合精度を達成できることがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:16:45 GMT)
Quantum Neural Network applications to Protein Binding Affinity Predictions [0.0] 量子ニューラルネットワーク(QNN)が研究の焦点となっている。
本研究では,多層パーセプトロンを用いた量子ニューラルネットワークの30種類のバリエーションを提案する。
その結果、量子モデルは1つの未知のデータセットに対して約20%高い精度で達成された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:47:15 GMT)
Quantum Mechanics as a Realistic Local Theory without Hidden Variables and Measurement Problem [0.0] 現代の量子力学の一貫性のある解釈は、その公理論は矛盾し不完全であるため不可能である。
純粋な状態を記述する波動関数は観測可能な値に統計的制限のみを課すが、誤ったものである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:28:58 GMT)
Quantum Dynamics and Information Measures in PT and Anti-PT-Symmetric Systems [0.0] 我々は、位相進化、デコヒーレンス、量子速度制限(QSL)、R'enyiエンタングルメントエントロピーに着目し、PTおよび反PT対称な非エルミートハミルトン多様体の下で量子ビットダイナミクスを研究する。
反PT対称系は、非コヒーレンスに対して強靭性を示し、エントロピー成長が遅く、PT対称系と比較してコヒーレンス時間も長い。
高次のR'enyiエントロピーは、反PT対称量子ビットが量子情報をより効率的に保存し、メモリや暗号アプリケーションに利点をもたらすことを示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:16:21 GMT)
Quantum Computing Architecture and Hardware for Engineers -- Step by Step -- Volume II [0.0] 2025年7月時点で、私は閉じ込められたイオン量子コンピュータの部分を完成させた。
私は、物理学の厳格なトレーニングを受けていないエンジニアを量子コンピューティングの世界にブリッジするために、より重要なトピックをステップバイステップで書く予定です。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:54:23 GMT)
Proximate integrability and exact revivals in staggered Rydberg ladders [0.0] 四角いはしご形状に配置されたライドバーグ原子モデルにおける平衡外量子力学の運命について検討する。
強さが調整されるにつれて、モデルは幅広い種類の力学現象を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:39:26 GMT)
Protecting Small Organizations from AI Bots with Logrip: Hierarchical IP Hashing [0.0] 小規模な組織、スタートアップ、自己ホスト型サーバは、自動化されたWebクローラとAIボットの負担が増大している。
現代のボットは従来のスロットリングを回避し、高いボリュームでサーバのパフォーマンスを低下させることができる。
データビジュアライゼーションと階層型IPハッシュを利用してサーバイベントログを解析する,新たなセキュリティアプローチを導入する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:22:30 GMT)
Probing quantum complexity via universal saturation of stabilizer entropies [0.0] 非安定化性(nonstabilizerness)またはマジック(Magic)は、量子コンピューティングの鍵となるリソースである。
安定化器 R'enyi entropies (SREs) は, 臨界数の非クリフォード演算においてその最大値を飽和させることを示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:49:56 GMT)
Probing and Enhancing the Robustness of GNN-based QEC Decoders with Reinforcement Learning [0.0] グラフニューラルネットワーク(GNN)は量子エラー訂正(QEC)デコードのための強力なデータ駆動型アプローチとして登場した。
本研究では、強化学習(RL)エージェントを用いてGNNデコーダの脆弱性を系統的に調査する新しいフレームワークを導入する。
このフレームワークをGoogle Quantum AIの実験的な表面コードデータに基づいてトレーニングされたグラフ注意ネットワーク(GAT)デコーダに適用する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:57:30 GMT)
Probabilistic Emissivity Retrieval from Hyperspectral Data via Physics-Guided Variational Inference [0.0] 本稿では,物理条件付き生成モデルの形での逆モデリング手法を提案する。
HSIシーンの雰囲気と背景の見積もりは、物理的に関連する条件付けメカニズムとして使用される。
モデルの条件付き後部のモンテカルロサンプリングは、要求される放射率分布を提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:39:54 GMT)
ProARD: progressive adversarial robustness distillation: provide wide range of robust students [0.0] 敵の攻撃に対する軽量深層ニューラルネットワークの堅牢性を高める効果的な方法として、Adrial Robustness Distillation (ARD)が登場した。
現在のアプローチでは、特定の制約を満たすために、スクラッチから新しい学生ネットワークをトレーニングする必要がある。
本稿では、動的ネットワークの効率的なワンタイムトレーニングを可能にするプロダード(Progressive Adrial Robustness Distillation)を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:20:00 GMT)
Preparing Greenberger-Horne-Zeilinger state on ground levels of neutral atoms [0.0] 本稿では,グリーンベルガー・ホーネ・ザイリンガー(GHZ)状態を生成するために,リドベルグ原子系におけるスケーラブルなプロトコルを提案する。
N$-qubit GHZ状態は、N-1$ステップで作成され、環境騒音と系統的な偏差の両方に対して堅牢である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:21:33 GMT)
Predicting User Grasp Intentions in Virtual Reality [0.0] 対象の種類,サイズ,操作の異なる810の試験において,分類と回帰のアプローチを評価した。
回帰ベースのアプローチはより堅牢なパフォーマンスを示し、タイミングエラーは0.25秒以内、距離エラーは5~20cm程度である。
私たちの結果は、VRインタラクションを強化する機械学習モデルの可能性を強調します。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:17:19 GMT)
Phase-Locked SNR Band Selection for Weak Mineral Signal Detection in Hyperspectral Imagery [0.0] キュクライト鉱業地区における鉱物検出の強化のための2段階統合フレームワークを提案する。
第1段階では、各スペクトル帯域の信号-雑音比(SNR)を計算し、低SNR帯域を破棄するために位相同期しきい値法を適用する。
第2段階では、改良されたHSIデータをモデルに再導入し、KMeansクラスタリングを使用して12個の終端スペクトルを抽出する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:14:05 GMT)
Pair Correlation Factor and the Sample Complexity of Gaussian Mixtures [0.0] 本稿では,コンポーネント手段のクラスタリングを計測する幾何量であるemphPair correlation Factor (PCF)を紹介する。
最小のギャップとは異なり、PCFはパラメータ回復の難しさをより正確に判断する。
均一な球面の場合、通常の$epsilon-2$以上のサンプルが必要な場合に、サンプルの複雑さ境界を改良したアルゴリズムを与える。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:50:33 GMT)
One-dimensional quantum droplets under linear gravitational-like trap [0.0] 一次元量子滴に対する定数および時間依存性の線形重力様電位の影響について検討する。
有限領域内の液滴の落下速度は、線形重力的なポテンシャルの強さにのみ依存する。
これらの結果は、超希薄量子流体を用いた量子センシングと気象学への応用に有望な意味を示唆している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:11:55 GMT)
On the Hamiltonian with Energy Levels Corresponding to Riemann Zeros [0.0] E_n = rho_n (1-rho_n) $ を持つハミルトニアンが構築されている。
我々はベリー・キーティングのパラダイムを一般化し、モジュラー形式を通して数論情報をハミルトン空間にエンコードする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:07:25 GMT)
On Experiments [0.0] 科学的プロセスは、実験の結果を、私たちが生きている世界に関する知識に変える手段です。
本稿では,そのような言語について概説する。
素材は過去の偉大な思想家や、より現代的な貢献に大きく依存しています。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 00:54:08 GMT)
Nonreciprocity in Quantum Technology [0.0] 非相互性 (nonreciprocity) とは、一方の方向で信号を送信し、他方の方向を遮断する能力である。
この機能は、高忠実度量子ビット読み出し、堅牢な量子状態転送、量子センサの感度向上にどのように利用できるかを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:22:00 GMT)
Next Generation Equation-Free Multiscale Modelling of Crowd Dynamics via Machine Learning [0.0] 本稿では,潜在空間における創発的群運動に対する離散的進化演算子を学習するために,多様体と機械学習を組み合わせた手法を提案する。
我々のアプローチは4段階であり、高次元空間における再構成された力学の質量を明示的に保存する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:39:18 GMT)
New computational methods in lattice gauge theory -- quantum computation and tensor networks [0.0] ハミルトン形式を用いたハドロン特性の計算方法に関する最近の結果について議論する。
本稿では、ハミルトニアン形式を用いたハドロン特性の計算方法に関する最近の結果について論じる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 06:16:29 GMT)
Natural super-orbitals representation of many-body operators [0.0] ベクトル化作用素に付随する一体超密度行列の固有ベクトルとして定義される多体作用素に対する自然超軌道の概念を導入する。
これらの対象を、自然超軌道の占有に関連する作用素の非ガウス性の測定に関連付ける。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:29:48 GMT)
Multidimensional classification of posts for online course discussion forum curation [0.0] オンライン講座における議論フォーラムの自動キュレーションには、定期的な更新が必要である。
コストのかかる微調整の必要性を回避するため,ベイズ核融合法の提案と評価を行った。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:53:01 GMT)
Memory preservation and cooperative shielding in complex quantum networks [0.0] 我々は、パラダイム的なXXZハミルトニアンによって記述された量子ネットワークの輸送特性について研究する。
本研究では, メモリ保存効果の時間的相互作用が, 励起の拡散に強く影響を及ぼすことを示す。
神経科学におけるウェバーの法則の適用や、バイオミミミクスによる特定の量子技術の実装など、これらの性質が生物学に関わる問題に与える影響について論じる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:48:31 GMT)
Memorization in Fine-Tuned Large Language Models [0.0] 本研究では,微調整大言語モデル(LLM)における暗記のメカニズムと要因について検討する。
薬物移動イベントのPHEEデータセットを用いて、微調整プロセスの異なる側面がトレーニングデータを記憶するモデルの適合性にどのように影響するかを検討する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:32:40 GMT)
Maximally entangled states are not always useful for single shot distinguishability of unitaries [0.0] 2つのユニタリチャネルの単発識別では、絡み合った状態と製品状態は操作的に等価である。
最大絡み合わされたプローブでは区別できないが、積や非最大絡み合わされた入力で完全に区別できるユニタリのクラスが存在することを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:55:38 GMT)
Managing Escalation in Off-the-Shelf Large Language Models [0.0] アメリカ合衆国政府は、シナリオプランニングやアクション・コースの提案に大規模な言語モデルを採用し、今後も継続する。
本研究は,大規模言語モデルの即時導入を認め,それらを国家安全保障目標と整合させる実用的な手段を提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:51:26 GMT)
MahaTTS: A Unified Framework for Multilingual Text-to-Speech Synthesis [0.0] MahaTTS-v2は多言語対応の多言語テキスト音声合成システムである。
提案手法では,意味抽出にWav2Vec2.0トークン,テキストからセマンティック・モデリングにLanguage Model(LM)を利用する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:49:04 GMT)
Magic dynamics in many-body localized systems [0.0] 非安定剤性(Nonstabilizerness)、または量子魔法(quantum magic)は、安定状態からの量子状態の偏差を定量化する。
本研究では, 安定化器R'enyi entropy (SRE) を用いた無秩序多体局在(MBL)システムにおける量子マジックのダイナミクスについて検討する。
我々の結果は、量子多体系における障害、相互作用、複雑性の相互作用に関する重要な洞察を提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:10:31 GMT)
Machine Learning Algorithms for Transplanting Accelerometer Observations in Future Satellite Gravimetry Missions [0.0] GRACEとGRACE Follow-Onミッションは、低軌道衛星を衛星追跡に用いる衛星重力測定のベンチマークを設定している。
従来の静電加速度計(EA)は、ミッションの結果を妨げる限界に直面している。
本研究では,新しい加速度計構成を用いた加速度計データ移植の系統的評価を行った。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:47:59 GMT)
MaLV-OS: Rethinking the Operating System Architecture for Machine Learning in Virtualized Clouds [0.0] MLモデルとカーネルアルゴリズムの性能を向上させるため,ML特化OSであるMaLV-OSを提案する。
MaLV-OSアーキテクチャは、モデルのシステムに敏感な部分をOSにオフロードし、モデルの複雑さとプログラミングを軽量化し、実行を高速化する。
柔軟性を高めるため、MaLV-OSのビジョンは、仮想マシンが、ユーザが実行しているモデルのパフォーマンスを改善することができるポリシーを動的に選択できるようにすることである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:46:40 GMT)
MI9 -- Agent Intelligence Protocol: Runtime Governance for Agentic AI Systems [0.0] エージェントAIシステムの安全性とアライメントのための、最初の完全に統合されたランタイムガバナンスフレームワークであるMI9を紹介します。
MI9は、エージェントリスクインデックス、エージェントセマンティックテレメトリキャプチャー、継続的な認可監視、FSM(Finite-State-Machine)ベースのコンフォーマンスエンジン、目標条件ドリフト検出、および段階的封じ込め戦略の6つの統合コンポーネントを通じてリアルタイム制御を導入している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:15:09 GMT)
Long-distance device-independent quantum key distribution using single-photon entanglement [0.0] デバイス非依存の量子鍵分布(DIQKD)により、2人の誠実なユーザーがセキュアな通信チャネルを確立することができる。
単一光子経路の絡み合った状態の隠蔽的準備を利用して, DIQKDのフォトニック実現を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:48:15 GMT)
Localizing quantum fields with time-dependent potentials [0.0] フィールドの局所化モードにおいて、非無視混合性を導入することなく、これを実現できることを示す。
我々は、QFTにおける正規状態の高次絡み合いが相対論的量子情報プロトコルを阻害する可能性があるという、以前の文献で提起された懸念にどのように対処するかについて議論する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:48:25 GMT)
Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI [0.0] この研究は、自動車用UIの理解と操作を容易にするビジョン言語フレームワークを導入している。
この分野での研究を支援するために、AutomotiveUI-Bench-4Kもリリースされた。
Molmo-7B ベースのモデルはローランド適応 (LoRa) を用いて微調整され、生成した推論と視覚的グラウンドと評価能力が組み込まれている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:23:24 GMT)
LLM-Prior: A Framework for Knowledge-Driven Prior Elicitation and Aggregation [0.0] textttLLMPriorは、自然言語記述やデータ、図形などのリッチで非構造化されたコンテキストを、有効な、抽出可能な確率分布に変換する。
我々はこの枠組みを、分散知識によって引き起こされる事前分布を集約するために対数オピニオンプールを用いるマルチエージェントシステムに拡張する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 01:43:29 GMT)
Intent Preserving Generation of Diverse and Idiomatic (Code-)Artifacts [0.0] 本稿では,複数の連結アーティファクトに対してモノリシックなジェネレータを記述する代わりに,抽象的なビルディングブロックの小さなセットを指定するアプローチを提案する。
得られたアーティファクトの意図された構造は、小さな抽象的なビルディングブロックの合成として指定される。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:54:15 GMT)
InqEduAgent: Adaptive AI Learning Partners with Gaussian Process Augmentation [0.0] 本稿では,探索指向学習に適した学習パートナーをシミュレートし,選択するための LLM を利用したエージェントモデルを提案する。
生成エージェントは、現実世界のシナリオにおける学習者の認知的・評価的特徴を捉えるように設計されている。
実験の結果,ほとんどの知識学習シナリオやLLM環境において,InqEduAgentの最適性能が示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 07:33:48 GMT)
High-power readout of a transmon qubit using a nonlinear coupling [0.0] 本研究では,トランスモン量子ビットとその読み出しモード間の非線形結合が,高忠実度量子ビット読み出しを実現することを示す。
その結果、高出力状態におけるトランスモン分子の有望な性能が明らかとなった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:11:39 GMT)
Hidden Dynamics of Massive Activations in Transformer Training [0.0] 大規模なアクティベーションは、典型的なアクティベーションよりも桁違いに大きい値を達成する変圧器隠蔽状態におけるスカラー値である。
本報告では, トランスフォーマートレーニングを通しての大規模活性化発達の包括的解析について述べる。
アーキテクチャ仕様だけでこれらの数学的パラメータを予測する機械学習フレームワークを開発した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:29:51 GMT)
Geometric fragmentation and anomalous thermalization in cubic dimer model [0.0] 熱水状態は、システムが外部の電場にさらされるときに大きな巻く領域で発生する。
この方向におけるガウス法則との相互作用は、新しい保存量の出現によるエキゾチックな熱的挙動を引き起こす。
フラクトンが支配する断片のユニタリ進化は、非フラクトン励起が支配する断片と質的に異なる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:00:03 GMT)
Frequency subspace encoding for multiplexed quantum secret sharing [0.0] 量子秘密共有(Quantum Secret Share、QSS)は、マルチパーティの量子通信プロトコルである。
本稿では、周波数相関を利用して複数のユーザを単一のソースで接続する標準QSSプロトコルの変形について述べる。
この結果は、波長多重ネットワーク上でのマルチユーザ秘密共有へのリソース効率の高い経路を提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:15:25 GMT)
Fault-tolerant Fusion-based Quantum Computing with the Four-legged Cat Code [0.0] 4本脚の猫符号は、ボソニックモードにおける主なエラーに対処するために設計された量子エラー訂正符号である。
本稿では,核融合による誤り訂正によるXZZXコードとの結合により,このコードに対する平面的フォールトトレラントアーキテクチャを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:00:00 GMT)
Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats [0.0] MRシミュレーションの計算時間を削減するため, グループ化アイソクロマトグラフィーを用いた新しいシミュレーション手法を提案する。
提案手法の処理時間は従来の方法の3倍から72倍であった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:53:51 GMT)
FairLangProc: A Python package for fairness in NLP [0.0] 本稿では,近年の自然言語処理における公平性向上の共通実装として,Pythonパッケージを提案する。
FairLangProcは、バイアス軽減技術の普及と民主化を促進することを目的としている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:47:53 GMT)
Evaluation of GPT-based large language generative AI models as study aids for the national licensure examination for registered dietitians in Japan [0.0] 大規模言語モデル(LLM)に基づく生成人工知能(AI)は、様々な専門分野において顕著な進歩を見せている。
本研究は、栄養学生を対象とした研究支援として、現在のLLMベースのAIモデルの可能性を評価することを目的としている。
Bing-PreciseとBing-Creativeは一般に栄養教育以外の科目で成績を上げた。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:33:11 GMT)
Evaluating the Propensity of Generative AI for Producing Harmful Disinformation During the 2024 US Election Cycle [0.0] 本研究は, 選挙期間中に有害な偽情報を生成するための, 現在の生成AIモデルの妥当性について検討する。
コピロとジェミニは、予想される最低限の損害に気付き、全体的な安全性能に結びついていることが判明した。
敵対的役割の特徴が発見され 全てのモデルに より大きな害をもたらすことが判明しました
論文参考訳(メタデータ) (Tue, 05 Aug 2025 20:17:46 GMT)
Evaluating Software Supply Chain Security in Research Software [0.0] 本研究は,OpenSSF Scorecardを用いて,高品質で概ねピアレビューされた研究ソフトウェアレポジトリ3,248を解析する。
一般的にセキュリティ姿勢が弱く、平均スコアは3.5/10です。
署名付きリリースやブランチ保護といった重要なプラクティスはめったに実装されない。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 19:14:37 GMT)
Entanglement Suppression Due to Black Hole Scattering [0.0] ホログラフィック双対を持つ二次元共形場理論における絡み合いエントロピーの進化を考察する。
我々は、純状態(局所作用素)と混合状態局所クエンチの組み合わせによって生成される励起状態のクラスに興味を持っている。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:07:03 GMT)
Entanglement Detection Beyond Local Bound with Coarse Calibrated measurements [0.0] 量子ビット系に対するベルの不等式を強化するための体系的なアプローチを提案する。
我々は、分離可能な状態に対する上界と構造関数の観点から一般状態の間のトレードオフを導出する。
次に, 絡み合い構造の多様性を示す状態を検出するため, n-パーティタイトベルの不等式を強化する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:53:38 GMT)
Enhanced Gravity-Induced Entanglement via Squeezed Input Light under Finite Measurement Time [0.0] 圧縮された入力光は、機械的条件下での光学ノイズを低減し、GIEを向上させることを実証する。
圧縮された入力光を使用する場合、SNR=1を達成するには106 sの総測定時間が必要であるのに対し、106.8 sは圧縮された入力光を使わずに必要である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:44:08 GMT)
Enantiosensitive locking of photoelectron spin and cation orientation [0.0] キラリティ(Chirality)は、物体とその鏡像の間の非対称性を記述し、あらゆるスケールの多様な機能に基礎を置いている。
特に興味深い例はキラル性誘起スピン選択性(CISS)であり、キラル構造を持つ東洋電子スピンはエナンチオ感受性を持つ。
ここでは、最も単純なシナリオとして、ランダムに配向したキラル分子のスピン分解光イオン化について検討する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 02:18:29 GMT)
Do GNN-based QEC Decoders Require Classical Knowledge? Evaluating the Efficacy of Knowledge Distillation from MWPM [0.0] グラフニューラルネットワーク(GNN)は有望なアプローチとして登場したが、そのトレーニング方法論はまだ十分に確立されていない。
ノードの特徴として時間情報を組み込んだグラフ注意ネットワーク(GAT)アーキテクチャに基づく2つのモデルを比較する。
Googleの公開実験データから, 知識蒸留モデルの最終試験精度はベースラインとほぼ同一であったが, トレーニング損失はより緩やかに収束し, トレーニング時間は約5倍に増加した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:54:44 GMT)
Directional Codes: a new family of quantum LDPC codes on hexagonal- and square-grid connectivity hardware [0.0] ユーティリティスケールの量子コンピューティングは、量子情報をノイズから保護するために量子エラー補正(QEC)を必要とする。
現在、超伝導ハードウェアは、高速ゲート時間と実現可能なスケーラビリティのため、耐故障性を達成する上で有望な候補である。
我々は、回転平面符号(RPC)よりも優れた新しいqLDPC符号群を構築する。
4、6、12の論理量子ビットを符号化し、方向性符号の性能を数値的に評価する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:55:01 GMT)
Development of management systems using artificial intelligence systems and machine learning methods for boards of directors (preprint, unofficial translation) [0.0] この研究は、AIが意思決定支援ツールから自律的な意思決定者へと移行する、企業管理のパラダイムシフトに対処する。
主要な問題は、AI技術の開発が適切な法的および倫理的ガイドラインの作成をはるかに上回っていることである。
本研究は、企業経営における自律型AIシステムの開発と実装のための「参照モデル」を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:01:22 GMT)
Detector Correlations and Null Tests of the Coherent State Hypothesis [0.0] これにより、真空(量子)ノイズのないコヒーレント状態仮説の単純なヌルテストが可能であることを示す。
放射線分野の補完的な側面、例えば数や位相のスクイーズは、適切な検出戦略によって明らかにすることができる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:15:55 GMT)
Design Support for Multitape Turing Machines [0.0] 多くの形式言語とオートマタ理論コースがチューリング機械の拡張に学生を紹介している。
最も広く使われている拡張の一つは、複数のテープを持つチューリングマシンである。
学生がマルチテープチューリングマシンを見つけることは、それほど難しくない。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:53:19 GMT)
Data and AI governance: Promoting equity, ethics, and fairness in large language models [0.0] 機械学習モデルのライフサイクル全体にわたってバイアスを管理し、評価し、定量化するためのアプローチをカバーします。
データとAIのガバナンスアプローチは、実践的で現実的なアプリケーションに適している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 23:15:31 GMT)
Data Overdose? Time for a Quadruple Shot: Knowledge Graph Construction using Enhanced Triple Extraction [0.0] 公開医療データの急速な拡大は、臨床医や研究者にとっても課題となっている。
本稿では,バイオメディカル知識を識別・接続するための情報抽出と知識グラフの自動生成手法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:30:41 GMT)
Current State in Privacy-Preserving Text Preprocessing for Domain-Agnostic NLP [0.0] 現代の大きな言語モデルは、言語的なバリエーションを学ぶのに膨大な量のデータを必要とする。
このような言語モデルから個人情報を抽出することが可能である。
本報告はドメインに依存しないNLPタスクに対するいくつかのアプローチに焦点を当てる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:26:45 GMT)
Cross-lingual Opinions and Emotions Mining in Comparable Documents [0.0] 本研究は、英語とアラビア語に匹敵する文書における感情と感情の相違について研究する。
我々は、英語のWordNet-Affect(WNA)レキシコンをアラビア語に手動で翻訳し、それに匹敵するコーパスをラベル付けするバイリンガル感情レキシコンを作成する。
その結果、感情と感情のアノテーションは、記事が同一の報道機関から来たときに一致し、異なる記事から来たときに発散することがわかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:44:28 GMT)
Cross-Domain Image Synthesis: Generating H&E from Multiplex Biomarker Imaging [0.0] マルチレベルベクトル量子生成適応ネットワーク(VQGAN)を用いて,mIF画像から高忠実度仮想H&E染色を生成する。
以上の結果から,VQGANが生成する仮想染色は,両アーキテクチャが視覚的に可視な染色を生成する一方で,コンピュータ支援診断においてより効果的な基板を提供することが示された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:19:00 GMT)
Convergence of Deterministic and Stochastic Diffusion-Model Samplers: A Simple Analysis in Wasserstein Distance [0.0] 本稿では,拡散型生成モデルに対するワッサーシュタイン距離の収束保証を行い,DDPMライク(英語版)法とDDIMライク(英語版)法の両方をカバーする。
特に、Hun のサンプル値に対する最初の Wasserstein 収束を導出し、確率フローODE のサンプル値に対する既存の結果を改善する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:37:58 GMT)
Coherent phase control of two-color continuous variable entangled light [0.0] 連続変数 Einstein-Podolsky-Rosen (EPR) 状態は、セキュアな量子通信と分散量子センシングのためのリソースである。
周波数非退化光パラメトリック発振器によって生じる2色EPR状態のコヒーレント制御手法を提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:22:46 GMT)
Coherent heat exchange in a prethermalizing open quantum system [0.0] 入浴時の熱交換過程における初期状態のエネルギー固有ベイジにおける量子コヒーレンスの影響について検討する。
これらの結果は, 構成上, 量子効果の捕捉に失敗する2点測定法から得られたものと比較した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:02:43 GMT)
Clinicians' Voice: Fundamental Considerations for XAI in Healthcare [0.0] 臨床医との半構造化インタビューを行い,その考え,希望,懸念について考察した。
私たちのサンプルの臨床医は一般的に、臨床実習のためのAIベースのツールの開発について肯定的に考えます。
彼らは、これらがワークフローにどのように適合し、それが臨床医と患者の関係にどのように影響するかを懸念している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:07:01 GMT)
Class Imbalance in Anomaly Detection: Learning from an Exactly Solvable Model [0.0] クラス不均衡(CI)は、機械学習における長年の問題であり、トレーニングを遅くし、パフォーマンスを低下させる。
CIを分析し、解釈し、対処するための理論的フレームワークを提供する。
このフレームワーク内では、固有の、トレーニングまたはテストの不均衡という、CIの複数のソースを区別することができる。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:33:59 GMT)
Characterizing noisy quantum computation with imperfectly addressed errors [0.0] ハードウェア上の量子プロトコルは、パフォーマンスを妨げるノイズにさらされる。
ランダムな超作用素のアンサンブル上の固有スペクトル分布と特異スペクトル分布について検討する。
特異スペクトルの分布は、これらのプロトコルの臨界仮定にノイズがどのように違反するかに依存する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:37:26 GMT)
Causal Interventions Beyond Time: A CP-do(C)-Calculus for Indefinite Quantum Order [0.0] 我々は、完全正(CP)トレース保存写像の言語におけるパールのdo-calculusの3つの規則を再構成する。
我々は、基礎となるプロセスが不確定な因果順序を許容するたびにルール2が失敗することを証明し、この失敗を3量子ビット量子スイッチ'回路で実証する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:49:33 GMT)
Can We Fix Social Media? Testing Prosocial Interventions using Generative Social Simulation [0.0] 生成的社会シミュレーションは、エージェントベースモデルに大規模言語モデルを組み込んで、社会的にリッチな合成プラットフォームを作成する。
私たちはエージェントが投稿、再投稿、フォローできる最小限のプラットフォームを構築します。
その結果,(1)パルチザンエコー室,(2)小エリートへの集中的影響,(3)分極音声の増幅の3つの障害を再現した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:31:52 GMT)
Calculating Vibronic Spectra with a linear algorithm based on Gaussian Boson Sampling [0.0] ペンタセン分子を3つの異なるアプローチでシミュレーションするアルゴリズムを実装した。
The high fidelity $(F>0.999)$ was achieved between thesimulated Franck-Condon profiles and analysisally calculated profiles。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 22:18:47 GMT)
CORE-ReID: Comprehensive Optimization and Refinement through Ensemble fusion in Domain Adaptation for person re-identification [0.0] 本研究は,「個人再識別のためのドメイン適応におけるアンサンブル融合による包括的最適化と再定義」という新しい枠組みを紹介する。
このフレームワークは、CycleGANを使用して、事前トレーニング段階で異なるカメラソースからの画像特性の違いを調和させる多様なデータを生成する。
微調整の段階では、教師と学生の2つのネットワークに基づいて、多層クラスタリングのためのマルチビュー機能を統合し、多様な擬似ラベルを導出する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 04:25:03 GMT)
CAP-LLM: Context-Augmented Personalized Large Language Models for News Headline Generation [0.0] 本稿では,ユーザの好みや現実的な一貫性の制約を,LLM(Large Language Models)のバックボーンに組み込む新しいフレームワークを提案する。
CAP-LLMには、長期のユーザ関心を捉えるためのユーザ設定、コンテキストインジェクションアダプタ、Fact-Consistency Reinforcement Moduleがある。
BARTのような強力なベースライン上での事実整合性(87.50のFactCC)を大幅に改善し、パーソナライゼーション(Pc(avg) 2.73、Pc(max) 17.25)とコンテンツカバレッジ(ROUGE-1 26.55、ROUGE-2 9.95、ROUGE-L 23.01)を同時に強化する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:55:44 GMT)
Bridging ocean wave physics and deep learning: Physics-informed neural operators for nonlinear wavefield reconstruction in real-time [0.0] 空間的・時間的に位相分解された非線形海洋波動場をスパース測定により再構成する枠組みを提案する。
これは、海洋重力波の自由表面境界条件の残余をPINOの損失関数に埋め込むことによって達成される。
以上の結果から,PINOは高精度でリアルタイムな再構成を可能にし,広範囲の波動条件で頑健に一般化できることが示唆された。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:50:41 GMT)
Block: Balancing Load in LLM Serving with Context, Knowledge and Predictive Scheduling [0.0] Blockは分散スケジューリングフレームワークで、ロードバランシングとサービスフレームワークのインスタンス間の自動プロビジョニングを最適化するように設計されている。
低オーバーヘッド、信頼性、スケーラビリティを実現するために、完全に分散し、ステートレスで予測可能なスケジューリングシステムとして動作する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:27:10 GMT)
Beyond risk: A proto-framework for assessing the societal impact of AI systems [0.0] 本稿では,自由の概念を運用することで,AIシステムの社会的影響を評価するためのプロトタイプフレームワークを提案する。
カント哲学と関連する同時代の解釈を参考にして、自由は責任の概念と相反するものとして発展する。
自由の2つの次元は、能力としての自由と機会としての自由という2つの詳細で展開されている。
このプロトフレームワークは、現在のリスクベースのアプローチを補完することを目的としており、AI規制における自由の概念を運用するための第一歩を提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:25:14 GMT)
Beyond Log-Concavity and Score Regularity: Improved Convergence Bounds for Score-Based Generative Models in W2-distance [0.0] 生成モデル(SGM)における$mathcalW$-convergenceを解析するための新しいフレームワークを提案する。
データ分布の弱い対数共振器は時間とともに対数共振器へと進化することを示す。
本手法は,スコア関数とその推定器上での厳密な規則性条件の必要性を回避するものである。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:15:21 GMT)
Beyond Hard Sharing: Efficient Multi-Task Speech-to-Text Modeling with Supervised Mixture of Experts [0.0] S-MoE(Supervised Mixture of Experts)を提案する。
S-MoEは、各タスクを指定された専門家にルーティングする特別なガイドトークンを利用することで、ゲーティング機能のトレーニングを不要にする。
我々は、S-MoEを音声-テキストモデルに適用し、自動音声認識(ASR)と音声翻訳(ST)を併用しながら、混合帯域入力を処理できるようにする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 23:56:11 GMT)
Automated scoring of the Ambiguous Intentions Hostility Questionnaire using fine-tuned large language models [0.0] Ambiguous Intentions Hostility Questionnaire (AIHQ) は、一般的に敵対的帰属バイアスを測定するために使用される。
大規模言語モデルがAIHQのオープンエンドレスポンスのスコアリングを自動化することができるかどうかを評価した。
その結果, モデルによる評価は, 敵意と攻撃的反応の双方に対する人間の評価と一致していた。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:58:11 GMT)
Atom-Induced Field Squeezing Predicted by Magnus Expanding the Jaynes-Cummings Model for a Two-Level Atom [0.0] 回転波近似を超えた光のスクイーズを含む用語が見つかる。
これらの結果は, 単純な光物質系における工学的非古典的状態への新たな道のりを示唆している。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:35:13 GMT)
Artificial Intelligence and Generative Models for Materials Discovery -- A Review [0.0] Reviewは、材料発見に適用可能なAI駆動生成モデルのさまざまな原則について議論することを目的としている。
また, 新規触媒, 半導体, 高分子, 結晶の設計における生成モデルの具体的な応用についても紹介する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 09:56:27 GMT)
Analyzing Prominent LLMs: An Empirical Study of Performance and Complexity in Solving LeetCode Problems [0.0] ChatGPT、Copilot、Gemini、DeepSeekといった大規模言語モデル(LLM)は、重要なタスクを自動化することで、ソフトウェアエンジニアリングを変革しています。
この研究は、容易、中、難易度にまたがる100と50のLeetCode問題に対して、これらの4つの著名なLLMをベンチマークする。
我々は,実行時間,メモリ使用量,アルゴリズムの複雑さに基づいて各モデルを評価する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:50:52 GMT)
An Auditable Agent Platform For Automated Molecular Optimisation [0.0] 薬物発見は、データ、専門知識、ツールが散在すると、しばしば勢いを失う。
このループを短くするため、分子最適化を自動化するエージェントフレームワークを使用した階層的なツールを構築しました。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 13:41:32 GMT)
AgentSME for Simulating Diverse Communication Modes in Smart Education [0.0] スマート教育に適した生成エージェントモデルは非常に重要だが、まだ開発が進んでいない。
モデルでは、Solo、Mono、Echoの3つの方向通信モードが検討されている。
精度は主評価基準として採用され、推論内容の多様性を評価するために設計された3つの多様性指標によって補完される。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 05:40:40 GMT)
Agency, Affordances, and Enculturation of Augmentation Technologies [0.0] 増進技術は、培養の過程を経ている。
この章では、産業における非人間エージェントの発達を、増員技術の台頭の重要な要因として取り上げている。
メタバースと拡張現実に関する最近の主張を調べて結論付ける。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:28:07 GMT)
Adversarial Attacks on Reinforcement Learning-based Medical Questionnaire Systems: Input-level Perturbation Strategies and Medical Constraint Validation [0.0] RLベースの医療アンケートシステムは、医療シナリオにおいて大きな可能性を示している。
本研究は,潜在的な脆弱性を同定・解析するための敵攻撃手法に関する総合的な評価を行う。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 11:10:49 GMT)
About testing Bell locality at colliders [0.0] 粒子物理学は自然に、量子ビットだけでなく、量子ビットも含む系の例を提供する。
我々は、これがどのように達成されるのか、なぜベルテストを避けるために、局所的な隠れ変数モデルによって悪用される抜け穴に対して、新しい視点を提供するのかを包括的に説明する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 08:56:49 GMT)
AIC CTU@FEVER 8: On-premise fact checking through long context RAG [0.0] 私たちのファクトチェックシステムは、昨年の提出に基づいて、単純な2ステップのRAGパイプラインです。
パイプラインをオンプレミスで再デプロイし、最先端のファクトチェックのパフォーマンスを実現する方法を示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:03:43 GMT)
A simple gravitational self-decoherence model [0.0] 臨界質量$M_rm C$よりもずっと小さく大きい質量を持つ量子粒子に対する単純な重力自己脱コヒーレンス機構を提案する。
我々のモデルは、自由量子粒子が質量が$M_rm C$に近づくと経験する新しい物理を捉えるように設計されている。
我々は、最先端の実験でこの提案を文脈化し、将来のStern-Gerlachのような実験でどのようにテストできるかを示す。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:26:01 GMT)
A noninvasive and nonadiabatic quantum Maxwell demon [0.0] デーモンは、詳細でない電荷検出器を利用することで、連続測定によるデコヒーレンスを回避する。
Landau-Zener-St'uckelberg-Majoranaによるコヒーレントトンネルの制御は、効率的なフィードバック操作を可能にする。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:13:11 GMT)
A neural network machine-learning approach for characterising hydrogen trapping parameters from TDS experiments [0.0] この研究は、TDSスペクトルからパラメータを識別するための機械学習に基づくスキームを導入する。
マルチニューラルネットワーク(NN)モデルを開発し,トラップパラメータを予測するために合成データのみを訓練する。
異なる組成のマルテンサイト系3鋼に印加した場合, 強い予測性能を示した。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:21:54 GMT)
A Scalable Machine Learning Pipeline for Building Footprint Detection in Historical Maps [0.0] 本稿では,疎度な建物分布を持つ農村マップに適した,スケーラブルで効率的なパイプラインを提案する。
パイプラインは、Ordnance Survey Irelandの履歴25インチマップシリーズと6インチマップシリーズのテストセクションを使用して検証されている。
このパイプラインは1839年に製造された6インチの地図にある、タリー・コ・ゴールウェイの約22の建物を識別したが、1899年に製造された25インチの地図は見つからなかった。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 15:33:29 GMT)
A Novel Multimodal Framework for Early Detection of Alzheimers Disease Using Deep Learning [0.0] アルツハイマー病(英語版) (AD) は進行性神経変性疾患であり、早期診断において重大な課題を引き起こす。
従来の診断法は、疾患の多面的な性質を捉えるには不十分である。
我々は,MRI画像,認知評価,バイオマーカーという3つの主要な情報源からのデータを統合するADの早期検出のための新しい枠組みを提案する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 03:46:59 GMT)
A Human Centric Requirements Engineering Framework for Assessing Github Copilot Output [0.0] GitHub Copilotは、これらのソフトウェアツールがヒューマンニーズにどう対処するかという、新たな課題を紹介している。
チャットインターフェースを通じて、GitHub Copilotのユーザとのインタラクションを分析しました。
これらの品質を評価するための明確なメトリクスを備えた、人間中心の要件フレームワークを確立しました。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 21:33:23 GMT)
A Genetic Algorithm Framework for Optimizing Three-Impulse Orbital Transfers with Poliastro Simulation [0.0] 本稿では, 遺伝的アルゴリズム(GA)とポリアストロ軌道力学ライブラリを結合して, 燃料最適3パルス移動軌道を自律的に発見する計算フレームワークを提案する。
低地球軌道(LEO)から地球静止軌道(GEO)への低エネルギー移動と、LEOの20倍の半径を持つ遠方の軌道への高エネルギー移動である。
LEO-to-GEO転送では、GAは古典的なホーマン変換に正確に収束し、同じ$Delta V$の3853.96 m/sを達成し、検証する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 14:03:35 GMT)
A Generalized Formulation of Two-Particle Interference [0.0] 2光子干渉は通常、ハンベリー・ブラウン・ツイツ実験(HBT)と香港・ウー・マンデル実験(HOM)の2種類の実験で観測される。
前者とは異なり、後者は純粋に量子効果であるとしばしば主張されている。
2粒子干渉は、様々な実装が可能な単一の現象である。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 18:27:24 GMT)
A Foundational Schema.org Mapping for a Legal Knowledge Graph: Representing Brazilian Legal Norms as FRBR Works [0.0] 機械可読性に関する法的な規範を構築することは、高度なAIと情報検索システムを構築するための重要な前提条件である。
本稿では,抽象法的作業の基盤的スキーマ.org/登録語彙へのマッピングを提案する。
この構造化された形式的なアプローチは、決定論的かつ検証可能な知識グラフを作成するための重要な第一歩を提供する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 10:39:24 GMT)
A Design Recipe and Recipe-Based Errors for Regular Expressions [0.0] このフレームワークは正規表現のための設計レシピと、カスタマイズされたエラーメッセージングシステムを含んでいる。
エラーメッセージングシステムは、設計レシピのステップを含むレシピベースのエラーを生成する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 16:53:33 GMT)
A DbC Inspired Neurosymbolic Layer for Trustworthy Agent Design [0.0] 私たちはDesign by Contractの原則を適用して、すべての大規模言語モデルの呼び出しを仲介するコントラクトを導入します。
契約満足度は確率的であり、セマンティックな検証は運用上定義されます。
この研究は、同一の契約を満たす2つのエージェントがそれらの契約に対して機能的に等価であると仮定する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 17:24:50 GMT)
A Comparative Study of Neurosymbolic AI Approaches to Interpretable Logical Reasoning [0.0] ドメインに依存しないタスクを推論する能力として定義された一般的な論理的推論は、大型言語モデル(LLM)の課題であり続けている。
近年、ニューラルネットワークに論理を組み込もうとするニューロシンボリックAIへの関心が高まっている。
まず、論理的推論を改善するための2つの主要なニューロシンボリックアプローチを同定する。
論文参考訳(メタデータ) (Tue, 05 Aug 2025 12:14:32 GMT)