UniWav: Towards Unified Pre-training for Speech Representation Learning and Generation [125.2] UniWavは、事前学習された表現学習と生成タスクを統合するために設計されたエンコーダ-デコーダフレームワークである。
音声認識、テキスト音声、音声トークン化では、UniWavは既存の様々な基礎モデルに匹敵する性能を達成している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:15:40 GMT)
A Survey on Large Language Model based Autonomous Agents [105.3] 大規模言語モデル(LLM)は、人間レベルの知性を達成する上で、顕著な可能性を示している。
本稿では,LLMに基づく自律エージェントの分野を総合的な観点から体系的に検討する。
本稿では、社会科学、自然科学、工学の分野におけるLLMベースの自律エージェントの多様な応用について概観する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:04:03 GMT)
MOVE: Effective and Harmless Ownership Verification via Embedded External Features [105.0] 本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:14:11 GMT)
SV-RAG: LoRA-Contextualizing Adaptation of MLLMs for Long Document Understanding [103.7] マルチモーダルな大言語モデル(MLLM)は、最近、テキストに富んだ画像理解において大きな進歩を見せている。
長文書理解を支援するため,任意のMLLMの地平線を拡大できる,**S**elf-**V*isual **R***A*ugmented **G**eneration (SV-RAG) という新しいフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 22:41:37 GMT)
The Optimization Landscape of SGD Across the Feature Learning Strength [102.1] オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。
最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。
以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 18:16:48 GMT)
Unnatural Languages Are Not Bugs but Features for LLMs [92.8] 大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。
我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:10:17 GMT)
Test-Time Adaptation for Combating Missing Modalities in Egocentric Videos [92.4] 現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:49:21 GMT)
Autoregressive Video Generation without Vector Quantization [90.9] 本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:09:39 GMT)
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [89.7] 大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:17:12 GMT)
Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.4] 本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。
視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 23:41:37 GMT)
CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.7] 大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:02:57 GMT)
MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference Optimization [85.6] 大規模言語モデル(LLM)は急速に進歩し、特定のタスクでほぼ人間に近い能力を実現している。
既存のアライメント手法は主に、強弱アライメントと自己アライメント設定に焦点を当てている。
本稿では,より厳密なアライメント設定に対応するために,マルチエージェント・コントラスト優先最適化(MACPO)フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:25:14 GMT)
Aerial Secure Collaborative Communications under Eavesdropper Collusion in Low-altitude Economy: A Generative Swarm Intelligent Approach [84.2] 本研究では,AAV群に分散コラボレーティブビームフォーミング(DCB)を導入し,対応する信号分布を制御して盗聴者の共謀を処理した。
両方向の秘密保持能力と最大サイドローブレベルを最小化して、未知の盗聴者からの情報漏洩を回避する。
本稿では,より少ないオーバーヘッドで問題を解決するために,新しいジェネレーティブ・スウォーム・インテリジェンス(GenSI)フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:02:58 GMT)
Generative causal testing to bridge data-driven models and scientific theories in language neuroscience [83.0] 脳における言語選択性の簡潔な説明を生成するためのフレームワークである生成因果テスト(GCT)を提案する。
GCTは機能的選択性に類似した脳領域の細粒度の違いを識別できることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:32:24 GMT)
Lean Copilot: Large Language Models as Copilots for Theorem Proving in Lean [81.9] リーンでLLM推論を実行するためのフレームワークであるLean Copilotを紹介します。
証明のステップを提案し、証明の目標を完了し、関連する前提を選択するツールを構築します。
人間を助ける場合、Lean Copilotは平均3.86で手動で入力された証明ステップを2.08ステップしか必要としない。
定理証明プロセスを自動化する場合、Lean Copilotの74.2%の証明ステップは平均85%がエソップ(40.1%)より優れている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:13:11 GMT)
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers [80.7] $texttBabel$はオープンな多言語LLMで、話者数のトップ25言語をカバーする。
世界の人口の90%以上をサポートし、他のオープンな多言語LLMによって無視される多くの言語を含んでいる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:53:55 GMT)
FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.4] 大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:46:48 GMT)
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.9] 本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 03:27:58 GMT)
A Law Reasoning Benchmark for LLM with Tree-Organized Structures including Factum Probandum, Evidence and Experiences [76.7] 本稿では,階層的なファクトラム,証拠,暗黙的な経験に富む透明な法理推論スキーマを提案する。
このスキーマにインスパイアされた課題は、テキストのケース記述を取り込み、最終決定を正当化する階層構造を出力する。
このベンチマークは、Intelligent Courtにおける透明で説明可能なAI支援法推論の道を開く」。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:26:54 GMT)
Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs [76.2] ビデオ品質の識別におけるLMMの習熟度を評価するための新しいベンチマークであるQ-Bench-Videoを紹介する。
2,378組の質問応答ペアを収集し、12のオープンソースと5のプロプライエタリなLMMでテストする。
以上の結果から,LMMは映像品質の基本的な理解を保ちつつも,その性能は不完全かつ不正確であり,人的性能に比較して顕著な相違があることが示唆された。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:17:51 GMT)
TFG-Flow: Training-free Guidance in Multimodal Generative Flow [73.9] 本稿では,マルチモーダルな生成フローのためのトレーニング不要指導法TFG-Flowを紹介する。
TFG-Flowは、離散変数の導出において、非バイアスサンプリングの特性を維持しながら、次元の呪いに対処する。
TFG-Flowは, 所望の特性を持つ分子を生成することにより, 薬物設計において大きな可能性を秘めている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 03:00:53 GMT)
Graph Transformers Dream of Electric Flow [72.1] グラフデータに適用された線形変換器は、正準問題を解くアルゴリズムを実装可能であることを示す。
提案手法は,各アルゴリズムを実装するための明示的な重み設定を示し,基礎となるアルゴリズムの誤差によって構築したトランスフォーマーの誤差を限定する。
我々の研究は、グラフデータのためのTransformerの内部処理を解明するための最初のステップです。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:18:13 GMT)
What is Wrong with Perplexity for Long-context Language Modeling? [71.3] 長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:23:18 GMT)
Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.0] エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。
本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。
EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 18:49:48 GMT)
RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information Discovery [69.4] 直接生成やマルチエージェントの議論といった既存の手法は、幻覚、トピックの不整合、重大な遅延といった問題に悩まされることが多い。
本稿では,効率的な検索拡張長文生成フレームワークRAPIDを提案する。
私たちの仕事は、自動化された長文生成の課題に対して、堅牢で効率的なソリューションを提供します。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:11:29 GMT)
Timer-XL: Long-Context Transformers for Unified Time Series Forecasting [67.8] 我々は時系列の統一予測のための因果変換器Timer-XLを提案する。
大規模な事前トレーニングに基づいて、Timer-XLは最先端のゼロショット性能を達成する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:22:35 GMT)
CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification [65.5] 画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。
次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。
画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:22:47 GMT)
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models [64.5] テキスト・ツー・イメージ(T2I)拡散モデルは、画像生成プロセスのガイドとなるエンコードプロンプトに依存している。
我々は,T2Iモデルにおいてパディングトークンが果たす役割の詳細な分析を行う。
テキストエンコーディング中、拡散過程中、または効果的に無視される場合、パディングトークンがモデルの出力に影響を与える可能性がある。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:10:13 GMT)
All Seeds Are Not Equal: Enhancing Compositional Text-to-Image Generation with Reliable Random Seeds [63.8] テキスト間拡散モデルは任意のテキストプロンプトからリアルな画像を生成することができる。
彼らはしばしば「2匹の犬」や「ボウルの右側のペンギン」のような作曲のプロンプトに対して矛盾した結果を出す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:15:11 GMT)
Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models [63.4] マシン・アンラーニング(MU)は安全でセキュアで信頼性の高いGenAIモデルを開発する上で重要な基盤である。
従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。
本稿では,拡散モデルにおいて望ましくない情報を忘れることを促進する革新的なMUアプローチであるScore Forgetting Distillation (SFD)を紹介する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 01:07:41 GMT)
Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop [63.3] TimeXLはプロトタイプベースの時系列エンコーダを統合するマルチモーダル予測フレームワークである。
より正確な予測と解釈可能な説明を生成する。
4つの実世界のデータセットに対する実証的な評価は、TimeXLがAUCで最大8.9%の改善を達成していることを示している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:40:53 GMT)
Generating Visual Stories with Grounded and Coreferent Characters [63.1] 本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:36:29 GMT)
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.4] 統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:53:44 GMT)
CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.2] カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:39:57 GMT)
Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks [59.9] 本稿では,非知覚的音声操作による音声翻訳システム構築手法について検討する。
本研究では,(1)ソース音声への摂動注入,(2)ターゲット翻訳を誘導する対向音楽の生成という2つの革新的なアプローチを提案する。
我々の実験では、注意深く作られた音声摂動は、ターゲットとなる有害な出力を生成するために翻訳モデルを誤解させる可能性があるが、敵対的な音楽はこの目標をより隠蔽的に達成する。
この研究の意味は、直ちにセキュリティ上の懸念を越えて、ニューラル音声処理システムの解釈可能性と堅牢性に光を当てることである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:38:16 GMT)
Task-Agnostic Guided Feature Expansion for Class-Incremental Learning [59.8] CIL(Class-Incremental Learning)における学習システムには,学習知識を維持しながら新しい概念を学習する能力が望ましい
近年,新しいタスクのトレーニング中に旧機能を修正し,新しいタスクに新たな機能を拡張したCILでは,モデルの機能拡張が主流となっている。
本稿では,タスク間の多様な特徴の学習と伝達を促進するために,タスク非依存型特徴拡張(TagFex)というフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:56:50 GMT)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.6] 投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:27:48 GMT)
Drag Your Gaussian: Effective Drag-Based Editing with Score Distillation for 3D Gaussian Splatting [55.1] DYGは3次元ガウススプラッティングのための効果的な3次元ドラッグベース編集法である。
3次元マスクと一対の制御点を入力して編集範囲を正確に制御できる。
DYGは暗黙三面体表現の強さを統合し、編集結果の幾何学的足場を確立する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:43:39 GMT)
Are Akpans Trick or Treat: Unveiling Helpful Biases in Assistant Systems [55.1] 情報探索型AIアシスタントシステムは,ユーザの知識に関する質問に対して,タイムリーに回答することを目的としている。
本稿では,有用性の計算測度について検討する。
最先端の対話システムを用いた実験により、既存のシステムは高度開発途上国の概念に関する質問に役立っていることが明らかとなった。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 21:51:00 GMT)
DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution [54.1] DynReferは、人間の視覚認知の解像度適応性を模倣することで、高精度な領域レベルの参照を目指している。
トレーニング中、DynReferは、マルチモーダルタスクの言語記述と、参照された領域のランダムなビューのセットをネストすることで構築された複数の解像度の画像とを一致させる。
実験により、DynReferは、領域レベルのキャプション、オープンボキャブラリ領域認識、検出など幅広いタスクにおいて相互改善をもたらすことが示された。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:18:55 GMT)
Unsupervised Denoising for Signal-Dependent and Row-Correlated Imaging Noise [54.0] 本稿では,行関連や信号依存の撮像ノイズを処理できる,教師なしのディープラーニングベースデノイザについて紹介する。
提案手法では,特殊設計の自己回帰デコーダを備えた変分オートエンコーダを用いる。
本手法では,事前学習した雑音モデルを必要としないため,雑音のないデータを用いてスクラッチから訓練することができる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 23:48:32 GMT)
ALBAR: Adversarial Learning approach to mitigate Biases in Action Recognition [52.5] 行動認識モデルは、しばしば背景バイアス(背景の手がかりに基づく行動の推測)と前景バイアス(主題の外観に依存する)に悩まされる。
本稿では,前景や背景のバイアスを,バイアス特性の専門知識を必要とせずに軽減する,新たな対人訓練手法であるALBARを提案する。
我々は,提案手法を確立された背景と前景のバイアスプロトコル上で評価し,新しい最先端のバイアスプロトコルを設定し,HMDB51では12%以上のデバイアス性能を向上した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:53:26 GMT)
DoF-Gaussian: Controllable Depth-of-Field for 3D Gaussian Splatting [52.5] 3D-GSのための制御可能な深度法であるDoF-Gaussianを導入する。
我々は、DoF効果を制御するための幾何光学原理に基づくレンズベースイメージングモデルを開発した。
私たちのフレームワークはカスタマイズ可能で、様々なインタラクティブアプリケーションをサポートしています。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:57:57 GMT)
Range, not Independence, Drives Modularity in Biologically Inspired Representations [52.5] 我々は、生物学的にインスピレーションを受けたネットワークが、ソース変数(ソース)の表現をモジュール化する理論を開発する。
我々は、最適な線形オートエンコーダのニューロンがモジュラー化するかどうかを決定するソースのサンプルに対して、必要かつ十分な条件を導出する。
我々の理論はどんなデータセットにも当てはまり、以前の研究で研究された統計的な独立性よりもはるかに長い。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:40:21 GMT)
Taxonomy, Opportunities, and Challenges of Representation Engineering for Large Language Models [52.2] RepEはモデルの内部表現を直接操作する。
より効果的で、解釈可能で、データ効率が良く、モデルの振る舞いを柔軟に制御できる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:23:58 GMT)
On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent [51.5] Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートである。
我々はSignGDが雑音の多いデータセット上で2層トランスを最適化する方法について検討する。
SignGDの一般化が不十分なのはデータノイズによるものではなく、SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:01:31 GMT)
Improving Long-Text Alignment for Text-to-Image Diffusion Models [50.9] 長文処理のためのセグメントレベル符号化手法を含むLongAlignを提案する。
選好最適化のために、我々はCLIPに基づく選好モデルを微調整拡散モデルに適用する。
テキスト非関連部が微調整時の共通オーバーフィッティング問題に寄与していることが判明した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:05:19 GMT)
L3Ms -- Lagrange Large Language Models [47.2] Supervised Fine-tuning (SFT) と Large Language Model (LLM) のアライメントは、優れたユーザエクスペリエンスを提供するための重要なステップである。
制約を強制するために対数障壁を用いるラグランジュ大言語モデル(L3Ms)を提案する。
各種用途に適したアライメントを実現するためのL3Mの汎用性と有効性について実験的に検証した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:39:42 GMT)
DEAL: Data-Efficient Adversarial Learning for High-Quality Infrared Imaging [47.2] 温度劣化シミュレーションをミニマックス最適化によりトレーニングプロセスに統合する。
シミュレーションは、目的関数を最大化するために動的であり、これにより、劣化したデータ分布の幅広いスペクトルをキャプチャする。
このアプローチにより、限られたデータによるトレーニングが可能になり、モデルのパフォーマンスが向上する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:15:44 GMT)
Leveraging Dual Process Theory in Language Agent Framework for Real-time Simultaneous Human-AI Collaboration [46.7] 大規模言語モデル(LLM)は、ターンバイターンの人間とAIのコラボレーションにおいて優れているが、リアルタイムの対話を必要とする同時タスクに苦労している。
本稿では,システム1とシステム2を統合した新しい言語エージェントフレームワークであるDPT-Agentを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:15:11 GMT)
End-to-End Augmentation Hyperparameter Tuning for Self-Supervised Anomaly Detection [46.5] 自己監督型異常検出(SSAD)は近年注目されている。
SSADにおける厳密な拡張チューニングのための最初の体系的アプローチであるST-SSADを紹介する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:19:58 GMT)
IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis [46.5] Zero-shot Referring Imageは、トレーニングや微調整なしで参照式に最も適したインスタンスマスクを特定する。
従来のCLIPモデルでは、物体の相対的な空間的関係を識別する能力が顕著に低下していた。
IteRPrimEは従来の最先端のゼロショットメソッドよりも優れており、特にドメイン外のシナリオでは優れている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:19:37 GMT)
The Mighty ToRR: A Benchmark for Table Reasoning and Robustness [45.4] ToRRはテーブル推論とロバストネスのベンチマークであり、テーブル関連のタスクにおけるモデル性能とロバストネスを測定している。
本稿では,ToRR上での先行モデルの結果を総合的に分析するとともに,リーダーボードを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:16:39 GMT)
SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models [45.3] Spartun3Dという,様々な位置空間推論タスクを組み込んだスケーラブルな位置位置3Dデータセットを導入する。
また,Spartun3D-LLMを提案する。これは既存の3次元LLM上に構築されているが,新しい位置空間アライメントモジュールと統合されている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:22:12 GMT)
Data Unlearning in Diffusion Models [45.0] 汎用マシンアンラーニング技術は不安定であるか、あるいはデータを解き放たないかのどちらかであることが判明した。
本稿では,重要サンプリングを利用して,理論的な保証をもってデータを学習する最初の方法であるSubtracted Importance Smpled Scores (SISS) と呼ばれる新たな損失関数群を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 21:36:04 GMT)
Advancing Prompt-Based Methods for Replay-Independent General Continual Learning [44.9] 一般連続学習(GCL)は、現実世界の連続学習(CL)問題を記述するための幅広い概念である。
このような要求は、初期性能の低下、限定的な一般化可能性、深刻な破滅的な忘れ込みをもたらす。
本稿では,MISA (Mask and Initial Session Adaption) という新しい手法を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:58:18 GMT)
Evaluating and Predicting Distorted Human Body Parts for Generated Images [44.5] AI生成画像中の人体歪みを検出するために,視覚変換器を用いたモデルViT-HDを提案する。
我々は,一般的な4つのT2Iモデルを評価するために,500個の人間中心のプロンプトを用いたヒューマン・ディストーションベンチマークを構築した。
この研究は、AI生成された人間の解剖学的精度を評価するための体系的なアプローチを開拓し、T2Iモデルの忠実性を高めるためのツールを提供する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:34:44 GMT)
Speech Representation Learning Revisited: The Necessity of Separate Learnable Parameters and Robust Data Augmentation [43.5] 我々は、学習可能なパラメータを別々に使用して、他の情報をモデリングすることの重要性を理解するための予備的研究を行う。
まず、O-HuBERT法は、すべてのレイヤを利用して、他の情報をエンコードする複雑な機能を構築することができ、次に、他の情報に依存するタスクに必要な情報を学ぶために、堅牢なデータ拡張戦略が不可欠である。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:59:36 GMT)
Re-Imagining Multimodal Instruction Tuning: A Representation View [43.3] マルチモーダル・インストラクション・チューニングはゼロショットの一般化を実現するための効果的な戦略であることが証明されている。
LMMの規模が拡大するにつれて、これらのモデルを完全に微調整し、パラメーター集約化が進んでいる。
意味的にリッチなマルチモーダル表現を直接編集することに焦点を当てた新しいアプローチであるMultimodal Representation Tuning(MRT)を導入する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:11:03 GMT)
Re-Evaluating the Impact of Unseen-Class Unlabeled Data on Semi-Supervised Learning Model [43.2] 半教師付き学習は、ラベルのないデータを効果的に活用し、様々な分野で成功している。
現在の安全なSSLメソッドは、ラベルなしデータの見えないクラスがSSLモデルのパフォーマンスを損なうと信じている。
本稿では,変数の制御原理に厳密に固執し,未ラベルデータにおけるクラスの割合を維持する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:06:00 GMT)
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token [43.1] LLaVA-Miniは最小限の視覚トークンを持つ効率的な大規模マルチモーダルモデルである。
LLaVA-Miniは、FLOPを77%削減し、40ミリ秒以内で低レイテンシ応答を提供し、24GBのメモリを持つGPUハードウェア上で1万フレーム以上のビデオを処理する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:55:07 GMT)
Harnessing Multiple Large Language Models: A Survey on LLM Ensemble [42.8] 本稿では,LLM アンサンブルにおける最近の展開の体系的レビューを行う。
本稿では, LLM アンサンブルの分類について紹介し, 関連するいくつかの研究課題について論じる。
また、「アンサンブル前推論、アンサンブル後推論、アンサンブル後推論」という幅広いカテゴリの手法のより詳細な分類も提供する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:56:04 GMT)
Unmasking Social Bots: How Confident Are We? [41.9] 本稿では,ボット検出と不確実性の定量化の両方に対処することを提案する。
この二重焦点は、各予測の定量化の不確実性に関連する追加情報を活用することができるため、非常に重要である。
具体的には,予測を高い信頼性で行う場合のボットに対する標的的介入を促進するとともに,予測が不確実な場合の警告(例えば,より多くのデータ収集)を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 18:17:11 GMT)
HMD^2: Environment-aware Motion Generation from Single Egocentric Head-Mounted Device [41.6] 動作の再構築と生成のバランスをとる新しいシステムであるHMD2を提案する。
生成面では、HMD2は時間的コヒーレンスを維持するためにトランスフォーマーバックボーンを備えたマルチモーダル条件運動拡散モデルを用いる。
我々は,複雑な屋内環境と屋外環境において,200時間以上の動作の多様なデータセットにスケールする,効果的で堅牢なソリューションを提供することを示した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:06:51 GMT)
Data-Efficient Kernel Methods for Learning Differential Equations and Their Solution Operators: Algorithms and Error Analysis [40.7] 我々は、微分方程式とその解マップを学習するための新しいカーネルベースのフレームワークを、データ要求において効率的に導入する。
我々のアプローチは数学的に解釈可能であり、学習方程式の量的最悪の誤り境界の形で厳密な理論的保証によって裏付けられている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 21:48:03 GMT)
Edge Prompt Tuning for Graph Neural Networks [40.6] 本稿では,エッジの観点からの簡易かつ効果的なグラフプロンプトチューニング手法であるEdgePromptを提案する。
本手法は,各種事前学習戦略の下で事前学習したGNNアーキテクチャと互換性がある。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:07:54 GMT)
CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments [39.6] 大規模言語モデル(LLM)は、意味論的推論を通じて複雑なタスクを階層的に分解する際、顕著な能力を示す。
クローズドループ・エンボダイド・エージェント (CLEA) は,クローズドループタスク管理のための機能的デカップリングを備えた,4つの特別なオープンソース LLM を組み込んだ新しいアーキテクチャである。
我々は、物体探索、操作、探索操作統合タスクのための2つの異種ロボットを用いて、操作可能な物体を実環境で実験する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:50:59 GMT)
When Attention Sink Emerges in Language Models: An Empirical View [39.4] 言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。
この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。
我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:37:53 GMT)
Synthesizing Physically Plausible Human Motions in 3D Scenes [39.2] 本稿では,人間とシーンの相互作用を合成するための物理に基づく文字制御フレームワークを提案する。
主要なアイデアは、人間とシーンのインタラクションを2つの基本的なプロセス、InteractingとNavigatingに分離することである。
乱雑な環境でのナビゲーションを実現するため,我々はNavConを紹介した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:15:30 GMT)
DELST: Dual Entailment Learning for Hyperbolic Image-Gene Pretraining in Spatial Transcriptomics [38.9] 画像生成事前学習のための階層をモデル化しながら,双曲表現を組み込む最初のフレームワークであるDELSTを提案する。
本フレームワークは,既存手法と比較して予測性能の向上を実現している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:00:09 GMT)
Human Simulacra: Benchmarking the Personification of Large Language Models [38.2] 大規模言語モデル(LLM)は、人間の知性の側面を忠実に模倣するシステムとして認識されている。
本稿では,仮想キャラクタのライフストーリーをゼロから構築するためのフレームワークを提案する。
実験により, 構築したシミュラクラは, 対象キャラクタと一致した擬人化応答を生成できることが実証された。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:03:25 GMT)
A Transfer Framework for Enhancing Temporal Graph Learning in Data-Scarce Settings [37.7] エンティティ間の動的相互作用は、ソーシャルプラットフォーム、金融システム、ヘルスケア、電子商取引のようなドメインで一般的である。
TGNNはそのような予測タスクに対して強力な結果を得ているが、通常、現実世界のシナリオで制限される広範なトレーニングデータを必要とする。
本稿では,ノード表現を関連する特徴から2部符号化機構によって切り離す新しい転送手法を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:10:29 GMT)
Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates [37.6] 常に一定応答を出力する"nullモデル"でさえ、自動ベンチマークを騙し、トップランクの勝利率を達成することができることを示す。
以上の結果から,信頼性の高い自動ベンチマークのための加熱防止機構の開発が望まれる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:28:33 GMT)
Nonparametric Heterogeneous Long-term Causal Effect Estimation via Data Combination [37.5] 長期的な因果推論は多くの科学領域で注目を集めている。
また、不均一な長期因果効果を頑健かつ効果的に推定する方法も検討されている。
異種長期因果効果推定のための2段階型非パラメトリック推定器を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:14:51 GMT)
LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics [37.2] 大規模なモデルをトレーニングするためのメモリ効率のよい勾配であるLDAdamを紹介する。
LDAdamは,言語モデルの精密かつ効率的な微調整と事前学習を可能にする。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 18:38:37 GMT)
Towards An Efficient LLM Training Paradigm for CTR Prediction [37.2] 大型言語モデル(LLM)は従来のクリックスルーレート(CTR)予測手法よりも大幅に優れている。
CTR予測のためにLLMを訓練するために、既存の研究の多くは'sliding-window'パラダイムを採用している。
本稿では,動的ターゲット分離(Dynamic Target isolation, DTI)と呼ばれる新たなトレーニングパラダイムを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 19:43:35 GMT)
Inference Scaling for Long-Context Retrieval Augmented Generation [37.2] 拡張推論計算は、長文大言語モデル(LLM)の可能性を解き放った
本研究では,文脈内学習や反復的プロンプトなど,知識の量を増やすこと以上の複数の戦略の組み合わせについて検討する。
長文LLMのスケーリング推論計算は、標準RAGと比較して、ベンチマークデータセットで58.9%向上することを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 19:44:37 GMT)
Optimal Ground Station Selection for Low-Earth Orbiting Satellites [36.9] 本稿では,低地球軌道(LEO)ミッションにおける最適な地上局選択の問題に対する解決法を提案する。
ミッションオペレーターは、地上セグメントの性能とコストを正確に設計することができる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 01:10:07 GMT)
CREATE-FFPE: Cross-Resolution Compensated and Multi-Frequency Enhanced FS-to-FFPE Stain Transfer for Intraoperative IHC Images [36.9] 本稿では,多周波化FS-to-FFPE(CREATE-FFPE)ステンディング・トランスファー・フレームワークを提案する。
外科領域で高画質のIHC画像の観察を支援するため,多周波化FS-to-FFPE(CREATE-FFPE)ステンディング・トランスファー・フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:38:11 GMT)
STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning [36.7] S-Temporal Memory Agent (STMA) は,時間記憶の統合による計画と実行の促進を目的としたフレームワークである。
複雑性レベル4.7%のマルチステップ計画と探索を含む32タスクのTextWorld環境におけるSTMAを評価した。
実験の結果、STMAは最先端モデルと比較して31.25%の成功率、平均スコアが24.7%上昇していることがわかった。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:14:27 GMT)
Proteina: Scaling Flow-based Protein Structure Generative Models [36.5] proteinaは大規模フローベースのタンパク質バックボーンジェネレータで、コンディショニングに階層的な折りたたみラベルを頼っている。
タンパク質は、デノボタンパク質のバックボーン設計における最先端のパフォーマンスを達成し、前例のない長さで最大800個の残基を生産する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 03:21:49 GMT)
Language Models Predict Empathy Gaps Between Social In-groups and Out-groups [36.2] 人間の心理学の研究は、人々は外集団のメンバーよりもグループ内のメンバーへの共感を拡大する動機があることを示した。
本研究では,人間におけるグループ間関係のこのような側面が,感情強度予測タスクにおいてLLMによってどのように再現されるかを検討する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 21:31:14 GMT)
Training-Free Message Passing for Learning on Hypergraphs [35.4] ハイパーグラフニューラルネットワーク(HNN)は、メッセージパッシングによってハイパーグラフ構造を効果的に利用し、ノードの特徴を生成する。
モデル学習段階からハイパーグラフ構造情報の利用を分離する手法を提案する。
これにより、TF-MP-Moduleと呼ばれる新しいトレーニング不要のメッセージパッシングモジュールが作成され、データ前処理の段階でプリ計算される。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:48:32 GMT)
Tackling Data Corruption in Offline Reinforcement Learning via Sequence Modeling [35.3] オフラインの強化学習は、データ駆動意思決定のスケーリングを約束する。
しかし、センサーや人間から収集された現実世界のデータには、しばしばノイズやエラーが含まれている。
我々の研究によると、データセットが制限された場合、先行研究はデータの破損の下では不十分である。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:28:00 GMT)
Training-Free Dataset Pruning for Instance Segmentation [35.1] インスタンスセグメンテーションには,ピクセルレベルのアノテーション,インスタンス領域のバリエーション,クラス不均衡という,3つの重要な課題がある。
本稿では,サンプルセグメンテーションのための新しいトレーニングフリーデータセット・プルーニング(TFDP)手法を提案する。
VOC 2012、Cityscapes、COCOデータセットで最先端の結果が得られ、CNNやTransformerアーキテクチャでうまく一般化されています。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:05:59 GMT)
Improved Baselines with Synchronized Encoding for Universal Medical Image Segmentation [34.1] SyncSAMは、医用画像符号化を強化するために、畳み込みとトランスフォーマー機能を統合した同期デュアルブランチエンコーダを使用する。
SyncSAMはテストセットで最先端のパフォーマンスを実現し、目に見えないデータセットで強力なゼロショット機能を示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:32:04 GMT)
Monet: Mixture of Monosemantic Experts for Transformers [33.8] トランスフォーマー(Monet)アーキテクチャのためのモノセマンティックエキスパート(Mixture of Monosemantic Experts)を紹介する。
Monetはスパース辞書学習を直接エンドツーエンドのMixture-of-Expertsプリトレーニングに組み込む。
本分析は,専門家間の知識の相互排他性を示し,各専門家にカプセル化されたパラメトリック知識を示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:52:21 GMT)
Adaptive In-conversation Team Building for Language Model Agents [33.0] 複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。
私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。
6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:36:57 GMT)
Parameter Expanded Stochastic Gradient Markov Chain Monte Carlo [32.5] グラディエント・マルコフ・チェイン・モンテカルロにおけるサンプルの多様性を高めるための単純かつ効果的な手法を提案する。
このアプローチはより多様なサンプルセットを生成し、同じ計算予算内でより高速な混合を可能にする。
OODのロバスト性,多様性,損失面の解析,ハミルトン・モンテカルロとの比較などの画像分類に関する実験は,提案手法の優位性を実証している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:42:50 GMT)
SoK: Systematization and Benchmarking of Deepfake Detectors in a Unified Framework [32.3] 本稿は、最先端のディープフェイク検出器を広範囲にレビューし、分析し、いくつかの臨界基準で評価する。
これらの基準は、検出器を4つの高レベルなグループと13のきめ細かいサブグループに分類し、統一された概念的枠組みと整合する。
我々は,ブラックボックス,ホワイトボックス,グレーボックスの設定を含む包括的攻撃シナリオにおいて,16個の主要検出器の一般化可能性を評価する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:32:25 GMT)
ActionReasoningBench: Reasoning about Actions with and without Ramification Constraints [31.9] アクション・アンド・チェンジ(RAC)に関する推論(Reasoning about Actions and Change)は、AIの基本的な問題を解決する上で、歴史的に重要な役割を担ってきた。
我々は8つのドメインを含む新しい診断ベンチマークであるActionReasoningBenchを紹介し、19のアクションシーケンスに対する質問を含む。
このベンチマークは、6つの主要なRAC次元にわたるLLM(Large Language Models)を厳格に評価する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 23:24:43 GMT)
Refinement Module based on Parse Graph of Feature Map for Human Pose Estimation [31.6] 人間の身体のParseグラフは人間の脳で取得でき、人間のPose Estimationをより良く完成させるのに役立つ。
我々は、トップダウン分解とボトムアップの組み合わせの2段階を含む機能マップのParse Graph(RMPG)に基づいてRefinement Moduleを設計する。
我々のネットワークは、複数の主流の人間のポーズにおいて優れた結果をもたらす。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 03:01:19 GMT)
From Screens to Scenes: A Survey of Embodied AI in Healthcare [31.2] 医療におけるEmAI」は、アルゴリズム、ロボティクス、バイオメディシンといった多様な分野にまたがる。
医療のためのEmAIの"脳"の概要を包括的に紹介し、認識、アクティベーション、計画、記憶のためのAIアルゴリズムを紹介します。
我々は、技術的な障壁を議論し、倫理的考察を探求し、医療におけるEmAIの将来を前方視する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:57:11 GMT)
Can AI Model the Complexities of Human Moral Decision-Making? A Qualitative Study of Kidney Allocation Decisions [31.1] 倫理的AIでは、単純な計算モデルを通じて人間の道徳的判断を捉えようとする動きが増えている。
参加者は腎臓の受注者についての判断の根拠を説明するため,20回のインタビューを行った。
参加者を観察する: (a) 患者の道徳的関連属性を異なる学位に価値づけする; (b) 意思決定の複雑さを減らすために様々な意思決定プロセスを使用する; (c) 意見を変える; (e) 腎臓の割り当て決定においてAIを補助するAIに対する熱意と関心を表現する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:42:17 GMT)
Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives [31.0] 本研究では,時間的・モダリティに特有な脆弱性を考慮した音声視覚モデルの対角的ロバスト性について検討する。
このような攻撃を防ぎつつ,新たな対人訓練フレームワークを導入する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:14:07 GMT)
LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.6] 実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:45:09 GMT)
S4M: S4 for multivariate time series forecasting with Missing values [30.5] 時系列データは、幅広い現実世界のアプリケーションにおいて重要な役割を果たす。
従来の2段階のアプローチは、最初は欠落した値を入力し、次に予測するが、エラーの蓄積が難しくなる。
S4Mは、欠落したデータ処理を構造化状態空間シーケンスモデルアーキテクチャにシームレスに統合する、エンドツーエンドの時系列予測フレームワークである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:59:59 GMT)
Zero-Shot Head Swapping in Real-World Scenarios [30.5] 本稿では,頭部と上半身を含む画像に対して頑健な新しい頭部交換法HIDを提案する。
マスクの自動生成には,頭部と身体のシームレスなブレンドを可能にするIOMaskを導入する。
本研究では,提案手法がヘッドスワップにおける最先端性能を実現することを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:44:23 GMT)
Rewarding Graph Reasoning Process makes LLMs more Generalized Reasoners [30.2] Process Reward Models (PRMs) は、段階的なフィードバックを提供することで推論を強化するという、例外的な約束を証明している。
本稿では,グラフ推論問題に対して,ステップワイドラベルを用いた最大のデータセットであるGraphSILOを紹介する。
グラフ推論問題のために設計された最初のPRMであるGraphPRMをトレーニングし、2つのキー設定でその有効性を評価する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:39:40 GMT)
TEASER: Token Enhanced Spatial Modeling for Expressions Reconstruction [29.4] 人物中心のコンピュータビジョンタスクでは,1つの眼内画像からの3D顔の再構成が重要な課題である。
現在のアプローチでは、誇張された不規則な口の形、表情、非対称な顔の動きに苦労している。
本稿では,これらの課題に対処し,顔形状を3次元的に拡張するTEASERを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:31:57 GMT)
SymDiff: Equivariant Diffusion via Stochastic Symmetrisation [28.6] 対称性の枠組みを用いた同変拡散モデル構築手法であるSymDiffを提案する。
SymDiffは、サンプリング時にデプロイされる学習データ拡張に似ており、軽量で、計算効率が高く、任意のオフザシェルフモデル上に実装が容易である。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:20:26 GMT)
An Empirical Analysis of Uncertainty in Large Language Model Evaluations [28.3] 我々は2つの異なる評価条件で9つのLLM評価器を用いた実験を行った。
LLM評価器はモデルファミリやサイズによって様々な不確実性を示す。
推論やポストトレーニングのときでも、特別なプロンプト戦略を採用することで、評価の不確実性をある程度軽減できることがわかった。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:37:08 GMT)
MoCoLSK: Modality Conditioned High-Resolution Downscaling for Land Surface Temperature [28.2] モーダリティ条件付きプロジェクションを通して多条件データを融合する新しいアーキテクチャを提案する。
MoLSKは、動的受容場調整とマルチモーダル特徴融合の結合を実現し、LST予測精度を向上する。
我々はGrokLSTプロジェクトを構築し、GrokLSTデータセット、高解像度ベンチマーク、GrokLSTツールキットを特徴とする包括的なオープンソースエコシステムを構築しました。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:32:50 GMT)
Wavelet-Driven Masked Image Modeling: A Path to Efficient Visual Representation [27.6] Masked Image Modeling (MIM)は、下流タスクに適したスケーラブルな視覚表現を学習する能力のおかげで、自己教師付き学習において大きな注目を集めている。
しかし、画像は本質的に冗長な情報を含んでいるため、画素ベースのMIM再構成プロセスはテクスチャなどの細部に過度に集中し、不要なトレーニング時間を延ばすことになる。
本研究では,MIMの学習過程を高速化するために,ウェーブレット変換を効率的な表現学習のツールとして活用する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:11:26 GMT)
InterMask: 3D Human Interaction Generation via Collaborative Masked Modeling [27.5] 拡散モデルに基づく既存のアプローチは、しばしば現実主義と忠実さを欠いた結果を生み出す。
離散空間における協調マスクモデルを用いたヒューマンインタラクション生成のための新しいフレームワークであるInterMaskを紹介する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:42:20 GMT)
Evolving High-Quality Rendering and Reconstruction in a Unified Framework with Contribution-Adaptive Regularization [27.5] 3D Gaussian Splatting (3DGS)は、高品質なレンダリングと高速な推論速度で注目されている。
従来の手法は主に幾何学的正則化に焦点を当てており、プリミティブベースのフレームワークやデュアルモデルフレームワークを含む一般的なアプローチがある。
本稿では,高画質表面再構成を実現するために,適応正規化を利用した統一モデルであるCarGSを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:51:38 GMT)
FaceShot: Bring Any Character into Life [27.0] FaceShotはトレーニングなしのポートレートアニメーションフレームワークで、任意のキャラクターを、微調整やリトレーニングをすることなく、駆動ビデオから生き返らせるように設計されている。
我々は、外観誘導型ランドマークマッチングモジュールと座標に基づくランドマークマッチングモジュールからロバストなランドマークシーケンスを提供することにより、これを実現する。
この強力な一般化機能により、FaceShotはポートレートアニメーションの応用を大幅に拡張できる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:35:57 GMT)
MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems [26.5] MoE-CAPはスパースMoEシステムを評価するためのベンチマーク手法である。
主なイノベーションは、コスト、パフォーマンス、精度のメトリクスを単一のダイアグラムに統合した、疎結合対応のCAP分析モデルである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:40:03 GMT)
How Diversely Can Language Models Solve Problems? Exploring the Algorithmic Diversity of Model-Generated Code [26.3] 言語モデル(LM)は、自然言語の要求からコードを生成する素晴らしい能力を示している。
我々は、LMが生成するコードの多様性を、コード生成能力を評価するための重要な基準として強調する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:04:58 GMT)
Image Watermarks are Removable Using Controllable Regeneration from Clean Noise [26.1] 透かし技法の重要な特徴は、様々な操作に対する頑丈さである。
本稿では,最先端の透かし手法を効果的に無効化できる透かし除去手法を提案する。
本手法は,既存の再生手法と比較して,視覚的整合性/品質の向上と透かし除去性能の向上を実現している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:07:21 GMT)
K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs [26.0] 我々は,LoRAの本質的な性質は,学習対象とスタイルの融合における拡散モデルを効果的に導くことができると論じる。
各注目層において、K-LoRAは各LoRAのTop-K要素を融合させ、どのLoRAを最適な融合に選択するかを決定する。
実験結果から,提案手法は元のLoRAが学習した主題とスタイル情報を効果的に統合することを示した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:44:06 GMT)
Generative Motion Infilling From Imprecisely Timed Keyframes [26.0] 生成プロセスの一部として制約を繰り返すことができる手法を提案する。
提案手法は,時間的制約を多様かつ現実的な動作に自動的に変換する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:54:28 GMT)
Accelerating 3D Molecule Generation via Jointly Geometric Optimal Transport [25.9] 本稿では,高速かつ効率的な3次元分子生成のための新しい3次元分子生成フレームワークGOATを提案する。
基本分布と対象データ分布の間の多モード特徴をマッピングするコストを測定するための幾何輸送公式を定式化する。
GOATは幾何的最適輸送の解法を効率よく行うことができることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:10:09 GMT)
Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.7] クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,Syllabicの埋め込みを自己教師なしのSyllabicセグメンテーションから抽出し,自己教師付き学習フレームワークを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 効率的な音声言語モデリングに適した新しい音韻単位,である。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:16:05 GMT)
Automatically Improving LLM-based Verilog Generation using EDA Tool Feedback [25.6] 大きな言語モデル(LLM)は、完全に機能するHDLコードを生成するための潜在的なツールとして現れています。
電子設計自動化(EDA)ツールからのフィードバックを利用して,自作のVerilogの誤りを修正できることを評価する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 23:43:15 GMT)
Patch-wise Structural Loss for Time Series Forecasting [25.3] Patch-wise Structure (PS) Losは、パッチレベルでの時系列を比較することで、構造的アライメントを向上させるように設計されている。
PS損失は、従来のポイントワイドの損失によって見落とされた、微妙な構造上の不一致を捉えている。
ポイントワイズロスとシームレスに統合され、局所的な構造上の不整合と個々のタイムステップエラーに同時に対処する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:36:15 GMT)
X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale [25.3] 大規模言語モデル(LLM)は、英語中心の事前学習と限定的な多言語データにより、様々なNLPタスクにおいて顕著な成功を収めている。
X-ALMA**は、50の多様な言語で最高のパフォーマンスを保証するために設計されたモデルです。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:16:38 GMT)
Semi-parametric inference based on adaptively collected data [25.2] データ収集における適応性を考慮した重み付き推定式を構築した。
本研究の結果は,正常性の保持に必要な「探索可能性」の度合いを特徴づけるものである。
我々は、標準線形帯域やスパース一般化帯域を含む様々な問題に対する具体的結果を用いて、我々の一般理論を説明する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:39:59 GMT)
HiBench: Benchmarking LLMs Capability on Hierarchical Structure Reasoning [25.1] 構造推論のための既存のベンチマークは主に水平構造と座標構造に焦点を当てている。
HiBenchは、最初の構造生成から最終的な熟練度評価まで、最初のフレームワークである。
30のタスクで構成され、総クエリ数は39,519である。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:25:37 GMT)
Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.3] Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。
このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。
本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:06:16 GMT)
Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.1] 一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:38:28 GMT)
Unifying Light Field Perception with Field of Parallax [23.2] Field of Parallax (FoP) は、異なるLF表現から共通の特徴を抽出し、フレキシブルで一貫した学習支援を提供する空間場である。
LFXフレームワークを導入し、任意のLF表現をシームレスに処理し、LFマルチタスクビジョンを統一する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:59:02 GMT)
MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation [23.0] MLLMベースのモバイルアシスタントシステムであるMobAを提案する。
多面的メモリモジュールは、適応性と効率を高めるために包括的なメモリサポートを提供する。
MobBenchとAndroidArenaの実験結果は、MobAが動的GUI環境を処理し、複雑なモバイルタスクを実行する能力を示している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:34:35 GMT)
HyperFace: Generating Synthetic Face Recognition Datasets by Exploring Face Embedding Hypersphere [22.9] 顔認識データセットは、インターネットをクロールし、個人の同意なしに収集されることが多く、倫理的およびプライバシー上の懸念を提起する。
顔認識モデルをトレーニングするための合成データセットの生成は、有望な代替手段として浮上している。
我々はHyperFaceと呼ばれる新しい合成データセット生成手法を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:52:31 GMT)
Optimizing Low-Energy Carbon IIoT Systems with Quantum Algorithms: Performance Evaluation and Noise Robustness [22.9] 低エネルギーのモノのインターネット(IoT)システムは持続可能な開発に不可欠である。
我々はPennylane(QNN-P)、Qiskit(QNN-Q)、ハイブリッド量子ニューラルネットワーク(QNN-H)の3つの量子アルゴリズムを紹介する。
RODDデータセットでは、QNN-Pが0.95で、QNN-Hが0.91、QNN-Qが0.80で、QNN-Pが0.94、QNN-H 0.87、QNN-Q 0.74で最高精度を達成した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:13:11 GMT)
Steering Large Language Models between Code Execution and Textual Reasoning [22.3] テキスト推論は、数学、論理学、最適化、探索における課題を伴うタスクの解決に固有の制限がある。
OpenAI GPT Code InterpreterとAutoGenのようなマルチエージェントフレームワークは、コード生成と実行を統合するのに顕著な能力を示している。
LLMのコード/テキスト生成を良くし、顕著な改善を実現するための3つの方法を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:54:11 GMT)
Geometric Inductive Biases of Deep Networks: The Role of Data and Architecture [22.2] ニューラルネットワークの入力空間曲率が不変であることを示す。
また,GIHの結果を観察するための実験結果も提示した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:20:56 GMT)
Patient-Level Anatomy Meets Scanning-Level Physics: Personalized Federated Low-Dose CT Denoising Empowered by Large Language Model [22.2] 低線量CT(LDCT)画像は臨床的に受け入れられないノイズやアーティファクトに悩まされることが多い。
ディープラーニング(DL)はLDCT再構築において有望であり、複数のクライアントからの大規模なデータ収集を必要とし、プライバシー上の懸念を提起する。
LDCT再構成のためのSCanning- and ANatomy-level Personal Physics-Driven Federated Learning パラダイムであるSCAN-PhysFedを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:20:32 GMT)
A Survey on Ordinal Regression: Applications, Advances and Prospects [22.1] 通常の回帰は、顔の年齢推定、画像美学評価、がんのステージングなど、さまざまな分野の応用に不可欠である。
本調査では,順序回帰の進歩と応用を総合的に検討する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:10:36 GMT)
GenAnalysis: Joint Shape Analysis by Learning Man-Made Shape Generators with Deformation Regularizations [21.9] GenAnalysisは、人造形の共同解析を可能にする暗黙の形状生成フレームワークである。
本研究では,各形状の接空間における一方向アフィンベクトル場を復元し,形状変化を抽出する方法を示す。
次に,AAAP変形を中間形状列に繰り返し伝播させることにより形状対応を導出する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:17:08 GMT)
Enhancing Monocular 3D Scene Completion with Diffusion Model [20.8] 3Dシーンの再構築は、仮想現実、ロボティクス、自動運転の応用に不可欠である。
従来の3Dガウススプラッティング技術は、最適な性能を達成するために複数の視点から撮影された画像に依存している。
1枚の画像から完全な3Dシーンを再構築するための新しいアプローチであるFlashDreamerを紹介する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:36:57 GMT)
Estimating Blood Pressure with a Camera: An Exploratory Study of Ambulatory Patients with Cardiovascular Disease [20.8] 高血圧は世界中で致死率と死亡率の主要な原因である。
高血圧の診断と治療能力は、現在の血圧モニタリング法(BP)へのアクセス制限と順応性の低下によって妨げられる
リモート光胸腺撮影(r)は、物理的接触のない標準的なカメラを通して個人の波形を評価する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:24:50 GMT)
STAR-Edge: Structure-aware Local Spherical Curve Representation for Thin-walled Edge Extraction from Unstructured Point Clouds [20.5] 薄肉構造体におけるエッジ点の検出と精錬のための新しいアプローチであるSTAR-Edgeを紹介する。
提案手法は, 局所球面曲線のユニークな表現を活用し, 構造認識近傍を創出する。
ABCデータセットと薄肉構造特化データセットで実施された実験は、STAR-Edgeが既存のエッジ検出方法より優れていることを示した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:51:13 GMT)
Examining Alignment of Large Language Models through Representative Heuristics: The Case of Political Stereotypes [20.4] 本研究では,大規模言語モデル(LLM)と人的価値との整合性を検討した。
政治問題に関する実証的な立場からLLMの逸脱に寄与する要因を分析した。
LLMは特定の政党の立場を模倣できるが、人間の調査回答者よりもこれらの立場を誇張することが多い。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:49:21 GMT)
Towards Understanding the Universality of Transformers for Next-Token Prediction [20.3] 因果変換器は、与えられたコンテキストに対して次のトークンを予測するように訓練される。
我々は,この現象を次々に予測するトランスフォーマーの近似能力について研究することで理解する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:17:22 GMT)
Rethinking Light Decoder-based Solvers for Vehicle Routing Problems [20.2] 光デコーダをベースとした解法は、車両のルーティング問題を解決することで人気を博している。
彼らはしばしば、より大きな問題インスタンスや異なるVRPの変種への一般化に苦労する。
本稿では,光デコーダに基づくアプローチを再検討し,静的埋め込みへの依存度を解析する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:13:00 GMT)
Explainable Classifier for Malignant Lymphoma Subtyping via Cell Graph and Image Fusion [20.0] 本研究では,全スライド画像(WSI)からサブタイプ固有の関心領域を識別する,説明可能な多インスタンス学習フレームワークを提案する。
本フレームワークは,(1)各サブタイプごとに適切なROIを示すこと,(2)特徴細胞の頻度と空間分布を説明すること,(3)高精度なサブタイピングを実現すること,の3つの目的に同時に対処する。
1,233 WSIのデータセットを用いた実験により,提案手法は10種類の手法で最先端の精度を達成し,領域レベルの説明とセルレベルの説明を提供することを示した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:04:10 GMT)
High-Resolution Image Synthesis via Next-Token Prediction [20.0] 連続トークンに基づく自己回帰モデルである textbfD-JEPA$cdot$T2I を導入し、任意の解像度で高品質なフォトリアリスティック画像を最大4Kで生成する。
次世代の予測により,最先端の高精細画像合成を実現する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:53:47 GMT)
Argument Summarization and its Evaluation in the Era of Large Language Models [19.9] 大規模言語モデル(LLM)は、Argument Summarization(ArgSum)を含む様々な自然言語生成(NLG)タスクに革命をもたらした。
本稿では,ArgSum への最先端 LLM の統合について検討し,その評価を行った。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:49:10 GMT)
Prompting Fairness: Integrating Causality to Debias Large Language Models [19.8] 大規模言語モデル(LLM)は偏見や差別的な反応を生じさせる可能性がある。
社会的偏見に対処するための因果性誘導型脱バイアスフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:33:03 GMT)
Underdamped Diffusion Bridges with Applications to Sampling [19.7] 対象分布に先立って輸送する拡散ブリッジを学習するための一般的なフレームワークを提供する。
本手法は, 対象分布からサンプルにアクセスすることなく, 正規化されていない密度からサンプルを抽出する難題に適用する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:22:09 GMT)
Modern Hopfield Networks with Continuous-Time Memories [19.6] 本稿では,大規模な離散ホップフィールドメモリを小さな連続記憶に圧縮する手法を提案する。
作業記憶における連続的資源割り当ての心理学的理論に着想を得て,大規模な離散ホップフィールド記憶を小さな連続記憶に圧縮する手法を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:06:12 GMT)
Mixture-of-Subspaces in Low-Rank Adaptation [19.4] 計算効率が高く,実装が容易で,大規模言語,マルチモーダル,拡散モデルにも容易に適用可能なサブスペースインスパイアされたローランド適応法(LoRA)を提案する。
より柔軟にするために、元のLoRA重みとミキサーを併用して学習し、Mixture-of-Subspaces LoRAと呼ぶ。
MoSLoRAは、コモンセンス推論、ビジュアルインストラクションチューニング、主観駆動のテキスト・ツー・イメージ生成など、異なるモードのタスクでLoRAを一貫して上回っている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:40:16 GMT)
Federated Conversational Recommender System [19.1] きめ細かいユーザーの好みは、漏れたり漏れたりした場合に、ユーザーの機密情報を推測するのに簡単に使える。
本稿では,ユーザプライバシを公開するリスクを効果的に低減する,新しい会話推薦フレームワークを提案する。
提案手法は,これらのユーザプライバシ保護ガイドラインを満たすだけでなく,競争力のあるレコメンデーション性能を達成できることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 19:39:29 GMT)
SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.8] 現在の大規模言語モデル(LLM)ベースのソフトウェアエージェントは、しばしば線形でシーケンシャルなプロセスに従う。
モンテカルロ木探索(MCTS)と自己改善機構を統合したマルチエージェントフレームワークであるSWE-Searchを提案する。
これは、複雑なソフトウェアエンジニアリング環境における自己評価駆動検索技術の可能性を強調している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 19:42:45 GMT)
On Theoretical Limits of Learning with Label Differential Privacy [18.8] 本研究では,局所モデルと中央モデルの両方において,ラベルDPを用いた学習の基本的な限界について検討する。
以上の結果から, ラベルローカルDPでは, 完全DPより有意に早く収束する可能性が示唆された。
対照的に、ラベル中央DPでは、リスクはフルDPに比べて一定の要因によってのみ減少する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:04:35 GMT)
HiMo: High-Speed Objects Motion Compensation in Point Clouds [18.6] 我々は、ポイントクラウドの歪みの根底にある理由を特徴付け、これがパブリックデータセットに存在することを示す。
物体の動き補償にシーンフロー推定を利用する新しいパイプラインHiMoを導入する。
また, 文献に確固とした運動歪み指標が欠如していることから, 補償性能評価のための2つの指標を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:55:12 GMT)
ConFit v2: Improving Resume-Job Matching using Hypothetical Resume Embedding and Runner-Up Hard-Negative Mining [18.4] ConFit v2は、分散問題に対処するためのConFitの改善である。
本稿では,エンコーダのコントラスト学習プロセスを強化するための2つの手法を提案する。
実世界の2つのデータセット上でConFit v2を評価し、ConFitおよび先行手法よりも優れていることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 22:19:39 GMT)
MAPS: Multi-Fidelity AI-Augmented Photonic Simulation and Inverse Design Infrastructure [18.2] 逆設計はフォトニックデバイス最適化の変換手法として登場した。
我々は,多要素AIによるフォトニックシミュレーションと逆設計基盤であるMAPSを紹介する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 22:30:18 GMT)
Molecule Generation for Target Protein Binding with Hierarchical Consistency Diffusion Model [17.9] Atom-Motif Consistency Diffusion Model (AMDiff)は、分子の原子レベルのビューとモチーフレベルのビューを統合する階層的な拡散アーキテクチャである。
既存のアプローチと比較して、AMDiffは様々なタンパク質ポケットに適合するように調整された分子の生成において、優れた妥当性と新規性を示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:54:30 GMT)
Revisiting CAD Model Generation by Learning Raster Sketch [17.9] 本稿では,ラースタースケッチとCADモデルの3次元押出形を生成する新しいフレームワークであるRECADを紹介する。
2つの拡散ネットワークを組み合わせることで、RECADはスケッチ・アンド・エクストルードCADモデルを効果的に生成する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:11:35 GMT)
Evaluating Personalized Tool-Augmented LLMs from the Perspectives of Personalization and Proactivity [17.7] 我々は、パーソナライズされたツール呼び出しを評価するための新しいベンチマークETAPPを紹介する。
評価精度を向上させるために,キーポイントに基づく評価手法を提案する。
好み設定とキーポイントに基づく評価手法の有効性も検証した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:36:22 GMT)
Empathy Level Alignment via Reinforcement Learning for Empathetic Response Generation [17.2] 強化学習(EmpRL)を用いた共感応答生成フレームワークを提案する。
本フレームワークは、効果的な共感報酬機能を開発し、強化学習により期待される報酬を最大化することにより共感応答を生成する。
自動評価と人的評価は、提案したEmpRLフレームワークが生成した応答の質を大幅に向上することを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:30:58 GMT)
Range and Angle Estimation with Spiking Neural Resonators for FMCW Radar [16.9] 自動車レーダーシステムは、高いサンプリングレートと大規模なデータ帯域幅を管理するという課題に直面している。
ニューロモルフィックコンピューティングは、その固有のエネルギー効率と並列処理能力のために、有望なソリューションを提供する。
本研究では、周波数変調連続波レーダ(FMCW)の信号処理のための新しいスパイキングニューロンモデルを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:51:03 GMT)
Dur360BEV: A Real-world Single 360-degree Camera Dataset and Benchmark for Bird-Eye View Mapping in Autonomous Driving [16.8] 我々は,高解像度の128チャンネル3D LiDARを備えた新しい球面カメラ自律走行データセットであるDur360BEVを提案する。
このデータセットとベンチマークは、単一球面カメラのみを使用したBird-Eye-View(BEV)マップの課題に対処する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:40:50 GMT)
MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning [16.7] 重み行列の小さな特異成分のみを更新する単純なLLM微調整手法であるMiLoRAを提案する。
主行列は重要な知識を含むのに対し、マイナー行列はノイズ情報またはロングテール情報に対応することが観察された。
微調整の間、MiLoRAはラベル付きデータセットを学習するために最適化されていないサブスペースを最大限に活用する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:45:56 GMT)
An Exact Solver for Satisfiability Modulo Counting with Probabilistic Circuits [16.6] SMC (Satifiability Modulo Counting) は、最近提案された一般言語である。
我々は,確率的推論プロセスにおいて,下界と上界を効率的に追跡する正確なSMC解法であるKOCO-SMCを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:28:20 GMT)
Toward Stable and Consistent Evaluation Results: A New Methodology for Base Model Evaluation [16.2] 事前トレーニングの初期段階では、ベースモデルには質問に答える能力がない。
ベースモデルとインストラクトモデルとの整合性:ベースモデルでは、対応するインストラクトモデルと比較して評価性能が劣っている。
本稿では,ベースモデルの評価を最適化する手法として,ベースモデル指向システム評価(BOSE)を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:38:12 GMT)
WalnutData: A UAV Remote Sensing Dataset of Green Walnuts and Model Evaluation [16.2] 農業コンピュータービジョンの分野では、緑のクルミに関連するデータセットは存在しない。
我々はUAVを用いて、8つのクルミサンプルプロットからリモートセンシングデータを収集した。
このデータセットには合計30,240イメージと706,208インスタンスが含まれている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:56:15 GMT)
Data-adaptive Differentially Private Prompt Synthesis for In-Context Learning [16.0] 大規模言語モデル(LLM)は、実例やデモに埋め込まれた文脈情報に依存して、文脈内学習(ICL)を行う。
我々は、AdaDPSynと呼ばれる新しいデータ適応微分プライベートアルゴリズムを導入し、プライベートデータセットから合成例を生成する。
AdaDPSynは、データ固有の統計特性に応じて、データ合成機構のノイズレベルを適応的に調整する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:29:15 GMT)
Machine Learning for Health symposium 2024 -- Findings track [15.6] 第4回機械学習・フォー・ヘルスシンポジウム(ML4H 2024)は2024年12月15日から16日にかけてカナダのバンクーバーで開催された。
ML4H 2024は、医療、バイオメディシン、公衆衛生など、様々な健康関連分野における革新的な研究を説明する高品質な申請を招待した。
Proceedingsのトラックは、技術的洗練と健康への高い影響を伴う成熟した密集した作品をターゲットにしている。
Findingsのトラックでは、ML4Hでの新たな洞察、コラボレーション、議論を呼び起こす作業が進められている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 18:47:05 GMT)
GPIoT: Tailoring Small Language Models for IoT Program Synthesis and Development [15.1] GPIoTは、ローカルにデプロイ可能なSLM(Small Language Models)を微調整することで、IoTアプリケーションのためのコード生成システムである。
GPIoTは、IoT専用データセット上にローカルにデプロイ可能なSLM(Small Language Models)を微調整することで、IoTアプリケーションのためのコード生成システムである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 01:55:40 GMT)
Unveiling Biases while Embracing Sustainability: Assessing the Dual Challenges of Automatic Speech Recognition Systems [15.0] 本稿では,自動音声認識(ASR)システム,すなわちWhisperとMassively Multilingual Speech(MMS)のバイアスと持続可能性に着目した検討を行う。
我々は、性別、アクセント、年齢グループに対するASRバイアスと、下流タスクに対するそれらの影響を分析する。
さらに,ASRシステムの環境影響について検討し,炭素排出量とエネルギー消費に対する大規模音響モデルの適用について検討した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:17:11 GMT)
Inference to the Best Explanation in Large Language Models [14.8] Inference to the Best Explanation (IBE) に関する哲学的な記述から着想を得た IBE-Eval を提案する。
IBE-Evalは、明示的な論理的特徴と言語的特徴を組み合わせることで、自然言語の説明の妥当性を推定する。
実験の結果、IBE-Evalは77%の精度で最良の説明を特定できることがわかった。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:33:20 GMT)
Tracking objects that change in appearance with phase synchrony [14.8] ニューラルシンクロニーにより,新たな深層学習回路が,世界の場所から別々に注意を制御できることが示される。
ヒト、CV-RNNおよび他のディープニューラルネットワーク(DNN)における物体追跡の比較
我々のCV-RNNは、この課題において人間と同じような振る舞いをし、相同期の役割の計算的概念実証を提供する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:04:22 GMT)
Bridging Spectral-wise and Multi-spectral Depth Estimation via Geometry-guided Contrastive Learning [14.8] マルチスペクトル画像からの深度推定のために,アライメント・アンド・フューズ・ストラテジーという効果的な解を提案する。
提案手法に基づいて,スペクトル不変および多スペクトル融合深度推定の両方を単一深度ネットワークで行うことができる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:45:58 GMT)
InstructRAG: Instructing Retrieval-Augmented Generation via Self-Synthesized Rationales [14.7] InstructRAGを提案する。そこでは、LMが自己合成的理性を通して認知過程を明示的に学習する。
インストラクションRAGは追加の監視を必要としないため、予測された回答の検証が容易になる。
実験によると、InstructRAGはトレーニング不要とトレーニング可能な両方のシナリオにおいて、既存のRAGメソッドを一貫して上回っている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:46:31 GMT)
Layered Insights: Generalizable Analysis of Authorial Style by Leveraging All Transformer Layers [14.6] 本稿では,事前学習したトランスフォーマーモデルの各層で学習した様々な言語表現を活用する,著者帰属タスクのための新しいアプローチを提案する。
我々は、ドメイン内およびドメイン外シナリオにおける最先端のベースラインと比較し、3つのデータセットに対するアプローチを評価した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:47:31 GMT)
Breaking the Reclustering Barrier in Centroid-based Deep Clustering [14.5] 本研究は,Centroid-based Deep Clustering (DC)アルゴリズムにおける重要な現象について考察する。
我々はこの現象を「再クラスタ化障壁」と呼び、再クラスタ化障壁が発生した時に経験的に示す。
このアルゴリズムを広く使われているDCアルゴリズムに適用すると、(1)BRBはクラスタリングベンチマークの幅広い範囲で一貫して性能を向上し、(2)BRBはスクラッチからのトレーニングを可能にし、(3)BRBは対照的な損失と組み合わせることで、最先端のDCアルゴリズムに対して競争力を発揮する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:48:40 GMT)
RAIFLE: Reconstruction Attacks on Interaction-based Federated Learning with Adversarial Data Manipulation [14.4] 利用者は、中央サーバでプライベートなインタラクションを再構築するリスクが高くなる。
我々は、新しい最適化ベースの攻撃フレームワークであるRAIFLEを紹介する。
本実験は, RAIFLEが既存の再建攻撃よりもはるかに強力であることを示すものである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 01:04:33 GMT)
CBraMod: A Criss-Cross Brain Foundation Model for EEG Decoding [14.3] 初期のEEG復号法は教師付き学習に依存しており、特定のタスクやデータセットによって制限され、モデルの性能と一般化性を妨げる。
本稿では,空間的依存と時間的依存を別々にモデル化できるCBraModという新しい基礎モデルを提案する。
CBraModは、幅広いタスクにまたがって最先端のパフォーマンスを実現し、その強力な能力と一般化可能性を証明する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 03:13:54 GMT)
MR-EIT: Multi-Resolution Reconstruction for Electrical Impedance Tomography via Data-Driven and Unsupervised Dual-Mode Neural Networks [14.3] 電気インピーダンストモグラフィ(EIT)の多分解能再構成法を提案する。
教師なしと教師なしの両方の学習モードで操作できる。
MR-EITは構造類似性(SSIM)と相対画像誤差(RIE)で比較法より優れていることを示す実験結果を得た。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:06:42 GMT)
Delving into Out-of-Distribution Detection with Medical Vision-Language Models [14.3] 医用視覚言語モデルのOOD検出能に関する最初の系統的研究を行った。
実世界の課題を正確に反映するために,フルスペクトルOOD検出のためのクロスモーダル評価ベンチマークパイプラインを導入する。
OOD検出性能を大幅に向上させる新しい階層的プロンプトベース手法を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 21:09:51 GMT)
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations [14.0] 医療データに適した統合型ビジョンランゲージ事前学習フレームワークであるMedUnifierを提案する。
MedUnifierはテキスト基底画像生成機能とマルチモーダル学習戦略をシームレスに統合する。
本手法では, 視覚ベクトル量子化を用いて, クロスモーダル理解のためのより密着的な学習戦略を実現するとともに, マルチモーダル生成品質を向上させる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 21:09:32 GMT)
Tri-Clustering: A Multi-views Tri-level Information Fusion Context Clustering Framework for Localization and Classification in Mammography [13.6] マンモグラフィー画像は通常、非常に高解像度で、病変はごく小さな領域のみを占める。
ニューラルネットワークのダウンサンプリングは、マイクロ石灰化や微妙な構造が失われることを容易に引き起こす。
本稿では,三重情報融合を用いたコンテキストクラスタリングネットワークを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:27:04 GMT)
Towards Robust Algorithms for Surgical Phase Recognition via Digital Twin Representation [13.4] ビデオからの位相認識のためのDT表現に基づくフレームワークを提案する。
フレームワークはColec80データセットに基づいてトレーニングされ、配布外および破損したテストサンプルに基づいて評価される。
本研究は,DT表現がモデルロバスト性の向上に有効であるという仮説を支持した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:45:56 GMT)
Improving the Transferability of Adversarial Attacks by an Input Transpose [13.0] 本研究では, 計算コストをほとんど必要とせず, 既存の敵戦略の転送性を大幅に向上させることができる入力変換手法を提案する。
我々の調査では、特定のデータセットでは、わずか1円の左回転か右回転で、ほとんどの敵対的な例が目に見えないモデルを欺くのに十分であることがわかった。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:13:41 GMT)
Dist Loss: Enhancing Regression in Few-Shot Region through Distribution Distance Constraint [12.8] Dist Lossは、モデルとターゲットラベルの間の分布距離を最小限に抑えるために設計された損失関数である。
コンピュータビジョンとヘルスケアにまたがる3つのデータセットを対象に実験を行った。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:23:51 GMT)
L-WISE: Boosting Human Visual Category Learning Through Model-Based Image Selection And Enhancement [12.5] 画像の摂動は、人間が真実のクラスを正確に報告する能力を高めることができることを示す。
本研究では,人間の視覚的学習を,テスト時に人間の分類精度を向上させる方法で強化することを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:21:27 GMT)
DartControl: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control [12.5] テキスト条件付きヒューマンモーション生成は、自然言語によるユーザインタラクションを可能にする。
DartControlは、リアルタイムテキスト駆動モーションコントロールのための拡散ベースの自動回帰モーションプリミティブモデルである。
本モデルは,動作履歴とテキスト入力を併用したコンパクトな動き原始空間を効果的に学習する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:58:06 GMT)
Greener GRASS: Enhancing GNNs with Encoding, Rewiring, and Attention [12.4] 本稿では,新しいGNNアーキテクチャであるGraph Attention with Structures (GRASS)を紹介する。
GRASSはランダムな正規グラフを重畳して入力グラフをリワイヤし、長距離情報伝搬を実現する。
また、グラフ構造化データに適した新しい付加的注意機構も採用している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:37:49 GMT)
Simulating quantum instruments with projective measurements and quantum post-processing [12.1] 楽器のシミュラビリティは, 絡み合いの分類問題に接続可能であることを示す。
これにより、汎用機器のシミュレーションやキュービットの完全なキャラクタリゼーションに計算的に効率的な必要条件が導かれる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:31:03 GMT)
Fréchet Wavelet Distance: A Domain-Agnostic Metric for Image Generation [12.0] We propose the Fr'echet Wavelet Distance (FWD) as a domain-agnostic metric based on the Wavelet Packet Transform ($W_p$)。
FWDは高解像度の画像の広い周波数帯を視認し、空間的側面とテクスチャ的側面の両方を保存する。
このメトリクスは、トレーニング済みのネットワークに依存しないので、汎用的でデータセットドメインに依存しない。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 18:36:56 GMT)
Multi-Cali Anything: Dense Feature Multi-Frame Structure-from-Motion for Large-Scale Camera Array Calibration [12.0] 大規模カメラアレイの校正には時間を要するため、既知のパターンを専用のキャプチャーする必要がある。
本研究では,シーンデータから直接内在性を洗練する多フレームキャリブレーション手法を提案する。
本手法は, 専用キャリブレーション法とほぼ同等の精度を実現し, 内在性および3次元再構成精度を大幅に向上させる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:25:17 GMT)
Enhancing Text Editing for Grammatical Error Correction: Arabic as a Case Study [12.0] データから直接編集タグを導出するテキスト編集手法を導入し、言語固有の編集の必要性を排除した。
我々はその効果をアラビア語、古典的、形態学的に豊かな言語で実証し、異なる編集表現がモデル性能に与える影響について検討する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 18:48:50 GMT)
Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction [11.8] インストラクション・オブ・リフレクション(英: Instruct-of-Reflection、IoRT)は、大規模言語モデル(LLM)の反復的リフレクション能力を高めるために動的メタ命令を活用する、新しく一般的なリフレクションフレームワークである。
実験の結果、IoRTは数学的および常識的推論タスクにおいて、確立されたベースラインよりも平均10.1%向上していることがわかった。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:02:03 GMT)
Heterogeneous Graph Neural Network on Semantic Tree [11.8] HetTreeは、グラフ構造とヘテロジニアスの両方をスケーラブルで効果的な方法でモデル化する、新しいHGNNである。
セマンティックツリーを効果的にエンコードするために、HetTreeは、親子関係をエンコードするのに役立つメタパスを強調するために、新しいサブツリーアテンションメカニズムを使用している。
さまざまな実世界のデータセット上でのHetTreeの評価は、既存のすべてのベースラインをオープンベンチマークで上回っていることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 22:34:01 GMT)
Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model Reasoning [11.8] Derailer-Rerailerは推論精度と計算効率のバランスをとる新しいフレームワークである。
提案手法は,従来の検証手法に比べて2~3倍の効率を維持しつつ,大幅な精度向上(8~11%)を実現している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:11:13 GMT)
Unleashing the Potential of Vision-Language Pre-Training for 3D Zero-Shot Lesion Segmentation via Mask-Attribute Alignment [11.7] Maleniaは、新しいマルチスケールの病変レベルのマスク属性アライメントフレームワークである。
3次元ゼロショット病変セグメンテーション用に特別に設計されている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:58:17 GMT)
How Discrete and Continuous Diffusion Meet: Comprehensive Analysis of Discrete Diffusion Models via a Stochastic Integral Framework [11.7] L'evy型積分に基づく離散拡散モデルの誤差解析のための包括的フレームワークを提案する。
我々のフレームワークは、離散拡散モデルにおける現在の理論結果を統一し、強化する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:27:46 GMT)
StochSync: Stochastic Diffusion Synchronization for Image Generation in Arbitrary Spaces [11.5] 本稿では,事前学習した画像拡散モデルを用いて任意の空間で画像を生成する手法を提案する。
ゼロショット法は、画像条件付けと3Dメッシュ法の両方の長所を組み合わせたものである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:16:08 GMT)
ALinFiK: Learning to Approximate Linearized Future Influence Kernel for Scalable Third-Parity LLM Data Valuation [11.4] 大規模言語モデル(LLM)は、高品質なトレーニングデータに大きく依存しているため、モデルパフォーマンスの最適化にデータバリュエーションが不可欠である。
個々のデータサンプルの値を評価する線形化後の影響カーネル(LinFiK)を導入する。
我々は、LinFiKを近似する学習戦略であるALinFiKを提案し、スケーラブルなデータバリュエーションを実現する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 22:51:12 GMT)
PCART: Automated Repair of Python API Parameter Compatibility Issues [11.4] Pythonのサードパーティライブラリは、特にディープラーニングや科学計算といった分野において、重要な役割を担っている。
これらのライブラリのAPIパラメータは進化の過程でしばしば変化し、特定のバージョンに依存したクライアントアプリケーションの互換性の問題を引き起こす。
Python APIパラメータの互換性問題を自動的に検出し、修正するツールは存在しない。
PCARTは、API抽出、コードインスツルメンテーション、APIマッピング確立、互換性評価、修復、バリデーションのプロセスを完全に自動化する最初のソリューションである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:21:40 GMT)
End-to-End Modeling Hierarchical Time Series Using Autoregressive Transformer and Conditional Normalizing Flow based Reconciliation [11.3] 本研究では, 条件付き正規化フローベース自己回帰変換器の整合に基づく, 終端から終端までの時系列予測モデルを提案する。
他の最先端手法とは異なり、明示的な後処理ステップを必要とせずに予測と和解を同時に達成する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:52:11 GMT)
Distributed Speculative Inference (DSI): Speculation Parallelism for Provably Faster Lossless Language Model Inference [11.3] 本稿では,分散投機推論(DSI)を導入し,投機推論(SI)よりも確実に高速な新しい推論アルゴリズムを提案する。
DSIはフリーズ言語モデル(LM)で動作し、トレーニングやアーキテクチャの変更を必要としない。
シミュレーションの結果,DSI は SI よりも 1.29-1.92 倍高速であることがわかった。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 18:24:29 GMT)
Variance reduction in output from generative AI [11.2] 我々は、生成型AIモデルが本質的に「平均への回帰」現象を起こしやすいことを実証した。
本研究は, この現象の社会的意味を, 社会的・集団的・個人的・2次元的・物質的・非物質的な3段階にわたって論じる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 21:34:10 GMT)
Random Walks in Self-supervised Learning for Triangular Meshes [11.2] 本研究では,3次元メッシュ解析における自己教師型学習の課題に対処する。
データ拡張の形でランダムウォークを使用して、メッシュ表面のさまざまな表現を生成する。
コントラストとクラスタリングの損失を兼ね備えている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:45:06 GMT)
Confounder-Aware Medical Data Selection for Fine-Tuning Pretrained Vision Models [11.1] 医用データセットキュレーションのための共同設立者対応医療データ選択手法を提案する。
提案手法は,まずデータ内の変数を識別し,距離に基づくデータ選択戦略を開発する。
多様な医用画像モダリティの広範な実験を通じて,アプローチの優位性を検証した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:50:25 GMT)
QCS-ADME: Quantum Circuit Search for Drug Property Prediction with Imbalanced Data and Regression Adaptation [11.1] 不均衡な分類と回帰タスクにおけるQML回路性能を評価するための新しい学習自由スコアリング機構を提案する。
本機構は,不均衡な分類タスクにおける評価基準と試験性能の有意な相関を示す。
これは、回帰アプリケーションに特化してQCS回路を探索し評価する最初の包括的アプローチである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 19:29:04 GMT)
FunBench: Benchmarking Fundus Reading Skills of MLLMs [11.1] MLLM(Multimodal Large Language Models)は、医療画像解析において重要な可能性を示している。
既存のベンチマークには細かなタスク分割がなく、その2つの主要なモジュール、すなわち大きな言語モデル(LLM)と視覚エンコーダ(VE)のモジュラー解析が提供できない。
本稿では,MLLMの知識を総合的に評価するための新しい視覚的質問応答(VQA)ベンチマークであるFunBenchを紹介する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:00:24 GMT)
Improving vision-language alignment with graph spiking hybrid Networks [10.9] 本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。
視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:22:57 GMT)
Short Paper: Atomic Execution is Not Enough for Arbitrage Profit Extraction in Shared Sequencers [10.7] 本研究では、2つの定積マーケッター流動性プールにおける原子的実行下での仲裁利益を評価するモデルを開発する。
我々はまた、原子性が損失につながるかもしれないいくつかのシナリオについて議論し、なぜ原子性の実行が、共有シークエンシングを採用するために仲裁やロールアップを納得させるのに十分でないのかについての洞察を提供する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:13:52 GMT)
On the Asymptotic Mean Square Error Optimality of Diffusion Models [10.7] 生成前駆体としての拡散モデル(DM)は近年,タスクを認知する大きな可能性を示している。
本稿では, MSE-Optimal Conditional mean (CME) の構造から着想を得た新しい認知戦略を提案する。
結果のDMベースのデノイザは、トレーニング済みのDMを用いて便利に使用することができ、特に逆拡散ステップをトラッピングすることで高速である。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:59:52 GMT)
GP-GS: Gaussian Processes for Enhanced Gaussian Splatting [10.5] 本稿では,スパースSfM点雲の適応的および不確実性誘導密度化を実現する新しい3次元再構成フレームワークを提案する。
このパイプラインは不確実性推定を利用して、高分散予測のプルーニングを導く。
合成および実世界のデータセットで行った実験は、提案フレームワークの有効性と実用性を検証する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:25:45 GMT)
Predictive Uncertainty Quantification for Bird's Eye View Segmentation: A Benchmark and Novel Loss Function [10.2] 本稿では,Bird's Eye View (BEV)セグメンテーションにおける予測不確実性定量化のためのベンチマークを提案する。
本研究は,非分類および非分布画素の検出における定量化不確実性の有効性に焦点をあてる。
本研究では,不均衡なデータに特化して設計された新しい損失関数Uncertainty-Focal-Cross-Entropy (UFCE)を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:46:05 GMT)
Efficient Automated Circuit Discovery in Transformers using Contextual Decomposition [10.1] 大規模言語モデルで解釈可能な回路を構築するために,変換器 (CD-T) のコンテキスト分解を導入する。
CD-Tは任意のレベルの抽象化の回路を生成でき、アテンションヘッドと同じくらいきめ細かな回路を最初に生成できる。
CD-T回路は、全てのタスクのベースラインよりも少ないノードで、オリジナルのモデルの動作を完璧に再現できることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:26:23 GMT)
Graph Attention Networks Unleashed: A Fast and Explainable Vulnerability Assessment Framework for Microgrids [10.0] 独立したマイクログリッドは、孤立した島や戦場での戦闘のようなシナリオにおいて、分散型エネルギー資源と負荷を組み合わせることで、電力供給に不可欠である。
従来のモンテカルロシミュレーション(MCS)法は計算に高価で時間を要する。
本研究では,自己注意プールにより強化されたグラフアテンションネットワークとMCSを統合した,高速かつ説明可能な脆弱性評価フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:31:27 GMT)
Characterizing the Distinguishability of Product Distributions through Multicalibration [9.7] 我々は、$X_0otimes k$と$X_1otimes k$を効率的に区別するために必要となるサンプル数$k$の新しい厳密な特徴を証明した。
私たちのフレームワークは、Halevi と Rabin (TCC 2008) と Geier (TCC 2022) の結果を導出するのに使用できます。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 01:35:01 GMT)
From Poses to Identity: Training-Free Person Re-Identification via Feature Centralization [9.6] 人物再識別(ReID)は、正確な識別表現の特徴を抽出することを目的としている。
個人ノイズを低減するための訓練自由特徴集中型ReIDフレームワーク(Pose2ID)を提案する。
提案手法は, 標準, クロスモダリティ, 隠蔽されたReIDタスクにまたがって, 最先端の新たな結果を設定する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:31:48 GMT)
Minimax Optimal Reinforcement Learning with Quasi-Optimism [9.4] EQO (Exploration via Quasi-Optimism) を新しいタイプの強化学習アルゴリズムとして導入する。
経験的分散への依存を回避し、国家行動訪問数の逆数に比例する単純なボーナス項を用いる。
性能と計算効率の両面で、既存のアルゴリズムを一貫して上回っている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:32:06 GMT)
Improved Regret of Linear Ensemble Sampling [9.4] アンサンブルサイズを$T$とすると、線形アンサンブルサンプリングは$tildemathcalO(d3/2sqrtT)$の頻繁な残差を達成できる。
我々の貢献は、アンサンブルサンプリングの理論的な基礎を前進させ、他のランダム化探索アルゴリズムの最もよく知られた境界と一致させた。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:41:00 GMT)
EMT: A Visual Multi-Task Benchmark Dataset for Autonomous Driving in the Arab Gulf Region [9.4] Emirates Multi-Taskデータセットは、アラビア湾地域で収集された自動運転のための最初の公開データセットである。
ダッシュカメラの見地から3万枚以上のフレームと、約150kmの走行ルートをカバーする570,000個の注釈付きバウンディングボックスを含んでいる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:08:34 GMT)
Quality-Driven Curation of Remote Sensing Vision-Language Data via Learned Scoring Models [9.2] 自動品質評価のための大規模RS視覚言語嗜好データに基づいて学習した新しいスコアモデルを提案する。
実験結果から, スコアモデルでランク付けされたデータのうち, 上位30%の高精度なCLIPや高度なVLMが, より優れた解釈精度を実現することが示された。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:44:56 GMT)
Dynamic Gradient Sparsification Training for Few-Shot Fine-tuning of CT Lymph Node Segmentation Foundation Model [9.2] リンパ節セグメンテーション(LN)は放射線治療や予後解析において重要であるが、大きな注釈付きデータセットの必要性によって制限されている。
本研究では,3,346個の頭頸部CTスキャンから36,106個の可視性LNを注釈し,ロバストなLNセグメンテーションモデル(nnUNetv2)を構築した。
我々は,LNセグメンテーションモデルの最も重要なパラメータをほとんどアノテーションで動的に更新しながら,基礎知識を保った数発の微調整手法である動的グラディエントスパシフィケーショントレーニング(DGST)を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:02:34 GMT)
Towards hyperparameter-free optimization with differential privacy [9.2] 差分プライバシー(DP)は、ディープラーニングモデルをトレーニングする際のトレーニングデータを保護するプライバシー保護パラダイムである。
本研究では,任意のモデルを対象としたDP最適化に自動学習率スケジュールを適用し,各種言語および視覚タスクにおける最先端のDP性能を実現する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:59:52 GMT)
Geodesic Diffusion Models for Medical Image-to-Image Generation [8.9] 拡散モデルは、ノイズを加えることによって未知のデータ分布をガウスに変換する。
その後、デノイザーはこの過程を逆転させ、ランダムなガウスノイズから高品質なサンプルを生成する。
標準拡散モデルは、確率空間における測地経路を保証しない。
本稿では,分散拡散型ノイズスケジューラを用いた測地線経路をフィッシャー・ラオ計量の下で定義する測地線拡散モデルを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:57:51 GMT)
Improve Representation for Imbalanced Regression through Geometric Constraints [8.9] 2つの主要な損失を通じて不均衡な回帰のために、潜伏空間における均一性を確保することに注力する。
包み込み損失は、誘導されたトレースがハイパースフィアの表面を均一に占有するのを促進し、均質性損失は滑らかさを保証する。
本手法は,これらの幾何学的原理をSurrogate-driven Representation Learningフレームワークを介してデータ表現に統合する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:31:34 GMT)
Transformer Based Self-Context Aware Prediction for Few-Shot Anomaly Detection in Videos [8.8] 本稿では,自己コンテキストを意識したビデオにおける異常検出のための,一級数ショット学習駆動型トランスフォーマ方式を提案する。
ビデオの最初の数個の非非正則フレームの特徴は、後続のフレームの非正則な特徴を予測するための変圧器の訓練に使用される。
学習後、いくつかの前のフレームが与えられた後、ビデオ固有変換器は、フレームが異常であるか否かを、そのフレームによって予測される特徴と実際の特徴とを比較して推測する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:07:49 GMT)
NCF: Neural Correspondence Field for Medical Image Registration [8.6] 本研究では,1つのデータペアから学習できる学習データフリー学習手法であるNeural Cor correspondingence Field(NCF)を提案する。
提案手法では,コンパクトニューラルネットワークを用いて対応フィールドをモデル化し,各画像ペアのモデルパラメータを最適化する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:55:49 GMT)
Towards Refining Developer Questions using LLM-Based Named Entity Recognition for Developer Chatroom Conversations [8.4] ソフトウェアエンジニアリングのチャットルームでは、コミュニケーションは答えられない不正確な質問によって妨げられることが多い。
SENIR(Software-specific Named Entity Recognition, Intent Detection, and Resolution Classification)を導入する。
我々は、SENIRのエンティティとインテントラベルを付加的な予測機能とともに活用する解像度予測モデルを構築した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:20:24 GMT)
TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding [8.3] 本稿では,2つの鍵成分からなる時変Scene Graph Neural Network (TESGNN)を提案する。
ESGNNは、3次元点雲から情報を抽出し、重要な対称性特性を保持しながらシーングラフを生成する。
対称性保存特性を活用することにより,より安定かつ正確なグローバルシーン表現が得られることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 18:17:14 GMT)
Insights into dendritic growth mechanisms in batteries: A combined machine learning and computational study [8.1] 充電および排出過程におけるデンドライトの過剰成長は、電池の短絡、性能の低下、サイクル寿命の低下、異常な外因性事象を引き起こす。
電池のデンドライト成長を予測する2つの異なるコンピュータモデルを開発した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:16:26 GMT)
Curriculum-style Data Augmentation for LLM-based Metaphor Detection [7.5] オープンソースLLMの微調整によるメタファ検出手法を提案する。
本手法は,すべてのベースラインにおける最先端性能を実現する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:35:28 GMT)
CyberCScope: Mining Skewed Tensor Streams and Online Anomaly Detection in Cybersecurity Systems [7.3] 本稿では,CyberCScopeという新しいストリーミング手法を提案する。
これは事実上、入ってくるテンソルを主要な傾向に分解し、カテゴリー的属性と歪んだ連続属性を明確に区別する。
大規模な実データセットの実験では、CyberCScopeは最先端のベースラインよりも高い精度で様々な侵入を検出する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:17:24 GMT)
Towards Reliable LLM-Driven Fuzz Testing: Vision and Road Ahead [7.1] 大言語モデル(LLM)はファズテスト(LLM4Fuzz)を自動化する変換ポテンシャルを提供する
本稿は,LLM駆動ファジィの信頼性ボトルネックについて検討し,これらの制約に対処するための潜在的研究の方向性を検討することを目的とする。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:46:39 GMT)
DiscoGraMS: Enhancing Movie Screen-Play Summarization using Movie Character-Aware Discourse Graph [7.0] 映画脚本を映画キャラクタ対応の談話グラフ(CaD Graph)として表現する新しいリソースであるDiscoGraMSを紹介する。
このモデルは、スクリーンプレイの内容をより包括的で忠実に表現することで、すべての健全な情報を保存することを目的としている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:38:32 GMT)
MoSFormer: Augmenting Temporal Context with Memory of Surgery for Surgical Phase Recognition [6.9] メモリ・オブ・サーチ (Memory of Surgery, MOS) は、意味論的解釈可能な長期手術の歴史と短期的印象の両方を取り入れることで、時間的モデリングを強化する枠組みである。
MoSFormerは、複数のベンチマークで最先端のパフォーマンスをデモする。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:26:21 GMT)
LLMDR: LLM-Driven Deadlock Detection and Resolution in Multi-Agent Pathfinding [6.9] LLMDR (LLM-Driven Deadlock Detection and Resolution) はデッドロックの解決と学習MAPFモデルの性能向上を目的とした手法である。
LLMDRは、大規模言語モデルの推論機能と学習済みMAPFモデルと優先順位付け計画を統合し、デッドロックを検出し、カスタマイズされた解決戦略を提供する。
以上の結果から,LLMDRは学習済みMAPFモデル,特にデッドロック発生シナリオの性能を向上し,成功率も顕著に向上した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 03:49:15 GMT)
Pair-VPR: Place-Aware Pre-training and Contrastive Pair Classification for Visual Place Recognition with Vision Transformers [6.9] 視覚的位置認識(VPR)のための新しい共同学習法を提案する。
ペア分類器は、与えられた画像のペアが同じ場所から来ているか否かを予測することができる。
トレーニングの第2段階でMaskイメージモデリングエンコーダとデコーダウェイトを再使用することにより、Pair-VPRは最先端のVPRパフォーマンスを実現することができる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:59:29 GMT)
Efficient Imitation Without Demonstrations via Value-Penalized Auxiliary Control from Examples [6.8] 実例(VPACE)から有償補助制御を導入する。
提案手法は,有界値の推定値を維持しながら,課題の学習効率を大幅に向上することを示す。
予備的な結果は、VPACEが完全な軌跡や真のスパース報酬を使用するという、より一般的なアプローチよりも効率的に学習できることを示唆している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:45:57 GMT)
On Generalization Across Environments In Multi-Objective Reinforcement Learning [6.7] 我々は,多目的強化学習(MORL)における一般化の概念を定式化し,その評価方法について述べる。
パラメータ化された環境構成を持つ多目的ドメインを特徴とする新しいベンチマークを提案。
このベンチマークにおける最先端のMORLアルゴリズムのベースライン評価は、限定的な一般化能力を示し、改善の余地があることを示唆している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:50:14 GMT)
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.6] 音声合成はマルチメディア生産に不可欠であり、音声とビデオの同期によってユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:55:14 GMT)
OrdRankBen: A Novel Ranking Benchmark for Ordinal Relevance in NLP [6.6] ベンチマークデータセットは、公正な比較を保証するための標準化されたテストベッドを提供する上で、重要な役割を果たす。
既存のNLPランキングベンチマークでは、通常、二進関係ラベルまたは連続関係スコアを使用し、順序関係スコアを無視する。
OrdRankBenは、多粒度関連性の違いを捉えるために設計された新しいベンチマークである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:28:55 GMT)
Shazam: Unifying Multiple Foundation Models for Advanced Computational Pathology [6.6] 計算病理学(CPath)における基礎モデル(FM)は、病理画像データセットから有意義な特徴の抽出を著しく進歩させてきた。
優れた性能にもかかわらず、これらのモデルは、異なるタスクに適用した場合にしばしばばらつきを示す。
複数のCPathモデルを効率的に組み合わせた新しいフレームワークであるShazamを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:20:41 GMT)
$μ$nit Scaling: Simple and Scalable FP8 LLM Training [6.4] 8ビット浮動小数点(FP8)フォーマットによる大規模言語モデルトレーニングでは、大幅な効率向上が期待できるが、数値的な精度の低下はトレーニングを困難にしている。
モデルのサイズが大きければ、動的スケーリングファクタを必要としない、シンプルでスケーラブルなFP8トレーニングを実演します。
1Bから13Bパラメータのモデルをトレーニングし、FP8のすべての隠れ線形層計算を実行することにより、本手法の有効性を検証した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:16:43 GMT)
Superior monogamy and polygamy relations and estimates of concurrence [6.4] Eq. (1.1) に基づく $alpha$th $(alphageqgamma)$ power に対するより厳密なパラメータ化モノガミー関係のクラスを示す。
本研究は,一夫一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻一妻
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:25:34 GMT)
Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.2] 精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 18:12:50 GMT)
LLMs are everywhere: Ubiquitous Utilization of AI Models through Air Computing [6.2] 本研究では,Large Language Models(LLM)とエアコンピューティングの相乗効果について検討する。
本稿では, LLMと空力コンピューティングの協調利用が, 危機時の成果を著しく改善することを示す災害対応事例について述べる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:24:34 GMT)
Stiefel Flow Matching for Moment-Constrained Structure Elucidation [6.1] 我々は、分子の分子式と慣性モーメントのみを考慮し、分子の全原子3次元構造を予測することを考える。
既存の生成モデルは、ほぼ正確なモーメントで条件付きで3D構造をサンプリングすることができる。
モーメント制約下での3次元構造解析のための生成モデルとして,Stiefel Flow Matchingを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:26:04 GMT)
Implementing Spiking World Model with Multi-Compartment Neurons for Model-based Reinforcement Learning [6.0] 脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、アルゴリズムの設計と知覚の応用において大きな研究の注目を集めている。
しかし、意思決定領域におけるその可能性、特にモデルに基づく強化学習については、未解明のままである。
本稿では,複数の樹状体源からの情報を非線形に積分し,長い逐次入力を動的に処理できるマルチコンパートメントニューロンモデルを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 03:40:10 GMT)
A Dual-Purpose Framework for Backdoor Defense and Backdoor Amplification in Diffusion Models [6.0] PureDiffusionは、バックドアディフェンスとバックドアアタック増幅という2つの対照的な役割を同時に果たす、デュアル目的のフレームワークである。
防御のために,拡散モデルに埋め込まれたバックドアトリガを反転させる2つの新しい損失関数を導入する。
攻撃増幅のために、バックドア拡散モデルに埋め込まれた元のトリガを補強するために、我々のトリガー反転アルゴリズムをどのように利用できるかを説明する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:52:23 GMT)
DUAL: Diversity and Uncertainty Active Learning for Text Summarization [5.9] 本稿では,不確実性と多様性を組み合わせた新しいアルゴリズムであるDiversity and Uncertainty Active Learning(DUAL)を提案する。
我々は、UALがテキスト要約における最高の実行戦略を一貫して一致または上回ることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:06:16 GMT)
MFM-DA: Instance-Aware Adaptor and Hierarchical Alignment for Efficient Domain Adaptation in Medical Foundation Models [5.8] 医療ファウンデーションモデル(MFM)は、様々なタスクにおいて優れたパフォーマンスを示している。
MFMは実践的な応用においてドメインギャップと戦っている。
MFMのドメイン適応フレームワークとして,MFM-DAを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:54:33 GMT)
LightEndoStereo: A Real-time Lightweight Stereo Matching Method for Endoscopy Images [5.5] LightEndoStereoは、内視鏡画像のための軽量なリアルタイムステレオマッチング手法である。
提案手法はSCARED と SERV-CT のデータセットを用いて評価し,最先端のマッチング精度と42FPSのリアルタイム推論速度を実現した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:06:52 GMT)
PIG: Physics-Informed Gaussians as Adaptive Parametric Mesh Representations [5.4] 本稿では,ガウス関数を用いた特徴埋め込みと軽量ニューラルネットワークを組み合わせた物理インフォームドガウス(PIG)を提案する。
提案手法では,各ガウス平均と分散にトレーニング可能なパラメータを用い,トレーニング中の位置と形状を動的に調整する。
実験の結果,複雑なPDEを解くための堅牢なツールとしての可能性を示した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:21:49 GMT)
Automated Design of Agentic Systems [5.4] 本稿では,エージェントシステム設計を自動生成することを目的とした,エージェントシステム自動設計(ADAS)という新たな研究領域について述べる。
我々のアルゴリズムは、最先端の手作りエージェントを大幅に上回る斬新なデザインでエージェントを段階的に発明できることが示される。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:13:28 GMT)
Fast Two-Time-Scale Stochastic Gradient Method with Applications in Reinforcement Learning [5.3] 本稿では,従来の手法よりもはるかに高速な収束を実現する2段階最適化手法を提案する。
提案手法は,既存の最先端技術に匹敵する,あるいは適合する新しいオンラインサンプルベース手法に特化していることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 19:51:43 GMT)
IterGen: Iterative Semantic-aware Structured LLM Generation with Backtracking [5.2] 大規模言語モデル(LLM)は自然言語やコード生成といったタスクに広く使われている。
そのアウトプットはしばしば幻覚、毒性、誤った結果などの問題に悩まされる。
構造化LLM生成のための現在のライブラリは、バックトラックをサポートしない左から右へのデコードに依存している。
IterGenは、文法記号に基づいて生成された出力の前方と後方の両方を移動可能にする。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 01:39:57 GMT)
An Effective Automated Speaking Assessment Approach to Mitigating Data Scarcity and Imbalanced Distribution [5.2] 自己教師付き学習(SSL)は、従来の手法と比較して星級のパフォーマンスを示している。
しかし、SSLベースのASAシステムは、少なくとも3つのデータ関連の課題に直面している。
これらの課題には、限られた注釈付きデータ、学習者の習熟度レベルの不均一分布、CEFR習熟度レベル間の不均一スコア間隔が含まれる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:55:52 GMT)
NeSyC: A Neuro-symbolic Continual Learner For Complex Embodied Tasks In Open Domains [5.2] エンボディエージェントの鍵となる課題は、様々な環境における知識の一般化である。
NeSyCは、仮説推論モデルをエミュレートする神経共生型連続学習機である。
NeSyCは、様々なオープンドメイン環境における複雑なエンボディされたタスクの解決に非常に効果的である。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:16:20 GMT)
Integration of a GaAs-based nanomechanical phase shifter with quantum-dot single-photon sources [5.1] 懸濁GaAs膜上に作製した10:mutextm$の小型電気機械的位相シフト器を試作した。
位相シフト器はスロットモード導波路に基づいており、スロット幅は静電力で制御でき、大きな有効屈折率変化を可能にする。
最大3$pi$の位相変調を 10.6 textV applied bias で観測し、$V_piL = 5.7cdot 10-3 textVcdot text
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:40:16 GMT)
Controlling emitter-field coupling in waveguides with a nanomechanical phase shifter [5.1] ナノオプト・エレクトロメカニカル位相シフト器とフォトニック結晶ミラーを用いた導波路における量子ドットと光学モードとの制御可能な結合。
導波路における自発放射率のブロードバンドチューニングと量子ドットが発する強度の変調を観察する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:45:40 GMT)
Understanding Memorization in Generative Models via Sharpness in Probability Landscapes [5.1] 本稿では,ログ確率密度のシャープネスを用いて拡散モデルの記憶度を解析するための幾何学的枠組みを提案する。
本稿では,潜時拡散モデルにおける画像生成の初期段階におけるシャープネスを定量化する手法を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:00:08 GMT)
Boosting Jailbreak Attack with Momentum [5.0] 大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めていますが、敵の攻撃に弱いままです。
textbfAccelerated GbfCG (textbfMAC)アタックは、運動量項を勾配に統合し、逆のプロンプトにおけるランダムなトークンの探索を強化し安定化させる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:27:07 GMT)
Robust Weight Initialization for Tanh Neural Networks with Fixed Point Analysis [5.0] ニューラルネットワークの深さが増加すると、一般化性能が向上する。
本稿では,タンハアクティベーション機能を持つニューラルネットワークの新しい重み初期化手法を提案する。
様々な分類データセットと物理インフォームドニューラルネットワークの実験により、提案手法は、異なるネットワークサイズにわたる堅牢性の観点から、Xavier法(正規化の有無にかかわらず)より優れていることを示した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:32:27 GMT)
We Need to Effectively Integrate Computing Skills Across Discipline Curricula [4.9] 従来のコンピューティングコースでは、非コンピュータの学生に必要な計算スキルを供給できない。
我々は、学習科目Xにその学習成果に関連する計算を含めるアプローチを提唱する。
目標は、生徒をその分野に進めることであり、学際的な専門家だけが、その分野におけるコンピューティングの使い方を教えてくれる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:38:44 GMT)
Segment-Level Road Obstacle Detection Using Visual Foundation Model Priors and Likelihood Ratios [4.6] 現在の道路障害物検出方法は各画素にスコアを割り当て、しきい値を適用して最終的な予測を生成する。
道路障害物を直接予測するために,視覚基盤モデルと確率比からセグメントレベルの特徴を利用する新しい手法を提案する。
個々の画素ではなくセグメントに注目することにより,検出精度を高め,偽陽性を低減し,シーンの変動性にロバスト性を高める。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 01:46:15 GMT)
FLOAT Drone: A Fully-actuated Coaxial Aerial Robot for Close-Proximity Operations [4.5] 本稿では,FLOAT Drone (FuLly-actuated cO Aerial roboT)について述べる。
制御面を完全に作動するシステムに初めて統合することにより,操作時の横方向の気流障害を著しく抑制する。
さらに、同軸二回転子構成は、ホバリング効率を高く保ちながらコンパクトなサイズを実現する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:30:30 GMT)
NCL-UoR at SemEval-2025 Task 3: Detecting Multilingual Hallucination and Related Observable Overgeneration Text Spans with Modified RefChecker and Modified SeflCheckGPT [4.5] SemEval-2025 Task 3 (Mu-SHROOM) は、様々な大規模言語モデル(LLM)によって生成されたコンテンツの幻覚を検出することに焦点を当てている。
本研究では、RefCheckerの修正とSelfCheckGPTの修正の2つの方法を紹介する。
実験の結果,様々な言語における幻覚の検出において,テストデータセット上で高い評価を達成し,アプローチの有効性を実証した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:21:33 GMT)
The Good, the Bad, and the (Un)Usable: A Rapid Literature Review on Privacy as Code [4.5] プライバシーとセキュリティは、音声データ保護とサイバーレジリエンス機能を備えた情報システムの設計の中心である。
開発者は、適切なサイバーセキュリティトレーニングを欠いているか、優先事項とは考えていないため、これらのプロパティをソフトウェアプロジェクトに組み込むのに苦労することが多い。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:05:13 GMT)
Measuring Anxiety Levels with Head Motion Patterns in Severe Depression Population [4.3] 本研究では,頭部の動きを解析して不安度を定量化する新しい非侵襲的手法を提案する。
臨床的に評価された不安レベルを予測するため,頭部運動特性と回帰分析を適用した。
その結果,心理的不安の重症度を予測する上で,平均絶対誤差(MAE)が0.35と高い精度を示した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:50:08 GMT)
How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching? [4.2] ジェネリックテキスト前処理パイプライン、トークン化、正規化、停止語除去、ステミング/レマティゼーション。
テキスト前処理パイプラインが8オントロジーアライメント評価イニシアチブ(OAEI)トラックの構文OMに与える影響について検討した。
提案手法は,擬似写像の原因となる一般的な単語を見つけるために,アドホックチェックを用いた新しい文脈ベースのパイプライン修復手法を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:52:25 GMT)
Few-Class Arena: A Benchmark for Efficient Selection of Vision Models and Dataset Difficulty Measurement [4.2] Few-Class Arena (FCA) は、少数のクラスで効率的な画像分類モデルをテストするための統一ベンチマークである。
FCAは、Few-Class Regimeで効率的な機械学習のための新しいツールを提供する。新しい効率的なクラス類似性の提案から、軽量なモデルアーキテクチャ設計、新しいスケーリング法則まで幅広い目標がある。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:33:33 GMT)
Revealing quantum operator scrambling via measuring Holevo information on digital quantum simulators [4.2] 本稿では,演算子のホレボ情報による量子作用素の揺らぎの尺度を提案する。
演算子のサイズは演算子の特別な種類のホレボ情報と密接に関連していることを示す。
数値シミュレーションにより,統合可能系とカオス系を区別できることがわかった。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:40:20 GMT)
TAET: Two-Stage Adversarial Equalization Training on Long-Tailed Distributions [4.0] 現実のアプリケーションにディープニューラルネットワークをデプロイする上で、敵の堅牢性は重要な課題である。
本稿では,初期安定化フェーズと階層化された逆トレーニングフェーズを統合した新しいトレーニングフレームワークTAETを提案する。
提案手法は既存の先進防衛を超越し,メモリと計算効率の両面で大幅な改善を実現している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:07:00 GMT)
Where is the Testbed for my Federated Learning Research? [3.9] 本稿では,連邦学習(FL)研究のための実世界テストベッドであるCoLExTを紹介する。
CoLExTは、リッチなテストベッド構成空間におけるカスタムFLアルゴリズムの実験を合理化するように設計されている。
CoLExT上で動作する一般的なFLアルゴリズムに関する最初の調査を通じて、これまで未知のトレードオフ、非効率性、およびプログラミングバグを明らかにした。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:41:12 GMT)
Quantum time dynamics mediated by the Yang-Baxter equation and artificial neural networks [3.9] 本研究では,ニューラルネットワーク(ANN)とYang-Baxter方程式(YBE)を用いた量子エラーの緩和手法について検討する。
ノイズ低減のためのANNとYBEを組み合わせてノイズデータを生成する新しい手法を開発した。
このアプローチは量子シミュレーションにおけるノイズを効果的に低減し、結果の精度を高める。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 23:04:57 GMT)
Semantic-ICP: Iterative Closest Point for Non-rigid Multi-Organ Point Cloud Registration [3.8] 本稿では,複数点ラベルを扱い,線形弾性エネルギー正規化を用いる新しい意味的反復閉点(ICP)法を提案する。
Learn2regの腹部MR-CT登録データセットと経口腔外科的超音波-CT登録データセットを用いた実験により,ハウゼンドルフ距離の改善が示された。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:50:52 GMT)
FOSP: Fine-tuning Offline Safe Policy through World Models [3.8] オフラインセーフ強化学習(RL)は、静的データセットから学習し、探索を制限することで、安全性の制約に対処することを目指している。
本稿では、オフライン事前学習ポリシーをオンラインで微調整することで、視覚に基づくロボットタスクの展開時の安全性向上を図る。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:55:15 GMT)
Using Synthetic Images to Augment Small Medical Image Datasets [3.8] 我々は,高解像度医用画像を生成するため,現在のGAN法であるStyleGAN2の条件変種を開発した。
6つのデータセットから合成された実画像を用いて、セマンティックセグメンテーションの下流タスクのモデルを訓練する。
生成した医用画像の品質と,この拡張がセグメンテーション性能に及ぼす影響をその後評価した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:02:11 GMT)
B-OCL: An Object Constraint Language Interpreter in Python [3.6] Object Constraint Language (OCL) はモデリングコミュニティで広く使われている。
本稿では,Python用のOCLインタプリタを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:53:58 GMT)
We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs [3.5] パッケージ幻覚は、大規模な言語モデルを使用してコードを生成する際に、ファクトコンフリクトのエラーから生じる。
本稿では,プログラム言語間におけるパッケージ幻覚の厳密かつ包括的評価を行う。
幻覚パッケージの平均パーセンテージは、商用モデルでは少なくとも5.2%、オープンソースモデルでは21.7%である。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 21:03:52 GMT)
PSRGS:Progressive Spectral Residual of 3D Gaussian for High-Frequency Recovery [3.3] 3Dガウススプラッティング(3D GS)は、小さな単一対象のシーンに対する新しいビュー合成において、印象的な結果をもたらす。
しかし、大規模なリモートセンシングシーンに適用すると、3D GSは課題に直面します。
スペクトル残差マップに基づくプログレッシブ最適化手法であるPSRGSを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:52:46 GMT)
Path-Consistency: Prefix Enhancement for Efficient Inference in LLM [3.3] textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。
textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:13:56 GMT)
MTReD: 3D Reconstruction Dataset for Fly-over Videos of Maritime Domain [3.2] 本研究は, 海上域におけるビデオフライオーバー視点問題に対する3次元シーン再構成に取り組む。
MTReDと命名された新しい海洋3次元シーン再構築ベンチマークデータセットを提案する。
MTReDは、船、島、海岸線を含むインターネットからキュレーションされた19のフライオーバービデオで構成されている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:10:34 GMT)
Output Length Effect on DeepSeek-R1's Safety in Forced Thinking [2.9] 本研究では,DeepSeek-R1のロバスト性に及ぼす出力長の影響について検討した。
我々は、様々な敵のプロンプトにまたがる応答を分析し、より長いアウトプットは自己補正によって安全性を向上させるが、特定の攻撃タイプは、より長い世代を悪用する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:29:22 GMT)
Emergent multi-loop nested point gap in a non-Hermitian quasiperiodic lattice [2.8] 幾何級数変調された非エルミート準周期格子モデルを提案する。
このシステムでは、複数のモビリティエッジと高い巻線数を持つ非エルミート点ギャップを誘導できることが示される。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:15:53 GMT)
Taming Infinity one Chunk at a Time: Concisely Represented Strategies in One-Counter MDPs [2.7] 無限のMDPのクラスについて研究する:1カウンタMDP(OC-MDP)
目標状態(状態到達性)と目標状態(反値ゼロ)の2つの特徴的目的を考察する。
間隔におけるカウンター値の(おそらく無限)分割に基づく簡潔に表現された戦略の2つの自然なクラスを導入する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:32:17 GMT)
Microscopic theory of a precessing ferromagnet for ultrasensitive magnetometry [2.7] 近年の研究では、浮遊強磁性体が磁力計の標準量子限界を超えることが示唆されている。
この研究は、浮遊強磁性針の必然的ダイナミクスの重要な特徴を分析し、理解するための理論モデルを提供する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:44:32 GMT)
OpenECG: Benchmarking ECG Foundation Models with Public 1.2 Million Records [2.4] この調査では、9つのセンターから120万回のECG記録の大規模ベンチマークであるOpenECGを紹介し、パブリックデータセットでトレーニングされたECG基盤モデル(ECG-FM)を評価する。
本研究では,ResNet-50およびVision Transformerアーキテクチャを用いた3つの自己教師型学習手法(SimCLR, BYOL, MAE)について検討し,モデル一般化の評価を行った。
その結果,多種多様なデータセットの事前学習が一般化を著しく改善し,BYOLとMAEはSimCLRを上回り,コントラストに対する特徴一貫性と生成学習の有効性を強調した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 03:26:14 GMT)
Parallel Corpora for Machine Translation in Low-resource Indic Languages: A Comprehensive Review [2.4] 本稿では、Indic言語で利用可能な並列コーパスについて概観する。
コーパス作成における課題として,言語的多様性,スクリプトのバリエーション,データ不足などについて批判的に検討する。
言語間変換学習の活用,多言語データセットの拡張,翻訳品質向上のためのマルチモーダルリソースの統合など,今後の方向性について概説する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 21:22:53 GMT)
Towards Efficient Educational Chatbots: Benchmarking RAG Frameworks [2.4] 大規模言語モデル(LLM)は、大量の文献に基づく情報を収集することで、教育において非常に有益であることが証明されている。
本稿では,LLMを活用してGATEソリューションを説明し,学生の試験準備を支援するAIを活用した質問応答フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:11:07 GMT)
IRisPath: Enhancing Costmap for Off-Road Navigation with Robust IR-RGB Fusion for Improved Day and Night Traversability [2.2] 従来の道路上での自律的な手法はダイナミックな地形に苦しむため、オフロード環境では車両の制御が貧弱になる。
近年の深層学習モデルでは、知覚センサと審美的フィードバックを併用して、そのような地形のナビゲーションを行っている。
本研究では,熱・RGB画像を用いて動的気象・光条件に対する堅牢性を実現するマルチモーダル核融合ネットワーク「IRisPath」を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:24:05 GMT)
Transformer Meets Twicing: Harnessing Unattended Residual Information [2.2] トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 01:56:35 GMT)
Explain Yourself, Briefly! Self-Explaining Neural Networks with Concise Sufficient Reasons [1.9] 出力の不可欠な部分として、予測の簡潔な理由を生成するためにモデルを訓練する。
以上の結果から,本フレームワークは,競合するポストホック法よりも,簡潔で忠実な部分集合をかなり効率的に生成することが示された。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:32:48 GMT)
FACROC: a fairness measure for FAir Clustering through ROC curves [1.9] 我々は、ROC曲線、すなわちFACROCによるフェアクラスタリングのための新しい視覚ベースのフェアネス尺度を導入する。
この公正度尺度は、クラスタリング品質の尺度としてAUCCを使用し、保護属性の各値に対する対応するROC曲線の差を計算する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:11:34 GMT)
ACES: Automatic Cohort Extraction System for Event-Stream Datasets [1.9] 医療における機械学習(ML)において、再現性は依然として重要な課題である。
イベントストリームデータを対象とした自動コホート抽出システム(ACES)を提案する。
ACESは、表現中のMLタスクを定義するためのエントリの障壁を著しく低くする可能性がある。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 01:47:44 GMT)
LiteQSign: Lightweight and Scalable Post-Quantum Authentication for Heterogeneous IoT Applications [1.9] LightQSign (LightQS) は、IoT(Internet of Things)デバイス用の軽量なポスト量子(PQ)シグネチャスキームである。
LiteQSは、署名プロセス当たりのハッシュ操作数を一定に抑えて、ほぼ最適のシグネチャ生成効率を実現する。
この設計では、非凝固検証サーバ、セキュアエンクレーブ、信頼できるアシストエンティティの必要性がなくなる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 22:54:03 GMT)
Kolmogorov-Arnold PointNet: Deep learning for prediction of fluid fields on irregular geometries [1.9] Kolmogorov-Arnold Networks (KAN) は、ディープラーニングにおいて従来のマルチレイヤパーセプトロン(MLP)に代わる有望な代替手段として登場した。
我々は, KA-PointNetを非圧縮性定常流体場予測のための新しい教師付きディープラーニングフレームワークとして提示する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 18:31:59 GMT)
MetaGFN: Exploring Distant Modes with Adapted Metadynamics for Continuous GFlowNets [1.9] 本稿では,連続ドメイン上の任意のブラックボックス報酬関数に適用可能なメタ力学の変種であるAdapted Metadynamicsを紹介する。
結果のアルゴリズムであるMetaGFNは、目標分布への収束を加速し、GFlowNets で使用した以前のオフポリティクス探索手法よりも、より遠距離の報酬モードを発見する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:30:28 GMT)
Exploring the Decentraland Economy: Multifaceted Parcel Attributes, Key Insights, and Benchmarking [1.8] IITP-VDLandは、Decentraland、OpenSea、Etherscan、Google BigQuery、およびさまざまなソーシャルメディアプラットフォームなどのさまざまなプラットフォームをソースとする、分散パーセルデータセットである。
仮想世界における各パーセルの特異性を測定するために,データセットにキー属性,すなわちRarityスコアを導入する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:59:30 GMT)
DIPSER: A Dataset for In-Person Student Engagement Recognition in the Wild [1.8] 本稿では,教室内環境における学生の注意度を評価するための新しいデータセットを提案する。
このデータセットはRGBカメラのデータを含み、学生1人当たりの姿勢と表情をキャプチャする複数のカメラを備えている。
学生毎の注意・感情ラベルの包括的スイートが提供され、自己報告と4つの異なる専門家による評価によって生成される。
当社のデータセットは、顔と環境カメラのデータ、スマートウォッチのメトリクスを独自に組み合わせ、同じデータセットに表現されていない民族が含まれています。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:36:57 GMT)
User Intent to Use DeepSeek for Healthcare Purposes and their Trust in the Large Language Model: Multinational Survey Study [1.5] 大規模言語モデル(LLM)は、インタラクティブな医療資源としてますます役立っているが、ユーザ受け入れは未熟である。
本研究は、DeepSeekを採用するための形状意図と、使いやすさ、知覚的有用性、信頼、リスク知覚がどのように相互作用するかを検討する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:05:40 GMT)
Can AI Detect Wash Trading? Evidence from NFTs [1.5] 取引の38%(30-40%)、取引価値の60%(25-95%)が操作に関係している可能性が高い。
この直接的な証拠は、既存の間接的な方法の批判的な再評価を可能にする。
我々は、これらの回帰を機械学習フレームワークに統合するAIベースの推定器を開発する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 19:50:01 GMT)
LLM-Fusion: A Novel Multimodal Fusion Model for Accelerated Material Discovery [1.5] 本稿では, SMILES, SELFIES, テキスト記述, 分子指紋などの多言語モデル(LLM)を活用して, 高精度な特性予測を行う新しい多モーダル融合モデルを提案する。
提案手法では,マルチモーダル入力処理をサポートするフレキシブルLLMアーキテクチャを導入し,従来の手法よりも高い精度で材料特性の予測を可能にする。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 21:13:04 GMT)
A Comparison of Object Detection and Phrase Grounding Models in Chest X-ray Abnormality Localization using Eye-tracking Data [1.4] 本稿では,これら2つのタスクのパフォーマンスと説明可能性を比較し,胸部X線におけるテキストの異常局所化をいかに促進するかを検討する。
説明可能性ベースラインを確立するため,我々は,放射線学者の視線追跡データを用いて,文章の表示領域を自動生成するパイプラインを提案する。
句接地モデルのmIoU = 0.36 vs. 0.20, および説明可能性 - 含量比 0.48 vs. 0.26 は, 胸部X線異常局在の増強におけるテキストの有効性を推察する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 21:54:47 GMT)
Global $\mathcal{L}^2$ minimization at uniform exponential rate via geometrically adapted gradient descent in Deep Learning [1.4] 本稿では,ディープラーニング(DL)ネットワークにおける教師あり学習のシナリオについて考察する。
DLネットワークの出力層におけるユークリッド計量に対する勾配流を選択する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:21:13 GMT)
Contrastive Learning from Synthetic Audio Doppelgängers [1.4] 合成音声を利用したデータスケールと変換の制限に対する解決策を提案する。
音声合成器のパラメータをランダムに摂動することで、音色、ピッチ、時間的エンベロープの因果的に操作された変化を持つオーディオ・ドッペルグ・アンガー合成正ペアを生成する。
ランダムに生成される合成データへのシフトにもかかわらず、本手法は、複数の標準的な音声分類タスクにおいて、実データよりも優れた、強力な表現を生成する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:57:06 GMT)
Adaptive Neural Networks for Intelligent Data-Driven Development [1.4] 本稿では,既知の物体を現在の知覚システムに効率的に組み込むことができる適応型ニューラルネットワークアーキテクチャを提案する。
1)既存の性能を維持しながら新しいクラスを統合するスケーラブルなネットワーク拡張戦略,(2)新たに追加されたクラスの追加リトレーニングを必要としない動的OoD検出コンポーネント,(3)安全クリティカルなデプロイメントに適した検索ベースのデータ拡張プロセスである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 01:50:22 GMT)
SFO: Piloting VLM Feedback for Offline RL [1.4] VLM(Vision-Language Models)は、アクション条件のトレーニングデータがないため、制御タスクを解く能力に制限がある。
AIフィードバックからの強化学習における重要な課題は、VLM由来の信号を学習プロセスに統合する方法を決定することだ。
本稿では,人間のフィードバックに基づく手法から,より複雑な強化学習を達成し,よりシンプルで効果的なアプローチであるフィルタリングと重み付き行動クローニングを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 23:52:46 GMT)
Mutual Enhancement of Large Language and Reinforcement Learning Models through Bi-Directional Feedback Mechanisms: A Planning Case Study [1.4] 我々は,大規模言語モデル(LLM)と強化学習(RL)モデルの課題に対処するために,教師による学習フレームワークを採用している。
この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。
本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 01:46:57 GMT)
Nonadiabatic braiding of Majorana modes [1.3] 本稿では,Majoranaゼロモード上での動作を実行するための非断熱的および非アベリア幾何学位相ベースのプロトコルを提案する。
この研究は、マヨラナゼロモードの非断熱的および耐故障性制御への潜在的経路を提供する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:17:51 GMT)
Factorized Deep Q-Network for Cooperative Multi-Agent Reinforcement Learning in Victim Tagging [1.3] 本稿では, 被害者のタグ付けに要する時間を最小限に抑えるために, マルチエージェントの被害者タグ付けを数学的に定式化する。
本稿では,MARL(Multi-agent reinforcement learning)戦略,FDQN(Factized Deep Q-network)の有効性を検討した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 01:32:09 GMT)
Bayesian penalized empirical likelihood and Markov Chain Monte Carlo sampling [1.3] 本稿では,経験的可能性 (EL) に固有の計算課題に対処するため,ベイズ法(Bayesian Penalized Empirical Likelihood, BPEL)と呼ばれる新しい手法を提案する。
提案手法の主な目的は, (i) 多様なモデル条件を収容する際のELの固有の柔軟性を高めること, (ii) 確立されたマルコフ・チェイン・モンテカルロ(MCMC)サンプリングスキームの使用を容易にすることである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 03:07:57 GMT)
TRACE: A Self-Improving Framework for Robot Behavior Forecasting with Vision-Language Models [1.3] 反応剤の短期的挙動を予測することは、多くのロボットシナリオにおいて重要である。
本稿では,ツリー・オブ・ソート・ジェネレーションとドメイン・アウェア・フィードバックを結合した推論フレームワークTRACEを提案する。
我々は,地上車両シミュレーションと実世界海面車両の両面においてTRACEを検証した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:58:02 GMT)
Causal Inference on Outcomes Learned from Text [1.3] ランダム化試行において,テキストの因果推論を行う機械学習ツールを提案する。
簡単なエコノメトリの枠組みに基づいて、我々の手順は3つの疑問に対処する: 第一に、治療によって影響を受けるテキストは? 第二に、どの結果が影響するか? そして第三に、因果効果の完全な説明はどれくらい完全か?
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:36:27 GMT)
SymbolFit: Automatic Parametric Modeling with Symbolic Regression [1.3] シンボリック回帰を用いてパラメトリックモデリングを自動化するフレームワークであるSybolFitを導入し,データに適合する関数の機械探索を行う。
我々は,非自明な分布によく適合する幅広い候補関数を柔軟かつ効率的に生成できることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 23:29:50 GMT)
Optimizing Multi-Hop Document Retrieval Through Intermediate Representations [1.2] Retrieval-augmented Generation (RAG)は、複雑なクエリ、特にマルチホップ質問に対処する際の課題に遭遇する。
次ホップ情報を取得する中間層からの中間表現を利用して外部知識を抽出するレイヤワイドRAG(L-RAG)を提案する。
実験の結果、L-RAGはオープンドメインのマルチホップ質問応答データセット上で既存のRAG法よりも優れていた。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:33:22 GMT)
Incompatibility of rank-one POVMs and uncertainty relations [1.2] 我々は、Xuによる測定の$s$-order不整合性が、関連する測定行列の発火によって同等に特徴づけられることに気付いた。
ランクワンのPOVMに対して$s$-orderの不整合性を拡張し、新しい不確実性関係を確立する。
これらの結果は量子暗号、量子状態再構成、量子圧縮センシングに応用できる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:20:46 GMT)
Riemann Tensor Neural Networks: Learning Conservative Systems with Physics-Constrained Networks [1.2] 微分自由対称テンソル(DFST)は連続体力学において基本的なものである。
本稿では,DFST条件をマシン精度に本質的に満足する新しいニューラルアーキテクチャを提案する。
この研究は、ニューラルPDEサロゲートの誘導バイアスとしてDFSTを使った最初のものである。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:24:16 GMT)
A Semantic Search Pipeline for Causality-driven Adhoc Information Retrieval [1.1] コーサリティ駆動型アドホック情報検索(CAIR-2021)共有タスクのための教師なし意味探索パイプラインを提案する。
CAIR共有タスクは、クエリイベントの可能性のある原因を含むドキュメントの検索をサポートするために、従来の情報検索を拡張する。
成功したシステムは、クエリイベントに因果関係のあるイベントの因果的記述を含むトピック文書とドキュメントを区別できなければならない。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 19:59:41 GMT)
Evaluation of adaptive sampling methods in scenario generation for virtual safety impact assessment of pre-crash safety systems [1.1] シミュレーションベースのシナリオ生成におけるパラメータの数が増加するにつれて、シミュレートするクラッシュシナリオの数が指数関数的に増加する。
この課題に対処するために、重要サンプリングやアクティブサンプリングなどの効率的なサンプリング手法が提案されている。
本研究は,2つのドメイン知識駆動型特徴を取り入れたシナリオ生成における重要サンプリングとアクティブサンプリングの性能を評価する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:44:18 GMT)
Utilizing ChatGPT in a Data Structures and Algorithms Course: A Teaching Assistant's Perspective [1.1] 本研究は,ChatGPTを補足ツールとして,教師と学生の成果を高めるための補助ツールとして検討する。
コントロールされた実験では、従来のTA主導の命令と、TAがChatGPT-4oとChatGPT o1を使用してエクササイズを生成し、概念を明確にし、フィードバックを提供するハイブリッドアプローチを比較した。
その結果,ChatGPT支援グループの学生は,平均16.50点,高度なトピックに優れ,ハイブリッドアプローチの有効性が示された。
このフレームワークは、LLMの二重の役割を強調している: TA効率を向上し、人間の監視を通じて精度を確保し、人間のAIにスケーラブルなソリューションを提供する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:12:10 GMT)
Foundational Policy Acquisition via Multitask Learning for Motor Skill Generation [1.0] 本稿では,新しい運動能力を生み出すための基本方針獲得のためのマルチタスク強化学習アルゴリズムを提案する。
人間の感覚運動適応機構にインスパイアされた我々は,エンコーダデコーダネットワークとネットワーク選択を構築するための学習パイプラインを開発した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:36:29 GMT)
Asymptotic Analysis of Two-Layer Neural Networks after One Gradient Step under Gaussian Mixtures Data with Structure [0.8] 本研究では,構造データに基づく2層ニューラルネットワーク(NN)の学習と一般化性能について検討した。
特定の条件下では,高次モデルが非線形ニューラルネットワークと等価であることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:28:54 GMT)
Foundation Models Secretly Understand Neural Network Weights: Enhancing Hypernetwork Architectures with Foundation Models [0.7] 基盤モデルはTransformerベースのアーキテクチャでハイパーネットワークをどのように改善するかを示す。
我々は、一般化可能なINRタスクのレンズを通して、ハイパーネットの基盤モデルの利点を実証分析する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:20:02 GMT)
Enhanced Multi-Class Classification of Gastrointestinal Endoscopic Images with Interpretable Deep Learning Model [0.7] 本研究は,Kvasirデータセットから8000個のラベル付き内視鏡画像を用いて分類精度を向上させる新しい手法を提案する。
提案したアーキテクチャは、適度なモデルの複雑さを保ちながら、データ拡張への依存をなくす。
テスト精度は94.25%、精度は94.29%、リコールは94.24%である。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:07:50 GMT)
Developing a Multilingual Dataset and Evaluation Metrics for Code-Switching: A Focus on Hong Kong's Polylingual Dynamics [0.6] 我々は,Multi-Agent Data Generation Framework (MADGF) を用いた混合カントンと英語(MCE)音声の34.8時間データセットを開発した。
我々は,オープンソースの多言語自動音声認識(ASR)モデルであるWhisperをMCEデータセットで微調整し,印象的なゼロショット性能を実現した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:17:06 GMT)
Volume-Wise Task fMRI Decoding with Deep Learning:Enhancing Temporal Resolution and Cognitive Function Analysis [0.6] 本研究では,tfMRIデータ中のタスク状態のボリュームワイド同定を目的としたディープニューラルネットワークを提案する。
このモデルは94.0%と79.6%という驚くべき平均精度を達成した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:07:26 GMT)
Waste Not, Want Not; Recycled Gumbel Noise Improves Consistency in Natural Language Generation [0.5] 本稿では,異なるプロンプト間の応答整合性を向上させる新しい復号アルゴリズムを提案する。
本手法は, セマンティックおよびスタイリスティックな整合性ベンチマークにおいて, 標準サンプリングを最大10%向上させる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:08:51 GMT)
Intrinsic Dimension Correlation: uncovering nonlinear connections in multimodal representations [0.4] 本稿では,内在次元と相関関係の絡み合いを利用して相関関係を定量化する計量を提案する。
まず,制御環境における合成データの検証を行い,その利点と欠点を既存手法と比較した。
ニューラルネットワーク表現における大規模アプリケーションに分析を拡張します。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 12:28:24 GMT)
Detecting Unsuccessful Students in Cybersecurity Exercises in Two Different Learning Environments [0.4] 本稿では,学生の難易度を予測するための自動ツールを開発する。
潜在的な応用として、このようなモデルは、苦労している生徒を検知し、目標とする支援を提供するインストラクターを助けることができる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 18:15:48 GMT)
CAGN-GAT Fusion: A Hybrid Contrastive Attentive Graph Neural Network for Network Intrusion Detection [0.3] コントラスト型注意グラフネットワークとグラフ注意ネットワーク(CAGN-GAT Fusion)の融合を提案する。
グラフニューラルネットワーク(GNN)と従来のMLモデルの両方を含む15のモデルと比較した。
結果から,CAGN-GAT Fusionは,データセット毎に最高の性能を達成できないにも関わらず,安定かつ競争力のある精度,リコール,F1スコアを示すことがわかった。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:01:00 GMT)
Evaluating Low-Resource Lane Following Algorithms for Compute-Constrained Automated Vehicles [0.3] 限られた計算資源を持つ車両におけるリアルタイム運転のための低リソースレーン追従アルゴリズムを5つ評価した。
トップパフォーマンス手法は、教師なし学習を用いて、1フレームあたり10ミリ秒未満の処理時間でレーン線を検出し、分離した。
発見は、自動運転車技術のアクセシビリティと信頼性を高めるための効率的な車線検出アプローチの可能性を強調している。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:30:06 GMT)
Privacy vs. Profit: The Impact of Google's Manifest Version 3 (MV3) Update on Ad Blocker Effectiveness [0.3] 広告ブロッカーは、何百万ものユーザーにとって、よりプライベートで広告のないブラウジング体験を求める重要な役割を果たす。
この研究は、MV3アップデートが広告やトラッカーをブロックする能力にどのように影響するかを実証的に調査する。
以上の結果より, MV3アドブロッカーの広告ブロック効果や追跡防止効果は, MV2と比較して統計的に有意な低下は認められなかった。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 19:41:34 GMT)
Systematic Literature Review on Clinical Trial Eligibility Matching [0.2] レビューでは、説明可能なAIと標準化されたオントロジーがクリニックの信頼を高め、採用を広げる方法が強調されている。
臨床治験採用におけるNLPの変革的ポテンシャルを十分に実現するためには、高度な意味的および時間的表現、拡張されたデータ統合、厳密な予測的評価のさらなる研究が必要である。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:45:50 GMT)
Light-controlled strong coupling of optical cavity modes spaced by 200 THz [0.2] 固有モードがVIS-NIR領域における2つの周波数モードのコヒーレント重ね合わせであるマクロ光学的ファブリ・ペロトキャビティについて述べる。
強い結合により、端から端までの自由空間変換効率30(1)%で周波数変換を実演できる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:10:26 GMT)
Pruning Deep Neural Networks via a Combination of the Marchenko-Pastur Distribution and Regularization [0.2] 視覚変換器(ViT)は、画像分類のためのディープラーニング分野において、強力なモデルのクラスとして登場した。
重みと特異ベクトルのスパーシフィケーションに基づいて事前学習したDNNを刈り取るためのRandom Matrix Theory(RMT)に基づく新しい手法を提案する。
我々は,RTTを用いたプルーニングを用いて,精度1%未満の精度で,VTモデルのパラメータ数を30~50%削減できることを実証した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:25:20 GMT)
Market-Derived Financial Sentiment Analysis: Context-Aware Language Models for Crypto Forecasting [0.2] 本稿では,短期的価格トレンドに基づく市場からのラベリング手法を提案する。
ドメイン固有言語モデルはこれらのラベルに基づいて微調整され、短期トレンド予測精度が最大11%向上した。
以上の結果から,言語モデルが短期市場予測に有効であることが示唆された。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:18:09 GMT)
New random compiler for Hamiltonians via Markov Chains [0.1] 我々は,第1次ランダム化トロッター (qDRIFT) に似た新しいコンパイラを開発した。
まず、モデルを提示し、その支配方程式を導出する。次に、2つのハミルトニアンの和のシミュレーション誤差を定義し、解析し、それを$Q$ハミルトニアンの和に一般化する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:00:03 GMT)
Enhanced Security of Public Key Encryption with Certified Deletion [0.1] 量子暗号では、量子力学の定理により、証明された削除が可能となる。
本稿では,BartusekとKhuranaによって構築されたPKE-CD(Public Key Encryption with Certified Deletion)方式について述べる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 03:57:12 GMT)
Improving LSH via Tensorized Random Projection [0.1] テンソルデータに対するユークリッド距離とコサイン類似性に対する高速かつ空間効率な局所性感度ハッシュ関数を提案する。
我々のアプローチは空間効率が高く、低ランクの$CP$または$TT$テンソルに効率的に適用することができる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:05:58 GMT)
Unmasking Digital Falsehoods: A Comparative Analysis of LLM-Based Misinformation Detection Strategies [0.0] 本稿では,テキストベース,マルチモーダル,エージェント間の誤情報検出手法の比較を行う。
本研究では,異なる話題領域における誤情報検出における微調整モデル,ゼロショット学習,系統的事実チェック機構の有効性を評価する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:31:42 GMT)
Thermalization of the Quantum Planar Rotor with external potential [0.0] 我々は, 脱コヒーレンス, 拡散, 摩擦, および外部電位の存在下での平面ローターの加熱方法について検討した。
高温状態ではギブス状態に近い定常状態の存在を解析的および数値的に検証する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:57:49 GMT)
The Reliability of LLMs for Medical Diagnosis: An Examination of Consistency, Manipulation, and Contextual Awareness [0.0] 大規模言語モデル(LLM)は、先進的な診断で医療の民主化を約束する。
本研究は, 整合性, 操作のレジリエンス, コンテキスト統合に焦点をあてた診断信頼性を評価する。
LLMの操作や文脈認識の制限に対する脆弱性は、臨床使用において課題となる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 11:50:16 GMT)
SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking [0.0] 本稿ではベトナムのファクトチェックフレームワークSemViQAを紹介する。
セマンティックに基づくエビデンス検索(SER)と2段階検証分類(TVC)を統合する。
ISE-DSC01の精度は78.97%、ViWikiFCの精度は80.82%である。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:22:46 GMT)
Scalable Memory Recycling for Large Quantum Programs [0.0] 量子コンピューティング技術が進歩するにつれて、量子アルゴリズムの複雑さが増大し、低レベルな回路記述から高レベルなプログラミングパラダイムに移行する必要がある。
本稿では,メモリ管理を最適化し,より大規模で複雑な回路をスケールするコンパイルを開発する上での課題について述べる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:56:39 GMT)
SCC-YOLO: An Improved Object Detector for Assisting in Brain Tumor Diagnosis [0.0] You Only Look Once (YOLO)シリーズは、医用画像検出において優れた精度を示している。
本稿では,SCConvモジュールをYOLOv9に統合した新しいSCC-YOLOアーキテクチャを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 06:41:56 GMT)
Riemannian Integrated Gradients: A Geometric View of Explainable AI [0.0] RIG はリーマン多様体がユークリッド空間であるときに IG に制限されることを示す。
特徴属性は、対称自己準同型の固有値に対応する固有値問題として表現できることを示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:32:28 GMT)
Revolutionizing Healthcare Record Management: Secure Documentation Storage and Access through Advanced Blockchain Solutions [0.0] この研究では、セキュリティ、スケーラビリティ、アクセシビリティを大幅に向上するために設計された、ブロックチェーンベースの新しいEHRシステムを紹介します。
提案システムは、Argon2とAESを組み合わせたハイブリッドセキュリティアルゴリズムを活用し、ハイブリッドストレージとコンセンサス機構を統合する。
MetaMask、Ganache、Truffleといった高度なブロックチェーンツールを使用して、分散ネットワークとのインタラクションを容易にする。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:39:14 GMT)
Reasoning across spacelike surfaces in the Frauchiger-Renner thought experiment [0.0] Frauchiger-Renner の議論は、量子力学の標準的な枠組みが、自分自身が量子力学を使用して還元を行うエージェントを含む系を推論する際に、矛盾をもたらすことを示すものである。
私は2つの密接に関連する方法で議論を形式化し、パラドックスの根源を解明し、元の議論の欠陥を明確にする。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:16:22 GMT)
On the time-dependent Aharonov-Bohm effect and the 4-dimensional Stokes theorem [0.0] 時間依存的なアハロノフ・ボーム効果(AB)は、ソレノイド内部の磁束が時間依存的に変化する状況を考える。
この難しさは、その理論解析が4次元ミンコフスキー空間の経路に沿った時間依存ベクトルポテンシャルの直線積分を必要とすることに由来する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:08:42 GMT)
Modeling and Analysis of Spatial and Temporal Land Clutter Statistics in SAR Imaging Based on MSTAR Data [0.0] 地塊の空間的および時間的特性について検討した。
適合性テストは、KL(Kullback-Leibler)のディバージェンス(Diversergence)測定値に基づいている。
解析の総合的な検証は、移動目標獲得・認識(MSTAR)データセットを利用して行われる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 05:29:42 GMT)
Linear Diffusion Networks [0.0] 本稿では、逐次データ処理を統一拡散プロセスとして再解釈する新しいアーキテクチャであるLinear Diffusion Networks(LDNs)を提案する。
本モデルでは,適応拡散モジュールと局所的な非線形更新と拡散に着想を得た注意機構を統合した。
ベンチマークシーケンスモデリングタスクの実験は、LDNがImageNetとGLUEタスク間で競合するパフォーマンスを提供することを示した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 20:17:56 GMT)
Language-agnostic, automated assessment of listeners' speech recall using large language models [0.0] 本研究は、英語母語話者と10言語母語話者の現代大言語モデル(LLM)を活用する。
参加者は母国語の短い話(静かで明快で、バブルノイズで)を聴き、自由に呼び戻した。
LLMは、意味的類似性分析によるエンジニアリングを促進させ、音声のリコールを評価することで、時間順、プライマリシー/レシーシ、バックグラウンドノイズの既知の影響に対する感受性を明らかにした。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 22:28:41 GMT)
Knowledge Gradient for Multi-Objective Bayesian Optimization with Decoupled Evaluations [0.0] いくつかのケースでは、目的を個別に評価することができ、異なるレイテンシや評価コストをそれぞれの目標に関連付けることができる。
目的の異なる評価コストを考慮に入れたスカラー化に基づく知識獲得機能を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 13:29:19 GMT)
Integration of graphene-based superconducting quantum circuits in 3D cavity [0.0] 2次元材料に基づく最初の3次元キャビティ互換超伝導量子回路を構築した。
グラフェン超伝導量子干渉装置(SQUID)は、DCプローブとマイクロ波プローブの両方でアクセス可能なコンデンサによって走査される。
さらに、直流解析に基づいてSQUIDの対称性情報を抽出し、マイクロ波測定で観測された磁束変調空洞周波数と相関した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 22:45:37 GMT)
Integrated Gradient attribution for Gaussian Processes with non-Gaussian likelihoods [0.0] ガウス過程(GP)モデルは確率的機械学習において強力なツールである。
モデルの意思決定プロセスを透過的で説明可能なものにすることの必要性は、現在、研究の大きな焦点となっている。
本稿では,非ガウス的GPモデルに対して,積分グラディエントに基づく説明可能性を適用する手法を提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:29:15 GMT)
Impact of Surrogate Model Accuracy on Performance and Model Management Strategy in Surrogate-Assisted Evolutionary Algorithms [0.0] サロゲート支援進化アルゴリズム(SAEA)は、高価な最適化問題を解決するために提案されている。
本研究では,サロゲートモデルの精度が探索性能とモデル管理戦略に与える影響について分析する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:39:16 GMT)
Impact of Fasteners on the Radar Cross-Section performance of Radar Absorbing Air Intake Duct [0.0] 厚さ6.25mmのレーダー吸収材は、4から18GHzの周波数で10dB以上の反射損失を与えるように設計されている。
RASのRCS特性を周波数1~18GHzの異なる長さのダクトに対して評価した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 14:27:53 GMT)
Grover's algorithm in a four-qubit silicon processor above the fault-tolerant threshold [0.0] 我々は、半導体スピン量子ビットで報告されている最も高い96.2%の忠実度を持つ3量子ビットグリーンバーガー・ホーネ・ザイリンガー状態(GHZ)を作成する。
ハイパーファイン相互作用によって提供される核スピンのすべての接続は、効率的なマルチキュービット演算を可能にする。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 23:15:54 GMT)
From Understanding the World to Intervening in It: A Unified Multi-Scale Framework for Embodied Cognition [0.0] マルチスケールなエラーフィードバックによって知覚、記憶、意思決定をシームレスに統合する認識を具現化するための適応統合知識・行動知能システムであるAUKAIを提案する。
本稿では,ニューラルネットワークの強みを象徴的推論モジュールと組み合わせ,解釈可能性と堅牢性を向上させるハイブリッド実装を提案する。
我々は,ロボットナビゲーションと障害物回避の詳細な応用を通じて,AUKAIの可能性を実証し,シミュレーション環境と実環境の両方において,その有効性を検証するための総合的な実験計画を概説する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 04:43:08 GMT)
From Staging to Insight: An Educational Path to Understanding Bell's Inequalities [0.0] 本稿では,イタリアの量子週間プロジェクトの一環として,非専門家の観衆に絡み合いとベルの不等式を導入する根拠について論じる。
このイニシアチブは、複雑な科学原理と公衆の理解のギャップを埋めて、量子力学を誰でも利用できるようにすることを目的としている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:01:10 GMT)
Frame-dependent coherence of a quantum state [0.0] 有限次元ヒルベルト空間は典型的には正則基底を用いて記述されるが、より一般的な記述は強フレームを用いて得ることができる。
フレーム依存コヒーレンス (framedependent coherence) は、基底依存コヒーレンス (basedependent coherence) と類似して定義されるもので、同時に考慮されたいくつかの基底について、あるいはコヒーレント状態の離散系に関してコヒーレンスを定義することができる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 19:58:36 GMT)
Flipping qudits: Extending the Bit-Flip Channel to higher-dimensional systems [0.0] 本稿では,ビットフリップチャネルの3つの拡張を,チャネルの多様な解釈に基づいて提案する。
また,高次元Quditシステムに拡張し,ディットフリップチャネルの異なるバージョンを定式化した。
量子四重項状態と2量子四重項ヴェルナー状態のエンタングルメント尺度としてネガティビティへの影響について検討した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 02:46:08 GMT)
Fairness in Agentic AI: A Unified Framework for Ethical and Equitable Multi-Agent System [0.0] 本稿では,公正性をエージェント相互作用の動的,創発的特性として扱う新しい枠組みを提案する。
この枠組みは、公正な制約、バイアス軽減戦略、および自律的なエージェント行動と社会的価値を整合させるインセンティブメカニズムを統合する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:56:31 GMT)
Extended Haldane model -- a modern gateway to topological insulators [0.0] 我々はスピン軌道相互作用の存在下で全パラメータ空間を考慮に入れたハルダンモデルに精通する。
拡張ハルデンモデルにおいて、様々な異常な量子ホール効果と量子スピンホール効果を説明する。
拡張ハルデンモデルの異方性極限における位相不変量とともに、高次位相的絶縁相の概念を実証する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 17:26:40 GMT)
Evidence of conceptual mastery in the application of rules by Large Language Models [0.0] ルールに基づく意思決定を人間とLLMで比較した2つの実験を行った。
ヒトの2つのシナリオの差は予想外であった。
驚くべきことに、これらの違いでさえLLM応答で複製された。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 19:23:46 GMT)
Evaluating Polish linguistic and cultural competency in large language models [0.0] 我々は,600の質問を手作業で作成するポーランド語と文化の能力ベンチマークを紹介する。
ベンチマークは、歴史、地理、文化と伝統、芸術とエンターテイメント、文法、語彙の6つのカテゴリに分けられる。
我々の実験は、言語モデルにおけるポーランド語能力の新しい視点を提供する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 19:27:10 GMT)
Disentangling Representations through Multi-task Learning [0.0] 分類タスクを最適に解決するエージェントにおいて,不整合表現の出現を保証する実験および理論的結果を提供する。
マルチタスクに訓練されたRNNにおいて、これらの予測を実験的に検証し、連続的な誘引子の形で非絡み合った表現を学習する。
私たちは、トランスフォーマーが特に、そのユニークな世界理解能力を説明するような、無関係な表現に向いていることに気付きました。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 22:12:01 GMT)
Decomposition of RSA modulus applying even order elliptic curves [0.0] 効率的な整数分解アルゴリズムはRSA暗号スキームのすべての変種をゼロにする。
滑らか性に対する一般化されたアプローチの自然な拡張と2ドル進点順序の分離が組み合わさって、ファクタリングアルゴリズムを提案することを実証する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 16:09:07 GMT)
Data-Driven Stochastic Closure Modeling via Conditional Diffusion Model and Neural Operator [0.0] クロージャモデルは、乱流や地球系のような複雑なマルチスケール力学系をシミュレートするのに広く用いられている。
明確なスケールを持たないシステムでは、一般化決定論的および局所閉包モデルは十分な能力に欠けることが多い。
ニューラル演算子と非局所クロージャモデルを構築するためのデータ駆動モデリングフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 00:43:01 GMT)
Cyber for AI at SemEval-2025 Task 4: Forgotten but Not Lost: The Balancing Act of Selective Unlearning in Large Language Models [0.0] 大きな言語モデル(LLM)は、プライバシ、倫理、コンプライアンスを維持する上での課題に直面します。
これらのモデルをスクラッチからリトレーニングすることは、計算不可能である。
この課題に対処するために、LLMにおける選択的アンラーニングの適用に焦点を当てる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:58:08 GMT)
Chemical potential and variable number of particles control the quantum state: Quantum oscillators as a showcase [0.0] 様々な粒子の性質が系のエネルギーに必須条件をもたらすことを示す。
特に化学ポテンシャルは、系のスペクトルと対応する量子状態を外部に操作できる制御パラメータの役割を担っている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:46:35 GMT)
Can We Find the Code? An Empirical Study of Google Scholar's Code Retrieval [0.0] 本研究は,「加速劣化」と「信頼性」を併用した用語を例に挙げる。
Elsevier氏の論文によると、抽象化に含まれるGitHubリンクは、Google Scholarによって包括的に検索されている。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 21:33:49 GMT)
CARIL: Confidence-Aware Regression in Imitation Learning for Autonomous Driving [0.0] エンドツーエンドの視覚に基づく模倣学習は、自動運転の有望な結果を証明している。
従来のアプローチでは、正確な制御を提供するレグレッションベースモデルと、信頼性スコアを提供するが、離散化による精度の低下に悩まされる分類ベースモデルのいずれかに依存している。
我々は、回帰と分類の両ヘッドを統合したデュアルヘッドニューラルネットワークアーキテクチャを導入し、模倣学習における決定信頼性を向上させる。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 08:19:02 GMT)
Binarisation of multi-outcome measurements in high-dimensional quantum correlation experiments [0.0] マルチアウトカム測定のために設計された相関テストは、双項化実装では自明であることを示す。
双項化は量子的優位性の規模において大きなコストをもたらす可能性がある。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 10:06:15 GMT)
Behavior Preference Regression for Offline Reinforcement Learning [0.0] オフライン強化学習(RL)手法は、固定データセットの軌跡のみにアクセスして最適なポリシーを学習することを目的としている。
政策制約法は、報酬の最大化と政策からの逸脱の最小化とのバランスをとる最適化問題として政策学習を定式化する。
オフラインRLに対する振る舞い回帰予測とペア比較のアプローチを適応する。
我々は、広く使われているD4RL LocomotionとAntmazeのデータセットと、より難しいV-D4RLスイートでBPRを実証的に評価した。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 15:13:02 GMT)
AI-Invented Tonal Languages: Preventing a Machine Lingua Franca Beyond Human Understanding [0.0] 本稿では,大規模言語モデル(LLM)が機械間通信(M2M)のためのプライベート音素言語を開発する可能性について検討する。
人間の双子(双子の出生の最大50%)と、マンダリンやベトナムのような自然な声調言語に触発された私たちは、正確な文字間マッピングシステムを実装しました。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 23:59:52 GMT)
AI Agents for Ground-Based Gamma Astronomy [0.0] 本稿では,Cherenkov Telescope Array Observatory パイプラインと統合した2つのプロトタイプについて述べる。
これらのAIエージェントは、複雑なタスクを自動化し、インテリジェントなアシストを提供することによって、システム管理とデータ分析に変革的なアプローチを提供する。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 09:55:54 GMT)
A Hybrid Transformer Model for Fake News Detection: Leveraging Bayesian Optimization and Bidirectional Recurrent Unit [0.0] ベイズアルゴリズムを双方向Gated Recurrent Unit (BiGRU) と統合する最適化トランスフォーマーモデルを提案する。
実験の結果、BiGRU最適化トランスフォーマーはトレーニングセットで100%、テストセットで99.67%の精度を達成した。
提案アルゴリズムは, ほぼ100%の精度で10世紀頃に急速に収束し, その有効性と高速な分類能力を示す。
論文参考訳(メタデータ) (Sun, 02 Mar 2025 07:58:08 GMT)