Language Model Alignment in Multilingual Trolley Problems [138.6] Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:55:19 GMT)
Can Large Language Models Understand Symbolic Graphics Programs? [136.6] シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。
これにより、視覚エンコーダを使わずに、画像や3次元幾何学に関する意味的な疑問に答えるLLMの能力をテストすることができる。
我々は、最小限の努力で手続き的に構築されたシンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。
我々は,プログラムの視覚的アウトプットを判断する能力を評価するため,商用およびオープンソースLCMをベンチマークで評価した。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:54:13 GMT)
Autoregressive Speech Synthesis without Vector Quantization [135.5] We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:07:56 GMT)
PARTONOMY: Large Multimodal Models with Part-Level Visual Understanding [114.5] 画素レベルの部分接地のために設計された LMM ベンチマークである PartONOMY を紹介する。
我々はいくつかの部分中心LMMをトレーニングし、セグメント化トークンの代わりにスパンタグを使用する新しいセグメント化LMMであるPLUMを提案する。
我々の研究は、LMMにおけるきめ細かい基礎的な視覚的理解を実現するための新たな道を開く。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:03:56 GMT)
WizardLM: Empowering large pre-trained language models to follow complex instructions [113.4] ヒトの代わりにLSMを用いて、様々なレベルの複雑さを持つ大量の命令データを作成する方法を示す。
提案したEvol-Instructを使って、より複雑な命令を段階的に書き直す。
次に、生成されたすべての命令データを微調整LLaMAに混合する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:49:09 GMT)
Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.1] 本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:56:59 GMT)
WizardCoder: Empowering Code Large Language Models with Evol-Instruct [106.8] WezardCoderは、複雑な命令の微調整でコードLLMをパワーアップする。
私たちのモデルは、他のすべてのオープンソースコードLLMをかなり上回ります。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:40:36 GMT)
MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.4] 最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。
エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。
事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。
その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:46:24 GMT)
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity [105.5] MoGEはトークンを制約し、事前に定義された各専門家グループ内で同じ数の専門家を起動させる。
Pangu Pro MoEは1カード当たり1148トークン/秒を実現し、投機的アクセラレーションにより1カードあたり1528トークン/秒にさらに改善することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:40:21 GMT)
The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition [96.0] MISP 2025 Challengeは、ビデオモダリティをオーディオと組み合わせることで、マルチモーダル、マルチデバイスミーティングの書き起こしに焦点を当てている。
最高の性能のシステムはベースラインよりも大幅に改善された。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:03:46 GMT)
Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.6] Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:17:49 GMT)
Corrupted but Not Broken: Understanding and Mitigating the Negative Impacts of Corrupted Data in Visual Instruction Tuning [92.2] マルチモーダル大言語モデル(MLLM)における劣化データの影響について検討する。
劣化したデータはモデル性能を劣化させるが、そのような悪影響は大部分が可逆的である。
破損したデータの影響を緩和する既存の戦略をはるかに上回る汚職・汚職訓練パラダイムを導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:32:23 GMT)
One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation [90.8] 超解像(SR)の拡散モデルは高品質な視覚結果を生成するが、高価な計算コストを必要とする。
本稿では,拡散型SRモデルの1つであるResShiftの新しい蒸留法であるRSDを提案する。
本手法は,学生ネットワークを訓練し,その上で訓練した新しい偽ResShiftモデルが教師モデルと一致するような画像を生成することに基づいている。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:26:20 GMT)
An Optimisation Framework for Unsupervised Environment Design [88.3] 非教師なし環境設計(UED)は、エージェントの全般的な堅牢性を最大化することを目的としている。
ゼロサム設定において、証明可能な収束アルゴリズムを提供する。
提案手法の有効性を実証的に検証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:07:26 GMT)
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.9] 大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:41:22 GMT)
Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.7] 我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:35:12 GMT)
Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making [80.9] 提案する概念は「Catfish Agent」である。これは、構造的不満を注入し、無声な合意に反するように設計された役割特化LDMである。
組織心理学において「ナマズ・エフェクト」にインスパイアされたカマズ・エージェントは、より深い推論を促進するために、新たなコンセンサスに挑戦するように設計されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:59:50 GMT)
QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning [80.3] 我々は、長文推論RLのパラダイムを定式化し、最適な訓練効率と不安定な最適化プロセスにおける重要な課題を特定する。
QwenLong-L1 は,コンテクストをプログレッシブ・コンテクスト・スケーリングにより長文シナリオに適応させるフレームワークである。
QwenLong-L1-32B は OpenAI-o3-mini や Qwen3-235B-A22B といったフラグシップ LRM よりも優れていた。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:39:47 GMT)
Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [75.8] Plan-R1は、軌道計画を逐次予測タスクとして定式化する、新しい2段階の軌道計画フレームワークである。
第1段階では,専門家データに基づく次の動きトークン予測により,自己回帰軌道予測器を訓練する。
第2段階では、規則に基づく報酬(衝突回避、速度制限など)を設計し、グループ相対政策最適化を用いてモデルを微調整する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:51:12 GMT)
Knowledge Boundary of Large Language Models: A Survey [75.7] 大規模言語モデル(LLM)はパラメータに膨大な量の知識を格納するが、特定の知識の記憶と利用に制限がある。
これは、LLMの知識境界を理解するための重要な必要性を強調している。
本稿では,LLM知識境界の包括的定義を提案し,知識を4つの異なるタイプに分類する形式化された分類法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:21:26 GMT)
Exploring the Necessity of Reasoning in LLM-based Agent Scenarios [74.4] ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。
LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。
LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:23:00 GMT)
Sign Operator for Coping with Heavy-Tailed Noise in Non-Convex Optimization: High Probability Bounds Under $(L_0, L_1)$-Smoothness [74.2] SignSGD with Majority Votingは,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappaka ppakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa -1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappappapa-1right,Kappaを用いて,複雑性の全範囲で堅牢に動作することを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:31:20 GMT)
Aligning Generalisation Between Humans and Machines [74.1] AI技術は、科学的発見と意思決定において人間を支援することができるが、民主主義と個人を妨害することもある。
AIの責任ある使用と人間-AIチームへの参加は、AIアライメントの必要性をますます示している。
これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:44:21 GMT)
XBOUND: Exploring the Capability Boundaries of Device-Control Agents through Trajectory Tree Exploration [73.9] 本研究では, デバイス・コントロル・エージェント(DCエージェント)の評価手法について, 新たな視点を紹介する。
提案手法は,新しい探索距離の計算を用いて,DCエージェントの能力境界を導出するXBOUND評価手法を提案する。
我々はOS-AtlasシリーズとUI-TARSシリーズを評価し,5つの共通タスクの総合的および特定性能について検討した。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:49:30 GMT)
OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [73.7] Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。
オーバーリフレクションは、T2Iモデルの安全性向上のためのさらなる研究の必要性を浮き彫りにしている。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:42:46 GMT)
MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement [73.3] 我々は機械学習エージェントを構築するための新しいアプローチであるMLE-STARを提案する。
MLE-STARは、まず、検索エンジンを使用してWebから効果的なモデルを取得することにより、外部知識を活用する。
MLE-STARにより提案される効果的な戦略を用いた新しいアンサンブル手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:11:25 GMT)
Beware of Your Po! Measuring and Mitigating AI Safety Risks in Role-Play Fine-Tuning of LLMs [73.1] RoleBenchを用いたロールプレイの微調整リスクの総合評価を行う。
実験により、ロールプレイの微調整が安全性能の顕著な低下につながることが明らかになった。
本稿では,ロールプレイ機能と安全性を両立させる新しい手法であるSARFT(Safety-Aware Role-Play Fine-Tuning)を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:26:02 GMT)
Towards Training One-Step Diffusion Models Without Distillation [72.8] 我々は,教師のスコア管理を完全に禁止する,新しい研修方法のファミリーを紹介する。
教師の重みによる学生モデルの初期化は依然として重要な課題である。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:25:52 GMT)
A Survey of LLM $\times$ DATA [72.0] 大規模言語モデル(LLM)とデータ管理(Data4LLM)の統合は、両方のドメインを急速に再定義しています。
一方、Data data4LLMは、事前トレーニング、後トレーニング、検索強化生成、エージェント生成などの段階に必要なデータの高品質、多様性、タイムラインをLLMに提供する。
一方、LLMはデータ管理のための汎用エンジンとして登場しつつある。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:57:47 GMT)
Large Language Model-enhanced Reinforcement Learning for Low-Altitude Economy Networking [71.8] Low-Altitude Economic Networking (LAENet)は、1000m以下の多様な飛行アプリケーションをサポートすることを目的としている。
複雑な意思決定、資源の制約、環境の不確実性は、LEENetの開発に重大な課題をもたらす。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:25:42 GMT)
PhySense: Sensor Placement Optimization for Accurate Physics Sensing [71.0] PhySenseは、物理的なフィールドを共同で再構築し、センサー配置を最適化するフレームワークである。
最先端の物理センサーの精度を達成し、以前は考えられていなかった情報的なセンサー配置を発見する。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:32:48 GMT)
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation [70.6] 本稿では,新しいデータ生成法であるAIDSAFE(Agenic Iterative Deliberation for Safety Reasoning)を提案する。
AIDSAFEにおけるデータリファインダーの段階は、反復的、冗長的、詐欺的思考を排除し、高品質なアウトプットを保証する。
本評価は, AIDSAFEによるCoTsが, より優れた政策順守と推論品質を実現することを示すものである。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:34:40 GMT)
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.3] 野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:48:34 GMT)
QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization [70.3] QwenLong-CPRSはコンテキスト圧縮フレームワークであり、明示的な長文最適化のために設計されている。
QwenLong-CPRSは21.59$times$コンテキスト圧縮と19.15ポイントの平均パフォーマンス向上を達成した。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:42:25 GMT)
Are Language Models Consequentialist or Deontological Moral Reasoners? [69.9] 我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:51:18 GMT)
Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [69.0] 大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:59:29 GMT)
Geometry-Editable and Appearance-Preserving Object Compositon [68.0] 汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:05:28 GMT)
Good Enough: Is it Worth Improving your Label Quality? [66.7] 高品質なラベルはドメイン内のパフォーマンスを改善するが、小さなしきい値以下では、利益は依然として不透明である。
事前トレーニングの場合、ラベルの品質は最小限の影響を受けており、モデルが詳細なアノテーションよりも一般的な概念を伝達することを示唆している。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:18:24 GMT)
OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.3] 大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:59:05 GMT)
How does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective [64.8] 本稿では,言語ニューロン(言語特異的ニューロンや言語関連ニューロンを含む)と言語非依存ニューロンを検出する,より微細なニューロン識別アルゴリズムを提案する。
異なる種類のニューロンの分布特性に基づいて、多言語推論のためのLCMの内部過程を4つの部分に分割する。
我々は、異なる種類のニューロンに焦点を合わせ、その前後のモデルを体系的に分析する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:59:52 GMT)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.7] 強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:30:25 GMT)
WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild? [64.6] 本稿では,自然環境における文書理解の評価に特化して設計されたWildDocについて紹介する。
WildDoc上での最先端MLLMの評価は、従来のベンチマークと比べて性能が大幅に低下し、モデルの頑健さが不十分であることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:00:24 GMT)
AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [64.1] AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:15:21 GMT)
MetaGS: A Meta-Learned Gaussian-Phong Model for Out-of-Distribution 3D Scene Relighting [63.6] アウト・オブ・ディストリビューション(OOD) 3Dリライティングは、目に見えない照明条件下での新しいビュー合成を必要とする。
この課題に対処するためにMetaGSを2つの視点から紹介する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:43:12 GMT)
HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard [63.5] VLN(Vision-and-Language Navigation)システムは、離散(パノラマ)または連続(フリーモーション)のパラダイムのみに焦点を当てることが多い。
我々は、これらのパラダイムを明示的な社会的認識制約の下でマージする統合されたヒューマン・アウェアVLNベンチマークを導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:53:43 GMT)
Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.5] 分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。
局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。
最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:19:36 GMT)
Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.4] 本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:46:03 GMT)
Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop [63.3] TimeXLはプロトタイプベースの時系列エンコーダを統合するマルチモーダル予測フレームワークである。
より正確な予測と解釈可能な説明を生成する。
4つの実世界のデータセットに対する実証的な評価は、TimeXLがAUCで最大8.9%の改善を達成していることを示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:50:43 GMT)
Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.1] アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:29:31 GMT)
ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [62.9] textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:08:29 GMT)
Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.8] Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:47:05 GMT)
Selftok: Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning [62.4] 自己整合性トークン化装置(Selftok)について紹介する。
設計コアでは、画像生成の逆拡散過程を用いて、自己回帰(AR)を視覚トークンに先立って構成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:07:09 GMT)
Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [62.0] LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:28:53 GMT)
Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.4] 大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:32:22 GMT)
DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.4] 本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:08:52 GMT)
Structure-Accurate Medical Image Translation via Dynamic Frequency Balance and Knowledge Guidance [60.3] 拡散モデルは,必要な医用画像を合成するための強力な戦略である。
既存のアプローチはまだ、高周波情報の過度な適合による解剖学的構造歪みの問題に悩まされている。
本稿では,動的周波数バランスと知識指導に基づく新しい手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:25:08 GMT)
Minute-Long Videos with Dual Parallelisms [60.2] Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:55:22 GMT)
Convergence of Clipped-SGD for Convex $(L_0,L_1)$-Smooth Optimization with Heavy-Tailed Noise [60.2] Clip-SGDのようなクリッピングを持つ一階法は、$(L_$1)$-smoothnessの仮定の下でSGDよりも強い収束保証を示す。
Clip-SGD の高確率収束バウンダリを凸 $(L_$1)$-smooth の重み付き雑音による最適化に適用した最初の高確率収束バウンダリを確立する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:23:42 GMT)
DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [60.0] 大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
DRPruningは、トレーニング中にデータ分散を動的に調整し、不均一なマルチタスクデータ間でのバランス性能を回復する手法である。
単言語および多言語設定の実験では、DRPランニングはプルーニングと継続トレーニングの両方において同様の大きさのモデルを上回ることが示されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:52:03 GMT)
Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.4] eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:32:00 GMT)
Can Large Reasoning Models Self-Train? [59.0] 大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:16:00 GMT)
Internal Bias in Reasoning Models leads to Overthinking [58.8] 推論モデルにおける過度な考えは、入力テキストに対する内部バイアスから生じる可能性があることを初めて示します。
元の入力部をマスクアウトすることで、内部バイアスの影響を効果的に緩和することができ、推論長を31%-53%削減することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:44:20 GMT)
RLJP: Legal Judgment Prediction via First-Order Logic Rule-enhanced with Large Language Models [58.7] 法的判断予測(LJP)は、法的AIにおいて重要な課題である。
既存のLJPモデルは、高いパフォーマンスのために司法上の前例と法的な知識を統合している。
しかし彼らは、厳密な論理分析を必要とする法的判断の重要な要素である法的推論論理を無視している。
本稿では、一階述語論理(FOL)形式と比較学習(CL)に基づく規則強化された法的判断予測フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:50:21 GMT)
DADM: Dual Alignment of Domain and Modality for Face Anti-spoofing [58.6] マルチモーダル・フェイス・アンチ・スプーフィング (FAS) が顕著な研究対象となっている。
相互情報に基づくモダリティ間のアライメントモジュールを提案する。
サブドメイン超平面とモダリティ角マージンの両方を整列する双対アライメント最適化法を用いる。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:28:52 GMT)
Designing Cyclic Peptides via Harmonic SDE with Atom-Bond Modeling [58.4] 本稿では,高調波SDEに基づく生成構造予測モデルであるAtomSDEと残留型予測器であるResの2つの重要なコンポーネントからなるCpSDEを紹介する。
CpSDEは既存のデータ制限を克服し、様々な環状ペプチドの設計に長けている。
本手法により設計した環状ペプチドは安定性と親和性を示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:24:12 GMT)
AutoSGD: Automatic Learning Rate Selection for Stochastic Gradient Descent [58.1] 本稿では,SGD法であるAutoSGDを紹介する。
実験結果から,従来の最適化問題や機械学習タスクにおいて,この手法の強い性能が示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:25:21 GMT)
Born a Transformer -- Always a Transformer? [57.4] We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。
我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。
メカニスティック解析により、この非対称性は、事前訓練されたトランスフォーマー内のインダクションの強度と反インダクション回路の強度の違いに関係していることが明らかになった。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:36:50 GMT)
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model [57.2] 注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文参考訳(メタデータ) (Tue, 27 May 2025 13:30:46 GMT)
Be Decisive: Noise-Induced Layouts for Multi-Subject Generation [56.8] 複雑なプロンプトは被写体漏れを引き起こし、量、属性、視覚的特徴の不正確さを引き起こす。
本稿では,初期雑音から導出されるプロンプトに整合した空間配置を予測し,デノナイジング過程を通じて改良する手法を提案する。
提案手法では,各聴覚ステップにおける雑音誘発レイアウトを予測・改善するために,小さなニューラルネットワークを用いる。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:54:24 GMT)
Towards Generalized Proactive Defense against Face Swapping with Contour-Hybrid Watermark [56.5] 顔の交換は、プライバシーとセキュリティの懸念として認識されており、かなりの防衛研究を引き起こしている。
未知の顔交換技術に対して積極的に透かしを埋め込む。
本手法は,トレーニング中のスワップ技術や大規模メッセージの保存を必要とせず,顔スワップ検出を一般化する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:08:24 GMT)
NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [56.5] 我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。
我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
匿名化に関する以前の研究と比較すると、人間に触発されたアプローチはより自然な書き直しをもたらす。
論文参考訳(メタデータ) (Tue, 27 May 2025 00:59:38 GMT)
Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.3] 大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:24:02 GMT)
Creativity in LLM-based Multi-Agent Systems: A Survey [56.3] 大規模言語モデル(LLM)によるマルチエージェントシステム(MAS)は、人間とAIが協調してアイデアやアーティファクトを生成する方法を変えつつある。
これはMASにおける創造性に関する最初の調査である。
本研究では,(1)エージェントの能動性やペルソナ設計の分類,(2)分岐探索,反復改良,協調合成などの生成技術の概要,(3)不整合評価基準,不整合性バイアス緩和,協調競合,統一ベンチマークの欠如といった重要な課題について論じる。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:36:14 GMT)
Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.1] 本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。
Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。
最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:05:01 GMT)
MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding [55.3] ビデオの時間的理解は、マルチモーダルな大言語モデル(MLLM)において、ビデオ内のイベントを推論するために不可欠である。
タイムスタンプを意識したマルチセグメントグラウンドの導入により時間的理解を高める新しいRLに基づくMUSEGを提案する。
効果的な学習を容易にするため,段階的な報酬付きRL学習レシピを設計し,時間的根拠に基づく推論に向けてモデルを段階的に導く。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:50:07 GMT)
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.2] メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。
本稿ではまず,メモリ表現をパラメトリックおよびコンテキスト形式に分類する。
次に、コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:38:40 GMT)
PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning [55.0] ポイントクラウドのための自己教師付き表現学習は、様々なタスクで事前訓練されたモデルパフォーマンスを改善する効果を実証した。
事前訓練されたモデルは複雑さが増すにつれて、下流のアプリケーションに完全に微調整を施すには、かなりの計算資源とストレージ資源が必要である。
そこで我々は,低ランク適応(LoRA)とマルチスケールトークン選択を併用した簡易かつ効果的なPointLoRAを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:16:02 GMT)
Controllable Logical Hypothesis Generation for Abductive Reasoning in Knowledge Graphs [54.6] 知識グラフの帰納的推論は、観測された実体からもっともらしい論理的仮説を生成することを目的としている。
可制御性の欠如により、単一の観測は、多くの妥当だが冗長あるいは無関係な仮説をもたらす可能性がある。
帰納的推論の実用性を改善するために,制御可能な仮説生成タスクを導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:36:47 GMT)
PMA: Towards Parameter-Efficient Point Cloud Understanding via Point Mamba Adapter [54.3] 本稿では,事前学習モデルのすべての層から順序付き特徴系列を構成するPMAを提案する。
また、異なる層にまたがって共有される幾何学制約ゲートプロンプトジェネレータ(G2PG)を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:27:16 GMT)
Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.1] 本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:56:56 GMT)
Text-Queried Audio Source Separation via Hierarchical Modeling [53.9] 本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。
Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。
本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:00:38 GMT)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.8] Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:22:35 GMT)
Controllable Context Sensitivity and the Knob Behind It [53.7] 予測を行う場合、言語モデルは、そのコンテキストとそれ以前の知識にどれだけ依存しているかをトレードオフする必要があります。
我々は,この感性を制御するノブを探索し,言語モデルが文脈から応答するか,それ以前の知識から応答するかを判断する。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:44:35 GMT)
OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation [52.9] 我々は, (i) きめ細かいベンチマークである OpenS2V-Eval と (ii) 百万規模のデータセットである OpenS2V-5M からなる OpenS2V-Nexus を提案する。
OpenS2V-Evalは、自然の主観的外観とアイデンティティの忠実さを持つ主観的一貫性のあるビデオを生成するモデルの能力に焦点を当てている。
オープンソースの大規模S2V生成データセットOpenS2V-5Mを作成した。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:02:09 GMT)
Sci-Fi: Symmetric Constraint for Frame Inbetweening [52.7] フレーム間インベントワイニングは、与えられた開始フレームと終了フレームに条件付き中間映像シーケンスを合成することを目的としている。
現在の最先端手法は、主に大規模な事前訓練された画像-映像拡散モデルを拡張している。
Sci-Fiと呼ばれる新しいフレームワークを提案し、より小さなトレーニングスケールの制約に対してより強力なインジェクションを適用する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:53:50 GMT)
A Graph Perspective to Probe Structural Patterns of Knowledge in Large Language Models [52.5] 大規模な言語モデルは、その知識アクセス、編集可能性、推論可能性、説明可能性のための神経知識基盤として広く研究されている。
我々は,LLMの知識を三重項レベルと実体レベルの両方で定量化し,ノード次数などのグラフ構造特性との関連性を分析する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:58:53 GMT)
Sparsified State-Space Models are Efficient Highway Networks [52.3] ステートスペースモデル(SSM)は、高価な自己アテンションを線形リカレンスに置き換えることでトランスフォーマーに代わるものを提供する。
本稿では,計算予算内でSSMをスパース化して拡張する,単純かつ効果的な手法を提案する。
Simbaはトークンプルーニングに基づくSSMの階層的スペーシフィケーション手法である。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:07:23 GMT)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.2] 本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:50:18 GMT)
Practical estimation of the optimal classification error with soft labels and calibration [52.1] 我々は,ベイズ誤差,最適誤差率を推定するために,ソフトラベルを用いた以前の研究を拡張した。
我々は、破損したソフトラベルによる推定という、より困難な問題に取り組みます。
私たちのメソッドはインスタンスフリーです。つまり、入力インスタンスへのアクセスを前提としません。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:04:57 GMT)
Frame-Level Captions for Long Video Generation with Complex Multi Scenes [52.1] 本稿では,データセットをフレームレベルでアノテートする方法を提案する。
この詳細なガイダンスはFrame-Level Attention Mechanismを使って、テキストとビデオの一致を正確に確認する。
トレーニングでは、Diffusion Forcingを使用して、モデルを柔軟に処理する能力を提供します。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:39:43 GMT)
Faster and Better LLMs via Latency-Aware Test-Time Scaling [52.1] テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。
既存の研究は、レイテンシに敏感な観点から、TSの効率性を見落としている。
計算最適TSは、レイテンシが重要となるシナリオにおいて、必ずしも最低レイテンシをもたらすとは限らないことを実証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:38:43 GMT)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.1] 本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:58:50 GMT)
Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment [52.0] CoZ(Chain-of-zoom)は、SISRをマルチスケール対応プロンプトを備えた中間スケールステートの連鎖に分解するフレームワークである。
視覚的手がかりは高倍率で減少するため、視覚言語モデル(VLM)によって生成されたマルチスケール対応テキストプロンプトで各ズームステップを拡大する。
実験により、CoZでラップされた標準4x拡散SRモデルが256倍拡大し、高い知覚品質と忠実度が得られることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:02:29 GMT)
PLANETALIGN: A Comprehensive Python Library for Benchmarking Network Alignment [51.9] ネットワークアライメント(NA)は、異なるネットワーク間のノード対応を識別することを目的としている。
NAの研究が増えているにもかかわらず、NAメソッドの体系的な開発とベンチマークを容易にする包括的なライブラリが欠けている。
ネットワークアライメントのためのPythonライブラリであるPLANETALIGNを紹介します。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:56:30 GMT)
Diffusion Predictive Control with Constraints [51.9] 拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:45:45 GMT)
Understanding Synthetic Context Extension via Retrieval Heads [51.9] 本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:03:10 GMT)
SeqPO-SiMT: Sequential Policy Optimization for Simultaneous Machine Translation [51.8] SeqPO-SiMTは同時機械翻訳(SiMT)のための新しいポリシー最適化フレームワークである
レイテンシを低減しつつ、翻訳品質を向上させるために、カスタマイズされた報酬が組み込まれている。
我々は、En to Zh および Zh to En SiMT タスクのために、さまざまな領域から6つのデータセットを実験する。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:59:58 GMT)
When More is Less: Understanding Chain-of-Thought Length in LLMs [51.6] 大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:56:52 GMT)
More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [51.5] 大規模言語モデル(LLM)は、パラメータ更新を必要とせずに、数ショットのインコンテキスト学習(ICL)で優れている。
DrICLは、textitDifferentiatedとtextitReweightingの目的によってモデル性能を向上させる新しい最適化手法である。
textitMany-Shot ICL Benchmark (ICL-50) は最大8,000トークンのシーケンスで1から350までのショット数をカバーした50タスクの大規模ベンチマークである。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:48:24 GMT)
DSOcc: Leveraging Depth Awareness and Semantic Aid to Boost Camera-Based 3D Semantic Occupancy Prediction [51.4] カメラによる3Dセマンティックアクセシビリティ予測(DSOcc)を促進するために,奥行き認識とセマンティック支援を活用することを提案する。
我々は,非学習法によりソフトな占有率の信頼度を算出し,画像特徴を乗じて,占有状態と占有階級推定を共同で行う。
画像のセマンティックセグメンテーションをよく訓練し、複数のフレームをその占有確率で融合することにより、占有率のクラス推論を補助し、堅牢性を高める。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:45:00 GMT)
Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.2] モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。
最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。
限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:10:46 GMT)
Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.1] 本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:21:21 GMT)
Improved Representation Steering for Language Models [50.9] 我々は新しいReference-free Preference Steering (RePS)を通して表現ステアリングを改善する方法を示す。
2Bから27Bまでのサイズを持つGemmaモデルでは、RePSは言語モデリングの目的で訓練された既存のステアリングメソッドよりも優れています。
抑圧においては、RePSはGemma-2の言語モデリングの目的と一致し、より大きなGemma-3の変種よりも優れている。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:16:40 GMT)
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.8] テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:17:52 GMT)
TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.8] DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:30:48 GMT)
Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors [50.7] 連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。
インクリメンタルなプロンプトチューニングに基づくCLIPのための簡潔なCLアプローチを提案する。
我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:51:37 GMT)
OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions [50.7] 我々は,オンラインマルチモーダル対話応答生成(OMCRG)を紹介した。
我々は,高品質なマルチモーダルリスナ応答を自動生成するMLLM(Multimodal Large Language Model)であるOmniResponseを提案する。
我々は、同期分割画面ビデオ、マルチチャンネルオーディオ、転写、顔行動アノテーションを含む696の高品質なダイアディックインタラクションからなる新しいデータセットであるResponseNetを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:12:46 GMT)
Pretraining Language Models to Ponder in Continuous Space [50.5] 単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:47:33 GMT)
Can LLMs Learn to Map the World from Local Descriptions? [50.5] 本研究では,Large Language Models (LLMs) がコヒーレントなグローバル空間認識を構築できるかどうかを検討する。
都市環境を模擬した実験により, LLMは実空間分布に一致した潜在表現を示すことを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:22:58 GMT)
Distance between Relevant Information Pieces Causes Bias in Long-Context LLMs [50.4] LongPiBenchは、複数の関連する情報を含む位置バイアスを評価するために設計されたベンチマークである。
これらの実験によると、現在のほとんどのモデルは「中間の失われた」問題に対して堅牢であるが、関連する情報片の間隔に関する重大なバイアスが存在する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:47:37 GMT)
TuneComp: Joint Fine-tuning and Compression for Large Foundation Models [50.3] シーケンシャルな微調整と圧縮はパフォーマンスを犠牲にし、中間ステップとして必要以上のモデルを作成する。
そこで本研究では, 圧搾された低ランク構造に段階的に蒸留することにより, 連続的に微調整を行い, 圧縮する手法を提案する。
実験により、関節の微調整と圧縮は他の逐次圧縮法よりも大幅に優れていることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:49:35 GMT)
From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.1] 以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:49:00 GMT)
Intrinsically-Motivated Humans and Agents in Open-World Exploration [50.0] 複雑なオープンエンド環境で、大人、子供、AIエージェントを比較します。
エントロピーとエンパワーメントだけが、人類の探査の進歩と一貫して正の相関関係にあることがわかった。
個人の発話,特に目的語化が子どもの探索に有効であることを示す予備的証拠を見出した。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:09:36 GMT)
Generalizable and Relightable Gaussian Splatting for Human Novel View Synthesis [49.7] GRGSは、多彩な照明条件下での高忠実なヒューマン・ノベル・ビュー・シンセサイザーのための一般的な3Dガウスのフレームワークである。
我々は, 精密深度および表面の正常度を予測するために, 合成依存データに基づいて学習した照明対応幾何微細化(LGR)モジュールを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:59:47 GMT)
Can Community Notes Replace Professional Fact-Checkers? [49.5] Twitter/XとMetaによるポリシーの変更は、ファクトチェック組織とのパートナーシップから移行したことを示している。
分析の結果,コミュニティノートでは,過去の報告の最大5倍のファクトチェックソースを引用していることがわかった。
その結果,コミュニティのモデレーションの成功は,プロのファクトチェックに依存し,市民とプロのファクトチェックがいかに深く絡み合っているかを強調した。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:54:58 GMT)
Uni3D-MoE: Scalable Multimodal 3D Scene Understanding via Mixture of Experts [49.2] 適応型3次元マルチモーダル融合を実現するために, スパース・ミックス・オブ・エクササイズ(MoE)ベースの3次元MLLMであるUni3D-MoEを提案する。
Uni3D-MoEは、多視点RGBと深度画像、鳥眼図(BEV)マップ、点雲、ボクセル表現を含む、包括的な3Dモダリティのセットを統合している。
本フレームワークでは,トークンレベルで適切な専門家を動的に選択することで,学習可能なルーティング機構を疎い MoE ベースの大規模言語モデル内に導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:03:30 GMT)
The Cavity-Enhanced Spectroscopist's Guide to Polaritons [49.2] ポラリトン化学は、電磁場を持つ直接分子過程への新たな経路として称賛されている。
ここでは、古典光学を用いた偏光子の形成、分光、挙動に関するチュートリアル的視点を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 00:39:01 GMT)
ConsiStyle: Style Diversity in Training-Free Consistent T2I Generation [49.2] スタイルアライメントと主観的整合性を両立させるトレーニングフリー手法を提案する。
提案手法は,スタイルを主観的外観から効果的に分離し,テキスト整列画像の忠実な生成を可能にする。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:06:08 GMT)
MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation [49.1] 大規模言語モデル(textbfLLMs)は現実世界の対話アプリケーションで広く採用されている。
MARS-Benchはプレイバイプレイのテキストコメンタリーから構築され、リアルな対話を特徴とする。
MARS-Bench の実験では、クローズドソース LLM がオープンソース代替よりも大幅に優れていることも明らかにされている。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:28:04 GMT)
Universal Reasoner: A Single, Composable Plug-and-Play Reasoner for Frozen LLMs [48.8] Universal Reasoner (UniR) は、シングル、ライト、コンポーザブル、プラグ・アンド・プレイの推論モジュールである。
凍結したLarge Language Models (LLMs) を使って、特別な推論能力を持つことができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:53:36 GMT)
DecisionFlow: Advancing Large Language Model as Principled Decision Maker [48.7] DecisionFlowは、モデルにアクション、属性、制約の構造化された表現を推論するように誘導する、新しい決定モデリングフレームワークである。
プロンプトから直接回答を予測するのではなく、DecisionFlowは意味論的に根拠のある決定空間を構築し、潜在ユーティリティ関数を推論する。
実験の結果,DecisionFlowの精度は,強いプロンプトベースラインよりも最大30%向上した。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:23:53 GMT)
Revisiting Sparsity Constraint Under High-Rank Property in Partial Multi-Label Learning [48.5] 部分的マルチラベル学習(PML)は、各サンプルが候補ラベルセットと関連付けられたシナリオまで、マルチラベル学習パラダイムを拡張している。
既存のPML法はノイズラベル行列の空間性とグランドトラスラベル行列の低ランク性という2つの仮定に依存している。
本稿では,予測されたラベル行列に高階特性を付与しつつ,ノイズラベル行列に空間性制約を導入する新しい手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:25:50 GMT)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.3] CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:54:51 GMT)
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning [48.3] テスト時間スケーリング(TTS)とは、推論中に余分な計算を割り当てることで推論性能を向上させる手法である。
CoconutとSoftCoTの最近の研究は、連続的な潜在空間における思考が推論性能をさらに向上させることを示した。
我々はSoftCoT++を導入して,SoftCoTをTest-Time Scalingパラダイムに拡張し,多様な思考経路の探索を可能にする。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:35:29 GMT)
CityGo: Lightweight Urban Modeling and Rendering with Proxy Buildings and Residual Gaussians [48.2] CityGoは、テクスチャ化されたプロキシ幾何と周囲の3Dガウスアンを組み合わせたハイブリッドフレームワークで、空から見た都市景観のレンダリングを行う。
我々の表現はトレーニング時間を大幅に短縮し、平均1.4倍のスピードアップを実現し、純粋な3次元ガウススプラッティングアプローチに匹敵する視覚的忠実度を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:24:08 GMT)
Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases [47.9] フォーマルな言語上での言語モデルの事前学習は、自然言語の獲得を改善することができる。
階層的な依存関係をキャプチャする言語は、言語モデルが自然言語の損失を低減できることを示す。
また、フォーマルな言語から自然言語への移動の機械的証拠を与える。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:23:34 GMT)
Efficient Large Language Model Inference with Neural Block Linearization [47.9] 本稿では,トランスフォーマーモデル推論を高速化する新しいフレームワークであるNeural Block Linearization (NBL)を紹介する。
NBLは、線形最小平均正方形誤差推定器から導かれる線形近似で自己アテンション層を置き換える。
実験では、NBLは、複数の推論ベンチマークで競合精度を維持しながら、顕著な計算スピードアップを達成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:01:43 GMT)
Thinking Before Running! Efficient Code Generation with Thorough Exploration and Optimal Refinement [47.9] textbfThinkCoderは、徹底的な探索と最適な精錬を組み合わせたフレームワークです。
探索フェーズは、潜在的な解を探すことによって解空間を多様化し、続いて精度を高める精製フェーズが続く。
テスト時間計算のオーバーヘッドを最小化するために、Reinforced Self-Training (ReST) を用いた優先駆動最適化を導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:36:00 GMT)
Reinforcing General Reasoning without Verifiers [47.7] 本稿では,応答検証を回避し,RLを用いて参照応答を生成する確率を直接最大化する検証自由手法(VeriFree)を提案する。
VeriFreeは、MMLU-Pro、GPQA、SuperGPQA、数学関連のベンチマークにまたがる広範囲な評価において、検証者ベースの手法に匹敵する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:56:27 GMT)
BLAST: Balanced Sampling Time Series Corpus for Universal Forecasting Models [47.7] 本稿では,バランスの取れたサンプリング戦略を通じて,データの多様性を高めるための新しい事前学習コーパスを提案する。
BLTは、公開データセットからの321億の観測を取り入れ、時系列パターンを特徴付けるために、包括的な統計メトリクススイートを使用している。
本研究は, 予測タスクにおけるトレーニング効率とモデル性能の両面において, データの多様性が重要な役割を担っていることを明らかにする。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:26:51 GMT)
Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA [47.6] エバーグリーンラベルを用いた最初の多言語QAデータセットであるEverGreenQAを紹介する。
質問の時間性を明示的にエンコードするかどうかを評価するため、12の現代大言語モデルをベンチマークする。
また、このタスクでSoTA性能を実現する軽量な多言語分類器EG-E5を訓練する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:35:13 GMT)
DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction [47.5] 本稿では,粗い1次元自己回帰(AR)画像生成法であるDetailFlowを提案する。
DetailFlowは、段階的に劣化したイメージで管理される解像度対応トークンシーケンスを学習することにより、グローバルな構造から生成プロセスを開始することができる。
提案手法は,従来の手法よりもはるかに少ないトークンで高品質な画像合成を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:45:21 GMT)
RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation [47.4] 96のオブジェクトクラスを含む479のタスクにわたる107kのデモトラジェクトリを含むデータセットであるRoboMINDを紹介した。
RoboMINDは人間の遠隔操作を通じて収集され、総合的なロボット関連情報を含んでいる。
私たちのデータセットには5万個の実世界の障害デモが含まれており、それぞれに詳細な原因が伴い、障害のリフレクションと修正を可能にしています。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:46:53 GMT)
End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding [47.4] 放射線腫瘍学の分野に適した包括的大規模マルチモーダルモデル(LMM)であるRO-LMMを提案する。
このモデルは臨床ワークフロー内の一連のタスクを効果的に管理し、臨床コンテキストの要約、放射線治療計画の提案、計画誘導されたターゲットボリュームセグメンテーションを含む。
クリーン入力処理の整合性を維持しつつ,LMMのノイズ入力に対する堅牢性を向上する,CEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:50:58 GMT)
TransBench: Breaking Barriers for Transferable Graphical User Interface Agents in Dynamic Digital Environments [47.4] 3つの重要な次元にわたるGUIエージェントの転送可能性の体系的評価と向上を目的とした最初のベンチマークであるTransBenchを紹介する。
TransBenchには、さまざまな機能を備えた15のアプリカテゴリが含まれており、堅牢な評価を可能にするため、バージョンやプラットフォームにまたがる不可欠なページをキャプチャする。
実験では,動的実環境におけるGUIエージェントの実用性を示すとともに,グラウンド化精度の大幅な向上を実証した。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:41:51 GMT)
Cross from Left to Right Brain: Adaptive Text Dreamer for Vision-and-Language Navigation [46.8] VLN(Vision-and-Language Navigation)は、エージェントが部分観測可能性の下で自然な指示に従うことでナビゲートする必要がある。
近年の手法は将来のシーンを想像することでこれを緩和するが、それらは視覚に基づく合成に依存している。
我々は,テキスト形式で重要な環境セマンティクスを適応的に想像し,より信頼性と効率的な戦略を実現することを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:40:20 GMT)
efunc: An Efficient Function Representation without Neural Networks [46.8] 本稿では,連続関数モデリングのための新しいフレームワークを提案する。
次に、ニューラルネットワークと複素構造の両方をバイパスするパラメータ効率関数に基づいて、コンパクトな関数表現を導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:16:56 GMT)
Exploring the Boundary of Diffusion-based Methods for Solving Constrained Optimization [46.8] 本稿では,DiOptと呼ばれる連続制約最適化問題に対する拡散に基づく新しいフレームワークを提案する。
DiOptは2つの異なるフェーズで動作し、最初のウォームスタートフェーズは教師付き学習によって実装され、その後ブートストラップフェーズが続く。
問題の制約を厳格に満たしつつ、反復的に解を洗練し、目的関数を改善するように設計されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:05:01 GMT)
Watermarking Without Standards Is Not AI Governance [46.7] 現在の実装は、効果的な監視を提供するのではなく、象徴的なコンプライアンスとして機能するリスクがある、と私たちは主張する。
本稿では,技術標準,監査インフラストラクチャ,実施機構を含む3層フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:10:04 GMT)
The Feasibility of Topic-Based Watermarking on Academic Peer Reviews [46.7] 大規模言語モデル(LLM)に対する話題ベース透かし(TBW)の評価を行った。
以上の結果から,TBWは非透かし出力と比較してレビュー品質を保ちつつ,パラフレージングに基づく回避を強く示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:09:27 GMT)
IndustryEQA: Pushing the Frontiers of Embodied Question Answering in Industrial Scenarios [46.4] 既存のEmbodied Question Answering (EQA)ベンチマークは主に家庭環境に焦点を当てている。
安全クリティカルな倉庫シナリオにおけるエンボディエージェント能力を評価するための最初のベンチマークであるIndustrialEQAを紹介する。
このベンチマークには、機器の安全性、人間の安全性、オブジェクト認識、属性認識、時間的理解、空間的理解の6つのカテゴリをカバーする豊富なアノテーションが含まれている。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:36:17 GMT)
Voronoi-grid-based Pareto Front Learning and Its Application to Collaborative Federated Learning [45.7] 本稿では,設計空間をVoronoiグリッドに分解し,高次元空間内でのVoronoiグリッド分割のための遺伝的アルゴリズムをデプロイするPHN-HVVSを紹介する。
複数のMOO機械学習タスクの結果は、PHN-HVVSがベースラインを大幅に上回ることを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:53:14 GMT)
Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective [45.4] 拡散モデルを用いたマルチエージェント強化学習(MARL)のためのフレキシブルで堅牢な世界モデルを開発する。
本手法はDiffusion-Inspired Multi-Agent World Model (DIMA) を用いて,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:11:38 GMT)
RefAV: Towards Planning-Centric Scenario Mining [45.4] 本稿では,1万種類の自然言語クエリの大規模データセットであるRefAVを紹介する。
過度に構造化されたオフザシェルフシナリオがパフォーマンスを低下させることがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:14:35 GMT)
TMGBench: A Systematic Game Benchmark for Evaluating Strategic Reasoning Abilities of LLMs [45.1] ゲームタイプの包括的カバレッジ,多様なシナリオ,フレキシブルなゲーム組織を特徴とするTMGBenchを提案する。
具体的には、ベンチマークで古典ゲームとして構築された2x2ゲームのロビンソン・ゴーフォーストポロジーによって要約された144種類のゲームタイプをすべて組み込む。
より強力なLSMに適応可能な持続可能な評価フレームワークを提供するため、上記のゲームを原子単位として扱う。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:29:54 GMT)
AITEE -- Agentic Tutor for Electrical Engineering [45.0] AITEEは電気工学のためのエージェントベースの教育システムである。
手書き回路とデジタル回路の両方を適応回路再構成プロセスでサポートしている。
ソクラテス対話を実装し、ガイド付き質問を通じて学習者の自律性を育む。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:07:05 GMT)
When Are Concepts Erased From Diffusion Models? [44.9] 概念消去とは、モデルが特定の概念を生成するのを選択的に阻止する能力である。
拡散モデルにおける消去機構の2つの概念モデルを提案する。
概念がモデルから真に消去されたかどうかを徹底的に評価するために,独立した評価スイートを導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:43:05 GMT)
Do We Know What LLMs Don't Know? A Study of Consistency in Knowledge Probing [44.7] 大型言語モデル(LLM)の信頼性は幻覚の傾向によって損なわれている。
このようなギャップを探索する方法は、キャリブレーションベースからプロンプトベースまで様々である。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:39:49 GMT)
Simple Guidance Mechanisms for Discrete Diffusion Models [44.4] 我々は、均一ノイズを利用した新しい拡散モデルを開発し、その出力を連続的に編集できるため、より誘導可能である。
我々はこれらのモデルの品質を、最先端の性能をもたらす新しい連続時間変動下界で改善する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:06:29 GMT)
Wanda++: Pruning Large Language Models via Regional Gradients [44.2] 大規模言語モデル(LLM)プルーニングは、最小限の精度で推論スピードアップのための重要でない重みを取り除こうとする。
本稿では,デコーダブロックレベルのtextbf 局所勾配を利用して,最先端の手法より優れた新しいプルーニングフレームワーク Wanda++ を提案する。
We show that Wanda++ improves perplexity as up 32% over the Wanda in the language modeling task and effectiveizes to downstream task。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:37:57 GMT)
Mentor3AD: Feature Reconstruction-based 3D Anomaly Detection via Multi-modality Mentor Learning [44.1] マルチモーダル・メンタラーニングを利用したMentor3ADという新しい手法を提案する。
具体的には、Mentor3ADには、RGBと3Dモダリティから抽出された特徴をマージするMentor of Fusion Module (MFM)が含まれている。
最後に、最終的な異常スコアをより正確に生成するための投票モジュール(VM)を導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:46:28 GMT)
RefTool: Enhancing Model Reasoning with Reference-Guided Tool Creation [44.1] RefToolは、自動ツール作成のための参照誘導フレームワークである。
リファレンスコンテンツから実行可能なツールを生成し、イラストレーションの例を使って検証し、階層的にツールボックスに整理する。
因果性、物理、化学ベンチマークの実験では、RefToolが既存のツール作成法やドメイン固有の推論法より優れていることが示されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:41:19 GMT)
ProBA: Probabilistic Bundle Adjustment with the Bhattacharyya Coefficient [43.8] ProBAは2次元観察と3次元シーン構造における不確実性を明示的にモデル化し、伝播する。
我々の手法は点のようなランドマークの代わりに3Dガウス的を用いる。
ProBAは、非構造化環境でデプロイされたSLAMシステムの実用性を高める。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:07:00 GMT)
Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations [43.6] 我々は、分子構造理解を算術に着想を得た演算でブリッジする推論フレームワークであるChemCoTBenchを紹介する。
ChemCoTBenchは、化学的問題解決を透明でステップバイステップの推論に形式化する。
分子特性最適化と化学反応予測という2つの高影響タスクのモデルを評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:15:44 GMT)
MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents [43.6] 我々は,MinecraftゲームにおけるオープンワールドAIエージェントの空間計画能力を評価するために,MineAnyBuildというベンチマークを構築した。
MineAnyBuildは、与えられたマルチモーダルなヒューマンインストラクションに基づいて実行可能なアーキテクチャ構築プランを生成するエージェントを必要とする。
4000のキュレートされた空間計画タスクを伴い、リッチなプレイヤー生成コンテンツを利用することで無限に拡張可能なデータ収集のパラダイムを提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:22:28 GMT)
MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models [42.9] MMIG-Benchは総合的なマルチモーダル画像生成ベンチマークである。
4,850件の注釈付きテキストプロンプトと380件の被験者に1,750件のマルチビュー参照イメージをペアリングする。
MMIG-Benchを用いて、Gemini 2.5 Pro、FLUX、DreamBooth、IP-Adapterを含む17の最先端モデルをベンチマークする。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:10:09 GMT)
Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.8] テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:23:38 GMT)
Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling [42.7] Grouped Cross Attentionは、トレーニング前のコンテキスト長の1000倍に一般化することができる。
実験により,16Mコンテキスト長のパスキー検索において,GAAに基づくモデルがほぼ完全であることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:49:47 GMT)
OASIS: Online Sample Selection for Continual Visual Instruction Tuning [42.6] 視覚的インストラクションチューニングのための適応型オンラインサンプル選択手法を提案する。
OASISは、バッチ間の相対的な情報量に基づいて、バッチ毎に選択されたサンプルを動的に調整する。
データの25%しか使用せず、フルデータトレーニングに匹敵するパフォーマンスを達成し、最先端よりも優れています。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:32:43 GMT)
A-MEM: Agentic Memory for LLM Agents [42.5] 大規模言語モデル(LLM)エージェントは、歴史的経験を活用するためにメモリシステムを必要とする。
現在のメモリシステムは基本的なストレージと検索を可能にするが、洗練されたメモリ構造は欠如している。
本稿では, LLMエージェントに対して, エージェント方式で動的に記憶を整理できる新しいエージェントメモリシステムを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:44:13 GMT)
Tuning LLM Judge Design Decisions for 1/1000 of the Cost [42.1] 大きな言語モデル(LLM)は、しばしば人為的なアノテーションを必要とする。
この問題に対処するため、2つのLLMの出力を比較するLLMベースの審査員が提案されている。
いくつかのアプローチが提案されているが、異なる論文の間には多くの相反する要因が存在する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:58:46 GMT)
Enhancing Selection of Climate Tech Startups with AI -- A Case Study on Integrating Human and AI Evaluations in the ClimaTech Great Global Innovation Challenge [41.9] ClimaTechのコンペティションは、トップクラスの気候テックスタートアップを見つけることを目的としている。
この手法には、初期AIレビュー、人間によって判断される準決勝、ハイブリッド重み付けを用いた決勝という3つのフェーズが含まれていた。
決勝では5人の審査員が参加し、重み付けは83.3%、AIは16.7%に移行した。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:23:03 GMT)
Context-Aware Content Moderation for German Newspaper Comments [41.9] 本稿では,ドイツの新聞掲示板における自動コンテンツモデレーションのためのバイナリ分類モデルの開発と評価を行う。
LSTM, CNN, ChatGPT-3.5 Turbo を用いて, オーストリアの新聞Der Standard の 100 Million Posts Corpus を利用して, 文脈認識モデルの影響を評価する。
その結果、CNNとLSTMモデルは文脈情報から恩恵を受け、最先端のアプローチと競合することを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:57:02 GMT)
Benchmarking and Pushing the Multi-Bias Elimination Boundary of LLMs via Causal Effect Estimation-guided Debiasing [41.9] 現在の大規模言語モデル(LLM)は、推論中にまだバイアスを利用する可能性があるため、LLMの一般化性は低い。
それぞれのデータに5種類のバイアスを含むマルチバイアスベンチマークを提案する。
CMBEは,複数種類のバイアスを同時に排除し,LLMの一般化性を高めることができることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:22:22 GMT)
GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution [41.9] GeoLLaVA-8Kは、入力を最大8K$times$8Kまで処理できるRS中心のマルチモーダルな大規模言語モデルである。
SuperRS-VQAとHighRS-VQAは、現在までに22の現実世界の対話タスクをカバーする、RSで最も高解像度の視覚言語データセットである。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:05:03 GMT)
Plan2Align: Predictive Planning Based Test-Time Preference Alignment for Large Language Models [41.5] テキスト生成を予測計画問題として定式化するテスト時間アライメントフレームワークPlan2Alignを提案する。
Plan2Alignは、複数の完全応答をロールアウトし、各セグメントを最適化することで、繰り返し出力を洗練するためにモデル予測制御(MPC)を適用する。
LLaMA-3.1 8Bの既存の訓練時間と試験時間アライメント手法と比較して、Plan2Alignは同等または優れた結果が得られる。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:26:15 GMT)
Towards LLM Unlearning Resilient to Relearning Attacks: A Sharpness-Aware Minimization Perspective and Beyond [41.3] 再学習攻撃に対して未学習モデルを堅牢化する方法について検討する。
解析の結果,スムーズさの最適化が再学習攻撃の軽減に重要な役割を担っていることが明らかとなった。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:29:37 GMT)
CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.3] CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:18:37 GMT)
Simulating the Unseen: Crash Prediction Must Learn from What Did Not Happen [41.2] 交通安全科学は長年、基本的なデータパラドックスによって妨げられてきた。
既存のクラッシュ頻度モデルとサロゲート安全指標は、スパース、ノイズ、報告されていない記録に大きく依存している。
ビジョンゼロを達成するためには、従来のクラッシュのみの学習から、新しい形の対実的安全学習へのパラダイムシフトが必要である、と我々は主張する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:33:07 GMT)
Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders [41.1] SAEから得られる特徴の単言語性を評価するための新しい指標を提案する。
これらのSAE特徴を非難することは、LLMの1つの言語における能力を大幅に低下させるだけであり、他の言語はほとんど影響を受けないことが示されている。
我々はこれらSAEから派生した言語固有の特徴を活用してステアリングベクターを強化し,LLMによる言語制御を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:46:54 GMT)
BaryIR: Learning Multi-Source Unified Representation in Continuous Barycenter Space for Generalizable All-in-One Image Restoration [41.1] BaryIRはオールインワン画像復元のためのマルチソース表現学習フレームワークである。
バリセンタ空間から縮退非依存情報を統一したコンパクト表現を学習する。
実世界のデータに対する優れた一般化能力と、目に見えない劣化を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:10:14 GMT)
Automated Privacy Information Annotation in Large Language Model Interactions [40.9] 実際の識別子の下で大きな言語モデル(LLM)と対話するユーザは、プライベート情報の開示を無意識にリスクを負うことが多い。
既存のプライバシ検出方法は、異なる目的とアプリケーションシナリオのために設計されました。
249Kのユーザクエリと154Kの注釈付きプライバシフレーズを備えた大規模多言語データセットを構築した。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:00:12 GMT)
Information Gain-Guided Causal Intervention for Autonomous Debiasing Large Language Models [40.9] 現在の大規模言語モデル(LLM)は、まだデータセットのバイアスをキャプチャして、推論時に利用することができる。
本稿では,情報ゲイン誘導型因果介入脱バイアスフレームワークを提案する。
ICDはLLMを効果的にデバイアスし、様々なタスクにおける一般化性を向上させる。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:25:41 GMT)
ALTER: All-in-One Layer Pruning and Temporal Expert Routing for Efficient Diffusion Generation [40.7] ALTER: All-in-One Layer Pruning and Temporal Expert Routingを紹介する。
拡散モデルを効率的な時間的専門家の混合物に変換する統一されたフレームワーク。
トレーニング可能なハイパーネットワークを利用することで、レイヤープルーニング、エキスパートルーティング、モデル微調整を統一するシングルステージ最適化。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:59:44 GMT)
Improving LLM-based Global Optimization with Search Space Partitioning [40.6] 大規模言語モデル(LLM)は、グローバル最適化フレームワーク内で有効な代理モデルと候補ジェネレータとして登場した。
HOLLMは,探索空間を有望な部分領域に分割することでLLM駆動サンプリングを強化する,新しいグローバル最適化アルゴリズムである。
標準最適化ベンチマークの実証的な評価は、HOLLMがベイズ最適化と信頼領域法に一貫して適合するか、超越していることを示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:01:49 GMT)
Hume: Introducing System-2 Thinking in Visual-Language-Action Model [40.1] Humeは、価値誘導されたSystem-2思考とカスケードされたアクション記述を備えたデュアルシステムビジョン・ランゲージ・アクションモデルである。
システム1(System 1)は、システム2の選択されたアクションを採り、巧妙なロボット制御のためにカスケードされたアクションを演ずる軽量な反応性ビズモータポリシーである。
我々は,Humが既存のVision-Language-Actionモデルよりも,複数のシミュレーションベンチマークと実ロボットのデプロイで優れていることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:04:21 GMT)
NeuralOM: Neural Ocean Model for Subseasonal-to-Seasonal Simulation [40.0] マルチスケール対話型グラフニューラルネットワークを用いたS2S海洋シミュレーションのためのニューラルオーシャンモデル(NeuralOM)を提案する。
複雑な動的振る舞いを捉えるために,マルチスケールの対話型メッセージングモジュールを導入する。
提案するNeuralOMは,S2Sにおける最先端モデルと極端なイベントシミュレーションより優れている。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:54:40 GMT)
Inferring Traffic Models in Terminal Airspace from Flight Tracks and Procedures [39.9] 本稿では,レーダ監視データから収集したプロシージャデータとフライトトラックから可変性を学習可能な簡易確率モデルを提案する。
我々は、ガウス混合モデルから一連の偏差をサンプリングし、航空機の軌道を再構築することで合成軌道を生成する。
本研究は、ジョン・F・ケネディ国際空港の着地軌道と着地手順に関するモデルについて紹介する。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:52:32 GMT)
Leaner Transformers: More Heads, Less Depth [39.8] トランスフォーマーは、大規模なデータセットで複雑なパターンをキャプチャするアテンションメカニズムを利用することで、機械学習を再構築した。
本稿では,既存の変圧器の多くが必然的に過大であることを示すことによって,この信念に挑戦する。
この理論的な洞察を活用して、多くの頭を抱えた一般的なアーキテクチャを再設計します。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:06:54 GMT)
Shadow-FT: Tuning Instruct via Base [39.8] 大規模言語モデル(LLM)は、様々なタスクのさらなる微調整の恩恵を一貫して受けている。
本稿では,対応するBASEモデルを活用してINSTRUCTモデルをチューニングするための新しいShadow-FTフレームワークを提案する。
提案するShadow-FTは,追加パラメータを導入せず,実装が容易で,性能が大幅に向上する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:27:18 GMT)
Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable [39.8] バイアス付きデータセットでしばしば訓練される検出器は、実・合成ラベルと急激な相関がある。
本稿では,DDA(Dual Data Alignment)を提案する。
また、DDA-COCOとEvalGENの2つの新しいテストセットを導入し、検出器を評価するための最新の生成モデルを紹介した。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:59:23 GMT)
Rebalancing Contrastive Alignment with Learnable Semantic Gaps in Text-Video Retrieval [39.7] Gap-Aware Retrievalフレームワークは、テキストt_iとビデオv_jの間で学習可能な、ペア固有のインクリメントDelta_ijを導入している。
GAREは、アライメントの正確さと頑健さをノイズ管理に継続的に改善する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:33:49 GMT)
Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing [39.7] 本稿では,測定理論における適応試験法に基づく新しい生成的進化試験手法であるGAAを提案する。
GETAはモデル能力に適したテスト項目を動的に生成することで、LLMの根底にある道徳的境界を探索する。
GETAは、アイテムの難易度とモデル値の整合性の連成分布を学習することでLLMと共進化する。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:16:21 GMT)
Towards Robust Automated Perceptual Voice Quality Assessment with Deep Learning [39.3] 生音声から高レベルの音響情報と韻律情報をキャプチャする注目機構を備えたディープラーニングベースのフレームワークであるVoice Quality Assessment Network (VOQANet)を提案する。
本研究では,シッター,シマー,高調波-雑音比(HNR)などの手作り音響特徴をSFM埋め込みと統合したVOQANet+を提案する。
結果:VOQANetはRMSEとPCCのベースライン法を一貫して上回り,VOQANet+はノイズ条件下でのロバスト性を維持する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:48:17 GMT)
GMoE: Empowering LLMs Fine-Tuning via MoE Graph Collaboration [39.3] 複数の専門家のコラボレーションを強化することを目的とした、新しいMoEグラフベースのフレームワークである$textbfGMoE$を紹介した。
GMoEでは、グラフルータ関数は専門家間の協調信号をキャプチャするように設計されている。
GMoEでは、$textitPoissonディストリビューションベースの区別戦略と$textitNormal分散ベースのバランス戦略の2つの調整戦略を提案しました。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:34:28 GMT)
SV-TrustEval-C: Evaluating Structure and Semantic Reasoning in Large Language Models for Source Code Vulnerability Analysis [39.2] SV-TrustEval-Cは,C言語で記述されたコードの脆弱性解析のための大規模言語モデルの能力を評価するためのベンチマークである。
以上の結果から,現在のLLMは複雑なコード関係を理解するのに十分ではないことが示され,その脆弱性分析はロバストな論理的推論よりもパターンマッチングに頼っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:16:27 GMT)
MSEarth: A Benchmark for Multimodal Scientific Comprehension of Earth Science [39.2] 我々は、高品質でオープンアクセスの科学出版物からキュレートされたマルチモーダルな科学ベンチマークであるMSEarthを紹介する。
MSEarthは、大気、低温圏、水圏、リソスフェア、生物圏という、地球科学の主要な5つの球体を包含している。
MSEarthは、科学的なフィギュアキャプション、複数の選択質問、オープンな推論課題など、さまざまなタスクをサポートしている。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:30:35 GMT)
Multi-objective Large Language Model Alignment with Hierarchical Experts [39.1] textitHoEは、LoRA Experts、Router Experts、Preference Routingの3つの階層的なコンポーネントで構成されている。
我々は、14の目標と6つのベンチマークのうち200の選好に基づいて、様々なタスクにまたがるtextitHoEを評価し、15の最近のベースラインよりも優れた性能を示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:15:03 GMT)
Path Planning for Masked Diffusion Model Sampling [38.9] 各世代を2つのサブステージに分割するパスプランニング(P2)を導入する。
P2では、各ステップのプランナーが更新されるようにマークされた適切なトークンを選択し、デノイザを使ってサンプル化することができる。
我々は、P2が既存のMDMのサンプリング戦略をすべて一般化し、生成品質を著しく向上させることを実証した。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:39:43 GMT)
Do LLMs Need to Think in One Language? Correlation between Latent Language and Task Performance [38.8] 本稿では,潜在言語と入出力言語との相違が下流タスク性能に与える影響について検討する。
我々の作業は、複数の下流タスクにまたがる入力プロンプト言語を変化させ、潜在言語における一貫性とタスクパフォーマンスの相関を分析する。
実験結果から,下流タスク性能の最適化には潜時言語での一貫性維持が必ずしも必要ではないことが示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:30:57 GMT)
Contrastive Learning on LLM Back Generation Treebank for Cross-domain Constituency Parsing [38.7] クロスドメイン選挙区解析は、計算言語学における未解決の課題である。
本稿では,新しい木バンク生成手法 LLM のバックジェネレーションを提案する。
提案手法は, 各種ベースラインと比較して, 平均結果における最先端性能を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:07:54 GMT)
Scaling External Knowledge Input Beyond Context Windows of LLMs via Multi-Agent Collaboration [38.6] 大規模言語モデル(LLM)は、複雑なタスクを解決するために大量の検索された知識を組み込むことができる。
既存のコンテキストウィンドウ拡張メソッドは、必然的に情報損失を引き起こす。
ボトルネックを克服するためのマルチエージェントフレームワークである$textbfExtAgents$を開発します。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:45:04 GMT)
Beyond Entropy: Region Confidence Proxy for Wild Test-Time Adaptation [38.6] 本稿では,領域統合手法ReCAPを導入し,その長大な処理を回避した。
本研究では,抽出可能な領域の信頼度を抽出可能かつ上界のプロキシに変換する有限から無限のセマンティック近似を開発する。
実験では、さまざまなデータセットやワイルドシナリオにわたる既存のメソッドよりも、ReCAPが一貫した優位性を実証した。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:30:13 GMT)
Optimizing fMRI Data Acquisition for Decoding Natural Speech with Limited Participants [38.6] 限られた参加者から得られたfMRIデータから知覚された自然音声を復号するための最適戦略を検討する。
まず、fMRI活動からテキスト表現を予測するために、ディープニューラルネットワークのトレーニングの有効性を実証する。
マルチオブジェクトトレーニングは、シングルオブジェクトアプローチと比較してデコード精度を向上しない。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:06:04 GMT)
Scan-and-Print: Patch-level Data Summarization and Augmentation for Content-aware Layout Generation in Poster Design [38.5] AIを活用したポスターデザインでは、ビジュアルテキスト要素のイメージ配置にコンテンツ認識レイアウト生成が不可欠である。
本稿では,Scan-and-Printというパッチレベルのデータ要約と拡張手法を提案する。
Scan-and-Printは、最先端の品質で視覚的に魅力的なレイアウトを生成できる一方で、計算ボトルネックを95.2%劇的に低減できることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:54:24 GMT)
PosterO: Structuring Layout Trees to Enable Language Models in Generalized Content-Aware Layout Generation [38.5] PosterOは、不愉快な目的のためにポスターを作成するためのレイアウト中心のアプローチである。
SVG言語のツリーとしてのデータセットからのレイアウトを、普遍的な形状、設計意図のベクトル化、階層的なノード表現によって構成する。
与えられた画像に対して視覚的に魅力的なレイアウトを生成することができ、様々なベンチマークで新しい最先端のパフォーマンスを達成することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:41:23 GMT)
Compositional Scene Understanding through Inverse Generative Modeling [38.3] 自然画像が与えられたシーンの特性を理解するために生成モデルをどのように利用できるかを検討する。
シーン上の小さなモデルから合成された視覚的生成モデルを構築する。
これにより、グローバルなシーン要因を推測し、新しいシーンへの堅牢な一般化を可能にする方法について説明する。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:25:11 GMT)
UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents [37.9] GUIエージェントにおける2つの重要な課題に対処する自己改善フレームワークであるUI-Genieを紹介する。
軌道結果の検証は困難であり、高品質なトレーニングデータはスケーラブルではない。
UI-Genieは複数のGUIエージェントベンチマークで最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:58:06 GMT)
Long-lived multilevel coherences and spin-1 dynamics encoded in the rotational states of ultracold molecules [37.7] 超低温の極性分子の回転状態は、長い放射寿命、マイクロ波-ドメイン結合、調整可能な双極子相互作用を有する。
多数の回転状態が利用可能になったことで、量子磁性のシミュレーション、高次元クエーディットにおける情報の符号化、多くの合成格子サイトを持つ合成次元など、多くの応用が提案されている。
そこで本研究では、回転状態間の多レベルコヒーレンスを、与えられた一対の状態に対して魔法の波長近くで動作する光ツイーザトラップを用いて設計する方法について検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:41:43 GMT)
Plug-and-Play Co-Occurring Face Attention for Robust Audio-Visual Speaker Extraction [37.7] 我々は,複数の共起顔のフレキシブルな処理を行うための,プラグアンドプレイ型話者間アテンションモジュールを提案する。
我々のアプローチは、多様なデータセットの実験において、一貫してベースラインを上回ります。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:21:38 GMT)
Constraint-Adaptive Policy Switching for Offline Safe Reinforcement Learning [37.7] オフライン安全な強化学習(OSRL)は、一定のトレーニングデータから報酬を最大化するための意思決定ポリシーを学習する。
本稿では,既存のオフラインRLアルゴリズムのラッパーフレームワークである制約適応ポリシースイッチング(CAPS)を導入する。
CAPSは既存の手法を一貫して上回り、OSRLの強力なラッパーベースのベースラインを確立する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:44:41 GMT)
RECAST: Strengthening LLMs' Complex Instruction Following with Constraint-Verifiable Data [37.6] RECASTはデータセットを合成するための新しいフレームワークで、各サンプルには既存のベンチマークよりもはるかに多くの制約が組み込まれている。
我々は15の制約型にまたがる30kインスタンスからなる大規模で高品質なデータセットであるRECAST-30Kを構築した。
実験の結果、RECAST-30Kで微調整されたモデルでは、後続の複雑な命令が大幅に改善された。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:53:33 GMT)
Generative Image Compression by Estimating Gradients of the Rate-variable Feature Distribution [37.6] 生成画像圧縮に適した拡散に基づく新しい生成モデリングフレームワークを提案する。
逆ニューラルネットワークは、圧縮プロセスを直接反転することにより、画像の再構成を訓練する。
このアプローチは、最小限のサンプリングステップしか持たないスムーズなレート調整とフォトリアリスティックな再構成を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:18:24 GMT)
Efficient Identity and Position Graph Embedding via Spectral-Based Random Feature Aggregation [37.3] グラフニューラルネットワーク(GNN)は、機能集約機構を通じてグラフ構造をキャプチャする。
ほとんどのGNNベースのメソッドでは、キャプチャ可能なプロパティが不明確である。
本稿では,効率的なアイデンティティと位置埋め込みのためのランダム特徴集約(RFA)を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:26:15 GMT)
Structuring the Unstructured: A Multi-Agent System for Extracting and Querying Financial KPIs and Guidance [37.2] 構造化されていない財務文書から定量的な洞察を抽出する,効率的でスケーラブルな手法を提案する。
提案システムは,emphExtraction AgentとemphText-to-Agentの2つの特殊エージェントから構成される。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:32:03 GMT)
How does Misinformation Affect Large Language Model Behaviors and Preferences? [37.1] 大きな言語モデル(LLM)は、知識集約的なタスクにおいて顕著な能力を示している。
我々は,LLMの行動と誤情報に対する知識嗜好を評価するための,現在最大かつ最も包括的なベンチマークであるMisBenchを紹介する。
実証的な結果から、LLMは誤報を識別する能力に匹敵する能力を示すが、知識の衝突やスタイルのバリエーションの影響を受けやすいままであることが明らかとなった。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:57:44 GMT)
Is Hyperbolic Space All You Need for Medical Anomaly Detection? [37.0] 医療異常検出は、データの可用性とラベル付けの制約の課題に対する、有望な解決策として登場した。
伝統的手法はユークリッド空間における事前訓練されたネットワークの異なる層から特徴を抽出する。
本稿では, 特徴表現を双曲空間に投影し, 信頼度に基づいてそれらを集約し, サンプルを健康的, 異常に分類する手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:13:11 GMT)
Item Cluster-aware Prompt Learning for Session-based Recommendation [36.9] セッションベースのレコメンデーションは、個々のセッション内のアイテムシーケンスを分析することによって、ユーザの好みをキャプチャすることを目的としている。
既存のアプローチのほとんどは、セッション内のアイテムの関係に重点を置いており、異なるセッション間でのアイテム間の接続を無視している。
このような課題に対処するために、CLIP-SBR(Cluster-aware Item Prompt Learning for Session-based Recommendation)フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:12:41 GMT)
Behavioral Analysis of Information Salience in Large Language Models [36.8] 本稿では,大規模言語モデルにおける情報サリエンスを導出し,調査するための説明可能なフレームワークを提案する。
4つのデータセットにまたがる13のモデルに対する実験により、LLMは、概してモデルファミリとサイズで整合した、曖昧で階層的なサリエンスの概念を持つことが明らかになった。
モデルは高度に一貫した振る舞いを示し、従ってサリエンスパターンを示すが、このサリエンスの概念はイントロスペクションを通じてアクセスすることはできず、情報サリエンスに対する人間の認識と弱い相関関係がある。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:13:38 GMT)
How Private are Language Models in Abstractive Summarization? [36.8] 医療や法律などの機密ドメインでは、機密情報を保護することが重要である。
これは、医療報告や訴訟要約などの貴重なデータを共有する上での課題である。
プライベートでないソース文書から、どの程度プライバシ保護の要約を提供できるのか、まだ明らかな疑問である。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:23:24 GMT)
Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.5] Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。
トークン消費量を30~55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:18:31 GMT)
GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.3] GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:49:35 GMT)
Evaluating Training in Binarized Neural Networks Through the Lens of Algorithmic Information Theory [36.2] 本稿では,二元化ニューラルネットワーク(BNN)を第1のプロキシとして用いて,アルゴリズム情報理論へのシフトを提案する。
ブロック分解法 (BDM) を適用し, エントロピーよりもトレーニング中の構造変化をより綿密に追跡した。
これらの結果は、学習が構造化正規性の進行的内部化に対応するアルゴリズム圧縮の過程としてのトレーニングの観点を支持する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:51:36 GMT)
MODULI: Unlocking Preference Generalization via Diffusion Models for Offline Multi-Objective Reinforcement Learning [36.2] 多目的強化学習(MORL)は、複数の対立する目標を同時に最適化する政策の開発を目指している。
オフラインMORLは、事前コンパイルされたデータセットをトレーニングして、デプロイ時の任意の好みに一般化することで、有望なソリューションを提供する。
既存のオフラインMORLアルゴリズムは、OOD選好の一般化が不十分であり、結果として、選好と一致しないポリシーが生じる。
本稿では,様々な嗜好に整合した軌道を生成するためのプランナーとして,嗜好条件付き拡散モデルを用いたMODULIを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:51:30 GMT)
Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games [36.2] 大規模言語モデル(LLM)は、強化学習(RL)中に突然高度な推論能力を示すことが観察されている。
マルチシナリオRLにおける一般化を促進するためのフレームワークであるDivide-Fuse-Conquerを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:16:55 GMT)
LPOI: Listwise Preference Optimization for Vision Language Models [36.1] 我々は,VLMにおける幻覚の低減のために開発された,最初のオブジェクト認識型リストワイド選好最適化であるLPOIを提案する。
LPOIは被写体視認性の上昇順に画像をランク付けし、視覚的忠実さを維持しながら幻覚を効果的に低減する。
MMHal, AMBER, Object HalBenchの総合的な実験により、LPOIは幻覚の低減とVLM性能の向上において既存の選好最適化手法よりも優れていることを確認した。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:47:28 GMT)
TransMLA: Migrating GQA Models to MLA with Full DeepSeek Compatibility and Speedup [35.9] TransMLAはGQAベースのモデルをMLAベースのモデルにシームレスに変換するフレームワークである。
LLaMA-2-7BでKVキャッシュの93%を圧縮することにより、TransMLAは8Kコンテキスト長で10.6倍の推論スピードアップを達成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:11:57 GMT)
SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond [35.8] 多様な論理的推論データを大規模に生成するデータ合成フレームワークおよびデータセットであるSynLogicを提案する。
7Bおよび32Bモデルに基づくSynLogicデータセットにおけるRLトレーニングの有効性を検証する。
混合トレーニングモデルは、複数のベンチマークでDeepSeek-R1-Zero-Qwen-32Bより優れています。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:03:09 GMT)
Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models [35.8] 本稿では,100個のマルチモーダルオブジェクト検出データセットの大規模コレクションであるRoboflow100-VLを紹介する。
我々は、ゼロショット、少数ショット、半教師付き、完全教師付き設定で、我々のベンチマークの最先端モデルを評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:24:29 GMT)
Thinker: Learning to Think Fast and Slow [35.8] 本稿では,素早い思考,検証,スロー思考,要約の4段階を含むQAタスクの簡単な修正を紹介する。
提案課題は,Qwen2.5-1.5Bでは平均精度を24.9%から27.9%,DeepSeek-R1-Qwen-1.5Bでは45.9%から4.9%に改善する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:22:46 GMT)
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.8] FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:37:39 GMT)
Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment [35.8] マルチモーダル大規模言語モデル(MLLM)は、移動可能な敵攻撃に対して脆弱である。
本稿では,特徴量の最適アライメントに基づく移動可能な対向攻撃手法を提案する。
実験は,提案手法の優位性を実証し,最先端の手法より優れていることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:56:57 GMT)
Does quantization affect models' performance on long-context tasks? [35.6] 大きな言語モデル(LLM)は、コンテキストウィンドウが128K以上のトークンをサポートするようになった。
これには大きなメモリ要件と高い推論遅延が伴う。
本稿では,長文および長文出力のタスクにおける量子化LDMの最初の体系的評価について述べる。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:33:43 GMT)
QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning [35.1] 本稿では,多モーダル大規模言語モデル(MLLM)を4つの視覚-言語-アクションタスクに展開する際の,固有の推論遅延問題に対処する。
言語基盤モデルの性能を劣化させることなく推論効率を向上させるために, QUIRT-Online と呼ばれる新しい待ち時間フリーの4重結合MLLMモデルを提案する。
実験の結果, QUIRT-Onlineは既存のMLLMシステムと連動して動作し, 制御周波数に同期してリアルタイムの推論を実現することがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:05:44 GMT)
Map Space Belief Prediction for Manipulation-Enhanced Mapping [35.0] 本研究では,操作強化セマンティックマッピングの問題に対処する。
ロボットは、散らかった棚の中のすべての物体を効率的に識別する必要がある。
提案する新しいPOMDPプランナは,既存の手法よりも地図の完全性と精度を向上する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:37:31 GMT)
Semantic Communication meets System 2 ML: How Abstraction, Compositionality and Emergent Languages Shape Intelligence [35.0] 本稿では,システム2認知の原理に根ざした統一された研究ビジョンを提案する。
私たちは、推論、適応、コラボレーションが可能な、真にインテリジェントなシステムの基礎を築きました。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:57:12 GMT)
Simple Relative Deviation Bounds for Covariance and Gram Matrices [35.0] 経験的共分散の固有値とグラム行列の一般設定に対する非漸近的相対偏差境界を提供する。
我々の結果はスペクトルをまたいだよりシャープな制御を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:54:01 GMT)
Enhance Mobile Agents Thinking Process Via Iterative Preference Learning [34.8] The Chain of Action-Planning Thoughts (CoaT) paradigm has been shown to improve the reasoning performance of VLM-based mobile agent in GUI task。
対話型サンプリングによりCoaTツリーを構築し,ルールベース報酬を用いて葉ノードをスコアし,フィードバックをバックプロパゲートして思考レベル直接選好最適化(T-DPO)のペアを導出する反復選好学習(IPL)を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:49:23 GMT)
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [34.8] NoisyRolloutは、RLトレーニング中にきれいな画像と歪んだ画像の両方の軌跡を混合する、シンプルだが効果的なデータ拡張手法である。
NoisyRolloutは、視覚知覚と結果の推論パターンに目的の多様性を注入することによって、視覚指向の帰納的バイアスを通じて、より良い政策探索を促進する。
NoisyRolloutは5ドルのドメイン外推論と知覚ベンチマークで、オープンソースのRLチューニングモデルの最先端のパフォーマンスを実現している。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:15:18 GMT)
Exploring Disentangled and Controllable Human Image Synthesis: From End-to-End to Stage-by-Stage [34.7] そこで我々は,新しい非絡み合い・制御可能な人間合成タスクを導入する。
本稿ではまず,MVHumanNetで学習した要素不絡に対するエンドツーエンド生成モデルを提案する。
VTONデータセットを付加データとして組み込むことで、エンドツーエンドモデルをトレーニングすることはパフォーマンスを劣化させる。
本稿では,人間の画像生成を3段階に分解するステージバイステージフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:27:18 GMT)
Efficient and Microphone-Fault-Tolerant 3D Sound Source Localization [34.7] 本稿では,スパース・クロスアテンション,事前学習,適応的信号コヒーレンス・メトリクスを用いた新しい3D SSLフレームワークを提案する。
このフレームワークは、信頼できない、あるいは未知のマイクロフォン位置入力に対してフォールトトレラントであり、実際のシナリオで適用可能であることを保証している。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:56:16 GMT)
CoderAgent: Simulating Student Behavior for Personalized Programming Learning with Large Language Models [34.6] 実データに頼ることなく,学生のプログラミングプロセスをきめ細かい方法でシミュレートするLLMエージェントCoderAgentを提案する。
具体的には、人間の学習者に知的エージェントを配し、その中核となるのは、人間のプログラミング実践プロセスの認知状態を捉えることである。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:43:38 GMT)
VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Visual-Language Models [34.6] 視覚言語モデル(VLM)を用いた身体的視覚追跡(EVT)を強化する新しいフレームワークを提案する。
この研究は、EVTエージェントのアクティブ障害回復を支援するVLMベースの推論の最初の統合である。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:53:50 GMT)
STRAP: Spatio-Temporal Pattern Retrieval for Out-of-Distribution Generalization [34.5] 本稿では,時空間探索型パターン学習フレームワークSTRAPを提案する。
推論中、STRAPは現在の入力と類似性に基づいてライブラリから関連するパターンを検索し、プラグイン・アンド・プレイ・プロンプト機構を介してモデルに注入する。
複数の実世界のストリーミンググラフデータセットに対する実験によると、STRAPはSTOODタスクの最先端STGNNベースラインを一貫して上回っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:17:24 GMT)
Information-Theoretic Complementary Prompts for Improved Continual Text Classification [34.3] 本稿では,連続テキスト分類のための情報理論補完プロンプト(InfoComp)を紹介する。
InfoComp は P(rivate)-Prompt と S(hared)-Prompt という二つの異なるプロンプト空間を明示的に学習する。
本枠組みでは,(1)P-Promptにおけるタスク固有の知識の蓄積を強化すること,(2)S-Promptにおけるタスク固有の知識の保持を強化すること,(2)フォワード知識伝達を改善すること,の2つの新しい損失関数を設計する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:22:14 GMT)
Optimal Pricing for Data-Augmented AutoML Marketplaces [34.3] 既存のクラウドベースのAutoMLプラットフォームとシームレスに統合可能な,実用的なデータ拡張型AutoML市場を提案する。
通常のAutoMLソリューションとは異なり、当社の設計は、購入者が提出したトレーニングデータを貴重な外部データセットで自動的に強化します。
私たちの重要なイノベーションは、機器価値、すなわち限界モデルの品質改善に基づく価格設定メカニズムです。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:50:23 GMT)
Dynamic-I2V: Exploring Image-to-Video Generation Models via Multimodal LLM [34.2] 拡散トランスフォーマー(DiT)アーキテクチャの視覚的条件とテキスト的条件を協調的に符号化するために,MLLM(Multimodal Large Language Models)を統合する革新的なフレームワークであるDynamic-I2Vを提案する。
画像とビデオの生成において、Dynamic-I2Vは最先端のパフォーマンスを実現しており、特に42.5%、7.9%、11.8%のダイナミックレンジ、制御性、品質が大幅に向上している。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:02:24 GMT)
MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs [34.2] MME-Reasoningは、大規模言語モデル(MLLM)の推論能力を評価するために設計されたベンチマークである。
本評価では,論理的推論能力の総合的評価を受けると,最先端のMLLMの限界が明らかになる。
さらに,「思考モード」や「ルールベースRL」など,推論能力を高めると一般的に信じられているアプローチの詳細な分析を行った。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:23:23 GMT)
Algorithms and SQ Lower Bounds for Robustly Learning Real-valued Multi-index Models [34.2] ガウス分布に基づく実数値マルチインデックスモデル(MIM)の学習の複雑さについて検討する。
K$-MIM は関数 $f:mathbbRdto mathbbR$ であり、入力の$K$-次元部分空間への射影のみに依存する。
逆ラベルノイズが存在する場合でも, 正方形損失に対して幅広いMIMを学習するための一般アルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:47:26 GMT)
VideoMarkBench: Benchmarking Robustness of Video Watermarking [34.2] 我々は,透かし除去と偽造攻撃による映像透かしの堅牢性を評価するために設計された,最初のシステマティックなベンチマークであるVideoMarkBenchを紹介する。
本研究は,3種類の映像生成モデルから生成した統合データセットを,4つの透かし手法と検出時に使用する7つのアグリゲーション戦略を組み込んだ3つのビデオスタイルで包含する。
我々の発見は、現在の透かしアプローチにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を強調している。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:00:03 GMT)
Few-Shot Learning from Gigapixel Images via Hierarchical Vision-Language Alignment and Modeling [34.1] HiVE-MILは階層的な視覚言語フレームワークであり、粗い(5x)と細い(20x)視覚/テキストノード間の親子リンクからなる統一グラフを構築する。
セマンティック一貫性をさらに強化するため、HiVE-MILには2段階のテキスト誘導動的フィルタリング機構が組み込まれている。
TCGA乳がん、肺がん、腎臓がんのデータセットの実験では、HiVE-MILは従来のMILと最近のVLMベースのMILアプローチの両方で一貫して優れていた。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:29:19 GMT)
BehaviorSFT: Behavioral Token Conditioning for Clinical Agents Across the Proactivity Spectrum [34.1] 臨床薬としての大規模言語モデル(LLM)には、慎重に行動適応が必要である。
BehaviorSFT は動的行動選択のために LLM を明示的に条件付けするための行動トークンを用いた新しいトレーニング戦略である。
ブラインド臨床評価では、行動SFT訓練剤はより現実的な臨床行動を示すことが確認された。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:48:04 GMT)
Linear $Q$-Learning Does Not Diverge in $L^2$: Convergence Rates to a Bounded Set [34.1] 本稿では,線形$Q$-ラーニングイテレート(有界集合への)の最初の$L2$収束率をさらに確立する。
必要なのは、適応温度の$epsilon$-softmaxの行動ポリシーだけです。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:10:41 GMT)
AdParaphrase v2.0: Generating Attractive Ad Texts Using a Preference-Annotated Paraphrase Dataset [34.1] 本研究では,人選好データを含む広告テキストパラフレージング用データセットAdParaphrase v2.0を提案する。
v1.0と比較して、このデータセットは20倍大きく、16,460の広告テキストパラフレーズペアで構成され、それぞれが10人の評価者からの好みのデータで注釈付けされている。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:34:44 GMT)
ThinkGuard: Deliberative Slow Thinking Leads to Cautious Guardrails [34.0] ThinkGuardは、高容量言語モデルから知識を抽出する、批判的な拡張されたガードレールモデルである。
平均的なF1とAUPRCを達成し、全てのベースラインを上回ります。
ラベルのみの微調整モデルを超え、構造化された批評によって分類精度とニュアンス付き安全推論の両方が向上することを確認した。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:35:37 GMT)
The Power of Personality: A Human Simulation Perspective to Investigate Large Language Model Agents [33.8] 人体シミュレーションのレンズを用いた大規模言語モデル(LLM)インテリジェンスを系統的に研究する。
LLMエージェントにビッグファイブの性格特性を割り当て、単一・複数エージェント設定で評価することにより、特定の特徴が推論精度(クローズドタスク)と創造的出力(オープンタスク)に大きく影響することを明らかにする。
さらに、マルチエージェントシステムは、個性の組み合わせを区別することによって、個々の能力とは異なる集団知性を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:52:28 GMT)
Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [33.8] 大規模言語モデル(LLM)の推論能力向上のための重要な手法として強化学習(RL)が登場した。
RLアプローチは、スパース結果に基づく報酬への依存と、探索のインセンティブを高めるための不十分なメカニズムにより、重要な制限に直面している。
固有モチベーション guidEd ExploratioN meThOd foR LLM Reasoning (i-MENTOR) を提案する。
i-MENTORは、トークンレベルの戦略におけるバイアスを軽減する軌道対応探索報酬、大きなアクション空間における探索と利用を安定化するための動的報酬スケーリング、そして、維持する有利な報酬実装の3つの重要なイノベーションを紹介している。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:06:17 GMT)
OmniIndoor3D: Comprehensive Indoor 3D Reconstruction [33.8] 我々は,OmniIndoor3Dと呼ばれるガウス表現を用いた屋内3次元再構築のための新しい枠組みを提案する。
このフレームワークは、コンシューマレベルのRGB-Dカメラで捉えた様々な屋内シーンの正確な外観、幾何学、およびパノプティカル再構成を可能にする。
我々は複数のデータセットに対して徹底的な評価を行い、OmniIndoor3Dは外観、幾何学、汎視的再構成における最先端の結果を達成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:17:10 GMT)
SPF-Portrait: Towards Pure Text-to-Portrait Customization with Semantic Pollution-Free Fine-Tuning [33.7] SPF-Portraitは、カスタマイズされたターゲットセマンティクスを純粋に理解し、オリジナルのモデルの破壊を最小限にする先駆的な作業である。
筆者らはSPF-Portraitにおいて,行動アライメント参照としてオリジナルのモデルを導入したデュアルパスコントラスト学習パイプラインを設計した。
異なる領域間の行動アライメントと、ターゲットセマンティクスの応答性を適応的にバランスさせる。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:43:25 GMT)
Non-invasive maturity assessment of iPSC-CMs based on optical maturity characteristics using interpretable AI [33.7] ヒト多能性幹細胞由来心筋細胞(iPSC-CMs)は、新しい治療標的と心保護薬の同定に重要な資源である。
脂質添加成熟培地(MM)におけるiPSC-CMの培養は、その構造、代謝、機能的表現型を強く増強する。
IPSC-CM成熟度の自動分類のための非侵襲的手法を開発した。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:29:20 GMT)
Words Like Knives: Backstory-Personalized Modeling and Detection of Violent Communication [33.7] 我々は,非暴力的コミュニケーション(NVC)理論を利用して,会話の故障検出におけるLLMの評価を行う。
関係関係のバックストリーの極性はコミュニケーションのブレークダウンに対する人間の認識を大きく変えた。
本研究は,人間同士のコミュニケーションにおいて,LLMを効果的な仲介者として機能させる上で,関係文脈に対するパーソナライズの重要性を明らかにするものである。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:23:57 GMT)
Evaluating LLM Adaptation to Sociodemographic Factors: User Profile vs. Dialogue History [33.5] 本稿では,マルチターン対話履歴を通じて,ユーザのプロファイルから属性が明示的に導入された場合,あるいは暗黙的に,大規模言語モデルの適応を評価するためのフレームワークを提案する。
以上の結果から,ほとんどのモデルでは,人口変動,特に年齢や教育水準に応じて表現値が調整されるが,一貫性は異なることが示唆された。
より強力な推論能力を持つモデルは、ロバストな社会デミノグラフィー適応における推論の重要性を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:52:39 GMT)
ExpProof : Operationalizing Explanations for Confidential Models with ZKPs [33.5] ZKP(Zero-Knowledge Proofs)を用いた敵シナリオにおける説明の運用に向けて一歩前進する。
具体的には、一般的な説明可能性アルゴリズムLIMEのZKP対応バージョンについて検討し、ニューラルネットワークとランダムフォレストの性能を評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:42:34 GMT)
Cold-Start Recommendation with Knowledge-Guided Retrieval-Augmented Generation [33.5] ColdRAGは、ドメイン固有の知識グラフを構築する、検索強化された生成アプローチである。
我々は,ColdRAGがリコールやNDCGの既存のゼロショットベースラインを超えることを示す。
このフレームワークは,知識グラフ推論とLLM生成を組み合わせ,コールドスタートレコメンデーションの実践的解決策を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:23:26 GMT)
Revisiting Self-attention for Cross-domain Sequential Recommendation [33.4] クロスドメインシーケンシャルレコメンデーション(CDSR)は、複数のドメインにまたがるユーザインタラクションの将来の振る舞いを予測することを目的としている。
既存のCDSRフレームワークは、主に自己アテンショントランスフォーマー上に構築されており、ドメイン固有のコンポーネントを明示的に注入することで改善を目指している。
本研究は,自己意識の向上という新たな視点から,単純なモデルに対するCDSRの性能向上を目指す。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:38:32 GMT)
Test and characterization of multilayer ion traps on fused silica [33.4] イオントラップは将来の量子コンピュータをホストする有望なアーキテクチャである。
現在、イオントラップはシリコン基板上でしばしば製造され、高い電力散逸をもたらす。
工業施設で製造・試験した溶融シリカ基板上に多金属層イオントラップを作製した。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:51:56 GMT)
LayerIF: Estimating Layer Quality for Large Language Models using Influence Functions [33.2] 事前訓練された大規模言語モデル(LLM)は、幅広いタスクで高いパフォーマンスを達成する。
LLMは、特定の下流アプリケーションに対して、様々なレイヤのトレーニング品質にかなりのばらつきを示す。
本稿では,各レイヤのトレーニング品質を,原則的かつタスクに敏感な方法で定量化するLayerIFを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:55:12 GMT)
Finite Sample Analysis of Linear Temporal Difference Learning with Arbitrary Features [33.2] 本稿では、任意の機能の下で線形TD($lambda$)演算に対する最初の$L2$収束率を確立する。
任意の特徴から生じる解の潜在的非特異性に対処するために、単一点ではなく解集合への収束率を特徴とする新しい近似結果を開発する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:17:49 GMT)
Scaling and Prompting for Improved End-to-End Spoken Grammatical Error Correction [33.1] この研究は、限定ラベル付きデータの課題に対処する擬似ラベリングプロセスを導入する。
E2E Whisper-based SGEC model with fluent transcriptions, show a little improve in SGEC performance。
最後に、モデルサイズの増加による影響を評価し、擬似ラベル付きデータでは大きなWhisperモデルの性能向上は得られないが、プロンプトを用いたトレーニングは有益であることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:50:53 GMT)
Test-Time Learning for Large Language Models [33.1] 大規模言語モデル(LLM)のためのテスト時間学習(TTL)パラダイムを提案する。
LLMはテスト中にラベルなしのテストデータのみを使用してターゲットドメインに動的に適応する。
TLMはドメイン知識適応における元のLLMと比較して少なくとも20%性能が向上することを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:18:59 GMT)
Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning [33.0] 小型言語モデル(SLM)におけるCoT蒸留の影響要因について検討した。
その結果, SLM は粒度と非単調な関係を示し, より微細な推論とより弱いモデルにより, より単純なCoT 監督下でより優れた性能を示すことがわかった。
これらの知見は、特定の学生モデルにCoT戦略を適合させることの必要性を強調し、SLMにおけるCoT蒸留を最適化するための実用的な洞察を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:59:22 GMT)
MIRROR: Multi-agent Intra- and Inter-Reflection for Optimized Reasoning in Tool Learning [33.0] ツール統合を含む複雑なタスクは、大規模言語モデルにとって大きな課題となる。
リフレクションはエージェントベンチマークにおける誤った軌道の修正に有効な戦略として現れている。
提案するMIRRORは,実行前に意図した動作を批判的に評価するフレームワークと,軌道のさらなる調整を行うインターリフレクションの両方からなるフレームワークである。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:37:33 GMT)
Evaluating and Steering Modality Preferences in Multimodal Large Language Model [32.9] マルチモーダル大言語モデル(MLLM)は、マルチモーダルコンテキストを持つ複雑なタスクにおいて顕著なパフォーマンスを実現している。
実験対象のMLLMは, すべて明らかなモダリティバイアスを示し, 外部介入の影響を受けやすいことがわかった。
本稿では,モダリティの選好を明示的に制御するための表現工学に基づく探索・操舵手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:07:59 GMT)
Foundation Models on a Budget: Approximating Blocks in Large Vision Models [32.7] Transformer Blocks Approximation (TBA) は、ネットワーク内の類似性を活用して、大きな視覚モデルにおける変圧器ブロックを特定し、近似する新しい手法である。
TBAはこれらのブロックを、モデルの他の部分を再トレーニングしたり微調整したりすることなく、軽量でクローズドな変換で置き換える。
複数のデータセットにまたがる広範囲な実験を通して,TBAの有効性と一般化性を検証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:22:32 GMT)
ProgCo: Program Helps Self-Correction of Large Language Models [32.7] 本稿では,プログラム駆動型自己補正(ProgCo)を提案する。
ProgCoは、自己生成し、自己実行する疑似プログラムを通じて、複雑な検証ロジックと広範な検証を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:04:23 GMT)
Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages [32.6] 音声変換モデルを英語の変形音声(UASpeech)に微調整し、話者特性と韻律歪みの両方を符号化する。
次に、健康な非英語音声(FLEURS)を非英語の変形性音声に変換する。
生成されたデータは、MMS(Massively Multilingually Speech)と呼ばれる多言語ASRモデルの微調整に使用される。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:04:37 GMT)
DeSocial: Blockchain-based Decentralized Social Networks [32.6] DeSocialは、アルゴリズムローカル開発チェーン(Ganache)上にデプロイされた分散型のソーシャルネットワーク学習フレームワークである。
DeSocialは実行をコーディネートし、モデルワイズ予測結果を返すことで、パーソナライズされた社会的予測に最適なバックボーンを選択することができる。
DeSocialは、各ユーザが指定したアルゴリズムを持ついくつかの検証ノードを均一に選択し、多数決によって予測結果を集計する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:17:06 GMT)
From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D [32.5] 本研究では,3次元地上構造を持つシーンデータ上に構築された新しい2次元空間データ生成およびアノテーションパイプラインを提案する。
複数の公開データセットにまたがって数千のシーンから生成される大規模データセットであるSPAR-7Mを構築した。
さらに,空間能力をより包括的に評価するためのベンチマークであるSPAR-Benchを紹介する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:14:02 GMT)
Make Planning Research Rigorous Again! [32.5] 我々は、大規模言語モデルによる計画作業の現在のトレンドに厳密さを適用するべきだと論じる。
計画コミュニティの経験と専門知識は、歴史的観点からだけ重要ではありません。
このような落とし穴を避けることは、LSMベースのプランナー構築の進展に大きく貢献すると考えています。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:51:06 GMT)
Assessment of L2 Oral Proficiency using Speech Large Language Models [32.5] L2英語話者の人口増加に伴い、音声言語評価のための自動グレーダの開発需要が高まっている。
近年,多モード大言語モデル (LLM) の進歩に伴い,L2口語習熟度学級としての可能性を探究する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:58:21 GMT)
Scientific Paper Retrieval with LLM-Guided Semantic-Based Ranking [32.4] SemRankは効率的かつ効率的な紙検索フレームワークである。
クエリ理解と概念ベースのセマンティックインデックスを組み合わせる。
実験の結果、SemRankは様々なベースレトリバーの性能を一貫して改善していることがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:49:18 GMT)
Achieving binary weight and activation for LLMs using Post-Training Quantization [32.2] 大規模言語モデル(LLM)を1ビット精度に量子化することは、計算コストを大幅に削減する。
既存の量子化技術は、4ビット以下の重みとアクティベーション精度を使用する場合(W4A4)、顕著な性能劣化に悩まされる。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:48:00 GMT)
'Hello, World!': Making GNNs Talk with LLMs [32.2] グラフニューラルネットワーク(GNN)は、さまざまなグラフ関連タスクで顕著なパフォーマンスを示している。
本稿では,大きな言語モデル (LLM) 上に構築されたGNNであるGraph Lingual Network (GLN) を提案する。
GLNはGNNのメッセージパッシングモジュールだけでなく、グラフアテンションや初期残差接続を含む高度なGNN技術も組み込んでいる。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:32:38 GMT)
Mamba-Driven Topology Fusion for Monocular 3-D Human Pose Estimation [32.2] 最近、Mambaモデルは計算オーバーヘッドを大幅に減らした。
SSMのシーケンシャルデータ処理能力は、位相構造を持つ3次元ジョイントシーケンスには適していない。
我々はこれらの問題に対処するMamba-Driven Topology Fusionフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:21:57 GMT)
Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space [32.1] 大きな言語モデル(LLM)は、安全プロトコルをバイパスするジェイルブレイク攻撃など、多くの安全リスクに悩まされている。
我々は,脱獄戦略を,ELM理論に基づく重要な構成要素に分解する新しい枠組みを開発する。
従来の手法が完全に失敗するClaude-3.5で90%以上の成功率を達成した。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:48:44 GMT)
VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.1] 本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:14:30 GMT)
Towards Interpretability Without Sacrifice: Faithful Dense Layer Decomposition with Mixture of Decoders [32.0] 多層パーセプトロン(MLP)は、大規模言語モデルの不可欠な部分である。
近年の手法では、ニューロンレベルの間隔を通して解釈可能な近似を学習するが、元のマッピングを忠実に再構築することはできなかった。
本稿では,スパース近似の精度トレードオフを克服するため,層レベルの空間性への移行を提唱する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:55:55 GMT)
Improved Bounds for Swap Multicalibration and Swap Omniprediction [32.0] 我々は,有界線型関数に対する$O(sqrtT)$ $ell_2$-swap多重校正誤差を効率よく実現できることを示す。
また、凸関数とリプシッツ関数のクラスに対して、$varepsilon$-swap omnipredictorを効率的に学習する、$O(varepsilon -3)$サンプル複雑性も確立する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:29:35 GMT)
Predicting Implicit Arguments in Procedural Video Instructions [31.9] Implicit-VidSRLは、調理手順における文脈情報から暗黙的かつ明示的な議論を推論する必要があるデータセットである。
近年の多モーダル LLM について検討し,多モーダルな手続きデータから動詞が与えられた場合の暗黙的な議論の予測に苦慮していることを明らかにした。
提案するiSRL-Qwen2-VLは,17%のF1スコア向上を実現し,14.7%がGPT-4o上でのセマンティックな役割を担っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:53:06 GMT)
Accelerated Parallel Tempering via Neural Transports [31.8] 並列テンパリング(PT)は、並列計算によってMCMCのサンプル効率を向上させる。
ニューラルサンプリングを応用してPTを高速化するフレームワークを提案する。
提案手法は, サンプルの品質を向上する多モードサンプリング問題を理論的, 実証的に実証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:46:51 GMT)
Faster Rates for Private Adversarial Bandits [31.7] 我々は,敵の盗賊と盗賊の問題を専門的な助言で解き明かすために,新たな微分プライベートアルゴリズムを設計する。
逆バンディットに対しては、任意の非プライベートバンディットアルゴリズムをプライベートバンディットアルゴリズムにシンプルかつ効率的に変換する。
専門家のアドバイスを受けた盗賊に対しては、最初の微分プライベートなアルゴリズムを提示する。これは、期待された後悔の$Oleft(fracsqrtNTsqrtepsilonright), Oleft(fracsqrtKTlog(N)log(KT)epsilonright)$, $tildeOleft()である。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:42:10 GMT)
Differentiable Solver Search for Fast Diffusion Sampling [31.7] 拡散モデルは、顕著な生成品質を示すが、多くの機能評価のコストがかかる。
t関連ラグランジュが拡散モデルに最適であることを示し、時間ステップとソルバ係数からなるコンパクトな探索空間を明らかにする。
そこで本研究では,より最適な解法を見つけるために,新しい微分可能解法探索アルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:33:43 GMT)
DynamicKV: Task-Aware Adaptive KV Cache Compression for Long Context LLMs [31.6] 既存のKVキャッシュ圧縮手法は、タスク固有の特性を無視し、必須情報の保持を減らす固定パターンを強制する。
本研究では,各層に保持されるトークンの数を調整することで,トークン保持を動的に最適化するDynamicKVを提案する。
本手法は,LongBench上でのフルKVキャッシュ性能の85%を達成しながら,KVキャッシュサイズの1.7%しか保持しない。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:08:57 GMT)
Bringing Objects to Life: training-free 4D generation from 3D objects through view consistent noise [31.5] テキストプロンプトを条件に4D生成を誘導することで,3Dオブジェクトをアニメーション化するためのトレーニング不要な手法を提案する。
まず,3次元メッシュを物体の視覚特性を保存する4次元ニューラルラジアンス場(NeRF)に変換する。
そして,テキスト駆動画像拡散モデルを用いてオブジェクトをアニメーション化する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:40:59 GMT)
Plenodium: UnderWater 3D Scene Reconstruction with Plenoptic Medium Representation [31.5] Plenodiumは、オブジェクトと参加メディアの両方を共同でモデリングできる3D表現フレームワークである。
ビュー依存モデリングにのみ依存する既存の媒体表現とは対照的に,本手法では指向性情報と位置情報の両方を包含する。
実世界の水中データセットを用いた実験により,本手法は3次元再構成において大きな改善をもたらすことが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:37:58 GMT)
Unraveling Indirect In-Context Learning Using Influence Functions [31.4] 実世界の2つのシナリオ(Mixture of Tasks)とNoisy ICL(Nuisy ICL)に合わせたデモ選択戦略について検討する。
タスクの混合設定では、MMLU、BigBench、StrategyQA、CommonsenseQAを含む28のさまざまなタスクからデモが引き出される。
In the Noisy ICL setting, we examined scenarios may be mislabeled or having adversarial noise。
従来のICLセレクタとIFベースのセレクタの重み付けにより,コサイン類似度の平均2.90%,ノイズGLUEベンチマークのBSR2.94%の精度が向上することを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:17:49 GMT)
T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.3] 大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:29:38 GMT)
Towards Better Instruction Following Retrieval Models [31.0] InF-IRは,Instruction-Following IRにおける検索モデルの強化に適した,大規模で高品質なトレーニングコーパスである。
InF-IRは従来のトレーニングペアを38,000以上の表現型命令、クエリ、パス>三つ子に正のサンプルとして拡張する。
命令とクエリの両方を毒殺した後、高度推論モデル(o3-mini)によって厳密に検証し、命令の不正確性を保ちながら意味的妥当性を保証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:14:37 GMT)
3D-UIR: 3D Gaussian for Underwater 3D Scene Reconstruction via Physics-Based Appearance-Medium Decouplin [31.0] 水媒体効果から物体の外観を遠ざける物理ベースの枠組みを提案する。
提案手法は,高品質な新規ビュー合成と物理的に正確なシーン復元を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:19:30 GMT)
Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval [31.0] データキュレーションやモダリティ対応のトレーニング設定を通じて課題に取り組む普遍的なフレームワークであるUNITEを紹介する。
我々の研究は、モダリティ固有のデータプロパティがダウンストリームタスクのパフォーマンスにどのように影響するかを、初めて包括的に分析する。
提案フレームワークは,複数のマルチモーダル検索ベンチマークにおいて最先端の結果を達成し,既存の手法を顕著なマージンで上回っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:57:17 GMT)
KBQA-o1: Agentic Knowledge Base Question Answering with Monte Carlo Tree Search [30.9] 知識ベース質問回答 (KBQA) は,大規模構造化知識ベース (KB) を用いた自然言語質問への回答を目的としている。
大きな言語モデル(LLM)の進歩にもかかわらず、KBQAはKB認識の弱さ、効率性と効率の不均衡、注釈付きデータへの高い依存といった課題に直面している。
モンテカルロ木探索(MCTS)を用いた新しいエージェントKBQA法KBQA-o1を提案する。
実験結果から,KBQA-o1は,従来の低リソースKBQA法よりもアノテートデータに制限があることがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:36:37 GMT)
FCKT: Fine-Grained Cross-Task Knowledge Transfer with Semantic Contrastive Learning for Targeted Sentiment Analysis [30.9] 本稿では,ターゲット感情分析(TSA)の課題に対処する。
TSAには2つのサブタスクがあり、レビューから特定の側面を特定し、対応する感情を決定する。
TSAに適した微粒なクロスタスク知識伝達フレームワークであるFCKTを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:23:53 GMT)
Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.8] VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:47:18 GMT)
HDRSDR-VQA: A Subjective Video Quality Dataset for HDR and SDR Comparative Evaluation [30.4] 現実的な視聴条件下での高ダイナミックレンジ(適応性)と標準ダイナミックレンジ(SDR)のコンテントの比較分析を容易にするために設計された大規模ビデオ品質評価データセットであるHDRSDR-VQAを紹介する。
データセットは、54の多様なソースシーケンスから生成された960のビデオで構成され、それぞれ9つの歪みレベルのHDRおよびSDRフォーマットで表示される。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:35:57 GMT)
Aligning Proteins and Language: A Foundation Model for Protein Retrieval [30.3] 本稿では,大規模タンパク質データセットから類似した構造と意味を持つタンパク質を検索することを目的とする。
近年のビジョンキャプチャーモデル (VLM) の進歩により, 3次元タンパク質構造と機能アノテーションを協調するCLIPスタイルのフレームワークが提案されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:13:08 GMT)
Multi-Granularity Class Prototype Topology Distillation for Class-Incremental Source-Free Unsupervised Domain Adaptation [29.6] Class-Incremental Source-Free Unsupervised Domain Adaptation (CI-SFUDA)は、ラベル付きソースインスタンスにアクセスせずにラベル付きターゲットデータが漸進的にやってくる問題である。
本稿では,GROTOアルゴリズムを提案する。GROTOアルゴリズムは,ソース知識をクラス増分対象領域に効果的に転送する。
提案手法は,3つの公開データセット上での最先端性能を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:46:03 GMT)
Efficient and Unbiased Sampling from Boltzmann Distributions via Variance-Tuned Diffusion Models [29.5] VT-DIS(Variance-Tuned Diffusion Smpling)は、事前学習したスコアベース拡散モデルのステップごとのノイズ共分散に適応する軽量な手法である。
VT-DISはDW-4, LJ-13, アラニン-ジペプチドベンチマークでそれぞれ80%, 35%, 3.5%の有効試料サイズを達成している。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:37:48 GMT)
Stochastic Online Conformal Prediction with Semi-Bandit Feedback [29.3] 実例が時間とともに現れるオンライン学習環境について検討し、その目標は予測セットを動的に構築することである。
本稿では,この設定を対象とする新しい共形予測アルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:58:36 GMT)
RF4D:Neural Radar Fields for Novel View Synthesis in Outdoor Dynamic Scenes [29.3] 本研究では,屋外のダイナミックシーンにおける新しいビュー合成を目的としたレーダーベースニューラルネットワークフレームワークRF4Dを紹介する。
RF4Dはその表現に時間情報を明示的に組み込んでおり、動く物体をモデル化する能力を大幅に強化している。
本稿では,レーダセンシング物理と密接に一致したレーダ固有のパワーレンダリングを提案し,合成精度と相互運用性を改善した。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:59:05 GMT)
A Reduction-Driven Local Search for the Generalized Independent Set Problem [29.1] 本稿では,これらのリダクションルールを前処理,初期解生成,局所探索コンポーネントに組み込むリダクション駆動ローカルサーチ(RLS)アルゴリズムを提案する。
RLSは、異なるアプリケーションシナリオから生じる278のグラフで実証的に評価される。
他の既知の解法に比べてはるかに優れた解を実現し、2億6000万を超えるグラフに対する解を効果的に提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:39:05 GMT)
MTGR: Industrial-Scale Generative Recommendation Framework in Meituan [28.9] この問題に対処するためにMTGR(Meituan Generative Recommendation)を提案する。
MTGRはユーザレベルの圧縮によってトレーニングと推論の高速化を実現し、効率的なスケーリングを実現する。
この突破口は世界最大のフードデリバリープラットフォームであるMeituanに配備された。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:49:04 GMT)
Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation [28.8] DiffPhyは、物理的に正確でリアルなビデオ生成を可能にする汎用的なフレームワークである。
本手法は大規模言語モデル(LLM)を活用し,テキストプロンプトから包括的物理的文脈を明示的に推論する。
また、多様な植物行動やイベントを含む高品質な物理ビデオデータセットを構築し、効果的な微調整を容易にする。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:26:43 GMT)
Adaptive Deep Reasoning: Triggering Deep Thinking When Needed [28.6] 大規模言語モデル(LLM)は、ロングチェーン推論による複雑なタスクの処理において、優れた機能を示している。
本稿では,問題複雑性に基づいて,短鎖と長鎖の推論チェーンを自律的に切り替える手法を提案する。
この進歩は、現実世界の応用のための大規模言語モデルにおける推論の実践性を高める。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:54:28 GMT)
Learnable Kernel Density Estimation for Graphs [28.6] グラフ密度推定の鍵となる課題は、構造パターンと意味的バリエーションの両方を捉えることである。
本研究は,グラフのカーネル密度推定を学習するLGKDEフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:53:09 GMT)
Cognitive Disentanglement for Referring Multi-Object Tracking [28.3] 本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。
CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:34:31 GMT)
Calibrating LLMs for Text-to-SQL Parsing by Leveraging Sub-clause Frequencies [28.3] 出力クエリの正しさを伝達する正当性スコアを提供するという課題について検討する。
私たちの研究は、テキスト・ツー・パーシングのポストホックキャリブレーションのためのベンチマークを最初に確立したものです。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:01:55 GMT)
ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models [28.2] マルチモーダル大言語モデル(MLLM)におけるオブジェクト幻覚を軽減するために、コントラストデコーディング戦略が広く用いられている。
モデル中層における視覚信号に注意を向けるプラグイン・アンド・プレイ技術であるVisual Amplification Fusion (VAF)を提案する。
VAFは、生成された出力のコヒーレンスと精度を維持しながら、推論速度に影響を与えることなく、様々なMLLMの幻覚を著しく低減する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:13:47 GMT)
Wideband RF Radiance Field Modeling Using Frequency-embedded 3D Gaussian Splatting [28.1] 広帯域無線周波数(RF)放射場モデリングのための3次元ガウススプラッティング(3DGS)アルゴリズムを提案する。
6室内環境における1GHzから100GHzまでの50000サンプルを含む大規模電力角スペクトル(PAS)データセットを提案する。
提案手法は, 平均構造類似度指標(SSIM)を最大0.72で達成し, 現在のSOTA法と比較して17.8%の大幅な改善を実現している。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:48:26 GMT)
Incorporating Flexible Image Conditioning into Text-to-Video Diffusion Models without Training [27.8] フレキシブル・ビジュアル・コンディショニングによるTI2V生成のための統一型定式化を提案する。
我々は、任意の量の画像に対してT2V基礎モデルを条件付けることができるFlexTI2Vと呼ばれる革新的なトレーニングフリーアプローチを提案する。
本手法は,従来のトレーニング不要の画像条件付け手法を顕著なマージンで上回っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:16:06 GMT)
Memorization to Generalization: Emergence of Diffusion Models from Associative Memory [27.7] AMのレンズを用いた拡散モデルにおける記憶一般化現象について検討する。
本研究は, AMsレンズを用いた拡散モデルにおける記憶一般化現象の新たな展望である。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:20:57 GMT)
The Multilingual Divide and Its Impact on Global AI Safety [27.6] 本稿では、研究者、政策立案者、ガバナンスの専門家に対して、AIの"言語ギャップ"をブリッジする上での重要な課題の概要を提供する。
私たちは、AIの言語ギャップがなぜ存在して成長するのか、そして、グローバルAIの安全性における格差をどのように生み出すのかを分析します。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:37:32 GMT)
Leveraging the Power of Conversations: Optimal Key Term Selection in Conversational Contextual Bandits [27.6] 会話レコメンデータシステムは、ユーザに対して、関連する"キーワード"を積極的にクエリし、フィードバックを活用して、パーソナライズされたレコメンデーションのためにユーザの好みを導き出す。
既存のアルゴリズムでは、探索が不十分なキーターム選択戦略を採用しており、しばしばユーザーの好みを徹底的に調査することができない。
CLiSK, CLiME, CLiSK-MEの3つの新しいアルゴリズムを提案する。
理論的には、3つのアルゴリズムが時間的地平線に対して$O(sqrtdTlogT)$のより強い後悔の上限を達成し、既存の手法を改善していることを証明している。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:22:32 GMT)
Any-to-Bokeh: One-Step Video Bokeh via Multi-Plane Image Guided Diffusion [27.5] 本稿では,任意の入力ビデオから時間的コヒーレントで深度を意識したボケ効果に変換するワンステップビデオボケフレームワークを提案する。
MPI層上に一段ビデオ拡散モデルを適用することで,多様なシーンにまたがる現実的で一貫したボケ効果を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:33:54 GMT)
Transparent and Coherent Procedural Mistake Detection [27.4] 手続き的誤り検出(英: Procedural mis detection、PMD)は、人間がタスクをうまく実行したかどうかを分類する難しい問題である(手続き的テキストで特定)。
我々は、意思決定に視覚的自己対話的合理性を生成するためにPMDを拡張した。
近年のヴィジュアル・アンド・ランゲージモデル(VLM)で観察される印象的かつ成熟した画像理解能力を考えると、個々のフレームに基づいてPMDに適したベンチマークデータセットをキュレートする。
我々の改定は前例のない透明性を実現するため、自然言語推論(NLI)モデルを用いて、生成した有理数のコヒーレンスを2つの自動メトリクスで定式化する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:59:37 GMT)
HybridLinker: Topology-Guided Posterior Sampling for Enhanced Diversity and Validity in 3D Molecular Linker Generation [27.4] リンカー生成は鉛最適化やPROTAC設計といった薬物発見の応用において重要である。
多様な結合トポロジを提供することで、ポイントクラウド認識推論を強化するフレームワークであるHybridLinkerを提案する。
LinkerDPSは、点クラウドフリーおよび点クラウド対応空間をまたいだ最初の拡散後サンプリング(DPS)法である。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:43:18 GMT)
MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.8] MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:29:40 GMT)
HoliTom: Holistic Token Merging for Fast Video Large Language Models [26.8] ビデオ言語モデル(ビデオLLM)は、ビデオ理解において優れるが、冗長なビデオトークンによる計算不効率に直面する。
HoliTomは、新しいトレーニング不要な全体的トークンフレームワークである。
また,内部LLMトークンの類似性に基づくマージ手法を導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:28:45 GMT)
Spotlight-TTS: Spotlighting the Style via Voiced-Aware Style Extraction and Style Direction Adjustment for Expressive Text-to-Speech [26.7] 音声認識型スタイル抽出とスタイル方向調整によるスタイル強調を行うSpotlight-TTSを提案する。
TTSモデルへの最適統合のために,抽出したスタイルの方向を調整し,音声品質を向上する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:20:01 GMT)
User Feedback Alignment for LLM-powered Exploration in Large-scale Recommendation Systems [26.7] 大規模なレコメンデーションシステムでは,ユーザエクスペリエンスを,確立された嗜好を超えて拡張する行為であるExplorationが課題となっている。
本稿では,階層型計画とLLM推論時間スケーリングを組み合わせた新しい手法を提案する。
ユーザ満足度(ウォッチアクティビティとアクティブユーザ数で測定)と探索多様性の両面で有意な向上を示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:56:54 GMT)
M-Wanda: Improving One-Shot Pruning for Multilingual LLMs [26.5] 本稿では,言語対応アクティベーション統計をプルーニング基準に組み込むことで,言語間変動をモデル化するプルーニング手法であるM-Wandaを提案する。
M-Wanda は最小限の追加コストで性能を継続的に向上することを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:24:38 GMT)
Energy-based generator matching: A neural sampler for general state space [26.5] 本研究では,データがない場合にエネルギー関数から生成モデルを学習するためのエネルギーベースジェネレータマッチング(EGM)を提案する。
EGMは、拡散、流れ、ジャンプなどの任意の連続時間マルコフ過程の訓練を可能にし、連続的、離散的、および2つのモードの混合からデータを生成することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:18:11 GMT)
Evaluation of LLMs in Medical Text Summarization: The Role of Vocabulary Adaptation in High OOV Settings [26.4] 近年,Large Language Models (LLMs) は,テキスト内学習を単純に利用することで,医学的テキスト要約において大きな成功を収めている。
その結果,LLMは語彙外単語の濃度が高い点や,新規性が高い点では顕著な性能低下を示した。
語彙適応は、この語彙ミスマッチ問題に対する直感的な解決法である。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:23:03 GMT)
UQLegalAI@COLIEE2025: Advancing Legal Case Retrieval with Large Language Models and Graph Neural Networks [26.3] 訴訟検索は、関連事例の効率的な識別を容易にすることによって、法的領域において重要な役割を担っている。
毎年COLIEE(Conference on Legal Information extract and Entailment)が開催され、評価のためのベンチマークデータセットが更新されている。
本稿では,COLIEE 2025のタスク1で2番目に高いチームである UQLegalAI が採用した CaseLink の詳細について述べる。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:32:50 GMT)
What Do Latent Action Models Actually Learn? [26.2] ラテントアクションモデル(LAM)は、フレーム間の変化をラテントとして圧縮することにより、ラベルのないビデオからアクション関連の変化を学習することを目的としている。
本稿では,LAM学習の本質を包括する線形モデルを提案するとともに,この問題を解析的に考察する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:45:30 GMT)
Diffusion Adversarial Post-Training for One-Step Video Generation [26.1] 本稿では,1ステップビデオ生成のための拡散事前学習後の実データに対して,APT(Adversarial Post-Training)を提案する。
我々のモデルは1ステップで1024px画像を生成することができ、最先端の手法に匹敵する品質を実現することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:22:25 GMT)
Understand, Think, and Answer: Advancing Visual Reasoning with Large Multimodal Models [26.1] 大規模マルチモーダルモデル(LMM)は、視覚言語と視覚中心のタスクの両方において、目覚しい視覚的理解性能を示す。
本稿では,LMMが複雑な構成問題を解くための統一的な視覚推論機構を提案する。
トレーニングされたモデルであるGriffon-Rには、エンドツーエンドの自動理解、自己思考、推論の回答能力があります。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:50:25 GMT)
Music Foundation Model as Generic Booster for Music Downstream Tasks [26.1] 対象の音楽サンプルから階層的特徴を抽出する音楽基礎モデル(MFM)であるSoniDoを紹介する。
階層的な中間機能を活用することで、SoniDoは情報の粒度を制限し、さまざまな下流タスクのパフォーマンスを改善する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:58:45 GMT)
Efficient Diffusion Models for Symmetric Manifolds [26.0] 本稿では,$d$次元対称空間に対する効率的な拡散モデル設計のためのフレームワークを提案する。
マンデラ対称性は拡散が「平均ケース」リプシッツ条件を満たすことを保証する。
本モデルは,学習速度において先行手法より優れ,合成データセットのサンプル品質が向上する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:12:29 GMT)
Directed Semi-Simplicial Learning with Applications to Brain Activity Decoding [26.0] トポロジカルディープラーニング(TDL)は、トポロジカル空間を活用することで、この制限に対処する。
半単純ニューラルネットワーク(SSN)は,半単純集合上で動作するTDLモデルの原理クラスである。
SSNは、脳力学の分類タスクにおける最先端のパフォーマンスを達成し、第2のベストモデルを最大27%、メッセージパッシングGNNを最大50%向上させる。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:14:31 GMT)
GraphCheck: Breaking Long-Term Text Barriers with Extracted Knowledge Graph-Powered Fact-Checking [25.9] GraphCheckは、抽出した知識グラフを使用してテキスト表現を強化するファクトチェックフレームワークである。
既存の方法によって見落とされがちなマルチホップ推論チェーンをキャプチャする。
最先端のLCMと同等のパフォーマンスを実現し、パラメータも大幅に少ない。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:27:23 GMT)
Improving Research Idea Generation Through Data: An Empirical Investigation in Social Science [25.9] 本稿では, アイデア生成過程において, 関連データを用いた大規模言語モデルの拡張が, 生成したアイデアの品質をいかに向上させるかを検討する。
我々は,社会科学領域,特に気候交渉のテーマで実験を行い,メタデータが生成したアイデアの実現可能性を20%向上させることを見出した。
人間の研究では、LCMが生成したアイデアと関連するデータと検証プロセスが、研究者により高い品質で研究アイデアを提案するよう促すことが示されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:23:42 GMT)
Deep Reinforcement Learning Agents are not even close to Human Intelligence [25.8] 深部強化学習(RL)エージェントは、様々なタスクにおいて印象的な結果を得るが、ゼロショット適応能力は欠如している。
我々は、アーケード学習環境のタスクバリエーションのセットであるHackAtariを紹介する。
人間とは対照的に、RLエージェントは、トレーニングタスクのより単純なバージョンに対して、体系的に大きなパフォーマンス低下を示します。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:21:46 GMT)
PreGenie: An Agentic Framework for High-quality Visual Presentation Generation [25.7] PreGenieは、マルチモーダルな大規模言語モデル(MLLM)を利用して高品質なビジュアルプレゼンテーションを生成するエージェント型でモジュール型のフレームワークである。
1)マルチモーダル入力を要約して初期コードを生成する解析と初期生成,(2)中間コードを反復的にレビューし,スライドを描画して最終品質の高いプレゼンテーションを生成するレビューと再生成の2段階で動作する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:36:19 GMT)
Reason-Align-Respond: Aligning LLM Reasoning with Knowledge Graphs for KGQA [25.7] 本稿では、推論と知識グラフを統合するフレームワークであるReason-Align-Respond(RAR)を紹介する。
RARは知識グラフに整合した高品質で解釈可能な推論チェーンを生成する。
RARは強いゼロショットの一般化能力を示し、推論中に計算効率を維持する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:04:53 GMT)
Pandora's Box or Aladdin's Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models [25.6] 大規模言語モデル(LLM)における幻覚に対処するための重要な手法として、検索型拡張生成(RAG)が登場している。
本稿では,言語的観点から7つの異なるノイズタイプを定義し,ノイズRAGベンチマーク(NoiserBench)を確立する。
我々の分析は、より堅牢で適応可能なRAGソリューションを開発し、多様な検索シナリオにまたがる幻覚を緩和するための洞察を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:47:19 GMT)
Efficiently Scaling LLM Reasoning with Certaindex [25.5] テストタイム推論アルゴリズムは、精度を向上することなく、多くのトークンを無駄に生成することができる。
本稿では,アルゴリズムに依存しない測定値であるCertaindexを導入する。
Certaindexは軽量で、早期終了による推論プログラムの推論を加速し、動的トークン割り当てを可能にする。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:41:53 GMT)
NatADiff: Adversarial Boundary Guidance for Natural Adversarial Diffusion [25.4] 敵対的なサンプルは「学習された多様体の不規則性」を深層学習モデルによって悪用し、誤分類を引き起こす。
そこで我々は,自然対向サンプルを生成するために,デノナイズ拡散を利用した対向サンプリング方式であるNatADiffを提案する。
NatADiffは、モデル間でより効果的に転送するだけでなく、自然に発生するテストタイムエラーに忠実に類似する逆のサンプルを生成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:23:09 GMT)
Adaptive Frontier Exploration on Graphs with Applications to Network-Based Disease Testing [25.4] 我々は,各ノードが未知のラベルを持つような$n$-node graph $G$について,逐次決定問題を研究する。
我々は、一般的なグラフに適用可能なGittinsインデックスベースのポリシーを設計し、$G$が森林である場合に確実に最適である。
合成および実世界のグラフの実験は、我々の手法が自然の基準線を一貫して上回っていることを示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:48:42 GMT)
Predicate Invention for Bilevel Planning [25.2] 本稿では,手動で指定した状態抽象化の必要性を排除し,実演から述語を学習するアルゴリズムを提案する。
私たちのキーとなるアイデアは、現実の効率的な計画目標に忠実だが引き付けやすい代理目的を最適化することで、述語を学ぶことです。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:09:33 GMT)
GMU Systems for the IWSLT 2025 Low-Resource Speech Translation Shared Task [25.1] レバンタ語を除き、すべての言語ペアのシステムを訓練しました。
自動音声認識(ASR)、機械翻訳(MT)、エンドツーエンド音声翻訳(E2E ST)のためのSeamlessM4T-v2を微調整した。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:26:35 GMT)
DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.1] diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。
診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。
我々の研究では、最も先進的な推論モデルであるo3-mini、o1、DeepSeek-R1でさえ、それぞれ45.82%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:43:01 GMT)
H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding [25.1] 既存のビデオ理解評価ベンチマークでは、カバレッジ、タスクの多様性、シーン適応性に大きな制限がある。
本稿では,一般的なビデオとオンラインストリーミングの両方の理解度を評価するために,階層的・全体論的ビデオ理解ベンチマークを提案する。
このベンチマークは、拡張ビデオの長さ、包括的なアセスメントタスク、エンリッチ化ビデオデータという3つの重要な特徴に寄与する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:04:52 GMT)
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation [25.0] テキスト・ツー・フォームド・モデル(T2I)は高品質な芸術作品や視覚コンテンツを生成することができる。
我々は、$textbfWorld Knowledge incorporation$bfIntext $textbfSemantic $textbfE$valuationのために特別に設計された最初のベンチマークである$textbfWISEを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:05:23 GMT)
Exploring Timeline Control for Facial Motion Generation [24.9] 本稿では,顔の動き生成のための新しい制御信号であるタイムライン制御を提案する。
音声やテキストの信号と比較して、タイムラインは特定の顔の動きを正確なタイミングで生成するなど、よりきめ細かい制御を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:13:38 GMT)
Integrating Intermediate Layer Optimization and Projected Gradient Descent for Solving Inverse Problems with Diffusion Models [24.7] 逆問題(IP)はノイズの観測から信号を再構成する。
これらの課題に対処するために,DMILOとDMILO-PGDという2つの新しい手法を提案する。
その結果,最先端手法よりも高い性能を示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:49:02 GMT)
Object Concepts Emerge from Motion [24.7] 教師なしの方法でオブジェクト中心の視覚表現を学習するための生物学的にインスパイアされたフレームワークを提案する。
我々の重要な洞察は、運動境界がオブジェクトレベルのグルーピングの強いシグナルとなることである。
我々のフレームワークは完全にラベルフリーで、カメラキャリブレーションに頼らず、大規模な非構造化ビデオデータにスケーラブルである。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:09:02 GMT)
Charting the Landscape of African NLP: Mapping Progress and Shaping the Road Ahead [24.7] アフリカは2000以上の言語を持つ世界で最も豊かな言語圏の1つである。
この多様性は、最先端の自然言語処理システムにはほとんど反映されない。
我々は過去5年間に出版されたアフリカ言語のためのNLPに関する734の研究論文を分析した。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:13:08 GMT)
MedSentry: Understanding and Mitigating Safety Risks in Medical LLM Multi-Agent Systems [24.6] MedSentryは、100のサブテーマを持つ25のカテゴリにまたがる5万の相手医療プロンプトのベンチマークである。
我々は,4つの代表的マルチエージェントトポロジが「暗黒人格」エージェントからの攻撃に耐えられるかを分析するために,エンド・ツー・エンドの攻撃防御評価パイプラインを開発した。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:34:40 GMT)
Disentangling Locality and Entropy in Ranking Distillation [24.6] 我々は, ニューラルランキングにおいて, サンプリングおよび蒸留プロセスの広範囲にわたるアブレーションを行う。
モデル幾何学の性質は, 例選択の影響を受け, 理論的に導出する。
ランキングモデルにおいて,データ拡張がバイアスを効果的に改善する条件を確立する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:46:37 GMT)
PIPE: Physics-Informed Position Encoding for Alignment of Satellite Images and Time Series [24.6] 本稿では,物理情報を視覚言語モデル(VLM)に埋め込む軽量な物理情報符号化手法PIPEを提案する。
物理情報と注文情報の両方を保存することにより、PIPEはマルチモーダルアライメントと予測精度を大幅に改善する。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:03:41 GMT)
Training-free Stylized Text-to-Image Generation with Fast Inference [24.6] 本稿では,事前学習した大規模拡散モデルを利用した新しいスタイリング画像生成手法を提案する。
我々は、潜在整合モデルの自己整合性を利用して、代表的なスタイル統計を抽出する。
次に、モデルが最も関連するスタイルパターンを問合せできる自己意図の標準的な混合を紹介します。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:13:49 GMT)
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction [24.5] 我々は、事前生成された回答における認識誤りの挙動を「取り消し」として定義する。
我々は、リトラクションがモデルの内部信念の指標と密接な関係があることを実証する。
実験により、内的信念はモデルリトラクションに因果的に影響を及ぼすことが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:14:53 GMT)
AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs [24.4] AutoJudgerはマルチモーダルな大規模言語モデルの効率的かつ適応的なベンチマークのためのエージェント駆動フレームワークである。
AutoJudgerは、アイテム応答理論(IRT)を用いて、質問の難易度を推定し、自律的な評価エージェントを使用して最も情報性の高いテスト質問を動的に選択する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:17:15 GMT)
How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation [24.4] 大規模言語モデル(LLM)は多様なシナリオに広くデプロイされている。
彼らが誤報をうまく広める程度は、重大な安全上の懸念として浮かび上がっている。
私たちは、暗黙の誤報の最初のベンチマークであるEchoMistをキュレートしました。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:40:26 GMT)
Select2Reason: Efficient Instruction-Tuning Data Selection for Long-CoT Reasoning [24.3] 提案するSelect2Reasonは,Long-CoT推論のための新しい,効率的な命令チューニングデータ選択フレームワークである。
Select2Reasonは,3つの競合レベルと6つの総合的な数学的ベンチマークで,フルデータチューニングとオープンソースベースラインOpenR1-Qwen-7Bに比較して,性能を向上することを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:50:50 GMT)
VibE-SVC: Vibrato Extraction with High-frequency F0 Contour for Singing Voice Conversion [24.3] VibESVCは、ヴィブラートを明示的に抽出し操作する制御可能な歌声変換モデルである。
実験の結果,VibE-SVCは話者の類似性を保ちながら歌唱スタイルを効果的に変換することがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:56:13 GMT)
Music's Multimodal Complexity in AVQA: Why We Need More than General Multimodal LLMs [24.2] Music Audio-Visual Question Answeringは、連続的で層密なオーディオ視覚コンテンツでユニークな課題を提示する。
本稿では,専門的な入力処理,専用の時空間設計を取り入れたアーキテクチャ,音楽固有のモデリング戦略が,この分野の成功に不可欠であることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:31:24 GMT)
ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models [24.1] VLM(Vision-Language Models)の性能向上のための一般的なアプローチは、高解像度バージョンと画像のサムネイルの両方を同時に符号化することである。
位置 ID を並べ替えることでこれらの問題を緩和する ID-Align を提案する。
LLaVA-Nextフレームワークで実施した実験では,ID-Alignが大幅に改善された。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:36:23 GMT)
PLGSLAM: Progressive Neural Scene Represenation with Local to Global Bundle Adjustment [24.1] PLGSLAMは、高忠実な表面再構成とロバストなカメラトラッキングをリアルタイムで実現可能な、ニューラルビジュアルSLAMシステムである。
大規模屋内シーンを扱うため, PLGSLAM では, ローカルスライドウィンドウ内のフレームで訓練した新たなローカルシーン表現を動的に割り当てるプログレッシブシーン表現法を提案する。
局所的なシーン表現において、PLGSLAMは、低周波特性のための多層パーセプトロン(MLP)ネットワークを備えた局所的な高周波特性にトリプレーンを使用し、観測されていない領域での滑らかさとシーン補完を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:13:23 GMT)
Optimizing Data Augmentation through Bayesian Model Selection [23.9] データ拡張(DA)の最適化のための新しいフレームワークを提案する。
DAの確率論的視点から、拡張パラメータをモデル(ハイパー)-パラメータとして解釈する。
モデルパラメータと組み合わせて拡張パラメータを最適化できる抽出可能なエビデンス下境界(ELBO)を導出する。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:44:36 GMT)
ReSCORE: Label-free Iterative Retriever Training for Multi-hop Question Answering with Relevance-Consistency Supervision [23.8] マルチホップ質問の回答には、複雑な質問に答えるために複数のドキュメントをまたがる推論が含まれる。
センスレトリバーは通常、セマンティック埋め込みを利用してBM25のようなスパースメソッドより優れている。
ReSCOREはラベル付き文書を使わずにMHQAの高密度検索を訓練するための新しい手法である。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:28:24 GMT)
Pretrained LLMs Learn Multiple Types of Uncertainty [23.8] 大規模言語モデルは現実世界の知識を捉えることで知られており、下流の多くのタスクに精通することができる。
本研究では,LLMが不確実性をどのように捉えているのかを,それに対して明示的に訓練されることなく検討する。
モデルの潜在空間における線形概念としての不確実性を考えると、事前訓練後にのみ捕捉されることが示される。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:06:15 GMT)
Enhancing Transformation from Natural Language to Signal Temporal Logic Using LLMs with Diverse External Knowledge [23.5] STL-Diversity-Enhanced (STL-DivEn) と呼ばれるNL-STLデータセットを提案する。
データセットを開発するために、まず手動でNL-STLペアの小さなシードセットを作成する。
代表的な例はクラスタリングを通じて識別され、大きな言語モデルをガイドするために使用される。
最後に、厳密なルールベースのフィルタと人間の検証によって、多様性と精度が保証される。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:07:25 GMT)
BQA: Body Language Question Answering Dataset for Video Large Language Models [23.2] 非言語コミュニケーションは形式的な規則を欠き、常識的理解に基づく複雑な推論を必要とする。
身体言語を正確に解釈するビデオ大言語モデル(VideoLLMs)は、人間の無意識行動がモデルに意図を誤解釈させる可能性があるため、重要な課題である。
本稿では,ボディランゲージの短いクリップから感情を正しく解釈できるかどうかを検証するために,ボディーランゲージ質問応答データセットであるBQAを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:21:28 GMT)
Probabilistic Reasoning with LLMs for k-anonymity Estimation [23.2] 大規模言語モデルに対する不確実性を考慮した新しい数値推論タスクを提案する。
BRANCHは、与えられた情報と一致する集団の大きさのテキストのk-privacy値を推定する新しい手法である。
実験の結果,k値が73%と推定され,o3-miniとチェーン・オブ・シント推論の13%の増加が確認された。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:19:48 GMT)
The Third Pillar of Causal Analysis? A Measurement Perspective on Causal Representations [23.1] 因果推論と発見は、実世界のデータの複雑さ、ノイズ、高次元性のためにしばしば困難に直面する。
学習した表現を因果的下流タスクに役立てるものと、それらをどのように評価するかは、まだよく理解されていない。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:51:53 GMT)
Hallucinations are inevitable but can be made statistically negligible. The "innate" inevitability of hallucinations cannot explain practical LLM issues [23.1] 言語モデル(LM)が非現実的コンテンツを生成する現象である幻覚は、LMの実践的な展開に重大な課題をもたらす。
最近の研究は計算可能性理論的な結果を確立し、いかなるLMも必然的に無限の入力に対して幻覚を発生させることを示した。
本稿では,計算可能性理論と対角論から生じる「自然的」不可避性は,原則として,LMの実践的問題を説明できないと主張している。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:53:34 GMT)
Fundamental Limits of Game-Theoretic LLM Alignment: Smith Consistency and Preference Matching [23.0] ヒューマンフィードバックからのナッシュラーニング(Nash Learning from Human Feedback)は、学習をゼロサムゲームとしてモデル化することで、大きな言語モデルを人間の好みに合わせるためのフレームワークである。
本稿では,人選好に基づく配当選択が望ましいアライメント特性を得られるかを検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:07:35 GMT)
MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios [22.9] 我々は,ビデオOCRアプリケーションシナリオを包括的に含むMME-VideoOCRベンチマークを紹介する。
ベンチマークは、解像度、アスペクト比、持続時間が異なる1,464本のビデオと、2000本の細心の注意を払って、手動で注釈付けされた質問回答ペアで構成されている。
MME-VideoOCRを用いて18種類のMLLMを評価し,最高の性能モデル(Gemini-2.5 Pro)でさえ73.7%の精度で達成できることを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:27:46 GMT)
Towards Human-Like Trajectory Prediction for Autonomous Driving: A Behavior-Centric Approach [22.8] HiT(Human-like Trajectory Prediction, Human-like Trajectory Prediction)は、行動認識モジュールと動的集中度を組み込むことで、軌道予測を強化するために設計された新しいモデルである。
HiTの性能を評価するために,多種多様な実世界のデータセットを用いて広範な実験を行った。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:04:01 GMT)
Trans-EnV: A Framework for Evaluating the Linguistic Robustness of LLMs Against English Varieties [22.8] 大規模言語モデル (LLM) は標準アメリカ英語 (SAE) に基づいて評価され、しばしばグローバルな英語品種の多様性を見落としている。
我々は,SAEデータセットを複数の英語変種に変換するフレームワークであるTrans-EnVを導入し,言語的堅牢性を評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:23:27 GMT)
Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models [22.5] 信頼性のキャリブレーションは、現実世界における機械学習モデルの安全なデプロイに不可欠である。
既存のプロンプトチューニング手法は、通常、ベースクラスと新しいクラスのキャリブレーションのトレードオフにつながる。
微調整後, 基本クラスと新クラスの信頼性校正を確保するために, ダイナミック・アウトレイラ正規化を導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:22:35 GMT)
DeCAF: Decentralized Consensus-And-Factorization for Low-Rank Adaptation of Foundation Models [22.5] Low-Rank Adaptation (LoRA)は視覚言語モデル(VLM)とLarge Language Models(LLM)を訓練するための最も効果的で、計算に難解な微調整手法の1つとして登場した。
この研究は、分散化LoRAの収束率を改善し、滑らか性を確保することにより、分散化勾配SGDの速度に適合する。
また,DLoRAとTSVDに基づく行列分解を統合し,コンセンサス干渉を解消する新しいアルゴリズムであるDeCAFを導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:10:53 GMT)
Nearly Dimension-Independent Convergence of Mean-Field Black-Box Variational Inference [22.3] ブラックボックスの変分推論は、ほぼ次元に依存しない速度で収束する。
対象対数密度のHessianのスペクトル境界のみを用いて、勾配分散に対する我々の境界を改善できないことを証明した。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:08:28 GMT)
DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving [22.3] 我々は,4つのコアタスク上の構造化推論プロセスとして,自律運転を定式化する統合トレーニングフレームワークであるAutoDriveRLを提案する。
このフレームワーク内では、リアルタイム意思決定用に設計されたクロスタスク推論VLMであるDriveRXを訓練する。
本分析は,視覚エンコーダ設計と報酬誘導推論圧縮の影響を明らかにする。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:21:04 GMT)
Training on Plausible Counterfactuals Removes Spurious Correlations [22.1] P-CFE (Plusible counterfactual explanations) は、入力を最小限に修正して分類器の決定を変更する摂動である。
本研究では,非摂動入力を分類するために,誘導的内向的ターゲットクラスをラベル付けしたp-CFEを用いて分類器を訓練できることを実証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:30:05 GMT)
From EduVisBench to EduVisAgent: A Benchmark and Multi-Agent Framework for Reasoning-Driven Pedagogical Visualization [21.9] EduVisBenchを導入し、基礎モデル(FM)の視覚的推論能力を教育環境でよりよく評価する。
EduVisAgentは、教育計画、推論分解、メタ認知的プロンプト、可視化設計のための特殊エージェントをコーディネートする。
EduVisAgentは全てのベースラインを大幅に上回り、40.2%の改善と教育的に整合した視覚化を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:23:45 GMT)
SageAttention2++: A More Efficient Implementation of SageAttention2 [21.7] 本稿では,FP16に蓄積したFP8 Matmulの高速な命令を利用して,SageAttention2を高速化することを提案する。
実験によると、SageAttention2++は、SageAttention2と同じ注意精度を維持しながら、FlashAttentionよりも3.9倍のスピードアップを達成した。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:50:36 GMT)
Non-Markovian Discrete Diffusion with Causal Language Models [21.7] CaDDiは、生成軌道全体に条件を定める離散拡散モデルである。
単一の非マルコフ変換器における逐次的(因果的)および時間的(拡散的)推論を統一することにより、CaDDiは標準因果言語モデルも特別なケースとして扱う。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:25:10 GMT)
Advancing high-fidelity 3D and Texture Generation with 2.5D latents [21.3] 本稿では3次元幾何学とテクスチャの融合生成のための新しい枠組みを提案する。
具体的には、2Dと3Dの間でシームレスに変換できる汎用2.5D表現を生成することに重点を置いている。
我々のモデルは、テキストや画像からのコヒーレントな構造と色を持つ高品質な3Dオブジェクトの生成に優れるだけでなく、テクスチャ生成における既存の手法よりも優れています。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:35:35 GMT)
Sequential Resource Trading Using Comparison-Based Gradient Estimation [21.2] 資源割り当てのシーケンシャルなトレーディングを、2つの合理的なエージェントが有限のカテゴリから逐次的にリソースを交換する環境で検討する。
提供エージェントは、応答エージェントのユーティリティ機能を知ることなく、そのユーティリティを改善するための取引オファーを行い、応答エージェントは、そのユーティリティを改善するオファーのみを受け入れる。
本稿では,提案エージェントが応答エージェントの勾配(参照)を推定し,事前の受け入れや拒絶の応答に基づいて提案を行うアルゴリズムを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:36:01 GMT)
TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization [21.2] 生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。
既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。
本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:16:32 GMT)
Multitemporal Latent Dynamical Framework for Hyperspectral Images Unmixing [21.2] マルチテンポラル潜在力学(MiLD)アンミックスフレームワークを提案する。
MiLDは問題定義、数学的モデリング、解アルゴリズム、理論的支援から構成される。
合成データと実データの両方に関する実験により、我々の研究の有用性が検証された。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:48:49 GMT)
Hybrid Wave-wind System Power Optimisation Using Effective Ensemble Covariance Matrix Adaptation Evolutionary Algorithm [21.2] ハイブリッド・ウィンドウェーブシステムは、オフショア・ウィンド・プラットフォームとウェーブ・エナジー・コンバータ(WEC)を組み合わせて、コスト効率と信頼性の高いエネルギーソリューションを作成する。
本研究は,3つの球面WECを持つ5-MW OC4-DeepCwind半潜水プラットフォームを用いて,これらのシナジーを探索する。
本稿では,共分散行列適応,新規性探索,離散化技術を組み合わせた効果的なアンサンブル最適化手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:03:10 GMT)
FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering [21.1] VQAタスクの堅牢な微調整を評価するために,新しいベンチマークFRAMES-VQA(Fine-Tuning Robustness across Multi-Modal Shifts in VQA)を提案する。
VQAv2、IV-VQA、VQA-CP、OK-VQAなど、既存のVQAベンチマークを10種類使用し、それをID、近距離OODデータセットに分類する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:44:44 GMT)
Object-Centric Action-Enhanced Representations for Robot Visuo-Motor Policy Learning [21.1] 本稿では,意味的セグメンテーションと視覚表現生成を結合的に行うオブジェクト中心エンコーダを提案する。
これを実現するために、Slot Attentionメカニズムを活用し、大規模なドメイン外のデータセットで事前訓練されたSOLVモデルを使用する。
我々は、ドメイン外のデータセットで事前トレーニングされたモデルを活用することが、このプロセスの恩恵となり、人間のアクションを描写したデータセットの微調整により、パフォーマンスが大幅に向上することを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:56:52 GMT)
When Shift Happens - Confounding Is to Blame [21.0] 経験的リスク最小化は、最先端のアウト・オブ・ディストリビューションの一般化手法に匹敵する、あるいは超越する可能性があることを示す。
我々はこの現象を隠された共起によるものとみなす。
私たちは、隠れた共同創設者のためのプロキシで強化されたモデルが、隠れた共同設立のシフトによって引き起こされる課題を緩和できることを示します。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:50:44 GMT)
FCOS: A Two-Stage Recoverable Model Pruning Framework for Automatic Modulation Recognition [21.0] 自動変調認識のためのファイン・ツー・コア2段階プルーニングフレームワーク
複数のAMRベンチマークの実験では、FCOSが既存のチャネルおよび層プルーニング法より優れていることが示されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:12:09 GMT)
Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints [20.8] 本稿では,意味的ヒントをプロンプト内に埋め込む新しいプロンプト手法であるSENSEを提案する。
実験の結果、SENSE は様々なタスクで LLM のパフォーマンスを継続的に改善していることがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:25:49 GMT)
Music Source Restoration [20.8] 本稿では,理想化された音源分離と実世界の音楽制作のギャップを解消する新しい課題である音楽音源復元(MSR)を紹介する。
MSRモデルは、個別に劣化したソースの劣化和として混合され、元の劣化していない信号を回復することを目的としている。
MSRのデータがないため、RawStemsという、未処理のソース信号を持つ578曲のデータセットアノテーションを、8つのプライマリと17のセカンダリ楽器グループに分類し、合計で354.13時間である。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:27:31 GMT)
DLP: Dynamic Layerwise Pruning in Large Language Models [20.8] プルーニングはパラメータスケールの削減とLarge Language Models(LLM)の推論効率の向上のために広く採用されている。
動的レイヤワイズ・プルーニング(DLP)と呼ばれる新しい手法を提案する。
モデル重みと入力アクティベーション情報を統合することで各層の相対的重要性を適応的に決定し,それに応じてプルーニング率を割り当てる。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:35:00 GMT)
EDmamba: A Simple yet Effective Event Denoising Method with State Space Model [20.8] イベントカメラは、高時間ダイナミックレンジと低消費電力のため、高速視界で優れている。
ダイナミックな視覚センサーとして、出力は本質的にノイズが多いため、超低レイテンシとリアルタイム処理能力を維持するために効率的なノイズ処理が不可欠である。
状態空間モデル(SSM)に基づく新しいイベント記述フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:07:57 GMT)
Conversational Code Generation: a Case Study of Designing a Dialogue System for Generating Driving Scenarios for Testing Autonomous Vehicles [20.8] 所望のシナリオと車両動作の合成において,非コーディング領域の専門家を支援するために,自然言語インタフェースを設計する。
非常に小さなトレーニングデータセットにもかかわらず、発話をシンボルプログラムに変換するのにそれを使うことは可能であることを示す。
人間の実験により、対話はシミュレーション生成の成功に不可欠であることが示され、拡張された会話に関わらず、世代よりも4.5倍の成功率が得られる。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:29:18 GMT)
Improving User Behavior Prediction: Leveraging Annotator Metadata in Supervised Machine Learning Models [20.7] 監視された機械学習モデルは、会話テキストからユーザーの振る舞いを予測するのに不適当であることが多い。
疲労やスピードといったアノテータのメタ機能を統合したメタデータ重み付け型アンサンブルモデル(MSWEEM)を導入する。
MSWEEMは標準アンサンブルを、ホールドアウトデータでは14%、代替データセットでは12%で上回っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:19:31 GMT)
How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines [20.6] 初期の研究では、モデル性能におけるパワー-ロー関係が確立され、計算-最適スケーリング戦略が導かれた。
スパースモデル、Mix-of-Experts、検索強化学習、マルチモーダルモデルは、しばしば伝統的なスケーリングパターンから逸脱する。
スケーリングの振る舞いは、視覚、強化学習、微調整といった領域によって異なり、よりニュアンスなアプローチの必要性が強調されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:20:08 GMT)
Structure from Collision [20.6] SfC(Structure from Collision)と呼ばれる新しいタスクは、衝突時の外観変化から物体の構造(見えない内部構造を含む)を推定することを目的としている。
本研究では,物体の内部構造を物理的,外見的,外見的,神経的制約下での映像シーケンスによって最適化するSfC-NeRFという新しいモデルを提案する。
多様な構造を含む115個の物体に対する実験により, SfCの特性が明らかとなり, 提案したSfC-NeRFの有効性が示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:30:01 GMT)
PrivATE: Differentially Private Confidence Intervals for Average Treatment Effects [20.6] 平均処理効果(ATE)に対する信頼区間計算のための機械学習フレームワークPrivATEを提案する。
具体的には、観測データからATEの適切なプライバシ保護CIを導出することに焦点を当てる。
私たちのフレームワークはモデルに依存しず、二重に堅牢で、有効なCIを保証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:13:11 GMT)
The Hidden Dimensions of LLM Alignment: A Multi-Dimensional Analysis of Orthogonal Safety Directions [20.5] 安全に整合した行動は多次元方向で共同制御されている。
空間内の方向を研究することで、まず支配的な方向がモデルの拒絶行動を支配することが分かる。
次に、異なる方向が支配的な方向をいかに促進または抑制するかを測定する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:40:42 GMT)
Mixture of Low Rank Adaptation with Partial Parameter Sharing for Time Series Forecasting [20.5] マルチタスク予測は,異なる時間ステップでの予測が同じ表現を共有する,Expressiveness Bottleneckに苦しむことを示す。
まず,一歩先予測のための基礎モデルを事前学習し,ステップ固有のLoRAモジュールを用いて適応する。
実験により、MoLAはモデル表現性を著しく改善し、最先端の時系列予測手法より優れていることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:23:28 GMT)
Multi-level Certified Defense Against Poisoning Attacks in Offline Reinforcement Learning [20.4] オフライン強化学習(RL)は中毒攻撃に弱いことが示されている。
我々は、敵の操作に対するより大きな保証を提供するため、認証された防御を拡張します。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:59:25 GMT)
ReassembleNet: Learnable Keypoints and Diffusion for 2D Fresco Reconstruction [20.3] 我々は、最先端のDeep Learningメソッドにおいて、再アセンブリのための重要な制限に対処する。
本稿では,各入力片を輪郭キーポイントの集合として表現することで,複雑性を低減する手法であるReassembleNetを提案する。
次に拡散に基づくポーズ推定を適用し,元の構造を復元する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:38:06 GMT)
Equivariant Representation Learning for Symmetry-Aware Inference with Guarantees [20.3] 本稿では,回帰,条件付き確率推定,不確実性定量化を同時に扱う同変表現学習フレームワークを提案する。
演算子と群表現論を基礎として,条件付き期待演算子のスペクトル分解を近似する。
人工データセットと実世界のロボット工学の応用に関する実証的な評価は、我々のアプローチの可能性を裏付けるものである。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:36:17 GMT)
DisasterM3: A Remote Sensing Vision-Language Dataset for Disaster Damage Assessment and Response [20.2] DisasterM3は、世界規模の災害評価と対応のためのビジョン言語データセットである。
災害M3には、26,988のバイテンポラル衛星画像と5大陸にまたがる123kの命令対が含まれる。
現実世界のシナリオに基づいて、DeramM3は9つの災害関連視覚認識と推論タスクを含んでいる。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:16:07 GMT)
GALLa: Graph Aligned Large Language Models for Improved Source Code Understanding [20.1] 最近のコード言語モデルは数十億のパラメータに拡張されているが、ソースコードはテキストトークンとしてのみモデル化されている。
GALLa - Graph Aligned Large Language Modelsで両世界のベストを尽くします。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:15:14 GMT)
LaX: Boosting Low-Rank Training of Foundation Models via Latent Crossing [20.1] 我々は,低ランクサブスペース間の情報フローを可能にすることで,低ランクモデルのキャパシティを向上させるプラグイン・アンド・プレイモジュールである textbfLatent Crossing (LaX) を紹介する。
LaXは2-3(times)少ないパラメータを使用しながら、低ランクモデルのパフォーマンスをフルランクのベースラインにマッチまたは超えるように向上する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:22:44 GMT)
AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery [20.0] Vision-Language Model (VLM)ベースのWeb Agentは、Webサイトとの人間的なインタラクションをシミュレートすることによって、複雑なタスクを自動化するためのステップである。
敵の環境注入攻撃に関する既存の研究は、しばしば非現実的な仮定に依存している。
本稿では,インターネット広告配信を活用して悪意のあるコンテンツをWebエージェントの環境に注入する,新規で現実的なブラックボックス攻撃手法であるAdInjectを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:59:05 GMT)
Recovering Fairness Directly from Modularity: a New Way for Fair Community Partitioning [19.9] 保護されたグループネットワークを導入し、新しい公平度・モジュラリティ指標を提案する。
最小化は、理論的健全性を保ちながら、保護群に対して自然に公平な分配をもたらすことを証明している。
実験により、FairFNは最先端の手法と比較して、フェアネスと高品質なパーティションを著しく改善した。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:44:07 GMT)
BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models [19.9] 本稿では,新たなタイプの推論コスト攻撃("bit-flip inference cost attack"と呼ばれる)を導入する。
具体的には,モデルパラメータの臨界ビットを効果的にフリップする,シンプルで効果的な手法(BitHydraと呼ばれる)を設計する。
たった4つの検索サンプルと3ビットのフリップで、BitHydraは100%のテストプロンプトを最大生成時間まで強制することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:55:21 GMT)
Conditional Diffusion Models with Classifier-Free Gibbs-like Guidance [19.8] CFGは条件付きおよび非条件付きデノイザの出力を線形に結合することにより条件付き拡散モデルを改善する手法である。
CFGは視覚的品質を高め、プロンプトとの整合性を向上させるが、しばしばサンプルの多様性を低下させる。
所望の傾斜分布からサンプルを抽出するギブスライクなサンプリング手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:27:33 GMT)
Red-Teaming Text-to-Image Systems by Rule-based Preference Modeling [19.8] テキスト・ツー・イメージ(T2I)モデルは、不適切または有害な画像を生成する可能性があるため、倫理的および安全上の懸念を提起する。
ルールベースの参照モデリングガイド付きレッドチーム(RPG-RT)を提案する。
RPG-RTは各イテレーションからのフィードバックを前もって扱い、LLMが未知の防御機構に動的に適応できるようにする。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:00:19 GMT)
Explaining Concept Shift with Interpretable Feature Attribution [19.8] 概念シフトは、特徴に条件付けされたラベルの分布が変化するときに起こり、十分に調整された機械学習モデルでさえ、根本的に誤った表現を学んだ。
本稿では,SGShiftを提案する。SGShiftは概念シフトを検出し,モデル性能を低下させるモデルである。
SGShiftは、AUC $>0.9$でシフトした特徴を識別し、ベースラインメソッドの2倍か3倍の価格でリコールすることができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:20:50 GMT)
Pairwise Optimal Transports for Training All-to-All Flow-Based Condition Transfer Model [19.7] 本稿では,全ての条件分布に対する最適輸送の同時学習を可能にする新しいコスト関数を提案する。
我々の手法は、その極限において、ペアの最適輸送に収束するという理論的な保証によって支持されている。
学習されたトランスポートマップはその後、条件付きフローマッチングでデータポイントを分割するために使用される。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:58:24 GMT)
Silencer: From Discovery to Mitigation of Self-Bias in LLM-as-Benchmark-Generator [19.7] この研究は、自己生成ベンチマークで評価されたモデルにおいて、膨張性能の現象を体系的に定義し、検証する。
我々は、サンプルレベルとベンチマークレベルの両方で複数のジェネレータ間の不均一性を利用してバイアスを中和し、高品質な自己バイアスサイレンスベンチマークを生成するフレームワークであるSilencerを提案する。
様々な設定における実験結果から、Silencerは自己バイアスをほぼゼロに抑えることができ、生成したベンチマークの有効性を著しく向上することが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:28:45 GMT)
Concentration Distribution Learning from Label Distributions [19.7] ラベル分布の絶対記述度項として機能する背景濃度という新しい概念を考案した。
本稿では,既存のLCLデータセットからラベル分布と背景濃度を学習するための確率論的手法とニューラルネットワークによる新しいモデルを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:53:27 GMT)
VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms [19.6] VisEscapeは、挑戦的な条件下でAIモデルを評価するために特別に設計された、20の仮想エスケープルームのベンチマークである。
最先端のマルチモーダルモデルでさえ、一般的に部屋から逃れることができず、その進歩と問題解決のアプローチにかなりのバリエーションがあることを観察する。
メモリ管理と推論の統合は、効率的な探索に寄与し、連続的な仮説定式化とテストを可能にする。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:34:42 GMT)
DUSK: Do Not Unlearn Shared Knowledge [19.6] Machine Unlearningは、ユーティリティと情報を“保持”セットから保持しながら、そのような“忘れる”データを削除することを目的としている。
DUSKは実データ重なりの非学習手法を評価するためのベンチマークである。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:11:39 GMT)
PartInstruct: Part-level Instruction Following for Fine-grained Robot Manipulation [19.6] 本稿では,パートレベルの命令を用いたロボット操作モデルの訓練と評価を行うための,最初の大規模ベンチマークであるPartInstructを紹介する。
PartInstructは、14のカテゴリにまたがる513のオブジェクトインスタンスで構成され、それぞれにアノテートされた部分レベルの情報と、16のタスククラスに編成された1302のきめ細かい操作タスクで構成されている。
トレーニングセットは3Dシミュレータで合成された1万以上のエキスパート・デモからなり、各デモは高レベルなタスク・インストラクション、ベース部分に基づくスキル・インストラクションの連鎖、およびオブジェクトとその部分に関する地中3D情報と組み合わせられる。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:25:42 GMT)
EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.5] キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:24:50 GMT)
Parameter Efficient Continual Learning with Dynamic Low-Rank Adaptation [19.5] 連続学習(CL)におけるディープニューラルネットワークにとって、破滅的な忘れは依然として重要な課題である。
CLトレーニング中にLoRAコンポーネントの動的ランクアロケーションを必要とするリハーサルフリーなCLフレームワークであるPEARLを紹介する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:19:59 GMT)
MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation [19.5] MV-CoLightは2Dおよび3Dシーンで合成される照度一貫性のあるオブジェクトのためのフレームワークである。
2次元画像入力と3次元ガウスシーン表現をシームレスに整列するために、ヒルベルト曲線に基づく写像を用いる。
実験では、標準ベンチマークとデータセット間で、最先端の調和した結果を実証した。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:53:02 GMT)
Geometry Aware Operator Transformer as an Efficient and Accurate Neural Surrogate for PDEs on Arbitrary Domains [19.5] 任意の領域上のPDEを学習するための幾何認識演算子変換器(GAOT)を提案する。
GAOTは、新しいマルチスケールの注目グラフニューラル演算子エンコーダとデコーダを、幾何学的な埋め込みと(ビジョン)トランスフォーマープロセッサと組み合わせている。
多様なPDEから多くの学習課題を学習する上で,GAOTの精度と効率の両面で有意な向上を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:19:05 GMT)
Let Me Think! A Long Chain-of-Thought Can Be Worth Exponentially Many Short Ones [19.4] 逐次スケーリングが並列スケーリングよりも指数関数的な優位性をもたらすような推論設定の存在を示す。
我々は,様々な言語モデルを用いた包括的実験により理論的知見を検証した。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:23:34 GMT)
Towards Objective Fine-tuning: How LLMs' Prior Knowledge Causes Potential Poor Calibration? [19.4] 大規模言語モデル(LLM)は、信頼度スコアが実際のパフォーマンスと不一致であるようなキャリブレーションが低いことを示すことが多い。
我々の研究は、LLMの事前の知識が、実世界の微調整において既知のデータがユビキタスに存在するため、キャリブレーションの可能性が低いことを明らかにしている。
モデルの事前知識に基づいて,対象とする学習戦略を適用する認知認識フレームワークであるCogCalibを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:51:31 GMT)
MMUnlearner: Reformulating Multimodal Machine Unlearning in the Era of Multimodal Large Language Models [19.4] MLLM(Multimodal Large Language Models)の時代におけるMultimodal Machine Unlearning(MU)の課題の再構築を提案する。
我々は,新しい幾何制約付き勾配上昇法MMUnlearnerを開発した。
MLLMの重みを、未学習時の残りの概念とテキスト知識に制約された重み値マップで更新する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:55:38 GMT)
TabReason: A Reinforcement Learning-Enhanced Reasoning LLM for Explainable Tabular Data Prediction [19.4] 大規模言語モデル(LLM)は、人間のような推論や説明を生成する強力な能力を示している。
本稿では,より正確で説明可能な予測を行うために,強化学習を用いて学習した推論に基づくLLMを活用する新しい手法を提案する。
提案手法では,予測精度の向上だけでなく,予測に対する人間の理解可能な理由をモデルに導くカスタム報酬関数を導入している。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:23:11 GMT)
Token-level Accept or Reject: A Micro Alignment Approach for Large Language Models [19.3] マイクロトークンレベルのアクセプション・アライニング(MARA)は、言語モデルとは独立して動作するように設計されている。
MARAは、文レベルの選好学習をトークンレベルのバイナリ分類に分解することで、アライメントプロセスを単純化する。
実験により,MARAは計算コストを削減しつつアライメント性能を大幅に向上することが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:07:01 GMT)
MedOrchestra: A Hybrid Cloud-Local LLM Approach for Clinical Data Interpretation [19.3] クラウド LLM が複雑な臨床タスクを,管理可能なサブタスクに分解して生成するハイブリッドフレームワーク MedOrchestra を提案する。
NCCNガイドラインに基づく100例の放射線検査で膵癌ステージングにおけるMedOrchestraの評価を行った。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:09:17 GMT)
Watermarks in the Sand: Impossibility of Strong Watermarking for Generative Models [19.3] 強い透かし方式は、計算的に拘束された攻撃者が、大幅な品質劣化を引き起こすことなく、透かしを消去できない性質を満たす。
我々は、明確に定義された自然な仮定の下で、強い透かしが達成できないことを証明した。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:31:20 GMT)
Chinese Cyberbullying Detection: Dataset, Method, and Validation [19.3] 本稿では,インシデントによって編成されたサイバーいじめデータセットを構築するための新しいアノテーション手法を提案する。
構築されたCHNCIは、91件のインシデントで220,676件のコメントからなる、最初の中国のサイバーいじめインシデント検出データセットである。
実験の結果,構築したデータセットは,サイバーバブル検出とインシデント予測のタスクのベンチマークとなることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:03:55 GMT)
Spurious Correlations in High Dimensional Regression: The Roles of Regularization, Simplicity Bias and Over-Parameterization [19.3] 学習モデルは、トレーニングデータ内の非予測的特徴と関連するラベルとの間に急激な相関関係があることが示されている。
我々は、データ共分散とリッジ正規化の強さの点から、線形回帰によって学習されたスプリアス相関の量$C$を定量化する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:47:48 GMT)
Privacy for Free in the Overparameterized Regime [19.3] ディファレンシャル・プライベート勾配降下(DP-GD)は、トレーニングデータのプライバシを保証してディープラーニングモデルをトレーニングする一般的なアルゴリズムである。
本研究では,2次損失を持つ一般的なランダム特徴モデルにおいて,十分大きな$p$に対して,プライバシが無償で取得可能であること,すなわち$left|R_P right| = o(1)$,プライバシパラメータ$varepsilon$が一定の順序を持つ場合に限らず,強いプライベート設定$varepsilon = o(1)$ が得られることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:36:47 GMT)
Efficient LiDAR Reflectance Compression via Scanning Serialization [19.3] SerLiCは、リフレクタンス解析のためのシリアライズベースのニューラル圧縮フレームワークである。
元の反射率データに対して2倍以上の体積減少を達成する。
SerLiCの軽量バージョンは、たった111Kパラメータで10fps(毎秒10fps)を実現している。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:54:18 GMT)
Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score [19.2] コンフォーマル予測(CP)は不確実性定量化のための強力なフレームワークである。
ラベル付きデータがしばしば制限される現実世界のアプリケーションでは、標準CPはカバレッジの偏りを生じさせ、非常に大きな予測セットを出力する。
ラベル付きデータとラベルなしデータの両方を利用してキャリブレーションを行うSemiCPを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:57:44 GMT)
Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation [19.1] 本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。
我々のプロセスには、AIと人間のフィードバックの両方から、継続的な事前トレーニング、教師付き微調整、強化学習が組み込まれています。
得られたLLaMA-Clinicは,医師が作成したものと同等の精度で臨床記録を作成できる。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:58:40 GMT)
Thickness-aware E(3)-Equivariant 3D Mesh Neural Networks [19.1] 近年,メッシュを用いた3次元静的解析手法が,従来の計算数値解法に代わる効率的な方法として登場した。
本稿では,T-EMNN(Thickness-aware E(3)-Equivariant 3D Mesh Neural Network)を提案する。
実世界の産業データセットの評価は,ノードレベルの3次元変形を正確に予測する上で,T-EMNNの優れた性能を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:18:08 GMT)
Efficient and Accurate Prompt Optimization: the Benefit of Memory in Exemplar-Guided Reflection [19.0] 本稿では,より効率的かつ正確なプロンプト最適化を実現するために,メモリ機構を備えたExemplar-Guided Reflectionを提案する。
具体的には、生成した例によってフィードバック生成がさらにガイドされるような、模擬誘導反射機構を設計する。
実験的な評価により,提案手法は従来の最先端技術よりも少ない最適化手順で優れていることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:08:53 GMT)
PCaM: A Progressive Focus Attention-Based Information Fusion Method for Improving Vision Transformer Domain Adaptation [19.0] Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的としている。
本稿では,PCaM(Progressive Focus Cross-Attention Mechanism)を提案する。
PCaMは、クロスアテンション中の背景情報を段階的にフィルタリングし、モデルがドメイン間の差別的前景意味論に集中し、融合できるようにする。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:48:29 GMT)
EmoNet-Face: An Expert-Annotated Benchmark for Synthetic Emotion Recognition [18.8] EmoNet FaceはAIシステムの開発と評価のための総合的なベンチマークスイートである。
新たな40カテゴリの感情分類法は、人間の感情経験のより詳細な詳細を捉えている。
明示的で完全な表情を持つ3つの大規模なAI生成データセット。
EmpathicInsight-Faceは、私たちのベンチマークで人間レベルのパフォーマンスを達成するモデルです。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:26:21 GMT)
Personalized Query Auto-Completion for Long and Short-Term Interests with Adaptive Detoxification Generation [18.8] 本稿では,長期的かつ短期的な関心事からパーソナライズされた情報をキャプチャする新しいモデル(LaD)を提案する。
LaDでは、パーソナライズされた情報は、粗い粒度ときめ細かい粒度の両方で階層的にキャプチャされる。
私たちのモデルはKuaishou検索にデプロイされ、数億人のアクティブユーザーの主要なトラフィックを駆動しています。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:58:42 GMT)
FinTagging: An LLM-ready Benchmark for Extracting and Structuring Financial Information [18.8] 大規模言語モデル(LLM)の構造化情報抽出とセマンティックアライメント機能を評価するために設計された最初のフルスコープテーブル対応ベンチマークであるFinTaggingを紹介する。
フラットなマルチクラス分類としてタグ付けを単純化し、物語テキストのみにフォーカスする以前のベンチマークとは異なり、FinTaggingはタグ付け問題を2つのサブタスクに分解する。
それは、事実を共同で抽出し、非構造化テキストと構造化テーブルの両方にわたる完全な10k以上の米国分類と整合させるモデルを必要とし、現実的できめ細かな評価を可能にする。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:55:53 GMT)
Research Community Perspectives on "Intelligence" and Large Language Models [18.8] 本稿では,研究者の「知性」概念に関する調査結果を紹介する。
コミュニティが最も合意している3つのインテリジェンス基準を特定します。
研究目標として知的システムを開発するのは16.2%に過ぎない。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:53:27 GMT)
Towards Pretraining Robust ASR Foundation Model with Acoustic-Aware Data Augmentation [18.7] 自動音声認識(ASR)におけるウィスパーの頑健な性能は、しばしば680khのトレーニングセットによるものである。
訓練データにおける言語的および音響的多様性がASRモデルの堅牢性に与える影響について検討する。
ASRモデルの一般化能力を大幅に向上させることが期待できる。
論文参考訳(メタデータ) (Tue, 27 May 2025 00:55:32 GMT)
ALLMod: Exploring $\underline{\mathbf{A}}$rea-Efficiency of $\underline{\mathbf{L}}$UT-based $\underline{\mathbf{L}}$arge Number $\underline{\mathbf{Mod}}$ular Reduction via Hybrid Workloads [18.6] 高ビット幅の操作は、セキュリティの強化に不可欠である。
計算量が多いのは、多くのモジュラー演算が必要なためである。
AllModは、LUTベースの大規模モジュラーリダクションの面積効率を改善する新しいアプローチである。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:03:31 GMT)
Magnon blockade in spin-magnon systems with frequency detuning [18.6] マグノン遮断(Magnon blockade)は、単一マグノン源の物理機構である。
スピン-マグノン量子系における最適マグノン遮断法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:18:30 GMT)
STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation [18.6] オフ政治評価(OPE)は、行動ポリシーから収集されたオフラインデータを用いて、ターゲットポリシーのパフォーマンスを推定する。
既存のOPE法は高次元の長距離問題には有効ではない。
長軸OPEのデノナイズ拡散を利用したモデルベース生成フレームワークSTITCH-OPEを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:39:26 GMT)
Open-Det: An Efficient Learning Framework for Open-Ended Detection [18.6] Open-Ended Object Detection (OED)は、オブジェクトを検出し、そのカテゴリ名を自由形式で生成する、新しくて困難なタスクである。
4つの協調部品からなる新規で効率的なOpen-Detフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:33:10 GMT)
Who Reasons in the Large Language Models? [18.5] 十分に訓練された大言語モデルにおける推論能力は、Transformerのマルチヘッド自己認識機構における出力投影モジュール(oproj)に起因していることを示す。
我々は、オプロイが推論を可能にする上で中心的な役割を果たすことを示す状況証拠と経験的証拠の両方を提供し、他のモジュールはより流動的な対話に寄与する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:26:47 GMT)
DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding [18.3] DVL-Suiteはリモートセンシング画像による長期都市動態解析のための総合的なフレームワークである。
このスイートは、2005年から2023年までの42メガシティにまたがる15,063の高解像度(1.0m)のマルチテンポラリ画像で構成されています。
我々は17の最先端マルチモーダル言語モデルを評価し,その限界を長期的時間的理解と定量的分析で明らかにした。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:01:19 GMT)
IRCopilot: Automated Incident Response with Large Language Models [18.3] 大規模言語モデル(LLM)は早期の脅威検出に大きな可能性を示している。
侵入後の自動インシデント応答に関しては、その能力は依然として制限されている。
LLMを用いた自動インシデント応答のための新しいフレームワークIRCopilotを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:29:11 GMT)
Robust and Computation-Aware Gaussian Processes [18.3] 本稿では,近似による不確実性の原理的処理と強一般化ベイズ更新を組み合わせた新しいGPモデルであるRobust Computation-Aware Gaussian Process (RCaGP)を紹介する。
私たちのモデルは、より保守的で信頼性の高い不確実性評価を確実にします。
実験の結果、これらの課題を共同で解決することで、クリーンな設定とアウターな設定の両方で優れたパフォーマンスが得られることが確認された。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:49:14 GMT)
Optimizing Case-Based Reasoning System for Functional Test Script Generation with Large Language Models [18.2] テスト意図記述とそれに対応するテストスクリプトのケースバンクを保守し活用するケースベース推論(CBR)システムを提案する。
ユーザエクスペリエンスをさらに向上するために,再ランクベースの検索微調整と再利用微調整を併用したCBRシステムの最適化手法であるRe4を導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:12:31 GMT)
Position: Adopt Constraints Over Penalties in Deep Learning [18.2] 説明責任保証を備えたAIシステム開発への最近の取り組みは、外部要求を組み込んだ機械学習の定式化への依存度を高めている。
我々は、代わりに調整された制約付き最適化手法を採用するべきだと論じる。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:09:17 GMT)
TAT-R1: Terminology-Aware Translation with Reinforcement Learning and Word Alignment [18.2] 強化学習と単語アライメントを訓練した用語認識翻訳モデルである textbfTAT-R1 を提案する。
本モデルは,ベースラインモデルと比較して,用語翻訳の精度を著しく向上させる。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:26:02 GMT)
PCDCNet: A Surrogate Model for Air Quality Forecasting with Physical-Chemical Dynamics and Constraints [18.1] PCDCNetは数値モデリングの原理とディープラーニングを統合する代理モデルである。
72時間のPM2.5およびO3予測において、最先端(SOTA)性能を達成する。
我々のモデルはオンラインプラットフォームにデプロイされ、無料のリアルタイム空気質予測を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:55:19 GMT)
Efficient Robotic Policy Learning via Latent Space Backward Planning [17.8] 現行のロボット計画手法は、しばしば、全画素の詳細を持つ多フレーム画像の予測に頼っている。
本稿では,その課題を最終目標とするLBP(Latent Space Backward Planning scheme)を提案する。
LBPは既存の細粒度・前方計画法よりも優れた性能を示し,SOTA性能を実現している。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:30:16 GMT)
Institutionalizing Folk Theories of Algorithms: How Multi-Channel Networks (MCNs) Govern Algorithmic Labor in Chinese Live-Streaming Industry [17.7] 本稿では,これらの組織が労働管理のツールとして,アルゴリズムの民生理論を制度的に構築し,運用する方法について述べる。
我々は,マルチチャネルネットワーク (MCN) が二重アルゴリズム理論を開発・循環していることを示す。
我々はCSCWとプラットフォーム労働文献に貢献し、非公式なアルゴリズム知識が、一旦制度化されると、いかにソフトコントロールの基盤となるかを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:04:09 GMT)
Is Your LLM Overcharging You? Tokenization, Transparency, and Incentives [17.6] 最先端の大規模言語モデルは、特別なハードウェアと運用に必要なかなりのエネルギーを必要とする。
モデルによって提供されるアウトプットの料金は、モデルが生成するために使用するトークンの数に依存する。
疑念を生じさせることなく、利用者を著しく過給できる効率的なアルゴリズムを導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:02:12 GMT)
Scalable Model Merging with Progressive Layer-wise Distillation [17.5] ProDistill (Progressive Layer-wise Distillation) を導入する。
ProDistillは、視力とNLUタスクの6.14%と6.61%の改善を達成している。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:56:07 GMT)
GUARD:Dual-Agent based Backdoor Defense on Chain-of-Thought in Neural Code Generation [17.4] GUARDは、ニューラルコード生成におけるCoTバックドア攻撃に対抗するために設計された、新しいデュアルエージェント防御フレームワークである。
GUARDは2つのコアコンポーネントを統合している。GUARD-Judgeは不審なCoTステップと潜在的なトリガーを包括的分析によって識別する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:55:46 GMT)
Not All Thats Rare Is Lost: Causal Paths to Rare Concept Synthesis [17.2] 我々は、まれな概念生成を潜在因果経路をナビゲートするものとして扱う、原則化されたフレームワークであるRAPを紹介する。
RAPは希少な概念生成を一貫して強化し、自動評価と人間の研究の両方において、強力なベースラインを上回ります。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:13:46 GMT)
SuperAD: A Training-free Anomaly Classification and Segmentation Method for CVPR 2025 VAND 3.0 Workshop Challenge Track 1: Adapt & Detect [17.2] SuperADと命名されたDINOv2モデルを用いて特徴抽出に基づく完全トレーニング不要な異常検出とセグメンテーション手法を提案する。
本手法は,MVTec AD 2データセットの両テストセットの競合性を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:09:08 GMT)
Respond to Change with Constancy: Instruction-tuning with LLM for Non-I.I.D. Network Traffic Classification [17.1] LLM(ETooL)を用いた暗号化トラフィックアウトオブディストリビューションインストラクションチューニングという,新しいトラフィック表現モデルを提案する。
ETooLは、自己教師型命令チューニングパラダイムを通じて、交通構造に関する知識とLLMを統合している。
教師付きおよびゼロショットのトラフィック分類タスクにおいて、より堅牢な分類性能と優れた一般化を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:18:16 GMT)
Recurrent Memory for Online Interdomain Gaussian Processes [17.1] 本稿では,オンライン学習環境における時系列データ中の長期記憶をキャプチャ可能な,新しいオンラインガウスプロセス(GP)モデルを提案する。
我々のモデルである Online HiPPO Sparse Variational Gaussian Process (OHSVGP) は、その長距離メモリモデリング機能によりRNNドメインで普及しているHiPPOフレームワークを活用している。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:19:12 GMT)
Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [17.0] 拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:39:39 GMT)
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction [16.9] Uni-Instructは、$f$-divergenceファミリーの拡散展開理論によって動機付けられている。
CIFAR10 生成ベンチマークでは、Uni-Instruct は無条件生成のための textbfemph1.46 のレコード破りの Frechet Inception Distance (FID) 値を達成する。
ImageNet-$64times 64$ Generationベンチマークでは、Uni-Instruct が textbfemph1.02 の SoTA 1ステップ生成 FID を新たに達成した。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:55:45 GMT)
Framing metaverse identity: A multidimensional framework for governing digital selves [16.8] メタバースアイデンティティは、個人属性、データフットプリント、社会的役割、経済的要素を含む、ユーザのデジタル自己として概念化されている。
本稿ではメタバースアイデンティティのための多次元フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:43:07 GMT)
HomeBench: Evaluating LLMs in Smart Homes with Valid and Invalid Instructions Across Single and Multiple Devices [16.8] 大きな言語モデル(LLM)は、スマートホームアシスタントに革命をもたらす可能性がある。
HomeBenchは、単一のデバイスと複数のデバイスにまたがる有効かつ無効な命令を備えた、最初のスマートホームデータセットです。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:26:36 GMT)
Efficient Controllable Diffusion via Optimal Classifier Guidance [16.7] 制御可能な拡散モデルの生成は、与えられた目的関数を最適化するサンプルを生成するためにモデルを操ることを目的としている。
SLCD -- Supervised Learning based Controllable Diffusionを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:46:21 GMT)
A Task-Driven Human-AI Collaboration: When to Automate, When to Collaborate, When to Challenge [16.7] 我々は,人間とAIの適切な統合が,パフォーマンスを向上しつつ,有意義なエージェンシーを維持していることを示す。
このフレームワークは、実用的で道徳的に健全な人間とAIのコラボレーションのためのファインダオプションを配置する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:30:11 GMT)
Distribution-aware Fairness Learning in Medical Image Segmentation From A Control-Theoretic Perspective [16.6] 分布認識型エキスパート混合法(dMoE)は最適制御理論に着想を得たものである。
医用画像セグメンテーションにおけるdMoEの役割を包括的に分析し,dMoEの役割を明らかにする。
dMoEは2つの2Dベンチマークデータセットと1つの社内データセットで最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:28:19 GMT)
Model Agnostic Differentially Private Causal Inference [16.5] 観察データから因果効果を推定することは、医学、経済学、社会科学において不可欠である。
本稿では,平均治療効果を個人で評価するための一般的なモデルに依存しないフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:07:31 GMT)
LLMs Think, But Not In Your Flow: Reasoning-Level Personalization for Black-Box Large Language Models [16.4] 大規模言語モデルの推論レベルパーソナライズのためのフレームワークであるRPMを提案する。
RPMはモデルの推論プロセスとユーザのパーソナライズされたロジックを一致させる。
RPMは応答レベルのパーソナライズ方法よりも一貫して優れています。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:06:16 GMT)
CogniBench: A Legal-inspired Framework and Dataset for Assessing Cognitive Faithfulness of Large Language Models [16.3] 既存のベンチマークには、"認知的ステートメント"をマークせずにソース資料をリフレッシュする"実際のステートメント"のみが含まれている。
立法領域において証拠がどのように評価されるかに着想を得て、認知的言明の異なるレベルの忠実さを評価するための厳密な枠組みを設計する。
結果として得られる大規模なCogniBench-Lデータセットは、正確な認知幻覚検出モデルのトレーニングに使用することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:16:27 GMT)
A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation [16.3] 本稿では,変形可能な線形オブジェクト(DLO)を視覚的知覚に基づいて操作するための統合フレームワークを提案する。
物理パラメータの後方分布を計算し、それぞれのDLOの挙動を概略シミュレートする。
次に、シムベースの政策学習と実世界のパフォーマンスにおいて、結果の領域分布の影響について検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:56:53 GMT)
Phir Hera Fairy: An English Fairytaler is a Strong Faker of Fluent Speech in Low-Resource Indian Languages [16.2] 英語のF5-TTSモデルがインドの11言語にどのように適応するかを評価する。
インドのデータのみによる微調整は、最も効果的である。
我々は、IN-F5がBhojpuriやTuluのような目に見えない言語を合成できることを示します。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:02:01 GMT)
MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on [16.1] Video Try-On (VVT)は、連続するビデオフレーム間の衣服の自然な外観をシミュレートすることを目的としている。
現在のVVT法は、動的一貫性と衣料品の保存の点で課題に直面している。
大規模なビデオ拡散変換器上に構築された仮想仮想試行フレームワークMagicTryOnを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:22:02 GMT)
Counterfactual Simulatability of LLM Explanations for Generation Tasks [16.0] モデルがそれらの振る舞いを正確に説明できる能力は、特にハイテイクな設定で重要である。
因果的シミュラビリティ(英: Counterfactual simulatability)とは、ユーザが関連する反事実に対してモデルの出力を推測できる説明法である。
本研究の結果から, 知識に基づくタスクよりも, スキルベースのタスクの方が, 対実的シミュラビリティの評価に適している可能性が示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:29:50 GMT)
An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks [16.0] LLM-as-Ensemble-Judgeの最初の評価指標であるSWE-Judgeについて述べる。
SWE-Judgeはまず5つの異なる評価戦略を定義し、それぞれ独立した審査員として実施した。
ダイナミックなチーム選択メカニズムは、審査員の最も適切なサブセットを特定し、最終的な正当性スコアを生成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:04:34 GMT)
Observing structural disorder induced interacting topological phase in an atom array [15.9] 物質のトポロジー相は、バンドトポロジーのような非相互作用系やスピンモデルのような相互作用系に現れる。
半充填原子配列における障害誘発多体相互作用トポロジカル位相の直接観察を行った。
我々の実験は、Rydberg原子配列における構造障害と強く相互作用するトポロジカル物質との相互作用を研究するための新しい方向を開く。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:41:03 GMT)
DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving [15.8] VLM(Vision-Language Model)による新しいハイブリッドスパース距離拡散政策を提案する。
提案手法は,現実的,反応的な合成シナリオを含む自律的グランドチャレンジ2025において,優れた性能を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:45:19 GMT)
A Methodology for Incompleteness-Tolerant and Modular Gradual Semantics for Argumentative Statement Graphs [15.7] 文グラフの文法的意味論を得るための新しい手法を提案する。
まず、不完全な情報を自然に扱えるので、部分的に指定された前提を持つ議論が評価において意味のある役割を果たす。
第2に、QBAFの任意のGSを利用するようにモジュール的に定義されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:43:51 GMT)
Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.7] 本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:08:11 GMT)
LibIQ: Toward Real-Time Spectrum Classification in O-RAN dApps [15.7] O-RANはRAN軟化と解離の概念を採用することでセルネットワークを変換している。
このような管理は、xAppsやrAppsを通じて、ほぼリアルタイムおよび非リアルタイムのネットワーク制御を容易にするRCCによって実現されている。
我々は、dAppsの概念を利用して、RF信号の新しいライブラリであるLibIQでリアルタイムRFスペクトルの分類を可能にする。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:00:27 GMT)
Enhancing Code LLMs with Reinforcement Learning in Code Generation: A Survey [15.6] 大規模言語モデル(LLM)の強化のための強力なパラダイムとして強化学習(RL)が登場した。
この調査は、コード開発ライフサイクル全体にわたってRL駆動のテクニックを体系的にレビューする。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:41:19 GMT)
Rendering-Aware Reinforcement Learning for Vector Graphics Generation [15.5] 視覚言語モデル(VLM)におけるSVG生成を向上させるRLRF(Reinforcement Learning from Rendering Feedback)を導入する。
入力画像が与えられた場合、モデルがレンダリングされたSVGロールアウトを生成し、元の画像と比較して報酬を計算する。
この視覚的忠実度フィードバックは、より正確で効率的でセマンティックにコヒーレントなSVGを生成するためにモデルを導く。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:56:00 GMT)
SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models [15.5] 視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。
nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。
本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:49:49 GMT)
Tradeoffs Between Alignment and Helpfulness in Language Models with Steering Methods [15.5] 本研究では,アライメントの増加とモデルの有用性の低下のトレードオフについて検討する。
フレームワークの条件下では、アライメントは表現工学によって保証される。
本研究は,表現工学ベクトルのノルムにより,有用性が2次的に損なわれることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:39:39 GMT)
Revisiting Common Assumptions about Arabic Dialects in NLP [15.5] NLP文学では、アラビア方言に関するいくつかの仮定が広く採用されている。
これらの仮定は、アラビア方言識別(ADI)のような異なる計算タスクで表される。
これら4つの仮定を同定し、マルチラベルデータセットを拡張して解析する。
我々の分析は、4つの仮定が現実を単純化し過ぎていることを示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:56:33 GMT)
Concealment of Intent: A Game-Theoretic Analysis [15.4] 我々は、意図を隠蔽する敵のプロンプトというスケーラブルな攻撃戦略を提示し、スキルの合成を通じて悪意のある意図を隠蔽する。
本分析では, 平衡点を同定し, 攻撃者に対する構造的優位性を明らかにする。
実験により,複数の実世界のLSMに対する攻撃の有効性を,様々な悪意ある行動にわたって検証した。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:59:56 GMT)
Global Minimizers of $\ell^p$-Regularized Objectives Yield the Sparsest ReLU Neural Networks [15.4] 我々は,世界規模のミニマがネットワークに対応することが保証される,連続的かつほぼすべての異なる訓練目標を提案する。
我々は、我々の定式化の下で、大域最小化器は、まさに最も広い解に対応することを証明した。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:46:27 GMT)
Robust LLM Alignment via Distributionally Robust Direct Preference Optimization [15.3] 大規模言語モデル(LLM)と人間の好みを一致させる上での大きな課題は、分散シフトの問題である。
We developed two novel distributionally robust direct preference optimization (DPO) algorithm、すなわち Wasserstein DPO (WDPO) and Kullback-Leibler DPO (KLDPO)。
WDPO と KLDPO が優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:54:47 GMT)
Loquacious Set: 25,000 Hours of Transcribed and Diverse English Speech Recognition Data for Research and Commercial Use [15.3] この作品では、商業的に使用可能な英語のスピーチを25,000時間かけて収集した『Loquacious Set』が紹介されている。
Loquacious Setは、業界の学者や研究者が現実世界のシナリオでASRシステムを構築するのに役立つように設計されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:40:28 GMT)
CodeMirage: A Multi-Lingual Benchmark for Detecting AI-Generated and Paraphrased Source Code from Production-Level LLMs [15.3] 大規模言語モデル(LLM)は現代のソフトウェア開発に不可欠なものとなり、膨大な量のAI生成ソースコードを生み出している。
既存のベンチマークは不足している -- ほとんどの場合、限られたプログラム言語のみをカバーし、能力の低い生成モデルに依存している。
私たちは、広く使われている10のプログラミング言語にまたがるベンチマークであるCodeMirageを紹介します。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:25:12 GMT)
Learning optimal treatment strategies for intraoperative hypotension using deep reinforcement learning [15.3] 手術中の静脈内(IV)液と血管圧薬の最適投与を推奨する強化学習(RL)モデルを開発した。
2014年6月から2020年9月までに当院で大手術を施行した成人42,547例の50,021例を振り返って検討した。
このモデルでは, 血管圧薬の服用に関する医師の判断の69%を再現し, 治療の10%と21%に比較して, 血管圧薬の高用量および低用量を提案した。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:53:29 GMT)
RASMALAI: Resources for Adaptive Speech Modeling in Indian Languages with Accents and Intonations [15.2] 本稿では,リッチテキスト記述を伴う大規模音声データセットであるRASMALAIを紹介する。
IndicParlerTTSは,インド語に対する初のオープンソースのテキスト記述誘導型TTSである。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:19:23 GMT)
TabAttackBench: A Benchmark for Adversarial Attacks on Tabular Data [15.2] 敵対的攻撃は機械学習モデルに重大な脅威をもたらす。
これらの攻撃は、入力データに対する知覚不能な摂動を通じて誤った予測を誘導する。
本研究は,4モデルにわたる5つの敵攻撃の有効性と非受容性について検討した。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:01:32 GMT)
Dub-S2ST: Textless Speech-to-Speech Translation for Seamless Dubbing [15.1] 言語間ダビングシステムは、継続時間、話者識別、発話速度といった重要な特徴を保ちながら、ある言語から別の言語に音声を翻訳する。
本稿では,時間順変換が可能な時間長制御付き離散拡散に基づく音声-単位間翻訳モデルを提案する。
次に,予測単位とソースの同一性に基づいて,条件付きフローマッチングモデルを用いて音声を合成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:43:28 GMT)
Multilingual Pretraining for Pixel Language Models [15.0] PIXEL-M4は、4つの視覚的および言語的に多様な言語で事前訓練されたモデルである。
PIXEL-M4は非ラテン文字で英語のみに比較して性能が高いことを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:40:47 GMT)
HuMoCon: Concept Discovery for Human Motion Understanding [15.0] HuMoConは、高度な人間の行動分析のためのモーションビデオ理解フレームワークである。
HuMoConは意味論的で一般化可能な特徴を抽出するためにマルチモーダルエンコーダを訓練する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:10:59 GMT)
Generalizable Heuristic Generation Through Large Language Models with Meta-Optimization [14.9] 大規模言語モデル (LLM) を用いたヒューリスティック設計が最適化問題に対処するための有望なアプローチとして登場した。
既存のアプローチは、しばしば手動で定義された進化的一般化とシングルタスクのトレーニングスキームに依存している。
本稿では,メタ学習のレベルで機能する新しいフレームワークであるMeta-Optimization of Heuristics(MoH)を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:26:27 GMT)
Recent Advances in Diffusion Models for Hyperspectral Image Processing and Analysis: A Review [14.9] 拡散モデルはハイパースペクトル画像(HSI)処理タスクにおいて有望な機能を示した。
時間内のデータの拡散過程をシミュレートすることで、拡散モデルは高次元のスペクトル構造をモデル化することができる。
拡散モデルはハイパースペクトル画像解析の精度と効率を大幅に向上させることができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:52:03 GMT)
Scalable twin-field quantum key distribution network enabled by adaptable architecture [14.8] 量子鍵分散(QKD)は、量子通信における重要な応用であり、量子状態を用いたパーティ間の安全な鍵交換を可能にする。
適応可能なアーキテクチャを持つスケーラブルなTF-QKDネットワークを提案し,ユーザが量子信号を作成してネットワークノードに送信する。
3人のユーザによるプリンシプルデモは、シミュレーションリンクの損失を最大30ドル(約3,300円)まで減らし、キーの安全な共有を実現し、平均レートは19.57ドル(約1,300円)だった。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:34:18 GMT)
Hypo3D: Exploring Hypothetical Reasoning in 3D [14.8] 既存の3D推論ベンチマークでは、頻繁なシーン更新のコストが高いため、リアルタイムのシーンアクセシビリティを前提としています。
実時間シーンデータにアクセスせずにモデルが推論できる能力を評価するためのベンチマークである仮説3D推論を導入する。
hypo3D は 3D Visual Question Answering (VQA) ベンチマークとして定式化されており、700の屋内シーンで7,727のコンテキスト変化があり、14,885の質問と回答のペアとなる。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:23:41 GMT)
Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.8] 中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。
解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:54:11 GMT)
CXXCrafter: An LLM-Based Agent for Automated C/C++ Open Source Software Building [14.7] C/C++プロジェクトは、ダウンストリームアプリケーションの進行を妨げるため、実際は難しいことがしばしば証明される。
CXXCrafterと呼ばれる自動ビルドシステムを開発し、依存関係の解決などの課題に対処します。
オープンソースソフトウェアに対する我々の評価は、CXXCrafterがプロジェクト構築において78%の成功率を達成したことを示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:54:56 GMT)
Optimizing Robustness and Accuracy in Mixture of Experts: A Dual-Model Approach [14.6] Mixture of Experts (MoE) は、複雑な機械学習タスクに専門のエキスパートネットワークを活用することに成功している。
敵攻撃に対する感受性は、堅牢なアプリケーションに展開する上で重要な課題である。
本稿では, 自然精度を維持しつつ, 頑健性をMoEに組み込む方法について論じる。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:29:53 GMT)
AVCD: Mitigating Hallucinations in Audio-Visual Large Language Models through Contrastive Decoding [14.5] 本稿では,3モーダル相互作用をモデル化し,大言語モデル(MLLM)における幻覚を抑制するために,AVCD(Audio-Visual Contrastive Decoding)を提案する。
効率を向上させるために,モデルの予測に対する信頼度に基づいて不要な復号ステップをスキップするエントロピー誘導適応復号を導入する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:13:57 GMT)
QwT-v2: Practical, Effective and Efficient Post-Training Quantization [14.5] QwTメソッドは、余分なパラメータと遅延を発生させる。
QwTは多くのハードウェアプラットフォームと互換性がない。
QwT-v2では、パラメータや計算量が大幅に削減されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:21:36 GMT)
TS-RAG: Retrieval-Augmented Generation based Time Series Foundation Models are Stronger Zero-Shot Forecaster [14.5] 時系列予測のための検索拡張生成フレームワークTS-RAGを提案する。
具体的には、TS-RAGはトレーニング済みの時系列エンコーダを利用して、専用の知識ベースから意味的に関連するセグメントを検索する。
TS-RAG は最先端のゼロショット予測性能を達成し,既存の TSFM を6.84% まで上回った。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:50:23 GMT)
Unveiling Impact of Frequency Components on Membership Inference Attacks for Diffusion Models [14.5] メンバーシップ推論アタック(MIA)は、モデルのトレーニングフェーズで特定のデータが使用されたかどうかを確認するように設計されている。
我々はそれらを、会員識別のための会員スコアを計算する統一的な汎用パラダイムに定式化する。
このパラダイムの下では、拡散モデルが高周波情報を処理する方法において、既存の攻撃が固有の欠陥を見落としていることを実証的に見出す。
本稿では, プラグアンドプレイ方式の高周波フィルタモジュールを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:50:11 GMT)
R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing [14.4] LLM(Large Language Models)とSmall Language Models(SLM)の間には,比較的少数のトークンが真の推論経路を分岐していることが示されている。
R2R)**は,これらのクリティカルな経路分割トークンに対してのみ LLM を選択的に利用するニューラルトークンルーティング手法である。
R2RはR1-7Bの平均精度を1.6倍にし、R1-14Bモデルよりも優れている。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:57:20 GMT)
VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin [14.4] 数年にわたって293人の話者から収集された大規模長手データセットを提示し、最長の期間は17年(約900週間)である。
話者の老化現象とその高度な話者検証システムへの影響について検討し、個々の話者老化過程を分析し、年齢群や性別などの要因が話者老化研究に与える影響について検討した。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:16:59 GMT)
Stationary MMD Points for Cubature [14.4] 有限点集合を用いた対象確率の近似は、基本的な重要性の問題である。
ヒルベルト空間の積分について、定常MDD点の立方体誤差はMDDよりも速く収束することを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:53:19 GMT)
FlexiReg: Flexible Urban Region Representation Learning [14.3] 本稿では,都市域の形成と入力領域の特徴の両方に柔軟に対応する都市域表現学習のためのモデルFlexiRegを提案する。
都市域表現を用いた4つの下流タスクの精度において,FlexiRegは最先端モデルよりも最大202%高い性能を示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:10:52 GMT)
Auto-nnU-Net: Towards Automated Medical Image Segmentation [14.3] Medical Image Decathlon (MIS) には骨から臓器へのセグメンテーションまで様々なタスクが含まれており、それぞれに最適なセグメンテーションモデルを見つけるための独自の課題がある。
最先端のAutoML関連MIS-framework nnU-Netはモデル構成の多くの側面を自動化する。
本稿では,ハイパーパラメータ最適化(HPO),ニューラルアーキテクチャ探索(NAS),階層型NASを実現する新しいnnU-Net変種であるAutonnU-Netを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:46:06 GMT)
A Course Correction in Steerability Evaluation: Revealing Miscalibration and Side Effects in LLMs [14.3] 大規模言語モデルが幅広いユーザ目標に沿ったアウトプットを生成できるかどうかは不明だ。
プロンプトエンジニアリングのような操縦性を改善するための介入は、様々な効果がある。
強力なLCMでさえ操舵性に苦しむが、既存のアライメント戦略は不十分である。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:29:52 GMT)
Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models? [14.3] 予測の不確実性,信頼性に欠かせない側面に,事例の増加がどのような影響を及ぼすかを検討する。
以上の結果から,タスク固有の知識を注入することで,単純なタスクと複雑なタスクの完全不確実性を低減できることが判明した。
複雑なタスクに対して、これらの利点は、長い入力に関連するノイズや不確実性の増加に対処した後だけ現れる。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:36:39 GMT)
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects [14.2] 人工物体の全身操作は、仮想人間やロボット工学の幅広い応用において、非常に困難な作業である。
本研究では,現実的な全身運動を実現するための新しい拡散雑音最適化フレームワークを提案する。
提案手法は,動作品質と身体的可視性において,既存の手法よりも優れていることを示す広範な実験を行う。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:11:50 GMT)
R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning [14.2] R1-Code-Interpreterは,マルチターン制御微調整(SFT)と強化学習(RL)によって訓練されたテキストのみの大規模言語モデル(LLM)の拡張である。
R1-Code-Interpreterはステップバイステップ推論中に複数のコードクエリを自律的に生成する。
従来のRLの狭いドメインでの作業とは異なり、タスクの多様性と高価なコード実行のために、コードインタープリタのトレーニングがかなり難しいことが分かりました。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:47:33 GMT)
Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning [14.1] モデル量子化はウェイトとアクティベーションのビット幅を減らし、メモリ効率と推論速度を改善する。
既存の方法は、主に整数量子化と後学習量子化の微調整に基づいており、矛盾しない性能に悩まされている。
本稿では、まずモデル量子化に符号なしFP量子化を導入し、時間ステップ対応のLoRAとデノナイジング・ファクター損失アライメントを併用する混合符号浮動小数点量子化フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:40:47 GMT)
DenseLoRA: Dense Low-Rank Adaptation of Large Language Models [14.1] 低ランク適応 (LoRA) は大規模言語モデル (LLM) に適応するための効率的なアプローチとして開発されている。
パラメータ効率を高めつつ,LoRAよりも優れた性能を実現する新しい手法であるDense Low-Rank Adaptation (DenseLoRA)を導入する。
我々はDenseLoRAを様々なベンチマークで評価し、LLaMA3-8B上のトレーニング可能なパラメータの0.70%とLoRAの80.8%の精度と比較して、トレーニング可能なパラメータの0.01%で83.8%の精度を達成することを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:19:07 GMT)
Efficient Spectral Control of Partially Observed Linear Dynamical Systems [14.0] 本稿では, 線形力学系を部分的に観察し, 対角的障害下で制御する新しい手法を提案する。
我々の新しいアルゴリズムであるDouble Spectral Control (DSC)は、実行時の複雑さを指数関数的に改善しながら、最もよく知られた後悔の保証と一致する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:28:10 GMT)
Semantic Correspondence: Unified Benchmarking and a Strong Baseline [14.0] 本研究は,意味対応手法の大規模調査である。
我々は、様々なベンチマークの文献におけるメソッドの結果を統合比較表に集約し、要約する。
複数のベンチマークで最先端のパフォーマンスを実現するための,シンプルで効果的なベースラインを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:45:05 GMT)
Create Anything Anywhere: Layout-Controllable Personalized Diffusion Model for Multiple Subjects [14.0] LCP-Diffusionは、被写体識別をフレキシブルなレイアウトガイダンスと統合した新しいフレームワークである。
実験により、LCP拡散はアイデンティティ保存とレイアウト制御の両面で優れていることが確認された。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:57:07 GMT)
Enabling Inclusive Systematic Reviews: Incorporating Preprint Articles with Large Language Model-Driven Evaluations [14.0] 我々は,事前印刷の出版を予測するための高度なフレームワークであるAutoConfidenceを提案する。
AutoConfidenceは手動のキュレーションへの依存を減らし、予測値の範囲を広げる。
このフレームワークは、体系的レビューの評価段階における事前印刷記事の取り込みを促進する可能性がある。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:41:53 GMT)
Hardware-Efficient Attention for Fast Decoding [14.0] Grouped Latent Attention (GLA) は、高速復号化のための低レベル最適化と組み合わせた並列対応の潜時注意法である。
最適化されたGLAカーネルは、例えば投機的デコード設定で、FlashMLAよりも最大2$times$高速です。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:54:07 GMT)
MT-Mol:Multi Agent System with Tool-based Reasoning for Molecular Optimization [13.9] 大規模言語モデル(LLM)を用いた分子最適化のためのマルチエージェントフレームワークMT-Molを紹介する。
本システムには, 構造記述子, 電子的およびトポロジ的特徴, フラグメントベース機能群, 分子的表現, 諸化学的性質の5つの異なる領域に分類された総合RDKitツールが組み込まれている。
MT-Molは、分析エージェント、分子生成科学者、推論出力検証器、レビュアーエージェントとの相互作用を通じて、ツール整列および段階的に推論された分子を生成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:27:30 GMT)
Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [13.9] 本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:22:56 GMT)
SC-Pro: Training-Free Framework for Defending Unsafe Image Synthesis Attack [13.8] 最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
NSFW画像を生成する敵攻撃に対して容易に防御できる訓練不要のフレームワークであるSC-Proを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:10:33 GMT)
Bridging Arbitrary and Tree Metrics via Differentiable Gromov Hyperbolicity [13.8] 任意の計量空間が与えられると、ツリー計量からの偏差はグロモフの$delta$-hyperbolicityによって定量化できる。
本稿では,差分最適化フレームワーク DeltaZero を導入し,この問題を解決する。
我々の手法は一貫して最先端の歪みを実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:58:37 GMT)
STEER-BENCH: A Benchmark for Evaluating the Steerability of Large Language Models [13.8] Steer-Benchは、Redditのコミュニティと対比して、人口固有のステアリングを評価するためのベンチマークである。
19のドメインにまたがる30のサブレディットペアをカバーし、Steer-Benchには10,000以上の命令応答ペアと5500の多重選択質問が含まれている。
一部のモデルでは、人間レベルのアライメントが15パーセント以上遅れており、コミュニティに敏感なステアビリティにおいて大きなギャップが浮かび上がっている。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:47:56 GMT)
Subgroups Matter for Robust Bias Mitigation [13.7] 重要な要素は、しばしば見過ごされるが、多くのバイアス緩和法(部分群の定義)によって共有される重要なステップである。
以上の結果から,サブグループ選択がパフォーマンスに大きく影響し,グループ選択が効果を損なうことが示唆された。
我々の研究は、バイアス緩和における注意深いサブグループ定義の重要性を強調し、機械学習モデルの堅牢性と公正性を改善するための代替レバーとして提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:52:58 GMT)
Empowering Vector Graphics with Consistently Arbitrary Viewing and View-dependent Visibility [13.6] この研究は、任意の視点で見ることのできる、新しいテキストからベクターまでのグラフィック生成手法であるDream3DVGを提案する。
提案手法は,補助的な3次元ガウススプラッティング最適化枝と3次元ベクトルグラフィックス最適化枝から構成されるデュアルブランチ最適化フレームワークである。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:06:04 GMT)
OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [13.6] 我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。
提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。
AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:20:38 GMT)
Large Language Models Miss the Multi-Agent Mark [13.6] 我々は,MAS理論と現在のMAS LLM実装の相違点を強調した。
我々の立場では、多くのMAS LLMは、自律性、社会的相互作用、構造化環境といったマルチエージェントの特徴を欠いている。
我々は、誤字や機会の欠如を避けるため、確立されたMAS概念のより良い統合とより正確な用語を提唱する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:01:06 GMT)
ChemHAS: Hierarchical Agent Stacking for Enhancing Chemistry Tools [13.4] 我々は,限られたデータからエージェントスタック構造を最適化することで,化学ツールを強化するシンプルで効果的な方法であるChemHASを提案する。
ChemHASは4つの基本的な化学タスクにまたがって性能を向上し,ツールの予測誤差を効果的に補償できることを実証した。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:22:57 GMT)
Distributional Scaling for Emergent Capabilities [13.4] 本稿では,大規模言語モデルにおける突発的なブレークスルーの性質について考察する。
ランダムな種にバイモーダルに分散された場合、ブレークスルーはトレーニング結果の確率分布の連続的な変化によって引き起こされる、と氏は主張する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:06:39 GMT)
Prompting Decision Transformers for Zero-Shot Reach-Avoid Policies [13.4] 我々は、オフライン、報酬なし、ゴール条件付き、地域条件付きRLを避けるための決定変換モデルRADTを紹介する。
RADTは目標を符号化し、プロンプトトークンとしてリージョンを直接回避する。
RADTを11のタスク、環境、実験的な設定の3つの既存のオフライン目標条件付きRLモデルに対してベンチマークする。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:56:11 GMT)
RoGA: Towards Generalizable Deepfake Detection through Robust Gradient Alignment [13.3] 一般化勾配更新とEMM勾配更新を一致させる新しい学習目標を提案する。
鍵となる革新は、モデルパラメータへの摂動の適用であり、ドメイン間の上昇点を整列させることである。
複数の挑戦的なディープフェイク検出データセットの実験結果から、勾配アライメント戦略が最先端の領域一般化技術より優れていることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:02:21 GMT)
Contrastive Desensitization Learning for Cross Domain Face Forgery Detection [13.3] 本稿では,異なる,おそらくは見えない偽造法に敏感な新しいクロスドメイン顔偽造検出法を提案する。
提案手法は,いくつかの最先端手法と比較して検出精度が向上し,誤報率を大幅に低減する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:49:17 GMT)
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset [13.3] rStar-Coderは、418Kのコード問題、580Kの長推論ソリューション、さまざまな困難を伴うリッチテストケースの大規模かつ検証されたデータセットである。
LiveCodeBenchでは、rStar-CoderはQwen2.5-7Bを17.4%から57.3%に改善し、Qwen2.5-14Bを23.3%から62.5%に改善し、o3-mini(以下)を3.1%上回る。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:00:57 GMT)
Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs [13.3] SASRは、大規模言語モデルのためのステップワイド適応型ハイブリッドトレーニングフレームワークである。
SFTとRLを統一し、最適化全体を通して動的に2つのバランスをとる。
実験の結果,SASRはSFT,RL,静的ハイブリッド訓練法より優れていた。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:16:10 GMT)
Making Every Event Count: Balancing Data Efficiency and Accuracy in Event Camera Subsampling [13.3] イベントカメラは、高時間分解能と電力効率を提供し、エッジAIアプリケーションに適している。
サブサンプリング手法は実用的な解法であるが、下流の視覚的タスクに対する効果は未解明のままである。
各種ベンチマークデータを用いて,イベントビデオ分類のためのハードウェアフレンドリーなサブサンプリング手法を6つ評価した。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:37:08 GMT)
Embed Progressive Implicit Preference in Unified Space for Deep Collaborative Filtering [13.2] GNOLR(Generalized Neural Ordinal Logistic Regression)は、ユーザエンゲージメントの構造的進行を捉えるために提案されている。
GNOLRは予測精度を高め、ユーザのエンゲージメントの進行を捉え、検索プロセスを単純化する。
10の実世界のデータセットでの実験では、GNOLRは効率と適応性において最先端の手法を大幅に上回っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:43:35 GMT)
PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims [13.2] PEDANTIC (underlinePatunderlineent underlineDefiniteness Exunderlinenaunderlinetion underlineCorpus)は、米国特許14k件の新規データセットである。
我々は,オフィスアクション文書をUSPTOから検索する完全自動パイプラインを用いてPEDANTICを構築し,Large Language Models (LLMs) を用いて不確定性の原因を抽出する。
高品質アノテーション生成におけるパイプラインの精度の検証
論文参考訳(メタデータ) (Tue, 27 May 2025 15:34:39 GMT)
Temporal Saliency-Guided Distillation: A Scalable Framework for Distilling Video Datasets [13.2] 本稿では,新しいユニレベルビデオデータセット蒸留フレームワークを提案する。
時間的冗長性に対処し,運動の保存性を高めるため,時間的サリエンシ誘導フィルタリング機構を導入する。
本手法は, 実データと蒸留ビデオデータとのギャップを埋めて, 最先端の性能を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:02:57 GMT)
DualSchool: How Reliable are LLMs for Optimization Education? [13.1] 本稿ではDualSchoolについて紹介する。DualConversionインスタンスの生成と検証のためのフレームワークである。
LLM は変換手順を正確に引用できるが、最先端のオープン LLM は一貫して正しい双対を生成することができない。
本稿は、教育者、学生、および大規模推論システムの開発がもたらす意味についても論じる。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:19:33 GMT)
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models [13.1] 大規模推論モデル(LRM)は、思考の明示的な連鎖を通じて複雑な推論タスクにおいてブレークスルーを達成した。
システム2の思考に大きく依存しているため、システム1の思考能力は制限される可能性がある。
S1-Bench氏は、システム1.1にもっと適した質問に対して、LEMのパフォーマンスを評価するために、単純で多様で自然な質問のスイートを紹介している。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:10:36 GMT)
Bridging the Gap: Self-Optimized Fine-Tuning for LLM-based Recommender Systems [13.0] 現在、LLM(Large Language Models)に推奨機能を持たせるための2つの一般的な戦略がある。
本稿では,カリキュラム学習の考え方を取り入れた,SOFT(Self-d Fine-Tuning)と呼ばれる新しい「Guidance+Tuning」手法を提案する。
LLM法では,レコメンデーション精度(平均37.59%)を大幅に向上させる。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:22:50 GMT)
Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning [13.0] 基礎モデルに基づく簡易蒸留法は, 0-RL よりも明らかに優れていることを示す。
これはゼロRLモデルよりもはるかに頻繁に、擬人化トークンと論理コネクタを使用する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:52:41 GMT)
Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation [13.0] MUSHRAテストは、TSシステムの評価を同時に行うための有望な代替手段である。
人間の参照音声の一致への依存は、現代のTSシステムのスコアを不当に考慮していることを示す。
MUSHRAテストの2つの改良版を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:40:41 GMT)
ACT-R: Adaptive Camera Trajectories for Single View 3D Reconstruction [12.9] 多視点合成に適応的な視点計画法を導入する。
我々は3次元コヒーレンスを高めるために時間的一貫性を活用して一連のビューを生成する。
本手法は, 未知のGSOデータセット上でのSOTA代替品の3次元再構成を改善する。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:14:50 GMT)
TimePro: Efficient Multivariate Long-term Time Series Forecasting with Variable- and Time-Aware Hyper-state [12.9] 長期の時系列予測では、異なる変数が異なる時間間隔でターゲット変数に影響を与えることが多い。
伝統的なモデルは典型的にはすべての変数や時間点を一様に処理し、複雑な変数関係を捉える能力を制限する。
本稿では,多変量および時間認識型ハイパーステートを構築するMambaベースの革新的なモデルであるTimeProを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:24:21 GMT)
OrionBench: A Benchmark for Chart and Human-Recognizable Object Detection in Infographics [12.9] インフォグラフィックにおけるチャートとHROの正確なオブジェクト検出モデルの開発を支援するためのベンチマークであるOrionBenchを紹介する。
26250のリアルと78,750の合成インフォグラフィックがあり、690万以上のバウンディングボックスアノテーションがある。
3つの応用を通してOrionBenchの有用性を実証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:03:54 GMT)
Hierarchical Reinforcement Learning with Uncertainty-Guided Diffusional Subgoals [12.9] HRLの重要な課題は、低レベルの政策が時間とともに変化し、高レベルの政策が効果的なサブゴールを生成するのが難しくなることである。
本稿では,ガウス過程(GP)によって正規化された条件拡散モデルを訓練して,複雑なサブゴールを生成する手法を提案する。
この枠組みに基づいて,拡散政策とGPの予測平均からサブゴールを選択する戦略を開発する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:38:44 GMT)
BindEnergyCraft: Casting Protein Structure Predictors as Energy-Based Models for Binder Design [12.8] タンパク質結合体の設計は、構造予測信頼度を最適化する幻覚に基づく手法によって変換されている。
本稿では,その信頼度をエネルギーベースモデル(EBM)として再解釈することで,構造予測器からそのような可能性を取り出す手法を提案する。
BindCraftと同じ最適化フレームワークを維持しつつ、ipTMをエネルギーベースの目的に置き換える設計パイプラインであるBindEnergyCraft(BECraft)にpTMEnergyを組み入れています。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:21:35 GMT)
LMCD: Language Models are Zeroshot Cognitive Diagnosis Learners [12.8] 認知診断(CD)はAIを活用した教育において重要な課題となっている。
プレトレーニング言語モデル(PLM)を利用した最近のNLPベースのアプローチは有望である。
ゼロショット認知診断学習者(LMCD)として言語モデルを提案する。
2つの実世界のデータセットの実験により、LMCDはエクササイズコールドとドメインコールドの両方で最先端の手法を大幅に上回っていることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:19:35 GMT)
Understanding the behavior of representation forgetting in continual learning [12.8] 継続的な学習シナリオでは、以前に学んだタスクの破滅的な忘れ忘れが重要な問題である。
本稿では,表現を忘れることに関する最初の理論的分析を行い,この分析を用いて連続学習の振る舞いをよりよく理解する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:04:00 GMT)
Event-based Stereo Depth Estimation: A Survey [12.7] ステレオプシスは、生物が私たちの3D世界をナビゲートする深度を知覚する主要な方法であるため、ロボット工学において広くアピールされている。
イベントカメラは、非常に高時間分解能と高ダイナミックレンジで、ピクセルごとの明るさ変化を非同期に検出する、バイオインスパイアされた新しいセンサーである。
高度の時間精度もステレオマッチングの恩恵を受けており、イベントカメラが登場して以来の一般的な研究領域として不透明度(深度)が評価されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:26:36 GMT)
Personalized Clustering via Targeted Representation Learning [12.7] クラスタリングは伝統的に、ラベルのないデータ内の自然なグループ構造を明らかにすることを目的としています。
ターゲット表現学習を明示的に行うパーソナライズされたクラスタリング手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:51:25 GMT)
Leveraging Large Language Models in Visual Speech Recognition: Model Scaling, Context-Aware Decoding, and Iterative Polishing [12.6] 視覚音声認識(VSR)は、唇の動きを分析して音声を転写する。
大きな言語モデル(LLM)はVSRシステムに統合され、顕著な性能改善につながった。
本稿では,VSRタスクにLLMを効果的に活用する方法を体系的に検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:00:12 GMT)
Multiple Different Black Box Explanations for Image Classifiers [12.6] ブラックボックス画像分類器の出力として複数の説明を演算するためのアルゴリズムとツールであるMultEXについて述べる。
我々は、その理論的複雑さを分析し、3つの異なるモデルと3つの異なるデータセットにわたる最先端技術に対してMultEXを評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:59:49 GMT)
Query Drift Compensation: Enabling Compatibility in Continual Learning of Retrieval Embedding Models [12.6] インデクシングを必要とせずに,すでにインデックス付け済みのコーパスを効果的に利用できるかを検討した。
安定性を維持するために,クエリとドキュメントの埋め込みの両方に埋込み蒸留を用いる。
本稿では,検索中に新しいクエリドリフト補償手法を提案し,新しいモデルクエリ埋め込みを従来の埋め込み空間に提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:52:52 GMT)
Conflicting Biases at the Edge of Stability: Norm versus Sharpness Regularization [12.6] 我々は、勾配降下の一般化性能を包括的に理解するには、これらの様々な形態の暗黙正則化の間の相互作用を分析する必要があると論じる。
単純な回帰タスクで訓練された対角線ネットワークに対して、暗黙バイアスだけでは一般化誤差を最小化しないことを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:51:06 GMT)
IKMo: Image-Keyframed Motion Generation with Trajectory-Pose Conditioned Motion Diffusion Model [12.6] IKMoは、軌跡とポーズを分離した拡散モデルに基づく画像キーフレームのモーション生成法である。
MLLMベースのエージェントは、プリプロセスモデル入力に実装される。
実験結果から,MLLMをベースとしたエージェントの事前処理により,ユーザの期待に合致した動作が生成できることが証明された。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:57:37 GMT)
Unpaired Image-to-Image Translation for Segmentation and Signal Unmixing [12.5] Ui2iは未ペア画像から画像への翻訳のための新しいモデルである。
ドメイン間のスタイル転送を可能にするために、コンテンツワイドなデータセットでトレーニングされている。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:36:50 GMT)
Flow of Reasoning: Training LLMs for Divergent Reasoning with Minimal Examples [12.5] Flow of Reasoning (FoR)は、最小限のデータで多様性を向上させることを目的としている。
FoR は DAG 構造推論グラフ上のマルコフフローとして多段階 LLM 推論を定式化する。
実験によると、限られたトレーニング例で、FoRは多様な創造的で高品質なソリューションの発見を可能にする。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:51:13 GMT)
Do We Need All the Synthetic Data? Towards Targeted Synthetic Image Augmentation via Diffusion Models [12.5] トレーニングの初期段階で学習されていないデータの一部を合成的に増強すると、データセット全体のパフォーマンスが向上することを示す。
我々の手法は様々なシナリオでパフォーマンスを最大2.8%向上させる。
また、パフォーマンスをさらに向上させるために、既存の弱くて強力な拡張戦略で簡単にスタックできる。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:27:03 GMT)
SHE-LoRA: Selective Homomorphic Encryption for Federated Tuning with Heterogeneous LoRA [12.5] SHE-LoRAは選択的同型暗号と低ランク適応を統合している。
SHE-LoRAは,非プライベートベースラインに匹敵する性能を維持していることを示す。
また、通信オーバーヘッドを94.901%削減し、暗号化オーバーヘッドを99.829%削減する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:36:18 GMT)
Shaping a Stabilized Video by Mitigating Unintended Changes for Concept-Augmented Video Editing [12.4] 本研究は、多種多様な安定したターゲット映像を柔軟に生成する改良されたコンセプト拡張ビデオ編集手法を提案する。
このフレームワークには、概念強化されたテキストインバージョンと、二重の事前監視機構が含まれる。
包括的評価により,本手法はより安定的で生活的なビデオを生成し,最先端の手法より優れていることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:43:05 GMT)
Lean classical-quantum hybrid neural network model for image classification [12.4] 本稿では,変分回路の4層のみを用いて,効率的な分類性能を実現するLan Classical-Quantum Hybrid Neural Network (LCQHNN)を提案する。
我々の実験は、LCQHNNがMNIST、FashionMNIST、CIFAR-10データセットの100%、99.02%、85.55%の分類精度を達成することを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:23:23 GMT)
REAL-Prover: Retrieval Augmented Lean Prover for Mathematical Reasoning [12.3] 私たちはREAL-Proverという,Lean 4.0用の新たなオープンソースステップワイドな定理証明ツールを紹介します。
我々の証明者は、特に大学レベルの数学問題の解法における性能を高める。
実験では、教師付き微チューン定理のみを用いた証明器は23.7%の成功率で競合する結果が得られる。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:26:11 GMT)
$C^3$-Bench: The Things Real Disturbing LLM based Agent in Multi-Tasking [12.2] エージェントの堅牢性を評価するためのオープンソースベンチマークをC3$-Benchで提示する。
具体的には,複雑なツール関係をナビゲートし,重要な隠蔽情報を処理し,動的決定経路を管理する,という3つの課題を設計する。
本質的に$C3$-Benchは、これらの課題を通じてモデル脆弱性を公開し、エージェントパフォーマンスの解釈可能性の研究を促進することを目的としている。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:22:28 GMT)
CNVSRC 2024: The Second Chinese Continuous Visual Speech Recognition Challenge [12.2] この課題は、レコーディングスタジオでの読書とインターネットスピーチの2つのテストシナリオを評価する。
CNVSRC 2024は、CNVSRC 2023と同じデータセットを使用する。
この新たな課題は、データ前処理、特徴抽出、モデル設計、トレーニング戦略において、いくつかの重要なイノベーションを実証した。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:25:31 GMT)
Square$χ$PO: Differentially Private and Robust $χ^2$-Preference Optimization in Offline Direct Alignment [12.1] Square$chi$PO は $chi$PO への単純な一行変更であり、標準的なログロスは確率よりも新しい二乗損失に置き換えられる。
ラベルプライバシのローカルモデルでは、Square$chi$POは、単一政治の集中度に基づいて最適なレートを達成する最初のアルゴリズムである。
また、Square$chi$POは、一般的な嗜好モデルのシナリオを扱うために容易に拡張できることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:23:24 GMT)
Unveiling Instruction-Specific Neurons & Experts: An Analytical Framework for LLM's Instruction-Following Capabilities [12.1] LLM(Large Language Models)の微調整は命令追従能力を大幅に向上させた。
本研究では,命令固有スパース成分の分離と解析により,LLM計算の微調整について検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:40:28 GMT)
Policy Design for Two-sided Platforms with Participation Dynamics [11.8] 人口影響下での両面プラットフォーム上でのダイナミックスとレコメンデーターポリシー設計について検討した。
われわれは,標準の「筋電図学」政策の使用を警告し,提供者側の配慮の重要性に光を当てた。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:26:09 GMT)
Multi-Mode Process Control Using Multi-Task Inverse Reinforcement Learning [11.8] 本稿では,データ駆動型マルチモード制御設計のための逆強化学習(IRL)とマルチタスク学習を統合した新しいフレームワークを提案する。
連続発泡タンクリアクターとフィードバッチバイオリアクターのケーススタディは、適応可能なマルチモードデータとトレーニングコントローラを扱う上で、このフレームワークの有効性を検証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:01:00 GMT)
BacktrackAgent: Enhancing GUI Agent with Error Detection and Backtracking Mechanism [11.8] BacktrackAgentは、タスク完了効率を改善するバックトラック機構を組み込んだフレームワークである。
BacktrackAgentはMobile3MとAuto-UIベンチマークでタスク成功率とステップ精度の両方でパフォーマンス改善を実現している。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:09:06 GMT)
BCDDM: Branch-Corrected Denoising Diffusion Model for Black Hole Image Generation [11.8] 一般相対論的レイトレーシング(GRRT)により生成されたシミュレーション画像にイベントホライゾン望遠鏡(EHT)データを適用することにより、ブラックホールと降着流を推定することができる。
本稿では,物理パラメータから直接ブラックホール画像を合成する深層学習フレームワークであるBCDDMを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:27:33 GMT)
See through the Dark: Learning Illumination-affined Representations for Nighttime Occupancy Prediction [11.8] 職業予測は,占領地域の3次元空間分布とそれに対応する意味ラベルを推定することを目的としている。
照明に適応した表現を学習する新しいフレームワークである textbfLIAR を提案する。
実データと合成データの両方の実験は、挑戦的な夜間シナリオ下でのLIARの優れた性能を示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:40:49 GMT)
Spectral-inspired Neural Operator for Data-efficient PDE Simulation in Physics-agnostic Regimes [11.7] 部分方程式(PDE)は、様々な物理系の進化を制御している。
古典的な数値解法は、詳細な離散化とPDEの管理に関する完全な知識を必要とする。
データ駆動型ニューラルPDEソルバは、データから学習することでこれらの制約を緩和するが、大規模なトレーニングを必要とする。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:25:13 GMT)
Fully Spiking Neural Networks for Unified Frame-Event Object Tracking [11.7] フレームとイベントデータを融合するために、スパイキングフレームイベント追跡フレームワークが提案されている。
RPMは位置バイアスのランダム化空間再構成と学習可能な型符号化を除去する。
STR戦略は、潜在空間におけるテンプレート機能間の時間的一貫性を強制する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:53:50 GMT)
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game [11.7] マルチモーダル推論のベンチマークであるMM-Escapeを紹介する。
MM-Escapeは最終タスク完了と同時に中間モデル動作を強調している。
大規模な実験により、MLLMはスケールに関係なく、最も単純な部屋の脱出タスクを完了できることが示されている。
性能ボトルネックはモデルによって異なり、異なる障害モードとマルチモーダル推論能力の制限が明らかになる。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:43:33 GMT)
Unveiling and Steering Connectome Organization with Interpretable Latent Variables [11.7] 本研究では,ショウジョウバエのコネクトームFlyWireからのサブグラフ抽出と,神経回路の解釈可能な低次元表現を導出するための生成モデルを提案する。
この研究は、脳のアーキテクチャを理解するための新しいツールと、バイオインスパイアされた人工ニューラルネットワークを設計するための潜在的な道筋を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:10:37 GMT)
Minimal Interaction Separated Tuning: A New Paradigm for Visual Adaptation [11.7] 分離チューニングと呼ばれる新しい視覚適応パラダイムについて検討する。
分離されたチューニングは、大規模な事前訓練されたモデルを、強力なクラウドサーバ上で動作するスタンドアロンの機能抽出器として扱う。
我々は,MIST(Minimmal Interaction Separated Tuning)を提案し,事前学習したモデルから得られた中間的特徴の総和が最小限の情報伝達と高適応性を有することを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:30:00 GMT)
Vision Transformers with Self-Distilled Registers [11.6] ポストホックレジスタ (PH-Reg) は、レジスタを既存のViTに統合する効率的な自己蒸留方式であり、ラベル付きデータの追加やフルリトレーニングを必要としない。
提案手法は,ゼロショットおよび線形探索による学生のViTのセグメンテーションと深度予測を改善することにより,アーティファクトトークンの数を効果的に削減できることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:59:41 GMT)
SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge [11.6] SOSBenchは、大規模な言語モデルのための規制対象のハザード中心のベンチマークである。
化学、生物学、医学、薬理学、物理学、心理学の6つのリスクの高い分野をカバーしている。
SOSBenchを用いた統合評価フレームワークにおけるフロンティアモデルの評価を行った。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:47:08 GMT)
Cooperation of Experts: Fusing Heterogeneous Information with Large Margin [11.5] CoE(Cooperation of Experts)フレームワークは、マルチタイプ情報を統一された異種多重ネットワークにエンコードする。
このフレームワークでは、専用のエンコーダがドメイン固有の専門家として機能し、それぞれが特定の意味空間における異なる関係パターンの学習に特化している。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:04:32 GMT)
Can Agents Fix Agent Issues? [11.5] LLMベースのエージェントシステムは、新しいソフトウェアパラダイムとして登場し、医学、ロボティクス、プログラミングといった様々な領域で広く採用されている。
これらのシステムを維持するには、バグが必然的に発生し、外部の要求に合うように継続的に進化するため、かなりの努力が必要です。
最近のソフトウェア工学(SE)エージェントは、従来のソフトウェアシステムにおける問題に対処することを約束しているが、エージェントシステムにおける現実の問題がどの程度効果的に解決できるかは不明だ。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:45:03 GMT)
BLUCK: A Benchmark Dataset for Bengali Linguistic Understanding and Cultural Knowledge [11.4] BLUCKはベンガルの言語理解と文化知識における大規模言語モデル(LLM)の性能を測定するために設計された新しいデータセットである。
私たちのデータセットは、2366の多重選択質問(MCQ)で構成されています。
GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.3-70B-Instruct、DeepSeekV3を含む6つのプロプライエタリおよび3つのオープンソースLCMを用いてBLUCKをベンチマークした。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:19:12 GMT)
Learning Single Index Models with Diffusion Priors [11.4] 拡散モデル(DM)は、多彩で高品質な画像を生成できることを顕著に示している。
DMの1ラウンドの無条件サンプリングと(部分的な)逆変換しか必要としない効率的な再構成法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:50:04 GMT)
Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits [11.4] 大型言語モデル(LLM)は、スマートフォン、ウェアラブル、エンボディロボットなどのエッジデバイス上の様々なアプリケーションを可能にする。
LLMはデバイス上でデプロイ可能で、レイテンシを低減し、プライバシを改善したコスト効率の高いソリューションを提供する。
本稿では,サーバ上での大きなターゲットモデルとデバイス上での小さなドラフトモデルを備えた,高速で費用対効果の高いエッジクラウドデコーディングフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:55:16 GMT)
MetaSlot: Break Through the Fixed Number of Slots in Object-Centric Learning [11.4] 可変オブジェクト数に適応する,プラグアンドプレイ型SlotアテンションバリアントであるMetaSlotを紹介する。
本稿では,MetaSlotが既存のSlot Attentionの変種と比較して,大幅な性能向上と解釈可能なスロット表現を実現していることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:23:03 GMT)
Unified Alignment Protocol: Making Sense of the Unlabeled Data in New Domains [11.4] 半教師付きフェデレートラーニング(SSFL)は、多くの現実世界のアプリケーションにおいて、従来のフェデレートラーニングよりも人気を集めている。
本稿では,2段階の学習プロセスを交互に行うUnified Alignment Protocol (UAP) という新しいフレームワークを提案する。
標準領域一般化ベンチマークデータセットを用いた実験により,提案したUAPがSSFL設定でのSOTA一般化性能を達成できることが判明した。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:44:55 GMT)
VisAlgae 2023: A Dataset and Challenge for Algae Detection in Microscopy Images [11.3] 本稿では,第2回Vision Meets Algae (VisAlgae 2023) Challengeについて要約する。
このチャレンジには369の参加チームが参加し、6つのクラスにまたがる1000のイメージのデータセットが含まれており、さまざまなサイズのマイクロ藻類と異なる特徴がある。
ここで概説したトップ10の手法は、これらの課題を克服し、検出精度を最大化するための洞察を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:58:50 GMT)
LazyVLM: Neuro-Symbolic Approach to Video Analytics [11.3] 本稿では,視覚言語モデルに似たユーザフレンドリなクエリインタフェースを提供する,ニューロシンボリックビデオ分析システムであるLazyVLMを紹介する。
LazyVLMを使えば、ビデオデータを無駄にドロップして、複雑なマルチフレームビデオクエリを指定できる。
我々は、LazyVLMが、オープンドメインのビデオデータを大規模にクエリする、堅牢で、効率的で、ユーザフレンドリなソリューションを提供することを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:31:17 GMT)
Pause Tokens Strictly Increase the Expressivity of Constant-Depth Transformers [11.3] 一定深さの対数幅変換器に停止トークンを追加すると、その計算表現性が強くなることを示す。
対数精度変換器の場合、停止トークンを追加することで、既知の上限値に一致する$mathsfTC0$に相当する表現性が得られることを示す。
本研究は,従来の経験的発見に対する厳密な理論的説明を提供し,ポーズトークンが幅,深さ,数値的精度とどのように相互作用するかを明らかにし,それらを異なるメカニズムとして位置づけた。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:59:27 GMT)
Spatial RoboGrasp: Generalized Robotic Grasping Control Policy [11.2] 本稿では,頑健なマルチモーダル認識と信頼性のある把握予測を結合した統合フレームワークを提案する。
我々のアーキテクチャは、ドメインランダム化拡張、単分子深度推定、深度対応の6-DoF Grasp Promptを単一の空間表現に融合する。
これらの結果は,拡散に基づく模倣学習と組み合わせた空間的接地感が,汎用ロボットグルーピングのためのスケーラブルで堅牢な解であることを示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:22:33 GMT)
Assured Autonomy with Neuro-Symbolic Perception [11.2] サイバー物理システム(CPS)にデプロイされる最先端AIモデルの多くは、パターンマッチングである。
セキュリティの保証が限られているため、安全クリティカルなドメインと競合するドメインの信頼性が懸念される。
本稿では,データ駆動型知覚モデルにシンボル構造を付与するパラダイムシフトを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:21:06 GMT)
In Search of Adam's Secret Sauce [11.2] さまざまなデータ構成とスケールで1,300以上の言語モデルをトレーニングしています。
符号付き運動量法は SGD よりも高速であるが、Adam と比較して一貫して性能が劣っている。
この設定でAdam氏は、勾配の平均と分散を推定するための自然なオンラインアルゴリズムを実装している。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:30:18 GMT)
AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping [11.2] トランスフォーマーベースのリモートセンシング基礎モデル(RSFM)は、統一された処理能力のため、作物マッピングの可能性を秘めている。
農作物のマッピングに特化して設計された多時間リモートセンシング基盤モデルであるAgriFMを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:50:14 GMT)
Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers [11.2] ポストジェネレーションは科学コミュニケーションにおいて不可欠だが難しい課題である。
ポスター生成のための最初のベンチマークとメトリクススイートを紹介する。
PosterAgentはトップダウンのビジュアルインザループマルチエージェントパイプラインである。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:58:49 GMT)
HWA-UNETR: Hierarchical Window Aggregate UNETR for 3D Multimodal Gastric Lesion Segmentation [11.2] HWA-UNETRは、学習可能なウィンドウアグリゲーション層を備えたオリジナルのHWAブロックを利用する、新しい3Dセグメンテーションフレームワークである。
我々のフレームワークは、しっかりとした堅牢性を維持しながら、Diceスコアの1.68%まで既存の手法を上回ります。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:19:45 GMT)
Saddle-To-Saddle Dynamics in Deep ReLU Networks: Low-Rank Bias in the First Saddle Escape [11.0] 本研究では,厳密なサドルに対するヘッセン族の固有ベクトルと同じような役割を持つ,いわゆる脱出方向について検討する。
最適な脱出方向は,より深い層に低ランクバイアスを呈することを示す。
この結果は、深いReLUネットワークにおけるSaddle-to-Saddleのダイナミクスを証明する最初のステップである、と我々は主張する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:09:36 GMT)
New Paradigm of Adversarial Training: Releasing Accuracy-Robustness Trade-Off via Dummy Class [10.9] ディープニューラルネットワーク(DNN)のロバスト性を高めるための最も効果的な方法の1つとして、AT(Adversarial Training)がある。
既存のAT方式は、本質的に精度の損なうトレードオフに悩まされている。
そこで本研究では,各オリジナルクラスに対してダミークラスを追加することで,新たなATパラダイムを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:55:37 GMT)
LLMs are Frequency Pattern Learners in Natural Language Inference [10.9] 我々は、仮説の述語が肯定的な事例の前提語よりも頻繁に発生する、一貫した周波数バイアスを同定する。
LLMは周波数バイアスを利用して推定を行い、逆向きのインスタンスでは性能が良くないことがわかった。
我々は、WordNetから偽名とその対応するハイパーネムの周波数を計算し、周波数バイアスとテキストのエンテーメントの相関関係を明らかにする。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:45:29 GMT)
diffDemorph: Extending Reference-Free Demorphing to Unseen Faces [10.9] 本稿では,視覚的忠実度の高い複合形態像から成分像を効果的に切り離す,拡散に基づく新しいアプローチを提案する。
我々の手法は、モーフィック技法やフェイススタイルにまたがる最初の一般化であり、一般的なトレーニングプロトコルの下では、現在の最先端を$geq 59.46%で打ち負かしている。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:05:22 GMT)
The Role of AI in Early Detection of Life-Threatening Diseases: A Retinal Imaging Perspective [10.9] 我々は最新のOCT/AおよびAO開発、AI/MLアプローチ、mHealth/Tele-ophthalmologyイニシアチブを体系的に合成する。
本稿では,マルチセンタープロトコルの標準化,将来性検証,網膜スクリーニングのシームレス化のためのロードマップを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:19:37 GMT)
Measuring Fine-Grained Relatedness in Multitask Learning via Data Attribution [10.8] タスク関連性の測定と負の移動の軽減は、マルチタスク学習における重要なオープンチャレンジである。
本稿では,MultiTask Influence Function (MTIF) を提案する。
我々の研究は、データ属性とMLLの新たな接続を確立し、タスク関連性を測定するための効率的できめ細かいソリューションを提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:13:31 GMT)
Learning What to Do and What Not To Do: Offline Imitation from Expert and Undesirable Demonstrations [10.7] 我々は、データセットが専門家と望ましくない実証の両方を含む対照的な行動からオフラインの模倣学習を研究する。
本稿では,KLの相違点を専門家と望ましくない(あるいは悪い)データの状態-行動的訪問分布に対して最適化する新しい定式化を提案する。
本手法は, 対人訓練を回避し, 統一フレームワークにおける正と負の両方の実証処理を行う。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:33:21 GMT)
Rethinking Data Mixture for Large Language Models: A Comprehensive Survey and New Perspectives [10.7] 一定のトレーニング予算が与えられた場合、異なるドメインのサンプリング比率がモデルの性能に大きな影響を与えます。
制約された計算リソース内で最高のパフォーマンスモデルをトレーニングするために、異なるデータドメイン間のドメイン重みをどうやって決定できるのか?
論文参考訳(メタデータ) (Tue, 27 May 2025 16:56:54 GMT)
What happens when generative AI models train recursively on each others' generated outputs? [10.6] データによるインタラクションは、おそらくオリジナルのトレーニングデータに欠落した新しい概念にそれらを公開することでモデルに恩恵をもたらすが、共有タスク上でのパフォーマンスを均質化することもできる。
データによるインタラクションは、おそらくオリジナルのトレーニングデータに欠落した新しい概念にそれらを公開することでモデルに恩恵をもたらすが、共有タスク上でのパフォーマンスを均質化することもできる。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:52:34 GMT)
Pointing the Way: Refining Radar-Lidar Localization Using Learned ICP Weights [10.6] 高レベルスキャン情報に基づいてレーダポイントを重み付けする学習前処理ステップを含むICPベースのレーダライダーローカライゼーションを構築した。
重み付けネットワークをトレーニングするために,新しい,スタンドアローンでオープンソースの差別化可能なICPライブラリを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:35:28 GMT)
Augmenting Software Bills of Materials with Software Vulnerability Description: A Preliminary Study on GitHub [10.6] 本稿では,40のオープンソースプロジェクトのSBOMに共通脆弱性と露出に関する情報を付加する予備研究の結果を報告する。
当社の強化されたSBOMは、プルリクエストを提出し、プロジェクトオーナーに調査への回答を求めることで評価されています。
ほとんどの場合、SBOMの更新を継続する必要があるため、拡張SBOMは直接受け入れられなかったが、受信したフィードバックは、提案されたSBOM拡張の有用性を示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:59:45 GMT)
M3S-UPD: Efficient Multi-Stage Self-Supervised Learning for Fine-Grained Encrypted Traffic Classification with Unknown Pattern Discovery [10.6] 本稿では,M3S-UPDを提案する。
鍵となるイノベーションは、合成サンプルも事前の知識も必要としない自己管理の未知の検出メカニズムである。
実験の結果,M3S-UPDは,数発の暗号化トラフィック分類タスクにおいて既存の手法よりも優れており,同時に競合性能も達成していることがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:34:01 GMT)
EaqVLA: Encoding-aligned Quantization for Vision-Language-Action Models [10.6] 本稿では,VLAモデルに符号化整合量子化を適用するEaqVLAというフレームワークを提案する。
EaqVLAは、既存の量子化法よりも優れた量子化性能(エンドツーエンドのアクション制御とxxx倍加速の最小量子化損失)を達成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:42:21 GMT)
Attribute-Efficient PAC Learning of Sparse Halfspaces with Constant Malicious Noise Rate [10.6] スパースハーフスペースの属性効率の学習は、機械学習理論における根本的な問題である。
本稿では,データ内に一定の量の悪意のあるノイズが存在することを考察し,基礎となる$s$スパースハーフスペースを学習することを目的とする。
このような条件下では、既存のヒンジ損失最小化プログラムの単純な変種により、属性効率が達成可能であることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:02:28 GMT)
TeroSeek: An AI-Powered Knowledge Base and Retrieval Generation Platform for Terpenoid Research [10.5] テルペノイドは150年以上研究されてきた天然物の重要な分類である。
著者らは、20年間にわたるテルペノイド文学から構築された知識基盤(KB)であるTeroSeekを開発した。
TeroSeekは構造化された高品質な情報を提供し、テルペノイド関連のクエリで汎用の大規模言語モデル(LLM)を上回っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:17:30 GMT)
Styl3R: Instant 3D Stylized Reconstruction for Arbitrary Scenes and Styles [10.5] 現在の最先端の3Dスタイリング手法は、通常、あらかじめ訓練された表現に芸術的特徴を移すために、計算的に集中的なテスト時間最適化を伴っている。
提案手法は,スパースシーン画像と任意のスタイル画像を用いて,1秒未満で直接3Dスタイリングを実現する手法である。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:47:15 GMT)
Copresheaf Topological Neural Networks: A Generalized Deep Learning Framework [10.5] 我々は,多種多様なディープラーニングアーキテクチャをカプセル化した,強力かつ統一的なフレームワークであるCTNNを紹介する。
CTNNは、特定のタスクやデータタイプに適したニューラルネットワークアーキテクチャの原則設計に対処する。
構造化データベンチマークによる実験結果から,CTNNは従来のベースラインを一貫して上回っていることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:28:50 GMT)
Agent-Environment Alignment via Automated Interface Generation [10.5] 大言語モデル(LLM)エージェントは、対話的な意思決定タスクにおいて印象的な推論能力を示している。
エージェントの内部の期待と、発行されたアクションの影響と、環境における実際の状態遷移との間には、しばしばミスマッチが発生します。
我々は,環境の静的情報とエージェントに返されるステップワイズ観測の両方を強化するインタフェースであるtextbfALIGNを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:44:50 GMT)
TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent [10.5] 本稿では,言語ステガノグラフィーによる自然界のアウトプットにセンシティブな文脈情報を埋め込む,新たな脅威モデルであるTrojanStegoを提案する。
本稿では, LLMのリスク要因を概説した分類法を導入し, 脅威のリスクプロファイルを評価する。
実験の結果,妥協されたモデルでは,32ビットのシークレットを87%の精度で確実に送信し,97%以上の精度で3世代にわたる過半数投票を行った。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:24:52 GMT)
Lunguage: A Benchmark for Structured and Sequential Chest X-ray Interpretation [10.4] 本稿では,構造化放射線学レポート生成のためのベンチマークデータセットLUNGUAGEを紹介する。
注釈付き胸部X線レポートは1,473件あり、それぞれ専門家がレビューし、そのうち80件は経時的アノテーションを含んでいる。
このベンチマークを用いて、生成したレポートをきめ細かなスキーマ整合構造表現に変換する2段階のフレームワークを開発する。
また、時間的一貫性をモデル化しながら、実体、関係、属性レベルの構造化出力を比較する解釈可能な計量であるLUNGUAGESCOREを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:40:00 GMT)
Aggregation Buffer: Revisiting DropEdge with a New Parameter Block [10.4] 我々は、トレーニング中にさまざまなグラフ構造を公開するためにエッジをランダムに削除するGNN用のデータ拡張テクニックであるDropEdgeを再検討する。
我々は,多くのGNNアーキテクチャに存在する基本的制限からDropEdgeの性能が制限されていることを示す理論的解析を行った。
提案手法は任意のGNNモデルと互換性があり,複数のデータセットに対して一貫した性能向上を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:59:17 GMT)
MoPFormer: Motion-Primitive Transformer for Wearable-Sensor Activity Recognition [10.4] Motion-Primitive Transformer (MoPFormer)は、慣性計測ユニット信号を意味論的に意味のある動作プリミティブにトークン化することで、解釈性を高める新しいフレームワークである。
MoPFormerは、欠落したプリミティブを再構築するマスクされたモーションモデリングの目的を使って事前トレーニングを行うことができる。
6つのHARベンチマークの実験では、MoPFormerは最先端のメソッドを上回るだけでなく、複数のデータセットをまたいだ一般化も成功している。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:34:56 GMT)
LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers [10.3] 大規模言語モデル(LLM)は、機能エンジニアリングプロセスにドメイン知識を統合することを可能にする。
進化的探索とドメイン知識とLLMの推論能力を組み合わせた新しいフレームワーク LLM-FE を提案する。
以上の結果から,LLM-FEは最先端のベースラインを一貫して上回っていることが明らかとなった。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:48:23 GMT)
EasyDistill: A Comprehensive Toolkit for Effective Knowledge Distillation of Large Language Models [10.3] 大規模言語モデル(LLM)の効果的なブラックボックスおよびホワイトボックス知識蒸留(KD)のための総合ツールキットであるEasyDistillを提案する。
我々のフレームワークは、データ合成、教師付き微調整、ランキング最適化、強化学習技術など多機能な機能を提供している。
EasyDistillは、研究者や業界の実践者がLLMのKD戦略をシームレスに実験し、実装できるようにする。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:32:51 GMT)
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.3] 大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:29:51 GMT)
Enhancing Performance of Explainable AI Models with Constrained Concept Refinement [10.2] 正確性と解釈可能性のトレードオフは、機械学習(ML)における長年の課題である。
本稿では,概念表現における偏差の影響について検討し,これらの効果を緩和するための新しい枠組みを提案する。
従来の説明可能な手法と比較して,提案手法は様々な大規模ベンチマークにおいてモデル解釈可能性を維持しながら予測精度を向上するだけでなく,計算コストを大幅に削減する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:51:06 GMT)
Integral Imprecise Probability Metrics [10.2] エピステムの不確実性(EU)は古典的確率によって提供されるものよりも豊かな表現を必要とする。
不正確確率(IP)理論はそのようなモデルを提供し、曖昧さと部分的信念を捉えている。
これにより、不正確な確率的機械学習(IPML)への関心が高まっている。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:21:30 GMT)
ConText-CIR: Learning from Concepts in Text for Composed Image Retrieval [10.2] 合成画像検索(CIR)は、クエリ画像と相対テキストで指定されたターゲット画像を取得するタスクである。
テキスト概念-一貫性損失をトレーニングしたフレームワークであるConText-CIRを導入する。
これらのコンポーネントが組み合わさることで,CIRタスクの性能が向上することを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:09:57 GMT)
Long Context Scaling: Divide and Conquer via Multi-Agent Question-driven Collaboration [10.1] 長いコンテキストを処理するための新しいマルチエージェントフレームワークを提案する。
XpandA(Expand-Agent)は質問駆動ワークフローと動的パーティショニングと結合されている。
XpandAは、フルコンテキスト、RAGおよびそれ以前のエージェントベースのメソッドのベースラインに対する20%の改善と1.5倍の推論高速化を実現している。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:05:42 GMT)
MedBridge: Bridging Foundation Vision-Language Models to Medical Image Diagnosis [10.1] 最近の視覚言語基盤モデルは、自然画像分類の最先端結果を提供するが、ドメインシフトによる医用画像に干渉する。
MedBridgeは,医用画像の正確な診断のためにトレーニング済みのVLMを再利用した,軽量なマルチモーダル適応フレームワークである。
MedBridgeはマルチラベル胸部疾患の診断において最先端のVLM適応法と比較して6~15%改善した。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:37:51 GMT)
BLACKOUT: Data-Oblivious Computation with Blinded Capabilities [10.0] メモリセーフなハードウェアをデータ公開プログラミング能力で拡張することで、メモリセーフ性とサイドチャネル耐性に対処する。
本稿では,CHERI-Tooobaプロセッサを用いたFPGAソフトコア上でのブラインド機能を実現するBLACKOUTを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:55:27 GMT)
DeepConvContext: A Multi-Scale Approach to Timeseries Classification in Human Activity Recognition [9.9] HAR(Human Activity Recognition)のためのマルチスケール時系列分類フレームワークDeepConvContextを提案する。
DeepConvContextは、時間順のウィンドウのシーケンスを処理することによって、ウィンドウ内およびウィンドウ間時間パターンの両方をモデル化する。
6つの広く使用されているHARベンチマークで、DeepConvContextは古典的なDeepConvLSTMよりもF1スコアが平均10%改善され、最大21%向上した。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:37:56 GMT)
Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [9.8] 本稿では,LrcSSMについて述べる。LrcSSMは,現在の線形状態空間層と同じくらい高速に長いシーケンスを処理できるリカレントモデルである。
LrcSSMは、Liquid-S4やMambaのような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
本稿では,LrcSSMがLRU,S5,Mambaより優れていることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:02:59 GMT)
Don't Half-listen: Capturing Key-part Information in Continual Instruction Tuning [9.7] キーパート情報ゲイン(KPIG)に基づく新しい連続的命令チューニング手法を提案する。
本手法は,マスク部分の情報ゲインを計算し,データを動的に再生し,トレーニング対象を洗練させる。
実験により,本手法は観察タスクと保留タスクの両方において優れた性能を発揮することが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:43:31 GMT)
Dual-Directed Algorithm Design for Efficient Pure Exploration [9.7] 我々は、最良腕識別を超えたトップ2のアプローチを拡張する純粋探索問題のための新しい設計原理を開発する。
情報指向選択と組み合わせて、トップ2のトンプソンサンプリングがベストアーム識別に最適であることを示す。
また,しきい値と$varepsilon$-best-arm識別のための最適なアルゴリズムも作成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:35:51 GMT)
SAGE-Eval: Evaluating LLMs for Systematic Generalizations of Safety Facts [9.7] SAGE-Eval は LLM が適切な安全事実を適切に適用できるかどうかを検証した最初のベンチマークである。
SAGE-Evalは、信頼できる組織から手作業でソースされた104の事実で構成され、体系的に10,428のテストシナリオを生成する。
トップモデルであるClaude-3.7-sonnetは、テストされたすべての安全事実の58%しか通過していない。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:29:32 GMT)
PaSa: An LLM Agent for Comprehensive Academic Paper Search [9.7] PaSaは大規模言語モデルを利用した高度な論文検索エージェントである。
合成データセットであるAutoScholarQueryを用いた強化学習を用いてPaSaを最適化する。
合成データでトレーニングされているにも関わらず、PaSaはRealScholarQueryの既存のベースラインを大幅に上回っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:01:29 GMT)
DeepMultiConnectome: Deep Multi-Task Prediction of Structural Connectomes Directly from Diffusion MRI Tractography [9.5] 本稿では,構造コネクトームを直接トラクトグラフィーから予測するディープラーニングモデルであるDeepMultiConnectomeを紹介する。
マルチタスク学習を備えたポイントクラウドベースのニューラルネットワークを使用して、モデルは、接続されたリージョンに応じて、ストリームラインを分類する。
DeepMultiConnectomeは、予測されたコネクトームと従来のストリーラインのラベル付け法を用いて生成された従来のコネクトームを比較して評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:56:37 GMT)
Humble AI in the real-world: the case of algorithmic hiring [9.5] Humble AIは、懐疑論を通じてAI開発とデプロイメントに慎重さを主張する。
アルゴリズム雇用の分野における謙虚なAIの現実的なケーススタディを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:09:38 GMT)
Restoring Real-World Images with an Internal Detail Enhancement Diffusion Model [9.5] 古い写真や低解像度画像などの現実世界の劣化画像の復元は、大きな課題となる。
最近のデータ駆動型アプローチは、高忠実度復元と、色付けに対するオブジェクトレベル制御の達成に苦慮している。
実世界の劣化画像の高忠実性復元のための内部詳細保存拡散モデルを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:47:50 GMT)
RepoMaster: Autonomous Exploration and Understanding of GitHub Repositories for Complex Task Solving [9.5] RepoMasterは、複雑なタスクを解決するためにGitHubリポジトリを探索、再利用するために設計された、自律的なエージェントフレームワークである。
RepoMasterは関数呼び出しグラフ、モジュール依存グラフ、階層的なコードツリーを構築し、必須コンポーネントを特定する。
新たにリリースしたGitTaskBenchでは、RepoMasterがタスクパス率を24.1%から62.9%に引き上げ、トークン使用率を95%削減しました。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:35:05 GMT)
Generalizable and Robust Spectral Method for Multi-view Representation Learning [9.4] 近年,多視点表現学習 (MvRL) が注目されている。
グラフラプラシアンベースのMvRL法は、マルチビューデータの表現に顕著な成功を収めた。
本稿では,グラフラプラシアン手法の強みを深層学習の力と統合した,新しい融合ベースのフレームワークであるtextitSpecRaGE$を紹介する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:09:59 GMT)
Scalable Segmentation for Ultra-High-Resolution Brain MR Images [9.3] 本稿では,空間参照やガイダンスとして,アクセスが容易で解像度の低い粗いラベルを利用する新しいフレームワークを提案する。
我々のアプローチは、クラスごとの符号付き距離変換マップを回帰し、スムーズで境界対応の監視を可能にする。
本手法は,合成データセットと実世界のデータセットの総合的な実験を通じて検証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:34:55 GMT)
HTMNet: A Hybrid Network with Transformer-Mamba Bottleneck Multimodal Fusion for Transparent and Reflective Objects Depth Completion [9.2] 透明で反射的な物体は深度センサーに重大な課題をもたらす。
本稿では,Transformer,CNN,Mambaアーキテクチャを統合した新しいハイブリッドモデルであるHTMNetを提案する。
本稿では,自己アテンション機構と状態空間モデルに基づく新しいマルチモーダル融合モジュールを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:51:38 GMT)
GarmentDiffusion: 3D Garment Sewing Pattern Generation with Multimodal Diffusion Transformers [9.2] GarmentDiffusionは、マルチモーダル入力からセンチメートル精度でベクトル化された3Dミシンパターンを生成できる新しい生成モデルである。
提案手法は、3次元ミシンパターンパラメータをコンパクトなエッジトークン表現に効率的に符号化する。
その結果,縫製パターン生成速度はSwingGPTの100倍に向上した。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:32:24 GMT)
RelationalFactQA: A Benchmark for Evaluating Tabular Fact Retrieval from Large Language Models [9.2] 我々は,事実検索が孤立点問合せよりもかなり難しいことを実証した。
我々の実験では、最先端のLLMでさえ25%以上の精度で苦戦していることがわかった。
これらの知見は、構造化された事実知識を合成する現在のLLMの能力において、重要な限界である。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:33:38 GMT)
SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution [9.2] 強化学習は、複雑な目標志向のタスクを扱うためのトレーニングエージェントの約束である。
フィードバック信号は通常、タスク全体が完了した後でのみ利用可能である。
我々は、最終報酬を段階的な貢献に分解するステップワイドプログレス属性を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:21:04 GMT)
On the Robustness of Adversarial Training Against Uncertainty Attacks [9.2] 学習問題において、手元のタスクに固有のノイズは、ある程度の不確実性なく推論する可能性を妨げている。
本研究は、敵の例、すなわち、誤分類を引き起こす注意深く摂動されたサンプルに対する防御が、より安全で信頼性の高い不確実性推定を保証していることを実証的および理論的に明らかにする。
我々は,CIFAR-10およびImageNetデータセット上で,公開ベンチマークのRobustBenchから,複数の逆ロバストモデルを評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:41:42 GMT)
Hybrid Disagreement-Diversity Active Learning for Bioacoustic Sound Event Detection [9.2] MFFT(Match First Farthest-traversal)は,委員会投票の不一致と多様性分析を統合した活発な学習手法である。
MFFTは、冷間開始時に68%、温間開始時に71%のmAPを達成し、アノテーションの2.3%しか使用していない。
特に、MFFTはコールドスタートのシナリオと、絶滅危惧種のモニタリングに重要な希少種に優れており、その実用的価値を示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:50:39 GMT)
An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment [9.2] 本研究は, 評価の信頼性を確保しつつ, LLMの性能に関する詳細な知見を提供する。
我々は、GPT-4、Qwen2.5-72B、Llama-3.2-3Bを含む、クローズドソースとオープンソースの両方のLLMを選択する。
その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
しかし、LPMには、GPT-4やQwen2.5-72Bの語彙パラフレージングとの戦いに見られるような制限がある。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:36:23 GMT)
Resampling Filter Design for Multirate Neural Audio Effect Processing [9.1] カイザーFIR窓フィルタを組み込んだ半帯域IIRフィルタを用いた2段設計により,従来提案されていたモデル調整手法に類似あるいは良好な結果が得られることを示す。
本稿では,整数オーバーサンプリング処理のためのアンプとデシメーションフィルタについて検討し,モデル調整法と組み合わせて半帯域IIRとFIRの設計を適用可能であることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:56:21 GMT)
Label Leakage in Federated Inertial-based Human Activity Recognition [9.1] 本研究では,HAR(Human Activity Recognition)ベンチマークデータセットに対する,最先端の勾配に基づくラベル漏洩攻撃の有効性を評価する。
その結果, ラベルリークの程度に影響を与える重要な要因として, 活動クラス数, サンプリング戦略, クラス不均衡が示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:13:40 GMT)
Power-Law Decay Loss for Large Language Model Finetuning: Focusing on Information Sparsity to Enhance Generation Quality [9.1] 本稿では,テキスト生成のための微調整処理を最適化する新しい損失関数Power-Law Loss Decay (PDL)を提案する。
PDLは、標準のクロスエントロピー損失における各トークンの寄与を再重み付けする。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:30:32 GMT)
Out of the Shadows: Exploring a Latent Space for Neural Network Verification [9.0] 本稿では, 分岐・束縛手順におけるサブプロブレム数を大幅に削減するために, 繰り返し改良を用いたニューラルネットワークの効率的な検証ツールを提案する。
当社のツールは,前回のニューラルネットワーク検証コンペで上位のツールに位置づけられるような,競争力のあるパフォーマンスを実現していることを実証しています。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:14:26 GMT)
Linear Bandits with Non-i.i.d. Noise [8.9] 本研究では,観測雑音に対する標準I.d.仮定を緩和し,線形帯域問題について検討する。
この制限的な仮定の代替として、ラウンド間のノイズ項はガウス的であるが相互依存的であることを許す。
不確実性に直面した楽観主義の原理に基づく帯域幅アルゴリズムを導出する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:24:30 GMT)
Photography Perspective Composition: Towards Aesthetic Perspective Recommendation [8.9] 伝統的な写真合成アプローチは2次元の収穫法によって支配されている。
プロの写真家は、しばしば3D再構成の形で視点調整を用いる。
従来の収穫法を超越した写真視点合成(PPC)を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:04:48 GMT)
Sky-Drive: A Distributed Multi-Agent Simulation Platform for Human-AI Collaborative and Socially-Aware Future Transportation [8.8] 本稿では,新しい分散マルチエージェントシミュレーションプラットフォームであるSky-Driveを紹介する。
Sky-Driveは、自動運転車と人間の道路ユーザーインタラクションモデリング、ヒューマン・イン・ザ・ループのトレーニング、社会的に認識された強化学習、パーソナライズされた運転開発、カスタマイズされたシナリオ生成など、多様なアプリケーションをサポートする。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:09:11 GMT)
TelePlanNet: An AI-Driven Framework for Efficient Telecom Network Planning [8.8] 基地局の選定は5Gネットワーク計画において重要な課題である。
既存のAIツールは、特定の面で効率が向上しているにもかかわらず、動的ネットワーク条件を満たすのに依然として苦労している。
基地局選択に適したAI駆動型フレームワークであるTelePlanNetを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:33:45 GMT)
A Generation Framework with Strict Constraints for Crystal Materials Design [8.7] 本稿では,複数の制約を入力として受け取り,特定の化学特性を持つ結晶構造の生成を可能にする新しい制約生成フレームワークを提案する。
本手法は,既存手法の2倍以上の目標特性を満たす確率で結晶構造を生成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:49:55 GMT)
Generalization Analysis for Contrastive Representation Learning under Non-IID Settings [8.7] 非$i.d.設定下でのContrastive Representation Learningフレームワークの一般化分析を行う。
各クラスに関連付けられた学習可能な表現のクラス被覆数の対数として、各クラスで必要となるサンプル数を示す境界を導出する。
次に、線形写像やニューラルネットワークなどの共通関数クラスに対する過剰なリスク境界を導出するために、本研究の主な結果を適用する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:15:05 GMT)
An Inexact Halpern Iteration with Application to Distributionally Robust Optimization [8.7] 不正確なスキームを適切に選択することにより、(予想される)剰余ノルムの点において$O(k-1)収束率を許容することを示す。
本稿では,データ駆動型分散ロバスト最適化の2つのクラスを解くために,提案手法をいかに適用できるかを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:58:14 GMT)
Model as Loss: A Self-Consistent Training Paradigm [8.7] 我々は、損失関数と同じモデルからエンコーダを利用してトレーニングをガイドする新しい訓練パラダイムであるモデル・アズ・ロスを提案する。
このフレームワークは,学習したエンコーダの機能を損失関数として利用することにより,クリーン参照音声と拡張モデル出力との自己整合性を実現する。
提案手法は,標準音声強調ベンチマークにおいて,事前学習した特徴量よりも優れていた。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:12:45 GMT)
Evidential Deep Active Learning for Semi-Supervised Classification [8.6] 本稿では,半教師付き分類(EDALSSC)のための明らかな深層能動学習手法を提案する。
EDALSSCは、学習プロセス中にラベル付きおよびラベルなしデータの不確実性推定を同時に定量化する半教師付き学習フレームワークを構築している。
EDALSSCは、画像分類データセットにおいて、既存の半教師付きおよび教師付きアクティブラーニングアプローチよりも優れていることを示す実験結果を得た。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:59:48 GMT)
Reinforcement Learning-based Sequential Route Recommendation for System-Optimal Traffic Assignment [8.6] 本稿では,静的なSOトラフィック割り当て問題を単一エージェントの深層強化学習タスクとして再構成する学習ベースフレームワークを提案する。
我々は,従来の交通割当手法の反復構造をRL学習プロセスに統合する,MSA誘導深度Q-ラーニングアルゴリズムを開発した。
その結果, RL はBraess ネットワークにおける理論 SO 解に収束し, OW ネットワークにおける 0.35% の偏差しか得られないことがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:33:02 GMT)
CDPDNet: Integrating Text Guidance with Hybrid Vision Encoders for Medical Image Segmentation [8.6] ほとんどの医用セグメンテーションデータセットは部分的にラベル付けされているだけである。
本研究では,CLIP-DINO Prompt-Driven Network (CDPDNet)を提案する。
CDPDNetは、セルフ教師付きビジョントランスフォーマーとCLIPベースのテキスト埋め込みを組み合わせることで、これらの課題に対処するためにタスク固有のテキストプロンプトを導入している。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:57:47 GMT)
Unforgettable Lessons from Forgettable Images: Intra-Class Memorability Matters in Computer Vision [8.2] クラス内の特定の画像が他のクラスよりも記憶可能なクラス内記憶性を導入する。
画像提示の時間間隔を計算に組み込んだ新しい指標であるICMscore(Intra-Class Memorability score)を提案する。
Intra-Class Memorability dataset (ICMD) をキュレートし、2000人の参加者の回答から得られたICMスコアを用いて10のオブジェクトクラスに5,000以上の画像を含む。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:03:03 GMT)
Towards Conversational Development Environments: Using Theory-of-Mind and Multi-Agent Architectures for Requirements Refinement [8.2] 本稿では,FMを用いたAlignMindと呼ばれるマルチエージェントシステムを利用した新しい手法を提案する。
私たちのアプローチは、FMを最小限の能力で強化する認知アーキテクチャを持つことで、ソフトウェアメーカの精神状態と視点を考慮しています。
我々は、我々のアプローチがステークホルダーの意図と要求を正確に把握し、それらを仕様とステップバイステップの行動計画の両方として表現できることを実証した。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:05:26 GMT)
Securing Federated Learning against Backdoor Threats with Foundation Model Integration [8.2] フェデレートラーニング(FL)は、プライバシを保護しながら、分散モデルトレーニングを可能にする。
近年,ファンデーションモデル(FM)のFLへの統合により性能が向上したが,新たなバックドア攻撃機構が導入された。
FLにおけるバックドア攻撃とバックドア攻撃の両方に対処する新しいデータフリー防衛戦略を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:10:45 GMT)
PeerGuard: Defending Multi-Agent Systems Against Backdoor Attacks Through Mutual Reasoning [8.2] マルチエージェントシステムは、複雑なタスクを完了させたり、協力したり、競合したりする自律エージェントとして、高度なAIモデルを活用する。
重要性は増しているが、マルチエージェントシステムの安全性はいまだに未調査である。
本研究では,マルチエージェントシステムにおけるバックドア脆弱性を調査し,エージェントインタラクションに基づく防御機構を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:31:58 GMT)
RvLLM: LLM Runtime Verification with Domain Knowledge [8.2] 大規模言語モデル(LLM)は、例外的なテキスト理解と生成能力のため、AIパラダイムの主流として現れている。
不整合または誤ったアウトプットを生成する傾向は、特に正確さと信頼性を必要とする高い領域において、その信頼性に挑戦する。
既存の研究は、多くの場合、ドメイン固有の知識を統合する可能性を見越して、汎用シナリオにおけるモデル誤動作の検出と緩和に重点を置いている。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:34:23 GMT)
A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective [8.2] 拡散モデルは並列トークンサンプリングを可能にし、より高速な生成と左から右への生成制約を排除する。
我々は情報理論の観点から拡散言語モデルの収束保証を開発する。
これらの結果は拡散言語モデルの実用性に関する新たな理論的洞察を与える。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:24:20 GMT)
Randomly Sampled Language Reasoning Problems Explain Limits of LLMs [8.1] LLMは機械学習の分野に革命をもたらした。
彼らは計画が不十分で、誤った答えを幻覚し、同じタスクのあまり標準的でないバージョンのパフォーマンスを低下させ、様々な特定のプロンプトで誤って答えることが知られている。
本稿では,LLMの低性能要因としてノベルティの分離を試みる。
論文参考訳(メタデータ) (Tue, 27 May 2025 00:11:34 GMT)
InstGenIE: Generative Image Editing Made Efficient with Mask-aware Caching and Scheduling [8.1] InstGenIEは画像編集要求を効率的に処理するシステムである。
InstGenIEはスループットを最大3倍に向上し、平均要求遅延を14.7倍14.7倍に削減する。
論文参考訳(メタデータ) (Tue, 27 May 2025 00:36:56 GMT)
Improved Online Confidence Bounds for Multinomial Logistic Bandits [8.1] 本稿では,MNLモデルに対するオンライン信頼度の向上を提案する。
この結果をMNLブレイビットに適用し,変分依存性の最適後悔を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:28:48 GMT)
Verifiable Safety Q-Filters via Hamilton-Jacobi Reachability and Multiplicative Q-Networks [8.0] ハミルトン・ヤコビ到達可能性解析に基づく検証可能なモデルフリー安全フィルタを提案する。
提案手法は,4つの標準安全制御ベンチマークで検証されたモデルフリー安全証明書をうまく合成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:12:50 GMT)
GaussianFusion: Gaussian-Based Multi-Sensor Fusion for End-to-End Autonomous Driving [8.0] 本稿では,エンドツーエンド自動運転のためのガウス式マルチセンサフュージョンフレームワークを提案する。
本手法では,様々なセンサからの情報を集約するために,直観的かつコンパクトなガウス表現を中間キャリアとして利用する。
明示的な特徴は交通シーンに関する豊かな意味と空間情報を捉え、暗黙的な特徴は軌道計画のための補完的な手がかりを提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:43:02 GMT)
Counterfactual Multi-player Bandits for Explainable Recommendation Diversification [7.9] 我々は、説明可能な推薦の多様化を実現するために、textbfCounterfactual textbfMulti-player textbfBandits (CMB)法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:21:39 GMT)
PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing [7.8] 本稿では,多種多様な有害データを生成するためにクラウドソーシングモデルを適用したPoisonSwarmを提案する。
それぞれのテンプレートを複数の意味単位に分解し、単位単位のトキフィケーションを実行する。
実験により、PoisonSwarmは有害データの異なるカテゴリを合成することで最先端のパフォーマンスを達成することが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:33:57 GMT)
POLAR: A Benchmark for Multilingual, Multicultural, and Multi-Event Online Polarization [7.7] POLARは、多言語、多文化、マルチイベントのデータセットで、7つの言語で23k以上のインスタンスを持つ。
モノリンガルとクロスランガルの両方のセットアップで、6つの多言語事前学習言語モデルを微調整する。
オープンおよびクローズドな大規模言語モデル(LLM)を,数ショット,ゼロショットのシナリオで評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:04:58 GMT)
Visual Loop Closure Detection Through Deep Graph Consensus [7.7] 位置認識によって得られる視覚的類似の幾何を利用してループ閉鎖コンセンサスを推定するグラフニューラルネットワークアーキテクチャであるLoopGNNを導入する。
提案手法は,高精度なリコールを維持しながら高精度な推定値が得られる。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:42:47 GMT)
Position is Power: System Prompts as a Mechanism of Bias in Large Language Models (LLMs) [7.7] 大規模言語モデル(LLM)におけるシステムプロンプトは、モデル動作を導く事前定義された指示である。
LLMのデプロイでは、コンテキスト間の一貫性のあるレスポンスを保証するために、ますます使用されている。
システムプロンプトがより複雑になるにつれて、直接的または間接的に、副作用の未報告を導入することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:19:08 GMT)
DiMoSR: Feature Modulation via Multi-Branch Dilated Convolutions for Efficient Image Super-Resolution [7.7] 本稿では、軽量SISRネットワークにおける注目を補うために、変調による特徴表現を強化する新しいアーキテクチャであるDiMoSRを紹介する。
実験により、DiMoSRは様々なベンチマークデータセットで最先端の軽量メソッドよりも優れていることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:40:05 GMT)
LLMs with Industrial Lens: Deciphering the Challenges and Prospects -- A Survey [7.7] 大規模言語モデル(LLM)は、多くの産業用途を駆動する秘密の要素となっている。
本稿では,産業環境におけるLCMの活用にともなう障害と機会を解明し,評価することを目的とする。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:19:25 GMT)
SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment [7.7] SAFEPATHは, LRMを微調整して, その推論の開始時に, 短時間で8個の安全プライマーを出力する軽量アライメント手法である。
実験の結果,SAFEPATHは推論性能を維持しながら有害な出力を効果的に減少させることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:11:42 GMT)
Addressing Data Quality Decompensation in Federated Learning via Dynamic Client Selection [7.6] Shapley-Bid Reputation Optimated Federated Learning (SBRO-FL)は、動的入札、評判モデリング、コスト認識の選択を統合する統合フレームワークである。
予測理論にインスパイアされた評価システムは、矛盾を罰しながら歴史的なパフォーマンスを捉えている。
FashionMNIST, EMNIST, CIFAR-10, SVHNデータセットの実験により、SBRO-FLは対向的および低障壁干渉シナリオにおいても精度、収束速度、堅牢性を改善することが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:06:51 GMT)
Interlocking-free Selective Rationalization Through Genetic-based Learning [7.5] 我々は、学習オーバーヘッドを必要としない選択的合理化のための最初のインターロックフリーアーキテクチャであるGenSPPを提案する。
人工的および実世界のベンチマーク実験により、我々のモデルはいくつかの最先端の競合より優れていることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:07:23 GMT)
Analyzing values about gendered language reform in LLMs' revisions [7.5] LLMの性別付き役割名詞の改訂とその修正の正当性について検討する。
フェミニストやトランス包括的言語改革との整合性を評価する。
価値アライメントの意義について論じる。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:07:33 GMT)
A Structured Unplugged Approach for Foundational AI Literacy in Primary Education [7.5] 小学校における基礎的AIリテラシーを育成する構造的教育手法を提案する。
以上の結果から,用語理解と利用,特徴記述,論理的推論,評価能力の向上が示唆された。
このアプローチは、特に学生がAIの概念と現実世界の推論を結びつける活動を楽しんでいることを証明した。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:23:57 GMT)
Agentic Medical Knowledge Graphs Enhance Medical Question Answering: Bridging the Gap Between LLMs and Evolving Medical Knowledge [7.5] AMG-RAGは医療知識グラフの構築と継続的な更新を自動化するフレームワークである。
推論を統合し、PubMedやWikiSearchといった現在の外部証拠を検索する。
MEDQAのF1スコアは74.1%、MEDMCQAの精度は66.34パーセントで、同等のモデルと10倍から100倍のモデルの両方を上回っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:05:15 GMT)
Can Past Experience Accelerate LLM Reasoning? [7.5] 人間は経験と露出を増し、より速く、より良くタスクを実行することができる。
LLMは過去の経験からより高速に推し進め、計算コストを最大56%削減することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:44:00 GMT)
Causality-Driven Infrared and Visible Image Fusion [7.5] 本稿では,画像融合タスクを因果性の観点から再検討する。
モデルとバイアスの影響は、調整された因果グラフを構築することによって切り離される。
共同設立者の干渉を排除するため、バックドア調整ベースのフィーチャーフュージョンモジュール(BAFFM)が提案されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:48:52 GMT)
FRABench and GenEval: Scaling Fine-Grained Aspect Evaluation across Tasks, Modalities [7.4] 既存の"LLM-as-a-Judge"評価器は、通常、いくつかのタスク、アスペクト、モダリティにおいて狭い。
我々は、明示的できめ細かいアスペクト仕様が、自動評価における一般化可能性と客観性の両方の鍵であると主張している。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:54:31 GMT)
Visual Cues Enhance Predictive Turn-Taking for Two-Party Human Interaction [7.4] 予測的ターンテイクモデル(PTTM)は、自然主義的な人間とロボットの相互作用を促進するが、ほとんどは音声にのみ依存する。
本稿では,マルチモーダルPTTMであるMM-VAPを紹介する。
ビデオ会議のインタラクションにおいて、最先端のオーディオオンリー(ホールド/シフト予測精度が84%に対して79%)を上回っていることが判明した。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:24:38 GMT)
Incentivizing Permissionless Distributed Learning of LLMs [7.4] textitGauntletは、更新の集約や擬似階調に依存する任意の同期分散トレーニングスキームに適用することができる。
我々は、OpenSkill評価システムを用いて、時間をかけて擬似漸進的なスコアの競合性を追跡する。
私たちのライブ1.2Bは、参加者の貢献の価値に基づいて、実際に価値の高いトークンを支払ったもので、インセンティブシステムの有用性を実証しています。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:11:22 GMT)
Does Graph Prompt Work? A Data Operation Perspective with Theoretical Analysis [7.3] 本稿では,データ操作の観点からグラフのプロンプトを厳密に解析する理論的枠組みを提案する。
グラフ変換演算子に近似する能力を示す形式的保証定理を提供する。
グラフプロンプトによってこれらのデータ操作の誤差の上限を導出し、この議論をグラフのバッチに拡張する。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:43:17 GMT)
Experimental Evidence That AI-Managed Workers Tolerate Lower Pay Without Demotivation [7.3] AI管理に対する労働者の反応に関する実験的証拠は、部分的には実験的忠実性の限界のために、相変わらず混在している。
これらの制限をMinecraftプラットフォームでカスタマイズされた職場で解決し、自律的なタスク実行の高解像度な行動追跡を可能にする。
労働者は人間、AI、ハイブリッド管理の下で繰り返し生産タスクを完了した。
AIマネージャは、労働者のモチベーションや公正感に悪影響を与えることなく、人間の定義した評価原則に基づいて体系的に低いパフォーマンスレーティングと賃金を40%削減した。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:40:18 GMT)
AbsoluteNet: A Deep Learning Neural Network to Classify Cerebral Hemodynamic Responses of Auditory Processing [7.2] この研究は、fNIRSを使って聴覚イベント関連応答を分類するために設計された新しいディープラーニングアーキテクチャであるAbsoluteNetを紹介する。
このネットワークは、畳み込みとカスタマイズされたアクティベーション関数の原理に基づいて構築されている。
その結果、AbsoluteNetは既存のモデルを上回っ、87.0%の精度、84.8%の感度、89.2%の特異性に達した。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:21:17 GMT)
RainFusion: Adaptive Video Generation Acceleration via Multi-Dimensional Visual Redundancy [7.2] RainFusionは、ビデオ品質を保ちながら注意計算を加速するために、視覚データに固有の空間性を利用する。
提案するbf RainFusionは,最先端の3D動画生成モデルにシームレスに統合可能なプラグアンドプレイ方式である。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:15:02 GMT)
A Lightweight Method to Disrupt Memorized Sequences in LLM [7.1] 言語モデルがスケールするにつれて、そのパフォーマンスは幅広いタスクにわたって劇的に向上するが、トレーニングデータの一部を暗記し、復調する傾向がある。
差分プライバシーやモデルアンラーニングのような既存の緩和技術は、ほとんどのユーザにとって実用的でないように、内部重み付けの再訓練やアクセスを必要とすることが多い。
TokenSwapは、トークンレベルの出力しかアクセスできない現実的な設定のために設計された軽量でポストホックな防御システムである。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:54:17 GMT)
Herd Behavior: Investigating Peer Influence in LLM-based Multi-Agent Systems [7.1] 大規模言語モデル(LLM)に基づくマルチエージェントシステムにおけるピアの影響のダイナミクスについて検討する。
自己自信と他者に対する信頼感のギャップは,エージェントが適合する可能性に大きな影響を及ぼすことを示す。
群集行動の強さを調節する上で,ピア情報提示形式が重要な役割を担っていることがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:12:56 GMT)
Adaptive Backtracking Line Search [7.1] バックトラックライン探索は数値最適化の基礎となる。
本稿では,選択した基準を考慮したステップサイズ調整手法を提案する。
この軽量な調整により、最適化が大幅に高速化される。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:19:54 GMT)
GIFARC: Synthetic Dataset for Leveraging Human-Intuitive Analogies to Elevate AI Reasoning [7.1] 最先端モデルは2024年のARCコンペティションで40-55%の精度しか達成していない。
本稿では、類似に着想を得たARCデータセットGIFARCを紹介する。
GIFARCは、ブルートフォースパターン検索に参加する前に、AIエージェントがタスクを類似的に評価するように誘導する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:42:51 GMT)
CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature [7.1] 組換え例の大規模知識ベース(KB)であるCHIMERAを構築した。
CHIMERAは、科学者がどのように概念を再結合し、異なる領域からインスピレーションを得るかを、大規模に調査するために使用することができる。
我々はCHIMERAを分析し、AIの異なるサブ領域における組換えの性質を探索する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:36:04 GMT)
LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.1] 強化学習(RL)は、様々な領域で顕著な成功を収めている。
複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。
既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:40:02 GMT)
LifeIR at the NTCIR-18 Lifelog-6 Task [7.0] NTCIR-18 Lifelog-6 Challengeのライフログセマンティックアクセスタスク(LSAT)は、大規模なユーザのライフログから関連画像を取得することに焦点を当てている。
本稿では,ライフログ検索における様々な課題に対処するため,テキストを用いて画像検索を行うための多段階パイプラインを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:21:57 GMT)
Annealing Flow Generative Models Towards Sampling High-Dimensional and Multi-Modal Distributions [7.0] Annealing Flow (AF) は、高次元および多モード分布からサンプリングするための連続正規化フロー (CNF) 上に構築された手法である。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:47:15 GMT)
Towards Analyzing and Understanding the Limitations of VAPO: A Theoretical Perspective [7.0] VAPOは、大規模言語モデルの強化学習のためのフレームワークである。
これは、値モデルバイアス、不均一なシーケンス長、スパース報酬信号といった課題に対処する。
本稿では,理論的な観点からVAPOを考察し,その仮定が課題となる分野を明らかにする。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:30:19 GMT)
Learning Annotation Consensus for Continuous Emotion Recognition [6.9] 感情コンピューティングでは、データセットには異なるアノテーションからの複数のアノテーションが含まれることが多く、完全な合意が欠落している可能性がある。
本稿では,すべてのアノテータに対してコンセンサスを求める連続感情認識(CER)のためのマルチアノテータトレーニング手法を提案する。
提案手法では,アノテーションを統一表現に集約するコンセンサスネットワークを用いて,主覚醒値予測器を誘導し,集合的な入力をよりよく反映する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:43:45 GMT)
Low-Rank Adapting Models for Sparse Autoencoders [6.9] 我々は低ランク適応(LoRA)を用いて、以前に訓練されたSAEの周辺でテキストモデル自体を微調整する。
本手法は, 前方通過時にSAEを挿入した場合, クロスエントロピー損失ギャップを30%から55%削減する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:39:54 GMT)
Minimax Rates of Estimation for Optimal Transport Map between Infinite-Dimensional Spaces [6.9] 無限次元空間上の確率測度間の最適輸送マップの推定について検討し,その極小最大速度を明らかにする。
サンプルから最適輸送マップを推定すると、確率測度と関数データ解析の間のダイナミクスをシミュレートするなど、いくつかの応用が見つかる。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:11:13 GMT)
Can we Debias Social Stereotypes in AI-Generated Images? Examining Text-to-Image Outputs and User Perceptions [6.9] 本稿では,T2I出力の社会的バイアスを評価するために,理論駆動型バイアス検出ルーブリックと社会ステレオタイプ指標(SSI)を提案する。
我々は,T2Iモデルの3つの主要なアウトプットを,地理的・職業的・形容詞的な3つのカテゴリにわたる100のクエリを用いて監査した。
迅速な改良はステレオタイプを緩和するが、コンテキストアライメントを制限することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:01:03 GMT)
Strong Molecule-Light Entanglement with Molecular Cavity Optomechanics [6.9] 本研究では,光子,フォノン,プラズモンの周囲環境下での強い絡み合いを発生させる分子オプティメカルプラットフォームを提案する。
このシステムは、超高Qささやかなガリーモード(WGM)光共振器と、金属ナノ粒子と1分子からなるプラズモンナノキャビティを統合する。
提案手法は,オープン量子システムにおける絡み合いの保護に普遍的なアプローチを確立し,ノイズ耐性量子情報技術への道を開く。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:12:09 GMT)
Deepfake-Eval-2024: A Multi-Modal In-the-Wild Benchmark of Deepfakes Circulated in 2024 [6.9] 我々は,2024年にソーシャルメディアとディープフェイク検出プラットフォームユーザから収集されたワイヤ内ディープフェイクからなる新しいディープフェイク検出ベンチマークであるDeepfake-Eval-2024を紹介する。
ベンチマークには、52の異なる言語で88の異なるウェブサイトからさまざまなメディアコンテンツが含まれている。
その結果,Deepfake-Eval-2024で評価すると,オープンソースのDeepfake検出モデルの性能は急激に低下することがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:27:56 GMT)
Enhancing Wearable Tap Water Audio Detection through Subclass Annotation in the HD-Epic Dataset [6.8] 我々は、最近リリースされたHD-Epicデータセットのために、タップウォーターと呼ばれる新しいラベルを作成し、タップウォーターフローの717の手書きアノテーションを作成しました。
筆者らは,データセットにおける水道水と水道水の関係を解析し,新たに追加されたラベルクラスを評価するために2つの軽量分類器を訓練・評価した。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:48:59 GMT)
Wrapped Gaussian on the manifold of Symmetric Positive Definite Matrices [6.8] 円形および非平坦なデータ分布は、データ科学の様々な領域で広く使われている。
このようなデータの基盤となる幾何学を考慮に入れるための原則的なアプローチは、重要なものである。
この研究は、古典的な機械学習と統計手法をより複雑で構造化されたデータに拡張するための基礎となる。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:27:04 GMT)
Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks [6.7] 本稿では,オブジェクト指向認識を主評価対象とするベンチマークであるDORI(Discriminative Orientation Reasoning Intelligence)を紹介する。
DORIは、正面アライメント、回転変換、相対方向関係、標準方向理解の4つの次元を評価する。
最先端の視覚言語モデル15について評価した結果,限界が明らかとなった。
DORIは、ロボット制御の改善、3Dシーン再構築、物理的環境における人間とAIの相互作用に影響を及ぼす。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:22:44 GMT)
Beyond 1D: Vision Transformers and Multichannel Signal Images for PPG-to-ECG Reconstruction [6.7] 本稿では,視覚変換器(ViT)をコアネットワークとして利用する新しいPSG-to-ECG再構成手法を提案する。
ViTの自己保持機構を活用することで、我々のアプローチは、ビート間の依存性とビート内依存性の両方を効果的に捉えることができる。
実験の結果,提案手法は既存の1次元畳み込み方式よりも優れていた。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:00:46 GMT)
Data and Technology for Equitable Public Administration: Understanding City Government Employees' Challenges and Needs [6.7] 我々は、公共セクターのデータと技術利用に関する重要なエクイティ考慮事項を明らかにするために、市役所職員のエクイティ実践に焦点を当てる。
当社の調査結果は、エクイティの運用において従業員が直面する課題、エクイティ目標を推進するためのデータニーズの視点、許容可能な政府技術のためのデザインスペースを浮き彫りにしている。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:08:07 GMT)
Training Dynamics of In-Context Learning in Linear Attention [6.7] In-context linear regression のために訓練されたマルチヘッド線形自己アテンションの勾配勾配勾配ダイナミクスについて検討した。
線形アテンションの勾配降下訓練中にICLの能力がどのように進化するかを理論的に記述する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:00:08 GMT)
Voting or Consensus? Decision-Making in Multi-Agent Debate [6.7] 意思決定が異なるタスクにどのように影響するかは、ほとんど分かっていない。
投票プロトコルは、推論タスクとコンセンサスプロトコルのパフォーマンスが13.2%向上し、知識タスクの2.8%向上した。
回答の多様性を高めて意思決定を改善するために,2つの新しい方法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:52:26 GMT)
How Do Experts Make Sense of Integrated Process Models? [6.6] 本研究では、専門家プロセスワーカーが、統合モデリングアプローチによって提供された情報をどのように理解するかを考察する。
ビジネスプロセスとルールの統合モデリングに基づくタスクに携わるエキスパートプロセスワーカーを研究することで、私たちは、センスメイキングの実践をよりよく理解するための道を開いた洞察を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:32:28 GMT)
Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [6.6] Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強のモデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が良くないことがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:17:41 GMT)
Diagnosing and Resolving Cloud Platform Instability with Multi-modal RAG LLMs [6.6] ARCAは、このドメインをターゲットにした新しいマルチモーダルRAG LLMシステムである。
ステップワイズ評価は、ARCAが最先端の代替品より優れていることを示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:43:45 GMT)
Leveraging large language models and traditional machine learning ensembles for ADHD detection from narrative transcripts [6.6] 本稿では,物語の書き起こしを用いたADHD診断(バイナリ)の自動分類のためのアンサンブルフレームワークを提案する。
LLaMA3、RoBERTa、SVM(Support Vector Machine)の3つの補完モデルを統合する。
実験の結果、アンサンブルは個々のモデルよりも優れていた。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:22:01 GMT)
HalluCounter: Reference-free LLM Hallucination Detection in the Wild! [6.5] HalluCounterは、応答応答とクエリ応答の整合性とアライメントパターンの両方を利用する参照なし幻覚検出手法である。
我々の手法は最先端の手法よりもかなり優れており、データセット間での幻覚検出における平均信頼度は90%を超えている。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:57:23 GMT)
PolarGrad: A Class of Matrix-Gradient Optimizers from a Unifying Preconditioning Perspective [6.5] 我々は、"マクロ認識"プリコンディショニング手法を解析するための統一フレームワークを提案する。
本稿では,行列値勾配の極分解に基づく事前条件付き最適化手法であるPolarGradを紹介する。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:11:21 GMT)
MLMC-based Resource Adequacy Assessment with Active Learning Trained Surrogate Models [6.4] マルチレベルモンテカルロ(MLMC)は、信頼性評価を加速するための柔軟で効果的な分散技術である。
データ駆動サロゲートモデルは、複雑な電力システムフレームワークにおいて低レベルモデルとして提案されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:21:02 GMT)
PHISH in MESH: Korean Adversarial Phonetic Substitution and Phonetic-Semantic Feature Integration Defense [6.4] 韓国語表記体系の音韻的特徴を生かしたHangul (PHISH) の音韻変換法を提案する。
提案手法が摂動データセットと摂動データセットの両方に与える影響を実験的に検証した。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:09:02 GMT)
Leveraging Large Language Models for Active Merchant Non-player Characters [6.4] 我々は、現在の商人ノンプレイヤーキャラクタ(NPC)の通過に繋がる2つの重要な課題を強調した。
評価モジュールと交渉モジュールから構成されるMARTと呼ばれる,大規模言語モデル(LLM)に基づく商談フレームワークを提案する。
異なるトレーニング手法とLLMサイズで様々な実装オプションを探索し,様々なゲーム環境を考慮した2つの実験を行った。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:23:46 GMT)
Joint Learning in the Gaussian Single Index Model [6.3] 高次元ガウスモデルにおける一次元射影と一次元関数を共同学習する問題を考察する。
解析の結果,初期方向が目標と負に相関している場合でも収束は依然として起こることがわかった。
実用面では、この問題の構造に適応した再生ヒルベルトカーネル空間を用いて、このような共同学習を効果的に実施できることを実証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:30:34 GMT)
Robust and Explainable Detector of Time Series Anomaly via Augmenting Multiclass Pseudo-Anomalies [6.3] 時系列における教師なし異常検出は、何十年にもわたって重要な研究領域であった。
近年の研究では、データ拡張を用いて擬似アノマリーを生成し、トレーニングサンプルと強化サンプルを分離する境界を学習している。
マルチクラスの擬似アノマリーを生成するために多様なデータ拡張を利用するRedLampを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:13:55 GMT)
Voice Quality Dimensions as Interpretable Primitives for Speaking Style for Atypical Speech and Affect [6.3] 知覚音声品質次元は、非定型音声および他の音声変調の鍵となる特徴を記述する。
7つの音声・音声次元の音声品質モデルを開発し,評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:30:56 GMT)
Bitcoin: A Non-Continuous Time System [6.3] エントロピー崩壊の概念を導入し、各ブロックがProof-of-Work計算によって不確実性の可逆解をどう表現するかを説明する。
同期クロックが支配する伝統的な時間システムとは対照的に、Bitcoinはエントロピーの散逸とコンセンサス駆動のファイナリティを通じて内部的に時間を構築する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:43:50 GMT)
A Joint Reconstruction-Triplet Loss Autoencoder Approach Towards Unseen Attack Detection in IoV Networks [6.2] In this present an unsupervised autoencoder method designed on beign network data for unseen attack detection in IoV network。
本手法は, 異常データに対して約99%の精度で, 異常データに対して97%から100%の精度で頑健に動作することを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:40:57 GMT)
Enter the Void - Planning to Seek Entropy When Reward is Scarce [6.2] 本稿では,短時間の潜伏予測を用いて,高エントロピー状態の予測と探索を積極的に行う新しい手法を提案する。
提案する階層型プランナは,いつ計画を立てるか,地平線の長さを計画し,報酬とエントロピーの重み付けを動的に行う。
提案手法は,Dreamerのコンバージェンスにおいて,Dreamerのコンバージェンスよりも50%高速で,Dreamerが必要とする環境ステップの60%に,想像力で訓練されたポリシーが収束する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:28:55 GMT)
Analyzing Biases in Political Dialogue: Tagging U.S. Presidential Debates with an Extended DAMSL Framework [6.2] 我々は、ドナルド・トランプの修辞的戦略を考察し、2024年の米大統領選挙に関する批判的な談話分析を提示する。
本稿では,政治コミュニケーションにおけるバイアス駆動と敵対的談話の特徴を捉えた新しいアノテーションフレームワークBEADSを紹介する。
われわれの分析によると、トランプは、挑戦と敵対的取引所、選択的強調、恐怖への訴え、政治的バイアス、反感の知覚といった主要なカテゴリーを一貫して支配している。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:54:43 GMT)
Code Researcher: Deep Research Agent for Large Systems Code and Commit History [6.1] LLM(Large Language Model)ベースのコーディングエージェントは、コーディングベンチマークにおいて有望な結果を示しているが、システムコードに対するその効果は未調査である。
Code Researcherと呼ばれるコードのための最初のディープリサーチエージェントを設計し、システムコードに報告されたクラッシュを緩和するためのパッチを生成する問題に適用する。
Code Researcherは、セマンティクス、パターン、そして十分なコンテキストを集めるためにコードのコミット履歴に関する多段階の推論を実行する。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:57:00 GMT)
AZT1D: A Real-World Dataset for Type 1 Diabetes [6.1] AZT1Dは、自動インスリンデリバリーシステム上で、タイプ1糖尿病(T1D)を持つ25人の個人から収集されたデータを含むデータセットである。
AZT1Dはリッチで博物学的なデータを提供することで、幅広い人工知能と機械学習アプリケーションをサポートする。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:54:53 GMT)
Controlling Participation in Federated Learning with Feedback [6.0] FedBackは、ADMMベースのフェデレーション学習におけるクライアントの参加を管理するための決定論的アプローチである。
フェデレーション画像分類に関する数値実験は、FedBackが最大50%の通信改善と計算効率を達成することを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:32:28 GMT)
LoFT: Low-Rank Adaptation That Behaves Like Full Fine-Tuning [6.0] フル微調整のように振る舞う新しいローランク適応法であるLoFTを紹介する。
LoFTはモデルの内部のダイナミクスを、すべてのモデルの重みを更新するものと整合させる。
実験的に、このアプローチはアダプタベースのチューニングとフル微調整の間のパフォーマンスギャップを著しく狭める。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:54:24 GMT)
RSCF: Relation-Semantics Consistent Filter for Entity Embedding of Knowledge Graph [5.9] 本稿では、3つの特徴を特徴とするより一貫したエンティティ変換を含むKGE法であるRelation-Semantics Consistent Filter (RSCF)を導入する。
距離ベースおよびテンソル分解モデルを用いた知識グラフ補完タスクでは、RSCFは最先端のKGE法よりも大幅に優れている。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:22:00 GMT)
Addressing Concept Mislabeling in Concept Bottleneck Models Through Preference Optimization [5.8] 概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、AIシステムの信頼性を高めるために、人間の理解可能な概念の集合に彼らの決定を拘束することを提案する。
CBMは通常、データセットには正確な概念ラベルが含まれていると仮定するが、これは実際にしばしば違反される仮定であり、性能を著しく低下させる可能性がある。
そこで本研究では,CBM 性能に対する誤ラベルの負の影響を効果的に軽減する,直接選好最適化に基づく新たな損失関数である概念選好最適化(Concept Preference Optimization, CPO)の目標を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:26:10 GMT)
MelodySim: Measuring Melody-aware Music Similarity for Plagiarism Detection [5.8] MelodySimはメロディを意識した音楽類似モデルであり、盗作検出のためのデータセットである。
既存のMIDIデータセットであるSlakh2100を拡大することにより、メロディを保存しながら各曲のバリエーションを生成する。
ユーザーによる調査では、正のペアは確かに類似の旋律を含んでいることが確認され、他の音楽トラックは大幅に変化した。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:14:03 GMT)
Frequency Composition for Compressed and Domain-Adaptive Neural Networks [5.8] CoDAは、圧縮とドメイン適応を統合する周波数合成ベースのフレームワークである。
CoDAは、CIFAR10-CやImageNet-Cなど、広く使われているドメインシフトベンチマークで評価されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:33:04 GMT)
A Flexible Job Shop Scheduling Problem Involving Reconfigurable Machine Tools Under Industry 5.0 [5.8] フレキシブルなジョブショップスケジューリング問題(FJSSP)は、現代の製造環境の複雑さを正確に反映している。
本稿では、設定依存のセットアップ時間を持つ再構成可能なマシンツールを含むFJSSPについて検討する。
混合整数プログラミング(MIP)モデルは、これらの目的を同時に最適化するために開発された。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:27:02 GMT)
Laparoscopic Image Desmoking Using the U-Net with New Loss Function and Integrated Differentiable Wiener Filter [5.7] 腹腔鏡下手術は、手術器具によって引き起こされた外科的煙の存在により、視力の低下に悩まされることが多い。
手術煙を除去するために,新しい損失関数と差別化可能なウィナーフィルタ (ULW) を用いた新しいU-Net深層学習法を提案する。
実験の結果,提案手法は視覚的明瞭度と距離に基づく評価の両面で優れていることがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:07:06 GMT)
Mixed-state geometric phases of coherent and squeezed spin states [5.7] スピンコヒーレント状態 (CSS) とスピン圧縮状態 (SSS) の2つの混合状態幾何位相 (Uhlmann phase) と干渉幾何学的位相 (IGP) を解析した。
j = 3/2$ CSS の場合、ウルマン位相は突然のジャンプによって特徴づけられる有限温度位相遷移を示す。
同じ状態のGPは温度が変化するにつれて不連続なジャンプを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:12:18 GMT)
Bencher: Simple and Reproducible Benchmarking for Black-Box Optimization [5.7] Bencherはブラックボックス最適化のためのモジュラーベンチマークフレームワークである。
各ベンチマークは、独自の仮想Python環境で分離され、統一されたバージョンに依存しないリモートプロシージャコール(RPC)インターフェースを介してアクセスされる。
BencherはローカルまたはリモートでDocker経由で、あるいはSingularity経由で高性能なコンピューティングクラスタにデプロイできる。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:18:58 GMT)
Non-identifiability distinguishes Neural Networks among Parametric Models [5.7] 個体群レベルでのパラメトリックモデルにおいて,フィードフォワードニューラルネットワークを識別する一対の結果を実証する。
この結果から, ニューラルネットワークの識別可能性の欠如は, スムーズなパラメトリックモデルのクラス間で区別できることが示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:31:37 GMT)
Quantum harmonic oscillator, index theorem and anomaly [5.7] 量子異常は有名なAtiyah-Singer(AS)指数定理と深く結びついている。
分割関数はユーシルド時空上での「フィラクラ層」のチャーン文字として解釈できることを示す。
また、この接続が自然に量子異常の出現につながることも示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:43:35 GMT)
How Do Transformers Learn Variable Binding in Symbolic Programs? [5.6] シンボリックプログラムにおいて、クエリされた変数を非参照するようにTransformerを訓練する。
このモデルでは、残余ストリームをアドレス可能なメモリ空間として活用することを学びました。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:39:20 GMT)
Regularized Personalization of Text-to-Image Diffusion Models without Distributional Drift [5.6] テキスト・ツー・イメージ拡散モデルを用いたパーソナライズには、事前訓練されたモデルを、少数の画像例だけで新規な被験者に適応させる必要がある。
フォーッティングは意図しない分布のドリフトを意味し、モデルの出力分布は、元の事前訓練されたモデルから逸脱する。
本稿では, 事前学習分布からの偏差を明示的に制限するリプシッツ境界定式化に基づく新たな学習目標を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:31:32 GMT)
Iterative Corpus Refinement for Materials Property Prediction Based on Scientific Texts [5.6] 本稿では、最も多様な文書を戦略的に選択し、Word2Vecモデルを訓練し、組込み空間における合成-プロパティ相関の収束をモニタリングすることにより、与えられた科学的コーパスを洗練する反復的フレームワークを提案する。
提案手法は, 酸素還元反応 (ORR) , 水素進化反応 (HER) および酸素進化反応 (OER) に関する高効率材料を, 多くの候補成分に対して予測するために適用した。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:20:58 GMT)
Semi-supervised Clustering Through Representation Learning of Large-scale EHR Data [5.6] SCOREは、患者埋め込みを通じて多領域の疾患プロファイルをキャプチャする半教師付き表現学習フレームワークである。
大規模データの計算課題に対処するため、ハイブリッド期待最大化(EM)とガウス変分近似(GVA)アルゴリズムを導入している。
分析の結果,ラベル付きデータの導入により精度が向上し,ラベル不足に対する感度が低下することがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:20:17 GMT)
Time-Series Learning for Proactive Fault Prediction in Distributed Systems with Deep Neural Structures [5.6] 本稿では,分散システムにおける障害予測と遅延応答の課題に対処する。
時間とともにシステム状態の進化をモデル化するために、Gated Recurrent Unitを使用します。
次に、注意機構を適用して、重要な時間セグメントを強化し、潜在的な欠陥を識別するモデルの能力を向上させる。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:31:12 GMT)
HeteroBA: A Structure-Manipulating Backdoor Attack on Heterogeneous Graphs [5.4] ヘテロジニアスグラフニューラルネットワーク(HGNN)は、リコメンデーション、ファイナンス、ソーシャルネットワークなどの領域における複雑なマルチリレーショナルデータをモデリングするために、近年注目を集めている。
異種グラフ上のノード分類タスクのための新しい異種バックドア攻撃フレームワークを提案する。
我々は,HGNNの潜在的な脆弱性に光を当て,マルチリレーショナルグラフのシナリオにおいて,バックドアの脅威に対するより堅牢な防御を求める。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:51:48 GMT)
Overcoming Spurious Solutions in Semi-Dual Neural Optimal Transport: A Smoothing Approach for Learning the Optimal Transport Plan [5.4] ニューラルネットワークでOTマップを学習する手段として広く使用されているセミデュアル・ニューラルOTは、ひとつのディストリビューションを正確に別のディストリビューションに転送できない突発的なソリューションを生成することが多い。
本稿では, OTマップと最適輸送計画の両方を学習し, 2つの分布間の最適結合を表現した新しい OTP を提案する。
実験の結果,OTPモデルは既存の手法が失敗する最適なトランスポートマップを復元し,画像と画像の変換タスクにおいて現在のOTベースモデルより優れていることがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:11:28 GMT)
A Representation Level Analysis of NMT Model Robustness to Grammatical Errors [5.3] 我々はモデル表現の観点からロバスト性を研究する。
その結果,エンコーダはまず文法的誤りを検知し,その表現を正しい形式に移動させることで修正することがわかった。
ロバストネスヘッドは文法的誤りに応答するときに解釈可能な言語単位に付随する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:10:30 GMT)
LIB-KD: Learning Inductive Bias, Not Just Parameters A New Perspective on Knowledge Distillations [5.3] ViT(Vision Transformers)は、視覚領域とテキスト領域にまたがる統一された情報処理の可能性を提供する。
補足型軽量教師モデルからの帰納バイアスを蒸留する,革新的なアンサンブル型蒸留手法を提案する。
提案するフレームワークでは,前もってロジットの事前計算と保存も行なっており,基本的にはモデルの非正規化予測である。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:41:03 GMT)
Multimodal Federated Learning: A Survey through the Lens of Different FL Paradigms [5.3] MFL(Multimodal Federated Learning)は、下流推論のパフォーマンスを改善し、分散トレーニングによって効率を高め、プライバシを保存することを目的としている。
MFLへの関心が高まっているが、現在では様々なフェデレートラーニング(FL)パラダイムのレンズを通してMFLを組織する包括的な分類は存在しない。
本稿では、水平FL(HFL)、垂直FL(VFL)、ハイブリッドFL(FL)の3つのパラダイムの文脈において、MFLを体系的に検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:47:20 GMT)
Tracing and Reversing Rank-One Model Edits [5.3] 本研究は,Ran-One Model Editing (ROME) 手法に着目し,知識編集のトレーサビリティと可逆性について考察する。
ROMEは, 編集重量行列に特徴的な分布パターンを導入し, 編集重量の探索に有効な信号として機能することを示す。
本稿では,編集プロンプトにアクセスすることなく,修正重みから直接編集対象エンティティを推定し,95%以上の精度を実現する方法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:27:01 GMT)
A Reinforcement-Learning-Enhanced LLM Framework for Automated A/B Testing in Personalized Marketing [5.3] 本稿では、LLMと組み合わせた強化学習戦略最適化を用いてA/Bテストの自動化とパーソナライズを行うRL-LLM-ABテストフレームワークを提案する。
このフレームワークは、事前訓練された命令チューニング言語モデルに基づいて構築され、候補コンテンツのA/Bバージョンを生成する。
RL-LLM-ABTestが既存のA/B試験法よりも優れていることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:31:07 GMT)
Adaptive Sample Sharing for Multi Agent Linear Bandits [5.2] 本稿では, エージェント間のデータ共有が後悔の最小化に与える影響について検討する。
本研究の主な成果は,帯域パラメータ推定のバイアスと不確実性の間のトレードオフを定式化することである。
エージェントのパラメータがクラスタ構造を表示すると、アルゴリズムがそれらを正確に復元することを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:31:21 GMT)
CellCLAT: Preserving Topology and Trimming Redundancy in Self-Supervised Cellular Contrastive Learning [5.2] 本稿では,情報冗長性を緩和しつつ,細胞複合体の制約に順応するように設計されたフレームワークを提案する。
CellCLATは、既存の自己教師付きグラフ学習手法よりも大幅に改善され、この分野における大きな試みとなっている。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:16:49 GMT)
A Stereotype Content Analysis on Color-related Social Bias in Large Vision Language Models [5.1] 本研究では,ステレオタイプコンテンツモデル(SCM)に基づく新しい評価指標を提案する。
また、性別、人種、色彩のステレオタイプを評価するためのベンチマークであるBASICを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:44:05 GMT)
SEPS: A Separability Measure for Robust Unlearning in LLMs [5.1] 機械学習は大規模言語モデル(LLM)から対象とする知識を選択的に除去することを目的としている
既存の未学習のメトリクスは、クエリが独立して現れることはめったにない、現実世界のシナリオをキャプチャできない。
我々は,クエリの忘れと保持の両方を統一的な学習目標に統合する戦略であるMixed Prompt(MP)アンラーニングを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:11:40 GMT)
R-TOFU: Unlearning in Large Reasoning Models [5.1] この設定に合わせた最初のベンチマークであるReasoning-TOFUを紹介します。
R-TOFUは、既存の未学習タスクを現実的なCoTアノテーションで強化する。
本稿では,コヒーレントで不確定な推論を保持する優先最適化変種であるReasoned IDKを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:37:47 GMT)
Where You Place the Norm Matters: From Prejudiced to Neutral Initializations [5.1] バッチ正規化(Batch Normalization)やレイヤ正規化(Layer Normalization)といった正規化レイヤは、現代のニューラルネットワークの中心的なコンポーネントである。
本研究では,隠れ層内の正規化の存在と配置が,学習開始前のネットワーク予測の統計的特性に与える影響について検討する。
我々の研究は、正規化が早期訓練行動にどのように影響するかを原則的に理解し、より制御され、解釈可能なネットワーク設計のためのガイダンスを提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:51:38 GMT)
Text2Stereo: Repurposing Stable Diffusion for Stereo Generation with Consistency Rewards [5.0] テキストプロンプトが与えられたステレオ画像を生成するための拡散に基づく新しい手法を提案する。
総合的な実験は、高品質なステレオ画像の生成における我々のアプローチの優位性を実証している。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:40:35 GMT)
Learning with Selectively Labeled Data from Multiple Decision-makers [5.0] 本研究は, 歴史的意思決定による全人口の分布が異なる可能性のある, 選択的ラベル付きデータを用いた分類問題について考察する。
多くのアプリケーションにおいて、歴史的決定は複数の意思決定者によって行われ、それぞれが異なる決定ルールを持つという事実を利用しています。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:49:44 GMT)
Towards Revealing the Effectiveness of Small-Scale Fine-tuning in R1-style Reinforcement Learning [5.0] R1スタイル強化学習(RL)は、大規模言語モデルの推論能力を大幅に向上させる。
小型SFTはRLに大きな影響を与えるが, 効率は低い。
本稿では,RL法に基づく小規模蒸留によるプレトレインモデルの微粒化手法であるRe-distillationを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:01:36 GMT)
Quantum reservoir computing in finite dimensions [4.9] 本稿では,デザインやアセスメントの問題に対処する上で,代替表現がより良い洞察を与えることを示す。
これらのベクトル表現は、古典的な貯水池計算の文献に以前に導入されていたステートアフィンシステムをもたらすことが示されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:27:16 GMT)
TrustSkin: A Fairness Pipeline for Trustworthy Facial Affect Analysis Across Skin Tone [4.8] 本研究は,広範に使用されている個別型調アングル(ITA)と,明度(L*$)とHue(H*$)に基づく知覚的根拠に基づく代替手段の2つの目的皮膚音分類法を比較した。
AffectNetとMobileNetをベースとしたモデルを用いて,各手法で定義したスキントーン群間の公平性を評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:31:08 GMT)
Retrospex: Language Agent Meets Offline Reinforcement Learning Critic [4.8] Retrospexは、過去の経験を深く分析するエージェントフレームワークである。
LLMの行動可能性と強化学習批判によって推定される行動値を組み合わせる。
我々は,ScienceWorld,ALFWorld,Webshop環境におけるRetrospexを評価した。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:30:17 GMT)
Leveraging LLM and Self-Supervised Training Models for Speech Recognition in Chinese Dialects: A Comparative Analysis [4.8] 自己教師付き事前教師付きトレーニングと大規模言語モデル(LLM)を組み合わせることで、低リソースシナリオにおけるASRのパフォーマンスを効果的に向上させることができる。
我々は、ラベル付き方言とアクセント付き音声データの30,000時間でData2vec2モデルを事前訓練し、教師付きデータセット上で4万時間アライメントトレーニングを行う。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:50:55 GMT)
Rethinking the Outlier Distribution in Large Language Models: An In-depth Study [4.7] 外乱は、しばしば相当量の量子化エラーを引き起こし、劣化したモデル性能をもたらす。
近年の研究では、大規模なアクティベーション(英語版)とチャネルワイド・アウトリーチ(英語版)という、大きな言語モデルにおける2つの一般的なアウトリーチが特定されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:48:40 GMT)
Clustering risk in Non-parametric Hidden Markov and I.I.D. Models [4.7] ベイズ分類器に基づくクラスタリングは最適なベイズクラスタリングと必ずしも一致しないことを示す。
重要な量が出現し、分類タスクとクラスタリングタスクの両方の根本的な難しさを捉えます。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:18:27 GMT)
What is Adversarial Training for Diffusion Models? [4.7] 拡散モデル(DM)に対する対戦訓練(AT)は,分類器と根本的に異なることを示す。
ATは拡散流の滑らかさを強制し、異常値と破損したデータを改善する方法である。
我々は,低次元および高次元空間における既知の分布を持つ概念実証データセットを用いて,我々のアプローチを厳密に評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:32:28 GMT)
Scrapers selectively respect robots.txt directives: evidence from a large-scale empirical study [4.7] 本機関の匿名Webログを用いて,ロボットによるWebスクレイパーコンプライアンスに関する大規模な研究を行った。
ボットはより厳格なロボット.txtディレクティブに従わない傾向にあり、AIサーチクローラーを含む特定のカテゴリのボットは、ロボット.txtを全くチェックしない。
これらの結果は、望ましくないスクラップを防ぐためにロボット.txtに頼ることは危険であり、代替アプローチの必要性を強調していることを示唆している。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:22:45 GMT)
LatentExplainer: Explaining Latent Representations in Deep Generative Models with Multimodal Large Language Models [4.7] textitLatentExplainerは、深層生成モデルにおける潜伏変数の意味論的意味のある説明を自動的に生成するフレームワークである。
我々のアプローチは潜伏変数を摂動させ、生成されたデータの変化を解釈し、マルチモーダルな大言語モデル(MLLM)を用いて人間の理解可能な説明を生成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:03:28 GMT)
Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges [4.7] 本稿では,Large Language Models (LLMs) とLarge Reasoning Models (LRMs) を3段階の推論複雑性で体系的に評価する。
モデルが直接、あるいはPython Code Interpreterによって応答する26の課題をキュレートします。
LRMは、様々な難易度を持つタスク間で堅牢なパフォーマンスを示し、しばしば従来の第一原理に基づく手法と競合する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:52:19 GMT)
Sampling Strategies for Efficient Training of Deep Learning Object Detection Algorithms [4.6] 深層学習物体検出モデルの学習効率を高めるために,2つのサンプリング手法を検討した。
第1の戦略は一様サンプリングであり、オブジェクトの動的状態空間を通じて一様だがランダムにサンプルを取得しようとするものである。
フレーム差分サンプリングの第2の戦略は、連続するフレーム間の時間的冗長性を調べるために開発されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:42:32 GMT)
Representative Language Generation [4.6] 表現生成」は、生成モデルにおける多様性とバイアスの懸念に対処するために拡張される。
ある種の条件下では、数え切れないほど無限の仮説クラスと群の集合の実現可能性を示す。
より多様で代表的な生成モデルを開発するための厳密な基盤を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:02:54 GMT)
Latent label distribution grid representation for modeling uncertainty [4.6] textbfLatent textbfDistribution textbfLearning (LDL) には、インスタンスのポリセミーを特徴づける有望な表現機能がある。
我々は低雑音表現空間を形成するためにtextbfLatent textbfDistribution textbfGrid (LLDG) を構築した。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:31:37 GMT)
Do you see what I see? An Ambiguous Optical Illusion Dataset exposing limitations of Explainable AI [4.6] 本稿では,視覚のあいまいさを喚起する視覚錯覚の新たなデータセットについて紹介する。
我々は、一般化可能な視覚概念、特に視線方向と眼の手がかりを、モデル精度に大きな影響を及ぼす微妙だが影響のある特徴として識別する。
本研究は,視覚学習における概念の重要性を浮き彫りにし,人間と機械の視界の偏りと整合を研究する基盤を提供するものである。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:22:59 GMT)
Robust Video-Based Pothole Detection and Area Estimation for Intelligent Vehicles with Depth Map and Kalman Smoothing [4.6] 道路の穴は安全と快適を運転する上で深刻な脅威となり、その検出と評価は自動運転などの分野において重要な課題となる。
既存の視覚ベースの手法の多くは幾何学的モデルを構築するために距離先に依存している。
これらの問題に対処するために,ビデオストリームにおける物体検出と単眼深度推定を統合した頑健なポットホール面積推定フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:32:45 GMT)
SANSA: Unleashing the Hidden Semantics in SAM2 for Few-Shot Segmentation [4.5] ほとんどショットのセグメンテーションは、未確認のオブジェクトカテゴリを、注釈付き例のほんの一握りの例から分割することを目的としている。
本稿では,SANSA (Semantically AligNed Segment Anything 2) を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:51:28 GMT)
Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts [4.5] 空間的推論を強化するための新しいMLLMである ViCA2 (Visuospatial Cognitive Assistant 2) を紹介する。
ViCA2は、セマンティクスのためのSigLIPと空間構造のためのHieraを統合したデュアルビジョンアーキテクチャと、効率のためのトークン比制御機構を備えている。
また,322,000以上の質問応答対を持つ大規模認知データセットであるViCA322Kを開発した。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:10:26 GMT)
Denoising Mutual Knowledge Distillation in Bi-Directional Multiple Instance Learning [4.4] 多重インスタンス学習はデジタル病理学における全スライド画像分類の主要な手法である。
我々は,MILと完全に教師された学習のギャップを,バッグレベルの学習プロセスとインスタンスレベルの学習プロセスの両方を増強することによって埋めることを提案する。
提案アルゴリズムは、バッグレベルの予測とインスタンスレベルの予測の両方において、デュアルレベルMILアルゴリズムの性能を改善する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:14:27 GMT)
Sparse R-CNN OBB: Ship Target Detection in SAR Images Based on Oriented Sparse Proposals [4.4] 本稿では,SAR(Synthetic Aperture Radar)画像中の指向性物体を検出するためのフレームワークであるSparse R-CNN OBBを提案する。
我々の知る限り、Sparse R-CNN OBBは、オブジェクト指向オブジェクトの検出にスパース学習可能な提案という概念を最初に採用しました。
RSDD-SARデータセット上でモデルをトレーニングし、最先端モデルと比較する。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:03:01 GMT)
Exploring the Latent Capacity of LLMs for One-Step Text Generation [4.3] 大きな言語モデル(LLM)は驚くほど長いテキストを再構築することができる。
凍結したLLMは1つのフォワードパスで数百の正確なトークンを生成することができることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:39:24 GMT)
Fairness in Federated Learning: Fairness for Whom? [4.3] 既存のアプローチでは、FLライフサイクル全体を通してどのように害が発生するかを見極めながら、狭いシステムレベルのメトリクスを最適化する傾向があります。
1) サーバクライアントアーキテクチャのレンズを通してのみフレーム化された公正性,2) シミュレーションとユースケースとコンテキストのモチベーションのミスマッチ,3) ユーザ保護でシステムを保護するための定義,4) 上流および下流効果でライフサイクルの孤立したステージをターゲットにした介入,5) 複数のフェアネス定義が一度に関連付けられるマルチステークホルダアライメントの欠如。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:41:19 GMT)
SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences [4.3] 本稿では,長いシーケンスにおける投機的復号化性能を向上させるドロップインエンハンスメントであるSpecExtendを紹介する。
SpecExtendは、FlashAttentionやHybrid Tree Attentionといった効率的な注意メカニズムをドラフトモデルとターゲットモデルの両方に統合する。
そこで我々は,新しいKVキャッシュ更新戦略であるCross-model Retrievalを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:30:00 GMT)
Towards Identifiability of Interventional Stochastic Differential Equations [4.2] 本結果より, 定常分布から得られたサンプルからSDEパラメータを一意に回収するための最初の証明可能なバウンダリが得られた。
合成データにおける真のパラメータの回復を実験的に検証し、理論的結果から動機付け、学習可能なアクティベーション関数を用いたパラメータ化の利点を実証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:55:15 GMT)
Scheduling with Uncertain Holding Costs and its Application to Content Moderation [4.2] ソーシャルメディアプラットフォームにおけるコンテンツモデレーションでは、コンテンツのレビューを遅らせるコストは、そのビューの軌跡に比例する。
ジョブ状態が状態依存の即時保持コストを持つマルコフ連鎖に基づいて進化する待ち行列モデルを考える。
我々は,各ジョブをマルコフスキーレンタル問題と見なすことで,不確実性が部分的に解決した場合の将来の求職機会に適応するインデックスベースのアルゴリズムを開発した。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:26:24 GMT)
Predicting and Understanding College Student Mental Health with Interpretable Machine Learning [4.1] パーソナライズされたmEntalヘルス予測のための最初の解釈可能な階層型mOdelであるI-HOPEを提案する。
I-HOPEは、相互作用ラベルとして定義された5つの行動カテゴリーを通して、生の行動特徴とメンタルヘルスの状態を結合する2段階の階層モデルである。
I-HOPEは,過去最長のモバイルセンシングデータセットであるCollege Experience Studyで評価する。このデータセットは5年間にわたって,パンデミック前と新型コロナウイルスパンデミック前の両方のデータをキャプチャする。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:30:18 GMT)
Explainability of Large Language Models using SMILE: Statistical Model-agnostic Interpretability with Local Explanations [4.1] GPT、LLAMA、Claudeといった大規模な言語モデルは、テキストを生成するのに驚くほど強力になっています。
しかし、彼らはまだブラックボックスなので、何を言うべきかをどう判断するかを理解するのは難しい。
SMILEは、これらのモデルがプロンプトの異なる部分にどのように反応するかを説明する新しい方法である。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:32:38 GMT)
RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts [4.1] 7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の専門家による71の8時間の試みのデータで構成されるRE-Benchを紹介します。
最高のAIエージェントは、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得る。
現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:32:23 GMT)
Online Voting using Point to MultiPoint Quantum Key Distribution via Passive Optical Networks [4.1] 本稿では、PONにおける時間分割多重化(TDM)と波長分割多重化(WDM)によるポイントツーマルチポイント量子鍵分布(QKD)を用いて、オンライン投票システムの安全性を向上させることを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:45:15 GMT)
SAIL: Self-supervised Albedo Estimation from Real Images with a Latent Diffusion Model [4.0] 内在的な画像分解は、イメージを根底にあるアルベドとシェーディングコンポーネントに分離することを目的としている。
本研究では,一視点実世界の画像からアルベド様の表現を推定する手法であるSAILを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:27:25 GMT)
Generalized and Personalized Federated Learning with Foundation Models via Orthogonal Transformations [4.0] Federated Learningは、集中的なデータ収集を必要とせずに、分散化されたクライアントやローカルデータを保持するデバイス間でモデルをトレーニングすることを目的としている。
我々は,ブラックボックス基盤モデルを活用した新しいアプローチであるFedOTを紹介する。
FedOTは、さまざまなクライアント間の勾配競合を緩和し、セマンティックな整合性を保持し、実質的なデータの存在下でも堅牢なパフォーマンスを達成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:22:47 GMT)
IDEA: Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and Abduction [4.0] 対話型環境下での大規模言語モデルのルール学習能力を評価するためにRULEARNを導入する。
誘導, 誘引, アブダクションのプロセスを統合する新しい推論フレームワークであるIDEAを提案する。
5つの代表的なLCMを含むIDEAフレームワークの評価は,ベースラインよりも大幅に改善されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:26:57 GMT)
Improving Generative Inverse Design of Rectangular Patch Antennas with Test Time Optimization [4.0] 矩形パッチアンテナの逆設計のための2段階のディープラーニングフレームワークを提案する。
提案手法は自然に異なる設計基準に一般化し,より複雑な幾何学的設計空間に容易に適用できる。
論文参考訳(メタデータ) (Tue, 27 May 2025 00:40:18 GMT)
Interpretable Credit Default Prediction with Ensemble Learning and SHAP [3.9] 本研究では、信用デフォルト予測の問題に焦点をあて、機械学習に基づくモデリングフレームワークを構築し、様々な主流分類アルゴリズムの比較実験を行う。
その結果、アンサンブル学習法は、特に特徴とデータ不均衡問題の間の複雑な非線形関係を扱う際に、予測性能に明らかな利点があることが示唆された。
外部クレジットスコア変数はモデル決定において主要な役割を担い、モデルの解釈可能性と実用的な応用価値を改善するのに役立ちます。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:23:22 GMT)
SELF-PERCEPT: Introspection Improves Large Language Models' Detection of Multi-Person Mental Manipulation in Conversations [3.9] 心的操作は、対人コミュニケーションにおける微妙だが広範にわたる虐待である。
我々は,マニピュティブインタラクションと非マニピュティブインタラクションのバランスの取れた220個のマルチターン・マルチパーソン対話を含むマルチマニップデータセットを提案する。
自己知覚理論に触発された新しい2段階プロンプトフレームワークSELF-PERCEPTを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:51:25 GMT)
MOLLM: Multi-Objective Large Language Model for Molecular Design -- Optimizing with Experts [3.9] 分子設計は、薬物発見、材料科学、化学工学といった分野の発展に重要な役割を果たしている。
分子設計のための多目的大規模言語モデル(MOLLM)は、ドメイン固有の知識と大規模言語モデルの適応性を組み合わせた新しいフレームワークである。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:36:24 GMT)
Universal Approximation of Mean-Field Models via Transformers [3.9] 本稿では, 相互作用粒子系の平均場ダイナミクスを近似するために, 変圧器を用いた場合について検討する。
このようなシステムは、意見形成、生物学的ネットワーク、および群ロボット工学を含む物理学、生物学、工学の現象をモデル化する上で基本的なものである。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:36:46 GMT)
Optimal Output Feedback Learning Control for Discrete-Time Linear Quadratic Regulation [3.9] 動的出力フィードバック学習制御を用いて,未知の離散時間系の線形2次制御問題について検討する。
状態フィードバックとは対照的に、LQR問題を解決するための動的出力フィードバック制御の最適性は、状態オブザーバの収束に関する暗黙の条件を必要とする。
本稿では、収束性、安定性、最適性性能を保証した一般化された動的出力フィードバック学習制御手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:59:22 GMT)
AmpleHate: Amplifying the Attention for Versatile Implicit Hate Detection [3.8] 暗黙のヘイトスピーチ検出は、明示的な攻撃的な言葉よりも文脈的解釈に微妙で依存しているため、難しい。
暗黙の憎しみ検出のための人間の推論を反映する新しいアプローチであるAmpleHateを提案する。
AmpleHateは最先端のパフォーマンスを達成し、平均82.14%の対照的な学習ベースラインを上回っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:18:31 GMT)
From Directions to Cones: Exploring Multidimensional Representations of Propositional Facts in LLMs [3.6] 大きな言語モデル(LLM)は強い会話能力を示すが、しばしば偽りを生成する。
我々は最近、拒絶をモデル化するために導入されたコンセプトコーンフレームワークを、真実の領域に拡張する。
複数のLLMファミリーにまたがる真理関連挙動を因果的に仲介する多次元コーンを同定する。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:14:54 GMT)
Robust Hypothesis Generation: LLM-Automated Language Bias for Inductive Logic Programming [3.6] 大規模言語モデル(LLM)とインダクティブ論理プログラミング(ILP)を組み合わせたマルチエージェントシステムを統合する新しいフレームワークを提案する。
我々のLLMエージェントは、構造化されたシンボル語彙(述語)と関係テンプレートを自律的に定義する。
多様な、挑戦的なシナリオの実験は、優れたパフォーマンスを検証し、自動化され、説明可能で、検証可能な仮説生成のための新しいパスを舗装する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:53:38 GMT)
Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs [3.6] 大規模言語モデル(LLM)は、各復号ステップにおける語彙上の確率分布から次のトークンをサンプリングしてテキストを生成する。
本稿では,トップトークンの確率をスケーリング係数として利用して,モデルの信頼度に基づいてサンプリングしきい値を調整する動的トランケーション手法であるmin-pサンプリングを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:15:03 GMT)
Multi-instance Learning as Downstream Task of Self-Supervised Learning-based Pre-trained Model [3.6] 病理画像では、ディープラーニングのマルチインスタンス学習者は、バッグの中に数十から数千のインスタンスがあると仮定する。
脳血腫CTではバッグのインスタンス数が256に増加すると、学習は非常に困難になる。
本稿では,マルチインスタンス学習者を対象とした自己教師型学習モデルを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:10:28 GMT)
Prostate Cancer Screening with Artificial Intelligence-Enhanced Micro-Ultrasound: A Comparative Study with Traditional Methods [3.6] マイクロ超音波(micro-US)は前立腺癌(csPCa)の診断精度に匹敵する新しい画像モダリティである
PSAとデジタル直腸検査(DRE)を用いて,マイクロUSの人工知能(AI)解釈が臨床スクリーニング法より優れているかを検討した。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:47:38 GMT)
Langevin SDEs have unique transient dynamics [3.6] 我々は、ランゲヴィン SDE のドリフトと拡散項が時間的辺分布から合同に同定可能であることを証明した。
この構造的識別可能性の完全な特徴づけは、拡散が漂流を識別するために知られている必要があるという長年の仮定を排除している。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:06:04 GMT)
Transformers in Protein: A Survey [3.4] トランスフォーマーモデルは、タンパク質研究にまたがる多様な課題に対処する前例のない可能性を示している。
本稿では, タンパク質構造予測, 機能予測, タンパク質-タンパク質相互作用解析, 機能アノテーション, 薬物発見・標的同定など, 重要な領域を体系的に検討する。
各研究領域について、その目的と背景を概説し、先行手法とその限界を批判的に評価し、トランスフォーマーモデルによって実現された変革的貢献を強調する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:44:08 GMT)
Predicting drug-gene relations via analogy tasks with word embeddings [3.4] BioConceptVecは、生物学に適した埋め込みの具体例である。
そこで本研究では,BioConceptVecの埋め込みには薬物遺伝子関連情報が含まれており,特定の薬物から標的遺伝子を予測することができることを示す。
また、過去の既知の関係から派生したベクトルが、データセットの未知の将来の関係を年々予測できることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:34:19 GMT)
An Innovative Data-Driven and Adaptive Reinforcement Learning Approach for Context-Aware Prescriptive Process Monitoring [3.4] 本稿では,Fun-Tuned Offline Reinforcement Learning Augmented Process Sequence Optimizationという新しいフレームワークを提案する。
FORLAPSは、状態依存型報酬形成機構によって強化された学習を活用して、ビジネスプロセスにおける最適な実行経路を特定することを目的としている。
また,FOLAPSは資源使用時間の31%削減,プロセス時間の23%削減を実現している。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:13:18 GMT)
Strong-coupling quantum thermodynamics using a superconducting flux qubit [3.4] 量子ビットのハイブリッド化状態と2つのキャビティを結合して観察することにより、強い結合を示す実験的な証拠を示す。
また、量子ビットに磁束を印加することにより、光子によって媒介される熱電流の約100%のオンオフ比を示す。
我々の実験は、真の量子熱エンジンと冷凍機を高効率で実現することを目的として、量子熱力学の新しい可能性を開く。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:34:28 GMT)
Occlusion Boundary and Depth: Mutual Enhancement via Multi-Task Learning [3.4] 排他的境界推定(Occlusion boundary Estimation)は、両方のオブジェクト間から生じる境界を特定する。
個々のオブジェクト内での閉塞と自己閉塞。
本稿では,まず深度とOBを共同で推定する新しいネットワークであるMoDOTを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:15:19 GMT)
Ratas framework: A comprehensive genai-based approach to rubric-based marking of real-world textual exams [3.4] RATAS(Rubric Automated Tree-based Answer Scoring)は、テキスト応答のルーリックベースのグレーディングに最先端の生成AIモデルを活用する新しいフレームワークである。
RATASは、幅広いグレーディングルーリックをサポートし、主観的評価を可能にし、割り当てられたスコアに対して構造化された説明可能な論理を生成するように設計されている。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:17:27 GMT)
Topology-Aware and Highly Generalizable Deep Reinforcement Learning for Efficient Retrieval in Multi-Deep Storage Systems [3.4] マルチディープ自動車両格納・検索システム (AVS/RS) は, より高容量な車載密度を実現するための実現可能なソリューションである。
この問題を緩和するための従来のアプローチでは、一車線に均質な特徴を持つアイテムを格納する必要があった。
異種アイテム構成を持つマルチディープストレージシステムにおける検索問題に対処する深層強化学習に基づくフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:07:38 GMT)
RL-SPH: Learning to Achieve Feasible Solutions for Integer Linear Programs [3.4] RL-SPHは、非二項整数に対しても独立に実現可能な解を生成できる、新しい強化学習ベーススタートプライマーである。
実験により、RL-SPHは、既存の原始よりも平均44倍低い原始ギャップと2.3倍低い原始積分を達成し、高品質な実現可能な解を迅速に得ることが示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:19:36 GMT)
Preparation and observation of anomalous counterpropagating edge states in a periodically driven optical Raman lattice [3.3] 2次元周期駆動光ラマン格子における異常な反伝播エッジ状態の作成と検出を行う。
結果は、AFVH相の将来の実験的探査と、その独自のエッジモードに関連するトポロジカル現象の理論的枠組みを確立する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:47:45 GMT)
CoBOS: Constraint-Based Online Scheduler for Human-Robot Collaboration [3.3] 本稿では,リアクティブ実行制御フレームワークを用いたオンライン制約ベースのスケジューリング手法を提案する。
これにより、ロボットは(人間によって)遅延した活動完了や活動選択などの不確実な事象に適応することができる。
作業条件の改善に加えて,本アルゴリズムは極めて不確実なシナリオにおいても,効率の向上につながる。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:46:45 GMT)
MoE-Gyro: Self-Supervised Over-Range Reconstruction and Denoising for MEMS Gyroscopes [3.3] MoE-Gyroは、オーバレンジ信号の再構築とノイズ抑圧を同時に行うために設計された、自己監督型のフレームワークである。
また,MoE-Gyroは測定範囲を450deg/sから1500deg/sに大きく拡張し,バイアス不安定度を98.4%低減し,最先端性能を実現した。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:18:26 GMT)
Reality Check: A New Evaluation Ecosystem Is Necessary to Understand AI's Real World Effects [3.2] 論文は、AIの間接的および二次的効果を測定するには、シリコで実施される静的な単一ターンアプローチを超えて拡張する必要がある、と論じている。
我々は、文脈認識を容易にし、下流の解釈とAIの二次効果に関する意思決定を可能にするデータと方法の必要性について説明する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:26:32 GMT)
Fog Intelligence for Network Anomaly Detection [3.2] 我々は、インテリジェントな無線ネットワーク管理を可能にする分散機械学習アーキテクチャであるフォグインテリジェンスを提案する。
提案したアーキテクチャはスケーラブルで、プライバシ保護が可能で、分散無線ネットワークのインテリジェントな管理に適している。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:35:07 GMT)
Continuous-Time Attention: PDE-Guided Mechanisms for Long-Sequence Transformers [3.2] 本研究では,変換器の注意機構に偏微分方程式(PDE)を注入する新しいフレームワークであるContinuous_Time Attentionを提案する。
PDE_based attention to improve optimization landscapes and enhances gradient flow。
本研究は, 連続時間力学と大域コヒーレンスによる注意機構の強化を目的としたPDE_ベース定式化の可能性を明らかにするものである。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:30:10 GMT)
RoBiS: Robust Binary Segmentation for High-Resolution Industrial Images [3.2] 現実シナリオにおける教師なし異常検出は重要な課題である。
現在の方法はMVTec AD 2ベンチマークで大幅に性能が低下している。
3つのコアモジュールからなる堅牢なフレームワークRoBiSを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:04:48 GMT)
Step-Wise Formal Verification for LLM-Based Mathematical Problem Solving [3.2] LLM(Large Language Models)は、数学的な問題を解く上で、強大な能力を示す。
本稿では,形式化と批判を含むMATH-VFフレームワークを提案する。
我々は,MATH500とProcessBenchという,広く利用されている数学ベンチマークの枠組みを評価した。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:21:07 GMT)
Breaking the Performance Ceiling in Complex Reinforcement Learning requires Inference Strategies [3.2] 複雑なマルチエージェントRL問題で観測される性能天井を壊すためには,実行時に使用される推論フェーズとそれに対応する推論戦略を選択することが重要である。
これまでの17のタスクに対して最大126%の改善を達成できます。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:19:06 GMT)
Toward Unified Practices in Trajectory Prediction Research on Bird's-Eye-View Datasets [3.1] 高品質なデータセットの可用性は、自動運転車の行動予測アルゴリズムの開発に不可欠である。
本稿では,動き予測研究における特定のデータセットの利用の標準化の必要性を強調した。
これを実現するためのツールとプラクティスのセットを提案します。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:30:32 GMT)
Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation [3.1] Auscultation(特に心臓の音)は、重要な重要なサイン情報を提供する非侵襲的なテクニックである。
近年,自己教師型音響表現基盤モデル (FM) が提案され,音響に基づくバイタルサインの洞察が得られた。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:36:25 GMT)
Fast meta-solvers for 3D complex-shape scatterers using neural operators trained on a non-scattering problem [3.1] 散乱法による3次元目標同定には高精度な解法と高速な計算が必要である。
我々はまず深層ニューラル演算子を訓練し,Helmholtz方程式で記述された散乱器のない領域における波動伝搬問題の解法を訓練する。
次に,DeepONet と Jacobi や Gauss-Seidel などの緩和法,あるいは GMRES や BiCGStab などの Krylov メソッドを併用することにより,高速メタソリューションの2つのクラスを設計する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:57:06 GMT)
What Data Enables Optimal Decisions? An Exact Characterization for Linear Optimization [3.1] 与えられた意思決定タスクを解決するために,データセットがどの程度情報的か,という根本的な問題について検討する。
コストベクトル上の不確実性セットを考えると、データセットが最適決定を回復するのに十分な場合の特徴付けを行う。
この結果から,比較的小さなデータセットで最適な判断を下すことが可能であることが判明した。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:28:22 GMT)
It's Not Just Labeling -- A Research on LLM Generated Feedback Interpretability and Image Labeling Sketch Features [3.1] 本研究では,大規模言語モデル(LLM)がサポートするスケッチベースのアノテーション手法を提案する。
合成データセットを用いて,スケッチ認識機能とフィードバック指標との関連性を検討する。
私たちの主な貢献は、非専門家のアノテーションを単純化するスケッチベースの仮想アシスタントです。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:53:28 GMT)
SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios [3.1] 骨格的人間行動認識(SHAR)は、多くのCVパイプラインにおいて、リアルタイムおよびエッジで動作する。
これはSkeletal Human Action Recognition (SHAR)によって実証されており、多くのCVパイプラインにおいてリアルタイムおよびエッジで運用されている。
従来検討されていなかった劣化形態が,モデル精度に大きな影響を与えることを示すことで,このベンチマークの必要性を実証する。
劣化したSHARデータにおけるフレームの時間的規則性は、モデル性能の違いの主要な要因である可能性が高い。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:11:07 GMT)
FastFace: Tuning Identity Preservation in Distilled Diffusion via Guidance and Attention [3.0] 蒸留により加速される拡散モデルに対するID適応器の学習自由化の課題に対処する。
我々は、アイデンティティの類似性と忠実性を改善するために、ユニバーサルなFastFaceフレームワークを提案する。
また,ID保存アダプタのための公開評価プロトコルも開発している。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:55:55 GMT)
Fast, Secure, Adaptable: LionsOS Design, Implementation and Performance [3.0] セキュリティと安全に重要な組み込みシステムのためのオペレーティングシステムであるLionsOSについて紹介する。
システムコール集約的なワークロードにおいて,LionsOSが優れたパフォーマンスを実現していることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:14:00 GMT)
It's complicated. The relationship of algorithmic fairness and non-discrimination regulations for high-risk systems in the EU AI Act [3.0] EUは最近、ハイリスクシステムの特定のルールを規定するAI法を成立させた。
本稿では、法的な非差別規則と機械学習に基づくアルゴリズムフェアネスの概念を橋渡しすることを目的とする。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:14:55 GMT)
Conditional Distribution Compression via the Kernel Conditional Mean Embedding [3.0] Kernel Herding (KH) のような既存の分散圧縮法は、元来、ラベルのないデータのために開発された。
本稿では,条件分布を比較するための自然な指標である平均条件平均離散性(AMCMD)を紹介する。
我々はKHのアイデアを拡張して,AMCMDを対象とする圧縮集合を構成する線形時間グリードアルゴリズムであるAverage Conditional Kernel Herding (ACKH)を開発した。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:22:18 GMT)
DRP: Distilled Reasoning Pruning with Skill-aware Step Decomposition for Efficient Large Reasoning Models [3.0] 推定時間とチューニングに基づく蒸留を組み合わせたハイブリッドフレームワークであるDistilled Reasoning Pruning(トレース)を提案する。
トレースでトレーニングされたモデルは、精度を犠牲にすることなく、トークン効率を大幅に改善することを発見した。
さらに分析した結果,CoTの推論構造と学生の推論能力の整合性は,効果的な知識伝達と性能向上に不可欠であることが示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:40:19 GMT)
Diffusion Model-based Activity Completion for AI Motion Capture from Videos [2.9] 現在のAIモーションキャプチャ法は、従来のモーションキャプチャと同様、観察されたビデオシーケンスに完全に依存している。
本稿では,人間の動作系列を相補的に生成する拡散モデルに基づく動作完了手法を提案する。
ゲートモジュールと位置時間埋め込みモジュールを導入することで,Human3.6Mデータセット上での競合的な結果が得られる。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:04:50 GMT)
Benchmarking performance, explainability, and evaluation strategies of vision-language models for surgery: Challenges and opportunities [2.9] 視覚言語モデル(VLM)は、大量の原画像テキストペアで訓練でき、高い適応性を示す。
様々な腹腔鏡的データセットにまたがるいくつかの人気のあるVLMのベンチマーク研究を行う。
その結果, 画像の非関連領域に着目しながら, 予測精度と視覚的グラウンドニングのミスマッチが明らかとなり, モデルが正しい予測を行う可能性が示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:19:43 GMT)
Communication- and Computation-Efficient Distributed Submodular Optimization in Robot Mesh Networks [2.9] ロボットメッシュネットワークにおける分散サブモジュール最適化のための通信効率と計算効率の両立手法を提案する。
我々の手法であるResource-Aware Distributed Greedy (RAG)は、新しい分散最適化パラダイムを導入する。
RAGの決定時間はネットワークサイズと線形にスケールするが、最先端の準モジュラ最適化アルゴリズムは3倍にスケールする。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:26:31 GMT)
Fedivertex: a Graph Dataset based on Decentralized Social Networks for Trustworthy Machine Learning [2.9] 我々はFediverseから7つのソーシャルネットワークをカバーする182グラフの新しいデータセットであるFedivertexを紹介した。
データセットをPythonパッケージとともにリリースし、その使用を容易にし、そのユーティリティをいくつかのタスクで説明します。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:26:50 GMT)
Reinforcement Learning for Quantum Control under Physical Constraints [2.9] 物理制約付き強化学習アルゴリズムを考案し,実現可能な解の空間を制限する。
提案手法を3つの量子システム上で評価し,実世界の複雑性を取り入れた。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:06:21 GMT)
Backdoors in DRL: Four Environments Focusing on In-distribution Triggers [2.9] 深部強化学習(DRL)のためのトロイの木馬の開発を行った。
エージェントの自然なデータ配信内で発生する分散トリガは、配布外トリガよりもセキュリティ上の重大な脅威を引き起こす。
4つの強化学習環境において,バックドア攻撃を実施している。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:01:34 GMT)
StreamLink: Large-Language-Model Driven Distributed Data Engineering System [2.8] 大言語モデル(LLM)は、自然言語理解(NLU)において顕著な熟練度を示した。
データエンジニアリングタスクの効率性とアクセシビリティを改善するために設計された,LLM駆動の分散データシステムであるStreamLinkを紹介する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:44:16 GMT)
How Soft Skills Shape First-Year Success in Higher Education [2.8] ソフトスキルは学術的、専門的な成功には不可欠だが、初期の技術カリキュラムでは無視されることが多い。
本稿では,学習能力と鍵となるソフトスキル・コミュニケーション,コラボレーション,プロジェクトマネジメントの育成を目的とした,セミソリケートな指導介入を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:32:51 GMT)
A Lightweight Multi-Expert Generative Language Model System for Engineering Information and Knowledge Extraction [2.8] Small Language Graph(SLG)は、上記の2つの重要な課題に対処するために設計された軽量適応ソリューションである。
SLGは、Exact Matchメトリックの従来の微調整手法を3倍に超えることができた。
また、グラフアーキテクチャと専門家ノードの小さなサイズは、分散AIシステムにとって可能な機会を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:31:24 GMT)
The Folly of AI for Age Verification [2.8] 近い将来、政府機関は企業が年齢検証にAIを使うことを許可するよう求められている。
もしそれを許せば、結果のシステムは容易に回避され、少数民族や低社会経済的地位のユーザーを不当に分類する。
これらのバイアスは、AIモデル自体と、それらが実行している物理ハードウェアの両方に技術的な制限があるためである。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:15:00 GMT)
Learning Individual Behavior in Agent-Based Models with Graph Diffusion Networks [2.7] エージェントベースモデル(ABM)は、複雑なシステムの創発的特性を研究するための強力なツールである。
生成したデータを観測することで,任意のABMの識別可能なサロゲートを学習するための新しいフレームワークを提案する。
本手法は,拡散モデルとグラフニューラルネットワークを組み合わせ,エージェントの相互作用をモデル化する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:55:56 GMT)
Momentum space entanglement of four fermion field theory [2.7] 4つのフェルミオン場理論のモーメント空間の絡み合いは、レプリカ・トリックを用いてウィルソン有効作用から計算される。
非局所項は異なる運動量モード間の絡み合いの唯一の源である。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:40:33 GMT)
Learning Where to Learn: Training Distribution Selection for Provable OOD Performance [2.7] アウト・オブ・ディストリビューション(OOD)の一般化は、マシンラーニングにおける根本的な課題である。
本稿では,平均 OOD 性能を最大化するトレーニングデータ分布の設計について検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:00:58 GMT)
ZooplanktonBench: A Geo-Aware Zooplankton Recognition and Classification Dataset from Marine Observations [2.7] プランクトン(英: Plankton)は、世界中の海中に存在する小さな漂流生物であり、海洋の健康の指標である。
このプランクトン群落の1つの構成要素は、ゼラチン質の動物や甲殻類を含む動物プランクトンである。
動物プランクトンの存在を正確に監視し、海洋環境に関する人口の変化を理解することは、海洋科学研究にとって貴重なことである。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:23:19 GMT)
GGBond: Growing Graph-Based AI-Agent Society for Socially-Aware Recommender Simulation [2.7] 本研究では,ユーザの行動変化を現実的にシミュレートする高忠実な社会シミュレーションプラットフォームを提案する。
このシステムは、重要な心理的メカニズムをカプセル化した5層認知アーキテクチャを備えたSim-User Agentsの集団で構成されている。
特に、心理学的・社会学的理論に基づく近親感-好奇心-相反性--リスク(ICR2)のモチベーションエンジンについて紹介する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:09:21 GMT)
System Prompt Extraction Attacks and Defenses in Large Language Models [2.7] 大規模言語モデル(LLM)におけるシステムプロンプトは、モデルの振る舞いと応答生成を導く上で重要な役割を果たす。
近年の研究では、LLMシステムプロンプトは、厳密に設計されたクエリによる攻撃の抽出に非常に敏感であることが示されている。
脅威が増大しているにもかかわらず、システムによる攻撃と防御の促進に関する体系的な研究が欠如している。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:36:27 GMT)
Minimizing False-Positive Attributions in Explanations of Non-Linear Models [2.6] Suppressor変数は、対象とする結果に依存することなく、モデル予測に影響を与える可能性がある。
このギャップに対処する新しいXAI技術であるPatternLocalを紹介します。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:24:58 GMT)
Empirical analysis of binding precedent efficiency in Brazilian Supreme Court via case classification [2.6] 5つの拘束前例,11,14,17,26,37の法的影響を最高裁判所レベルで実証的に評価した。
本研究では, 前例のそれぞれに異なる組み合わせで見いだされる5つの主要な仮説を同定する。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:21:15 GMT)
Simple yet Effective Graph Distillation via Clustering [2.6] グラフデータ蒸留(GDD)は、大きなグラフをコンパクトで情報的なものに蒸留しようとするものである。
ClustGDDは、高速で理論的なクラスタリングを通じて、凝縮グラフとノード属性を合成する。
ClustGDDは、ノード分類の観点から、最先端のGDDメソッドよりも優れた、あるいは同等のパフォーマンスを一貫して達成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:13:10 GMT)
DreamBoothDPO: Improving Personalized Generation using Direct Preference Optimization [2.5] 概念の忠実さとコンテキストアライメントのバランスは 難しい問題です
本稿では,この問題に対処するために,T2Iモデルの多種多様な出力を利用するRLベースのアプローチを提案する。
提案手法は,DPOライクなトレーニングのための合成ペアデータセットを生成することにより,人手によるスコアの必要性を解消する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:07:50 GMT)
STEB: In Search of the Best Evaluation Approach for Synthetic Time Series [2.5] 合成時系列評価ベンチマーク(STEB)を提案する。
STEBは信頼性とスコアの整合性を測定するための指標を計算する。
実行時間、テストエラーを追跡し、シーケンシャルかつ並列な操作モードを特徴とする。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:15:35 GMT)
CTBENCH: A Library and Benchmark for Certified Training [2.5] 認定トレーニングのための高品質なベンチマークであるCTBenchを紹介する。
我々は,CTBenchのほぼ全てのアルゴリズムが,文学における報告された性能を上回ることを示す。
認定トレーニングの現状に関する新たな洞察を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:08:35 GMT)
A data augmentation strategy for deep neural networks with application to epidemic modelling [2.5] 本稿では,最近導入されたSusceptible-Infected-Recovered型モデルに対する,データ駆動型手法とディープニューラルネットワークの適用例を示す。
この結果から,データ駆動モデルに適したロバストなデータ拡張戦略により,フィードフォワードニューラルネットワークとオートレグレッシブネットワークの信頼性が向上することが示唆された。
このアプローチは非線形力学を扱う能力を高め、流行予測のためのスケーラブルでデータ駆動型ソリューションを提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:02:35 GMT)
A Universal Flexible Neuromorphic Tactile System with Multithreshold Strategy [2.4] 完全フレキシブルなニューロモルフィック認識システムについて,高い互換性とマルチスレッド信号処理戦略を報告した。
従来のシステムと比較すると,同一の認識タスクにおいて,システムの消費電力は約1桁減少する。
本システムでは,異なる入力信号の傾向を正確に出力することができ,シンボルパターンの90%,モース符号の90%の認識精度を有する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:45:48 GMT)
A General-Purpose Theorem for High-Probability Bounds of Stochastic Approximation with Polyak Averaging [2.4] Polyak-Rt平均化は近似アルゴリズムの最適分散を実現するために広く用いられている手法である。
平均的なSA反復の誤差に対する非漸近濃度境界を確立するための一般的な枠組みを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:58:35 GMT)
EventEgoHands: Event-based Egocentric 3D Hand Mesh Reconstruction [2.4] 3Dハンドメッシュの再構築は難しいが、人間とコンピュータのインタラクションとAR/VRアプリケーションにとって重要な課題である。
本研究では,イベントベースの手メッシュ再構築手法であるEventEgoHandsを提案する。
本手法では,ハンド領域を抽出し,動的バックグラウンドイベントの影響を効果的に緩和するハンドモジュールを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:27:48 GMT)
Aligning LLMs by Predicting Preferences from User Writing Samples [2.4] 本稿では,ユーザ記述サンプルから推定される好み記述の精度を高める手法であるPROSEを紹介する。
ProSEはより正確に人間の嗜好を推測し,CIPHERよりも33%向上した。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:20:20 GMT)
Rotational stability in nanorotor and spin contrast in one-loop interferometry in the Stern-Gerlach setup [2.4] 本稿では, スピン埋め込みナノ回転子のためのナノ粒子回転動力学について述べる。
すべてのオイラー角の量子進化が干渉によるスピンコヒーレンス損失をもたらすかを研究する。
特に、磁場の方向に沿って回転を与えることにより、ナノロータのリブレーションモードを安定化できることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:28:08 GMT)
Articulatory strategy in vowel production as a basis for speaker discrimination [2.3] 母音生成における調音戦略は、話者識別の基礎を形成するのに十分な話者固有性を持つ。
イングランド北西部の40人の英語話者の舌形データの解析
論文参考訳(メタデータ) (Tue, 27 May 2025 10:29:05 GMT)
Task-Optimized Convolutional Recurrent Networks Align with Tactile Processing in the Rodent Brain [2.3] 触覚は神経科学では理解されておらず、視覚や言語に比べて人工システムでは効果が低い。
本稿では,現実的な触覚入力シーケンスに基づいてトレーニングされたタスク最適化時間ニューラルネットワークの空間を探索する新しいAttender-Decoder(EAD)フレームワークを提案する。
我々は,畳み込みリカレントニューラルネットワーク(ConvRNN)を,触覚分類のための純粋に前向きおよび状態空間アーキテクチャに優れたエンコーダとして同定する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:47:07 GMT)
Polynomial Chaos Expanded Gaussian Process [2.3] 複雑で未知のプロセスでは、大域モデルは最初実験空間全体にわたって生成されるが、しばしば局所的に正確な予測が得られない。
一般的なアプローチは、実験空間と複数のモデルのトレーニングを必要とするローカルモデルを使用することで、かなりの複雑さを増す。
本研究では,グローバルな実験空間とローカルな実験空間の両方を効果的に表現するモデルの必要性に対処する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:30:14 GMT)
Deep k-grouping: An Unsupervised Learning Framework for Combinatorial Optimization on Graphs and Hypergraphs [2.2] 既存の教師なしニューラルネットワークソルバは、$k$-groupingの問題を解決するのに苦労している。
本研究では,教師なし学習ベースのフレームワークであるDeep $k$-groupingを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:04:54 GMT)
BIPNN: Learning to Solve Binary Integer Programming via Hypergraph Neural Networks [2.2] ハイパーグラフニューラルネットワークを用いた非線形BIP問題の解法として,教師なし学習フレームワークであるBIPNNを提案する。
具体的には、BIPNNは、BIPs制約付き、離散的で、拡張可能な問題を、制約のない、異なる損失関数に再構成する。
このパイプラインにより、BIPNNは直線勾配降下によりBIPの大規模非線形項を完全に並列に最適化できる。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:31:52 GMT)
A Cross Modal Knowledge Distillation & Data Augmentation Recipe for Improving Transcriptomics Representations through Morphological Features [2.2] 本稿では,顕微鏡画像から知識を抽出し,転写学を強化する枠組みを提案する。
本手法は,弱対データを用いてモダリティを調整・結合し,遺伝子発現表現と形態情報とを融合させる。
これらの戦略は予測力を向上し、転写学の解釈可能性を維持し、複雑な生物学的タスクに対する豊富な単項表現を可能にする。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:15:34 GMT)
STEM-POM: Evaluating Language Models Math-Symbol Reasoning in Document Parsing [2.2] STEM-PoM(STEM-PoM)は,大規模言語モデルの数学記号に対する推論能力を評価するためのベンチマークデータセットである。
データセットには変数、定数、演算子、および単位記述子の主属性に分類される2K以上の数学記号が含まれている。
実験の結果,テキスト内学習では20~60%,微調整では50~60%の精度が得られた。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:30:26 GMT)
Calibrating LLM Confidence by Probing Perturbed Representation Stability [2.2] LLM(Large Language Models)におけるミススキャリブレーションは信頼性を損なうものであり、正確な信頼度推定の必要性を強調している。
LLMの内部表現安定性を解析する新しい手法であるCCPSを紹介する。
CCPSは予測エラーを約55%削減し,Brier-Proベンチマークを21%削減し,精度を5ポイント向上した。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:14:04 GMT)
Unsupervised Latent Pattern Analysis for Estimating Type 2 Diabetes Risk in Undiagnosed Populations [2.2] 米国だけでも、診断された糖尿病の経済的負担は2022年に400億ドルを超えた。
本稿では,非負行列因子化(NMF)を統計的手法と統合し,T2DMを開発するリスクのある個人を特定する新しい非教師なしフレームワークを提案する。
本手法は,診断されたT2DM患者において,多型性および多剤耐性の潜伏パターンを同定し,このパターンを用いて未診断者のT2DMリスクを推定する。
論文参考訳(メタデータ) (Tue, 27 May 2025 23:22:39 GMT)
Events and their Localisation are Relative to a Lab [2.2] 本稿では,量子情報からイベントとその局所性を定義するための操作的アプローチを提案する。
これを用いて量子スイッチ(QS)の解析を行う。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:05:59 GMT)
Double Descent Meets Out-of-Distribution Detection: Theoretical Insights and Empirical Analysis on the role of model complexity [2.2] 機械学習システムの信頼性と安全性を確保するためには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。
本稿では,モデルのトレーニング手順や目的を変更することなくOODサンプルを識別できるポストホックなOOD検出に焦点をあてる。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:44:58 GMT)
Leveraging XP and CRISP-DM for Agile Data Science Projects [2.2] 本研究では、アジャイルデータサイエンスプロジェクトにおけるeXtreme Programming(XP)とCRISP-DM(Cross-Industry Standard Process for Data Mining)の統合について検討する。
データサイエンスプロジェクトにおいて、XPメソッドの俊敏性はCRISP-DMとどのように統合できるのか?
論文参考訳(メタデータ) (Tue, 27 May 2025 17:16:31 GMT)
Fast Lifelong Adaptive Inverse Reinforcement Learning from Demonstrations [2.2] 我々は,新しいLfDフレームワークであるFast Lifelong Adaptive Inverse Reinforcement Learning (FLAIR)を提案する。
FLAIRが適応性(ロボットが不均一でユーザ固有のタスク嗜好に適応する)、効率(ロボットがサンプル効率のよい適応を達成する)、スケーラビリティを実証的に検証する。
FLAIRは3つのコントロールタスクでベンチマークを上回り、ポリシーリターンが平均57%改善し、デモモデリングに必要なエピソードが平均78%減少した。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:49:32 GMT)
Cardiac Digital Twins at Scale from MRI: Open Tools and Representative Models from ~55000 UK Biobank Participants [2.2] 心臓デジタル双生児は、心臓血管疾患のスクリーニング、診断、予後、リスクアセスメント、治療計画のための患者の心臓の仮想レプリカである。
大規模な心臓デジタル双生児の生成は要求されており、人口統計群全体にわたるモデルの公開リポジトリは存在しない。
心臓血管磁気共鳴画像から患者固有の左室メッシュと右室メッシュを作成するための,オープンソースの自動パイプラインについて述べる。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:52:52 GMT)
Supervised Contrastive Learning for Ordinal Engagement Measurement [2.2] 学生のエンゲージメントは、教育プログラムの納入を成功させる上で重要な役割を担っている。
本稿では、クラス不均衡とエンゲージメントレベルへの秩序導入という、この問題における2つの重要な課題を明らかにする。
仮想学習環境におけるビデオベースの学生エンゲージメント測定への新しいアプローチを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:49:45 GMT)
Def-DTS: Deductive Reasoning for Open-domain Dialogue Topic Segmentation [2.2] 本稿では,オープンドメイン対話トピックのためのDef-DTS:deductive Reasoningを提案する。
提案手法は,双方向コンテキスト要約,発話意図分類,帰納的トピックシフト検出のための構造化されたプロンプト手法を用いる。
様々な対話設定の実験では、Def-DTSは従来と最先端のアプローチを一貫して上回っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:07:53 GMT)
GeLLMO: Generalizing Large Language Models for Multi-property Molecule Optimization [2.2] 大規模言語モデル(LLM)は、新しいタスクに対するドメイン外の顕著な一般化性を示す。
複雑なマルチプロパタイト分子最適化タスクに特化した,最初の高品質な命令チューニングデータセットである MuMOInstruct を紹介する。
分子最適化のための命令調整型LCMであるGeLLMOsを開発した。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:37:58 GMT)
ZigzagPointMamba: Spatial-Semantic Mamba for Point Cloud Understanding [2.1] PointMambaのような状態空間モデル(SSM)は、ポイントクラウドの自己教師型学習のための効率的な特徴抽出を可能にする。
既存のPointMambaベースの手法は、複雑なトークン順序付けとランダムマスキングに依存している。
これらの課題に対処するためにZigzagPointMambaを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:09:50 GMT)
Outlier-Robust Linear System Identification Under Heavy-tailed Noise [2.1] 線形時間不変系の状態遷移行列を推定する問題を考察する。
我々は、複数の弱集中型推定器の構築に依存する、新しいロバストなシステム同定アルゴリズムを開発した。
提案手法は, 敵が収集したトラジェクトリデータのごく一部を任意に破壊できるシナリオを考慮し, 容易に拡張可能であることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:33:04 GMT)
On computational complexity of unitary and state design properties [2.1] 計算複雑性の観点から、ユニタリおよび状態 $t$-designs について検討する。
フレームポテンシャルを計算するための量子アルゴリズムを提案する。
我々は、この問題が$textsfPP$-hardであることを示し、ユニタリおよび状態設計の特性を決定するのに固有の計算困難さを強調した。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:53:39 GMT)
Sentiment Reasoning for Healthcare [2.0] 音声とテキストの両方のモダリティに対して、新しいタスク、Sentiment Reasoningを導入する。
感性推論は感情分析における補助的タスクであり、モデルが感情ラベルの両方を予測し、入力の書き起こしに基づいてその背景にある理性を生成する。
本研究は,人文文字と自動音声認識(ASR)文字の双方について検討した。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:08:34 GMT)
SCIRGC: Multi-Granularity Citation Recommendation and Citation Sentence Preference Alignment [2.0] 本稿では,引用記事を自動的に推薦し,引用箇所の引用文を生成するSciRGCフレームワークを提案する。
この枠組みは,(1)著者の引用意図を正確に識別し,関連する引用論文を見つける方法,(2)人間の嗜好に沿った高品質な引用文を生成する方法の2つの重要な課題に対処する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:05:49 GMT)
Stability Selection via Variable Decorrelation [2.0] ラッソは変数選択のための顕著なアルゴリズムである。
これまでの研究では、ラッソ損失関数を変更してこの問題に対処しようと試みてきた。
本稿では,ラッソ法の適用前の変数の非相関性により,予測器間の相関の方向に関わらず,変数選択の安定性が向上することを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:15:15 GMT)
System-driven Cloud Architecture Design Support with Structured State Management and Guided Decision Assistance [2.0] システム駆動型クラウドアーキテクチャ設計アプリケーションであるCloudArchitectBuddyを紹介します。
16名の業界実践者を対象に行った調査では,ユーザビリティ向上のために,システムの評価が高かった。
結果は、チャットインターフェースを構造化され、ガイドされたワークフローアプローチに統合することで、より実用的なソリューションが生まれることを示唆している。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:12:37 GMT)
Improved Impossible Tuning and Lipschitz-Adaptive Universal Online Learning with Gradient Variations [2.0] オンライン学習における中心的な目標は、未知の問題の特徴への適応性を達成することである。
本稿では,大規模学習率を用いた予備的な初期ラウンドによる新しい楽観的オンラインミラー降下アルゴリズムを提案する。
我々は、標準仮定の下で最先端のGV境界とLAを同時に達成する最初のUOLアルゴリズムを開発した。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:22:21 GMT)
Enhancing Time Series Forecasting via a Parallel Hybridization of ARIMA and Polynomial Classifiers [2.0] 本稿では,ARIMAモデルと分類器を統合するハイブリッド予測手法を提案する。
提案したハイブリッドモデルは,実行時間の増加とともに予測精度が向上するにもかかわらず,個々のモデルよりも一貫して性能が向上する。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:16:32 GMT)
Racism, Resistance, and Reddit: How Popular Culture Sparks Online Reckonings [2.0] この研究は、Redditユーザーがラブクラフト・カントリーとウォッチメンの人種的物語にどのように関わったかを調べる。
3つの動的な社会的役割、敵対者、適応者を特定します。
Redditの匿名能力がいかに流動性、意見のリーダーシップ、道徳的エンゲージメントを形作るかが明らかになった。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:49:17 GMT)
Geometric Feature Prompting of Image Segmentation Models [2.0] セグメンテーション・アズ・モデル(SAM)は、自然画像のセグメンテーションのための非常に有能な基礎モデルである。
本稿では、幾何学的に動機づけたプロンプトジェネレータを用いて、特定の特徴を持つプロンプトポイントを生成することを提案する。
画像解析の課題は、リゾトロンまたはミニリゾトロン画像における植物の根のセグメンテーションである。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:19:53 GMT)
Layers at Similar Depths Generate Similar Activations Across LLM Architectures [1.9] 我々は24個のオープンウェイトLDMの異なる層での活性化によって誘導される近接関係について検討した。
1)モデル内のレイヤによって異なる傾向があり、2)モデルの対応するレイヤ間でほぼ共有されていることが分かりました。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:30:34 GMT)
Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation [1.9] 本稿では,SCT(Spectral Compression Transformer)を導入し,シーケンス長を削減し,計算を高速化する。
LPGは、入力された2D関節位置を補完する骨格位置情報を生成する。
本モデルでは,計算効率を向上し,最先端の性能を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:08:03 GMT)
ResKoopNet: Learning Koopman Representations for Complex Dynamics with Spectral Residuals [1.9] 高次元力学系のスペクトル成分を近似する方法は理論上の限界に直面していることが多い。
本稿では,コオプマン固有ペアを計算するために,スペクトル残差を明示的に最小化するResKoopNetを紹介する。
様々な物理的および生物学的システムの実験により、ResKoopNetは既存の方法よりも正確なスペクトル近似を達成している。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:24:52 GMT)
Why do Machine Learning Notebooks Crash? An Empirical Study on Public Python Jupyter Notebooks [1.8] GitHubとKaggleから92,542件のクラッシュを含む64,031件のノートを収集しています。
クラッシュタイプや根本原因など,さまざまな側面にわたる746件のクラッシュのサンプルを分析した。
クラッシュの40%以上は、APIの誤用とノートブック特有の問題によるものです。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:42:09 GMT)
VeriTrail: Closed-Domain Hallucination Detection with Traceability [1.8] MGSプロセスとSGSプロセスの両方にトレーサビリティを提供するために設計された最初の閉領域幻覚検出法を提案する。
また、全ての中間出力と、各MGSプロセスに対する最終的な出力の忠実度に関する人間のアノテーションを含む最初のデータセットについても紹介する。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:36:56 GMT)
Interpreting Social Bias in LVLMs via Information Flow Analysis and Multi-Round Dialogue Evaluation [1.8] 大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な進歩を遂げているが、社会的偏見も顕著である。
本稿では,情報フロー解析と多ラウンド対話評価を組み合わせた説明フレームワークを提案する。
実験により、LVLMは異なる人口集団の画像を処理する際に、情報利用の体系的な差異を示すことが明らかとなった。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:28:44 GMT)
JaxRobotarium: Training and Deploying Multi-Robot Policies in 10 Minutes [1.8] マルチエージェント強化学習(MARL)は,マルチロボットシステムにおける複雑でスケーラブルな協調動作を学習するための,有望なソリューションである。
私たちは、Robotarium用のJaxベースのエンドツーエンドシミュレーション、学習、デプロイメント、ベンチマークプラットフォームであるJaxRobotariumにコントリビュートしています。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:07:54 GMT)
A False Discovery Rate Control Method Using a Fully Connected Hidden Markov Random Field for Neuroimaging Data [1.8] ボクセルワイド多重テストのための,強力で安定かつスケーラブルな空間FDR制御法であるfcHMRF-LISを提案する。
fcHMRF-LISは、FDRの正確な制御、FNRの低下、FDPおよびFNPの変動率の低下、既存手法と比較して真正値の増大を実現している。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:59:02 GMT)
"Oh LLM, I'm Asking Thee, Please Give Me a Decision Tree": Zero-Shot Decision Tree Induction and Embedding with Large Language Models [1.7] 大規模言語モデル(LLM)は、データ制限時に予測モデリングに事前知識を活用する強力な手段を提供する。
本研究では,LLMが圧縮された世界知識を用いて,本質的に解釈可能な機械学習モデルを生成する方法を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:01:46 GMT)
Thinking beyond the anthropomorphic paradigm benefits LLM research [1.7] 人相同性(人相同性、英: Anthropomorphism)は、技術的に高度な専門知識を持つ人でも起こる自動的かつ無意識的な反応である。
人類型用語学に反映される深い仮定に挑戦する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:24:38 GMT)
Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration [1.7] 大規模視覚言語モデル(LVLM)はマルチモーダルタスクにおいて印象的な性能を発揮するが、幻覚に悩まされることが多い。
この課題に対処するために、信頼を意識する注意フレームワークを紹介します。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:45:21 GMT)
Broad Spectrum Structure Discovery in Large-Scale Higher-Order Networks [1.7] 本稿では,大規模ハイパーグラフにおいて,メソスケールの広いスペクトルを効率的に表現し,発見する確率モデルについて紹介する。
低ランク表現を用いたクラス間の潜時相互作用による観測ノードの相互作用をモデル化することにより、我々はリッチな構造パターンを抽出する。
提案モデルは,最先端手法によるリンク予測を改善し,多様な実世界のシステムにおける解釈可能な構造を発見する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:34:58 GMT)
AI-Supported Platform for System Monitoring and Decision-Making in Nuclear Waste Management with Large Language Models [1.7] 本稿では,大規模言語モデル(LLM)と文書検索機構を統合したマルチエージェント検索・拡張生成(RAG)システムを提案する。
このシステムは、規制決定が事実上基礎を保ち、進化する規制フレームワークに動的に適応することを保証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:29:53 GMT)
Exploring Out-of-distribution Detection for Sparse-view Computed Tomography with Diffusion Models [1.7] 本研究は,CT再構成における目標分布を非分布として捉えるために訓練された拡散モデルの使用について検討する。
このモデルを用いて, 部分拡散画像の再構成を行い, 複数の再構成誤差によるOOD評価を行う。
以上の結果から,OOD検出の有効性は,前向きの再建法と比較することで達成できることが示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:46:38 GMT)
UOD: Unseen Object Detection in 3D Point Cloud [1.6] 未確認物体に対する3D検出とOF-Distribution(OOD)分類の性能を向上させる手法を提案する。
提案手法は, 異常サンプル増強, 普遍的対象の学習, 未確認物体の検出の学習, 未確認物体の識別の学習を含む。
提案手法は,既存のすべての手法にまたがる大きなマージンで連続的に性能を向上する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:04:11 GMT)
FireQ: Fast INT4-FP8 Kernel and RoPE-aware Quantization for LLM Inference Acceleration [1.6] FireQはPTQフレームワークとINT4-FP8行列乗算カーネルである。
FireQは、線形層重みとキー値をINT4に、アクティベーションとクエリをFP8に量子化する。
プリフィル相の3段配管は、プリフィル相における第1トーケンを減少させる。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:58:35 GMT)
STA-Risk: A Deep Dive of Spatio-Temporal Asymmetries for Breast Cancer Risk Prediction [1.6] STA-Risk は乳がんリスク予測のための両側および縦アシンメトリーからの微細なマンモグラフィー画像の進化を同時に捉えている。
2つの独立したマンモグラフィーデータセットを用いて広範な実験を行い、1~5年間のリスク予測のために4つの代表的なSOTAモデルよりも優れた性能を示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:38:23 GMT)
Guide your favorite protein sequence generative model [1.6] 本稿では,タンパク質生成モデル構築のための原理的,汎用的な方法であるProteinGuideについて述べる。
本稿では,2つのタンパク質生成モデルであるProteinMPNNとESM3を誘導し,アミノ酸および構造トークン配列を生成することにより,ProteinGuideの適用性を示す。
また,逆折り畳みモデルを用いたProteinGuideと,アデニン塩基配列を高活性に設計する実験を行った。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:43:30 GMT)
E2E Process Automation Leveraging Generative AI and IDP-Based Automation Agent: A Case Study on Corporate Expense Processing [1.6] 本稿では,現代デジタルトランスフォーメーションにおけるインテリジェントな作業自動化手法を提案する。
生成AIとインテリジェントドキュメント処理技術とオートメーションエージェントを統合し、企業の財政的経費処理タスクのエンドツーエンド(E2E)自動化を実現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:21:08 GMT)
LLM-Driven E-Commerce Marketing Content Optimization: Balancing Creativity and Conversion [1.6] 本稿では,プロンプトエンジニアリング,多目的微調整,後処理を統合し,エンゲージメントとコンバージョン駆動の両方のマーケティングコピーを生成するフレームワークを提案する。
コンテントノベルティを維持しつつ,CTRの12.5%増加とCVRの8.3%増加を実現している。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:40:11 GMT)
Dissecting the Ullman Variations with a SCALPEL: Why do LLMs fail at Trivial Alterations to the False Belief Task? [1.5] SCALPEL -- LLMが失敗する理由に関するさまざまな仮説をテストするために、刺激を段階的に修正するテクニックを導入します。
以上の結果から,LLMは本質的な常識推論を行なわなかったため,よくうまくいかないことが示唆された。
現代のLLMは単なるパターンマッチングを超えてはいるものの、頑健な人間のようなToMには相変わらず不足していると結論付けている。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:47:22 GMT)
Language Models Surface the Unwritten Code of Science and Society [1.5] 本稿では,大規模言語モデル(LLM)が人間のバイアスをどのように受け継がれるかを研究する研究コミュニティに呼びかける。
本稿では,科学のケーススタディを通じて,ピアレビューに隠されたルールを明らかにする概念的枠組みを紹介する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:15:31 GMT)
Multi-Stage Speaker Diarization for Noisy Classrooms [1.5] 本研究では,NvidiaのNeMoダイアリゼーションパイプラインを用いた多段ダイアリゼーションモデルの有効性を検討した。
ダイアリゼーション精度に対する聴覚の影響を評価し,様々な音声活動検出モデルを比較した。
また、フレームレベルのVAD予測と自動音声認識(ASR)ワードレベルのタイムスタンプを統合するハイブリッドVAD手法についても検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:02:39 GMT)
Hierarchical Mamba Meets Hyperbolic Geometry: A New Paradigm for Structured Language Embeddings [1.4] 階層型マンバ (HiM) を用いて階層型言語埋め込みを学習する。
HiMは効率的なMamba2と指数関数的な成長と双曲幾何学の曲線の性質を統合している。
両モデルが4つの存在論的データセットの階層的関係を効果的に捉えていることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:24:12 GMT)
PUSSM: Point Cloud Upsampling as Implicit Statistical Shape Model [1.4] 本稿では,医用画像分割と点群アップサンプリングを統合した骨盤構造の高忠実化再構築のための枠組みを提案する。
ランドマークやPCAを必要とせずにMedShapePelvicから形状を学習するために雲のアップサンプリングを行うことにより,本手法は暗黙の統計的形状モデルとして機能する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:57:58 GMT)
LV-XAttn: Distributed Cross-Attention for Long Visual Inputs in Multimodal Large Language Models [1.4] クロスアテンションはマルチモーダル大言語モデル(MLLM)で一般的に採用されている。
LV-XAttnは,通信オーバーヘッドを最小限に抑えた,分散的かつ正確なクロスアテンション機構である。
LV-XAttnは、既存のアプローチと比較して最大10.62$times$ end-to-endのスピードアップを実現していることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:46:43 GMT)
Automatic Transmission for LLM Tiers: Optimizing Cost and Accuracy in Large Language Models [1.4] LLM 層を自動的に選択する LLM Automatic Transmission (LLM-AT) フレームワークを導入する。
スタータは、与えられた質問を解決することを期待する初期LCM層を選択する。
ジェネレータは、選択された階層のLCMを使用して応答を生成し、その応答の有効性を評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:11:00 GMT)
Federated Instrumental Variable Analysis via Federated Generalized Method of Moments [1.4] 一般化法モーメント(FedGMM)を用いたFederated instrumental variables analysis(FedIV)を導入する。
重要な課題は、理論上、連合した局所最適性を特徴づけることである。
フェデレートされたソリューションは、各クライアントの局所的なモーメント条件を常に推定することを示します。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:46:43 GMT)
ISAC: Training-Free Instance-to-Semantic Attention Control for Improving Multi-Instance Generation [1.4] インスタンス・ツー・セマンティック・アテンション・コントロール(ISAC)は、不完全なインスタンスの形成とセマンティック・エンタングルメントを明示的に解決する。
ISACは平均マルチクラス精度が52%、平均マルチインスタンス精度が83%に達する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:23:10 GMT)
Dual Natural Gradient Descent for Scalable Training of Physics-Informed Neural Networks [1.3] 物理インフォームドニューラルネットワーク(PINN)の学習を著しく促進する自然段階的手法
textitDual Natural Gradient Descent (D-NGD)を紹介する。
D-NGDは、残留空間におけるガウス-ニュートンステップを計算し、ジオデシック加速度補正を無視可能な余剰コストで拡張し、モデスト$m$とNystrom-preconditioned conjugate-gradient solverをより大きい$m$で提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:27:23 GMT)
Autoencoding Random Forests [1.3] 本稿では,ランダムな森林を用いた自動符号化手法を提案する。
我々は、制約付き最適化、スプリット・レバーベリング、近傍の回帰を通じて、デコード問題の正確かつ近似的な解を提供する。
我々はこのオートエンコーダの様々な応用を実演し、可視化、圧縮、クラスタリング、復号化のための強力な新しいツールについて紹介する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:15:02 GMT)
FM-Planner: Foundation Model Guided Path Planning for Autonomous Drone Navigation [1.3] パスプランニングは自律ドローンの運用において重要な要素であり、複雑な環境を通した安全かつ効率的なナビゲーションを可能にする。
基礎モデル,特に大規模言語モデル (LLM) や視覚言語モデル (VLM) の最近の進歩は,ロボット工学における知覚と知的な意思決定を向上する新たな機会を生み出している。
本稿では,基礎モデル誘導経路プランナー (FM-Planner) を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:41:21 GMT)
Inflationary power spectrum from the Lanczos algorithm [1.2] 曲率摂動の量子原点としてオープンな2モード圧縮状態が得られる。
ボゴリューボフ変換を用いて対応するパワースペクトルを計算する。
我々の研究は、グループ理論の観点から相関関数の計算に関する新たな知見を提供するかもしれない。
論文参考訳(メタデータ) (Tue, 27 May 2025 00:10:41 GMT)
MAD Chairs: A new tool to evaluate AI [1.2] 本稿では,AIを評価する新しい手法を提案する。
チェスにおけるマシンのパフォーマンスを評価できる限り、このアプローチでは「MADチェア」と呼ばれるゲームでマシンのパフォーマンスを評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:07:32 GMT)
Visual Product Graph: Bridging Visual Products And Composite Images For End-to-End Style Recommendations [1.1] Visual Product Graph (VPG)は、個々の製品からそれらの製品を含む複合シーンへのナビゲーションと補完的なレコメンデーションを可能にするオンラインリアルタイム検索システムである。
エンド・ツー・エンドの人間関係評価では78.8%が非常によく似た@1であり、モジュールのエンゲージメント率は6%である。
Visual Product Graph技術を活用した"Ways to Style It"モジュールは、Pinterestで本番環境にデプロイされている。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:26:55 GMT)
Scintillation pulse characterization with spectrum-inspired temporal neural networks: case studies on particle detector signals [1.1] 本稿では,時系列解析に関するこれまでの研究に基づいて,シンチレーションパルスのキャラクタリゼーションに特化したネットワークアーキテクチャを提案する。
a)LUXダークマター検出器の設定によって生成されたシミュレーションデータと,(b)高速電子回路を用いた実験電気信号を用いて,NICA/MPD温度計のシンチレーション変動をエミュレートする。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:30:26 GMT)
Cryptography from Lossy Reductions: Towards OWFs from ETH, and Beyond [1.1] ワンウェイ関数(OWF)は現代の暗号の基礎となる。
我々は、OWFが存在するか、あるいは、いかなる保証問題に対しても損失を減らしていることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:15:30 GMT)
Comparisons between a Large Language Model-based Real-Time Compound Diagnostic Medical AI Interface and Physicians for Common Internal Medicine Cases using Simulated Patients [1.1] LLMをベースとしたリアルタイム複合診断医療AIインタフェースを開発した。
内科領域の一般患者を対象に,このインターフェースと医師を比較検討した。
第1および第2微分診断の精度は、医師の70%から90%までであったが、AIインターフェースは100%の精度を達成した。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:15:46 GMT)
Real-Time Stress Monitoring, Detection, and Management in College Students: A Wearable Technology and Machine-Learning Approach [1.0] 大学生はストレス、不安、うつにますます影響を受ける。
本研究は、モバイルヘルス(mHealth)介入、メンタルヘルス評価およびルックアウトプログラム(mHELP)の有効性を評価する。
mHELPは、リアルタイムストレス検出と自己管理のためのスマートウォッチセンサーと機械学習(ML)アルゴリズムを統合している。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:50:01 GMT)
On VLMs for Diverse Tasks in Multimodal Meme Classification [1.0] 本稿では,異なるミーム分類タスクのための視覚言語モデル(VLM)を包括的かつ体系的に分析する。
本稿では,VLMによるミーム画像の理解と,組込みミームテキストのテキスト理解に基づく精細化を実現する手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:25:46 GMT)
Knowledge Distillation Approach for SOS Fusion Staging: Towards Fully Automated Skeletal Maturity Assessment [1.0] 本稿では,SOS(spheno-occipital synchondrosis)核融合の自動ステージングのための新しいディープラーニングフレームワークを提案する。
本フレームワークは診断精度が向上し,臨床的に実現可能なエンド・ツー・エンド・パイプラインが完成する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:01:45 GMT)
Dissipative Preparation of Many-Body Quantum States: Towards Practical Quantum Advantage [1.0] 散逸性プロトコルは、エンジニアリングされたシステム環境相互作用を活用することで、複雑な多体量子状態を作成することができる。
このエッセイは、アルゴリズムで構築されたリンドブラッドジェネレータを利用するアルゴリズムのクラスに焦点を当てている。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:07:29 GMT)
FRIREN: Beyond Trajectories -- A Spectral Lens on Time [1.0] 長期時系列予測モデルは、ドメインにまたがって適用可能な汎用的なソリューションとしてしばしば提示される。
幾何学的構造は動的に依存しない基礎モデルの正しい抽象化であると主張する。
現代の生成フローと古典的なスペクトル分析を結びつけることで、FRIRENは正確かつ解釈可能な長期的な予測を行う。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:16:57 GMT)
No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language Models [1.0] 大規模言語モデル(LLM)は、異なる自然言語理解と生成タスクの性能を高めている。
我々は,中小LLMの集合を用いてベンチマークを統一的に評価する。
バイアス検出タスクをバイアスの異なる側面で行うための5つのプロンプト手法を提案する。
その結果, 選択したLLMは, Phi-3.5Bモデルが最も偏りが少ないため, いずれか一方あるいは他方の偏りに悩まされることが示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:40:29 GMT)
FeatInv: Spatially resolved mapping from feature space to input space using conditional diffusion models [1.0] ディープニューラルネットワークを理解するためには、内部表現が不可欠である。
特徴空間から入力空間へのマッピングは前者の解釈に役立つが、既存のアプローチはしばしば粗い近似に依存する。
本研究では,条件付き拡散モデルを用いて確率論的手法でそのような写像を学習する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:07:34 GMT)
Something's Fishy In The Data Lake: A Critical Re-evaluation of Table Union Search Benchmarks [0.9] 近年の表表現学習とデータ発見手法は,データレイク内の表結合探索(TUS)に取り組みつつある。
これらの手法は、実世界のTUSタスクにおける意味的理解を評価するためのベンチマークを用いて、一般的に評価される。
本稿では,セマンティックテーブル統合検索における進捗のより現実的で信頼性の高い評価を可能にするために,将来のベンチマークに不可欠な基準を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:23:52 GMT)
Exploring the quantum capacity of a Gaussian random displacement channel using Gottesman-Kitaev-Preskill codes and maximum likelihood decoding [0.9] 複数モードのGottesman-Kitaev-Preskill符号の誤り訂正性能を解析した。
曲面二乗GKP符号の誤差閾値は、$sigma=1/sqrtesimeq 0.6065$と著しく近い。
複数のボソニックモード上で1つの論理量子ビットのみを符号化するマルチモードGKP符号に着目し、GKP符号が非ゼロ量子状態伝送速度を達成することを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:27:21 GMT)
Topological Deep Learning for Speech Data [0.9] トポロジカルデータ分析(TDA)は、ディープラーニングのための新しい数学的ツールを提供する。
本研究では,音声認識ネットワークを大幅に改善するトポロジ対応畳み込みカーネルを設計する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:26:05 GMT)
Frequency matters: Modeling irregular morphological patterns in Spanish with Transformers [0.9] 我々はスペイン語の動詞パラダイムに注目し、ある動詞は不規則なL字型パターンに従う。
変圧器モデルにおける正規パターンと不規則パターンの取得における入力周波数の役割について検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:48:35 GMT)
Boosting Adversarial Transferability via High-Frequency Augmentation and Hierarchical-Gradient Fusion [0.8] 本稿では、周波数領域変換と空間領域変換を統合した新たな逆攻撃フレームワークである周波数空間攻撃(FSA)を提案する。
FSAは様々なブラックボックスモデルで最先端の手法を一貫して上回っている。
特に,提案したFSAは,8つのブラックボックス防御モデルにおいて,BSR(CVPR 2024)と比較して平均攻撃成功率が23.6%向上した。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:32:52 GMT)
Are Statistical Methods Obsolete in the Era of Deep Learning? [0.8] AIの時代、ニューラルネットワークはモデリング、推論、予測においてますます人気が高まっている。
このような深層学習モデルの普及に伴い、疑問が持ち上がる: よりリーンな統計手法はいまだに重要なのか?
統計的手法は,特にスパース観測やノイズ観測では,時代遅れには程遠い。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:11:21 GMT)
Debate-to-Detect: Reformulating Misinformation Detection as a Real-World Debate with Large Language Models [0.8] D2D(Dbate-to-Detect, D2D)は, 偽情報検出を構造化された敵対的議論として再構築する, 新規なマルチエージェント・ディベート(MAD)フレームワークである。
ファクトチェックにインスパイアされたD2Dは、各エージェントにドメイン固有のプロファイルを割り当て、Opening Statement、Rebuttal、Free Debate、Closing Statement、Judgmentを含む5段階の議論プロセスを編成する。
GPT-4oによる2つの偽ニュースデータセットの実験は、ベースライン法よりも大幅に改善された。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:22:44 GMT)
ANCHOLIK-NER: A Benchmark Dataset for Bangla Regional Named Entity Recognition [0.8] ANCHOLIK-NERはバングラ地方方言におけるNERの最初のベンチマークデータセットである。
我々は,Bangla BERT,Bangla BERT Base,BERT Base Multilingual Casedの3つのトランスフォーマーモデルを評価する。
以上の結果から,BERT Base Multilingual Casedは各領域にまたがる名前の認識に最適であることが示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:14:48 GMT)
Optimizing Deep Learning for Skin Cancer Classification: A Computationally Efficient CNN with Minimal Accuracy Trade-Off [0.7] 本研究では,パラメータの96.7%削減を実現し,分類精度が0.022%未満のCNNモデルを提案する。
我々の軽量CNNアーキテクチャは、ResNet50の4.00億ドルと比較してわずか30.04万のFLOPしか含まないため、エネルギー消費、メモリフットプリント、推論時間を大幅に削減する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:53:58 GMT)
Network classification through random walks [0.7] ランダムウォークの統計を用いて,ネットワークを特徴付ける新しい手法を提案する。
複数のデータセットにおけるそれらの性能を、他の最先端の特徴抽出手法と比較する。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:43:32 GMT)
Identifying Super Spreaders in Multilayer Networks [0.7] 本稿では,グラフニューラルネットワークを利用して,そのようなネットワーク内のスーパースプレッダを識別する手法を提案する。
この目的のために、数百のネットワークにまたがる情報拡散をシミュレートしてデータセットを構築する。
我々のモデルであるTopSpreadersNetworkは、関係に依存しないエンコーダとカスタムアグリゲーション層で構成されています。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:14:14 GMT)
Learning to See More: UAS-Guided Super-Resolution of Satellite Imagery for Precision Agriculture [0.7] 無人航空機システム(UAS)と衛星は精密農業のための重要なデータ源であるが、それぞれがトレードオフを提示する。
衛星データは、広い空間的、時間的、スペクトル的範囲を提供するが、多くの精密農業アプリケーションに必要な解像度は欠如している。
本研究では,超解像法を用いて衛星画像とUAS画像を融合する新しい枠組みを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:34:56 GMT)
Embracing Contradiction: Theoretical Inconsistency Will Not Impede the Road of Building Responsible AI Systems [0.7] このポジションペーパーでは、Responsible AI(RAI)メトリクスでよく見られる理論上の矛盾は、排除すべき欠陥ではなく、価値のある機能として受け入れるべきである、と論じている。
メトリクスを異なる目的として扱うことで、これらの矛盾をナビゲートすることは、3つの重要な利点をもたらすと我々は主張する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:19:42 GMT)
Learning to Explain Air Traffic Situation [0.7] 本稿では,航空交通状況を説明するための機械学習フレームワークを提案する。
具体的には,トランスフォーマーをベースとした多エージェント軌道モデルを用いて,航空機の時空間移動とそれらの間の社会的相互作用の両方をカプセル化する。
これにより、航空管制官が交通状況をどのように認識し理解しているかを説明できる。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:07:27 GMT)
shapr: Explaining Machine Learning Models with Conditional Shapley Values in R and Python [0.7] ShaprはShapley値ベースの予測説明を生成する汎用ツールである。
Shaprpy Pythonライブラリは、Shaprのコア機能をPythonエコシステムにもたらす。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:37:36 GMT)
The dark side of the forces: assessing non-conservative force models for atomistic machine learning [0.7] 顕微鏡シミュレーションにおける非保守モデルの適用性について検討する。
我々は、幾何最適化の不明確な収束から、様々な種類の分子動力学における不安定性まで、いくつかの根本的な問題を特定する。
直接力予測によって得られる加速度を利用するための最良のアプローチは、それを保守的なモデルと組み合わせて使うことであるかもしれない。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:09:45 GMT)
Nullifiers of non-Gaussian cluster states through homodyne measurement [0.7] 非ガウス状態は、普遍性とフォールトトレランスに到達するためにクラスター状態に埋め込まれなければならない。
非ガウス的クラスタ状態のキャラクタリゼーションのためのフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:50:30 GMT)
Are Data Embeddings effective in time series forecasting? [0.7] 時系列予測は多くの現実世界のアプリケーションにおいて重要な役割を果たす。
ほとんどの最先端モデルでは、標準エラーメトリクスの数千分の1という、限界的な改善しか報告していない。
多くの最先端モデルからデータ埋め込み層を除去しても予測性能は低下しないことがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:51:34 GMT)
Quantum AIXI: Universal Intelligence via Quantum Information [0.7] 量子および古典的レジスタとチャネルに基づく量子エージェント/環境相互作用のモデルを導入する。
我々は、量子情報の観点からAIXIの鍵成分を定式化し、量子コルモゴロフ複雑性とQAIXI値関数に関する以前の研究を拡張した。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:23:53 GMT)
What is Fair? Defining Fairness in Machine Learning for Health [0.6] 機械学習(ML)モデルが安全で効果的であり、すべての患者に公平であることを保証することは、臨床的な意思決定と、既存の健康格差の増幅を防ぐために重要である。
機械学習モデルが不公平な判断に繋がる理由や、さまざまな現実世界のアプリケーションにおいて、公平さがどのように測定されたかなど、健康のためのMLにおいてフェアネスが概念化されているかを検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:53:52 GMT)
Adversarial bandit optimization for approximately linear functions [0.6] 非滑らかかつ非滑らかな関数に対する帯域最適化問題を考える。
それぞれのトライアルでは、損失関数は線形関数の和であり、プレイヤーの選択を観察した後に選択された小さいが任意の摂動である。
その結果、最適化のために高確率の後悔を省くことが示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:22:01 GMT)
UltraBones100k: A reliable automated labeling method and large-scale dataset for ultrasound-based bone surface extraction [0.6] 本稿では,骨ラベルの自動生成による残響超音波データセットの収集手法を提案する。
提案するラベルは、追跡された骨CTモデルを追跡された超音波画像に正確に重ね合わせることで得られる。
骨分割のためのニューラルネットワークは、収集されたデータセットに基づいてトレーニングされ、その予測は専門家の手動ラベルと比較される。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:44:53 GMT)
Scalable and adaptive prediction bands with kernel sum-of-squares [0.6] Conformal Prediction (CP) は、有限サンプルで有効なカバレッジを持つ予測帯域を構築するための一般的なフレームワークである。
我々は,CP問題を統計的学習問題として再放送し,適用範囲と適応率を直接ターゲットとした最近の考え方を構築した。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:21:17 GMT)
A Kernelised Stein Discrepancy for Assessing the Fit of Inhomogeneous Random Graph Models [0.6] 我々は、IRGモデルのためのKSD型適合性テストを開発し、テストし、分析する。
テストは任意の大きさのネットワークに適用でき、テスト統計の分布に依存しない。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:06:28 GMT)
Systematic Generalization in Language Models Scales with Information Entropy [0.5] 本稿では, 学習データにおける成分分布のエントロピーによって, 体系的一般化の1つの側面が説明できることを示す。
我々の研究は、体系的な一般化と情報効率を結びつけるものであり、高いエントロピーでの成功は、組み込まれた事前知識がなくても達成できることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:40:05 GMT)
What LLMs Miss in Recommendations: Bridging the Gap with Retrieval-Augmented Collaborative Signals [0.5] ユーザとイテムのインタラクションには、多くの成功したレコメンデーションシステムのバックボーンを形成する、リッチなコラボレーティブなシグナルが含まれている。
大規模言語モデル(LLM)がこの種類の協調的な情報を効果的に説明できるかどうかは不明だ。
構造化された相互作用データにそれらの予測を基礎づけることによりLLMを強化する単純な検索拡張生成(RAG)手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:18:57 GMT)
Mitigating Molecular Aggregation in Drug Discovery with Predictive Insights from Explainable AI [0.5] 我々は、我々の説明可能なAI(xAI)モデルであるMEGANの小さなコロイド凝集分子(SCAM)の同定への応用について述べる。
この研究は、薬物発見のための高スループットスクリーニングにおいてSCAMによって引き起こされる偽陽性の長年の問題に対する解決策を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:23:23 GMT)
Taylor expansion-based Kolmogorov-Arnold network for blind image quality assessment [0.5] Kolmogorov-Arnold Network (KAN) はその強力な関数近似能力への関心が高まっている。
これらのモデルは高次元特徴を処理する際に問題に遭遇し、性能の向上が制限され、計算コストが増大する。
本稿では,Taylorの拡張を学習可能なアクティベーション関数として活用し,局所近似能力を向上するTaylorKANを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:29:35 GMT)
Wave-particle duality ellipse and application in single-photon imaging [0.5] 一般的な2経路干渉系におけるコヒーレンスと波動粒子の双対性の間の相互作用を定量化するための体系的枠組みを提案する。
我々はこの枠組みを、未検出光子(QIUP)による量子イメージングに拡張し、経路情報と光子干渉の両方が本質的に空間的オブジェクト再構成に結びついている。
本研究は,コヒーレンス駆動量子技術を最適化するための実用的なツールキットを提供しながら,量子双対性の基本的理解を推し進めるものである。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:15:59 GMT)
Computocene: Notes from an Age of Observation [0.5] この作品は、コンピュータのユビキティによってのみ定義された時代であるComputoceneの考え方と一致する。
自動化、スピード、スケール、インテリジェンスを強調するのではなく、計算は注意のモードとして再編成される。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:33:37 GMT)
Controlling Excitation Localization in Waveguide QED Systems [0.5] 導波路に結合した量子エミッタにおける局所化と長期集団トラップについて検討した。
局所化を引き起こす2つのメカニズムは、幾何学的に誘導されるサブラジオアンスと、障害によって引き起こされるアンダーソンのような閉じ込めである。
これらの結果は、導波路QED系における長寿命量子状態の工学的手法として幾何学と障害を確立する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:24:51 GMT)
Quantum Optimal Control Using MAGICARP: Combining Pontryagin's Maximum Principle and Gradient Ascent [0.5] 本稿では,量子最適制御問題に対する数値最適化手法であるMAGICARPアルゴリズムを提案する。
MAGICARPは「撮影技術」として定式化され、ターゲットの量子ゲートを実現するための適切な初期随伴運動量を決定することを目的としている。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:50:21 GMT)
Learn from Global Correlations: Enhancing Evolutionary Algorithm via Spectral GNN [0.5] 本稿では,新しいEAフレームワークであるグラフニューラル進化(GNE)を提案する。
GNEは人口をグラフとして表現し、ノードは個人を表し、エッジはその関係をキャプチャする。
高周波コンポーネントは多様なグローバル情報をキャプチャし、低周波コンポーネントはより一貫性のある情報をキャプチャする。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:23:38 GMT)
BACON: A fully explainable AI model with graded logic for decision making problems [0.5] 本稿では,意思決定問題に対する説明可能なAIモデルの自動トレーニングフレームワークであるBACONを紹介する。
BACONは、完全な構造的透明性と正確な論理ベースのシンボリック説明を提供しながら、高い予測精度を達成する。
これらの結果から、BACONは実践的で原則的なアプローチとして、信頼できるAIを提供する可能性を示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:27:38 GMT)
Eccfrog512ck2: An Enhanced 512-bit Weierstrass Elliptic Curve [0.5] 本稿では、256ビットのセキュリティとNIST P-521の性能向上を提供する新しい曲線、Eccfrog512ck2の概要を示す。
これは、Eccfrog512ck2がスカラー乗算で61.5%のスピードアップ、NIST P-521曲線で点生成で33.3%のスピードアップを達成できることを示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:01:09 GMT)
Moment Expansions of the Energy Distance [0.4] この研究は、分布が近い場合には$D2(X, Y)$を考える。
Delta$のオフ対角成分に対する感度は、$X$と$Y$が等方性に近いときに検証される。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:52:51 GMT)
Random Walk Diffusion for Efficient Large-Scale Graph Generation [0.4] 本稿では,ARROW-Diff(AutoRegressive RandOm Walk Diffusion)を提案する。
我々は、ARROW-Diffが、生成時間と多重グラフ統計の両方の観点から、他のベースライン手法を超越して、大きなグラフに効率的にスケールできることを実証した。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:25:24 GMT)
Emotion-aware Dual Cross-Attentive Neural Network with Label Fusion for Stance Detection in Misinformative Social Media Content [0.4] 本稿では,textbfLabel-fused dual cross-textbfAttentive textbfEmotion-aware Neural textbfNetwork による textbfStance textbfPrediction の新しい手法を提案する。
提案手法は,2つの相互関連機構と階層型アテンションネットワークを用いて,相互関係と相互関係を捕捉する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:38:50 GMT)
pared: Model selection using multi-objective optimization [0.4] 本稿では,モデル選択のための多目的最適化を実現するために,Rパッケージを解析する。
提案手法では,ガウス過程に基づく最適化を用いて,望ましいトレードオフを表す解を効率的に同定する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:20:04 GMT)
Phase transitions and remnants of fractionalization at finite temperature in the triangular lattice quantum loop model [0.3] 三角格子上の量子ループモデルの有限温度位相図について検討する。
量子シミュレーションプラットフォームにおける現在の実験結果との関連について論じる。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:25:17 GMT)
A Framework for Adversarial Analysis of Decision Support Systems Prior to Deployment [0.3] 本稿では,Deep Reinforcement Learning (DRL) を用いて学習した意思決定支援システムの分析とセキュア化のためのフレームワークを提案する。
我々は,我々のフレームワークを検証し,エージェントの振る舞いを可視化し,カスタム構築戦略ゲームCyberStrikeのコンテキストにおける敵の成果を評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:41:23 GMT)
Revisiting Bi-Linear State Transitions in Recurrent Neural Networks [0.3] 両線形状態更新は、状態追跡タスクにおける隠れ状態の進化を表す自然な帰納バイアスとなることを示す。
また,両線形状態更新は,複雑性が増大する状態追跡タスクに対応する自然な階層を形成し,Mambaなどの線形リカレントネットワークがその階層の最低複雑度中心にあることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:38:19 GMT)
Expert Survey: AI Reliability & Security Research Priorities [0.3] 105のAI信頼性とセキュリティ研究領域にわたる53人の専門家を対象に調査を行い、最も有望な研究の見通しを明らかにした。
この研究は、AIの安全性とセキュリティ研究の方向性を包括的に分類し、専門家の優先順位を定量化した最初のものである。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:44:30 GMT)
Direct Measurement of Zak Phase and Higher Winding Numbers in an Electroacoustic Cavity System [0.3] 本研究では, 断熱状態の進化によるトポロジカル不変量の直接測定に関する実験的手法を提案する。
従来のSu-Schrieffer-Heegerモデルとnext-nearest-neighbor結合を組み込んだ拡張モデルにおいて,Zak相の量子化に成功した。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:46:17 GMT)
multivariateGPT: a decoder-only transformer for multivariate categorical and numeric data [0.3] 本稿では,混合分類(トークン化テキストを含む)と数値データのシーケンスをモデル化するための単一アーキテクチャを提案する。
簡単な物理系におけるパターンの一般化と複雑な時系列のモデル化を効果的に学習する方法を実証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:58:37 GMT)
Realizing Bloch Dynamics in a Low-Cost Electrically Driven Acoustic Two-Level System [0.3] 量子ビット(量子ビット)は、基底と励起状態のコヒーレントな重ね合わせに存在する。
可変音響2レベルシステムを構築することにより,古典的プラットフォームにブロッホ力学を実装した。
我々の結果は、古典波動制御によるコヒーレントブロッホ力学を橋渡しし、量子に着想を得た物理を探索するための汎用的なプラットフォームを明らかにした。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:12:54 GMT)
Public Discourse Sandbox: Facilitating Human and AI Digital Communication Research [0.3] 我々は,人間-AIのためのデジタル・ディスコース研究プラットフォームとして機能するPublic Discourse Sandbox (PDS)を紹介した。
PDSは、公共の商用ソーシャルメディアプラットフォームでは利用できない研究実験のための安全で安全なスペースを提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:46:22 GMT)
Quantum Machine Learning in Healthcare: Evaluating QNN and QSVM Models [0.3] 本研究では、量子ニューラルネットワーク(QNN)と量子サポートベクトルマシン(QSVM)に焦点を当てる。
以上の結果から,QSVMは全データセットでQNNよりも優れており,過度に適合する可能性が示唆された。
これらの発見は予備的ではあるが、医療分類タスクにおける量子モデルの可能性を強調している。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:09:09 GMT)
Multi-VQC: A Novel QML Approach for Enhancing Healthcare Classification [0.3] 近年、機械学習は、病気を識別できる分類モデルを作成することによって、診断プラクティスに革命をもたらした。
量子モデルへの関心は、高次元の計算空間にデータをマッピングすることで複雑なパターンを表現する能力によって生まれた。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:00:33 GMT)
A Hitchhiker's Guide to Privacy-Preserving Cryptocurrencies: A Survey on Anonymity, Confidentiality, and Auditability [0.2] この調査は、プライバシー保護のデジタル通貨に関する包括的で技術的に根ざした概要を提供する。
匿名性,機密性,非リンク性,監査性など,プライバシー目標の分類法を提案する。
我々は、プライバシー保護通貨の3世代にわたる進化を辿り、基本的な匿名性保証から、より微妙なプライバシー責任のトレードオフへのシフトを強調した。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:42:28 GMT)
Unified Deep Learning Approach for Estimating the Metallicities of RR Lyrae Stars Using light curves from Gaia Data Release 3 [0.2] 基礎モード(RRab)と1次オーバートン(RRc)のRRLをガイアGバンド光曲線を用いて推定する統合ディープラーニングフレームワークを提案する。
我々のパイプラインは、位相折り畳み、平滑化、サンプル重み付けといった前処理ステップを含み、光度金属をトレーニングターゲットとして使用しています。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:34:22 GMT)
Privacy-Preserving Chest X-ray Report Generation via Multimodal Federated Learning with ViT and GPT-2 [0.2] IU-Xrayデータセットを用いた胸部X線レポート生成のためのマルチモーダルフェデレートラーニングフレームワークを提案する。
このシステムは、ヴィジュアルトランスフォーマー(ViT)をエンコーダとして、GPT-2をレポートジェネレータとして使用し、生データを共有せずに分散トレーニングを可能にする。
その結果、FLは臨床的に関連性があり、セマンティックにリッチな放射線学レポートを作成する際に、集中型モデルと一致または超えることができることがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:01:12 GMT)
Towards Operational Automated Greenhouse Gas Plume Detection [0.2] この研究は、データとラベルの品質管理、バイアスの防止、そして正しく整列されたモデリング目的など、この分野におけるいくつかの重要な障害をレビューし対処する。
運用性能検出が可能な航空機および宇宙搭載機器のマルチキャンプデータを用いた厳密な実験を実演する。
分析可能なデータ、モデル、デプロイメントのためのソースコードを提供し、ベストプラクティスのセットを定義します。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:22:54 GMT)
Frequency-Aware Masked Autoencoders for Human Activity Recognition using Accelerometers [0.1] 機械学習とディープラーニングのアルゴリズムは、長年、生の加速度データから有意義な活動情報を抽出するために用いられてきた。
本稿では,LMM(log-scale meanmagnitude)とLMV(log-scale magnitude variance)の2つの新しいスペクトルに基づく損失関数を提案する。
その結果,MSEの損失で事前訓練したMAEと比較して,LMMの損失による事前訓練により性能が向上した。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:46:37 GMT)
Backpropagation-free Spiking Neural Networks with the Forward-Forward Algorithm [0.1] Spiking Neural Networks (SNN)は、離散スパイクベースの処理を通じて神経活動をエミュレートする生物学的にインスパイアされた計算パラダイムを提供する。
これらの利点にもかかわらず、従来のバックプロパゲーション(BP)を用いたSNNのトレーニングは、計算の非効率性と生物学的妥当性の欠如により、依然として困難である。
本研究では,SNNの代替学習フレームワークとして,フォワードフォワード(FF)アルゴリズムについて検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:47:13 GMT)
LLMPR: A Novel LLM-Driven Transfer Learning based Petition Ranking Model [0.1] 本稿では,その文脈的緊急性に基づいて,優先格付けを法的請願に割り当てる自動フレームワークを提案する。
実験の結果,ランダムフォレストモデルと決定木モデルの方が優れた性能を示した。
これらの結果から, 自動請願ランキングは, 司法を効果的に合理化し, 訴訟バックログを減らし, 法的優先順位付けの公平性を向上させることが示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:25:24 GMT)
Probing the quantum motion of a macroscopic mechanical oscillator with a radio-frequency superconducting qubit [0.0] 4MHzの懸濁窒化ケイ素膜と共振超伝導重フッソニウム量子ビットとの繰り返し,高忠実な相互作用を実演した。
量子ビットの有効温度は27$mathrmmu$Kで、シングルショットで77%の忠実さで読み取る。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:52:22 GMT)
LLaMEA-BO: A Large Language Model Evolutionary Algorithm for Automatically Generating Bayesian Optimization Algorithms [0.0] LLM(Large Language Models)は、科学的な発見を自動化するための新たな道を開いた。
我々のフレームワークは進化戦略を使って、BOアルゴリズムの重要なコンポーネントを保存するPythonコードを生成するのにLLMを導く。
さらなる微調整は行わなかったが、LLM生成アルゴリズムは5次元のBBOB関数を19(24の内)で上回り、より高次元に一般化し、異なるタスクをこなす。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:13:14 GMT)
tenSVD algorithm for compression [0.0] 本研究では, テンソルを用いた効率的な画像記憶手法を提案し, 記憶の最小化, 伝送の帯域幅, 処理のエネルギを図った。
結果の詳細な分析を行い、確立された定量的指標を用いて、アルゴリズム間でのエネルギー消費の観点から、持続可能性に大きな注意を払っている。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:16:20 GMT)
When Two LLMs Debate, Both Think They'll Win [0.0] 大規模言語モデル (LLM) を動的, 敵対的な議論環境下で評価する。
我々は10のLLMのうち60の3ラウンドの政策討論を組織した。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:17:17 GMT)
Wavelet Flow For Extragalactic Foreground Simulations [0.0] 宇宙マイクロ波背景観測(CMB)における銀河外フォアグラウンドは、宇宙学的および天体物理学的な情報の源であり、CMBへの迷惑である。
我々は、CMBセカンダリのフィールドレベルの確率分布をモデル化する新しい課題に取り組むために、Wavelet Flow(WF)モデルの利用について検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:08:28 GMT)
Valence-bonds, spin liquids and unconventional criticality in a 1D Kondo insulator [0.0] 我々は、反復電子の運動エネルギーを調整することにより、非自明なスピン物理学で近藤絶縁体を安定化させることができることを示した。
特に、局所的なモーメント間の交換結合の大きさによって、運動エネルギー駆動の遷移が見つかる。
また、反射対称性の下で量子数によって区別される2つの特徴のない近藤絶縁体間の非伝統的な連続相転移の証拠も提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:00:03 GMT)
Uncovering Black-hat SEO based fake E-commerce scam groups from their redirectors and websites [0.0] 我々は、この戦略で偽のEコマース詐欺を行う脅威に焦点をあてる。
本稿では,日本サイバー犯罪管理センターが収集した偽Eコマースサイトの大規模なデータセットを用いて,脅威アクターグループを特定し,分析することを目的とする。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:55:59 GMT)
Transfer learning for multifidelity simulation-based inference in cosmology [0.0] ダークマターのみのN$-bodyシミュレーションの事前トレーニングは、高忠実度流体力学シミュレーションの必要な回数を8ドルから15ドルに削減する。
より安価なシミュレーションを活用することで,計算コストを大幅に削減しつつ,高忠実度モデルの性能と高精度な推論を可能にする。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:04:30 GMT)
Training neural control variates using correlated configurations [0.0] NCVはモンテカルロ (MC) シミュレーションにおいて分散低減のための強力なツールとして登場した。
マルコフ・チェイン・モンテカルロ(MCMC)が生成した自己相関サンプルは,基礎となる確率分布の構造に関する有用な情報を含む可能性がある。
これらの知見は、ニューラルネットワークのトレーニングにおけるMCMCデータの効率的な利用のための実用的なガイダンスを提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:23:43 GMT)
Towards a DSL for hybrid secure computation [0.0] 特定のシナリオでは、計算はFHEとTEEの両方を使用してハイブリッド環境で行うことができる。
本稿では,セキュアな計算を行うためのドメイン固有言語()を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:01:32 GMT)
Towards Quantum Simulation of Meson Scattering in a Z2 Lattice Gauge Theory [0.0] 本研究では, (1+1)-次元Z2格子ゲージ理論における中間子散乱について検討する。
量子部分空間展開(QSE)アプローチを用いてメソニック波パケットを構築し,高忠実度中間子生成演算子を得る。
本研究は, 短期量子デバイスにおける非弾性中間子散乱のシミュレーションの可能性を示すものである。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:19:53 GMT)
Time-nonlocal versus time-local long-time extrapolation of non-Markovian quantum dynamics [0.0] 時間依存型時間局所写像は、開量子系が定常状態に達するよりもずっと前に定常となることを示す。
驚くべきことに、オープン量子系が定常状態に達するずっと前に、地図は静止状態になる。
これらの結果は、おそらく反故意に時間非局所性は、実際には正確で効率的な長時間外挿の前提条件ではないことを示唆している。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:50:02 GMT)
Theory of the photonic Joule effect in superconducting circuits [0.0] 光浴に結合した電圧バイアスジョセフソン接合の力学解析を行った。
以上の結果から,光子自由度が著しく過熱する非平衡定常状態に到達できることが示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:41:43 GMT)
The European Satellite-Based QKD System EAGLE-1 [0.0] ミッションの背後にある民間のパートナーシップは、ESA、欧州連合(EU)が部分的に出資し、国家代表団が支援する大学、研究機関、企業のコンソーシアムで構成されている。
コンソーシアム内では、Tesat-Spacecom (TESAT) が低軌道のEagle-1衛星のペイロードアセンブリの開発と統合を担当している。
本稿では,衛星と地上のQKDミッションにおけるTESATの現状,技術的側面,およびTESATの貢献について報告する。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:58:29 GMT)
Teleportation with non-maximally entangled states and underlying unitary algebras of certain bipartite systems [0.0] 両部量子ビット系および量子ビット系に対する波動関数の絡み合いをテストするために、新しい便利なサムルールが得られた。
一般キュービット状態へのテレポーテーションは、非最大エンタングル2部キュービット状態を使用することで可能である。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:10:02 GMT)
Supervised and self-supervised land-cover segmentation & classification of the Biesbosch wetlands [0.0] 本研究では,教師付き学習と自己指導型学習を併用した湿地土地被覆区分と分類手法を提案する。
オランダの6つの湿地帯におけるSentinel-2画像のスクラッチからU-Netモデルをトレーニングし、ベースラインモデルの精度は85.26%に達した。
ラベル付きデータの可用性の制限に対処して、オートエンコーダでSSLを事前トレーニングすることで、特に高解像度画像において精度が向上することを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:42:49 GMT)
Streamlining Knowledge Graph Creation with PyRML [0.0] PyRMLは、宣言型マッピングを通じて知識グラフを構築するためのPythonネイティブライブラリである。
宣言的意味論と実践的知識グラフ工学のギャップを埋める。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:40:29 GMT)
Stopping Criteria for Value Iteration on Concurrent Stochastic Reachability and Safety Games [0.0] 到達性と安全性を目標としたグラフ上でのゼロサム並列ゲーム(CSG)について検討する。
実際には、値 (VI) は他のアプローチよりも優れており、最も実装された方法である。
CSG に対して有界(つまり区間) VI を提供し、標準 VI をオーバー近似の収束列で補完する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:13:47 GMT)
Stereo Radargrammetry Using Deep Learning from Airborne SAR Images [0.0] 提案手法は,SAR画像の接地投影を伴わない画素による画質劣化を抑制し,SAR画像を処理パッチに分割する。
提案手法は従来の手法に比べて広い範囲と正確な標高測定値を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:24:17 GMT)
Spin systems as quantum simulators of quantum field theories in curved spacetimes [0.0] 一般の2次元曲面時空における量子場理論(QFT)は、量子スピンあるいは量子ビットの系によって実現可能であることを実証する。
辞書によると、FLRW計量上のマヨラナフェルミオンのQFTは、時間依存の逆磁場を持つイジングモデルに対応する。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:44:19 GMT)
SoftPQ: Robust Instance Segmentation Evaluation via Soft Matching and Tunable Thresholds [0.0] フレキシブルかつ解釈可能なインスタンスセグメンテーションメトリックであるSoftPQを提案する。
我々は、既存のメトリクスが見落としているセグメンテーション品質の有意義な違いをSoftPQが捉えていることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:54:05 GMT)
Simulating Ethics: Using LLM Debate Panels to Model Deliberation on Medical Dilemmas [0.0] 本稿では,Large Language Model (LLM)ペルソナを用いた多面的倫理的議論をシミュレートするシステムADEPTを紹介する。
それぞれ異なる倫理的枠組みや利害関係者の視点を具現化した「AIペルソナ」のパネルを組み立てる。
i) バイオ倫理学における多エージェントAI討論の実行と分析のための透過的で複製可能なワークフロー、(ii) それらのパネルに含まれる道徳的視点が、事実的な入力が一定である場合でも、成果を実質的に変化させることができるという証拠、(iii) 倫理的熟考と政策に対するAIによるアプローチの意味と将来的な方向性の分析である。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:32:42 GMT)
Scattering Networks on Noncommutative Finite Groups [0.0] 群同変畳み込みニューラルネットワーク(G-CNN)の文脈において、任意の有限群(必ずしもアーベル群ではない)に散乱変換を導入する。
ウェーブレット係数の特定の条件下では、散乱変換は非膨張性であり、変形下で安定であり、エネルギーを保ち、左右の群変換に対して同変であり、深さが大きくなるにつれて、散乱係数は信号の群変換に対する感度が低下することを示した。
論文参考訳(メタデータ) (Tue, 27 May 2025 09:41:39 GMT)
SPhyR: Spatial-Physical Reasoning Benchmark on Material Distribution [0.0] データセットには、部分構造内のマスクされた領域を埋めることから、完全な物質分布を予測することまで、さまざまなタスクが含まれている。
本データセットは2次元設定における空間的および物理的推論能力の評価を目標とし,従来の言語と論理的ベンチマークを補完する視点を提供する。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:03:40 GMT)
Robust phase estimation of the ground-state energy without controlled time evolution on a quantum device [0.0] 量子系におけるハミルトンの基底状態エネルギーの推定は重要な課題である。
本研究では, 制御時間進化を伴わずに, 基底状態エネルギーを正確に推定できることを実証した。
本手法は非断熱遷移に対して頑健であり,早期の耐故障量子コンピュータでの使用に適している。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:10:06 GMT)
Rethinking Chunk Size For Long-Document Retrieval: A Multi-Dataset Analysis [0.0] 複数の埋め込みモデルを用いた定サイズチャンキング戦略の評価と検索性能への影響について検討した。
短文データセットと長文データセットの両方で行った実験により,チャンクサイズが検索効率において重要な役割を担っていることが明らかとなった。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:39:16 GMT)
Responsible Data Stewardship: Generative AI and the Digital Waste Problem [0.0] 生成AIシステムは、テキスト、画像、オーディオ、ビデオモダリティにまたがる、前例のない合成データの生成レベルを可能にする。
デジタルムダ(Digital waste)とは、特定の目的(あるいは即時)を果たすことなく、リソースを消費するデータをいう。
本稿では,デジタル廃棄物を(生産的な)AI開発における倫理的命令として導入し,環境の持続可能性を責任あるイノベーションの核として位置づける。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:07:22 GMT)
Reproducible Builds and Insights from an Independent Verifier for Arch Linux [0.0] 近年、サプライチェーン攻撃はサイバーセキュリティの脅威として顕著に浮上している。
再現性とブートストラップ可能なビルドは、そのような攻撃を大幅に削減する可能性がある。
独立した、徹底的な、定期的なソースコード監査と組み合わせることで、これらの措置は、ビルドプロセスにおける妥協を効果的に根絶することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:14:36 GMT)
Reduced Density Matrices and Phase-Space Distributions in Thermofield Dynamics [0.0] 熱場力学(TFD)は、波動関数の設定における熱効果を考慮に入れた強力なフレームワークである。
TFDの有用な変種は真空状態を初期条件とし、ボゴリューボフ変換をプロパゲーターに転送する。
関連2-粒子密度行列 (2-RDM) に符号化された実モードとタイドモードの相関を用いた1-粒子密度行列 (1-RDM) の形式式を導出する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:05:10 GMT)
Randomized measurements for multi-parameter quantum metrology [0.0] 純状態における任意の数のパラメータを推定する際に,ランダム化測定がほぼ最適に動作することを示す。
ほぼ最適性は、3種類の混合状態に対するパラメータの最大数を推定する際にも示される。
論文参考訳(メタデータ) (Tue, 27 May 2025 03:46:10 GMT)
Quantum shockwave at the quasi-relativistic resonance [0.0] 強い長手磁場は、粒子波動関数の量子衝撃波特異点を破り、エネルギー散逸をもたらす。
この効果はグラフェン中の準相対論的電子に対して特に強い。
単一粒子衝撃波は高分解能顕微鏡で衝撃波を観測することで最も容易に観測できるが、多粒子散逸は共鳴電磁界の急激な崩壊として単に観測される。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:05:59 GMT)
Quantum autoencoders for image classification [0.0] 量子オートエンコーダ(QAE)は、パラメータチューニングのみに古典的な最適化を利用する。
本研究では,QAEを用いた新しい画像分類手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:30:37 GMT)
Quantum algorithms for solving a drift-diffusion equation [0.0] ドリフト拡散方程式を解くための3つの量子アルゴリズムを提案する。
それらは量子線型系解法、量子ランダムウォーク、および量子フーリエ変換に依存している。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:09:14 GMT)
Quantum Markov chain Monte Carlo with programmable quantum simulators [0.0] many-Body Localized phase を用いて量子状態の分布からエルゴード性やサンプリングの条件に対処する方法を示す。
このアルゴリズムは近傍の相互作用を持つ1次元イジング鎖のフロケダイナミクスをシミュレートできる任意の量子ハードウェア上で実装することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:37:35 GMT)
Quantum Dynamics with Stochastic Non-Hermitian Hamiltonians [0.0] 反エルミート的部分の摂動によって非エルミート的ハミルトニアンが生成する量子力学について検討する。
得られた状態の進化を特徴付け、その純度を分析する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:20:44 GMT)
Quantum Aberrations: Entangling Photons with Zernike Polynomials [0.0] 我々は、光子の空間構造に量子情報を符号化する新しい自由度として、ゼルニケスを紹介した。
本研究では,Zernikeモードにおける光子の生成,操作,検出のためのフレームワークを開発し,単一光子および2光子のZernikeウェーブパケットを実現する方法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:50:19 GMT)
Quantifying entanglement from the geometric perspective [0.0] 本稿では, 近距離分離状態への距離に基づく量化器として, 絡み合いの幾何学的測度について概説する。
基本的な特性、計算のための既存の方法、運用上の解釈、スケーリングや複雑性の問題を説明します。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:56:30 GMT)
Quantifying Trapped Magnetic Vortex Losses in Niobium Resonators at mK Temperatures [0.0] ニオブ中の捕捉された磁気渦は超伝導共振器の性能を低下させるマイクロ波損失をもたらす。
フラックス誘起損失を分離し, 約2n$Omega$/mGの捕捉フラックスに対する感度を10mK, 6GHzで抽出した。
以上の結果から,ニオブをベースとしたトランスモンキュービットは,数百mGまでの捕捉されたフィールドレベルでの渦誘発散逸を許容できる可能性が示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:31:26 GMT)
QuForge: A Library for Qudits Simulation [0.0] QuForgeは、量子回路を量子ビットでシミュレートするように設計されたPythonベースのライブラリである。
GPUやTPUなどの加速デバイス上での実行をサポートし、シミュレーションを著しく高速化する。
スパース操作もサポートしており、他のライブラリと比較してメモリ消費が減少する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:02:26 GMT)
Pseudorandom unitaries are neither real nor sparse nor noise-robust [0.0] Pseudorandom quantum state (PRSs) と pseudorandom unitary (PRUs) は、任意の効率的な量子アルゴリズムに完全にランダムに現れながら効率的に構成可能であるという双対の性質を持っている。
PRSとPRUは、エラーが発生する確率が無視可能である場合にのみ存在し、ノイズの多い中間スケールおよび早期フォールトトレラント量子コンピュータでそれらの生成を除外する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:20:27 GMT)
Prompt-Based LLMs for Position Bias-Aware Reranking in Personalized Recommendations [0.0] 大規模言語モデル(LLM)は、プロンプトベースのレコメンデーションに採用されている。
LLMは、限られたコンテキストウィンドウサイズ、非効率なポイントワイドおよびペアワイドプロンプト、リストワイドランキングの扱いの難しさといった制限に直面している。
本稿では,従来のレコメンデーションモデルとLLMを組み合わせたハイブリッドフレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:44:15 GMT)
Preventing Adversarial AI Attacks Against Autonomous Situational Awareness: A Maritime Case Study [0.0] アドリラル人工知能(AI)による攻撃は、自律走行に重大な脅威をもたらす。
本稿では、敵対的AIに関連する3つの重要な研究課題に対処する。
本稿では,複数入力とデータ融合を利用して防御部品を構築できるビルディングディフェンスを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:59:05 GMT)
Pauli Propagation: A Computational Framework for Simulating Quantum Systems [0.0] 我々は,そのビットレベルの実装から高レベルのユーザアプリケーションまで,アルゴリズム構造をトレースする,パウリ伝搬の包括的な説明を提供する。
We present Pauli propagation.jl, a Julia software package which can perform rapid Pauli propagation simulation straight-of-the-box。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:52:57 GMT)
Parameter Effects in ReCom Ensembles [0.0] 7つの州で3つの立法院にまたがる315のReComアンサンブルを分析した。
様々な集団寛容が全てのスコアに無視できる影響があることが判明した。
アルゴリズムと郡保存パラメータは、いくつかの指標に大きく影響しうる。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:22:26 GMT)
PSRB: A Comprehensive Benchmark for Evaluating Persian ASR Systems [0.0] 本稿では,多様な言語的・音響的条件を取り入れて,このギャップに対処するための総合ベンチマークであるペルシャ音声認識ベンチマーク(PSRB)を紹介する。
我々は、現在最先端の商用およびオープンソースモデルを含む10のASRシステムを評価し、性能変動と固有のバイアスについて検討する。
その結果,ASRモデルは標準ペルシア語でよく機能するが,地域アクセントや子どもの発話,特定の言語的課題に苦慮していることがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:14:55 GMT)
P-DROP: Poisson-Based Dropout for Graph Neural Networks [0.0] オーバースムーシングはグラフニューラルネットワーク(GNN)において大きな課題である
本稿では,Poissonプロセスに基づく新しいノード選択戦略を提案する。
この戦略の2つの応用として、ドロップアウトベースの正規化の代替として、動的サブグラフトレーニングスキームとして検討する。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:31:14 GMT)
Optimized quantum sensor networks for ultralight dark matter detection [0.0] ダークマター (DM) は、基礎物理学において最も説得力のない未解決問題の一つである。
超軽量DMフィールドに対する感度を高めるために,ネットワークベースの量子センサアーキテクチャを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:38:59 GMT)
Optimal phase-insensitive force sensing with non-Gaussian states [0.0] 本研究では、物理過程が誘導位相空間変位の方向を完全にランダム化する力センシング方式について検討する。
我々は、$Ntextth$Fock状態の占有がゼロでないすべての$Ntextth$Fock状態が、達成可能なセグメンテーションバウンダリに近づくことを発見した。
これらの状態は、損失力学と有限系制御性の下での最大力感度である。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:52:06 GMT)
Optimal Distillation of Coherent States with Phase-Insensitive Operations [0.0] 一般位相非感応操作下でのコヒーレント熱状態の蒸留について検討した。
蒸留体制において最適なプロトコルを見つける。すなわち、入力コピーの数が1よりはるかに多い場合である。
このプロトコルの心臓は、入力コヒーレント熱状態を高い振幅で最適に変換し、振幅と温度が著しく低い出力に変換する位相非感受性チャネルである。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:17:25 GMT)
Optical Interference Effect in Strong-field Electronic Coherence Spectroscopy [0.0] 我々はアルゴンおよび分子性窒素イオン中の強磁場誘起電子コヒーレンスを高強度、低サイクル赤外レーザーパルスで測定した。
これは分子化学における強磁場コヒーレント制御の長期的目標への一歩である。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:38:48 GMT)
One-Time Soft Alignment Enables Resilient Learning without Weight Transport [0.0] バックプロパゲーションは深層学習の基盤であるが、対称的な重量輸送に依存しているため、計算的に高価で生物学的には不可能である。
フィードバックアライメントは、固定されたランダムフィードバックを通じてエラー勾配を近似することで、有望な代替手段を提供する。
そこで本研究では,初期化時のフォワードとフィードバックの重み付けを1回ソフトアライメントすることで,深層ネットワークがバックプロパゲーションに匹敵する性能を実現できることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:34:12 GMT)
On the Hamiltonian with Energy Levels Corresponding to Riemann Zeros [0.0] 固有値 $E_n = rho_n (1-rho_n) $ を持つハミルトニアンが構築されている。
我々はベリー・キーティングのパラダイムを一般化し、モジュラー形式を通して数論情報をハミルトン空間にエンコードする。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:41:20 GMT)
Nonlinear superconducting ring resonator for sensitive measurement of time reversal symmetry broken order [0.0] 時間反転対称性の破れ(TRSB)は、物質のエキゾチックな相を検出する中心である。
量子材料におけるTRSBの高感度な探査のためのマルチモード超伝導リング共振器に基づく新しいスキームを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:00:01 GMT)
Noisy Qudit vs Multiple Qubits : Conditions on Gate Efficiency for Enhancing Fidelity [0.0] 我々は、qudit と $n$-qubit 系の不忠実性スケーリングの比較研究を示す。
リンドブラッド形式における雑音に対する平均ゲート不整合(AGI)の1次応答を計算した。
特定のキューディットプラットフォームは、最先端のキュービットプラットフォームと競合するゲート効率を持つことがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:53:49 GMT)
Nitrogen vacancy center in diamond-based Faraday magnetometer [0.0] ダイヤモンド中の窒素空孔(NV)中心は、磁気学、量子コンピューティング、量子通信に使用される多彩な色中心である。
我々はファラデー効果を用いてNV中心のスピン状態を測定し、そのような測定を用いて新しい磁場センサを開発した。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:02:41 GMT)
Multi-photon QKD for Practical Quantum Networks [0.0] 量子鍵分布(QKD)は、将来的にはあらゆる実用的な量子ネットワークの不可欠な部分になる可能性が高い。
単一光子エミッタとノイズの多い中間量子ハードウェアがないため、今日のネットワークで全てのQKDプロトコルが使用できるわけではない。
本稿では,従来のQKDプロトコルと3段階のQKDプロトコルを比較し,その効率を異なるネットワークトポロジと条件で比較する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:13:58 GMT)
Moment kernels: a simple and scalable approach for equivariance to rotations and reflections in deep convolutional networks [0.0] この同値性は、単純な畳み込みカーネルを用いて達成可能であることを示す。
標準畳み込みモジュールを用いて同変ニューラルネットワークを実装した。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:27:00 GMT)
MSA at SemEval-2025 Task 3: High Quality Weak Labeling and LLM Ensemble Verification for Multilingual Hallucination Detection [0.0] 本稿では,SemEval-2025 Task 3: Mu-SHROOM, The Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakesについて述べる。
このタスクは、複数の言語にまたがる命令チューニングされた大規模言語モデル(LLM)によって生成されたテキスト中の幻覚的スパンを検出することを含む。
我々のシステムはアラビア語とバスク語で第1位、ドイツ語、スウェーデン語、フィンランド語で第2位、チェコ語、ファルシ語、フランス語で第3位にランクインした。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:26:17 GMT)
Localized Weather Prediction Using Kolmogorov-Arnold Network-Based Models and Deep RNNs [0.0] 本研究では,2つの熱帯都市の気温,降水量,気圧を毎日予測するために,textttLSTM, GRU, BiLSTM, BiGRU$, Kolmogorov-Arnold ベースのモデル $(texttKAN および textttTKAN)$ などの深部リカレントニューラルネットワークをベンチマークする。
元の$textttSiLU$ アクティベーション関数を $ textttGeLU$ と $ textttGeLU$ に置き換える。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:01:57 GMT)
Limits of absolute vector magnetometry with NV centers in diamond [0.0] 測定されたスピン共鳴周波数から磁場を決定する実験精度について検討した。
我々は、既知の磁場ベクトルから共振周波数を計算するための正確な、解析的、高速計算式を導出する。
また、Voigtプロファイルを適合モデルとして使用して、測定された共鳴の直線幅を正確に決定する。
論文参考訳(メタデータ) (Tue, 27 May 2025 21:07:43 GMT)
Leveraging Large Language Models for Bengali Math Word Problem Solving with Chain of Thought Reasoning [0.0] ベンガル数学語問題(MWP)の解法は、自然言語処理(NLP)において依然として大きな課題である。
これまで、人間に注釈を付けたBengaliデータセットは、このタスクに対処していない。
8792個のベンガルMWPのデータセットであるSOMADHANを開発した。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:47:10 GMT)
Leveraging GANs for citation intent classification and its impact on citation network analysis [0.0] サイテーションは科学エコシステムにおいて基本的な役割を担い、知識の流れを追跡する基盤となっている。
本稿では,引用意図を分類するGANに基づく手法を採用した。
また,引用意図のフィルタリングが引用ネットワークにおける論文の中央性に与える影響についても検討した。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:16:09 GMT)
Leveraging Diffusion Models for Parameterized Quantum Circuit Generation [0.0] 我々は、量子回路(PQC)を合成するために、拡散モデル(DM)に基づく生成的アプローチを導入する。
我々は,高忠実度グリーンベルガー・ホーネ・ザイリンガー(GHZ)状態の生成に最適化されたPQCを合成し,量子機械学習(QML)分類タスクにおいて高い精度を達成するためのアプローチを実証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:14:58 GMT)
Lecturers' perspectives on the integration of research data management into teacher training programmes [0.0] 本稿では,データリテラシー教育を教員養成プログラムに組み込む方法について述べる。
教育学部の3人の講師とインタビューを行った。
講師は、研究データ管理の話題を、学生にとって非常に関連性が高いと説明している。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:43:06 GMT)
Lazarus Group Targets Crypto-Wallets and Financial Data while employing new Tradecrafts [0.0] 本報告では、悪意のあるソフトウェアサンプルを包括的に分析し、そのアーキテクチャ、行動特性、基礎となる意図を詳述する。
永続メカニズム、コマンド・アンド・コントロール通信、データ流出ルーチンを含むマルウェアの中核機能を識別する。
このマルウェア分析報告は、過去の敵行為を再構築するだけでなく、将来の攻撃を予測し軽減するための堅牢な基盤も確立している。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:13:29 GMT)
JavaSith: A Client-Side Framework for Analyzing Potentially Malicious Extensions in Browsers, VS Code, and NPM Packages [0.0] JavaSithは、Webブラウザ、Visual Studio Code(VSCode)、NodeのNPMパッケージで潜在的に悪意のある拡張を分析する新しいフレームワークである。
本稿では,JavaSithの設計とアーキテクチャについて述べる。
我々は、JavaSithが従来の検出を回避したステルスな悪意のある振る舞いをキャッチできることを実証する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:40:25 GMT)
JITScope: Interactive Visualization of JIT Compiler IR Transformations [0.0] JITScopeは、IRノードと命令がコンパイルフェーズ間でどのように進化するかを示すインタラクティブな視覚化フレームワークである。
我々のロードマップでは、IRノード接続、値、アクセスパターンにおける位相レベルの変化を直感的に表現する。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:57:16 GMT)
Intelligent Incident Hypertension Prediction in Obstructive Sleep Apnea [0.0] 閉塞性睡眠時無呼吸 (OSA) は、間欠性低酸素症と睡眠断片化による高血圧の重要な危険因子である。
本研究では,離散コサイン変換(DCT)に基づく伝達学習を統合し,予測精度を向上させる新しい深層学習手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:29:53 GMT)
Input Convex Kolmogorov Arnold Networks [0.0] 本稿では,コルモゴロフ・アルノルドネットワーク(ICKAN)を用いた入力凸ニューラルネットワークアーキテクチャを提案する。
2つの特定のネットワークが提示される: 1つは低次線型部分、関数の表現、そして普遍近似定理である。
我々は、これらのネットワークが古典的な入力凸ニューラルネットワーク(ICNN)と競合する単純なテストについて示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:56:01 GMT)
In Context Learning with Vision Transformers: Case Study [0.0] 大規模なトランスモデルでは、コンテキスト内学習が可能であることが示されている。
我々は、これを画像空間に拡張して、より複雑な関数をインコンテキストで学習する能力を分析することを目指している。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:22:08 GMT)
Identifying Heart Attack Risk in Vulnerable Population: A Machine Learning Approach [0.0] 本研究は、13の心臓発作危険因子とその感受性を評価する際に、疫学的データを分析するためのハイブリッド機械学習手法を用いている。
この研究は、調査された13のリスク要因に対して、心臓発作を経験する可能性の強い関連性を明らかにしている。
閉経後患者の増悪リスクは、エストロゲン欠乏による個人的リスク要因を損なうことを示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:51:04 GMT)
How Humans and LLMs Organize Conceptual Knowledge: Exploring Subordinate Categories in Italian [0.0] 本研究は,下層部で生産される模範を解析し,分類の組織化を図った最初の試みである。
我々は,187語の具体的単語に対して,人間生成例のイタリア語心理言語学的データセットを提示する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:04:52 GMT)
High-fidelity single-spin shuttling in silicon [0.0] 電気ゲート電位を用いた異方性精製Si/SiGeヘテロ構造中の電子のシャットリングを報告する。
これにより、平均忠実度99.5%の200 ns以下の有効距離10$mu$mで電子を転位させることができる。
これらの結果は,大規模半導体量子プロセッサの実現に向けた今後の取り組みを導くものである。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:54:51 GMT)
Hierarchic superradiant phases in anisotropic Dicke model [0.0] 従来の超ラジアント相はさらに3つの領域に分けることができ、そこでは系が異なる実効ハミルトニアンによって特徴づけられる。
有限系の数値シミュレーションは、階層的超ラジアント相の存在に関する我々の予測を裏付ける。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:22:33 GMT)
Generating Hypotheses of Dynamic Causal Graphs in Neuroscience: Leveraging Generative Factor Models of Observed Time Series [0.0] 複雑なデータセットから科学的仮説を生成する新しい手法を提案する。
提案手法は,予測された動的因果パターンのf1スコアを平均ベースラインで約22~28%改善する。
実際の脳データに関するケーススタディは、我々の方法が特定の行動状態に関連する関係を明らかにする能力を示している。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:06:47 GMT)
Gender and Positional Biases in LLM-Based Hiring Decisions: Evidence from Comparative CV/Résumé Evaluations [0.0] 本研究は,言語モデル (LLM) の履歴やCVに基づく職業的候補の評価における行動について検討する。
すべてのLLMは、70の異なる職業にまたがる女性の名前の候補者を一貫して好んだ。
CVに性フィールド(男性/女性)を追加することで、女性応募者の嗜好がさらに高まった。
論文参考訳(メタデータ) (Tue, 27 May 2025 00:07:04 GMT)
From simulatability to universality of continuous-variable quantum computers [0.0] 理論はどの回路が 古典的にシミュレート可能かを調べます
高度にウィグナー陰性なエスマン・キタエフ・プレスキル状態の回路は時間空間でシミュレートできる。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:00:03 GMT)
From prosthetic memory to prosthetic denial: Auditing whether large language models are prone to mass atrocity denialism [0.0] 大型言語モデル(LLM)の普及は、歴史的物語の普及と認識に影響を及ぼす可能性がある。
本研究は, 生成型AIシステムが人工記憶, すなわち, 歴史的出来事の介在的体験に寄与するかどうかを考察する。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:41:30 GMT)
Forecasting Nigerian Equity Stock Returns Using Long Short-Term Memory Technique [0.0] 株価のリターン予測は投資家の信頼を高める可能性があるが、依然として難しい課題だ。
この問題に対処するために,Long Short-term Memory(LSTM)モデルを用いて,将来の株式市場の動きを予測する研究を行った。
このモデルは、パフォーマンス指標を用いて評価され、人工ニューラルネットワークや畳み込みニューラルネットワーク(CNN)のような他のディープラーニングモデルと比較された。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:34:07 GMT)
Fixed-Point Traps and Identity Emergence in Educational Feedback Systems [0.0] 試験駆動型教育システムがアイデンティティの出現を阻害し、創造的収束を阻害することを証明する。
本モデルは, タイムドテストとグレードベースフィードバックによる創造性抑制, 研究停滞, 構造的エントロピー損失を数学的に説明する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:19:33 GMT)
Fisher information from quantum many-particle arrival time measurements [0.0] ボソニック多粒子系の量子到着時間測定過程を定式化し, 単一粒子の性質に関する統計情報を抽出する。
到着時刻列の確率分布は, 単粒子パラメータの統計的推定のパラメトリックモデルとして検討する。
空間分布には何も情報が残っていないにもかかわらず、単粒子運動量は到着時刻データから実際に特定可能である。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:03:42 GMT)
Faithful Logic Embeddings in HOL -- Deep and Shallow [0.0] 本稿では,古典的高次論理学における深層・浅層埋め込みの同時展開法を提案する。
この手法は論理学の教育、研究、応用に有用であり、ここでは単純な命題のモーダル論理を用いて説明される。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:41:21 GMT)
Facial Attribute Based Text Guided Face Anonymization [0.0] データプライバシ規則は、個人データを処理するための個人の同意の必要性を強調している。
本稿では,この課題を克服するために,ディープラーニングに基づく顔匿名化パイプラインを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:36:35 GMT)
Evaluating link prediction: New perspectives and recommendations [0.0] リンク予測(LP)は、ネットワーク科学と機械学習研究において重要な問題である。
厳密かつ制御された方法でLP手法を評価できる実験装置を提案する。
この制御されたセットアップにおいて、実ネットワークデータセット上の様々なLP手法を用いて広範な実験を行い、慎重に設計された仮説の配列を通して、これらの要因とLPの性能との相互作用についての貴重な知見を収集する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:28:38 GMT)
Evaluating AI cyber capabilities with crowdsourced elicitation [0.0] 我々は、新興AI能力に対する時間的かつ費用対効果の高い状況認識を維持するための実践的なメカニズムとして、Elicitation bountiesを提案する。
METRの手法を適用すると、AIエージェントは中央のヒトCTF参加者から1時間以下の労力を必要とするサイバー課題を確実に解決できることがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 17:45:40 GMT)
Entanglement negativity of general $2 \times (2n+1)$ qubit-qudit system [0.0] 本稿では、一般の$cal H_s (dim2) otimes calH_l (dim2l+1)$ Hilbert space(例えば、スピン-軌道角運動量空間)に作用する純二部量子状態に対する部分転位密度行列のスペクトルの完全な特性を示す。
このスペクトルは1つの負の固有値しか含まないことが分かり、従って量子相関の負性は、還元密度行列の行列式の平方根と等しい($l$-空間上でトレースされる)。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:27:26 GMT)
Engineering continuous-variable entanglement in mechanical oscillators with optimal control [0.0] プロトコルはレーザー駆動のJaynes-Cummingsと反Jaynes-Cummings相互作用の動的位相変調を利用する。
We prepared Two-Mode Squeezed Vacuum (TMSV) state in the Mechanical motions of a trapion。
連続変数の絡み合いを検証し, クラスー=ホルン=シモニー=ホルト不等式に違反する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:01:07 GMT)
Empirical Demonstration of Quantum Contextuality on NISQ Computers [0.0] 我々は、IBMの次世代ノイズ中間スケール量子コンピュータ(NISQ)における非コンテキスト隠れ変数境界の確定的違反を提示する。
これらはIBM NISQコンピュータにおける古典的なメルミンゲームの最初の違反であり、リオ・ネグロの不平等に対する最大の違反である。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:23:48 GMT)
Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism [0.0] 画像前処理のための2段階変換手法であるミドルポイント正規化(MPN)を導入する。
分類パイプラインは、例外的なクラスバランスを維持しながら、93%の精度を達成する。
セグメンテーションタスクでは,MPNを付加した入力を用いて,U-Netアーキテクチャ内の同一の注意ブロックをシームレスに統合する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:14:04 GMT)
EarthOL: A Proof-of-Human-Contribution Consensus Protocol -- Addressing Fundamental Challenges in Decentralized Value Assessment with Enhanced Verification and Security Mechanisms [0.0] 本稿では,ブロックチェーンシステムにおける計算無駄を人間の貢献に置き換えるための新しいコンセンサスプロトコルであるEarthOLを紹介する。
本稿では,暗号セキュリティを維持しつつ,文化的多様性と主観的嗜好を認識するドメイン限定アプローチを提案する。
本稿では,高整合領域におけるインセンティブに適合した人的貢献の検証に向けた有意義な進展を示す理論的解析を行う。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:29:13 GMT)
EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion [0.0] EVM-Fusionは、医療画像分類のための新しいアルゴリズムニューラルネットワークフュージョン(NAF)機構を備えた説明可能な視覚マンバアーキテクチャである。
多様な9クラスの医療画像データセットの実験は、EVM-Fusionの強力な分類性能を示し、99.75%のテスト精度を達成した。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:57:06 GMT)
Dynamics of edge modes in monitored Su-Schrieffer-Heeger Models [0.0] 監視したSu-Schrieffer-Heeger(SSH)モデルにおけるエッジモードのダイナミクスに対する消散の影響について検討する。
チェーンのエッジを散逸から保護することにより、ユニタリ限界に類似した特性を回復することができる。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:21:46 GMT)
Dissecting Physics Reasoning in Small Language Models: A Multi-Dimensional Analysis from an Educational Perspective [0.0] 小型言語モデル (SLM) は計算効率とアクセシビリティを提供する。
本研究では,最先端SLMの物理推論能力について検討した。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:33:13 GMT)
Development of a Multiprocessing Interface Genetic Algorithm for Optimising a Multilayer Perceptron for Disease Prediction [0.0] 本研究では,非線形特徴抽出,分類,効率的な最適化を統合したフレームワークを提案する。
このアプローチをウィスコンシン診断乳がんデータセット,パーキンソン病遠隔モニタリングデータセット,慢性腎疾患データセットの3つのデータセットで評価した。
MIGAによって調整されたアルゴリズムは、乳がんでは99.12%、パーキンソン病では94.87%、慢性腎臓病では100%の精度を達成した。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:11:11 GMT)
Developing hybrid mechanistic and data-driven personalized prediction models for platelet dynamics [0.0] 造血系に対する薬物による損傷である造血毒性は、しばしば化学療法の副作用である。
現在の力学モデルは、不規則または非典型的軌跡の患者に対して、正確な結果を予測するのに苦労することが多い。
化学療法中の血小板数の個人化時系列モデリングのためのハイブリッド力学およびデータ駆動手法の開発と比較を行った。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:52:23 GMT)
DP-RTFL: Differentially Private Resilient Temporal Federated Learning for Trustworthy AI in Regulated Industries [0.0] 本稿では,DP-RTFL(Disferially Private Resilient Temporal Federated Learning)を紹介する。
トレーニングの継続性、正確な状態回復、強力なデータプライバシを保証するように設計されている。
このフレームワークは、機密性の高い財務データを使用した信用リスク評価のような重要なアプリケーションに特に適している。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:30:25 GMT)
Crop recommendation with machine learning: leveraging environmental and economic factors for optimal crop selection [0.0] 農業はインドにおける食料生産、経済成長、雇用の主な源となっている。
作物レコメンデーションシステムのような計算ツールの採用は、農家が生産性の低下に対処するための新しい方法を提供する。
本研究では、15州に19の作物を栽培する環境・経済要因を用いてランダムフォレストとSVMモデルの開発と評価を行った。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:47:56 GMT)
Critical Spectrum and Quantum Criticality in the Two-Photon Rabi-Stark Model [0.0] 2光子ラビスタークモデルのスペクトル特性と量子臨界性について検討する。
対応するギャップは、一光子ラビスタークモデルと量子ラビモデルの両方のモデルと異なり、異なる普遍性クラスを示唆している。
この結果から非線形量子ラビモデルにおける新しいスペクトル現象の新たな知見が得られ,回路QEDおよびトラップイオン系における実験的実現の可能性が示唆された。
論文参考訳(メタデータ) (Tue, 27 May 2025 04:23:44 GMT)
Construction of Metaplectic Representations of $SL_2(\mathbb{Z}_{2^n})$ and Twisted Magnetic Translations [0.0] SL_2(mathbbZ_2n)$ の単位メタプレクティック表現は、2n$次元量子系の進化を記述するために必要である。
メタプレクティックな性質を満たすためには、関与する$n$-qubit ヒルベルト空間の次元が 2n$ から $22n$ に増加する必要がある。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:18:10 GMT)
Computational Reproducibility of R Code Supplements on OSF [0.0] 多くのコードサプリメントは、計算環境を再現するために必要なドキュメントを欠いている。
本研究では,StatCodeSearchデータセットを用いて296のRプロジェクトの計算結果を評価する。
プロジェクトソースコードから直接計算環境を再構築する自動パイプラインを開発した。
論文参考訳(メタデータ) (Tue, 27 May 2025 13:06:38 GMT)
Complex and tunable heating in conformal field theories with structured drives via classical ergodicity breaking [0.0] 本研究では、周期的Thue-Morse列までの構造化ドライブの族について検討する。
我々は,加熱相や非加熱相など,物質の様々な動的相を分類する。
非零測度を持つ別の非加熱相が、純粋にユニタリ CFT を介してアクセス不可能である。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:57:26 GMT)
Complex System Diagnostics Using a Knowledge Graph-Informed and Large Language Model-Enhanced Framework [0.0] 知識グラフ(KG)と大規模言語モデル(LLM)を統合する新しい診断フレームワークを提案する。
本稿では,動的マスター論理(DML)モデルの機能的モデリング原理を基礎とした診断フレームワークを提案する。
補助給水システムに関するケーススタディでは、キー要素の90%以上の精度と一貫したツールと引数抽出により、フレームワークの有効性が示された。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:54:49 GMT)
Competition between heating and cooling effects in an optomechanical oscillator using a squeezed field [0.0] 圧縮光は、光学効果に基づいて検出器の感度を向上させるために利用される有用な現象である。
本研究は, 冷却および加熱効果がスクイーズパラメータと位相に強く依存していることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:53:40 GMT)
Comparison of the Cox proportional hazards model and Random Survival Forest algorithm for predicting patient-specific survival probabilities in clinical trial data [0.0] コックス比例ハザードモデルは、ランダム化比較試験(Randomized Controlled Trials:RCT)から得られるデータを、時間と時間による結果で分析するためにしばしば使用される。
ランダムサバイバルフォレスト(RSF)は、高い予測性能で知られている機械学習アルゴリズムである。
RCTからの2つの参照に基づいて,様々なシミュレーションシナリオにおけるCox回帰とRCFの性能を比較した。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:40:35 GMT)
Comparative study of the butterfly velocity in holographic QCD models at finite temperature and chemical potential [0.0] 有限温度および化学ポテンシャルにおける様々なホログラムQCDモデルにおける量子カオスについて検討する。
我々は3つの異なる手法を用いてカオスパラメータ、蝶の速度の計算に焦点をあてる。
これら3つの手法で検討した全ホログラムQCDモデルに対して,バタフライ速度について同じ結果が得られることを示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:00:46 GMT)
Cluster state as a non-invertible symmetry protected topological phase [0.0] 標準的な 1+1d $mathbbZ tensortimes mathbbZ$ cluster model が非可逆大域対称性を持つことを示す。
これらの非可逆SPT相間の界面におけるエッジモードと局所射影代数を同定する。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:10:36 GMT)
Certified Quantumness via Single-Shot Temporal Measurements [0.0] Bell-Kochen-Speckerの定理は、非コンテキスト隠れ変数理論は量子力学の予測を再現できないというものである。
アシュエル・ペレスは、2つのスピン-1/2粒子の4次元ヒルベルト空間における量子的文脈性の簡単な証明を与えた。
同様の証明をペレス型引数の時間版で提示する。
論文参考訳(メタデータ) (Tue, 27 May 2025 08:57:16 GMT)
Can Small Language Models Learn, Unlearn, and Retain Noise Patterns? [0.0] 小型言語モデル (SLM) は大規模言語モデル (LLM) に代わるコンパクトで実用的な代替品である
本研究では,10億から30億のパラメータを持つSLMを学習し,保持し,その後に異なる種類のノイズを除去する能力について検討した。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:30:52 GMT)
Beyond Explainability: The Case for AI Validation [0.0] 我々は、中央規制柱としての検証へのシフトを主張する。
AI出力の信頼性、一貫性、堅牢性を保証するバリデーションは、説明可能性に対してより実用的で、スケーラブルで、リスクに敏感な代替手段を提供する。
本稿では,事前・後検証,第三者監査,調和標準,債務インセンティブを中心に,先進的な政策枠組みを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 06:42:41 GMT)
Beyond Accuracy: Uncovering the Role of Similarity Perception and its Alignment with Semantics in Supervised Learning [0.0] 本稿では,Deep similarity Inspector(DSI)について紹介する。
実験の結果,畳み込みニューラルネットワーク (CNN) とビジョントランスフォーマー (ViT) の両方が,3段階のトレーニングにおいて,リッチな類似性知覚を発達させることがわかった。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:32:10 GMT)
Assessing the Use of Face Swapping Methods as Face Anonymizers in Videos [0.0] 顔のスワップは一貫した顔の遷移を生じさせ、映像データのアイデンティティを効果的に隠すことができる。
結果は、プライバシー保護ビデオアプリケーションに対する顔交換の適性を強調し、匿名化に焦点を当てた顔スワッピングモデルにおける将来の進歩の基盤を固めた。
論文参考訳(メタデータ) (Tue, 27 May 2025 10:19:11 GMT)
Assessing and Refining ChatGPT's Performance in Identifying Targeting and Inappropriate Language: A Comparative Study [0.0] 本研究では、自然言語処理のための高度なAIモデルであるChatGPTの有効性を評価し、オンラインコメントにおけるターゲティングと不適切な言語を特定する。
我々はChatGPTの性能をクラウドソースアノテーションと専門家評価と比較し,その正確性,検出範囲,一貫性を評価した。
論文参考訳(メタデータ) (Tue, 27 May 2025 19:53:12 GMT)
Apprenticeship learning with prior beliefs using inverse optimization [0.0] 意思決定プロセス(MDP)の逆形式強化学習(IRL)と逆性強化学習(IO)は、文献において比較的過小評価されている。
我々は、正規化項が欠落している場合、ALフォーマリズムは我々のフレームワークにおいて特別なケースであると主張する。
数値実験は、学習コストベクトルとポリシーにおける正規化の重要な役割を強調している。
論文参考訳(メタデータ) (Tue, 27 May 2025 18:12:04 GMT)
An average case efficient algorithm for solving two-variable linear Diophantine equations [0.0] 2変数線型ディオファント方程式を解くために2つのアルゴリズムを再検討する。
固定値$a$,$b$および$a$の変動$c$の場合、再帰の数は周期関数である。
提案アルゴリズムは,既存の2つのアルゴリズムに対する平均反復回数の観点から,より優れた性能を示す。
論文参考訳(メタデータ) (Tue, 27 May 2025 07:31:15 GMT)
An Uncertainty-Aware ED-LSTM for Probabilistic Suffix Prediction [0.0] 本稿では,接尾辞の確率分布を近似する新しい手法を提案する。
提案手法は,Uncertainty-Aware-Decoder LSTM (U-ED-LSTM) とモンテカルロサフィックスサンプリングアルゴリズムに基づく。
本技術報告では,U-ED-LSTMの予測性能を詳細に評価し,実際のイベントログのキャリブレーションを評価する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:33:05 GMT)
Absolute Risk Prediction for Cannabis Use Disorder in Adolescence and Early Adulthood Using Bayesian Machine Learning [0.0] 大麻使用障害(CUD)の新しい絶対リスク予測モデルを開発した。
提案モデルには, 生物学的性, 怠慢, 個性特性, 神経性, 開放性のスコアの5つのリスク因子がある。
論文参考訳(メタデータ) (Tue, 27 May 2025 20:57:38 GMT)
AI Agent Governance: A Field Guide [0.0] エージェント - 世界の目標を自律的に達成できるAIシステムは、先進的なテック企業、AIスタートアップ、投資家の主要な焦点である。
有能なエージェントが大量に配置される未来は、社会に変革的な利益をもたらすだけでなく、深遠で新しいリスクをもたらす可能性がある。
社会団体、公共研究機関、フロンティアAI企業など、この課題に積極的に取り組んでいる研究者はごくわずかだ。
論文参考訳(メタデータ) (Tue, 27 May 2025 22:26:51 GMT)
ADA: Automated Moving Target Defense for AI Workloads via Ephemeral Infrastructure-Native Rotation in Kubernetes [0.0] ADAは、これらのワークロードをインフラストラクチャレベルで継続的に、かつ自動的に回転させることで運用する。
この定期的な管理されたチャーンは攻撃者の仮定を無効にし、潜在的なキルチェーンを妨害する。
AMTDに対するADAの新たなアプローチは、AIサービスに対してより堅牢で、アジャイルで、運用的に効率的なゼロトラストモデルを提供します。
論文参考訳(メタデータ) (Tue, 27 May 2025 02:24:45 GMT)
A reinforcement learning agent for maintenance of deteriorating systems with increasingly imperfect repairs [0.0] 機械学習の技術は、エンジニアリングとメンテナンスでますます使われ始めており、強化学習は最も有望な1つだ。
本稿では, 補修が不完全な新しい保守モデルとともに, ガンマ分解プロセスを提案する。
このシステムのメンテナンスポリシを生成するために,Double Deep Q-Networkアーキテクチャを用いた強化学習エージェントを開発した。
論文参考訳(メタデータ) (Tue, 27 May 2025 05:14:29 GMT)
A miniaturized magnetic field sensor based on nitrogen-vacancy centers [0.0] ダイヤモンド中の窒素空孔(NV)中心は、量子センシング技術の主要な候補である。
完全一体型で機械的に頑健な繊維ベースの内視鏡センサーで、先端径は1.25 Mathrmmm$である。
このセンサーは、5.9マンタームT/sqrtmathrmHz$のショットノイズ制限磁場感度を、15マンタームm$のマイクロダイアモンドで50マンターmmW$のマイクロ波パワーで達成し、光学パワーは2.15マンタームである。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:29:50 GMT)
A first look at ROS~2 applications written in asynchronous Rust [0.0] ROS2の既存のリアルタイムスケジューリングとレスポンスタイム分析技術は、C++で記述されたアプリケーションに焦点を当てている。
非同期のRust ROS2バインディングとさまざまな非同期のRustランタイムであるR2Rの実行モデルを分析します。
本稿では,スレッド優先化とコールバック・ツー・スレッドマッピング方式を含む決定論的リアルタイム操作を目的としたR2Rアプリケーションの構造化手法を提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 15:21:58 GMT)
A dynamic theory of entanglement for uniformly accelerated atoms [0.0] 開量子系の理論を用いて加速原子の絡み合いのダイナミクスを研究する。
エンタングルメント収穫と突然死現象における適切な加速による基礎的役割について論じる。
論文参考訳(メタデータ) (Tue, 27 May 2025 14:26:51 GMT)
A domain adaptation neural network for digital twin-supported fault diagnosis [0.0] ディジタル双生児は、ディープラーニングベースの障害診断に十分なラベル付きデータがないという、有望な解決策を提供する。
シミュレーションと実世界のシステムとの相違は、モデルが実際のシナリオに適用された場合、パフォーマンスを著しく低下させる可能性がある。
本稿では,シミュレーションから実世界のデータへの知識伝達を可能にする,DANN(Domain-Adversarial Neural Networks)に基づく故障診断フレームワークを提案する。
論文参考訳(メタデータ) (Tue, 27 May 2025 11:27:05 GMT)
A Predicting Phishing Websites Using Support Vector Machine and MultiClass Classification Based on Association Rule Techniques [0.0] 本研究では,2つのアルゴリズム,SVM(Support Vector Machines)とMCAR(Multi-class Classification Rules)を統合することにより,フィッシングWebサイトを予測する強力な,より優れた方法を確立することに関心がある。
このアプローチの有効性を検証するために,PhishTankディレクトリとyahooディレクトリから合計11,056のWebサイトを使用した。
その結果,最小誤差率で計算時間2205.33sで98.30%の分類精度を達成した。
論文参考訳(メタデータ) (Tue, 27 May 2025 12:52:34 GMT)
A Physics-Augmented GraphGPS Framework for the Reconstruction of 3D Riemann Problems from Sparse Data [0.0] スパース観測から標準圧縮可能な流れを再構築するための機械学習レシピであるGraphGPSを開発した。
我々は、既知のノードのみから情報が厳密に流れるように、メッセージパッシングを変更する。
GraphGPSフレームワークは、多くの機械学習ベンチマークより優れていることも示しています。
論文参考訳(メタデータ) (Tue, 27 May 2025 16:49:58 GMT)
A Concentration Bound for TD(0) with Function Approximation [0.0] 私たちは、マルコフ連鎖の1つのサンプルパスからサンプルを採取して、オンラインTD学習に取り組みます。
我々は、TD(0) をマルティンゲールとマルコフの雑音による縮約近似アルゴリズムとして扱う。
論文参考訳(メタデータ) (Tue, 27 May 2025 01:29:10 GMT)