SafeCFG: Controlling Harmful Features with Dynamic Safe Guidance for Safe Generation [125.1] 拡散モデル (DM) はテキストから画像へのタスクにおいて例外的な性能を示した。
CFGを介して画像生成プロセスを悪意的に導くことにより、より有害な画像を生成するために使用できる。
動的安全誘導を用いて有害な特徴を適応的に制御するSafeCFGを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:01:59 GMT)
SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.2] 手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:11:30 GMT)
Theoretical guarantees on the best-of-n alignment policy [110.2] 我々は、KLの最良のn$ポリシーと参照ポリシーのKL分岐が、実際のKL分岐の上限であることを示す。
そこで本研究では,KLの発散に対する新しい推定器を提案し,その近似が厳密であることを実証的に示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違点を分析することで締めくくった。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:30:18 GMT)
On-Policy RL with Optimal Reward Baseline [109.5] On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:58:04 GMT)
HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.1] 提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。
実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:57:01 GMT)
Self-Evolving Curriculum for LLM Reasoning [108.2] 自己進化カリキュラム(Self-Evolving Curriculum, SEC)は、RLファインチューニングプロセスと並行してカリキュラムポリシーを学習する自動カリキュラム学習手法である。
実験により、SECはモデルの推論能力を大幅に改善し、より困難で配布外のテスト問題へのより良い一般化を可能にした。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:28:38 GMT)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2] Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:09:28 GMT)
Cross-Modal Causal Intervention for Medical Report Generation [107.8] 放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:27:32 GMT)
Bayesian Neural Scaling Laws Extrapolation with Prior-Fitted Networks [100.1] スケーリング法則は、しばしばパワーローに従っており、より大きなスケールでのスケーリングの振る舞いを予測するために、パワーロー関数のいくつかの変種を提案した。
既存の手法は主に点推定に依存しており、現実のアプリケーションにとって欠かせない不確実性を定量化しない。
本研究では,ニューラルスケーリング法外挿のためのPFNに基づくベイズフレームワークについて検討する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:19:17 GMT)
Diffusion Guidance Is a Controllable Policy Improvement Operator [98.1] CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:06:50 GMT)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.5] Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:59:00 GMT)
BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.9] BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:33:29 GMT)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.3] We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:28:02 GMT)
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.2] テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。
Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:15:48 GMT)
Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought [83.9] 我々は、新しい視覚的注意基盤機構で制限に対処するためにArgusを導入する。
提案手法では、物体中心の接地を視覚的連鎖信号として採用し、より効果的な目標条件付き視覚的注意を可能にする。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:56 GMT)
Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch [80.9] スケッチデータに特化して設計された効率的な推論についての研究はない。
私たちはまず、写真用に設計された既存の最先端の効率的な軽量モデルがスケッチで動かないことを実証する。
次に、スケッチデータに適応させるために、任意の光効率ネットワーク上で、プラグ・n・プレイ方式で機能するスケッチ特化コンポーネントを2つ提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:51 GMT)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.8] PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:42:37 GMT)
Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns [79.4] プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。
PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。
既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。
Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:26:53 GMT)
SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins [78.5] 無線対応経路計画フレームワークであるSCoTTを提案する。
SCoTT は DP-WA* の2% 以内で経路ゲインを達成し, 連続的に短い軌道を生成できることを示す。
また,ガゼボシミュレーションにおいて,SCoTTをROSノードとして配置することにより,本手法の実用性を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:45:00 GMT)
ZeroGUI: Automating Online GUI Learning at Zero Human Cost [75.2] 我々は、ZeroGUIを提案する。ZeroGUIは、Zeroの人的コストでGUIエージェントのトレーニングを自動化する、スケーラブルでオンライン学習フレームワークである。
具体的には、(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標を生成するとともに、(ii)手作り評価機能なしでタスク成功を評価するためのVLMベースの自動報酬推定と、(iii)GUI環境と継続的に対話し学習するための2段階オンライン強化学習を統合する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:51 GMT)
SafeCOMM: What about Safety Alignment in Fine-Tuned Telecom Large Language Models? [74.5] テレコムタスクとデータセットのための細調整された大型言語モデル(LLM)は、汎用モデルをテレコムドメインに適応させる一般的なプラクティスである。
近年の研究では、良質な微調整でさえLLMの安全性を低下させ、有害なユーザークエリや非倫理的なユーザクエリに応答させることが示されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:31:51 GMT)
Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.4] RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。
彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。
本稿では,自己疑念の観点から,過剰思考を定量的に分析する。
本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:30:02 GMT)
Joint Localization and Activation Editing for Low-Resource Fine-Tuning [73.6] 本稿では,JoLA(Joal Localization and activation editing)法を提案する。
JoLAは(1)Transformerのどのヘッダーを編集するか、(2)介入が加法的、乗法的、または両方であるべきか、(3)介入パラメータ自体を学習する。
JoLAは既存のメソッドよりも一貫して優れています。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:57:31 GMT)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.3] PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:55:49 GMT)
Are Reasoning Models More Prone to Hallucination? [70.0] 最近進化した大推論モデル(LRM)は、長いチェーン・オブ・シークレット(CoT)推論能力を持つ複雑なタスクを解く上で、強力な性能を示している。
推論モデルは幻覚の傾向が強いか?
本稿では3つの観点からその問題に対処する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:53:41 GMT)
A Tutorial on Meta-Reinforcement Learning [69.8] 我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:17:01 GMT)
RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark [69.2] Combinatorial Optimization(CO)は、ロジスティクスやスケジューリング、ハードウェア設計、リソース割り当てなど、いくつかの現実世界のアプリケーションに基本である。
深層強化学習は、CO問題を解決し、ドメインの専門知識への依存を減らし、計算効率を向上する上で大きなメリットを示している。
RL4COは27のCO問題環境と23の最先端ベースラインの詳細なライブラリカバレッジを備えた統一ベンチマークである。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:04:16 GMT)
LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering [68.9] メモリ制約デバイス上での3次元ガウススプラッティングのための新しいレベル・オブ・ディーテール(LOD)法を提案する。
カメラ距離に基づいてガウスの最適部分集合を反復的に選択する。
本手法は,屋外(階層型3DGS)と屋内(Zip-NeRF)の両方で最先端の性能を実現する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:50:57 GMT)
AntiLeakBench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.4] 既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。
本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:19:42 GMT)
SplitLoRA: Balancing Stability and Plasticity in Continual Learning Through Gradient Space Splitting [68.0] 継続的な学習には、安定性を保ちながら複数のタスクを連続的に学習するモデルが必要である。
グラディエント・プロジェクションはCLにおいて有効で一般的なパラダイムとして現れ、以前に学習したタスクの勾配空間を2つの部分空間に分割する。
新しいタスクは小部分空間内で効果的に学習され、これにより以前取得した知識との干渉が軽減される。
既存の勾配射影法は、勾配空間を適切に分割することが困難であるため、塑性と安定性の最適なバランスを達成するのに苦労する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:46:35 GMT)
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.1] VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:55:52 GMT)
EquiReg: Equivariance Regularized Diffusion for Inverse Problems [67.0] 拡散に基づく逆問題解法における後方サンプリングを正規化するためのフレームワークであるEquiReg拡散法を提案する。
様々な解法に適用すると、EquiRegは線形および非線形画像復元タスクにおいて最先端の拡散モデルより優れる。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:25:43 GMT)
Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [67.0] 大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:39:51 GMT)
Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.9] フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:59:18 GMT)
Bayesian Perspective on Memorization and Reconstruction [66.5] 本研究では,特定の環境において,再建攻撃を確実に防止する新たなセキュリティ定義を提案する。
これらの攻撃は、再建攻撃ではなく、会員推測攻撃の一種である、と我々は主張する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:08:19 GMT)
M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes [66.4] M3Benchは、モバイル操作タスクにおける全身の動き生成のための新しいベンチマークである。
M3Benchは、119の多様なシーンに3万のオブジェクト再構成タスクを備えている。
M3BenchとM3BenchMakerは、より適応的で有能なモバイル操作に向けたロボティクスの研究を進めることを目指している。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:19:21 GMT)
OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance [65.5] 視覚言語命令チューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。
我々は、データ、モデル、メモリの観点から計算負荷を再均衡させ、デバイス間でよりバランスのとれた計算を実現する。
提案手法の有効性と一般化性は,様々なモデルやデータセットにまたがってさらに検証される。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:56:52 GMT)
Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.5] 不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。
我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。
本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:47:50 GMT)
A Statistical Learning Perspective on Semi-dual Adversarial Neural Optimal Transport Solvers [65.3] 本稿では,ミニマックス二次OT解法により得られた近似OT写像の一般化誤差の上限を確立する。
解析は2次OTに焦点をあてるが、同様の境界は一般的なOTの場合に導出され、将来の研究に期待できる方向を踏むことができると信じている。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:15:10 GMT)
OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation [65.2] 専門的な実行から戦略的計画を切り離す階層的なマルチエージェントフレームワークであるWorkforceを紹介します。
推論中、Workforceはワーカーエージェントの追加や修正によって新しいドメインにシームレスに適応する。
トレーニングには、ドメイン間の一般化を改善する最適化されたワークフォース学習(OWL)を導入する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:51:58 GMT)
Learning Compositional Functions with Transformers from Easy-to-Hard Data [64.0] 我々は、$k$入力置換と$k$隠れ置換のインターリーブ構成を計算しなければならない$k$フォールド合成タスクの学習可能性について検討する。
この関数クラスは、$O(log k)$-depth変換器への勾配降下により、実行時とサンプルを$k$で効率的に学習できることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:22:00 GMT)
Scaling up the think-aloud method [63.9] 本研究では,自然言語処理ツールを用いた推論の言語レポートの書き起こしとアノテーションの自動化手法を開発した。
本研究では、640人の参加者が、数学推論タスクであるGame of 24をプレイしながら声を上げた。
本研究は, 大規模思考情報の価値を実証し, 言論報告の自動分析のための概念実証として機能する。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:26:23 GMT)
Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.9] マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:24:37 GMT)
DeepTheorem: Advancing LLM Reasoning for Theorem Proving Through Natural Language and Reinforcement Learning [63.1] DeepTheoremは、数学的推論を強化するために自然言語を活用する包括的な非公式な定理証明フレームワークである。
DeepTheoremには、121Kの高品質なIMOレベルの非公式な定理と証明からなる大規模なベンチマークデータセットが含まれている。
我々は、証明された定理の変種を利用して堅牢な数学的推論を動機付けることによって、非公式な定理証明に適した新しい強化学習戦略(RL-Zero)を考案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:39 GMT)
From Images to Signals: Are Large Vision Models Useful for Time Series Analysis? [62.6] トランスフォーマーベースのモデルは、時系列研究において注目を集めている。
分野がマルチモダリティに向かって進むにつれ、LVM(Large Vision Models)が有望な方向として現れつつある。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:05:28 GMT)
DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.4] 大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:26:52 GMT)
Matryoshka Model Learning for Improved Elastic Student Models [62.2] MatTAは、新しいTeacher-TA-Studentレシピを使用して、複数の正確な学生モデルをトレーニングするためのフレームワークである。
本手法はパブリックモデルであるGPT-2 Medium上で実証し,SAT Mathで24%,LAMBADAベンチマークで10%以上の相対的な改善を実現した。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:54:58 GMT)
GeoMan: Temporally Consistent Human Geometry Estimation using Image-to-Video Diffusion [62.0] GeoManは、単眼の人間のビデオから正確で時間的に一貫した深さと正常な推定を生成するように設計された新しいアーキテクチャである。
高品質な4Dトレーニングデータの不足と、人間のサイズを正確にモデル化するための計量深度推定の必要性に対処する。
定性評価と定量的評価の両方において最先端の性能を達成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:41:04 GMT)
Test-Time Training Done Right [61.8] テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。
既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。
我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:50:34 GMT)
Differentially Private Space-Efficient Algorithms for Counting Distinct Elements in the Turnstile Model [61.4] ターンタイルストリーミングモデルにおいて、異なる要素を数えるという根本的な問題に対して、最初のサブ線形空間を微分プライベートなアルゴリズムを与える。
本結果は, 線形問題である最先端アルゴリズムの空間要求を著しく改善する。
ストリームにアイテムが現れる回数の制限付き$W$が分かっている場合、我々のアルゴリズムは$tildeO_eta(sqrtW)$ space.sqrtW)$ additive errorを提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:21:20 GMT)
LEXam: Benchmarking Legal Reasoning on 340 Law Exams [61.3] LEXamは、様々な科目と学位レベルの116の法学校コースにまたがる340の法試験から派生した、新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験の質問で構成されており、その中には2,841の長文のオープンエンドの質問と2,045のマルチチョイスの質問が含まれている。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:37:57 GMT)
Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs [61.1] 本研究は, 自己整合誤差を正式に定義し, 主流検出手法の評価を行う。
4種類の検出メソドは全て、自己整合性エラーを検出するのにかなり苦労している。
自己整合性誤差がLLM間でしばしば異なるという観測結果から, 単純かつ効果的なクロスモデルプローブ法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:51:44 GMT)
Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.8] オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:41:45 GMT)
EmoBench-UA: A Benchmark Dataset for Emotion Detection in Ukrainian [60.6] EmoBench-UAはウクライナのテキストで感情を検出するための最初の注釈付きデータセットである。
その結果,ウクライナ語のような非主流言語における感情分類の課題が浮き彫りになった。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:49:57 GMT)
ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents [60.3] Role-Playing Language Agents (RPLA) は、現実的で魅力的な人間とコンピュータのインタラクションのために文字をシミュレートすることを目的としている。
キャラクタに基づくアクト適応リワードモデルであるChARMを提案する。
RPLAに特化した最初の大規模嗜好データセットであるRoleplayPrefを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:15:18 GMT)
LLM Agents Should Employ Security Principles [60.0] 本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:39:08 GMT)
Beyond Optimal Transport: Model-Aligned Coupling for Flow Matching [60.0] フローマッチング(FM)は、サンプルをソース分布からターゲット分布へ輸送するベクトル場を学習するモデルを訓練するための効果的なフレームワークである。
本稿では,幾何距離に基づく学習結合を効果的にマッチングするモデル結合結合(MAC)を提案する。
実験により、MACは既存の手法と比較して、数ステップ設定で生成品質と効率を著しく改善することが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:10:41 GMT)
One Model for One Graph: A New Perspective for Pretraining with Cross-domain Graphs [59.7] 複雑なネットワークパターンをキャプチャする強力なツールとして、グラフニューラルネットワーク(GNN)が登場した。
既存のGNNには、慎重にドメイン固有のアーキテクチャ設計と、データセットのスクラッチからのトレーニングが必要です。
我々は、新しいクロスドメイン事前学習フレームワーク「1つのグラフのための1つのモデル」を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:35:49 GMT)
Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.7] P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。
理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:31:41 GMT)
A Reverse Causal Framework to Mitigate Spurious Correlations for Debiasing Scene Graph Generation [59.5] シーングラフ生成(SGG)フレームワークは通常、関係の特徴を抽出する検出器と、それらの関係を分類する分類器を備えている。
このような因果連鎖構造は、検出器の入力と最終的な予測の間に急激な相関をもたらす。
本稿では、因果連鎖構造を逆因果構造に再構築し、分類器の入力を共同創設者として扱うことを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:57:01 GMT)
Understanding the Information Propagation Effects of Communication Topologies in LLM-based Multi-Agent Systems [59.0] 提案手法は, エージェントの出力の正確さ, 誤動作の有無を, 異なる範囲の位相の下で伝達する因果関係を解析するための枠組みである。
実験により,有益な情報拡散を保ちながらエラーの伝播を効果的に抑制する,適度に疎らなトポロジが,通常最適なタスク性能を達成できることが判明した。
本稿では,高密度グラフとスパースグラフの両方から接続パターンを融合させることにより,エラー抑制と有益な情報伝達のバランスをとる新しいトポロジ設計手法 EIB-leanrner を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:21:48 GMT)
Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs [58.2] 本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。
異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:19:07 GMT)
Textured Gaussians for Enhanced 3D Scene Appearance Modeling [58.1] 3D Gaussian Splatting (3DGS)は最先端の3D再構成およびレンダリング技術として登場した。
本稿では,それぞれにα(A), RGB, RGBAテクスチャマップを付加した一般化されたガウスの外観表現を提案する。
類似または少ないガウス数を用いて,既存の手法に比べて画質が向上したことを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:41:22 GMT)
A Statistical Framework for Ranking LLM-Based Chatbots [57.6] 本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:59:03 GMT)
ChatHuman: Chatting about 3D Humans with Tools [57.3] ChatHumanは、特殊なメソッドの機能を統一されたフレームワークに統合する、言語駆動のシステムである。
ChatHumanは、3Dヒューマンタスクに特化したツールの利用、分析、相互作用に熟練したアシスタントとして機能する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:29:37 GMT)
Minute-Long Videos with Dual Parallelisms [57.2] Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:34:08 GMT)
AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views [57.1] AnySplatは、未校正画像コレクションから新しいビューを合成するためのフィードフォワードネットワークである。
単一のフォワードパスは、シーン幾何学と外観の両方をコードする3Dガウスプリミティブのセットを生成する。
広範囲なゼロショット評価では、AnySplatはスパースと高密度の両方のビューシナリオにおいて、ポーズを意識するベースラインの品質にマッチする。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:49:56 GMT)
DaWin: Training-free Dynamic Weight Interpolation for Robust Adaptation [57.1] 本研究では,各未ラベルテストサンプルに対する個々のモデルのエントロピーを利用するトレーニングフリーな動的重み付け手法であるDaWinを提案する。
我々は,DaWinが計算オーバーヘッドを最小限に抑えながら,考慮した設定で大幅な性能向上を実現していることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:03:14 GMT)
Hyperspherical Normalization for Scalable Deep Reinforcement Learning [57.0] SimbaV2は最適化を安定させるために設計された新しい強化学習アーキテクチャである。
57の連続制御タスクにおいて、より大きなモデルとより大きな計算で効果的にスケールアップし、最先端のパフォーマンスを達成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:58:32 GMT)
Best Arm Identification with Possibly Biased Offline Data [57.0] 固定された信頼度設定において、潜在的にバイアスのあるオフラインデータを用いた最適な腕識別問題について検討する。
補助バイアス補正を組み込んだLUCB-Hアルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:58:49 GMT)
Offline Learning for Combinatorial Multi-armed Bandits [57.0] Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:11:10 GMT)
FreRA: A Frequency-Refined Augmentation for Contrastive Learning on Time Series Classification [56.9] 周波数領域からの新たな視点を示し、ダウンストリーム分類の利点として、グローバル、独立、コンパクトの3つを識別する。
本稿では,分類タスクにおける時系列のコントラスト学習に適した,軽量で効果的な周波数補充拡張(FreRA)を提案する。
FreRAは、時系列分類、異常検出、転送学習タスクにおいて、常に10つの主要なベースラインを上回ります。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:18:28 GMT)
X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents [56.6] チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すかどうかを調べる。
従来の設定では、各参加者は一度に1つのメッセージに制限される。
本稿では,textitburstダイアログパターンを用いて,元のテストを強化するtextbftextscX-Turingを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:08:23 GMT)
Characterizing the Expressivity of Transformer Language Models [56.6] 厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。
これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。
さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:30:30 GMT)
Vid-SME: Membership Inference Attacks against Large Video Understanding Models [56.3] ビデオ理解モデル(VULLM)で使用されるビデオデータに適した,最初の会員推論手法であるVid-SMEを紹介する。
自然なビデオフレームと時間的に反転したビデオフレームのSME差を利用して、Vid-SMEは、与えられたビデオがモデルのトレーニングセットの一部であるかどうかを判断するロバストなメンバーシップスコアを導出する。
様々な自己学習およびオープンソースVULLMの実験は、Vid-SMEの強力な有効性を示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:17:25 GMT)
Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [56.3] 知識グラフ質問 回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。
広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。
我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。
本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:44:52 GMT)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [56.2] 大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:56:28 GMT)
Supervised binary classification of small-scale digit images and weighted graphs with a trapped-ion quantum processor [56.1] 捕捉された171ドルYb$+$イオンに基づく量子プロセッサのベンチマーク結果を示す。
リングトポロジを持つ小さな二進数画像と重み付きグラフの2種類のデータセットに対して、教師付き二進分類を行う。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:45:54 GMT)
Discriminative Policy Optimization for Token-Level Reward Models [56.0] プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:40:34 GMT)
Zero-P-to-3: Zero-Shot Partial-View Images to 3D Object [55.9] そこで本研究では,局所的な高密度観測と複数ソースの事前情報を統合した学習自由手法を提案する。
本手法では, DDIMサンプリングにおいて, これらの先行情報を効果的に整合させる融合方式を導入し, 多視点一貫した画像を生成し, 見えない視界を監督する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:51:37 GMT)
X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.8] X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:20:42 GMT)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.8] 本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:20:04 GMT)
HPS: Hard Preference Sampling for Human Preference Alignment [55.1] HPS(Hard Preference Sampling)は、堅牢で効率的な人間の選好アライメントのための新しいフレームワークである。
HPSはアライメント品質を維持しながら計算オーバーヘッドを低減する。
HH-RLHFとPKU-Safetyデータセットの実験はHPSの有効性を検証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:52:13 GMT)
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics [55.1] 本稿では,ロボット制御に特化して具体的推論を強化するため,強化学習を活用した新しいフレームワークであるRobot-R1を紹介する。
DeepSeek-R1学習アプローチにインスパイアされたRobot-R1は、推論に基づく応答をサンプリングし、より正確な予測につながるものを強化する。
実験の結果,ロボットR1で訓練したモデルは,具体的推論タスクにおいて,SFT法よりも優れていた。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:41:12 GMT)
Weight Spectra Induced Efficient Model Adaptation [54.9] 微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:03:29 GMT)
Nearly Optimal Sample Complexity for Learning with Label Proportions [54.7] トレーニングセットの例をバッグにグループ化する部分情報設定であるLLP(Learning from Label Proportions)について検討する。
部分的な可観測性にもかかわらず、ゴールは個々の例のレベルで小さな後悔を達成することである。
我々は, LLPの2乗損失下でのサンプル複雑性について, 標本複雑性が本質的に最適であることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:12:53 GMT)
A Signed Graph Approach to Understanding and Mitigating Oversmoothing in GNNs [54.6] 署名されたグラフの枠組みに基づく統一的な理論的視点を示す。
既存の戦略の多くは、メッセージパッシングを変えて過度な操作に抵抗する負のエッジを暗黙的に導入している。
本稿では,ラベルや特徴の類似性に基づいて署名されたエッジを割り当てるプラグイン・アンド・プレイ方式であるStructure Balanced Propagation (SBP)を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:12:40 GMT)
Inference-time Scaling of Diffusion Models through Classical Search [54.5] 本稿では,局所的およびグローバルな探索を編成し,生成空間を効率的にナビゲートする汎用フレームワークを提案する。
我々は,計画,オフライン強化学習,画像生成など,さまざまな課題領域に対するアプローチを評価した。
その結果,古典探索は拡散モデルにおける推論時間スケーリングの原理的かつ実践的な基礎を提供することを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:22:40 GMT)
ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.5] ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:38 GMT)
OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.2] 現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。
OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。
提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:25:27 GMT)
Tensor Product Attention Is All You Need [53.7] プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
TPAに基づいて、シーケンスモデリングのための新しいモデルアーキテクチャであるProduct Attention Transformer(T6)を紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:01:23 GMT)
PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes [53.6] 粗い3Dアノテーションとノイズの多い2Dセマンティックキューを組み合わせて高品質なパノプティカルラベルを生成する新しいアプローチであるPanopticNeRF-360を提案する。
実験では,KITTI-360データセット上でのラベル転送方式に対するPanopticNeRF-360の最先端性能を実証した。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:48:45 GMT)
Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.4] In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究は,辞書,文法書,検索した並列例などの資源の種類が翻訳性能に与える影響を系統的に検討する。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:42:17 GMT)
A Materials Foundation Model via Hybrid Invariant-Equivariant Architectures [53.3] 機械学習の原子間ポテンシャル(MLIP)は材料のエネルギー、力、ストレスを予測する。
MLIPにおける重要な設計選択は、不変アーキテクチャと同変アーキテクチャのトレードオフである。
HIENetは、不変層と同変層の両方を統合した、ハイブリッド不変・同変物質間ポテンシャルモデルである。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:37:39 GMT)
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models [53.2] 現在のテキスト・トゥ・ビデオ(T2V)モデルは、物理的にもっともらしいコンテンツを生成するのに苦労することが多い。
本稿では,基礎モデルから物理理解能力を抽出し,基礎モデルからT2Vモデルへ変換するビデオREPAを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:06:44 GMT)
A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.2] 思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:55:05 GMT)
Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.2] 重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。
本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。
実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:47:48 GMT)
Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning [53.1] TRCoT(Theorem-d Reverse Chain-of-Thought Reasoning Synthesis)フレームワークについて述べる。
最初の段階であるTR-Engineは、構造的な記述と性質を持つ定理基底幾何学図を合成する。
第2段階であるTR-Reasonerは、幾何特性と記述フラグメントを交互に検証することで、反復的に質問と回答のペアを洗練するためのリバース推論を採用している。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:53:39 GMT)
SPRI: Aligning Large Language Models with Context-Situated Principles [53.1] Situated-PRInciples (SPRI) は、各入力クエリに対して、リアルタイムでガイド原則を自動生成し、各レスポンスを整合させるように設計されている。
我々は,SPRIを3つのタスクで評価し,SPRIが複雑なドメイン固有のタスクの原理を導出できることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:20:34 GMT)
LAFR: Efficient Diffusion-based Blind Face Restoration via Latent Codebook Alignment Adapter [52.9] 低品質(LQ)画像からのブラインド顔復元は、高忠実度画像再構成と顔認証の保存を必要とする課題である。
LAFRは,LQ画像の潜時分布とHQ画像の潜時分布を一致させる,新しいコードブックベースの潜時空間アダプタである。
FFHQデータセットのわずか0.9%での拡散の軽量な微調整は、最先端の手法に匹敵する結果を得るのに十分であることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:11:16 GMT)
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.8] マルチモーダル大規模言語モデル(mLLM)は大量のテキストイメージデータに基づいて訓練される。
mOSCARは、ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスである。
163言語、303M文書、200Bトークン、1.15B画像を含む。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:12:18 GMT)
DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors [52.5] トレーニング中にベンチマークテストセットを使用したモデルを識別するためにバックドアアタックを利用するフレームワークであるDiePackを紹介します。
銀行が染料パックにお金を混ぜて強盗をマークするのと同じように、DiePackはバックドアのサンプルとテストデータとを混ぜて、その上で訓練されたモデルのフラグを立てる。
我々はDiePackを3つのデータセットにわたる5つのモデルで評価し、複数の選択とオープンな生成タスクの両方をカバーした。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:22:14 GMT)
Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.2] 本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:56:05 GMT)
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion [52.0] そこで,本研究では,市販ビデオ拡散モデルを利用して,単一入力ビデオから多視点ビデオを生成する4Dビデオ生成手法を提案する。
本手法はトレーニング不要で,市販のビデオ拡散モデルを完全に活用し,マルチビュービデオ生成のための実用的で効果的なソリューションを提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:43:48 GMT)
DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes [51.9] RL(DIP-R1)を用いた深部検査と知覚は,MLLMの視覚知覚能力を高めるために設計されている。
DIP-R1は、3つのシンプルなルールベースの報酬モデルを通して、MLLMをビジュアルシーンの詳細な検査を通してガイドする。
ドメイン内およびドメイン外のさまざまなシナリオにおいて、一貫性と大幅な改善を実現します。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:16:16 GMT)
AutoSchemaKG: Autonomous Knowledge Graph Construction through Dynamic Schema Induction from Web-Scale Corpora [51.8] 完全自律的な知識グラフ構築のためのフレームワークであるAutoKGを提案する。
大規模言語モデルを利用して知識トリプルを同時に抽出し,テキストから直接包括的なスキーマを誘導する。
我々は,9億以上のノードと590億のエッジを持つ知識グラフ群であるATLAS(Automated Triple Linking And induction)を構築した。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:34:58 GMT)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7] 言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:15:36 GMT)
Adaptive Spatial Augmentation for Semi-supervised Semantic Segmentation [51.6] 半教師付きセマンティックセグメンテーションでは、データ拡張は弱い一貫性の規則化フレームワークにおいて重要な役割を果たす。
空間増強はSSSSのモデルトレーニングに寄与するが,弱い面と強い面の間には一貫性のないマスクが生じる。
本稿では,各インスタンスのエントロピーに基づいて動的に拡張を調整する適応的拡張戦略を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:35:48 GMT)
LifelongAgentBench: Evaluating LLM Agents as Lifelong Learners [51.5] しかし、現在の大規模言語モデル(LLM)ベースのエージェントは、状態のままであり、時間とともに知識を蓄積または転送することができない。
LLMエージェントの生涯学習能力を体系的に評価するために設計された最初の統合ベンチマークであるLifelongAgentBenchを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:16:26 GMT)
Skywork Open Reasoner 1 Technical Report [51.4] 提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:07:33 GMT)
Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.1] 弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:31:57 GMT)
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.8] MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:54:51 GMT)
How Animals Dance (When You're Not Looking) [50.8] 本稿では,動物舞踊ビデオを生成するための枠組みを提案する。
入力拡散を最大6回行うことで、最大30秒のダンスビデオを生成することができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:58:02 GMT)
An Empirical Study of Federated Prompt Learning for Vision Language Model [50.7] 本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。
クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。
ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:09:15 GMT)
MAP: Revisiting Weight Decomposition for Low-Rank Adaptation [50.7] 本稿では,重みベクトルを高次元ベクトルとして再構成する新しいフレームワークMAPを提案する。
MAPはトレーニング済みの重量を正規化し、方向の更新と2つのスカラー係数を学習し、ベースの大きさを独立にスケールし、ベクトルを更新する。
この設計により、より解釈可能で柔軟な適応が可能となり、既存のPEFTメソッドにシームレスに統合できる。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:56:35 GMT)
GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control [50.7] 実世界モデルにロバストな3次元形状条件を明示的に統合したGeoDriveを紹介する。
車両の位置を編集することでレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。
動作精度と空間認識の両面で既存のモデルよりも優れていた。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:41:53 GMT)
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence [50.4] MMSI-Benchは、マルチイメージ空間インテリジェンスに特化したVQAベンチマークである。
我々は、大規模な実験を行い、34のオープンソースおよびプロプライエタリMLLMを徹底的に評価する。
最も強力なオープンソースモデルはおよそ30%の精度に達し、OpenAIのo3推論モデルは40%に達し、人間は97%である。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:52 GMT)
Auditing for Bias in Ad Delivery Using Inferred Demographic Attributes [50.4] 広告配信のブラックボックス監査において,予測誤差が偏見の監査に与える影響について検討した。
本稿では,広告配信アルゴリズムのスキュー評価において,推測誤差を軽減する手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:52:44 GMT)
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.3] マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。
本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。
我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:02:55 GMT)
REOrdering Patches Improves Vision Models [50.2] パッチ順序がそのような設定におけるモデル性能に大きく影響していることが示される。
本稿では,タスク最適パッチ順序を見つけるためのフレームワークであるREOrderを提案する。
Re Orderは、ImageNet-1K上の行マジョールの順序を最大3.01%改善し、世界の関数マップを13.35%改善した。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:30 GMT)
Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.2] 本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:40:51 GMT)
Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.2] 統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。
本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:40:21 GMT)
AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.0] 大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:52:23 GMT)
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning [49.8] SimBaは、単純さのバイアスを注入することによって、深いRLでパラメータをスケールアップするように設計されたアーキテクチャである。
SimBaでパラメータをスケールアップすることで、オフポリシー、オンポリシー、アン教師なしメソッドを含む様々なディープRLアルゴリズムのサンプル効率が一貫して改善される。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:02:38 GMT)
Chiral Dissociation of Bound Photon Pairs for a Non-Hermitian Skin Effect [49.2] 原子配列に冷間結合した導波路内を伝播する相互作用光子の束縛状態について検討した。
我々は、束縛された光子対が配列の端に集中し、非エルミート皮膚効果とリンクできることを実証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:30:40 GMT)
Rate-reliability tradeoff for deterministic identification [49.1] 正の指数に対して線形スケーリングが復元され、信頼指数の関数であるレートが復元される。
製品入力制限付き古典量子チャネルや量子チャネルに結果を拡張します。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:19:35 GMT)
PhyX: Does Your Model Have the "Wits" for Physical Reasoning? [49.1] 既存のベンチマークでは、物理的な推論という、インテリジェンスの重要な側面を捉えられません。
視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された,最初の大規模ベンチマークであるPhyXを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:14 GMT)
FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control [49.1] FastTD3は強化学習(RL)アルゴリズムで、1つのA100 GPU上で3時間以内のHumanoidBenchタスクを解く。
我々はまた、ロボット工学におけるRL研究を加速するために、FastTD3の軽量で使いやすい実装を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:52:17 GMT)
Improved Learning via k-DTW: A Novel Dissimilarity Measure for Curves [48.8] k$-Dynamic Time Warping(k$-DTW)と呼ばれる多角曲線に対する新しい相似性尺度を導入する。
$k$-DTW は Dynamic Time Warping (DTW) よりも強いメトリック特性を持ち、Fr'echet 距離よりも外れ値に対して堅牢である。
1+varepsilon)$-approximation algorithm for $k$-DTW。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:25:45 GMT)
Maximizing Confidence Alone Improves Reasoning [48.8] RENT: エントロピー最小化による強化学習(Reinforcement Learning via Entropy Minimization)は、完全な教師なしのRL手法であり、外部の報酬や地道的な回答を必要としない。
得られた回答に高いモデル信頼をもたらす思考の連鎖を強化することで、モデルは推論能力を向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:14:34 GMT)
LeMoRe: Learn More Details for Lightweight Semantic Segmentation [48.8] 計算効率と表現の忠実さのバランスをとるために、明示的および暗黙的なモデリングを相乗化することによって効率的なパラダイムを導入する。
提案手法は、明確にモデル化されたビューと暗黙的に推論された中間表現とをうまく組み合わせ、グローバルな依存関係を効率的に取得する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:55:10 GMT)
Merge Hijacking: Backdoor Attacks to Model Merging of Large Language Models [48.4] LLM(Large Language Models)のモデルマージは、様々なタスクで微調整された異なるモデルのパラメータを直接フューズする。
オープンソースプラットフォームで利用可能なモデルに潜在的な脆弱性があるため、モデルマージはバックドア攻撃の影響を受けやすい。
LLMにマージされた最初のバックドア攻撃モデルであるMerge Hijackingを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:37:23 GMT)
Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint [48.4] 画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。
本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:47 GMT)
Zero-Shot Adaptation of Parameter-Efficient Fine-Tuning in Diffusion Models [48.2] テキストと画像の拡散モデルにおいてパラメータ効率の良い微調整をゼロショットで適用できるProLoRAを導入する。
ProLoRAは、トレーニングデータを追加せずに、ソースからターゲットモデルに事前訓練された低ランク調整を転送する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:37:04 GMT)
Aligning Text to Image in Diffusion Models is Easier Than You Think [47.6] SoftREPAは、表現アライメントにソフトテキストトークンを活用する軽量でコントラスト的な微調整戦略である。
本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:43:06 GMT)
BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Behavioural Change [47.4] 本稿では,ビデオ中のA/Hの主観的マルチモーダル認識のために収集された,最初の行動的環境・衛生(BAH)データセットを紹介する。
BAHは1,118本、合計8.26時間、A/H1.5時間である。
マルチモーダル・セットアップにおけるフレームレベルのBAHとビデオレベルの認識、ゼロショット予測、教師なしドメイン適応を用いたパーソナライズのための結果のベースライン。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:19:26 GMT)
Critical Batch Size Revisited: A Simple Empirical Approach to Large-Batch Language Model Training [47.4] 本稿では,トレーニング中の勾配雑音尺度に基づいて,臨界バッチサイズ(CBS)を推定する方法を示す。
CBSがバッチサイズのウォームアップを動機づけてどのように変化するかについての知見は,小規模なトレーニングランからCBSが大規模トレーニングランを知らせる可能性があることを示唆している。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:53:39 GMT)
Language-guided Learning for Object Detection Tackling Multiple Variations in Aerial Images [47.3] 本稿では,LANGuage-Guided Object Detection (LANGO) という,空中画像における新しい物体検出フレームワークを提案する。
提案する言語指導学習では,シーンレベルの変動とインスタンスレベルの変動の影響を軽減するために,提案フレームワークが設計されている。
提案手法の有効性を実証し,本手法により検出性能が向上することを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:31:39 GMT)
OSS-UAgent: An Agent-based Usability Evaluation Framework for Open Source Software [47.0] 我々のフレームワークは,大規模言語モデル(LLM)を利用したインテリジェントエージェントを用いて,プログラミングタスクを実行する開発者をシミュレートする。
OSS-UAgentは正確でコンテキスト対応のコード生成を保証する。
本稿では,OSS-UAgentがグラフ解析プラットフォーム評価に活用している実例を紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:40:10 GMT)
LADA: Scalable Label-Specific CLIP Adapter for Continual Learning [47.0] CLIPのようなビジョン言語モデルによる継続的な学習は、スケーラブルな機械学習システムへの道筋を提供する。
既存のCLIPベースのメソッドは、学習可能なパラメータの複数セットを追加することで、事前訓練されたイメージエンコーダに適応する。
フリーズされたCLIPイメージエンコーダに,軽量なラベル固有のメモリユニットを付加するLAD(Label-specific ADApter)を導入する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:19:51 GMT)
The Agentic Economy [46.8] 我々は、消費者と企業の間のコミュニケーション摩擦を減らすことによる、より深い経済的な影響について論じる。
この変化は、市場を再編成し、電力を再分配し、新しい製品やサービスの創出を触媒する可能性がある。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:44:50 GMT)
Spatiotemporal Field Generation Based on Hybrid Mamba-Transformer with Physics-informed Fine-tuning [46.7] この研究は、訓練されたモデルによる物理場の生成における物理方程式の相当な相違に直面する。
HMT-PFという名称の物理場生成モデルは、ハイブリッドのMamba-Transformerアーキテクチャに基づいて開発されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:13:25 GMT)
MAPLE: A Mobile Assistant with Persistent Finite State Machines for Recovery Reasoning [46.2] アプリケーションインタラクションをFSM(Finite State Machine)として抽象化する,状態認識型マルチエージェントフレームワークMAPLEを提案する。
それぞれのUI画面を離散状態として、ユーザアクションをトランジションとしてモデル化し、FSMがアプリケーション実行の構造化された表現を提供できるようにします。
MAPLEは、計画、実行、検証、エラー回復、知識保持という4段階のタスク実行に責任を持つ特殊エージェントで構成されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:08:51 GMT)
ScaleLong: A Multi-Timescale Benchmark for Long Video Understanding [46.0] 階層的な4つの時間尺度を対象とする質問を埋め込むことで、因子をアンタングルする最初のベンチマークであるScaleLongを紹介する。
ScaleLongには、5つの主要なカテゴリと36のサブカテゴリの269の長いビデオがあり、慎重に設計された4~8の質問がある。
23個のMLLMを評価すると、U字型のパフォーマンス曲線が示され、最も短くて長い時間スケールで精度が高く、中間レベルでは薄くなる。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:15:07 GMT)
FlexEvent: Towards Flexible Event-Frame Object Detection at Varying Operational Frequencies [45.8] イベントカメラは、動的環境におけるリアルタイムの知覚に相容れないアドバンテージを提供する。
既存のイベント検出器は固定周波数のパラダイムによって制限される。
我々は、様々な周波数で検出できる新しいフレームワークFlexEventを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:46:48 GMT)
Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [45.8] 本研究では,状況文脈を利用した状況駆動型逆転フルプロンプトが効果的であるが,検出がはるかに困難であることを示す。
映画脚本を状況的文脈の枠組みとして利用する攻撃を開発した。
我々は, p-核サンプリングによるAdvPrompterフレームワークを拡張し, 多様な可読テキストを生成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:54:54 GMT)
Meta-Learning Approaches for Speaker-Dependent Voice Fatigue Models [45.8] 我々は,この課題をメタ学習問題として再考し,複雑さを増大させる3つのアプローチを探る。
事前学習した音声埋め込みを用いて、シフトワーカーの大規模な縦長データセット上でこれらの手法を評価する。
その結果,全てのメタラーニング手法が横断的および従来型の混合効果モデルよりも優れた性能を示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:58:04 GMT)
Differential Coding for Training-Free ANN-to-SNN Conversion [45.7] スパイキングニューラルネットワーク(SNN)は、その低エネルギー消費のために大きな可能性を秘めている。
ニューラルネットワーク(ANN)をSNNに変換することは、高性能なSNNを実現するための効率的な方法である。
本稿では, ANN-to-SNN変換の差分符号化について紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:21:09 GMT)
AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [45.6] 我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは、人気のあるモバイルアプリケーションの104万以上の高解像度スクリーンショットで構成されており、複数のレベルで注釈付けされている。
我々は、既存のデータセットの一般的な設定を補完し、より教育的かつ詳細な視点からこのデータセットを開発する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:43:50 GMT)
Proximal Algorithm Unrolling: Flexible and Efficient Reconstruction Networks for Single-Pixel Imaging [45.4] ディープ・アンロールとプラグ・アンド・プレイのアプローチは、単画素イメージング(SPI)逆問題におけるデファクトとなっている。
本稿では,両クラスの解き手の強みを統合するという課題に対処する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:16:57 GMT)
All Patches Matter, More Patches Better: Enhance AI-Generated Image Detection via Panoptic Patch Learning [45.4] AI生成画像(AIGI)の指数的成長は、堅牢で一般化可能な検出方法の緊急の必要性を浮き彫りにしている。
本稿では,系統解析によるAIGI検出の2つの重要な原則を確立する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:04:26 GMT)
From Knowledge to Noise: CTIM-Rover and the Pitfalls of Episodic Memory in Software Engineering Agents [45.3] 我々はAutoCodeRover上に構築されたソフトウェアエンジニアリング(SE)のためのAIエージェントであるCTIM-Roverを紹介する。
CTIM-Roverは、エージェント推論フレームワークをエピソードメモリ、具体的には一般的な、リポジトリレベルのクロスタスクインスタンスメモリで拡張する。
CTIM-Roverは任意の設定でAutoCodeRoverを上回りません。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:19:29 GMT)
Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models [45.2] MLLM(Multimodal large language model)は重要な課題である。
高品質なマルチモーダル推論データセットの不足。
視覚処理の統合による推論能力の低下。
強化学習が直接適用されるリスクは、複雑だが誤った推論プロセスを引き起こす可能性がある。
Infi-MMR-3Bは、最先端のマルチモーダル数学推論能力を実現する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:51:56 GMT)
Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings [45.1] ベクトルグラフィカルプリミティブからなるCAD図面におけるパノプティカルシンボルスポッティングの課題について検討する。
既存の手法は通常、画像化、グラフ構築、あるいは点ベースの表現に依存している。
本稿では,プリミティブの行ベースの表現を通じてこれらの課題に対処する新しい手法であるVecFormerを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:33:11 GMT)
(U)NFV: Supervised and Unsupervised Neural Finite Volume Methods for Solving Hyperbolic PDEs [45.0] 双曲的保存法則を解くために古典的有限体積法(FV)を一般化したモジュラーニューラルネットワークアーキテクチャである(U)NFVを導入する。
(U)NFVはゴドゥノフの手法よりも最大10倍低い誤差を達成し、ENO/WENOを上回り、はるかに少ない複雑さで不連続なガレルキン解法と競合する。
PDEと実験ハイウェイデータの両方からのトラフィックモデリング問題に関して、(U)NFVは従来のFVアプローチよりもはるかに高い忠実度とスケーラビリティを持つ非線形波動特性を捉えている。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:39:25 GMT)
How Does Response Length Affect Long-Form Factuality [44.9] 事実性への注意が高まる一方で、事実性に対する応答長の影響は未解明のままである。
我々は,人間のアノテーションと高い一致を達成できる,自動的および二段階の長文事実性評価フレームワークを導入する。
この枠組みを用いて、より長い応答は、より少ない事実的精度を示し、長さバイアスの存在を確認する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:47:56 GMT)
Improving Time Series Forecasting via Instance-aware Post-hoc Revision [44.9] 時系列予測は、様々な現実世界の応用において重要な役割を果たす。
近年の手法は、先進的帰納バイアスとトレーニング戦略を取り入れることで、顕著な精度を実現している。
本稿では,予測性能を向上させるためのモデルに依存しないフレームワークであるPIRを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:56:41 GMT)
CellFlux: Simulating Cellular Morphology Changes via Flow Matching [44.9] 本稿では,化学および遺伝的摂動による細胞形態変化をシミュレートする画像生成モデルであるCellFluxを紹介する。
CellFluxは生物学的に意味のある細胞画像を生成し、摂動特異的な形態変化を忠実に捉える。
これらの能力は、生体医学研究のための仮想細胞モデリングの実現に向けた重要な一歩である。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:19:28 GMT)
RefCut: Interactive Segmentation with Reference Guidance [44.9] RefCutは参照ベースのインタラクティブセグメンテーションフレームワークで、部分のあいまいさとオブジェクトのあいまいさに対処する。
私たちのコードは公開され、デモビデオはhttps://www.lin-zheng.com/refcut.comで公開されます。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:02:05 GMT)
Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [44.7] 十分に調整された報酬ベースのパイプラインが最も堅牢なままだ。
textbfDR-IRLは逆強化学習によって動的報酬を調整する。
textbfGRPO-Sは、タスクの難易度に最適化中の報酬をスケールする。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:47:59 GMT)
Multi-Modal View Enhanced Large Vision Models for Long-Term Time Series Forecasting [44.6] 時系列は画像やテキストに変換でき、同じ信号のマルチモーダルビュー(MMV)を提供する。
LVMを時系列予測に適用すると、"予測期間"に対する帰納的バイアスが生じる
本稿では,MMVをLTSFに組み込むために,トレンドシーズン分解と新しいバックキャスト残差ベース適応分解を利用する,新しい分解ベースマルチモーダルビューフレームワークDMMVを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:55:24 GMT)
A Reality Check on Context Utilisation for Retrieval-Augmented Generation [44.5] DRUID (Dataset of Retrieved Untrieved Unliable, Insufficient and Difficult-to-understand contexts) を導入し、実世界のクエリやコンテキストを手動でアノテートする。
このデータセットは、現実世界の証拠の自動検索が不可欠である自動クレーム検証のタスクに基づいている。
合成データセットは、実検索データで稀な文脈特性を誇張し、拡張された文脈利用結果をもたらすことを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:10:25 GMT)
OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation [44.3] マルチモーダルな理解と生成を統一するための軽量でオープンソースなベースラインであるOpenUniを紹介します。
統一モデル学習における一般的なプラクティスに触発されて、トレーニングの複雑さとオーバーヘッドを最小限にする効率的なトレーニング戦略を採用しました。
我々は,1) 高品質で命令整合性のある画像を生成すること,2) GenEval, DPG-Bench, WISE などの標準ベンチマークにおいて,1.1B と 3.1B のみ活性化パラメータで例外的な性能を達成できることを実証した。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:09:44 GMT)
Fortune: Formula-Driven Reinforcement Learning for Symbolic Table Reasoning in Language Models [44.3] 本研究では,スプレッドシート式を生成するために,大規模言語モデルを訓練する強化学習フレームワークであるフォーミュラ・チューニングを提案する。
フォーミュラ・タニングは、二項応答の正しさを報奨信号として利用することにより、教師付き公式アノテーションへの依存を減らす。
これは、特に多段階の数値およびシンボリック推論タスクにおいて、LM性能を大幅に向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:13:40 GMT)
Threading the Needle: Reweaving Chain-of-Thought Reasoning to Explain Human Label Variation [44.3] 大規模言語モデル(LLM)は最終答を出す前に思考の連鎖(CoT)を生成する。
本稿では,各回答オプションに対するサポート文と反対文を抽出するために,言語的に接頭した談話セグメンタを付加した新しいパイプラインを提案する。
また、正確なスコアよりも回答のランクを優先するランクベースHLV評価フレームワークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:47:18 GMT)
AMBER: Adaptive Mesh Generation by Iterative Mesh Resolution Prediction [44.2] 本稿では,メッシュ適応のための教師あり学習手法であるAMBER(Adaptive Meshing By Expert Reconstruction)を提案する。
AMBERは、サイズフィールドを反復的に予測し、この予測を使用して、アウト・オブ・ザ・ボックスメッシュジェネレータを使用して、新しい中間メッシュを生成する。
AMBERを2次元および3次元の幾何学、古典物理学問題を含むデータセット、機械部品、人間の専門家メッシュを用いた実世界の産業デザインで評価する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:10:44 GMT)
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions [44.0] 大型言語モデル(LLM)は、しばしば擬似重複命令への応答を拒否する。
本稿では,多種多様な擬似重複命令を生成する迅速な最適化手法EVOREFUSEを紹介する。
我々は、582の擬似重複命令のベンチマークであるEVOREFUSE-TESTと3000の擬似重複命令を提供するEVOREFUSE-ALIGNという2つの新しいデータセットを作成している。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:26:46 GMT)
Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding with LLMs [43.8] 本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では,新しい構造認識モジュールをpLMに組み込んで構造知識を充実させる。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:07:57 GMT)
MOVi: Training-free Text-conditioned Multi-Object Video Generation [43.6] 拡散モデルと大言語モデル(LLM)のオープンワールド知識を活用するマルチオブジェクトビデオ生成のためのトレーニング不要なアプローチを提案する。
LLMをオブジェクト軌跡のディレクタ'として使用し、ノイズ再初期化によるトラジェクトリを適用して現実的な動きを正確に制御する。
既存のビデオ拡散モデルのマルチオブジェクト生成能力を著しく向上する学習自由アプローチの有効性を実験により検証した。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:41:10 GMT)
Fundamental Bias in Inverting Random Sampling Matrices with Application to Sub-sampled Newton [43.6] 逆バイアス(英: inversion bias)とは、ランダムスケッチ自体の非バイアスにもかかわらず、ランダムスケッチの逆は非バイアスにならない現象である。
このバイアスは、さまざまな機械学習パイプラインでランダムスケッチを使用する際の課題を示す。
本研究では,一様および非一様レバレッジに基づくランダムサンプリング法と,構造化されたランダムプロジェクションに対して,逆バイアスを補正する方法を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:17:45 GMT)
It's a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data [43.4] ビジョンと言語埋め込みは、モデルとデータセットのサイズが大きくなるにつれて、より均一になる。
基礎モデルが成熟するにつれて、ビジョンと言語埋め込みを完全に教師なしの方法で一致させることができるかもしれない。
本研究は,既存のビジョンと言語基盤モデルの適合性について考察する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:18:22 GMT)
Privacy Amplification by Structured Subsampling for Deep Differentially Private Time Series Forecasting [43.1] シーケンシャルデータを用いた機械学習モデルのトレーニングには、機密情報の単位に対するプライバシー保証が必要である。
本稿では,構造化サブサンプリングによって達成されるプライバシの増幅を分析し,健全で厳密なイベントとユーザレベルのプライバシ保証を備えた予測モデルのトレーニングを可能にする。
実験により,構造化サブサンプリングによる増幅により,厳密な正式なプライバシー保証付き予測モデルのトレーニングが可能であることを実証した。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:11:57 GMT)
Diversity of Transformer Layers: One Aspect of Parameter Scaling Laws [42.9] トランスフォーマーは、幅広いタスクにわたって優れたパフォーマンスを提供します。
タスク解決性能はパラメータサイズの増加によって向上する。
本研究では,トランスフォーマーのパラメータサイズを決定するレイヤとそのサイズに着目した。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:13:31 GMT)
Scaling of symmetry-restricted quantum circuits [42.8] 本研究では、特殊ユニタリリー群 $SU(2N)$ の $mathcalMSU(2N)$, $mathcalM$-不変部分空間の性質について検討する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:39:56 GMT)
Graph Positional Autoencoders as Self-supervised Learners [42.8] グラフオートエンコーダ(GAE)は入力として不完全なグラフを取り、マスクノードやエッジなどの欠落した要素を予測する。
グラフ位置自動エンコーダ (GraphPAE) を提案する。
異種ノード分類,グラフ特性予測,移動学習など,GraphPAEの有効性を検証するための広範な実験を行った。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:10:11 GMT)
OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data [42.7] OmniEarth-Benchは、6つの地球科学領域にまたがる最初の総合的なマルチモーダルベンチマークである。
認識、一般的な推論、科学的知識推論、思考の連鎖推論という4つの階層に29,779のアノテーションが組み込まれている。
実験の結果、最も先進的なモデルでさえベンチマークに苦戦していることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:02:27 GMT)
The Generalized Skew Spectrum of Graphs [42.7] 我々は、同型不変でよりリッチなグラフ構造を埋め込むことのできる新しいグラフ不変量のクラスを導入する。
一般化保存をこの族に適用することにより、スキュースペクトルの表現性を同じ計算コストで改善する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:18:01 GMT)
Large Language Model Meets Constraint Propagation [42.5] GenCPは、予測と制約プログラミング(Constraint Programming, CP)推論を組み合わせることで、流動的なテキストを生成する。
我々は、制約伝搬を可能にするドメイン生成のためのMasked Language Models (MLMs)を統合することにより、GenCPを改善する。
COLLIEベンチマークによる評価は、双方向呼び出しによるドメインプレビューの導入により、GenCPの性能が大幅に向上することを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:18:12 GMT)
Adversarial Semantic and Label Perturbation Attack for Pedestrian Attribute Recognition [42.4] 本稿では,歩行者属性認識のための最初の対角攻撃と防御の枠組みを提案する。
事前に訓練されたCLIPベースのPARフレームワークに基づいて,歩行者画像に対するグローバルおよびパッチレベルの攻撃を併用する。
また、敵攻撃の影響を抑えるために、セマンティックオフセット防衛戦略を設計する。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:17:17 GMT)
Enabling Differentially Private Federated Learning for Speech Recognition: Benchmarks, Adaptive Optimizers and Gradient Clipping [42.3] DP付きFLは、少なくとも数百万のユーザを抱える場合、強力なプライバシー保証の下で有効であることを示す。
ASR の DP と FL の高 (低い) 個体群に外挿した場合, 単語誤り率を 1.3% に抑えたユーザレベル (7.2, 10-9$)-DP (4.5, 10-9$)-DP を実現する。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:36:53 GMT)
ZeroSep: Separate Anything in Audio with Zero Training [42.2] 機械が複雑な音響環境を理解するためには、音源分離が基本である。
現在の教師付きディープラーニングアプローチは、強力ではあるが、広範なタスク固有のラベル付きデータの必要性によって制限されている。
事前学習したテキスト誘導音声拡散モデルがこれらの制限を克服できるかどうかを検討する。
ゼロショット音源分離は、事前訓練されたテキスト誘導音声拡散モデルにより純粋に達成できる。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:31:45 GMT)
Probing Association Biases in LLM Moderation Over-Sensitivity [42.2] 大規模言語モデルは、コンテンツモデレーションに広く使用されるが、しばしば良心的なコメントを有毒と誤分類する。
トピック・アソシエーション・アナリティクス(トピック・アソシエーション・アナリティクス)は,LLMが特定のトピックと毒性をどう関連づけるかを定量化するセマンティック・レベルのアプローチである。
より高度なモデル(例えば、GPT-4 Turbo)は、全体的な偽陽性率が低いにもかかわらず、より強力なトピックステレオタイプを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:07:48 GMT)
ReDDiT: Rehashing Noise for Discrete Visual Generation [41.7] 本稿では,離散拡散変圧器(ReDDiT)の吸音状態を拡張し,離散拡散モデルの表現能力を向上させるために,離散拡散変圧器(ReDDiT)のリハッシングノイズフレームワークを提案する。
実験により、ReDDiTはベースライン(gFIDを6.18から1.61に還元する)を著しく上回り、高い効率で連続するものと同等であることが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:24:34 GMT)
Position: The Future of Bayesian Prediction Is Prior-Fitted [41.7] Prior-data Fitted Networks (PFN) は、この知見を活用するために設計された手法のクラスである。
PFNは、事前学習した計算を低データシナリオに効率的に割り当てることを可能にする。
このポジションペーパーは、PFNsや他の償却推論アプローチがベイズ推論の未来を表していると主張している。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:56:45 GMT)
SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models [41.7] 社会的推論を評価するために特別に設計された新しいベンチマークであるSocialMazeを紹介する。
SocialMazeは、深い推論、動的なインタラクション、情報の不確実性という3つの主要な課題を体系的に取り入れている。
ソーシャル推論ゲーム、日々のインタラクション、デジタルコミュニティプラットフォームという3つの主要な設定にまたがる6つの多様なタスクを提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:47:36 GMT)
Scalable Complexity Control Facilitates Reasoning Ability of LLMs [41.6] モデル複雑性制御は、様々なモデルサイズとデータサイズに対して、大言語モデルのスケーリング法則を一貫して改善できることを示す。
以上の結果から,LLMの継続的な進歩には,複雑性制御が期待できる方向であることが示唆された。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:42:20 GMT)
Keep Everyone Happy: Online Fair Division of Numerous Items with Few Copies [41.6] 本稿では,学習者が不可分な項目を逐次観察する複数のエージェントを含む,オンラインフェア分割問題の新たな変種について考察する。
既存のアルゴリズムは、十分な数のコピーを持つ少数のアイテムを仮定し、全てのアイテムとエージェントのペアに対して優れたユーティリティー推定を可能にする。
本稿では,オンラインフェア分割を文脈的帯域幅問題としてモデル化するアルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:56:45 GMT)
COBRA: Contextual Bandit Algorithm for Ensuring Truthful Strategic Agents [41.6] 既存の文脈的盗賊の研究は、エージェントが真に彼らの腕を報告していると仮定している。
金融インセンティブを使わずに戦略行動を阻害する戦略エージェントを含む文脈的盗賊問題に対するアルゴリズムCOBRAを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:53:12 GMT)
VietASR: Achieving Industry-level Vietnamese ASR with 50-hour labeled data and Large-Scale Speech Pretraining [41.6] 大量のラベル付きデータとラベル付きデータの小さなセットを活用する新しいASRトレーニングパイプラインであるVietaSRを提案する。
70,000時間のラベル付きデータに対する事前トレーニングと,50時間ラベル付きデータに対する微調整により,軽量だが強力なASRモデルが得られることを示す。
私たちのコードとモデルは、低リソースのASRの研究を促進するためにオープンソース化されます。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:55:12 GMT)
Map&Make: Schema Guided Text to Table Generation [41.5] テキスト・ツー・テイブル・ジェネレーションは情報検索に欠かせない課題である。
テキストを命題のアトミックステートメントに"識別"する汎用的なアプローチであるMap&Makeを導入する。
このアプローチは、RotowireとLivesumという2つの挑戦的なデータセットに対してテストされています。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:12:46 GMT)
Contextual Integrity in LLMs via Reasoning and Reinforcement Learning [41.5] 我々は、文脈整合性を達成するために必要な理由をモデルに具現化する強化学習フレームワークを開発する。
本研究では,タスク性能を維持しながら,不適切な情報開示を大幅に低減することを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:26:21 GMT)
Multi-Modal Framing Analysis of News [41.4] 大規模(ビジョン-)言語モデルを用いて,マルチモーダル・マルチラベルフレーミング分析を大規模に行う手法を提案する。
従来の定性的な作業で発見された問題固有のフレーム分析を用いて、トピックの高度にパーティショナリなフレーミングを識別する。
本稿では,ニュース中のテキストと画像の両方のスケーラブルな統合的フレーミング分析を行う方法を示し,メディアバイアスを理解するためのより完全な画像を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:45:28 GMT)
Instance-Optimality for Private KL Distribution Estimation [41.4] 未知の離散分布 $p$ over $d$ symbols, given $n$ i.i.d. sample from the distribution。
本稿では,差分プライバシー制約を伴わずに,一定要素までのインスタンス最適化を実現するアルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:27:57 GMT)
How does Transformer Learn Implicit Reasoning? [41.3] 制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:02:49 GMT)
Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead [41.3] 低ランク適応 (LoRA) を持つ細調整の大型言語モデルは一般的な慣行となり、LoRA更新でのみ同じLLMのコピーを多数生成する。
このパラダイムは、異なるLoRAを含むクエリに対するリアルタイム応答を提供するシステムの課題を示す。
本稿では,LoRA固有のスケーリング行列と組み合わせた共有ベースにLoRAを共同圧縮する手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:47:12 GMT)
GETReason: Enhancing Image Context Extraction through Hierarchical Multi-Agent Reasoning [41.0] GETReasonは、表面レベルの画像記述を超えて、より深い文脈意味を推測するフレームワークである。
また、推論に基づく画像理解を評価するための新しい指標であるGREATを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:02:06 GMT)
Tighter Privacy Auditing of DP-SGD in the Hidden State Threat Model [40.5] 我々は、敵が最終モデルにのみアクセスでき、中間更新の可視性のない脅威モデルに焦点を当てる。
本稿では,最終モデルのプライバシ損失を最大化するために,この脅威モデルを逆数列で評価することを提案する。
我々の結果は、この脅威モデル内で達成可能なプライバシー保証の理解を促進する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:53:33 GMT)
Learning to Reason under Off-Policy Guidance [40.3] textbfLUFFY(textbfLearning to reason textbfUnder otextbfFF-polictextbfY guidance)を導入する。
LUFFYは、模擬と探検のバランスを取るために、オフ・ポリティクスのデモとオン・ポリティクスのロールアウトを組み合わせる。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:14:43 GMT)
DenoiseRotator: Enhance Pruning Robustness for LLMs via Importance Concentration [40.2] プルーニングは、重要でない重みを取り除き、大きな言語モデル(LLM)を圧縮するのに広く用いられる技法である。
既存のプルーニング手法は主に、個々の重みの重要さを推定することに焦点を当てており、モデルの重要な能力を維持する能力を制限する。
プルーの重みを単に選択するのではなく、パラメータの重要度を再分配して、モデルがプルーニングに本質的に適するようにする、という新しい視点を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:44:09 GMT)
Hume: Introducing System-2 Thinking in Visual-Language-Action Model [40.1] Humeは、価値誘導されたSystem-2思考とカスケードされたアクション記述を備えたデュアルシステムビジョン・ランゲージ・アクションモデルである。
システム1(System 1)は、システム2の選択されたアクションを採り、巧妙なロボット制御のためにカスケードされたアクションを演ずる軽量な反応性ビズモータポリシーである。
我々は,Humが既存のVision-Language-Actionモデルよりも,複数のシミュレーションベンチマークと実ロボットのデプロイで優れていることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:15:19 GMT)
Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable [39.8] バイアス付きデータセットでしばしば訓練される検出器は、実・合成ラベルと急激な相関がある。
本稿では,DDA(Dual Data Alignment)を提案する。
また、DDA-COCOとEvalGENの2つの新しいテストセットを導入し、検出器を評価するための最新の生成モデルを紹介した。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:36:34 GMT)
ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation [39.8] 我々は、ワンオフコード生成性能を改善するための新しいアプローチであるReflectionCoderを提案する。
本稿では, 反射法を効果的に活用するために, 反射法自己蒸留法と動的マスク蒸留法を提案する。
実験により,本手法で微調整したモデルにより,最先端の性能が得られることを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:34:04 GMT)
Dynamic Estimation Loss Control in Variational Quantum Sensing via Online Conformal Inference [39.7] 現在の変分量子センシング法は厳密な性能保証を欠いている。
本稿では,パラメータの変動を動的に更新するオンラインVQS制御フレームワークを提案する。
量子磁気学タスクの実験では、提案された動的VQSアプローチが、正確な推定をしながら、時間とともに必要な信頼性を維持していることを確認した。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:19:07 GMT)
Can LLMs Reason Abstractly Over Math Word Problems Without CoT? Disentangling Abstract Formulation From Arithmetic Computation [39.5] ファイナルアンサーベースのメトリクスは、数学の単語問題に対する大規模言語モデル(LLM)の評価に一般的に使用される。
計算ステップにより,CoTを含まないLlama-3とQwen2.5(1B-32B)の問合せ精度が圧倒的にボトルネックとなることを示す。
メカニカルには、これらの2つのスキルは、推論ステップなしで、1つのフォワードパスにおいてさえ共役的に構成されていることが示される。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:37:57 GMT)
Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [38.8] 大規模言語モデル(LLM)のためのサンプル効率のよい人的評価手法を提案する。
提案手法は,LLM応答のペア間のセマンティックな差異を最大化する,コンパクトな入力命令セットを自動的に適応的に選択する。
人間の評価者は、これらのペア化された反応に対して3つの代替的な選択を行い、エロ評価を用いてグローバルなランキングに集約される。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:16:05 GMT)
C$^2$LEVA: Toward Comprehensive and Contamination-Free Language Model Evaluation [38.6] C$2$LEVAは、組織的な汚染防止を特徴とする包括的なベンチマークである。
15のオープンソースおよびプロプライエタリモデルの大規模評価は,C$2$LEVAの有効性を示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:29:28 GMT)
Continuous Chain of Thought Enables Parallel Exploration and Reasoning [38.6] 現在の言語モデルは、有限語彙から自己回帰的にトークンをサンプリングすることで、チェーン・オブ・シント・トレースを生成する。
我々の研究は、論理的推論タスクを通じて、継続的に評価されたトークン(CoT2)の利点を調べます。
我々は、CoT2が複数のトレースを並列に追跡し、推論効率の利点を定量化できることを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:58:28 GMT)
Sentinel: Scheduling Live Streams with Proactive Anomaly Detection in Crowdsourced Cloud-Edge Platforms [38.5] 本稿では,プロアクティブな異常検出に基づくスケジューリングフレームワークであるSentinelを提案する。
実験では、Sentinelは異常頻度を70%削減し、収益を74%改善し、スケジューリング速度を2倍にした。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:11:20 GMT)
ContextQFormer: A New Context Modeling Method for Multi-Turn Multi-Modal Conversations [38.4] コンテキスト情報表現を強化するためのコンテキストモデリングモジュールであるContextQFormerを導入する。
さらなる研究を容易にするために, 事前学習, 指導指導, 評価のためのマルチターンマルチモーダル対話データセット(TMDialog)を構築した。
さらに、ContextQFormerはTMDialogの3つのベースラインと比較され、実験の結果、ContextQFormerはベースラインよりも利用率2%-4%の改善を実現している。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:41:26 GMT)
Compositional Scene Understanding through Inverse Generative Modeling [38.3] 自然画像が与えられたシーンの特性を理解するために生成モデルをどのように利用できるかを検討する。
シーン上の小さなモデルから合成された視覚的生成モデルを構築する。
これにより、グローバルなシーン要因を推測し、新しいシーンへの堅牢な一般化を可能にする方法について説明する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:32:28 GMT)
CAML: Collaborative Auxiliary Modality Learning for Multi-Agent Systems [38.2] 我々は,新しいマルチモーダル・マルチエージェント・フレームワークである協調補助モダリティ学習(CAML)を提案する。
事故検出においてCAMLが最大で$bf 58.1%の改善を達成していることを示す。
また,コラボレーティブセマンティックセグメンテーションのための実世界の地上ロボットデータ上でCAMLを検証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:50:20 GMT)
Adaptive Conformal Guidance: A Framework for Multi-Domain Learning under Uncertainty [38.2] AdaConGは、関連する不確実性に基づいて誘導信号の影響を動的に変調する。
我々はAdaConGを知識蒸留、半教師付き画像分類、グリッドワールドナビゲーション、自動運転など、さまざまな分野やタスクにわたって検証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:40:28 GMT)
Query Routing for Retrieval-Augmented Language Models [38.1] Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。
既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。
本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:44:56 GMT)
To Trust Or Not To Trust Your Vision-Language Model's Prediction [37.9] 我々は,VLMの予測をいつ信頼できるかを推定する課題に対処する,トレーニング不要なフレームワークTrustVLMを紹介した。
観測されたVLMのモダリティギャップに触発されて,この空間を利用して誤分類検出を改善する新しい信頼度スコアリング関数を提案する。
4つのアーキテクチャと2つのVLMを使用して、17の多様なデータセットにまたがるアプローチを厳格に評価し、最先端のパフォーマンスを実証します。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:01 GMT)
HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model [37.9] 本稿では,タスク固有拡張とタスク一般融合フレームワークを提案する。
既存のベンチマークに存在する情報漏洩を分析し、異なる手法の性能を合理的に評価する新しい、より困難なベンチマークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:30:07 GMT)
Grounded Reinforcement Learning for Visual Reasoning [37.8] 我々は、強化学習で訓練された視覚言語モデルViGoRL(Visually Grounded Reinforcement Learning)を紹介する。
人間の視覚的意思決定にインスパイアされたViGoRLは、空間的に根拠のある推論トレースを生成することを学ぶ。
この結果から,RLは汎用的な視覚的推論を用いたモデル入力の強力なパラダイムであることが示唆された。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:20:26 GMT)
The Meeseeks Mesh: Spatially Consistent 3D Adversarial Objects for BEV Detector [37.7] 3Dオブジェクト検出は、自律運転システムにおいて重要な要素である。
本稿では,3次元物体検出モデルの3次元敵攻撃に対する脆弱性について検討する。
実世界の攻撃シナリオに適した非侵襲的な3次元対向オブジェクトを生成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:38:20 GMT)
Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game [37.7] 我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:46:38 GMT)
UniViTAR: Unified Vision Transformer with Native Resolution [37.6] UniViTARは、視覚の統一性とネイティブ解像度のシナリオに適した、均質な視覚基盤モデルのファミリーである。
2つのコアメカニズムを戦略的に組み合わせたプログレッシブトレーニングパラダイムが導入された。
並行して、ハイブリッドトレーニングフレームワークは、凍結教師モデルからの特徴蒸留に伴うシグモイドに基づくコントラスト損失をさらにシナジする。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:44:34 GMT)
A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [37.6] EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:14:34 GMT)
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction [37.5] トランスフォーマーベースの大規模言語モデル(LLM)は、推論中にキー値(KV)ペアとしてキャッシュコンテキストを持つ。
コンテキストの長さが大きくなると、KVキャッシュのサイズが拡大し、メモリオーバーヘッドが大きくなり、注意の遅延が増大する。
本稿では,クエリに依存しないKVキャッシュ消去手法であるKVzipを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:05:47 GMT)
Leave it to the Specialist: Repair Sparse LLMs with Sparse Fine-Tuning via Sparsity Evolution [37.4] Sparsity Evolution Fine-Tuning (SEFT)は、疎大言語モデル(LLM)に特化して設計された新しい手法である。
SEFTは、微調整中に細粒化されたモデルのスパーストポロジーを動的に進化させ、プロセス全体にわたって全体空間を保存する。
各種LLM実験の結果,SEFTは既存のベースラインに比べてメモリ効率と時間効率が優れており,性能が向上することが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:17:43 GMT)
Logical Consistency is Vital: Neural-Symbolic Information Retrieval for Negative-Constraint Queries [36.9] 現在の密集した検索者は、類似性を埋め込むことで、コーパス内の関連文書を検索する。
本研究では,ニューラルシンボリックな情報検索手法である textbfNS-IR を提案し,ナイーブな自然言語の埋め込みを最適化する。
実験により、NS-IRは、Web検索および低リソース検索タスクにおいて、より優れたゼロショット検索性能が得られることを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:07:47 GMT)
VModA: An Effective Framework for Adaptive NSFW Image Moderation [36.9] Not Safe/Suitable for Work (NSFW)コンテンツは、ソーシャルネットワーク上で急速に普及し、市民、特に未成年者に深刻な害を与えている。
現在の検出法は主に深層学習に基づく画像認識と分類に依存している。
本稿では,多種多様なモデレーションルールに適応し,複雑でセマンティックにリッチなNSFWコンテンツを扱うフレームワークであるVModAを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:11:28 GMT)
Probability-Consistent Preference Optimization for Enhanced LLM Reasoning [36.7] 本稿では、選好選択のための2つの定量的指標を確立する新しいフレームワークを提案する。
私たちのコードはhttps://github.com/YunqiaoYang/PCPO.comで公開されています。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:20:44 GMT)
EarthSE: A Benchmark Evaluating Earth Scientific Exploration Capability for Large Language Models [36.7] 本研究では,大言語モデル(LLM)の科学的探索能力を評価するために,地球科学の専門的なベンチマークを示す。
10万件の研究論文のコーパスを活用して、まず2つのQAデータセット(アース・アイロンとアース・シルバー)を構築します。
これらのデータセットは、5つの地球圏、114の分野、11のタスクカテゴリを含み、科学的探索に不可欠な知識を評価する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:12:51 GMT)
SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models [36.7] SciHorizonはAI4Scienceの可読性を評価するために設計された総合的なアセスメントフレームワークである。
まず、品質、FAIRネス、説明可能性、コンプライアンスの4つの重要な側面を含む、AI対応の科学データを評価するための一般化可能なフレームワークを紹介します。
我々は、地球、生命、材料科学のためのAI対応データセットのレコメンデーションリストを提示し、この分野に新しく独自の貢献をする。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:56:23 GMT)
Text-to-Decision Agent: Offline Meta-Reinforcement Learning from Natural Language Supervision [36.6] オフラインメタRLは通常、高品質なサンプルやウォームアップ探索からタスク信念を推測することで一般化に取り組む。
textbfText-to-textbfDecision textbfAgent (textbfT2DA)を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:17:36 GMT)
Toward a Principled Framework for Disclosure Avoidance [36.6] データ利用者のニーズが変わるにつれて、機関は使用する開示回避システムを再設計する必要がある。
データの開示リスクに対応するために保護の強度を調整できるシステムの能力は、価値のある特徴である。
本稿では,これらの特徴を,選択したシステムから独立して行う必要がある実装決定とを区別する枠組みを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:43:35 GMT)
Unraveling SITT: Social Influence Technique Taxonomy and Detection with LLMs [36.1] 本稿では、テキストコンテンツにおける微妙な社会的影響を検出するために、58の実証的基礎技術からなる包括的枠組みを提案する。
ポーランド語の専門家11名による注釈付き746対話コーパスを用いてLLMの識別能力を評価し,英語に翻訳した。
以上の結果から,いくつかのモデル,特にClaude 3.5は中等度の成功(F1=0.45)を達成できたが,モデル全体の性能は,特に文脈に敏感な手法では限定的であった。
この研究は、LLMが自然対話における社会的影響の戦略を検出し、分類し、潜在的に複製する方法を理解するための新しい資源と評価の例に貢献している。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:36:25 GMT)
Synthetic Generation and Latent Projection Denoising of Rim Lesions in Multiple Sclerosis [36.1] 常磁性リム病変の定量的感受性マップを合成した。
我々は、トレーニングされた生成ネットワークの投影能力を利用して、新しい認知的アプローチを実証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:22:48 GMT)
LoLA: Low-Rank Linear Attention With Sparse Caching [36.0] トランスフォーマーベースの大規模言語モデルは、長いシーケンスの推論において二次的な複雑さに悩まされる。
スパースキャッシュを用いた低ランク線形注意(LoLA: Low-rank Linear Attention)を提案する。
推論のみの戦略として、LoLAは最大8Kコンテキスト長のパスキー検索を可能にする。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:12:42 GMT)
UniTEX: Universal High Fidelity Generative Texturing for 3D Shapes [35.7] 二段階テクスチャ生成フレームワークUniTEXを提案する。
UniTEXは、既存のアプローチに比べて視覚的品質とテクスチャの整合性が優れている。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:58:41 GMT)
REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space [35.6] 言語モデル(LM)は、トレーニングデータに見られる機密情報や個人識別可能な情報(PII)を不注意に記憶・拡散し、プライバシー上の懸念を引き起こすリスクがある。
LMから機密情報を学習する非段階的手法であるREVSを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:06:35 GMT)
Fast Large Language Model Collaborative Decoding via Speculation [35.5] 大規模言語モデル(LLM)協調デコーディング技術は、生成ステップ毎に複数のモデルの出力を組み合わせることで、出力品質を向上させる。
我々は、性能を損なうことなく協調的復号を加速する新しいフレームワークである、Speculation (CoS)による協調復号法を紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:20:23 GMT)
OmniArch: Building Foundation Model For Scientific Computing [35.4] OmniArchは,物理アライメントによるマルチスケール・マルチ物理科学計算問題の解決を目的とした,最初のプロトタイプである。
PDEBench上で1D-2D-3Dの統合事前トレーニングを行い、1D, 2D, 3D PDEの新たなパフォーマンスベンチマークを設定するだけでなく、コンテキスト内およびゼロショット学習アプローチによる新しい物理への例外的な適応性を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:25:04 GMT)
Diffusion Classifiers Understand Compositionality, but Conditions Apply [35.4] 本稿では,多種多様な構成課題における拡散分類器の識別能力について検討する。
具体的には,10のデータセットと30以上のタスクにまたがる3つの拡散モデル(SD 1.5,2.0,および3m)について検討する。
また,拡散モデル自体が生成した画像からなる新たな診断ベンチマークも導入した。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:50 GMT)
ROTATE: Regret-driven Open-ended Training for Ad Hoc Teamwork [35.3] 未確認のパートナーとの共同作業が可能なAIエージェントの開発は、Ad Hoc Teamwork(AHT)として知られるマルチエージェント学習における基本的な一般化課題である。
アドホックエージェントと対向チームメイトジェネレータ間のオープンエンド学習プロセスとして問題を再構築し,AHTの統一フレームワークを提案する。
このアルゴリズムは、AHTエージェントの改善と、その欠陥を調査するチームメイトの生成を交互に行う。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:24:54 GMT)
Score-based Generative Modeling for Conditional Independence Testing [35.1] 本稿では,精度の高いタイプIエラー制御と強力なテスト能力を実現するための,スコアベース生成モデルによる新しいCIテスト手法を提案する。
スコアベース生成モデルによりモデル化された条件分布の誤差境界を理論的に確立し,CIテストの有効性を検証した。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:10:46 GMT)
Error Broadcast and Decorrelation as a Potential Artificial and Natural Learning Mechanism [34.8] 本稿では,ニューラルネットワークの新しい学習フレームワークであるError Broadcast and Decorrelation(EBD)を紹介する。
EBDは個々のレイヤに直接出力エラーを送信することで、クレジットの割り当てに対処する。
我々の研究は、EBDをニューラルネットワークトレーニングの効率よく、生物学的に妥当で、原則的に代替するものとして確立した。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:44:04 GMT)
Exploring Disentangled and Controllable Human Image Synthesis: From End-to-End to Stage-by-Stage [34.7] そこで我々は,新しい非絡み合い・制御可能な人間合成タスクを導入する。
本稿ではまず,MVHumanNetで学習した要素不絡に対するエンドツーエンド生成モデルを提案する。
VTONデータセットを付加データとして組み込むことで、エンドツーエンドモデルをトレーニングすることはパフォーマンスを劣化させる。
本稿では,人間の画像生成を3段階に分解するステージバイステージフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:00:07 GMT)
Case-Based Reasoning Enhances the Predictive Power of LLMs in Drug-Drug Interaction [34.6] CBR-DDIは、歴史的事例から薬理学の原則を抽出し、DDIタスクを改善する新しい枠組みである。
CBR-DDIは、LLMを利用して薬理学的洞察とグラフニューラルネットワーク(GNN)を抽出し、薬物関連をモデル化する知識リポジトリを構築している。
大規模な実験により、CBR-DDIは最先端のパフォーマンスを実現し、精度は28.7%向上した。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:20:53 GMT)
Learning Cascade Ranking as One Network [34.5] Cascade Rankingは、リコメンデーションや広告プラットフォームのような大規模なトップk選択システムにおいて一般的なアーキテクチャである。
近年の進歩は、相互作用を意識したトレーニングパラダイムを導入しているが、それでも、学習目標とカスケードランキング全体の目標との整合に苦慮している。
本稿では,カスケードランキングによって基底真理項目が選択される確率の低い値から,新しい代理損失関数を導入するLCRONを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:58:47 GMT)
Can We Predict Performance of Large Models across Vision-Language Tasks? [34.3] 本稿では,他のLVLMやタスクの観測結果に基づいて,未知のパフォーマンススコアを予測する新しいフレームワークを提案する。
実験では,未知のスコアの予測におけるPMFの精度,オーダリング評価における不確実性推定の信頼性,スパースデータ処理における拡張の有効性を実証した。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:17:47 GMT)
Improving Continual Pre-training Through Seamless Data Packing [34.1] 本稿では,文脈情報をより効果的に保存し,モデル性能を向上させることを目的とした新しいデータパッキング戦略を提案する。
提案手法では,第1段階において連続列間の重なり合うトークンを同期するスライディングウインドウ手法を用いる。
第2段階では、短いテキストをターゲットのシーケンス長よりもわずかに大きいビンに詰め込むために、第1のFit-Decreasingアルゴリズムを採用し、パディングとトランケーションを最小化する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:20:02 GMT)
CraftsMan3D: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner [34.1] CraftsManは、非常に多様な形状、通常のメッシュトポロジ、詳細な表面を持つ高忠実な3Dジオメトリを生成することができる。
本手法は,従来の方法に比べて高品質な3Dアセットの製作に有効である。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:15:21 GMT)
Generalized Category Discovery in Event-Centric Contexts: Latent Pattern Mining with LLMs [34.1] イベント中心のGCDは,長い複雑な物語と高度に不均衡なクラス分布を特徴とする。
クラスタクラスのアライメントを改善するためのイベントパターンの抽出と精巧化にLLMを活用するフレームワークであるPaMAを提案する。
新たに構築されたScam Reportデータセットを含む2つのEC-GCDベンチマークの評価は、PaMAが12.58%のHスコアゲインで先行メソッドより優れていることを示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:02:04 GMT)
TrackVLA: Embodied Visual Tracking in the Wild [34.0] Embodied visual trackingは、Embodied AIの基本的なスキルであり、エージェントは、自我中心の視覚のみを使用して、動的環境における特定のターゲットに従うことができる。
既存のアプローチは通常、認識と計画のモジュラー分離を通じてこの問題に対処する。
本研究では,物体認識と軌道計画の相乗効果を学習する視覚・言語・行動モデルであるTrackVLAを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:28:09 GMT)
On-Device Collaborative Language Modeling via a Mixture of Generalists and Specialists [34.0] CoMiGSは、少ないデータでデバイス上でプライベートな学習を容易にする新しいアプローチである。
さまざまな専門家をローカライズしながら、ユーザ間でジェネラリストの専門家のバランスをとる。
トークン生成毎に,CoMiGSは一般的な知識とパーソナライズされた知識のバランスを効果的に表す。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:07:31 GMT)
Composite Flow Matching for Reinforcement Learning with Shifted-Dynamics Data [34.0] CompFlowは、フローマッチングと最適輸送の間の理論的接続を基礎とする手法である。
我々は、ソース・ドメインフローの出力分布に基づいて構築された条件フローとして、ターゲットダイナミクスをモデル化する。
CompFlowは、動的に変化する複数のRLベンチマークにおいて、強いベースラインを上回ります。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:09:19 GMT)
SVIP: Towards Verifiable Inference of Open-source Large Language Models [33.9] 本稿では,秘密ベースで検証可能なLarge Language Models推論プロトコルであるSVIPを紹介する。
我々のプロトコルは、LLMから生成されたテキストと処理された隠された表現の両方を返さなければならない。
SVIPは5%未満の偽陰性率と3%未満の偽陰性率を達成し、検証のプロンプトクエリ毎に0.01秒未満である。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:09:31 GMT)
RSFAKE-1M: A Large-Scale Dataset for Detecting Diffusion-Generated Remote Sensing Forgeries [33.8] RSFAKE-1Mは,500Kの偽造画像と500Kのリアルタイムリモートセンシング画像の大規模データセットである。
偽画像は、リモートセンシングデータに基づいて微調整された10個の拡散モデルによって生成される。
その結果,拡散型リモートセンシングフォージェリーは現状の手法では依然として困難であることが判明した。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:30:46 GMT)
Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation [33.8] 近年の復号化手法は、生成時に次のトークンをどのように選択するかを精査することによって、大規模言語モデル(LLM)の事実性を向上している。
LLMは、特に長い文脈で幻覚を起こす傾向にある。
ActLCD(Active Layer-Contrastive Decoding)は,生成時にコントラスト層をいつ適用するかを積極的に決定する,新しいデコーディング戦略である。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:07:24 GMT)
ExpProof : Operationalizing Explanations for Confidential Models with ZKPs [33.5] ZKP(Zero-Knowledge Proofs)を用いた敵シナリオにおける説明の運用に向けて一歩前進する。
具体的には、一般的な説明可能性アルゴリズムLIMEのZKP対応バージョンについて検討し、ニューラルネットワークとランダムフォレストの性能を評価する。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:56:10 GMT)
MAGREF: Masked Guidance for Any-Reference Video Generation [33.4] MAGREFは、任意の参照ビデオ生成のための統一されたフレームワークである。
本研究では,一つのモデルで様々な対象推定を柔軟に処理できる領域認識型動的マスキング機構を提案する。
我々のモデルは、単目的訓練から複雑な多目的シナリオまで、最先端のビデオ生成品質を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:58:15 GMT)
iAgent: LLM Agent as a Shield between User and Recommender Systems [33.3] レコメンダシステムは、通常、ユーザーがプラットフォームレコメンデーションアルゴリズムの制御下で直接露出される、ユーザープラットフォームパラダイムを取り入れている。
本稿では,エージェントがユーザとレコメンダシステムの間の保護シールドとして機能する,新しいユーザエージェントプラットフォームパラダイムを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:51:24 GMT)
Infi-Med: Low-Resource Medical MLLMs with Robust Reasoning Evaluation [33.2] 医療用大規模言語モデル(MLLM)の包括的フレームワークであるInfi-Medを提案する。
Infi-Medは,(1)品質の高い教師付き微調整データセットを最小限のサンプル要求でキュレート・構築する資源効率の高いアプローチ,(2)クロスモーダル統合と臨床タスク理解のためのマルチモーダル推論能力の向上,(3)医療モダリティとタスクタイプをまたいだモデルパフォーマンスを評価する体系的評価システム,の3点を紹介した。
本実験は,Infi-Medが臨床シナリオへの迅速な適応性を維持しつつ,一般医学的推論におけるSOTA(State-of-the-art)のパフォーマンスを達成できることを実証するものである。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:31:57 GMT)
RoboTransfer: Geometry-Consistent Video Diffusion for Robotic Visual Policy Transfer [33.2] RoboTransferは、ロボットデータ合成のための拡散ベースのビデオ生成フレームワークである。
背景属性やオブジェクト属性などのシーンコンポーネントを明示的に制御するマルチビュー幾何を統合している。
RoboTransferは、幾何的一貫性と視覚的忠実度を向上したマルチビュービデオを生成することができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:10:03 GMT)
Understanding Mode Connectivity via Parameter Space Symmetry [33.2] ニューラルネットワークのミニマはしばしば、列車とテストの損失がほぼ一定である曲線で接続される。
パラメータ空間対称性を用いたミニマムの連結性を探索する新しい手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:20:54 GMT)
NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables [32.9] textscNeedleInATable (NIAT)は、各テーブルセルを針として扱い、セルの位置やルックアップ質問に基づいてターゲットセルを抽出するモデルを必要とする。
私たちのデータ、コード、モデルは、将来の研究を促進するためにリリースされます。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:31:02 GMT)
X-Transfer Attacks: Towards Super Transferable Adversarial Attacks on CLIP [32.9] 我々は,CLIPの普遍的敵対的脆弱性を明らかにする新しい攻撃方法である textbfX-Transfer を紹介する。
X-Transferは、様々なサンプル、タスク、ドメインにまたがる様々なCLIPエンコーダと下流のVLMを認識できるUniversal Adversarial Perturbationを生成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:50:01 GMT)
BYOS: Knowledge-driven Large Language Models Bring Your Own Operating System More Excellent [32.8] カーネルチューニングは、システムパフォーマンスを最適化するためにカーネル構成を体系的に調整する。
近年の大規模言語モデル(LLM)の進歩にもかかわらず、カーネルチューニングは依然として重要な課題である。
カーネルチューニングのためのLLMフレームワークを自動化したBYOSを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:35:55 GMT)
Position: Interactive Generative Video as Next-Generation Game Engine [32.7] 生成ゲームエンジン(GGE)の基礎として,対話型生成ビデオ(IGV)を提案する。
IGVのユニークな強みは、無制限の高品質なコンテンツ合成、物理を意識した世界モデリング、ユーザ制御の対話性、長期記憶能力、因果推論である。
私たちの研究は、AI時代のゲーム開発の新しいコースをグラフ化し、AIによる生成システムがゲームの作成と経験を根本的に変える未来を描いています。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:42:53 GMT)
LlamaRL: A Distributed Asynchronous Reinforcement Learning Framework for Efficient Large-scale LLM Trainin [32.6] 強化学習(RL)は、大規模言語モデル(LLM)の能力向上のための訓練後の最も効果的なアプローチとなっている。
LlamaRLは、大規模LLMの効率的なトレーニングに最適化された、完全に分散された非同期RLフレームワークである。
LlamaRLは、ネイティブPyTorch上に完全に構築された、合理化されたシングルコントローラアーキテクチャを導入している。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:14:15 GMT)
Model-Preserving Adaptive Rounding [32.5] その他の量子化アルゴリズム(英: Another Quantization Algorithm、YAQA)は、Kronecker-factored approximations of each linear layer's Hessian を用いた適応型ラウンドリングアルゴリズムである。
これにより、KLのオリジナルモデルへの分岐を$approx 30%$削減し、下流タスクでのアートパフォーマンスの状態を達成できる。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:53:00 GMT)
A Benchmark and Evaluation for Real-World Out-of-Distribution Detection Using Vision-Language Models [31.9] Out-of-Distribution(OOD)検出は、推論中にサンプルを検出して、デプロイされたモデルの安全性を保証するタスクである。
我々は3つの新しいOOD検出ベンチマークを導入し,手法特性のより深い理解と実環境の反映を可能にした。
実験の結果、最近のCLIPベースのOOD検出手法は、提案された3つのベンチマークで様々な程度に困難であることが判明した。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:56:25 GMT)
Cognitive Guardrails for Open-World Decision Making in Autonomous Drone Swarms [31.9] スモール・アンクルード・エアリアル・システムズ(SUAS)は、捜索救助任務において自律的な群れとしてますます配備されている。
本稿では, サーチ・レスキューミッションにおける sUAS Swarm のための認知ガードレールの設計, シミュレーション, 実世界の統合について述べる。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:47:49 GMT)
Reducing Tool Hallucination via Reliability Alignment [31.8] 大きな言語モデル(LLM)は、言語生成を超えて、外部ツールと対話し、自動化と現実世界のアプリケーションを可能にする機能を拡張した。
モデルが不適切なツールを選択するか、それらを誤用するツール幻覚は、誤ったタスクの実行、計算コストの増大、システムの信頼性の低下につながる重要な課題を引き起こす。
RelyToolBenchを導入し、特殊なテストケースと新しいメトリクスを統合し、幻覚を意識したタスクの成功と効率を評価する。
最後に、信頼性アライメントフレームワークであるRelignを提案する。このフレームワークは、ツール使用のアクション空間を拡張して、不決定なアクションを含むようにし、LCMがツールの使用を遅らせたり、明確化を求めたり、ツールの選択を調整することを可能にする。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:04:32 GMT)
BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning [31.7] 生物プロトコルの理解と推論のための大規模マルチタスクベンチマークとして,BioProBenchを提案する。
27Kのオリジナルプロトコルに基づいて構築され、約556Kの高品質な構造化インスタンスを生成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:31:28 GMT)
Are You Using Reliable Graph Prompts? Trojan Prompt Attacks on Graph Neural Networks [31.6] Graph Prompt Learning(GPL)は、トレーニング済みのGNNモデルを特定の下流タスクに適応するために、モデル全体を微調整することなくプロンプトを使用する、有望なアプローチとして導入された。
既存のグラフバックドア攻撃は、トレーニング中にモデルパラメータを変更することに依存しているが、GNNエンコーダパラメータが事前トレーニング後に凍結されるため、このアプローチは現実的ではない。
グラフプロンプトに特化して設計されたバックドアアタックフレームワークであるTGPAを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:52:05 GMT)
Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models [31.6] 自律走行のためのVLA(Vision-Language-Action)モデルは、非構造的なコーナーケースのシナリオにおいて、将来性を示す。
Inmpromptu VLA: 8万以上の細かなキュレートされたビデオクリップを紹介します。
このデータセットは,4つの挑戦的未構造化カテゴリの新たな分類に基づいて構築され,リッチで計画指向の質問応答アノテーションと行動軌跡を特徴とする。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:46 GMT)
MermaidFlow: Redefining Agentic Workflow Generation via Safety-Constrained Evolutionary Programming [31.5] 本稿では,安全制約付きグラフの進化を通じてエージェント検索空間を再定義するフレームワークであるMermaidFlowを紹介する。
ドメインを意識した進化的演算子を定式化し、構造的多様性を促進しながら意味的正当性を維持する。
MermaidFlowは、成功率の一貫性の向上と、エージェント推論ベンチマークの実行可能な計画へのより高速な収束を実現している。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:08:36 GMT)
Multi-Sourced Compositional Generalization in Visual Question Answering [31.5] 本稿では,視覚的質問応答(VQA)モデルのMSCG能力を高めるための学習フレームワークを提案する。
我々はGQAデータセットに基づく新しいGQA-MSCGデータセットを構築し、サンプルには異なるモーダルのプリミティブからなる3種類の新規合成が含まれている。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:41:36 GMT)
ATLAS: Learning to Optimally Memorize the Context at Test Time [31.4] ATLASは、コンテキストを記憶する能力の高い長期記憶モジュールである。
本稿では,従来のトランスフォーマーアーキテクチャの厳密な一般化であるDeep Transformerと呼ばれる,トランスフォーマーライクなアーキテクチャの新たなファミリーを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:57:16 GMT)
SOReL and TOReL: Two Methods for Fully Offline Reinforcement Learning [31.4] 本稿では,安全なオフライン強化学習のためのアルゴリズムSOReLを紹介する。
オフライン強化学習アルゴリズムTOReLについても紹介する。
我々の経験的評価は, ベイズ条件下での後悔を正確に推定するSOReLの能力を裏付けるものである。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:38:03 GMT)
ExpeTrans: LLMs Are Experiential Transfer Learners [31.2] 我々は、大規模言語モデルが人間の認知知性を模倣できるかどうかを検討するために、自律的な体験伝達フレームワークを設計する。
13個のデータセットに対する実験結果から,LLMの性能を効果的に向上することが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:30:58 GMT)
LoTUS: Large-Scale Machine Unlearning with a Taste of Uncertainty [31.0] 我々は,事前学習モデルからトレーニングサンプルの影響を排除した,新しいMachine Unlearning(MU)手法であるLoTUSを提案する。
LoTUSは、データの記憶から生じる過信を緩和し、情報理論境界までモデルの予測確率を円滑にする。
我々は、TransformerとResNet18モデルのLoTUSを、5つの公開データセットにまたがる8つのベースラインに対して評価する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:37:02 GMT)
3D-UIR: 3D Gaussian for Underwater 3D Scene Reconstruction via Physics Based Appearance-Medium Decoupling [31.0] 3D Gaussian Splatting (3DGS)はリアルタイムレンダリング機能を提供するが、水中の不均一な環境に苦しむ。
水媒体効果から物体の外観を遠ざける物理ベースの枠組みを提案する。
提案手法は,高品質な新規ビュー合成と物理的に正確なシーン復元を実現する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:31:45 GMT)
KBQA-o1: Agentic Knowledge Base Question Answering with Monte Carlo Tree Search [30.9] 知識ベース質問回答 (KBQA) は,大規模構造化知識ベース (KB) を用いた自然言語質問への回答を目的としている。
大きな言語モデル(LLM)の進歩にもかかわらず、KBQAはKB認識の弱さ、効率性と効率の不均衡、注釈付きデータへの高い依存といった課題に直面している。
モンテカルロ木探索(MCTS)を用いた新しいエージェントKBQA法KBQA-o1を提案する。
実験結果から,KBQA-o1は,従来の低リソースKBQA法よりもアノテートデータに制限があることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:10:07 GMT)
Toward Memory-Aided World Models: Benchmarking via Spatial Consistency [30.9] メモリモジュールは空間整合性に対処するための重要なコンポーネントである。
空間的一貫性の制約を明示的に強制することによってメモリモジュールの開発を促進するために設計されたデータセットは存在しない。
我々は、Minecraftのオープンワールド環境内の150の異なる場所をサンプリングし、データセットと対応するベンチマークを構築した。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:28:57 GMT)
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration [30.8] LVLM(Large Vision-Language Models)は、視覚的理解と言語生成の融合において大きな進歩を遂げている。
この成功にもかかわらず、LVLMのトレーニングデータは、データ分布が極めて不均衡であるLong-Tail (LT)問題に悩まされている。
DSの段階では,Denoising Diffusion Probabilistic Models(DDPM)と不足した画像を利用して,表現不足の部分を補う。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:51:16 GMT)
ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025 [30.7] Referring Video Object (RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメントすることを目的としている。
ReferDINOは、オブジェクトレベルの視覚言語知識を適用することで、このタスクで有望なパフォーマンスを示した。
本稿では,ReferDINOとSAM2のマスクを適応的に融合させる条件付きマスク融合戦略を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:04:21 GMT)
Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment [30.6] 本稿では,因果関係を緩和するために因果関係を統合した因果報酬モデリング手法を提案する。
提案手法は様々な種類のスプリアス相関を効果的に緩和し,LLMと人間の嗜好との整合性を高めた。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:21:03 GMT)
Topological Structure Learning Should Be A Research Priority for LLM-Based Multi-Agent Systems [30.5] 大規模言語モデルに基づくマルチエージェントシステム(MAS)は、協調的な知性によって複雑なタスクに取り組むための強力なパラダイムとして登場した。
最適な協力のためにどのようにエージェントを構造的に整理すべきかという問題は、まだほとんど未解決のままである。
本稿では,エージェントの選択,構造プロファイリング,トポロジ合成という3段階の体系的枠組みを導入する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:17:13 GMT)
Diversity-Aware Policy Optimization for Large Language Model Reasoning [30.5] 大規模言語モデルに対するRLに基づく学習における多様性の影響について検討する。
多様性を考慮したポリシー最適化手法を提案する。
本手法は4つの数学的推論ベンチマークで平均3.5パーセントの改善を実現している。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:27:44 GMT)
Holistic Large-Scale Scene Reconstruction via Mixed Gaussian Splatting [30.3] MixGSは大規模3Dシーン再構築のための新しい全体最適化フレームワークである。
大規模なシーンでの実験では、MixGSが最先端のレンダリング品質と競争速度を達成することを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:25:36 GMT)
Thompson Sampling in Online RLHF with General Function Approximation [30.2] 本稿では,人間フィードバック(RLHF)アルゴリズムによる強化学習の統計的効率を理論的観点から検討する。
我々はトンプソンサンプリングにインスパイアされたオンラインRLHFのためのモデルフリー後部サンプリングアルゴリズムを設計し、その理論的保証を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:22:02 GMT)
Generating Diverse Training Samples for Relation Extraction with Large Language Models [30.2] 関係抽出(RE)のための大規模言語モデル(LLM)で生成されたトレーニングサンプルの多様性を効果的に改善する方法について検討する。
一般的に使用されるREデータセットの実験では、両方の試みが生成されたトレーニングデータの品質を向上させることが示されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:21:54 GMT)
LLM as Effective Streaming Processor: Bridging Streaming-Batch Mismatches with Group Position Encoding [29.6] 一般的に、後者の2つのミスマッチは頻繁な再エンコードを必要とし、再エンコード出力がほとんど不要であることを示す。
本稿では,ストリーミングモードとバッチモードの整合性を高めるため,バッチアーキテクチャ上に構築されたグループ位置符号化パラダイムを提案する。
提案手法はアーキテクチャの変更を必要とせず,ストリーミングモードとバッチモードの両方において強力な一般化を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:22:18 GMT)
ReAgent: Reversible Multi-Agent Reasoning for Knowledge-Enhanced Multi-Hop QA [29.6] ReAgentは、明示的なバックトラッキング機構を備えた可逆的なマルチエージェント協調フレームワークである。
提案システムでは,誤り検出と修正が可能で,より堅牢で解釈可能なQA結果が得られる。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:37:26 GMT)
Sentinel: Attention Probing of Proxy Models for LLM Context Compression with an Understanding Perspective [29.5] Retrieval-augmented Generation (RAG) は、外部コンテキストを持つ大きな言語モデルを強化するが、検索されたパスは、しばしば長い、騒々しい、あるいは入力限界を超える。
本研究では,文脈フィルタリングを注目に基づく理解タスクとして再構成する軽量な文レベル圧縮フレームワークであるSentinelを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:24:12 GMT)
Less is More: Unlocking Specialization of Time Series Foundation Models via Structured Pruning [29.4] 時系列基礎モデル 広大なパラメータを事前訓練し、驚くべきゼロショット予測性能を達成する。
驚くべきことに、微調整後も、TSFMは、フルショットダウンストリームデータでトレーニングされた、より小さな、特殊なモデルよりも一貫してパフォーマンスを向上することはできない。
より関連性が高くコンパクトなパラメータ空間に焦点を合わせることにより、その後の微調整プロセスを正規化するための構造化プルーニング法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:33:49 GMT)
MedPAIR: Measuring Physicians and AI Relevance Alignment in Medical Question Answering [29.3] 大規模言語モデル (LLM) は様々なQAベンチマークで顕著な性能を示した。
我々は,医師研修生とLCMがQA質問に答える際の関連情報を優先する方法を評価するために,MedPAIRデータセットを導入した。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:23:48 GMT)
CLEME2.0: Towards Interpretable Evaluation by Disentangling Edits for Grammatical Error Correction [29.0] CLEME2.0**は、ヒット補正、誤補正、アンダーコレクト、オーバーコレクトを記述した参照ベースのメトリクスである。
2つの人的判断データセットと6つの基準データセットの実験により,本手法の有効性とロバスト性を実証した。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:15:38 GMT)
The Surprising Soupability of Documents in State Space Models [29.0] そこで本研究では,文書を独立に符号化し,その表現をプールする手法を提案する。
我々はMamba2モデルを微調整し、スープ可能な表現を生成し、マルチホップQA、スパース検索、長い文書推論を高い精度でサポートする。
HotpotQAでは、10個の独立したエンコードされたドキュメントが、同じ入力でトレーニングされたクロスエンコーダのパフォーマンスとほぼ一致している。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:13:21 GMT)
From Chat Logs to Collective Insights: Aggregative Question Answering [28.7] Aggregative Question Answeringは、何千ものユーザとチャットボットのインタラクションを明示的に推論し、集約的なクエリに答えることを必要とする新しいタスクである。
この方向の研究を可能にするために,実世界の会話182,330から派生した6,027の集約質問からなるWildChat-AQAというベンチマークを構築した。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:55 GMT)
SpatialSplat: Efficient Semantic 3D from Sparse Unposed Images [28.6] 冗長性を意識したガウス語を生成するフィードフォワードフレームワークである textbfSpatialSplat を紹介する。
本研究では,シーン表現パラメータの60%削減を図り,最先端手法よりも優れた性能を実現した。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:40:52 GMT)
am-ELO: A Stable Framework for Arena-based LLM Evaluation [28.5] ELO評価システムに基づく既存のフレームワークは、ランキングの不整合とアノテータの様々な能力に対する注意の欠如により、避けられない不安定な問題に悩まされている。
ELOレーティングシステムを強化することで,これらの問題に対処するための新しい安定アリーナフレームワークを導入する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:23:44 GMT)
Frankentext: Stitching random text fragments into long-form narratives [28.5] フランケンテクス(Frankentexts)は、LLMによって作られた新しいタイプの長文の物語である。
そこで我々は,Frankentextsを生成するために,人書きパスを選択して組み合わせてドラフトを作成するように指示し,ユーザ指定のコピー比を維持しながら,反復的にドラフトを修正した。
Gemini-2.5-Proはこのタスクで驚くほどうまく機能し、フランケンテキストの81%が一貫性があり、プロンプトに100%関係している。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:43:46 GMT)
Revisiting Uncertainty Estimation and Calibration of Large Language Models [28.5] 大規模言語モデル(LLM)における不確実性推定の現在までの最も包括的な研究について述べる。
本稿では,トークン確率ベース不確実性(TPU),数値動詞不確実性(NVU),言語動詞不確実性(LVU)の3つの代表的なブラックボックス単一パス手法に着目した。
以上の結果から,LVUはTPUとNVUを一貫して上回り,キャリブレーションと識別が向上し,解釈性も向上した。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:04:49 GMT)
PhotoArtAgent: Intelligent Photo Retouching with Language Model-Based Artist Agents [28.4] PhotoArtAgentは、プロのアーティストの創造的なプロセスをエミュレートするインテリジェントな解釈システムだ。
PhotoArtAgentは、その創造的根拠に関する透明でテキストベースの説明を提供し、意味のあるインタラクションとユーザコントロールを促進する。
実験の結果,PhotoArtAgentは既存の自動ツールを超えるだけでなく,プロの人間アーティストに匹敵する結果が得られることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:00:51 GMT)
Understanding Bias Reinforcement in LLM Agents Debate [28.4] 大規模言語モデル(LLM)は、プロンプトエンジニアリングやコンテキスト内学習のようなトレーニング不要の手法を使って複雑な問題を解決する。
自己整合性や自己整合性といった自己補正手法は信頼性の向上を目的としている。
バイアス強化と視点の多様性の欠如です。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:25:23 GMT)
A Mathematical Framework for AI-Human Integration in Work [28.3] 我々は,人間とGenAIの相補的な強みを反映する,意思決定レベルと行動レベルのサブスキルに,新たなスキルの分解を導入する。
われわれの結果は、GenAIがいつ、どのように人間のスキルを補完するかを強調している。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:26:21 GMT)
QLIP: A Dynamic Quadtree Vision Prior Enhances MLLM Performance Without Retraining [28.3] 既存のMLLMとシームレスに統合可能なCLIPビジョンエンコーダのドロップイン置換を提案する。
QLIPは、様々なモデルサイズにわたるLLaVA v1.5モデルの一般的な視覚的質問応答精度を改善する。
特にQLIPは、挑戦的な$Vast$ベンチマークの詳細な理解パフォーマンスを最大13.6%向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:26:34 GMT)
JANET: Joint Adaptive predictioN-region Estimation for Time-series [28.2] 共形予測領域を構築するための新しいフレームワークであるJANET(Joint Adaptive predictioN- Region Estimation for Time-Series)を提案する。
JANETは、帰納的共形フレームワークを一般化し、制御されたK系列誤差率の合同予測領域を効率的に生成する。
我々の経験的評価は、JANETが様々な時系列データセットにまたがる多段階予測タスクにおいて優れた性能を示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:12:48 GMT)
Differential Information: An Information-Theoretic Perspective on Preference Optimization [28.1] 評価ラベルが参照ポリシーをターゲットポリシーに変換するために必要な差分情報をエンコードすると、DPOの対数比の報酬は、優先最適化を通じてターゲットポリシーを学習するための一意に最適な形式として現れることを示す。
差分情報分布のエントロピーを解析することにより、低エントロピー差分情報の学習が政策分布をいかに強化するかを特徴付ける。
その結果,高エントロピー差分情報の学習は一般教示フォローに不可欠であり,低エントロピー差分情報の学習は知識集約型質問応答に有効であることが示唆された。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:50 GMT)
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation [28.0] RefVNLIは、1回のランでテキストアライメントと主題保存の両方を評価する費用効率の指標である。
我々は,ビデオ推論ベンチマークと画像摂動から得られた大規模データセットを訓練した。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:50:41 GMT)
Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective [27.9] 強化学習は、大規模言語モデルの推論能力を高める可能性を示す。
既存の手法では,問題問題に基づくスケジューリングによる効率向上が試みられている。
本稿では,問題の正確かつ安定した推定を可能にするtextbfC$ompetence-$textbfD$ifficultyを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:48:49 GMT)
Reinforcement Learning for Better Verbalized Confidence in Long-Form Generation [27.8] 本稿では,Long-form Verbalized Confidence (Long-form Verbalized Confidence) を提案する。
具体的には、強化学習(RL)を用いてLLMを訓練し、各生成された文に数値信頼度スコアを付加する。
実験の結果,RL学習モデルによりキャリブレーションの精度が向上し,領域全体にわたって強固に一般化できることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:05:20 GMT)
Quartet: Native FP4 Training Can Be Optimal for Large Language Models [27.8] 大規模言語モデル(LLM)モデルを低精度で直接訓練することは、計算コストに対処する方法を提供する。
NVIDIAの最近のBlackwellアーキテクチャは、FP4変種を使用した非常に低精度な操作を容易にする。
提案手法は, 高精度なFP4トレーニングを実現するための新しい手法である。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:32:48 GMT)
Towards disentangling the contributions of articulation and acoustics in multimodal phoneme recognition [27.7] 我々は,音声・ビデオモデルと,長めの単一話者MRIコーパスを用いた音素認識のためのマルチモーダルモデルを開発する。
音声モデルとマルチモーダルモデルは,異なる音韻法クラスで類似した性能を示すが,調音箇所では異なることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:03:08 GMT)
Towards Quantum-Native Communication Systems: State-of-the-Art, Trends, and Challenges [27.3] 調査では、量子ドメイン(QD)マルチインプット、QD非直交多重アクセス、量子セキュアダイレクト通信、QDリソース割り当て、QDルーティング、QD人工知能などの技術を調査した。
量子センシング、量子レーダ、量子タイミングの現在の状況は、将来の応用をサポートするために簡単にレビューされる。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:02:40 GMT)
The Warmup Dilemma: How Learning Rate Strategies Impact Speech-to-Text Model Convergence [27.3] 大規模モデルのトレーニングでは、リソース要件だけでなく、収束の観点からも課題が提示される。
OWSMは、学習率の二重線形ウォームアップを設計し、第1フェーズで非常に小さな値に増やし、第2フェーズで高い値に更新した。
このギャップを埋めて、i)大規模S2Tトレーニングでは、サブ指数LRウォームアップが要求され、i)ウォームアップフェーズにおけるより高いLRが初期収束を加速するが、最終的な性能は向上しないことを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:10:57 GMT)
Understanding Refusal in Language Models with Sparse Autoencoders [27.2] 我々はスパースオートエンコーダを用いて、拒絶動作を因果的に仲介する潜伏特徴を特定する。
我々は、世代への影響を評価するために、拒絶に関連する特徴に介入する。
これにより、アクティベーションレベルでのリファインダーの表示方法のきめ細かい検査が可能になる。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:33:39 GMT)
LLM-based HSE Compliance Assessment: Benchmark, Performance, and Advancements [26.9] HSE-Benchは、大規模言語モデルのHSEコンプライアンス評価能力を評価するために設計された最初のベンチマークデータセットである。
規則、裁判、安全試験、フィールドワークビデオから引き出された1000以上の手作業による質問で構成されている。
我々は,基礎モデル,推論モデル,マルチモーダル視覚モデルなど,異なるプロンプト戦略と10以上のLLMの評価を行う。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:02:53 GMT)
Bridging Source and Target Domains via Link Prediction for Unsupervised Domain Adaptation on Graphs [26.9] グラフニューラルネットワーク(GNN)は、グラフ上のノード分類に優れた能力を示している。
非教師なしドメイン適応(UDA)が注目を集めている。
本稿では、リンク予測を用いて、ソースグラフとターゲットグラフのノードを接続する新しいフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:54:40 GMT)
Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.8] 本稿では,大規模言語モデルの生成に安全性を考慮した推論機構を組み込んだ新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。
R2Dは応答の安全性の指標として安全ピボットトークンを形成する。
R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しつつ全体の安全性を向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:25:47 GMT)
Diffusion-Based Generative Models for 3D Occupancy Prediction in Autonomous Driving [26.8] 生成モデルは基礎となるデータ分布を学習し、3Dシーンを前もって組み込む。
実験により,拡散に基づく生成モデルは最先端の識別的アプローチより優れていることが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:34:22 GMT)
Proper Dataset Valuation by Pointwise Mutual Information [26.7] データキュレーション手法を評価するための情報理論フレームワークを提案する。
我々は,データセットの品質を,真のモデルパラメータに関する情報性の観点から定義する。
得られたデータとテストデータとの間のシャノン相互情報によりブラックウェル順序を決定することができることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:24:44 GMT)
Two Is Better Than One: Rotations Scale LoRAs [26.6] Low-Rank Adaptation (LoRA)ベースのMixture-of-Experts (MoE)は、大規模言語モデル(LLM)が多様なタスクに効率的に適応できるようにする。
入力を最良の専門家にルーティングする従来のゲーティングメカニズムは、LLMのスケーラビリティを根本的に阻害する可能性がある。
本稿では,ロラス表現の回転操作を導入し,幾何学的に着想を得た新しいゲーティング手法であるRadarGateを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:22:43 GMT)
Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization and Temporal Motion Modulation [26.6] 人中心アニメーションに適した直接選好最適化を提案する。
第二に、提案した時間運動変調は、分解ミスマッチを解消する。
実験では, 口唇音の同期, 表情の鮮明さ, 体の動きのコヒーレンスをベースライン法より明らかに改善した。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:04:00 GMT)
NeuronTune: Towards Self-Guided Spurious Bias Mitigation [26.5] ディープニューラルネットワークは、しばしば急激な偏見、非本質的な特徴と予測のためのクラスの間の相関に依存する。
既存の緩和アプローチは典型的には、緩やかな相関の外部アノテーションに依存している。
本稿では,モデルの内部決定プロセスに直接介入するポストホック法であるNeuronTuneを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:33:00 GMT)
Enhanced DACER Algorithm with High Diffusion Efficiency [26.3] 本研究では,初期における大規模ノイズを効果的に除去できる時間重み付け機構を提案する。
DACER2アルゴリズムは,ほとんどの MuJoCo 制御タスクにおいて,5つの拡散ステップしか持たない最先端性能を実現する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:21:58 GMT)
Towards Privacy-Preserving Fine-Grained Visual Classification via Hierarchical Learning from Label Proportions [26.0] 本稿では,インスタンスラベルに直接アクセスすることなく,高精度な粒度認識を実現することを目的とする。
既存のLPPベースの手法とは異なり、我々のフレームワークはきめ細かいデータセットの階層的性質を明示的に活用する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:18:25 GMT)
One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory [25.7] 固定パッチではなく,汎視的サブオブジェクトトラジェクトリに基づいてトークンを整理するパラダイムであるグラウンドド・ビデオ・トークン化を導入する。
本稿では,オブジェクトのトラジェクトリを抽出し,意味的に意味のあるトークンに変換するビデオエンコーダTrajViTを提案する。
現代のビデオLLM用ビデオエンコーダとしてTrajViTをViT3Dよりも強力なモデルとして示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:25:35 GMT)
Pandora's Box or Aladdin's Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models [25.6] 大規模言語モデル(LLM)における幻覚に対処するための重要な手法として、検索型拡張生成(RAG)が登場している。
本稿では,言語的観点から7つの異なるノイズタイプを定義し,ノイズRAGベンチマーク(NoiserBench)を確立する。
我々の分析は、より堅牢で適応可能なRAGソリューションを開発し、多様な検索シナリオにまたがる幻覚を緩和するための洞察を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:38:10 GMT)
Semantics-Aware Human Motion Generation from Audio Instructions [25.6] 本稿では,音声のセマンティクスに適合した動作を生成するための条件付け入力として音声信号を使用する新しいタスクについて検討する。
本稿では,メモリ検索型アテンションモジュールによって強化されたマスク付き生成変換器を用いて,スパースおよび長大な音声入力を処理するエンドツーエンドフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:16:27 GMT)
Elicit and Enhance: Advancing Multimodal Reasoning in Medical Scenarios [25.5] textitMedE$2$は、医療領域に対するマルチモーダル推論を誘発し、拡張する2段階のポストトレーニングパイプラインである。
Stage-Iでは、2000のテキストのみのデータサンプルを使用して、正確に整理された推論のデモを含む微調整を行う。
ステージIIでは,1500の厳格な治療を行ったマルチモーダル・メディカル・ケースを用いて,モデルの推論能力をさらに強化する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:39:23 GMT)
EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge [25.5] 我々は6つのTSシナリオをカバーする包括的なベンチマークである$textitEmergentTTS-Evalを紹介した。
我々のフレームワークはテストケースの生成と評価の両方を自動化するので、ベンチマークが容易にアクセスできます。
我々は、EmergentTTS-Eval上で、11Labs、Deepgram、OpenAIの4o-mini-TTSといった最先端のオープンソースおよびプロプライエタリなTSシステムを評価した。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:36:24 GMT)
Table-R1: Inference-Time Scaling for Table Reasoning [25.5] 推論時間スケーリングを実現するための2つのポストトレーニング戦略を開発し評価する。
蒸留では,DeepSeek-R1 が生成した推論トレースの大規模データセットを導入する。
RLVRではタスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを得る。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:28:50 GMT)
Sparseformer: a Transferable Transformer with Multi-granularity Token Sparsification for Medical Time Series Classification [25.5] MedTS分類用に特別に設計された変換器であるSparseformerを紹介する。
本稿では,大域的モデリングとトークン圧縮を実現するための,スパーストークンベースのデュアルアテンション機構を提案する。
我々のモデルは、教師あり学習下で7つの医療データセットで12のベースラインを上回ります。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:58:01 GMT)
Boosting Domain Incremental Learning: Selecting the Optimal Parameters is All You Need [25.5] ドメインインクリメンタルラーニング(DIL)は、連続的なモデル適応を可能にするソリューションを提供する。
既存のPIDILメソッドは、ドメインの数と対応するクラスが増加するにつれてパラメータ選択の精度に悩まされる。
PIDILにおけるドメイン選択を改善する軽量フレームワークSOYOを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:58:57 GMT)
ProDisc-VAD: An Efficient System for Weakly-Supervised Anomaly Detection in Video Surveillance Applications [25.4] ProDisc-VADは2つの相乗的コンポーネントを介してこれを効率的に処理するフレームワークである。
ProDisc-VADは0.4Mパラメータだけで強力なAUC(上海技術97.98%、UCF-Crime87.12%)を達成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:18:43 GMT)
Measure gradients, not activations! Enhancing neuronal activity in deep reinforcement learning [25.3] 深部強化学習 (Deep reinforcement learning, RL) は、しばしば神経活動の喪失に悩まされる。
GraMa(Gradient Magnitude Neural Activity Metric)は、ニューロンレベルの学習能力を定量化するメトリクスである。
GraMaは多種多様なアーキテクチャで持続的なニューロン不活性を効果的に明らかにする。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:07:58 GMT)
Rethinking Regularization Methods for Knowledge Graph Completion [25.3] KGC正則化器にランクベース選択空間の概念を組み込む新しいスパース正規化法を導入する。
複数のデータセットと複数のモデルに関する様々な実験により、SPR正則化法は他の正則化法よりも優れており、KGCモデルがパフォーマンスマージンをさらに突破できることが示されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:39:18 GMT)
DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.1] diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。
診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。
我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:24:00 GMT)
Articulatory Feature Prediction from Surface EMG during Speech Production [25.1] 音声合成における表面筋電図(EMG)信号から調音特徴を予測するモデルを提案する。
提案モデルでは,畳み込み層とトランスフォーマーブロックを統合し,続いて音声特徴の予測器を分離する。
予測された調音特徴を可知音声波形にデコードできることを実証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:59:36 GMT)
Towards Unified Attribution in Explainable AI, Data-Centric AI, and Mechanistic Interpretability [25.1] 私たちは、機能、データ、コンポーネントの属性メソッドが基本的な類似点を共有しており、それらの統一された見解は、解釈可能性とより広範なAI研究の両方に利益があると主張している。
まず,これら3種類の属性に対する一般的な手法を解析し,それぞれが類似した手法を用いていることを示す統一的な視点を提示する。
そして、この統一された視点が、既存の帰属方法の理解を高め、これらの方法の共通概念と評価基準を強調し、共通の課題に対処し、クロス帰属イノベーションを促進することによって、解釈可能性研究の両面での新しい研究方向へと導くことを実証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:49:00 GMT)
DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation [25.0] DynaMemは、ロボットの環境を表現するために動的ワークセマンティックメモリを使用する、オープンソースのモバイル操作に対する新しいアプローチである。
DynaMemの力で、私たちのロボットは、新しい環境を探索し、記憶にない物体を探し出し、オブジェクトが動いたり、現れたり、消えたりするにつれて、記憶を継続的に更新することができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:57:04 GMT)
Improving Brain-to-Image Reconstruction via Fine-Grained Text Bridging [24.9] 微細なブレイン・トゥ・イメージ再構成は、微細なテキストをブリッジとして利用して画像再構成を改善する。
FgB2Iは3つの重要なステージで構成されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:43:34 GMT)
Normalizing Flows are Capable Models for RL [24.9] 本稿では,強化学習アルゴリズムにシームレスに統合した単一正規化フローアーキテクチャを提案する。
提案手法はより単純なアルゴリズムに導かれ,模倣学習,オフライン,目標条件付きRL,教師なしRLにおいて高い性能を実現する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:06:22 GMT)
Cora: Correspondence-aware image editing using few step diffusion [24.9] Coraは、セマンティック対応を通じてソースとターゲットイメージ間のテクスチャと構造を整列する新しい編集フレームワークである。
本手法は, テクスチャとテクスチャを意味的対応によって調整し, 必要な時に新たなコンテンツを生成しながら, 正確なテクスチャ転送を可能にする。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:00:56 GMT)
System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts [24.8] CoT推論(Chain-of-Thought reasoning)は、大規模言語モデルでシステム2推論を行うことを可能にする。
最近の潜在空間推論手法は、言語に復号することなく隠れ状態を操作することで効率を向上させる。
本稿では,適応推論フレームワークであるSystem-1.5 Reasoningを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:35:48 GMT)
Information Entropy Guided Height-aware Histogram for Quantization-friendly Pillar Feature Encoder [24.8] リアルタイムかつ高性能な3Dオブジェクト検出は、自律走行とロボット工学において重要な役割を果たす。
最近の柱型3次元物体検出器は、そのコンパクトな表現と計算オーバーヘッドの低さから注目されている。
しかし、既存の柱型検出器は、高さ寸法と大きな数値分布差に沿って情報損失を被っている。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:40:13 GMT)
CryoCCD: Conditional Cycle-consistent Diffusion with Biophysical Modeling for Cryo-EM Synthesis [24.8] 生物物理モデリングと生成技術を統合する合成フレームワークであるCryoCCDを提案する。
CryoCCDは、現実的な生物物理学的変動を反映したマルチスケールのCryo-EMマイクログラフを生成する。
実験により、CryoCCDは構造的に正確なマイクログラフを生成し、下流タスクのパフォーマンスを向上させることが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:40:59 GMT)
Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review [24.8] Text-to-Video(T2V)検索は、ユーザのテキストクエリに基づいて、ビデオギャラリーから最も関連性の高いアイテムを特定することを目的としている。
従来の手法は、類似度を計算し、関連する項目を検索するために、ビデオとテキストのモダリティの整合にのみ依存していた。
最近の進歩は、検索性能を向上させるために、ビデオとテキストのモダリティから抽出した補助情報を含んでいる。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:02:48 GMT)
LCB-CV-UNet: Enhanced Detector for High Dynamic Range Radar Signals [24.8] LCB-CV-UNetは、Logarithmic Connect Block (LCB) という名前のハードウェア効率の良いプラグアンドプレイモジュールである。
位相コヒーレンス保存ソリューションとして提案され,HDR機能に固有の課題に対処する。
11-13dBの信号-雑音比で基準線を5%超えている。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:00:59 GMT)
Can Emotion Fool Anti-spoofing? [24.8] 感情的テキスト音声サンプルのコーパスであるEmoSpoof-TTSを紹介する。
分析の結果,既存のアンチ・スプーフィングモデルでは感情的合成音声に苦慮していることが明らかとなった。
本稿では,感情認識ゲーティングネットワークを用いた感情特化モデルのゲートアンサンブルであるGEMを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:32:57 GMT)
EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast [24.2] EmotionRankCLAPは、感情音声の次元特性と自然言語のプロンプトを用いて、きめ細かな感情変化を協調的にキャプチャする教師付きコントラスト学習手法である。
EmotionRankCLAPは、モーダル横断検索タスクを通じて測定された感情の規則性をモデル化する既存の感情-CLAPメソッドよりも優れています。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:56:55 GMT)
Multilook Coherent Imaging: Theoretical Guarantees and Algorithms [23.9] 多視点コヒーレントイメージングのための可能性に基づくアプローチの理論的側面とアルゴリズム的側面について検討する。
我々の理論的貢献には、最大極大推定器の平均正方形誤差(MSE)に最初の理論上界を確立することが含まれる。
アルゴリズム面では、最大極大解を計算するための効率的な方法として、投影降下勾配(PGD)を用いる。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:07:19 GMT)
AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models [23.9] これまでの研究によると、現在のLSMベースのエージェントは攻撃を受けなくても多くの悪意あるタスクを実行している。
本稿では,安全なアライメントデータ合成の媒体として抽象的行動連鎖を利用する新しいフレームワークであるAgentAlignを提案する。
本フレームワークは,複雑なマルチステップのダイナミックスを捕捉しながら,高精度かつ実行可能な命令の生成を可能にする。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:02:18 GMT)
Beyond Zero Initialization: Investigating the Impact of Non-Zero Initialization on LoRA Fine-Tuning Dynamics [23.8] 低ランク適応(LoRA)はパラメータ効率のよい微調整法として広く用いられている。
標準的なLoRA層では、行列の1つである$A$または$B$はゼロであり、事前訓練されたモデルから微調整が始まります。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:33:03 GMT)
VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation [23.7] ビデオキャプションは、テキストからビデオへの生成タスクにおいて重要な役割を果たす。
既存のベンチマークでは、きめ細かい評価が不十分である。
細粒度ビデオキャプション評価ベンチマーク(VCapsBench)を紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:34:25 GMT)
MiZero: The Shadowy Defender Against Text Style Infringements [23.6] 本稿では, 暗黙的なゼロ透かし方式であるMiZeroを紹介する。
このスキームは、伝統的な透かし法を超越して、著作権のあるスタイルを保護するための正確な透かし領域を確立する。
実験により、MiZeroはテキストスタイルの著作権所有権をAI模倣に対して有効に検証している。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:19:38 GMT)
CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning [23.5] 大規模言語モデル(LLM)は、スケーラブルな事前学習と高度な微調整によって、自然言語の理解と生成に大きな進歩をもたらした。
我々は,大規模なコード-参照ペアのコーパスを利用する,スケーラブルな選好モデル事前学習(PMP)パイプラインであるCodePMPを紹介する。
CodePMPは、大規模な合成コード-参照ペアの好みモデルを事前学習することで、RM微調整効率を向上する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:40:26 GMT)
Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network [23.5] 本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。
ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。
決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:49:50 GMT)
YH-MINER: Multimodal Intelligent System for Natural Ecological Reef Metric Extraction [23.4] 海洋生物多様性と生態過程を維持するために不可欠なサンゴ礁は、エスカレートする脅威に直面している。
本研究では,YH-MINERシステムを開発し,「対象検出-意味分割-優先入力」のためのインテリジェントなフレームワークを構築した。
本システムは,88%の属レベルの分類精度を達成し,同時にコア生態指標を抽出する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:26:18 GMT)
SeG-SR: Integrating Semantic Knowledge into Remote Sensing Image Super-Resolution via Vision-Language Model [23.4] 高解像度(HR)リモートセンシング画像は、都市計画や環境モニタリングなど幅広い用途において重要な役割を担っている。
センサーやデータ転送リンクの制限により、実際に取得された画像は分解能の低下に悩まされることが多い。
RSISR(Remote Sensing Image Super-Resolution)は、ローレゾリューション(LR)入力からHRイメージを再構築することを目的としており、直接HR画像を取得するためのコスト効率の良い代替手段を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:38:34 GMT)
LLM Agents for Bargaining with Utility-based Feedback [23.4] ユーティリティベースのフィードバックを中心とした包括的フレームワークを導入する。
1)新しいベンチマークデータセットであるBargainArena,(2)ユーティリティ理論にインスパイアされた人力による経済的な評価指標,(3)LCMを反復的にバリ取り戦略を洗練させる構造的フィードバックメカニズムである。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:07:27 GMT)
Risk-aware Direct Preference Optimization under Nested Risk Measure [23.3] Ra-DPO(Ra-Aware Direct Preference Optimization)は、ネストしたリスク対策を取り入れた新しいアプローチである。
3つのオープンソースデータセットに対する実験結果は、アライメント性能とモデルドリフトのバランスをとる上で、提案手法の優れた性能を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:19:08 GMT)
BenchmarkCards: Large Language Model and Risk Reporting [23.3] 大規模言語モデル(LLM)は多様なタスクを処理できる強力なツールである。
利用可能な多くのオプションを考えると、適切なベンチマークを見つけることは難しい。
直感的で検証可能なドキュメントフレームワークである textttBenchmarkCards を紹介します。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:22:10 GMT)
SNS-Bench-VL: Benchmarking Multimodal Large Language Models in Social Networking Services [23.1] SNS-Bench-VLは、現実のソーシャルメディアシナリオにおけるビジョンランゲージLLMの性能を評価するために設計された総合的なベンチマークである。
4001個の慎重にキュレートされた複数モーダル質問応答ペアで構成され、単一の選択、複数選択、オープンなタスクをカバーしている。
タスク間の性能を解析し,25以上の最先端マルチモーダルLCMを評価した。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:16:24 GMT)
Few-Shot Speech Deepfake Detection Adaptation with Gaussian Processes [22.8] ADD-GPは、オーディオディープフェイク検出(ADD)のためのガウスプロセス(GP)分類器に基づく数ショット適応フレームワークである
GPプロセスの柔軟性と強力なディープ埋め込みモデルを組み合わせることで、高い性能と適応性が得られることを示す。
このアプローチは、新しいTSモデルに対する堅牢性とワンショット適応性により、パーソナライズされた検出にも利用できることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:26:32 GMT)
EFIM: Efficient Serving of LLMs for Infilling Tasks with Improved KV Cache Reuse [22.8] クロスリクエストキー値 (KV) キャッシュの再利用は、中間計算を格納し再利用する手法である。
タスクを埋め込むため、KVキャッシュの再利用は、しばしばプロンプトフォーマットの構造によって妨げられる。
我々は、KVキャッシュの再利用性能を解放するFIMの変換プロンプトフォーマットであるEFIMを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:59:26 GMT)
URWKV: Unified RWKV Model with Multi-state Perspective for Low-light Image Restoration [22.7] 多状態視点を用いた統一受容重み付き鍵値(URWKV)モデルを提案する。
URWKVブロックのコアをカスタマイズし、複数のステージ内およびステージ間状態を利用して複雑な劣化を認識・解析する。
最先端モデルと比較して、URWKVモデルは様々なベンチマークにおいて優れた性能を発揮する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:17:09 GMT)
Computational Algebra with Attention: Transformer Oracles for Border Basis Algorithms [22.5] 我々は、計算コストのかかる削減ステップを特定し、排除するTransformerベースのオラクルを設計し、訓練する。
ベースアルゴリズムと比較して, 最大3.5倍の高速化率を実現した。
我々の学習アプローチは、データ効率が高く、安定であり、従来の計算機代数アルゴリズムや記号計算の実践的な拡張である。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:35:25 GMT)
Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models [22.5] 信頼性のキャリブレーションは、現実世界における機械学習モデルの安全なデプロイに不可欠である。
既存のプロンプトチューニング手法は、通常、ベースクラスと新しいクラスのキャリブレーションのトレードオフにつながる。
微調整後, 基本クラスと新クラスの信頼性校正を確保するために, ダイナミック・アウトレイラ正規化を導入する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:54:02 GMT)
Policy Filtration for RLHF to Mitigate Noise in Reward Models [22.4] PF-PPOのためのポリシーフィルタリング
PF-PPOはポリシー学習時の信号対雑音比を改善する。
コード生成および数理推論タスクにおけるPF-PPOの有効性を検証する実験を行う。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:23:39 GMT)
From Token to Action: State Machine Reasoning to Mitigate Overthinking in Information Retrieval [22.4] Chain-of-Thought (CoT) は大規模言語モデル(LLM)において複雑な推論を可能にする
本稿では,個別動作からなる遷移型推論フレームワークであるState Machine Reasoning (SMR)を提案する。
BEIRとBRIGHTベンチマークの実験では、SMRは検索性能(nDCG@10)を3.4%改善し、トークン使用量を74.4%削減した。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:04:25 GMT)
The Panaceas for Improving Low-Rank Decomposition in Communication-Efficient Federated Learning [22.3] モデル更新分解(MUD)、ブロックワイドクローネッカー分解(BKD)、アグリゲーション・アウェア分解(AAD)の3つの新しい手法を紹介する。
提案手法は, ベースライン法よりも高速に収束し, 精度が向上する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:14:32 GMT)
Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning [22.3] 本稿では,拡散型ポリシーに適した行動規則化RLフレームワークであるBDPOを紹介する。
我々は,行動制約を尊重しながら最適なポリシーを生成する,効率的な2時間スケールアクタークリティカルなRLアルゴリズムを開発した。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:14:17 GMT)
Enhancing Large Language Models'Machine Translation via Dynamic Focus Anchoring [22.3] 機械翻訳(MT)を含む多言語NLPタスクにおいて、大規模言語モデルは例外的な性能を示した。
持続的な課題は、多文語のような文脈依存単位(CSU)に対処することにある。
本稿では,CSUの取得とセマンティックフォーカスの適用により,LLMのMT能力をシンプルかつ効果的に向上する手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:29:57 GMT)
Cross-Domain Bilingual Lexicon Induction via Pretrained Language Models [22.3] 本稿では、一般ドメインと対象ドメインの単言語コーパスを用いて、ドメイン固有のバイリンガル辞書を抽出するBLIの新しいタスクを提案する。
事前学習モデルの能力に触発されて,BLIの最近の研究に基づいて構築された単語の埋め込みを改善する手法を提案する。
実験結果から,本手法は3つの領域におけるロバストなBLIベースラインの性能を平均0.78ポイント向上させることで向上できることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:37:02 GMT)
AgentNet: Decentralized Evolutionary Coordination for LLM-based Multi-Agent Systems [22.3] AgentNet(エージェントネット)は、マルチエージェントシステムのための分散化された検索型生成(RAG)ベースのフレームワークである。
静的ロールや集中制御の以前のアプローチとは異なり、AgentNetはエージェントがローカルの専門知識とコンテキストに基づいて接続とタスクのルーティングを調整することができる。
実験の結果,AgentNetは単一エージェントと集中型マルチエージェントのベースラインよりも高いタスク精度を実現することがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:55:08 GMT)
The Rich and the Simple: On the Implicit Bias of Adam and SGD [22.2] Adamは、いくつかのディープラーニングアプリケーションのためのデファクト最適化アルゴリズムである。
実際には、(確率的な)降下勾配(GD)で訓練されたニューラルネットワークは、単純さのバイアスを示すことが知られている。
我々は、Adamがこのような単純さのバイアスに抵抗していることを示します。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:46:12 GMT)
Information Leakage Detection through Approximate Bayes-optimal Prediction [22.0] 情報漏洩(英: Information leakage, IL)とは、意図せず機密情報を無許可の当事者に漏らす情報である。
従来の統計手法は、ILを検出するために観測可能な情報と秘密情報の相互情報を推定することに依存している。
統計的学習理論と情報理論を用いて,ILの定量化と検出を正確に行う理論的枠組みを構築した。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:14:44 GMT)
Sparse Linear Bandits with Blocking Constraints [22.0] データ・ポーア・システマにおける高次元スパース線形包帯問題について検討する。
線形モデルに対するラッソ推定器の新たなオフライン統計的保証を示す。
本稿では,最小限のコストで最適空間パラメータ$k$の知識を必要としない相関に基づくメタアルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:23:01 GMT)
Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles [22.0] 本稿では、ジグソーパズルを構造化実験フレームワークとして用いたルールベースの視覚的RLについて包括的に研究する。
MLLMは、最初は単純なパズルのランダムな推測に近づき、ほぼ完璧な精度を達成し、微調整によって複雑で目に見えない構成に一般化する。
MLLMは、明確な推論の有無に関わらず学習し、一般化することができるが、オープンソースモデルは直接答えを好むことが多い。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:01:22 GMT)
DocMMIR: A Framework for Document Multi-modal Information Retrieval [21.9] 本稿では,新しいマルチモーダル文書検索フレームワークDocMMIRを紹介する。
450Kサンプルからなる大規模クロスドメインマルチモーダルベンチマークを構築した。
その結果、ゼロショットベースラインに比べてMRR@10は+31%改善した。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:14:43 GMT)
Bounded-Abstention Pairwise Learning to Rank [21.9] 欠如は、アルゴリズムによる意思決定システムによって、不確実または低信頼な決定を人間の専門家に延期することを可能にする。
ペアワイズ・ラーニング・ツー・ランク・タスクにおける禁忌のための新しい手法を提案する。
我々の貢献は3つある: 最適棄権戦略の理論的特徴、収権モデルを構築するためのモデルに依存しないプラグインアルゴリズム、および複数のデータセットにわたる包括的経験的評価である。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:35:39 GMT)
Nonconvex Stochastic Optimization under Heavy-Tailed Noises: Optimal Convergence without Gradient Clipping [21.9] 重み付き雑音下での最初の収束を提供するが、切断はしない。
また、テールインデックス$mathfrakp$が事前に不明な場合には、最初の$mathcalO(Tfrac1-mathfrakp3mathfrakp-2)$収束率も設定する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:42:49 GMT)
Improved Last-Iterate Convergence of Shuffling Gradient Methods for Nonsmooth Convex Optimization [21.9] 我々はRandom Reshuffle(textsfRR$) と Single Shuffle(textsfSS$) の戦略がどちらも Proximal GD よりも確実に高速であることを示す。
重要な意味として、suffix 平均に対して $textsfRR$ サンプリングスキームで(ほぼ)最適収束結果を与える。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:53:45 GMT)
ExpandR: Teaching Dense Retrievers Beyond Queries with LLM Guidance [21.8] 大規模言語モデル(LLM)は、クエリ拡張による高密度検索の強化に有意な可能性を証明している。
本研究では,LLM拡張高密度検索フレームワークExpandRを提案する。
複数のベンチマーク実験の結果、ExpandRは強いベースラインを一貫して上回ることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:21:57 GMT)
Towards Understanding The Calibration Benefits of Sharpness-Aware Minimization [21.7] ディープニューラルネットワークは、医療診断や自律運転といった安全クリティカルな応用にますます利用されてきた。
多くの研究は、校正が不十分で、過剰な自信を持つ傾向があり、破滅的な結果をもたらす可能性があることを示唆している。
最近提案されたシャープネス認識最小化(SAM)は、この過信に対する傾向に反することを示す。
モデルキャリブレーションを改善するために, CSAM と呼ばれる SAM の変種を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:55:29 GMT)
MuLoCo: Muon is a practical inner optimizer for DiLoCo [21.7] DiLoCoは、ネットワーク制約下での大規模言語モデル(LLM)をトレーニングするための強力なフレームワークである。
本研究では,DiLoCoの通信オーバヘッドを低減するため,Top-kスペーシフィケーション量子化を含む圧縮手法の有効性を検討した。
実験の結果,DiLoCoの内部にMuonを用いることで,差分を2ビットに積極的に圧縮できることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:55:37 GMT)
From Lived Experience to Insight: Unpacking the Psychological Risks of Using AI Conversational Agents [21.7] 我々の研究は、個人の生きた経験を通して収集されたAIを使用することの心理的リスクに焦点を当てた、新しいリスク分類を提示する。
我々の分類学は、19のAI行動、21のネガティブな心理的影響、および個人に関連する15の文脈を特徴としている。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:10:25 GMT)
BECAME: BayEsian Continual Learning with Adaptive Model MErging [21.6] BECAMEという2段階のフレームワークを導入し、勾配予測と適応的マージの専門知識を相乗化する。
我々のアプローチは、最先端のCLメソッドと既存のマージ戦略より優れています。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:54:32 GMT)
SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels [21.5] 3Dの占有率予測は、自動運転の分野で大きな注目を集めている。
従来は、ボクセルの最も重要な分布パターンを探索しなかったため、不満足な結果となった。
本稿では,スパースヘッドテールボクセル構造を用いて,頭部と尾部のキーボクセルを正確に同定し,バランスをとるSHTOccを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:45:58 GMT)
DispaRisk: Auditing Fairness Through Usable Information [21.5] DispaRiskは、機械学習パイプラインの初期段階におけるデータセットの格差の潜在的なリスクを評価するために設計されたフレームワークである。
以上の結果から,識別リスクの高いデータセットを識別するDispaRiskの能力,MLパイプライン内のバイアスに起因するモデルファミリの検出,バイアスリスクの説明可能性の向上が示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:33:37 GMT)
TCM-Ladder: A Benchmark for Multimodal Question Answering on Traditional Chinese Medicine [21.5] 我々は,大規模なTCM言語モデルを評価するために特別に設計された,最初のマルチモーダルQAデータセットであるTCM-Ladderを紹介する。
このデータセットは、基礎理論、診断、草本式、内科、外科、薬物療法、小児科を含む、TCMの複数の中核領域にまたがる。
データセットは、自動と手動のフィルタリングプロセスを組み合わせて構築され、合計で52,000以上の質問で構成されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:13:57 GMT)
How far away are truly hyperparameter-free learning algorithms? [21.4] 我々は,ハイパーパラメータフリー手法の構成要素として,学習速度フリー手法の可能性を評価する。
文献提供のデフォルト設定がベンチマークでは不十分であることが分かりました。
最高のAlgoPerf校正学習レートフリーメソッドは、パフォーマンスが大幅に向上したが、ベンチマークスコア全体でも同様の校正ベースラインにわずかに遅れを取っていた。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:57:31 GMT)
Non-collective Calibrating Strategy for Time Series Forecasting [21.2] 我々は、資源コストを最小限に抑えて、既存の高度なモデルを普遍的な校正戦略で精錬することは、かなりの利益をもたらすと論じている。
Socket+Plug (SoP) と呼ばれる革新的な校正戦略を提案する。
SoPは、特定のデータセットに関係なく、トレーニングされたディープ予測モデルのパフォーマンスを直接調整することを可能にする。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:14:26 GMT)
NEXT: Multi-Grained Mixture of Experts via Text-Modulation for Multi-Modal Object Re-ID [21.2] 属性信頼度に基づく信頼性の高いマルチモーダルキャプション生成手法を提案する。
また,マルチモーダルオブジェクト再識別のためのテキスト変調による多粒度エキスパート混在型 ReID フレームワーク NEXT を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:38:57 GMT)
Chain of Grounded Objectives: Bridging Process and Goal-oriented Prompting for Code Generation [21.1] Chain of Grounded Objectives (CGO) は、関数目的を入力プロンプトに埋め込んでコード生成を強化する手法である。
適切に構造化された目的を入力として利用し、明示的なシーケンシャルな手順を避けることで、CGOはプログラミングタスクの構造的な性質に効果的に適応する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:28:30 GMT)
D-AR: Diffusion via Autoregressive Models [21.0] Diffusion via Autoregressive Model (D-AR) は、画像拡散プロセスをバニラ自己回帰法として再キャストする新しいパラダイムである。
本手法は,256個の離散トークンを持つ775MのLlamaバックボーンを用いて,2.09個のFIDを実現する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:09:25 GMT)
Generating Fit Check Videos with a Handheld Camera [21.0] 携帯端末を用いたフルボディビデオキャプチャを実現するための,より便利なソリューションを提案する。
われわれのアプローチは、鏡に映った2枚の静止画(前後)を入力し、携帯電話を持っていながら演奏するIMUモーションレファレンスとして捉えている。
私たちは一貫した照明と影で新しいシーンへのレンダリングを可能にします。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:58:49 GMT)
On the Training Convergence of Transformers for In-Context Classification of Gaussian Mixtures [21.0] 本研究は、文脈内分類タスクのための変圧器の訓練力学を理論的に研究することを目的とする。
本研究では, ある仮定の下でのガウス混合の文脈内分類において, 勾配勾配から学習した単層変圧器が線形速度で大域的最適モデルに収束することを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:32:38 GMT)
ProDiff: Prototype-Guided Diffusion for Minimal Information Trajectory Imputation [20.9] 既存の計算法は、不足点を推測するためにスパース軌道や速度などの旅行情報に依存している。
本稿では,2つの終端のみを最小限の情報として使用するトラジェクトリ・インパクション・フレームワークであるProDiffを提案する。
ProDiffは最先端の手法より優れており、FourSquareでは6.28%、WuXiでは2.52%の精度が向上している。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:43:16 GMT)
DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code Generation [20.8] DynaCodeは、大規模言語モデル(LLM)のための動的で複雑さを意識したベンチマークである。
複雑性を意識したメトリクスを使用して、LLMを体系的に評価し、コードの複雑さとコールグラフ構造の両方を取り入れる。
最新の12のLCMでは、静的コード生成ベンチマークであるMBPP+と比較して平均パフォーマンスが16.8%から45.7%低下している。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:17:33 GMT)
CrossLinear: Plug-and-Play Cross-Correlation Embedding for Time Series Forecasting with Exogenous Variables [20.7] CrossLinearは、変数間の依存関係をモデリングする際の課題に対処する、線形ベースの新しい予測モデルである。
この軽量モジュールは、計算コストを最小限にして変数間の依存関係をキャプチャし、既存のニューラルネットワークにシームレスに統合する。
12の実世界のデータセットの実験では、CrossLinearは短期および長期の予測タスクにおいて優れたパフォーマンスを達成している。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:34:40 GMT)
DSR-Bench: Evaluating the Structural Reasoning Abilities of LLMs via Data Structures [20.6] 大規模言語モデル(LLM)は、データ操作を基本とする現実世界のタスクに対して、ますます多くデプロイされている。
中心となる要件は、構造的推論(つまり、データ関係を理解し、推論する)を実行する能力である。
データ構造を通してLLMの構造的推論能力を評価する新しいベンチマークであるDSR-Benchを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:24:53 GMT)
Foundation Molecular Grammar: Multi-Modal Foundation Models Induce Interpretable Molecular Graph Languages [20.6] 本稿では,MMFM(Multi-modal foundation model)を活用し,解釈可能な分子言語を誘導するFoundation Molecular Grammarを提案する。
MMFMの化学知識を活用して、分子を画像として描画し、それらをテキストとして記述し、迅速な学習を用いて情報をモダリティにわたって整列させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:03:09 GMT)
Directed Graph Grammars for Sequence-based Learning [20.6] 有向非巡回グラフ(英: Directed acyclic graph、DAG)は、実際には一般的に用いられるグラフのクラスである。
本稿では,DAGの原理的,コンパクトかつ等価な逐次表現を構築するための文法に基づく手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:05:07 GMT)
Multi-Domain Explainability of Preferences [20.5] 本稿では,複数の領域にまたがる好みの概念に基づく説明を自動生成する手法を提案する。
提案手法はLLMを用いて,選択された応答と拒否された応答を区別する概念を同定する。
提案手法は, 高い嗜好予測性能を達成し, ベースラインを上回りながら, 説明も可能である。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:47:53 GMT)
PAN-Crafter: Learning Modality-Consistent Alignment for PAN-Sharpening [20.4] 本稿では,Modality-ConsistentアライメントフレームワークであるPAN-Crafterを提案する。
Modality-Adaptive Restruction (MAR)は、HRMSとPANの画像を共同で再構築する。
複数のベンチマークデータセットの実験では、PAN-Crafterがすべてのメトリクスで最新の最先端メソッドよりも優れています。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:46:21 GMT)
DRO: A Python Library for Distributionally Robust Optimization in Machine Learning [20.3] 分散ロバスト最適化(DRO)のためのオープンソースのPythonライブラリであるdroを紹介する。
droは14のDRO定式化と9のバックボーンモデルを実装し、79のDROメソッドを実現している。
droはScikit-learnとPyTorchの両方と互換性がある。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:39:12 GMT)
ReassembleNet: Learnable Keypoints and Diffusion for 2D Fresco Reconstruction [20.3] 我々は、最先端のDeep Learningメソッドにおいて、再アセンブリのための重要な制限に対処する。
本稿では,各入力片を輪郭キーポイントの集合として表現することで,複雑性を低減する手法であるReassembleNetを提案する。
次に拡散に基づくポーズ推定を適用し,元の構造を復元する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:16:23 GMT)
InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback [20.3] 人間の学習の重要な側面は環境との継続的な相互作用である。
人間レベルのインテリジェンスに近づくためには、モデルがマルチターン、マルチモーダルなインタラクションをサポートする必要がある。
マルチターンマルチモーダルインタラクションのための第1の選好データセットであるInterMTによる最初の探索を行う。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:00:42 GMT)
Image Aesthetic Reasoning: A New Benchmark for Medical Image Screening with MLLMs [20.2] 画像スクリーニングの研究はまれであり、MLLMによる性能はデータ不足のため不満足である。
本研究では,データと方法論の観点から,これらの問題に対処するための完全な解を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:14:16 GMT)
HiGarment: Cross-modal Harmony Based Diffusion Model for Flat Sketch to Realistic Garment Image [20.2] HiGarmentは、テキストおよび視覚的モダリティ間のファブリック表現を強化する新しいフレームワークである。
本研究では,フラットスケッチとテキストガイダンスを統合し,リアルな衣料品画像を生成するFlat Sketch to Realistic Garment Image (FS2RG)を提案する。
衣料品生成のための最大のオープンソースデータセットであるMulti-modal Detailed Garmentを収集する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:23:40 GMT)
Spoken Language Modeling with Duration-Penalized Self-Supervised Units [20.1] 音声言語モデル(SLM)は、自己教師付き音声表現を識別して得られる音響単位で動作する。
コードブックのサイズと単位の粗さ(すなわち持続時間)の相互作用は未解明のままである。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:43:48 GMT)
Bayesian Optimization from Human Feedback: Near-Optimal Regret Bounds [20.0] 我々はこの問題をHuman Feedback (HF) からのベイズ最適化(Bayesian Optimization from Human Feedback)と呼ぶ。
目的は、限定された嗜好フレームワークを使用して、最良のアクションを特定することである。
言い換えれば、スカラー値のサンプルと同数の優先的な新規サンプルは、ほぼ最適解を見つけるのに十分である。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:17:29 GMT)
Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences? [20.0] 事前学習後、大きな言語モデルはペア比較に基づいて人間の好みに適合する。
本稿では,最適達成可能な平均効用量と学習ポリシーの平均効用量との最悪のケース比について,アライメント手法の歪みを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:20 GMT)
Learning Parametric Distributions from Samples and Preferences [19.9] 選好に基づくM推定器は、サンプルのみのM推定器よりも分散性が高いことを示す。
我々は,$mathcalO (1/n)$ -- $Theta (1/sqrtn)$よりも大幅に改善された$mathcalO (1/n)$ -- の推定誤差スケーリングを実現する推定器を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:33:43 GMT)
LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data [19.8] LongFaithは忠実な長文推論命令データセットを合成するための新しいパイプラインである。
基礎的真理と引用に基づく推論のプロンプトを統合することにより、注意散らしを排除し、推論連鎖の精度を向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:01:22 GMT)
Wav2Sem: Plug-and-Play Audio Semantic Decoupling for 3D Speech-Driven Facial Animation [19.7] 3D音声駆動の顔アニメーション生成では、既存の手法では、訓練済みの自己教師付き音声モデルをエンコーダとして使用するのが一般的である。
言語における唇の形状が異なる音節に類似した音節が出現しているため、これらの近ホモフォン音節は、自己教師型音声特徴空間において顕著な結合を示す傾向にある。
本稿では,プラグアンドプレイ型セマンティックデコレーションモジュール-Wav2Semを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:42:03 GMT)
DVD: A Comprehensive Dataset for Advancing Violence Detection in Real-World Scenarios [19.7] バイオレンス検出(VD)は、ますます重要な研究領域となっている。
既存の自動化されたVD作業は、多種多様な注釈付きデータベースの可用性の制限によって妨げられている。
大規模(500本のビデオ、2.7Mフレーム)のDVDや、様々な環境を持つフレームレベルの注釈付きVDデータベースを紹介します。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:27:33 GMT)
Learning to Reason from Feedback at Test-Time [19.6] 成功を得るためには、環境とフィードバックとの反復的な相互作用がしばしば必要です。
既存のアプローチは、長さの一般化に苦しむか、事前情報を活用することなく、単純な再試行に依存している。
本稿では,テスト時の最適化問題としてフィードバック利用を定式化する新しいパラダイムであるFTTTを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:35:57 GMT)
Learning to Incentivize in Repeated Principal-Agent Problems with Adversarial Agent Arrivals [19.6] 有限地平線上の主エージェント問題の繰り返しを$T$で研究する。
我々はその問題が難解になり、線形後悔に繋がることを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:46:01 GMT)
Proximalized Preference Optimization for Diverse Feedback Types: A Decomposed Perspective on DPO [19.6] 我々は、直接選好最適化(DPO)を再考し、その損失が理論的に分解された改革を認めることを実証する。
PRO (Proximalized PReference Optimization) を導入し,多様な課金型に対応する統一手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:23:22 GMT)
Pose-free 3D Gaussian splatting via shape-ray estimation [19.5] ポーズフリーでフィードフォワードのガウススプレイティングフレームワークであるSHAREを紹介する。
関節形状とカメラ線推定によりあいまいさを克服する。
提案手法はポーズフリーな一般化可能なガウススプラッティングにおけるロバストな性能を実現する。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:34:40 GMT)
GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents [19.5] GSOは、高性能ソフトウェアを開発する際の言語モデルの能力を評価するためのベンチマークである。
SWE-Agentsは5%未満の成功率を達成でき、推論時間スケーリングにおいても改善が限られている。
将来の研究を可能にするために、ベンチマークのコードとアーティファクトとエージェントトラジェクトリをリリースします。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:14:55 GMT)
Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek [19.4] 本研究は,CADモデル生成のための自己補充機構に視覚的および連鎖的フィードバック(CoT)を組み込んだ最初の研究である。
SSR(Sketch, Sketch-based feature, and Refinements)の3次元設計パラダイムを中心に構築された革新的な3次元CADモデルデータセットを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:35:10 GMT)
Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement [19.4] ワードレベルの品質推定(WQE)は、機械翻訳された出力におけるきめ細かいエラースパンを自動的に識別することを目的としている。
現代のWQE技術は高価であり、大規模な言語モデルや、大量の人間ラベル付きデータに対するアドホックな訓練を促進する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:20:36 GMT)
Multi-Group Proportional Representation for Text-to-Image Models [19.4] Text-to-image (T2I) 生成モデルは、テキスト記述から鮮明でリアルなイメージを作成することができる。
これらのモデルが普及するにつれて、多様な人口集団を代表し、ステレオタイプを広め、少数民族を擁護する能力に対する新たな懸念が浮き彫りになる。
本稿では,T2Iモデルが生成した画像における交叉群の表現を多群比例表現法を用いて測定する手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:48:28 GMT)
Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem? [19.4] マルチモーダル大言語モデル(MLLM)は、クロスモーダルな理解と生成に顕著な性能を示したが、それでも厳しい推論コストに悩まされている。
近年,MLLMの冗長なトークンを識別し,計算コストとKVストレージコストを削減するトークンプルーニングにより,この問題を解決するための豊富な研究が提案されている。
本稿では,これらの疑問に一つずつ答え,将来的なトークンプルーニング手法の設計について考察する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:18:35 GMT)
TabReason: A Reinforcement Learning-Enhanced Reasoning LLM for Explainable Tabular Data Prediction [19.4] 大規模言語モデル(LLM)は、人間のような推論や説明を生成する強力な能力を示している。
本稿では,より正確で説明可能な予測を行うために,強化学習を用いて学習した推論に基づくLLMを活用する新しい手法を提案する。
提案手法では,予測精度の向上だけでなく,予測に対する人間の理解可能な理由をモデルに導くカスタム報酬関数を導入している。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:02:15 GMT)
On the Convergence Analysis of Muon [19.3] 我々は、Muonの総合収束速度解析と、Gradient Descent(GD)との比較を示す。
我々の理論的結果は、ムオンがヘッセン行列の低ランクおよび近似ブロックワイド対角構造から恩恵を受けることができることを示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:58:01 GMT)
Gradient Methods with Online Scaling Part I. Theoretical Foundations [19.2] 本稿では,オンラインスケールド手法(OSGM)の理論的基礎を確立する。
OSGMは、収束度から動機付けられたフィードバック関数によるステップサイズの有効性を定量化し、オンライン学習アルゴリズムを用いてステップサイズを調整する。
OSGMは、滑らかな凸問題に対する望ましい収束を保証する。1)滑らかな凸問題に対する軌道依存のグローバル収束、2)滑らかな凸問題に対する複雑性の改善、3)局所超線型収束などである。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:35:21 GMT)
Securing AI Agents with Information-Flow Control [19.2] 本稿では,AIエージェントのセキュリティ保証のための情報フロー制御(IFC)について検討する。
我々は,エージェントプランナーのセキュリティと表現性を推論するための形式モデルを提案する。
機密性や整合性のラベルを追跡し,セキュリティポリシーを決定的に実施するプランナであるFidesを紹介し,情報を選択的に隠蔽するための新しいプリミティブを紹介した。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:50:41 GMT)
Rethinking Positive Pairs in Contrastive Learning [19.1] SimLAPは任意のペアから視覚表現を学ぶためのフレームワークである。
観察の動機は、任意のクラスに対して意味的に異なるサンプルが類似性を示す部分空間が存在することである。
この現象は、任意のサンプルの類似性を最適化し、同時に可能な部分空間を学習する新しい学習方法に利用することができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:25:14 GMT)
Be.FM: Open Foundation Models for Human Behavior [19.1] Be.FMは人間の行動モデリング用に設計された最初のオープンファンデーションモデルの一つである。
オープンソースの大規模言語モデルに基づいて構築されたBe.FMは、人間の意思決定を理解し予測するために使用することができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:03:51 GMT)
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning? [18.9] ロングチェーン・オブ・思想(CoT)推論は、複雑なタスクにおける大規模言語モデル(LLM)の性能を大幅に向上させることができる。
近年の取り組みでは、ビデオ推論を目的としたベンチマークが提案されているが、タスクは知識駆動であり、視覚コンテンツにはあまり依存していないことが多い。
視覚中心の複雑なビデオ推論を評価するためのベンチマークであるVideoReasonBenchを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:33:43 GMT)
Simplifying Bayesian Optimization Via In-Context Direct Optimum Sampling [18.9] 代理フィッティングや獲得関数の最適化を必要としないBOに対して,完全にコンテキスト内ゼロショットのソリューションを提案する。
これは、事前訓練されたコンテキストモデルを使用して、最適点上の後方から直接サンプリングする。
プロセスベースBOと比較して,壁面時間で35倍以上の効率向上を実現した。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:07:36 GMT)
Efficiently Access Diffusion Fisher: Within the Outer Product Span Space [18.8] 拡散フィッシャーは実際に、スコアと初期データの外部積によって区切られた空間内に存在することを示す。
DFのトレース乗算と行列ベクトル乗算の2つの効率的な近似アルゴリズムを開発した。
確率評価と随伴最適化の実験により,提案アルゴリズムの精度と計算コストの低減が図られた。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:13:36 GMT)
Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary [18.8] オーバーリファールは通常、過保守な安全アライメントに起因している。
本稿では、過剰なプロンプトを戦略的にターゲットとするプロンプト生成と選択のための自動フレームワークであるRASSを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:22:42 GMT)
Buffer-free Class-Incremental Learning with Out-of-Distribution Detection [18.7] クラスインクリメンタルラーニング(CIL)は、オープンワールドシナリオにおいて大きな課題となる。
本稿では,ポストホックOOD検出手法の詳細な解析を行い,メモリバッファの必要性を解消する可能性について検討する。
このバッファフリー手法は,クラスインクリメンタル学習と未知サンプルの拒絶という両面において,バッファベースの手法と同等あるいは優れた性能が得られることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:01:00 GMT)
A Flexible, Equivariant Framework for Subgraph GNNs via Graph Products and Graph Coarsening [18.7] サブグラフGNNはグラフをサブグラフの集合として表現することで、メッセージパッシングGNNの表現性を高める。
以前のアプローチでは、ランダムまたは学習可能なサンプリングによって、サブグラフの小さなサブセットを生成する試みがあった。
本稿では,これらの問題に対処する新しいSubgraph GNNフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:33:51 GMT)
Global Tensor Motion Planning [18.7] グローバルモーションプランニング(GTMP)は、テンソル操作のみを含むサンプリングベースのモーションプランニングアルゴリズムである。
ランダムな多部グラフとして表現される新しい離散化構造を導入し,効率的なベクトル化サンプリング,衝突チェック,探索を可能にした。
ライダースキャンされた占有マップとMotionBenchMarkerデータセットの実験は、ベースラインと比較して、バッチ計画におけるGTMPの効率を実証している。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:05:44 GMT)
A Refined Analysis of UCBVI [18.7] 我々は, UCBVIアルゴリズム(Azar et al., 2017)の精巧な解析を行い,ボーナス項と後悔解析の両方を改善した。
UCBVIのオリジナルバージョンと最先端MVPアルゴリズムを比較した。
実験による検証により, 境界における乗法定数の改善は, アルゴリズムの経験的性能に有意な正の影響を及ぼすことが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:47:12 GMT)
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation [18.6] バイオメディカル画像解釈のための基礎モデルUniBiomedを紹介する。
UniBiomedは正確な診断結果を生成し、対応するバイオメディカルターゲットを同時にセグメンテーションすることができる。
UniBiomedを開発するために,2700万以上の画像,領域アノテーション,テキスト記述を含む大規模データセットをキュレートする。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:14:48 GMT)
Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.5] 拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:08:24 GMT)
BatteryLife: A Comprehensive Dataset and Benchmark for Battery Life Prediction [18.4] バッテリライフ予測(Battery Life Prediction, BLP)のための包括的なデータセットとベンチマークであるバッテリライフを提案する。
BatteryLifeは16のデータセットを統合し、前回の最大のデータセットの2.5倍のサンプルサイズを提供する。
BatteryLifeは、亜鉛イオン電池、ナトリウムイオン電池、そして業界でテストされているリチウムイオン電池のバッテリー寿命データセットを初めてリリースした。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:17:14 GMT)
Refining Labeling Functions with Limited Labeled Data [18.4] プログラム弱監督(PWS)は、ラベルなしデータポイント上のユーザが提供するラベル付け関数(LF)の出力を組み合わせることで、ラベル付けに対する人間の労力を大幅に削減する。
ラベル付きサンプルの小さなセットに基づいてLFを固定する問題について検討する。
我々は,ラベル付き例で最小限の変更を行うことで,LFの集合を修復する新しい手法を開発した。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:26:11 GMT)
Weight Space Representation Learning on Diverse NeRF Architectures [18.3] 多様なアーキテクチャでNeRFを処理し、トレーニング時に見つからないアーキテクチャを推論する最初のフレームワークを紹介します。
3つのファミリーに属する13のNeRFアーキテクチャ(MLP、トリプレーン、および初めてハッシュテーブル)で実施された実験では、分類および検索タスクにおいて堅牢な性能を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:55 GMT)
Know the Unknown: An Uncertainty-Sensitive Method for LLM Instruction Tuning [18.3] 大きな言語モデル(LLM)は目覚ましい能力を示すが、幻覚による課題に直面している。
本研究では,文脈的質問応答のための新しい2段階アプローチであるuncertainty-and-Sensitivity-Aware Tuning(US-Tuning)を紹介する。
実験の結果,US-Tuningは文脈的QAにおける誤った回答を著しく低減するだけでなく,モデルのパラメトリック知識への忠実度も向上することが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:18:17 GMT)
Interpreting Chest X-rays Like a Radiologist: A Benchmark with Clinical Reasoning [18.2] 胸部X線(CXR)解釈のための新しい多段階視覚質問応答(VQA)データセットであるCXRTrekを提案する。
このデータセットは、現実の臨床環境で放射線技師が使用する診断的推論プロセスを明示的にシミュレートするように設計されている。
本稿では,新たな視覚言語大モデル (VLLM) であるCXRTrekNetを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:30:40 GMT)
A Divide-and-Conquer Approach for Global Orientation of Non-Watertight Scene-Level Point Clouds Using 0-1 Integer Optimization [18.2] 点雲の配向はコンピュータグラフィックスと3Dビジョンの基本的な問題である。
DACPO(Divide-And-Conquer Point Orientation)は,スケーラブルでロバストなクラウド指向のための新しいフレームワークである。
DACPOが入力ポイントクラウドをより小さく管理可能なブロックに分割し、各ブロックを独立して処理し、グローバルな最適化段階を通じて結果を統合する方法を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:21:22 GMT)
DeepChest: Dynamic Gradient-Free Task Weighting for Effective Multi-Task Learning in Chest X-ray Classification [18.1] DeepChestは、マルチラベル胸部X線分類(CXR)用に特別に設計された動的タスク重み付けフレームワークである。
ネットワークアーキテクチャ(ResNet18など)が与えられた場合、モデルに依存しないアプローチは、勾配アクセスを必要とせずにタスクの重要度を適応的に調整する。
大規模なCXRデータセットの実験では、DeepChestが最先端のMTLメソッドを全体の精度で7%上回っていることが示されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:08:26 GMT)
DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models [18.1] 視覚基盤モデルのコンテキスト内推論能力をインセンティブ化する最初の試みであるtextbfDINO-R1 を提案する。
DINO-R1は、新しい強化スタイルのトレーニング戦略である textbfGroup Relative Query Optimization (GRQO) を導入した。
COCO、LVIS、ODinWの実験により、DINO-R1は制御された微調整ベースラインを著しく上回ることが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:58:06 GMT)
Mobi-$π$: Mobilizing Your Robot Learning Policy [18.1] 政策動員問題を定式化し、新しい環境下で移動ロボットのポーズを見つける。
政策の再訓練と比較すると、政策の動員はナビゲーションを操作から切り離す。
シミュレーションと実環境の両方において,本手法がベースラインを上回っていることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:27:54 GMT)
Improving the Effective Receptive Field of Message-Passing Neural Networks [18.0] 本稿では,MPNNにおける限定的有効受容場問題について,理論的に解説する。
本稿では,これらの問題に対処するインターリーブ型マルチスケールメッセージパッシングニューラルネットワークアーキテクチャを提案する。
本手法では,グラフの階層的粗大化を取り入れ,マルチスケール表現を横断するメッセージパッシングを実現する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:23:07 GMT)
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization? [18.0] 推論可能な大規模言語モデル (LLM) は論理的タスクに優れるが、自然言語生成を評価するための実用性はまだ明らかにされていない。
本研究は,機械翻訳およびテキスト要約評価タスクにおいて,推論LLMと非推論LLMを体系的に比較する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:35:47 GMT)
Revisiting Reweighted Risk for Calibration: AURC, Focal Loss, and Inverse Focal Loss [18.0] 本稿では,ディープラーニングで一般的に使用される重み付きリスク関数の幅広いクラスを再検討する。
我々はこれらの重み付けスキームと校正誤差の原理的関係を確立する。
AURCの正規化変種を最適化することは自然にキャリブレーションの改善につながることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:12:12 GMT)
Epistemic Errors of Imperfect Multitask Learners When Distributions Shift [18.0] データが騒々しい場合、統計的学習者の目標は、テスト時に遭遇するデータに関する不確実性を解決することである。
多くの実世界の学習環境は、トレーニング(ソース)データだけでは解決できない不確実性の源を導入している。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:46:03 GMT)
Hyperbolic-PDE GNN: Spectral Graph Neural Networks in the Perspective of A System of Hyperbolic Partial Differential Equations [17.9] グラフニューラルネットワーク(GNN)は、メッセージパッシング機構を利用して、グラフデータのトポロジ的特徴を学習する。
双曲型偏微分方程式(双曲型PDE)の系としてのメッセージパッシングを定式化する
我々は、スペクトルグラフニューラルネットワーク(スペクトルGNN)との接続を確立し、スペクトルGNNのメッセージパッシング拡張パラダイムとして機能する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:49:26 GMT)
Neuro-symbolic Training for Reasoning over Spatial Language [17.9] 最先端の言語モデルでさえ、テキストよりも空間的推論に苦しむ。
これは、一般化可能性に必要な適切な抽象化レベルを達成できないためである。
本稿では,空間論理規則を制約として活用するニューロシンボリックな手法を用いた学習言語モデルを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:44:12 GMT)
DarkDiff: Advancing Low-Light Raw Enhancement by Retasking Diffusion Models for Camera ISP [17.9] 本稿では,カメラISPで事前学習した生成拡散モデルを再現することにより,低照度生画像を改善する新しいフレームワークを提案する。
提案手法は, 3つの低照度原画像ベンチマークにおいて, 知覚品質の最先端性よりも優れていた。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:58:48 GMT)
CLDTracker: A Comprehensive Language Description for Visual Tracking [17.9] 我々は、堅牢な視覚追跡のための新しい包括的言語記述フレームワークであるCLDTrackerを提案する。
トラッカーはテキストと視覚分岐からなる二重ブランチアーキテクチャを導入している。
6つの標準VOTベンチマークの実験は、CLDTrackerがSOTAのパフォーマンスを達成することを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:39:30 GMT)
Exploring Scaling Laws for EHR Foundation Models [17.8] EHR基礎モデルのスケーリング法則に関する最初の実証的研究について述べる。
パラボリックなIsoFLOP曲線や計算,モデルパラメータ,データサイズ,臨床ユーティリティ間の電力-法則関係など,一貫したスケーリングパターンを同定する。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:05:11 GMT)
Are MLMs Trapped in the Visual Room? [17.7] 我々は,アルゴリズムのルールに従うことによって,入力の詳細な処理や記述を,根底にある意図を真に理解することなく行うことができると論じる。
これは、熟達が真の理解を意味するという一般的な仮定に挑戦する。
認識と認知にまたがる2層評価フレームワークを提案する。
この作業は、Visual Room引数の実証的な根拠を提供し、新しい評価パラダイムテキストを提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:20:12 GMT)
Learning coordinated badminton skills for legged manipulators [17.6] 我々は,手足の移動マニピュレータがバドミントンを奏でるようにするためのアプローチを提案する。
本研究は,全身運動能力のための強化学習に基づく統一的制御政策を提案する。
本手法は,シャトルコック予測モデル,ロバスト動作制御のための制約付き強化学習,システム同定技術を含む。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:26:30 GMT)
Dolphin: A Programmable Framework for Scalable Neurosymbolic Learning [17.6] 我々は、PythonでニューロシンボリックプログラムをサポートするフレームワークであるDOLPHINを紹介する。
13のベンチマークでテキスト、画像、ビデオデータにまたがるタスクを網羅し、DOLPHINは最先端の精度に収束する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:21:35 GMT)
Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach [17.6] 大規模言語モデル(LLM)は、通常、同じプロンプトを与えられたすべてのユーザに対して、同一または類似の応答を生成する。
PENGUINは、7つのセンシティブなドメインにわたる14,000のシナリオからなるベンチマークである。
RAISEはトレーニングなし、2段階のエージェントフレームワークで、ユーザ固有のバックグラウンドを戦略的に取得する。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:48:38 GMT)
Augment or Not? A Comparative Study of Pure and Augmented Large Language Model Recommenders [17.6] 大規模言語モデル(LLM)は、より豊かな意味理解を可能にし、暗黙の世界知識を取り入れることで、推薦システムのための新しいパラダイムを導入している。
本稿では,既存のアプローチを分類する体系的な分類法を提案する。(1) LLMのみに依存した純粋LLMレコメンダ,(2)LLM以外の追加技術を統合して性能を向上させる拡張LLMレコメンダ,である。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:50:24 GMT)
Hidden Persuasion: Detecting Manipulative Narratives on Social Media During the 2022 Russian Invasion of Ukraine [17.5] 本稿では,ソーシャルメディアにおける操作検出に関するUNLP 2025共有タスクにおいて,最も優れたソリューションの1つを提示する。
この課題は、ウクライナのテレグラム利用者に影響を与えるために使用される修辞的および様式的な操作手法の検出と分類に焦点を当てている。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:01:42 GMT)
Self-Supervised Enhancement of Forward-Looking Sonar Images: Bridging Cross-Modal Degradation Gaps through Feature Space Transformation and Multi-Frame Fusion [17.4] 前向きのソナー画像の強調は、正確な水中目標検出に不可欠である。
本稿では,画素領域からソナー画像をロバストな特徴領域にマッピングする特徴空間変換を提案する。
提案手法は既存の手法よりも優れ,ノイズを効果的に抑制し,詳細なエッジを保ち,明るさを大幅に改善する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:29:05 GMT)
Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks [17.4] 本稿では,オブジェクト指向認識を主評価対象とするベンチマークであるDORI(Discriminative Orientation Reasoning Intelligence)を紹介する。
DORIは、正面アライメント、回転変換、相対方向関係、標準方向理解の4つの次元を評価する。
最先端の視覚言語モデル15について評価した結果,限界が明らかとなった。
DORIは、ロボット制御の改善、3Dシーン再構築、物理的環境における人間とAIの相互作用に影響を及ぼす。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:17:48 GMT)
Audio Visual Segmentation Through Text Embeddings [17.3] オーディオ・ビジュアル(AVS)の研究は、詳細な手動アノテーションのコストが高いため、データの不足に悩まされている。
最近の研究はビジョンファウンデーションモデルSegment Anything Model(SAM)を活用して、限られたデータの課題を克服しようとしている。
我々は、事前訓練されたテキストプロンプトSAMのテキスト埋め込み空間で音声特徴をブリッジする新しいフレームワーク、textbfAV2T-SAMを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:31:02 GMT)
Surrogate-Assisted Evolutionary Reinforcement Learning Based on Autoencoder and Hyperbolic Neural Network [17.2] 本稿では,オートエンコーダ(AE)とハイパボリックニューラルネットワーク(HNN)を統合した新しいサロゲート支援ERLを提案する。
AEは、サロゲートの入力として重要な特徴を抽出しながら、高次元のポリシーを低次元表現に圧縮する。
10個のアタリゲームと4個のムジョコゲームによる実験により,提案手法が従来の手法よりも優れていたことが確認された。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:52:23 GMT)
Navigating the Accuracy-Size Trade-Off with Flexible Model Merging [16.9] 我々は、新しいデータフリーモデルマージフレームワークFlexMergeを提案する。
比較的大きなマージモデルであっても、単一のモデルよりもかなり精度が向上できることが示される。
FlexMergeは、融合モデルサイズのきめ細かい制御を提供することで、柔軟でデータフリーで高性能なソリューションを提供します。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:50:32 GMT)
MaskAdapt: Unsupervised Geometry-Aware Domain Adaptation Using Multimodal Contextual Learning and RGB-Depth Masking [16.9] MaskAdaptは、マルチモーダルな文脈学習を通じてセグメンテーションの精度を高める新しいアプローチである。
深度マップから深度勾配を計算することにより,テクスチャのあいまいさを解消する空間遷移を捉える。
実際の農業データセットの評価は、MaskAdaptが既存のSOTA(State-of-the-Art)メソッドを一貫して上回っていることを示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:59:39 GMT)
Unraveling the Interplay between Carryover Effects and Reward Autocorrelations in Switchback Experiments [16.8] 本稿ではマルコフ環境における様々なスイッチバック設計の比較分析を行う。
その結果, 異なるスイッチバック設計の有効性は, (i) 搬送効果の大きさと (ii) 報奨誤差の自己相関に大きく依存していることが判明した。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:21:30 GMT)
Towards Reward Fairness in RLHF: From a Resource Allocation Perspective [16.8] 本稿では、報奨における様々なバイアスを、報奨の不公平性の問題として包括的に定義する。
本稿では,資源配分の観点から報酬公平性の問題に対処するためのバイアス非依存手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:12:00 GMT)
Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition [16.7] 手書き数学的表現認識(HMER)は、光学文字認識(OCR)における永続的な課題である
アーキテクチャを変更することなく,HMERタスクの視覚言語モデルを完全に微調整するUni-MuMERを提案する。
構造的空間推論のためのTree-CoT(Tree-CoT)、視覚的に類似した文字間の混乱を減らすためのエラー駆動学習(EDL)、長い表現における認識整合性を改善するためのシンボルカウント(SC)の3つのデータ駆動タスクを統合した。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:41:00 GMT)
Towards Minimizing Feature Drift in Model Merging: Layer-wise Task Vector Fusion for Adaptive Knowledge Integration [16.7] マルチタスクモデルマージは、複数のタスク固有のエキスパートからの知識を統一モデルに統合することを目的としている。
既存の手法では、タスク固有の専門家と統一モデルの違いを最小限に抑える。
本稿では,タスク固有の専門家と統一モデルとの間の機能ドリフトを明示的に最小化する手法であるレイヤワイズ・タスクベクトル・マージを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:11:31 GMT)
TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models [16.6] TextRegionは、画像テキストモデルとSAM2の強みを組み合わせた、シンプルで効果的で、トレーニングなしのフレームワークである。
これらのトークンは、オープン語彙の能力を保ちながら、詳細な視覚的理解を可能にする。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:59 GMT)
On the Risk of Evidence Pollution for Malicious Social Text Detection in the Era of LLMs [16.6] Evidence-enhanced detectorsは、悪意のある社会的テキストを識別する際、顕著な能力を示す。
大型言語モデル(LLM)の台頭は、検知器を混乱させる証拠汚染の潜在的なリスクをもたらす。
本稿では, 基礎汚染を含む潜在的操作シナリオについて考察し, 証拠の表現や生成について述べる。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:17:33 GMT)
Mamba Integrated with Physics Principles Masters Long-term Chaotic System Forecasting [16.5] PhyxMambaは、Mambaベースの状態空間モデルと物理インフォームドの原理を統合し、カオスシステムの基盤となるダイナミクスを捉える新しいフレームワークである。
提案手法により,マルチトークン予測とアトラクタ幾何正規化により,Mambaが物理過程を再現することが可能になる。
この枠組みは、気候科学、神経科学、疫学など幅広い意味を持つ、観測・監視条件下でカオスシステムを確実に予測するための新たな道を開く。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:56:45 GMT)
$T^5Score$: A Methodology for Automatically Assessing the Quality of LLM Generated Multi-Document Topic Sets [16.5] 本稿では,トピックの品質を定量的な側面に分解する評価手法である$T5Scoreを紹介する。
このフレーミングは、強力なアノテーション間合意スコアをもたらす便利な、手動または自動的な評価手順を可能にする。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:31:13 GMT)
Autoformalization in the Era of Large Language Models: A Survey [16.5] 自己形式化は、非公式な数学的命題を検証可能な形式表現に変換する過程である。
本稿では,様々な数学領域における自己形式化の適用方法と難易度について検討する。
LLM出力の信頼性向上における自己形式化の役割について検討する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:34:54 GMT)
PairBench: Are Vision-Language Models Reliable at Comparing What They See? [16.5] タスクに応じて大規模視覚言語モデル(VLM)を自動評価するためのフレームワークであるPairBenchを提案する。
提案手法では,人間アノテーションとの整合性,ペアオーダ間の整合性,分散のスムーズさ,プロンプトによる可制御性という,信頼性の高い比較のための4つの重要な指標を導入している。
私たちの分析では、モデルがすべての指標を一貫して上回り、それぞれが異なる強みと弱みを示すことは明らかです。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:35:10 GMT)
TailorSQL: An NL2SQL System Tailored to Your Query Workload [16.5] 最先端のNL2技術は典型的には、データベース固有の情報を取得することによって翻訳を行う。
過去のクエリ処理における情報を活用するNL2システムであるTailorを紹介する。
Tailorは、標準化されたベンチマークの実行精度を最大2$times$改善する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:27:22 GMT)
SOTOPIA-$Ω$: Dynamic Strategy Injection Learning and Social Instruction Following Evaluation for Social Agents [16.3] 本稿では,言語エージェントの社会的能力向上のための枠組みを提案する。
本稿では,ソーシャルインストラクション・フォロー(S-IF)の概念を導入し,新しい2つのS-IF評価指標を提案する。
質の高いコーパスで訓練された複数の7Bモデルが,社会目標達成において,専門家エージェント(GPT-4)をはるかに上回るだけでなく,その達成に寄与することが実証された。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:54:31 GMT)
Leveraging Large Language Models for Relevance Judgments in Legal Case Retrieval [16.3] 本稿では,大規模言語モデルによる専門家による関連判断の生成を支援する,数ショットのアプローチを提案する。
提案手法は,人間のアノテータのワークフローを模倣して,判断過程をいくつかの段階に分解する。
また、解釈可能なデータラベリングを保証し、関連性評価プロセスにおける透明性と明確性を提供します。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:36:09 GMT)
Are Generative Models Underconfident? Better Quality Estimation with Boosted Model Probability [16.2] テキスト生成モデルの出力確率は不確実であることを示す。
我々はBoostedProbと呼ばれるQEアプローチを提案し、モデルの信頼性を高める。
複雑さが増すことなく、BoostedProbは、異なる設定での生モデルの確率よりも顕著に優れている。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:33:24 GMT)
LLMs Can Achieve High-quality Simultaneous Machine Translation as Efficiently as Offline [16.1] 大言語モデル(LLM)は、単純なプロンプトで「[src lang]から[tgt lang]に次の文を変換する」という単純なプロンプトでも、オフライン機械翻訳において優れた性能を発揮する。
我々は、同時機械翻訳(SiMT)のための教師付き微調整データの構築を含む新しいパラダイムを提案する。
提案手法は,様々なSiMTベンチマークにおける最先端性能を実現し,オフライン翻訳の本来の能力を維持する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:06:43 GMT)
MMGT: Motion Mask Guided Two-Stage Network for Co-Speech Gesture Video Generation [16.0] Co-Speech Gesture Video Generationは、音声駆動の静止画像から鮮やかな音声ビデオを生成することを目的としている。
本研究では,音声信号から発生する動作マスクや動作特徴だけでなく,音声を用いた運動マスク誘導2段階ネットワーク(MMGT)を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:40:46 GMT)
The First MPDD Challenge: Multimodal Personality-aware Depression Detection [16.0] うつ病は多様な年齢層に影響を及ぼすメンタルヘルスの問題である。
現在のアプローチは、しばしばマルチモーダルデータとうつ病指標の直接的なマッピングを確立する。
MPDD Challengeは、個々の差分要素と並行してマルチモーダルデータを組み込むことで、このギャップに対処することを目指している。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:12:21 GMT)
Advancing Image Super-resolution Techniques in Remote Sensing: A Comprehensive Survey [15.9] リモートセンシング画像超解像(RSISR)は,リモートセンシング画像処理において重要な課題である。
近年、RSISR法が提案されているが、これらの手法の体系的かつ包括的なレビューはいまだに欠落している。
本稿では、RSISRアルゴリズムの徹底的なレビューを行い、方法論、データセット、評価指標について述べる。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:55:14 GMT)
MGE-LDM: Joint Latent Diffusion for Simultaneous Music Generation and Source Extraction [15.8] MGE-LDMは、同時音楽生成、ソース計算、クエリ駆動ソース分離のための統合潜在拡散フレームワークである。
遅延空間における条件付き塗装タスクとして分離と計算の両方を定式化することにより、任意の楽器源の柔軟でクラスに依存しない操作を支援する。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:04:24 GMT)
FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression [15.8] FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。
回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:42:35 GMT)
3DGEER: Exact and Efficient Volumetric Rendering with 3D Gaussians [15.8] 本稿では3DGEER(Exact and Efficient Volumetric Gaussian Rendering method)を紹介する。
提案手法は従来手法を一貫して上回り, リアルタイムなニューラルレンダリングにおける新しい最先端技術を確立する。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:52:51 GMT)
DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes [15.5] 本研究では,DreamForgeを提案する。DreamForgeは3次元制御可能な長期生成に適した,高度な拡散型自己回帰ビデオ生成モデルである。
我々は、視点誘導を導入し、局所的な3D相関を組み込むためにオブジェクト指向位置符号化を統合する。
ショートシーケンスで訓練されたモデルを用いて,200コマ以上の長大映像を自動回帰的に生成し,16コマビデオ評価において,ベースラインよりも優れた品質を実現する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:24:27 GMT)
Implicit Inversion turns CLIP into a Decoder [15.4] 画像合成はCLIPだけで可能であり、デコーダ、トレーニング、微調整は不要である。
提案手法は,ネットワーク層間を階層化することで,粗大から粗大な生成を促進する,周波数認識型暗黙的ニューラル表現を最適化する。
CLIPの重みを変更することなく、このフレームワークはテキスト・ツー・イメージ生成、スタイル転送、イメージ再構成などの機能をアンロックする。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:55:26 GMT)
Targeted Unlearning with Single Layer Unlearning Gradient [15.4] 機械学習手法は、訓練されたモデルからセンシティブまたは望ましくないコンテンツを除去することを目的としている。
対象情報を学習するための効率的な手法として,SLUG(Single Layer Unlearning Gradient Computing)を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:24:25 GMT)
ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS [15.4] ZPressorは軽量なアーキテクチャに依存しないモジュールで、マルチビュー入力の効率的な圧縮を可能にする。
本研究では、ZPressorを複数の最先端フィードフォワード3DGSモデルに統合することにより、適度なインプットビューでの性能が向上し、高密度ビュー設定でロバスト性が向上することを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:57:04 GMT)
Improving Multilingual Social Media Insights: Aspect-based Comment Analysis [15.4] 本稿では、個々のコメントからアスペクト項を識別し、生成し、モデル注意を導くための粒度のレベルを提案する。
我々は、コメントアスペクト項生成(CAT-G)のための教師付き微調整による多言語大言語モデルを活用する。
本稿では,英語,中国語,マレー語,インドネシア語を対象とした多言語CAT-Gテストセットについて紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:24:39 GMT)
QMamba: On First Exploration of Vision Mamba for Image Quality Assessment [15.3] 画像品質評価(IQA)において、最近人気になった基礎モデルであるState Space Model/Mambaを初めて探求する。
本稿では,3つの重要なIQAタスクに対して,QMambaモデルを再検討し,適応させることによりQMambaを提案する。
我々のStylePromptは、計算コストを下げて知覚伝達を改善する。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:43:45 GMT)
Neural Interpretable PDEs: Harmonizing Fourier Insights with Attention for Scalable and Interpretable Physics Discovery [15.3] NIPS(Neural Interpretable PDE)は,非局所注意演算子(Nonlocal Attention Operators,NAO)を基盤とし,拡張するニューラル演算子アーキテクチャである。
NIPSは、スケーラブルな学習を可能にするために線形アテンション機構を採用し、フーリエ空間におけるチャネル非依存の畳み込みとして機能する学習可能なカーネルネットワークを統合する。
実証的な評価は、NIPSがNAOや他のベースラインを多種多様なベンチマークで一貫して上回っていることを示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:18:30 GMT)
TerraIncognita: A Dynamic Benchmark for Species Discovery Using Frontier Models [15.3] 昆虫種発見の現在の方法は、手動、遅く、分類学の専門知識によって厳しく制限されている。
本稿では,現状のマルチモーダルモデルを評価するためのベンチマークであるTerraIncognitaを紹介する。
我々のベンチマークデータセットは、フロンティアAIモデルとして知られる昆虫の注釈付き画像と、希少であまり知られていない種の画像を組み合わせたものです。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:20:15 GMT)
Adaptive Federated LoRA in Heterogeneous Wireless Networks with Independent Sampling [15.2] Federated LoRAは、分散デバイス上で大きな言語モデルを効率的に微調整する技術として登場した。
本稿では,システムとデータの不均一性の両方の下で微調整を行う独立したフェデレーションコンバージェンスウォールクロック時間を提案する。
実験により,本手法は,様々なモデルやデータセットを対象とした最先端手法と比較して,ウォールクロック時間を短縮することを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:31:37 GMT)
Seeing the Politics of Decentralized Social Media Protocols [15.1] 中央集権型ソーシャルメディアは、中央集権型プラットフォームの集中力とその社会的影響に対する懸念から推進されている。
このような4つのプロトコル(ActivityPub、AT Protocol、Nostr、Farcaster)を分析し、プロトコルが分散化をどのように運用するかを理解するための新しい概念的フレームワークを開発する。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:04:45 GMT)
BOFormer: Learning to Solve Multi-Objective Bayesian Optimization via Non-Markovian RL [15.1] 我々は,汎用的なQ-ラーニングフレームワークを提案し,このフレームワークをMOBOのシーケンス・モデリングによりサブスタンス化する textitBOFormer を提案する。
広範な評価により,BOFormerは,ベンチマークルールベースのアルゴリズムや学習ベースのアルゴリズムよりも常に優れていることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:07:59 GMT)
SC-LoRA: Balancing Efficient Fine-tuning and Knowledge Preservation via Subspace-Constrained LoRA [15.1] Subspace-Constrained LoRA (SC-LoRA)は、効率的な微調整と知識保存のトレードオフをナビゲートするために設計された新しいLoRAフレームワークである。
我々の実験では、SC-LoRAは優れた微調整性能を実現するのに成功し、知識の忘れを著しく減らした。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:55:21 GMT)
LayerPeeler: Autoregressive Peeling for Layer-wise Image Vectorization [14.9] 本稿では,新しいレイヤワイド画像ベクトル化手法であるLayerPeelerを紹介する。
最上位の非閉塞層を識別・除去することにより、完全な経路とコヒーレントな層構造を持つベクトルグラフを生成する。
本手法は視覚言語モデルを利用して,要素間の関係をキャプチャする層グラフを構築する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:58:03 GMT)
Model Immunization from a Condition Number Perspective [14.8] 線形モデルに対するモデル免疫を解析するために,ヘッセン行列の条件数に基づくフレームワークを提案する。
我々は,事前学習後の条件数を制御するために,正規化項を持つアルゴリズムを設計する。
線形モデルと非線形ディープネットに関する実験結果から,提案アルゴリズムの有効性が示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:48 GMT)
Spoken question answering for visual queries [14.8] 本研究の目的は,音声と画像の両方を通じてユーザインタラクションを可能にするシステムを構築することである。
結果として得られるマルチモーダルモデルは、テキスト、ビジュアル、および音声入力を持ち、画像上の音声質問に答えることができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:06:48 GMT)
From Individual Experience to Collective Evidence: A Reporting-Based Framework for Identifying Systemic Harms [14.7] 本稿では,有害事象の個々の報告が順次到着し,時間とともに集約される,報告データベース問題について検討する。
我々は、この問題を逐次仮説テストとして定式化し、真の害率の差について推測するのに十分な報告行動の条件を特定する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:30:22 GMT)
Personality-Guided Code Generation Using Large Language Models [14.7] 大規模言語モデル(LLM)を用いたパーソナリティ誘導コード生成に関する実証的研究を行った。
以上の結果から,パーソナリティガイダンスはコード生成精度を大幅に向上し,28 LLM-データセットの組み合わせのうち23のパスレートが向上した。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:26:39 GMT)
Personalized Subgraph Federated Learning with Differentiable Auxiliary Projections [14.6] 補助投影を用いたフェデレーション学習(FedAux)を紹介する。
FedAuxはパーソナライズされたサブグラフFLフレームワークで、生のデータやノードの埋め込みを共有することなく、均一に分散されたローカルモデルを調整、比較、集約することを学ぶ。
多様なグラフベンチマークによる実証的な評価は、FedAuxが精度とパーソナライズ性能の両方で既存のベースラインを大幅に上回っていることを示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:17:49 GMT)
Label-Guided In-Context Learning for Named Entity Recognition [14.6] In-context Learning (ICL) では、大規模な言語モデルで新しいタスクを実行することができる。
トークンレベルの統計情報を用いてトレーニングラベルを活用する新しい手法であるDEERを導入し、ICLの性能を向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:54:32 GMT)
Enhancing Automated Interpretability with Output-Centric Feature Descriptions [14.6] 本稿では,特徴記述を自動生成する効率的な出力中心手法を提案する。
我々の記述は、入力中心の記述よりもモデル出力に対する特徴の因果効果をよりよく捉えている。
以前は"デッド"と思われていた特徴を活性化するインプットを見つけるために,出力中心の記述が利用できることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:26:06 GMT)
CDR-Agent: Intelligent Selection and Execution of Clinical Decision Rules Using Large Language Model Agents [14.6] 臨床決定規則(CDR)は、徴候、症状、臨床変数を決定木に組み合わせ、一貫した正確な診断を行う。
CDRは、しばしば臨床医の認知負荷によって妨げられ、迅速にリコールし、適切な規則を適用する能力を制限する。
CDR-Agentは、ED意思決定を自律的に識別し、最も適切なCDRを適用して強化する、新しいLCMベースのシステムである。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:51:51 GMT)
Pre-training for Recommendation Unlearning [14.5] UnlearnRecはモデルに依存しない事前学習パラダイムであり、効率的な未学習操作のためのシステムを準備している。
本手法は,再学習手法に比べて10倍以上の高速化を実現した。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:59:48 GMT)
ChartMind: A Comprehensive Benchmark for Complex Real-world Multimodal Chart Question Answering [14.5] チャート質問応答(CQA)は、視覚言語モデルの推論能力を評価するための重要なマルチモーダルタスクとなっている。
実環境における複雑なCQAタスク用に設計された新しいベンチマークであるChartMindを紹介する。
本稿では,重要な文脈要素の抽出に焦点をあてた文脈対応だがモデルに依存しないフレームワークであるChartLLMを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:46:03 GMT)
AutoGPS: Automated Geometry Problem Solving via Multimodal Formalization and Deductive Reasoning [14.4] AutoGPSは、簡潔で信頼性があり、人間の解釈可能な推論プロセスで幾何学的問題を解決する、神経象徴的な協調フレームワークである。
MPFは、ニューラルネットワークのクロスモーダル理解を利用して、幾何学的問題を構造化された形式言語表現に変換する。
DSRは形式化を入力とし、ハイパーグラフ拡張タスクとして幾何学的問題解決を定式化する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:01:20 GMT)
Privacy-Aware Joint DNN Model Deployment and Partitioning Optimization for Collaborative Edge Inference Services [14.4] エッジ推論(EI)は、クラウドベースのDeep Neural Network(DNN)推論サービスの増加に対処する、有望なパラダイムとして登場した。
リソース制約のあるエッジデバイスにDNNモデルをデプロイすることは、制限/ストレージリソース、動的サービス要求、プライバシーリスクの増大など、さらなる課題をもたらす。
本稿では,DNNモデルデプロイメント,ユーザサーバアソシエーション,モデルパーティショニングを共同で扱う,新たなプライバシ対応最適化フレームワークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:41:47 GMT)
On Global Convergence Rates for Federated Policy Gradient under Heterogeneous Environment [14.4] 本稿では、ソフトマックスに着想を得たパラメータ化を慎重に構築したポリシー勾配法であるb-RS-FedPGを紹介する。
我々は, b-RS-FedPG のほぼ最適定常政策への明確な収束率を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:08:35 GMT)
RepCali: High Efficient Fine-tuning Via Representation Calibration in Latent Space for Pre-trained Language Models [14.2] 微調整事前学習言語モデル(PLM)は、下流タスクにPLMを適用する上で、主要なパラダイムとなっている。
本稿では,潜在空間におけるPLM表現の校正を学習することで,この問題に対処する。
提案する表現キャリブレーション法(RepCali)では,エンコーダの後,特定のキャリブレーションブロックを潜在空間に統合し,デコーダ入力としてキャリブレーション出力を使用する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:01:48 GMT)
Improved and Oracle-Efficient Online $\ell_1$-Multicalibration [14.1] 本研究では,複数のグループにまたがるキャリブレーション予測を行うフレームワークであるエンフォリン・マルチキャリブレーションについて検討する。
そこで本研究では,$widetildemathcalO(T-1/4)$を改良し,オラクル効率を向上する手法を提案する。
我々のフレームワークは、(ell_H)-multicalibration誤差の1ドルLipschitz特性を利用して、ある無限群の族にも拡張する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:21:58 GMT)
ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge [14.1] 視覚言語アクション(VLA)モデルは、ロボット工学の次世代モデルとして登場した。
既存のエンドツーエンドのVLAシステムは、モデルが特定のロボットタスクに適応するため、微調整中に重要な機能を失うことが多い。
一般化可能なVLAモデルは、VLMのコア能力を維持し拡張するべきである。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:34:24 GMT)
SGD Jittering: A Training Strategy for Robust and Accurate Model-Based Architectures [14.1] SGDジッタリング(SGD jittering)と呼ばれる、再構成時に繰り返しノイズを注入する単純なMBAのトレーニング手法を提案する。
理論的には、SGDジッタリングは標準的な平均二乗誤差トレーニングよりも一般化するだけでなく、平均ケース攻撃よりも堅牢であることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:57:51 GMT)
Zero-to-Hero: Zero-Shot Initialization Empowering Reference-Based Video Appearance Editing [14.1] 本稿では,参照型ビデオ編集に焦点を当てたZero-to-Heroという新しい手法を提案する。
これにより、まずアンカーフレームを編集し、ユーザーの要求を基準画像として満たし、その外観を他のフレーム間で一貫して伝播させることで実現される。
我々は,従来提案されていた光フローや時間モジュールよりも頑健なアテンション機構を誘導するために,元のフレーム内での対応を活用している。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:10:16 GMT)
Dequantified Diffusion-Schr{ö}dinger Bridge for Density Ratio Estimation [14.0] 我々は、堅牢で安定で効率的な密度比推定のための統一的なフレームワークを設計する。
本稿では,分散ブリッジ補間器(DDBI)を提案し,サポート範囲を拡大し,時間スコアを安定化させる。
DDBIを基盤として提案されたSh"odinger Bridge Interpolant (D SBI) は、Sh"odinger Bridgeの問題を解決するための最適な輸送を取り入れている。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:27:43 GMT)
DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers [14.0] 計測学習技術を利用して、プロンプトの分布が微調整性能にどのように影響するかを調べる。
本稿では,プロンプトの分布を案内する新しいフレームワークであるDis Distribution Aware Visual Prompt Tuning (DA-VPT)を提案する。
本手法は,画像パッチとクラストークン間で意味情報を共有するための効果的なブリッジとして,プロンプトが有効であることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:31:26 GMT)
Qwen Look Again: Guiding Vision-Language Reasoning Models to Re-attention Visual Information [13.9] 長い推論は視覚的トークンを希釈し、視覚的情報の注意を減らし、幻覚を引き起こす可能性がある。
Qwen-LookAgain (Qwen-LA) は新たな視覚テキスト反映プロセスで、推論中にモデルが再認識されるように誘導する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:34:15 GMT)
Learning to Search for Vehicle Routing with Multiple Time Windows [13.9] 強化学習に基づく適応型可変近傍探索(RL-AVNS)を提案する。
提案手法は,実時間解状態と学習経験に基づいて局所演算子を動的に選択するための強化学習フレームワークを統合する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:03:28 GMT)
Improved Approximations for Hard Graph Problems using Predictions [13.8] 我々は予測を組み込んだNPハードグラフ問題に対する近似アルゴリズムを改良した。
我々の予測モデルは、Cohen-Addad, d'Orsi, Gupta, Lee, Panigrahiによる$varepsilon$-predictionフレームワークの上に構築され、拡張されます。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:47:09 GMT)
ZIPA: A family of efficient models for multilingual phone recognition [13.8] ZIPAは、言語横断音声認識の最先端性能を向上する効率的な音声モデルのファミリーである。
IPAPack++は17,132時間の正規化音声書き起こしが可能な大規模多言語音声コーパスである。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:08:23 GMT)
Multi-Modal Learning with Bayesian-Oriented Gradient Calibration [13.8] マルチモーダルラーニング(MML)は、様々なモーダルからの情報を統合し、予測精度を向上させる。
既存の方法は、主に重みが固定された勾配を集約し、すべての次元を等しく扱う。
本稿では,MMLの勾配不確かさを明示的にモデル化するためのベイズ指向勾配法BOGC-MMLを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:23:22 GMT)
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.7] Video-Text to Speech (VTTS) は、会話者のテキストとビデオの両方に条件付けされた音声生成タスクである。
視覚,テキスト,音声の入力を共有部分空間に埋め込む,マルチモーダルデコーダのみの統合トランスフォーマモデルであるVisatronicを導入する。
LRS3でのみ訓練されたSOTA法よりも優れた4.5%のWERが得られることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:58:02 GMT)
Subgroups Matter for Robust Bias Mitigation [13.7] 重要な要素は、しばしば見過ごされるが、多くのバイアス緩和法(部分群の定義)によって共有される重要なステップである。
以上の結果から,サブグループ選択がパフォーマンスに大きく影響し,グループ選択が効果を損なうことが示唆された。
我々の研究は、バイアス緩和における注意深いサブグループ定義の重要性を強調し、機械学習モデルの堅牢性と公正性を改善するための代替レバーとして提示する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:21:49 GMT)
BA-LoRA: Bias-Alleviating Low-Rank Adaptation to Mitigate Catastrophic Inheritance in Large Language Models [13.7] この研究は、バイアス継承に対抗するために設計された新しいPEFT法であるBias-Alleviating Low-Rank Adaptation (BA-LoRA)を導入している。
BA-LoRAは、(1)整合正則化器、(2)多様性正則化器、(3)特異値分解正則化器の3つの異なる正則化項を含む。
その結果、BA-LoRAはLoRAとその最先端の変種よりも優れていた。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:40:42 GMT)
Unveiling Eigenstate Thermalization for Non-Hermitian systems [13.4] 固有状態熱化仮説を非エルミート系に拡張する枠組みを導入する。
静的なETH予測が局所観測値のダイナミクスにどのように印加されるのかを数値的に示す。
本結果は,ETHを非エルミート的設定に一般化し,系力学にどのように影響するかを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:04:12 GMT)
Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.4] 本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:15:28 GMT)
Topological Adaptive Least Mean Squares Algorithms over Simplicial Complexes [13.3] 本稿では, 単体錯体上での動的流れ信号を処理するための新しい適応フレームワークを提案する。
本稿では,時間変化のあるエッジサブセット上で観測されたストリーミング信号を効率的に処理するトポロジカルLMSアルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:55:19 GMT)
Robustness-Congruent Adversarial Training for Secure Machine Learning Model Updates [13.2] 新しく更新されたモデルが、前のモデルが犯していないミスを犯す可能性があることを示す。
パフォーマンスのレグレッションとしてユーザによって経験されるネガティブなフリップ。
特に、その敵の堅牢性を改善するためにモデルを更新するとき、以前はいくつかの入力に対する非効率な敵攻撃が成功しうる。
本稿では,この課題に対処するために,ロバストネス・コングロレント・逆行訓練という新しい手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:12:58 GMT)
SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models [13.2] 本研究では,SORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。
各SORSAアダプタは、トレーニング可能な主特異重量$W_p textdiag(S_p) Vtop_p$と凍結された残留重量$W_r textdiag(S_r) Vtop_r$の2つの主要部分から構成される。
GSM-8Kベンチマークでは、SORSAを使用したLlama 2 7Bが56.03%の精度でLoRAを上回った。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:19:56 GMT)
Strategic Classification with Non-Linear Classifiers [13.2] 非線形分類器の下での戦略的ユーザ行動がどう現れるかを示す。
鍵となる発見は、環境が戦略的であれば、普遍的な近似器はもはや普遍的ではないことである。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:40:03 GMT)
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.2] 純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:04 GMT)
Surf2CT: Cascaded 3D Flow Matching Models for Torso 3D CT Synthesis from Skin Surface [13.2] Surf2CTは、外部表面スキャンと人口統計データから人間の胴体の全3DCTボリュームを合成するフレームワークである。
我々は、マサチューセッツ総合病院(MGH)から得られた3,198個の胴体CTスキャンとAutoPETチャレンジを組み合わせたデータセットでモデルをトレーニングした。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:25:19 GMT)
Corporate Fraud Detection in Rich-yet-Noisy Financial Graph [13.1] 企業不正検出は、不正な財務声明や不正なインサイダー取引などの不正行為を行う企業を自動的に認識することを目的としている。
従来の学習ベースの手法では,企業ネットワーク内でのリッチなインタラクションを効果的に統合できない。
中国における18年間の財務記録を分析し、3つのグラフデータセットと不正ラベルを作成します。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:46:08 GMT)
GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning [13.0] オンデバイス大規模言語モデル(LLM)ファインチューニングアダプタのための新しい推論フレームワークを提案する。
コアとなるGroup-Shared Exponentsフォーマットは、パラメータ群間の指数を用いて、整数形式のモデルパラメータを効率的に表現する。
提案手法は,BF16による微調整に匹敵する精度を実現し,メモリ使用量の1.85倍を大幅に削減することを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:50:58 GMT)
SAMamba: Adaptive State Space Modeling with Hierarchical Vision for Infrared Small Target Detection [13.0] 赤外線小目標検出(ISTD)は、軍事・海上・早期警戒用途における長距離監視に不可欠である。
ISTDは画像の0.15%未満のターゲットと複雑な背景との識別性が低いターゲットによって挑戦されている。
本稿では,SAM2の階層的特徴学習とMambaの選択的シーケンスモデリングを統合した新しいフレームワークSAMambaを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:55:23 GMT)
Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts [12.9] 本稿では,高品質な数学的テキストを自動的にキュレートする自動データ選択(AutoDS)を提案する。
人間のアノテーションや専用のデータフィルタのトレーニングを必要とする従来のアプローチとは異なり、AutoDSはモデルのロジットのみに依存する。
我々は、自動ドメイン固有データキュレーションの今後の研究を容易にするために、キュレートされたAutoMathTextデータセットをリリースする。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:51:54 GMT)
OrionBench: A Benchmark for Chart and Human-Recognizable Object Detection in Infographics [12.9] インフォグラフィックにおけるチャートとHROの正確なオブジェクト検出モデルの開発を支援するためのベンチマークであるOrionBenchを紹介する。
26250のリアルと78,750の合成インフォグラフィックがあり、690万以上のバウンディングボックスアノテーションがある。
3つの応用を通してOrionBenchの有用性を実証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:56:55 GMT)
Pessimism Principle Can Be Effective: Towards a Framework for Zero-Shot Transfer Reinforcement Learning [12.9] 伝達強化学習は、限られたデータを持つターゲット環境に対して、ほぼ最適ポリシーを導出することを目的としている。
転送されたポリシのパフォーマンス保証の欠如と、複数のソースドメインが関与している場合の負の転送のリスクだ。
本稿では、対象ドメインの性能を保守的に推定し最適化する悲観主義の原理に基づく新しいフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:15:50 GMT)
LLM Meets Scene Graph: Can Large Language Models Understand and Generate Scene Graphs? A Benchmark and Empirical Study [12.9] 大規模言語モデル(LLM)は、組み込みAI、ロボティクス、その他の現実世界のタスクに応用を拡大するための道を開いた。
最近の研究は、シーン内のエンティティ、属性、およびそれらの関係をエンコードする構造化された表現であるシーングラフを活用している。
テキストシーングラフ(TSG)ベンチ(Text-Scene Graph)は,LLMのシーングラフ理解能力を評価するためのベンチマークである。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:23:38 GMT)
Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs [12.9] Retrieval-augmented Generation (RAG)は、再活性化されたLarge Language Models (LLM)である。
長文グローバル要約のためのRAGを強化するために,$textitgraph of record$$(textbfGoR$)を提案する。
GoRには、$textitgraph Neural Network$と、セルフ教師付きモデルトレーニングのための、詳しく設計された$textitBERTScore$ベースの目的がある。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:42:45 GMT)
Interpreting the linear structure of vision-language model embedding spaces [12.8] 我々は、4つの視覚言語モデルの埋め込み空間上でスパースオートエンコーダ(SAE)を訓練・リリースする。
SAEは実際の埋め込みを再構築するのに優れており、また最もスパース性を維持することができる。
また、SAEによって抽出される鍵となる活性化概念は、実行中において著しく安定であることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:03:59 GMT)
Optimization-Free Diffusion Model -- A Perturbation Theory Approach [12.8] 拡散モデルは、生成モデリングの強力なフレームワークとして登場した。
最適化フリーとフォワードSDEフリーの両方の代替手法を提案する。
本研究では,高次元ボルツマン分布と実世界のデータセットに対する本手法の有効性を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:02:26 GMT)
How to Verify that a Small Device is Quantum, Unconditionally [12.7] 量子性の証明(PoQ)により、量子機械が任意の古典機械で不可能な計算を実行しているかどうかを、古典的検証者が効率的に検証することができる。
本稿では,証明者のメモリ上のバウンダリを仮定して,音質が無条件に保持されるPoQプロトコルを構築するための新しい手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:09:22 GMT)
BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model [12.6] 我々は,DNA基盤モデルと大規模言語モデルを統合する先駆的アーキテクチャであるBioReasonを紹介する。
BioReasonの洗練された多段階推論は、教師付き微調整と強化学習によって開発されている。
生物学的推論のベンチマークでは、BioReasonは強力な単一モダリティベースラインよりも平均15%のパフォーマンス向上を示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:49:27 GMT)
Improving Continual Learning Performance and Efficiency with Auxiliary Classifiers [12.6] ニューラルネットワーク層における中間表現は忘れがちであり、計算を高速化する可能性を強調している。
また,ACを用いて推定平均コストを10~60%削減する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:31:19 GMT)
Mis-prompt: Benchmarking Large Language Models for Proactive Error Handling [12.5] 大規模言語モデル(LLM)はエラー処理の大幅な進歩を示している。
現実のシナリオでは、明示的なエラー処理命令は通常利用できない。
この研究は、新しいベンチマークであるMis-promptを導入し、4つの評価タスク、エラーカテゴリ分類、新しい評価データセットからなる。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:52:58 GMT)
Bridging Geometric and Semantic Foundation Models for Generalized Monocular Depth Estimation [12.5] BriGeSは、基礎モデル内の幾何学的および意味的な情報を融合して、モノクル深さ推定を強化する。
BriGeSは、事前訓練された基礎モデルを利用して、ブリッジングゲートのみをトレーニングする戦略を採用している。
複数の挑戦的なデータセットに対する実験では、複雑なシーンに対して、BriGeSがMDEの最先端メソッドより優れていることが示されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:38:36 GMT)
Learning to Poison Large Language Models for Downstream Manipulation [12.5] この研究は、教師付き微調整プロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:42:38 GMT)
Detecting Stealthy Backdoor Samples based on Intra-class Distance for Large Language Models [12.5] 本稿では,参照フィルタとTfidf-Clustering機構に基づく,ステルスなバックドアサンプル検出手法を提案する。
2つの機械翻訳データセットと1つのQAデータセットの実験では、RFTCがバックドア検出とモデルパフォーマンスでベースラインを上回っていることが示されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:49:29 GMT)
HyperMotion: DiT-Based Pose-Guided Human Image Animation of Complex Motions [12.5] 我々はtextbfOpen-HyperMotionX データセットと textbfHyperMotionX Bench を導入する。
また、簡易だが強力なDiTベースのビデオ生成ベースラインを提案し、空間的低周波化 RoPE を設計する。
本手法は,高ダイナミックな人間の動作シーケンスにおける構造安定性と外観の整合性を大幅に向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:30:46 GMT)
RingMo-Aerial: An Aerial Remote Sensing Foundation Model With Affine Transformation Contrastive Learning [12.4] 本稿では,ARSビジョンの分野における基礎モデル研究のギャップを埋めることを目的としたRingMo-Aerialモデルを提案する。
小型目標に対するモデルの検出能力を向上し、ARSの特徴となる傾いた視角に最適化する。
実験により、RingMo-Aerialは複数の下流タスクにおいてSOTA性能を達成することを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:03:42 GMT)
On Transferring Transferability: Towards a Theory for Size Generalization [12.4] グラフニューラルネットワークに関する最近の研究は、低次元データで訓練されたモデルがその性能を高次元入力に転送できるかどうかを探求している。
本稿では,次元間での転送可能性に関する一般的な枠組みを紹介する。
転送性は、小さな問題インスタンスと等価な大きな問題インスタンスを識別することによって形成される極限空間の連続性と正確に一致することを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:12:49 GMT)
TSENOR: Highly-Efficient Algorithm for Finding Transposable N:M Sparse Masks [12.3] ネットワークプルーニングは、大規模なニューラルネットワークの計算要求を減らす。
N:M 間隔は、M の連続重みのうち N だけを保持する。
変換可能なN:M空間は、この制限に対処するために提案されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:59:43 GMT)
MineStudio: A Streamlined Package for Minecraft AI Agent Development [12.3] 本稿では,Minecraftにおける自律エージェント開発を効率化するオープンソースソフトウェアパッケージであるMineStudioについて述べる。
MineStudioは,シミュレータ,データ,モデル,オフライン事前トレーニング,オンラインファインチューニング,推論,ベンチマークという,7つの重要なエンジニアリングコンポーネントを総合的に統合した初めての企業だ。
包括的なドキュメンテーションとチュートリアルを伴って、ユーザフレンドリなAPI設計を提供します。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:36:12 GMT)
VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning [12.3] スマートシティ、セキュリティ監視、災害警報システムには、ビデオの異常理解が不可欠である。
異常検出の進歩にもかかわらず、既存の手法は解釈可能性に欠け、異常事象の因果的・文脈的側面を捉えるのに苦労することが多い。
マルチモーダル大言語モデル(MLLM)上に構築されたデータ効率のよいフレームワークVAU-R1を導入し,RFT(Reinforcement Fine-Tuning)による異常推論を強化する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:48:10 GMT)
A New Deep-learning-Based Approach For mRNA Optimization: High Fidelity, Computation Efficiency, and Multiple Optimization Factors [12.3] 我々は,mRNA最適化のための新しい深層学習手法である textbfRNop を紹介する。
我々は,300万以上のシーケンスを含む大規模データセットを収集し,GPLoss,CAILoss,tAILoss,MFELossという4つの特別な損失関数を設計する。
RNopはハイシークエンスを保証し、47.32シークエンス/秒までの計算スループットを実現し、最適化されたmRNAシークエンスを生成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:21:11 GMT)
Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis [12.2] textttDRA-Ctrlはリソース集約型ビデオモデルの再利用に関する新たな洞察を提供する。
textttDRA-Ctrlは、視覚的モダリティにまたがる将来の統一された生成モデルの基礎を築いている。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:34:45 GMT)
Dataset Cartography for Large Language Model Alignment: Mapping and Diagnosing Preference Data [12.1] 人間の嗜好データは、大きな言語モデルと人間の価値の整合において重要な役割を果たす。
本稿では,GPT-4o支援ツールであるアライメントデータマップについて紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:33:46 GMT)
The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets [12.1] 消費者と商店双方がAIエージェントを承認し、交渉と取引を完全に自動化する将来のシナリオについて検討する。
我々の発見によると、AIによる取引は本質的に不均衡なゲームであり、異なるエージェントがユーザーに対して著しく異なる結果をもたらす。
ユーザーはAIエージェントにビジネス上の決定を委譲する際に注意を払わなければならない。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:41:39 GMT)
Closed-form Solutions: A New Perspective on Solving Differential Equations [12.0] 本稿では,様々な微分方程式に対する記号的閉形式解を導出する拡張学習に基づく新しいアプローチであるSSDEを紹介する。
様々な常微分方程式と偏微分方程式による評価は、SSDEが既存の機械学習手法より優れており、解析解を得る際の精度と効率が優れていることを示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:40:28 GMT)
CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance [12.0] 既存のメソッドは、テキスト推論とコード生成の間に大きな言語モデル(LLM)を操ることができない。
我々は、LLMコード/テキスト生成を導く効果的な方法であるCodeSteerを紹介する。
GPT-4oをCodeSteerで強化すると、平均的なパフォーマンススコアが53.3から86.4に上昇する。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:38:10 GMT)
LLMs for Argument Mining: Detection, Extraction, and Relationship Classification of pre-defined Arguments in Online Comments [12.0] 我々は,3つの引数マイニングタスクに基づいて,最先端の大規模言語モデル(LLM)を4つ評価する。
定量的評価は、3つのタスクにまたがる全体的なパフォーマンスを示している。
詳細な誤り分析により、長文とニュアンスのあるコメントと感情に満ちた言語に、体系的な欠点が示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:29:51 GMT)
DOPPLER: Dual-Policy Learning for Device Assignment in Asynchronous Dataflow Graphs [12.0] 本研究では,作業保守システムにおける実行時間を最小化するために,データフローグラフの操作をデバイスに割り当てる問題について検討する。
実験の結果,textscDopplerはタスク全体にわたって,すべてのベースラインメソッドより優れていることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:04:32 GMT)
DREAM: Drafting with Refined Target Features and Entropy-Adaptive Cross-Attention Fusion for Multimodal Speculative Decoding [11.9] 投機的復号化(SD)は,大規模言語モデル(LLM)における自己回帰生成を高速化する強力な手法として登場した。
視覚言語モデル(VLM)に適した新しい投機的復号化フレームワークであるDREAMを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:40:23 GMT)
WeakMCN: Multi-task Collaborative Network for Weakly Supervised Referring Expression Comprehension and Segmentation [11.9] WeakMCNはWRECとWRESを効果的に組み合わせたマルチタスク協調ネットワークである。
WeakMCNでは、動的視覚特徴強調(DVFE)と協調一貫性モジュール(CCM)という、マルチタスクコラボレーションを促進する2つの革新的な設計を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:58:26 GMT)
Length-Controlled Margin-Based Preference Optimization without Reference Model [11.9] 好みに基づく強化学習のためのLongth-Controlled Margin-Based Preference Optimization (LMPO)を提案する。
LMPOの重要な革新は、Bradley-Terryフレームワークに組み込まれたLongth-Controlled Marginベースの損失関数である。
実験の結果,LMPOは応答長を効果的に制御し,確率劣化を低減し,既存手法よりも優れていた。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:52:30 GMT)
$K^2$VAE: A Koopman-Kalman Enhanced Variational AutoEncoder for Probabilistic Time Series Forecasting [11.8] 確率的時系列予測(PTSF)は、経済、エネルギー、輸送など様々な分野における意思決定において重要な役割を果たしている。
我々は、非線形時系列を線形力学系に変換する効率的なVAEベースの生成モデルであるK2$VAEを紹介する。
K2$VAEは、短期および長期のPTSFにおいて最先端のメソッドより優れており、より効率的で正確なソリューションを提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:52:59 GMT)
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents [11.8] 我々は、AI駆動科学探査における安全性と倫理的責任を高める革新的なAI科学者フレームワークであるtextbfSafeScientistを紹介する。
SafeScientistは倫理的に不適切な、あるいはリスクの高いタスクを積極的に拒否し、研究プロセスを通して安全を厳格に強調する。
我々は、科学的な文脈でAIの安全性を評価するために特別に設計された新しいベンチマークである textbfSciSafetyBenchを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:35:58 GMT)
BrainMRDiff: A Diffusion Model for Anatomically Consistent Brain MRI Synthesis [11.7] BrainMRDiffは、脳MRIのための新しいトポロジー保存、解剖学的誘導拡散モデルである。
これを実現するために,腫瘍+構造凝集(TSA)とトポロジーガイド解剖保存(TGAP)の2つの重要なモジュールを紹介した。
TSAは様々な解剖学的構造と腫瘍情報を統合し、拡散過程の包括的な条件付け機構を形成する。
BrainMRDiffは既存のベースラインを超え、BraTS-AGデータセットで23.33%、BraTS-Metデータセットで33.33%のパフォーマンス改善を実現している。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:23:34 GMT)
Decoding Cortical Microcircuits: A Generative Model for Latent Space Exploration and Controlled Synthesis [11.7] 脳を理解し、人工知能を構築するという中心的な考え方は、構造が機能を決定することである。
しかし、脳の複雑な構造が、限られた遺伝子命令からどのように生じるかは、依然として重要な疑問である。
この研究は、ニューラルネットワークの設計原理を調査し、構造がどのように機能をもたらすかを探求する新しい方法を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:39:31 GMT)
WTEFNet: Real-Time Low-Light Object Detection for Advanced Driver-Assistance Systems [11.6] WTEFNetは、低照度シナリオ用に特別に設計されたリアルタイムオブジェクト検出フレームワークである。
WTEFNetは、LLEモジュール、ウェーブレットベースの特徴抽出(WFE)モジュール、アダプティブフュージョン検出(AFFD)モジュールの3つのコアモジュールから構成されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:36:27 GMT)
ToMAP: Training Opponent-Aware LLM Persuaders with Theory of Mind [11.5] 我々は、より柔軟な説得エージェントを構築するための新しいアプローチである、心の増補パースオーダ(ToMAP)について紹介する。
ToMAPは、説得者の精神状態に対する認識と分析を高める2つのマインドモジュールの理論を取り入れている。
実験の結果,ToMAPは3Bパラメータのみを含むが,ベースラインよりもはるかに高い性能を示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:03:41 GMT)
MSQA: Benchmarking LLMs on Graduate-Level Materials Science Reasoning and Knowledge [11.5] 我々は1,757人の大学院レベルの材料科学質問に対する総合的な評価ベンチマークであるMSQAを紹介する。
MSQAは、正確な事実知識と多段階推論の両方を必要とすることで、大きな言語モデル(LLM)に挑戦する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:22:57 GMT)
Self-Correcting Code Generation Using Small Language Models [11.4] 自己補正は、言語モデルが連続的な改善を通じて出力を修正および改善できるようにすることで、コード生成の可能性を実証している。
マルチターンコード修正のための小型言語モデルの能力向上を目的としたアプローチであるCoCoSを紹介する。
1Bスケールのモデルでは、CoCoSはMBPPで35.8%、HumanEvalで27.7%の改善を実現している。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:04:44 GMT)
Estimating Misreporting in the Presence of Genuine Modification: A Causal Perspective [11.4] リソースの割り当てを知らせるためにMLモデルを使用する場合、エージェントは、より良い結果を得るために、戦略的に機能を変更するインセンティブを持つ可能性がある。
そこで本研究では, エージェントがどの程度の頻度で誤レポートしているかを, 真に変化した特徴を識別し, 定量化するための因果的動機付け手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:06:30 GMT)
Don't Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models [11.4] 大規模言語モデル(LLM)は、しばしば欠陥や矛盾した前提を受け入れ、非効率な推論と信頼できない出力をもたらす。
このことは、入力前提におけるエラーを積極的に識別し、明示する能力として定義されたLSMのためのtextbfPremise Critique Aabilities を持つことの重要性を強調している。
我々は,3つの難易度に4つのエラータイプを組み込んで設計したtextbfPremise Critique Bench (PCBench) を,多面的評価指標と組み合わせて紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:49:44 GMT)
LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection [11.4] オープンソースのLarge Language Models (LLM) と様々な下流タスクは効率的なモデル選択を必要とする。
LLMの一般化能力を評価するための適切なレンズを提供する新しい理論フレームワークを提案する。
特に, LLMの微調整ダイナミクスを明らかにするPAC-Bayesian Generalization Boundを導出する。
次に,ニューラルタンジェントカーネル(NTK)をベースとしたRectified Scaling ModelであるLENSLLMを紹介し,正確な性能予測を実現する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:15:49 GMT)
Business as Rulesual: A Benchmark and Framework for Business Rule Flow Modeling with LLMs [11.3] 本稿では,50のビジネスプロセスドキュメントと326の明示的にラベル付けされたビジネスルールを含む,新しい注釈付き中国語データセットBPRFを紹介する。
大規模言語モデル(LLM)を用いたビジネスルールの自動抽出と依存性関係同定のためのフレームワークであるExIdeを提案する。
本研究は,既存のSOTA LLMにおける構造的ビジネスルールの抽出と相互依存性の分析におけるExIdeの有効性を実証するものである。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:22:02 GMT)
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL [11.1] 大規模合成視覚論理推論学習データであるVisualSphinxを提案する。
そこで本研究では,画像合成の課題を解決するために,ルール・ツー・イメージ合成パイプラインを提案する。
実験により、VisualSphinx上でGRPOを使用してトレーニングされたVLMは、私たちのデータセットの論理的一貫性と可読性から恩恵を受けることが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:08:36 GMT)
Video Editing for Audio-Visual Dubbing [11.1] EdiDubは、ビジュアルダビングをコンテンツ対応編集タスクとして再構成する新しいフレームワークである。
それは、忠実で正確な修正を保証するための特別な条件付けスキームを利用することで、オリジナルのビデオコンテキストを保存する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:56:09 GMT)
RiverMamba: A State Space Model for Global River Discharge and Flood Forecasting [11.0] 本稿では,長期的再分析データを用いた新しいディープラーニングモデルであるRiverMambaを紹介する。
これを実現するために、RiverMambaは効率的なMambaブロックを活用し、モデルがグローバルスケールのチャネルルーティングをキャプチャできるようにする。
解析の結果,リヴァーマンバは流出時期やリード時間など,河川流出の確実な予測を行うことが明らかとなった。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:55:57 GMT)
Erasing Concepts, Steering Generations: A Comprehensive Survey of Concept Suppression [11.0] 機密性、著作権、有害な画像の無制御再生は、重大な倫理的、法的、安全上の課題を引き起こす。
概念消去パラダイムは有望な方向として現れており、生成モデルから特定の意味概念を選択的に除去することができる。
この調査は、研究者がより安全で倫理的に整合した生成モデルへと導くことを目的としている。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:48:02 GMT)
A Unified Framework for Human AI Collaboration in Security Operations Centers with Trusted Autonomy [10.9] 本稿では,セキュリティ・オペレーション・センター(SOC)におけるヒューマン・AI連携のための構造化された枠組みについて述べる。
我々は,手動から完全自律までの5段階のAI自律性に基づく,新しい自律型フレームワークを提案する。
これにより、監視、保護、脅威検出、警告トリアージ、インシデント応答を含む、コアSOC関数間の適応的で説明可能なAI統合が可能になる。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:35:08 GMT)
SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding [10.8] 3Dビジュアルグラウンド(3D Visual Grounding)は、拡張現実(AR)やロボティクス(ロボティクス)などの応用に欠かせない、テキストによる記述に基づく3Dシーンのオブジェクトを見つけることを目的としている。
大規模2次元データに基づいて訓練された2次元視覚言語モデル(VLM)を活用したゼロショット3DVGフレームワークであるSeeeGroundを紹介する。
SeeGroundは3Dのシーンを3Dデータと2D-VLMの入力フォーマットのギャップを埋め、クエリ整列された画像と空間的にリッチなテキスト記述のハイブリッドとして表現している。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:14:03 GMT)
ImmunoDiff: A Diffusion Model for Immunotherapy Response Prediction in Lung Cancer [10.8] 非Small cell Lung Cancer (NSCLC) における免疫療法反応の正確な予測は, いまだに重要ではない。
既存の放射能と深層学習に基づく予測モデルは、主にカテゴリー的反応の結果を予測するための前処理画像に依存している。
本研究では,治療後CTスキャンをベースライン画像から合成し,臨床的に関係のある制約を取り入れた解剖学的拡散モデルであるImmuDiffを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:19:40 GMT)
UrbanCraft: Urban View Extrapolation via Hierarchical Sem-Geometric Priors [10.7] 都市景観の再現手法は、主に、訓練用カメラ軌道に近いビューを合成する補間ビュー合成設定に焦点を当てている。
従来の手法では画像拡散によって最適化されていたが、テキストのあいまいさや大きな見えない視角を処理できなかった。
我々は,階層的なセム幾何学的表現を付加した外挿ビュー合成問題を克服したUrbanCraftを設計する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:28:04 GMT)
Context Robust Knowledge Editing for Language Models [10.6] 知識編集手法のコンテキストロバスト性を評価するためのベンチマークであるCHEDを開発した。
CHEDの評価は、先行するコンテキストが存在するときにしばしば失敗することを示している。
我々はコンテキストの堅牢性を高めるために設計されたKE手法であるCoREを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:11:53 GMT)
Bridging the Gap Between Semantic and User Preference Spaces for Multi-modal Music Representation Learning [10.6] 本稿では,意味的視点からユーザ視点への類似性を階層的にモデル化する新しい階層型2段階コントラスト学習法を提案する。
拡張性のあるオーディオエンコーダを考案し,テキストエンコーダとして事前学習されたBERTモデルを活用して,大規模コントラスト付き事前学習による音声テキストセマンティクスの学習を行う。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:50:07 GMT)
Gradient Boosting Decision Tree with LSTM for Investment Prediction [10.4] このフレームワークは、時系列財務データを処理し、7つのモデルを用いてパフォーマンスを評価する。
MAE、R-squared、MSE、RMSEといった主要なメトリクスは、異なる時間スケールでベンチマークを確立するために使用される。
実験の結果,提案手法は個々のモデルと比較して精度を10~15%向上することがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:38:41 GMT)
Re-ranking Using Large Language Models for Mitigating Exposure to Harmful Content on Social Media Platforms [10.4] ゼロショットおよび少数ショット設定において,Large Language Models (LLMs) を用いた新たな階層化手法を提案する。
提案手法は, ラベル付きデータを必要とすることなく, 有害なコンテンツ露出を効果的に軽減し, コンテンツシーケンスを動的に評価・再ランクする。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:42:55 GMT)
Hijacking Large Language Models via Adversarial In-Context Learning [10.4] In-context Learning (ICL) は、ラベル付き例を事前条件付きプロンプトのデモ(デム)として活用することで、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。
既存の攻撃は検出しやすく、ユーザーの入力にトリガーを必要とするか、ICLに対する特異性を欠いている。
本研究は、ILCに対する新規なトランスファー可能なプロンプトインジェクション攻撃を導入し、LSMをハイジャックしてターゲット出力を生成したり、有害な応答を誘発する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:49:44 GMT)
Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models [10.4] 中間粒度におけるセグメントレベルの優位性推定を利用する新しいRLフレームワークであるセグメントポリシー最適化(SPO)を提案する。
SPOは,(1)フレキシブルセグメント分割,(2)正確なセグメント優位性推定,(3)セグメント優位性を用いたポリシー最適化の3つの新しい戦略を特徴とする。
SPO-chain for short chain-of- Thought (CoT)は、新しいカットポイントベースのパーティションとチェーンベースのアドバンテージ推定を特徴とし、GSM8K上のPPOとGRPOよりも精度が6-12$ポイント向上した。
長いチェーン・オブ・シークレット(CoT)のためのSPOツリー
論文参考訳(メタデータ) (Thu, 29 May 2025 15:38:19 GMT)
Dataset Distillation of 3D Point Clouds via Distribution Matching [10.3] 分布マッチングに基づく3次元点雲の蒸留フレームワークを提案する。
点の順序のない索引付けによる意味的ミスアライメントに対処するために,セマンティックアライズド・ディストリクト・マッチング・ロスを導入する。
回転の変動に対処するため、合成データセットを更新しながら最適な回転角を共同学習し、元の特徴分布とよりよく一致させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:47:12 GMT)
Algorithms for mean-field variational inference via polyhedral optimization in the Wasserstein space [10.3] ワッサーシュタイン空間上の有限次元多面体部分集合の理論を開発し、一階法による函数の最適化を行う。
我々の主な応用は平均場変動推論の問題であり、これは分布の$pi$ over $mathbbRd$を製品測度$pistar$で近似しようとするものである。
解析の副産物として,MFVIのための勾配に基づくアルゴリズムの最初のエンドツーエンド解析を求める。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:32:33 GMT)
Burger: Robust Graph Denoising-augmentation Fusion and Multi-semantic Modeling in Social Recommendation [10.3] ラウンドアラインバストガンダーラインラフ・デノワシンアンダーライン・アンダーライン・フュージョンとマルチサンダーライン・マンティック・モデリング(バーガー)を用いたソーシャル・アンダーライン勧告モデルを導入する。
ユーザ・イテムインタラクション・ネットワークとソーシャルネットワークの異なるセマンティック・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・ネットワークにおけるセマンティック・インフォメーション・インフォメーション・インフォメーション・インフォメー
論文参考訳(メタデータ) (Thu, 29 May 2025 16:52:21 GMT)
Human sensory-musculoskeletal modeling and control of whole-body movements [10.3] 感覚筋骨格系の動的モデルの構築は、運動制御の理解と人間の行動の調査に不可欠である。
骨,関節,筋腱の正確な解剖学的表現を統合した,SMS-Humanと呼ばれるヒトの感覚・筋骨格モデルについて報告する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:42:08 GMT)
HyperPointFormer: Multimodal Fusion in 3D Space with Dual-Branch Cross-Attention Transformers [10.2] マルチモーダルリモートセンシングデータ(スペクトル,ライダー,フォトグラムなど)は,都市景観における土地利用・土地被覆分類の達成に不可欠である。
本稿では,3Dポイントクラウド内のすべてのモダリティを融合する完全3Dベースの手法を提案し,専用のデュアルアテンショントランスモデルを用いる。
以上の結果から, 3次元融合は2次元法と比較して競争力があり, 3次元予測を提供することにより, 柔軟性が向上することが示唆された。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:45:19 GMT)
Autoregressive Meta-Actions for Unified Controllable Trajectory Generation [10.1] 制御可能な軌道生成は自律運転システムにとって不可欠である。
既存のフレームワークは、固定された将来の時間間隔に割り当てられた不変なメタアクションに依存している。
本稿では,自動回帰メタアクション(Autoregressive Meta-Actions)を紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:19:59 GMT)
Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection [10.1] ディープフェイク技術は、公衆の安全に対する新たな深刻な脅威、拡散ベースのデジタルヒューマンジェネレーションを生み出している。
拡散モデルに基づく大規模マルチモーダルデジタルヒューマンフォージェリデータセットであるDigiFakeAVを紹介する。
被験者は偽動画を68%の精度で誤分類し,既存の検出モデルでは性能の低下が見られた。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:00:33 GMT)
Diverse Prototypical Ensembles Improve Robustness to Subpopulation Shift [10.0] サブポピュレーションシフトは、機械学習モデルの性能を著しく低下させる可能性がある。
本稿では,多様な分類器のアンサンブルを用いて,サブポピュレーションに関連するリスクを適応的に捉えることを提案する。
DPE(Diverse Prototypeal Ensembles)の手法は、しばしば、最悪のグループ精度で先行技術よりも優れている。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:12:56 GMT)
FSL-SAGE: Accelerating Federated Split Learning via Smashed Activation Gradient Estimation [10.0] フェデレートラーニング(FL)やスプリットラーニング(SL)のような協調学習手法は、生データを共有せずに分散機械学習を可能にする。
補助モデルを用いてサーバ側勾配フィードバックを推定する新しいフェデレーション分割学習アルゴリズムであるFSL-SAGEを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:18:59 GMT)
Quaff: Quantized Parameter-Efficient Fine-Tuning under Outlier Spatial Stability Hypothesis [9.9] Quaffは、大規模言語モデルのための量子化されたパラメータ効率の微調整フレームワークである。
軽量な操作を使用して、排他的な不変チャネルを抑える。
1.73倍のレイテンシ削減を実現し、30パーセントのメモリ節約を実現している。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:04:36 GMT)
Improving Parallel Program Performance with LLM Optimizers via Agent-System Interfaces [9.9] 並列プログラムのパフォーマンスを改善する上で重要な課題は、タスクをプロセッサやデータに効率的にメモリにマッピングすることだ。
生成最適化によるマッパー開発を自動化するフレームワークを提案する。
提案手法では,9つのベンチマークで1.34倍の高速化を実現している。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:53:28 GMT)
DGIQA: Depth-guided Feature Attention and Refinement for Generalizable Image Quality Assessment [9.9] 非参照画像品質評価における長年の課題は、自然歪みを目にしない客観的な一般化の欠如である。
我々は,シーンの深度と空間的特徴を構造認識表現に蒸留する,Depth-Guided Cross-attention and refinement 機構を新たに開発した。
マルチモーダルアテンションベースプロジェクション関数としてTCBとDepth-CARを実装し,最も有用な特徴を選択する。
実験により,提案したDGIQAモデルにより,総合的および真正なベンチマークデータセット上での最先端(SOTA)性能が得られた。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:52:56 GMT)
ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions [9.8] ToolHaystackは、長期的なインタラクションにおけるツール使用機能をテストするためのベンチマークです。
各テストインスタンスは、連続的な会話の中で複数のタスクの実行コンテキストと現実的なノイズを含む。
現在のモデルでは、標準的なマルチターン設定ではうまく機能しますが、ToolHaystackではかなり苦労しています。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:10:12 GMT)
Sparse2DGS: Sparse-View Surface Reconstruction using 2D Gaussian Splatting with Dense Point Cloud [9.8] 本稿では,Sparse2DGSと呼ばれる新しい3次元再構成手法を提案する。
Sparse2DGSはステレオ画像の基本モデルであるDUSt3RとCOLMAP MVSを採用し、高精度で密度の高い3D点雲を生成する。
Sparse2DGSは3つの画像を用いて物体の3次元形状を正確に再構成できることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:25:47 GMT)
The fundamental localization phases in quasiperiodic systems: A unified framework and exact results [9.8] 混乱した量子系は、拡張、局所化、臨界の3種類の量子状態を持つ。
スピンフル準周期(QP)システムに基づく完全かつ統一的なフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:06:26 GMT)
Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [9.8] LrcSSMは$textitnonlinear$recurrentモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
LrcSSMは、Liquid-S4やMambaのような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
本稿では,LrcSSMがLRU,S5,Mambaより優れていることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:22:21 GMT)
STeCa: Step-level Trajectory Calibration for LLM Agent Learning [9.7] 大規模言語モデル(LLM)ベースのエージェントは、環境と動的に相互作用することで複雑なタスクに取り組むことを約束している。
LLMエージェント学習のための新しいフレームワークであるStep-Level Trajectory (STeCa)を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:13:21 GMT)
Approximate Thompson Sampling for Learning Linear Quadratic Regulators with $O(\sqrt{T})$ Regret [9.6] 本稿では,線形二次レギュレータ(LQR)をベイズ的残差値$O(sqrtT)$で学習する新しいトンプソンサンプリングアルゴリズムを提案する。
励振信号は、プレコンディショナーの最小固有値を時間とともに増大させ、それによって近似した後方サンプリングプロセスが加速されることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:13:49 GMT)
AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.6] 拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。
重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。
textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:59:06 GMT)
Distributed Federated Learning for Vehicular Network Security: Anomaly Detection Benefits and Multi-Domain Attack Threats [9.5] 車両は、ワンホップの隣人間でモデルの更新を交換し、複数のホップ上でモデルを伝播することによって、ディープラーニングモデルを協調的にトレーニングする方法を示す。
我々はDFLのレジリエンスと、複数のドメインにおける攻撃、すなわち無線ジャミングとデータ中毒攻撃の訓練による脆弱性を調査する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:41:02 GMT)
A Descriptor Is All You Need: Accurate Machine Learning of Nonadiabatic Coupling Vectors [9.5] 機械駆動シミュレーションのための光バス結合(NAC)を学習するための新しい記述子を開発した。
ドメインの専門知識に基づいてNAC固有の記述子を初めて設計し、報告されていない正確さで学習できることを示します。
私たちの実装はオープンソースのMLatomで利用可能です。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:08:49 GMT)
Tell, Don't Show: Leveraging Language Models' Abstractive Retellings to Model Literary Themes [9.5] 本稿では,文学のためのシンプルなトピックモデリング手法であるRetellを提案する。
我々は,資源効率のよい生成言語モデル(LM)に,どのパスを示すかを示すよう促す。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:59:21 GMT)
Fitting the Message to the Moment: Designing Calendar-Aware Stress Messaging with Large Language Models [9.5] 本稿では、大規模言語モデル(LLM)がデジタルカレンダーデータを用いて、タイムリーかつパーソナライズされたストレスサポートを実現する方法について検討する。
我々は8人の大学生を対象に1週間にわたる調査を行い、参加者のカレンダーイベントに基づいて毎日のストレス管理メッセージを生成する機能技術プローブを用いた。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:47:01 GMT)
KGMark: A Diffusion Watermark for Knowledge Graphs [9.4] KGMARKは、堅牢で検出可能な透明な拡散指紋を生成する最初のグラフ透かしフレームワークである。
具体的には,透かしを空間的変動に適応させるクラスタリングに基づくアライメント手法を提案する。
各種攻撃に対する拡散透かしを強化するために, 冗長な埋め込み方式を提案する。
また,拡散指紋の透明性を高めるために,新しい学習可能なマスクマトリックスを導入する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:28:05 GMT)
Infinite-Instruct: Synthesizing Scaling Code instruction Data with Bidirectional Synthesis and Static Verification [9.3] Infinite-Instructは高品質な質問応答ペアのための自動フレームワークである。
このフレームワークは、合成問題の内部ロジックの改善に焦点を当てている。
言語間の静的コード解析パイプラインは、データ品質を保証するために無効なサンプルをフィルタする。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:14:43 GMT)
GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning [9.2] GAM-Agentは、視覚言語推論を強化するためのゲーム理論のマルチエージェントフレームワークである。
基本エージェント間の非ゼロサムゲームとして推論過程を定式化し、視覚的知覚サブタスクを専門とするゲームと、論理的一貫性と事実的正確性を検証する重要なエージェントを定式化する。
我々のアプローチはモジュール化され、スケーラブルで、一般化可能であり、信頼性と説明可能なマルチエージェントのマルチモーダル推論への道筋を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:37:34 GMT)
Maximum Likelihood Learning of Latent Dynamics Without Reconstruction [9.2] 遅延動的構造を持つ時系列データに対する新しい教師なし学習手法:認識パラメタ化ガウス状態空間モデル(RP-GSSM)を提案する。
RP-GSSMは、異なる時間ステップにおける観測間の統計的依存を説明するマルコフ・ガウシアン潜伏子を学習する確率論的モデルである。
ビデオから非線形ダイナミクスを学習することを含む問題に対して、バックグラウンドイントラクタの有無にかかわらず、このアプローチがいかに優れているかを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:44:20 GMT)
Benchmarking YOLOv8 for Optimal Crack Detection in Civil Infrastructure [9.1] 本研究は, YOLOv8の性能を5つのモデルスケールで厳格に評価することによって, ギャップを埋めるものである。
YOLOv8は異常な精度と速度を提供し、リアルタイムの亀裂検出のための新しいベンチマークを設定した。
この作業は、世界中のより安全で効率的な輸送システムを実現するための道を開く。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:38:24 GMT)
TINED: GNNs-to-MLPs by Teacher Injection and Dirichlet Energy Distillation [9.1] グラフネットワーク(GNN)はグラフベースの学習において重要であり、特にノード分類において優れている。
高速な推論のためにGNNを多層パーセプトロン(MLP)に蒸留する最近の試みは、しばしばGNNの層間洞察を弱めている。
我々は,教師注入法とディリクレエネルギー蒸留法を用いて,GNNを層単位で蒸留する新しい手法であるTINEDを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:37:40 GMT)
TimePoint: Accelerated Time Series Alignment via Self-Supervised Keypoint and Descriptor Learning [9.1] TimePointは、時系列の高速かつスケーラブルなアライメントを自己管理する手法である。
これは2Dキーポイント検出にインスパイアされているが、1D信号のユニークな課題に慎重に適応している。
TimePointは標準DTWよりも高速で正確なアライメントを実現している。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:26:54 GMT)
Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages [9.1] 極低リソース言語におけるテキスト生成に多言語エンコーダを適用するための新しいフレームワークを提案する。
我々のフレームワークは,エンコーダとデコーダの間の重みを再利用することにより,学習したエンコーダの意味空間を活用することができる。
この枠組みを4つの中国語マイノリティ言語に適用し、XLM-SWCMを提案し、様々な下流タスクにおいて優れた性能を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:55:59 GMT)
Exploring the Limitations of Mamba in COPY and CoT Reasoning [9.0] Mamba は,計算コストを大幅に削減しつつ,シーケンスモデリングにおける Transformer の性能にマッチすることを示す。
さらに,MambaがChain of Thought(CoT)タスクに取り組む能力について分析する。
以上の結果から,任意のDP問題を解くために,Mambaの総コストは標準変換器に匹敵することがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:19:51 GMT)
CASS: Nvidia to AMD Transpilation with Data, Models, and Benchmark [9.0] クロスアーキテクチャGPUコードトランスパイレーションのための,最初の大規模データセットとモデルスイートであるCASSを紹介する。
データセットは、ホストとデバイス間で70万の検証済みコードペアで構成されている。
ドメイン固有言語モデルのCASSファミリーを訓練し、95%のソース翻訳精度と37.5%のアセンブリ翻訳精度を達成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:44:32 GMT)
Parameter-Free Bio-Inspired Channel Attention for Enhanced Cardiac MRI Reconstruction [8.9] 心臓MRI再建のための非線形アテンションアーキテクチャを提案し,エコロジー原理からの洞察が効果的なアテンション機構の発達を導くことができると仮説を立てた。
具体的には,単種の個体群成長を記述した非線形生態差方程式を考察し,パラメータフリーアテンションモジュールを考案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:03:24 GMT)
FOLIAGE: Towards Physical Intelligence World Models Via Unbounded Surface Evolution [8.9] 本稿では,物理インフォームド・マルチモーダル世界モデルFOLIAGEを提案する。
Action-Perceptionループでは、統合コンテキストがイメージ、メッシュ接続、ポイントクラウドを共有潜在状態にマップする。
物理制御アクションを条件とした物理認識予測器は、この潜伏状態に時間をかけて、表面の目標潜伏状態と整合する。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:16:58 GMT)
RepoAudit: An Autonomous LLM-Agent for Repository-Level Code Auditing [8.8] RepoAuditは、自律的なリポジトリレベルのコード監査エージェントである。
78.43%の精度で、15の現実世界のベンチマークプロジェクトにおいて40の真のバグを検出する。
また、著名なプロジェクトの185の新たなバグを検出し、そのうち174が確認または修正されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:08:26 GMT)
SuPreME: A Supervised Pre-training Framework for Multimodal ECG Representation Learning [8.8] 我々はtextbfSuPreME, $textbfSu$pervised $textbfPre$-training framework for $textbfE$CG representation learningを提案する。
固定ラベルの代わりにテキスト心臓問合せでECG信号を融合することにより、SuPreMEはさらなる微調整をすることなく、見えない状態のゼロショット分類を可能にする。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:49:46 GMT)
One Task Vector is not Enough: A Large-Scale Study for In-Context Learning [8.8] In-context Learning (ICL)により、大規模言語モデルでは、タスク情報をエンコードするように仮定されたタスクベクトルを使って、いくつかの例を使って新しいタスクに適応することができる。
我々は,Alpacaデータセットから抽出した30の入出力ペアを持つ,3,096の多種多様なショットタスクからなる新しいデータセットQuiteAFewを紹介した。
Llama-3-8B による QuiteAFew の実験では,(1) 中間層(例えば 15 位)におけるタスクベクトルのパフォーマンスピーク,(2) タスクタイプによる有効性,(3) 複雑なタスクは単一のベクトルではなく,複数のサブタスク固有のベクトルに依存しており,分散タスク知識を示唆している。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:05:12 GMT)
EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation [8.8] 現在のRAGシステムは、検索モデルが最も関連性の高い文書のランク付けに失敗したときにしばしば苦労する。
抽出文脈圧縮フレームワークEXITを紹介する。
評価の結果,EXITは既存の圧縮手法を一貫して上回っていることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:18:33 GMT)
Position Paper: Metadata Enrichment Model: Integrating Neural Networks and Semantic Knowledge Graphs for Cultural Heritage Applications [8.7] 本稿では,メタデータをデジタル化するための概念的フレームワークであるMetadata Enrichment Model(MEM)を提案する。
MEMは、微調整されたコンピュータビジョンモデル、大きな言語モデル、構造化知識グラフを組み合わせる。
我々はジャギロニアデジタル図書館からデジタル化されたインキュナブラのデータセットをリリースする。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:22:18 GMT)
Knowledge Graphs for Digitized Manuscripts in Jagiellonian Digital Library Application [8.7] 美術館、図書館、資料館、博物館(GLAM)は積極的に蔵書をデジタル化し、広範なデジタルコレクションを作成している。
これらのコレクションには、アイテムを記述するメタデータが備わっていることが多いが、その内容は正確には書かれていない。
本稿では,コンピュータビジョン(CV),人工知能(AI),セマンティックWeb技術の統合手法を探求し,メタデータを充実させ,デジタル化された原稿やインキュナブラの知識グラフを構築する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:49:24 GMT)
Guarantees of a Preconditioned Subgradient Algorithm for Overparameterized Asymmetric Low-rank Matrix Recovery [8.7] 非対称行列のランクに依存しない線形収束率を, 粗悪な汚職の存在下で初めて提供する。
この手法を(ロバスト)マトリクスセンシングに適用することにより、測定演算子が混合ノルム制限等尺性を満たす場合の利点を明らかにする。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:38:57 GMT)
Position: Scaling LLM Agents Requires Asymptotic Analysis with LLM Primitives [8.7] 難しい問題をサブプロブレムに分解することで、解き易く、より効率的に解決できる。
本稿は,LLMプリミティブを用いた解析が,そのようなシステムの効率性について考慮する必要があることを論じる。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:46:00 GMT)
One Prompt to Verify Your Models: Black-Box Text-to-Image Models Verification via Non-Transferable Adversarial Attacks [8.6] ブラックボックス対象モデルが与えられたホワイトボックス参照T2Iモデルと同一であるかどうかを判定することを目的としたT2Iモデル検証を提案する。
イントレピッドプロンプト(Intrepid prompt)は、他のモデルに対する転送可能性のないターゲットモデルの逆プロンプトである。
IntrepidPromptは、様々なT2Iモデルで90%以上の精度を実現している。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:52:44 GMT)
Diffusion Sampling Correction via Approximately 10 Parameters [8.6] 拡散確率モデル(DPM)のためのPCAベースの適応探索(PAS)を提案する。
我々は,高次元サンプリング空間にまたがるいくつかの基底ベクトルを得るためにPCAを使用し,一組の座標を学習してサンプリング方向を補正する。
次に、サンプリング効率をさらに高め、格納されたパラメータの数を約10に削減する適応探索戦略を設計する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:26:02 GMT)
Effects of Dropout on Performance in Long-range Graph Learning Tasks [8.5] MPNNはグラフニューラルネットワーク(Graph Neural Networks)で、ローカルな地区を通じてグラフ全体に情報を伝達する。
オーバースムーシングとオーバースキャッシングは、MPNNにとって2つの重要な課題である。
我々は、エッジドロップによって失われた情報の比率を明示的に制御するDropEdgeの感度対応版であるDropSensを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:54:10 GMT)
FlexDuo: A Pluggable System for Enabling Full-Duplex Capabilities in Speech Dialogue Systems [8.4] 音声対話システムから制御を分離するフレキシブルフルプレイ制御モジュールを開発した。
会話における人間の情報フィルタリング機構に触発されて、明示的なアイドル状態を導入する。
偽の割り込み率を24.9%削減し、統合されたフルプレイ対話システムに比べて応答精度を7.6%向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:32:21 GMT)
Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping [8.3] 我々は,シーンレベルの3Dオブジェクト検出を,ローカライズとマッピングの両方が可能なオブジェクト中心フレームワークの出力として再考する。
画像由来の3Dボックスをベースとした標準の2Dキーポイントベースのマーカをオブジェクト中心のマーカに置き換えることで、計測カメラのポーズ、オブジェクトトラックを推定し、最終的にグローバルなセマンティックな3Dオブジェクトマップを生成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:45 GMT)
SG-Blend: Learning an Interpolation Between Improved Swish and GELU for Robust Neural Representations [8.3] 本研究は,提案したSSwishと確立されたGELUをブレンドした新規活性化機能であるSG-Blendを紹介する。
学習可能なパラメータによってこれらの成分関数を適応的にブレンドすることにより、SG-Blendは相補的な強みを活用することを目指している。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:48:18 GMT)
X2Graph for Cancer Subtyping Prediction on Biological Tabular Data [8.3] X2Graphは,小さな生物学的データセット上で高い性能を実現する新しい深層学習手法である。
X2Graphは、遺伝子相互作用などのテーブル列間の関係に関する外部知識を活用して、各サンプルをグラフ構造に変換する。
筆者らのX2Graph法は,既存の3つの癌サブタイプデータセットにおける木に基づく深層学習法と比較して,優れた性能を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:50:02 GMT)
Lessons Learned: A Multi-Agent Framework for Code LLMs to Learn and Improve [8.2] エージェントのチームは、お互いの成功と失敗から学び、自身のパフォーマンスを改善することができる、と私たちは主張する。
本研究では,授業ベースのコラボレーションフレームワークを提案し,授業ソリケーション-バンク選択機構を設計し,学習した小さなLLMのチームがより大きなLLMを上回り得ることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:56:20 GMT)
Stochastic Diffusion: A Diffusion Based Model for Stochastic Time Series Forecasting [8.2] 本稿では,データ駆動型事前知識を各ステップで学習する新しい拡散(StochDiff)モデルを提案する。
学習された事前知識は、複雑な時間的ダイナミクスとデータ固有の不確実性を捉えるのに役立つ。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:03:13 GMT)
DReSD: Dense Retrieval for Speculative Decoding [8.2] 投機的復号 (SD) は、効率的なドラフトモデルを用いて、Large Language Model (LLM) の生成を加速する。
我々は,非パラメトリックデータストアから次のトークンを検索するSDに着目した。
Dretrieval for Speculative Decoding (DRESD) は、近距離の近接探索と文脈化トークンの埋め込みを利用する新しいフレームワークである。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:31:14 GMT)
A Data-Driven Framework for Discovering Fractional Differential Equations in Complex Systems [8.2] 本研究では、データから直接分数微分方程式(FDE)を発見するための段階的なデータ駆動フレームワークを提案する。
我々のフレームワークは、スパース観測とノイズ観測の分離と再構成のための代理モデルとしてディープニューラルネットワークを適用している。
本研究は, 凍結土壌のクリープ挙動に関する, 合成異常拡散データおよび実験データを含む, 各種データセットにわたるフレームワークの検証を行った。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:03:53 GMT)
Unsupervised Point Cloud Completion through Unbalanced Optimal Transport [8.1] 本研究では,不均衡点クラウドコンプリート(textbfUOT-UPC)モデルに対するテキスト不均衡最適トランスポートマップを提案する。
提案手法では,ニューラルネットワークを用いてUTTマップを学習するニューラルOTモデルを用いる。
我々のアプローチは特に,実世界の未経験のクラウド完了シナリオで頻繁に発生する,クラス不均衡問題の下で堅牢である。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:57:29 GMT)
Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions [8.1] 大きな言語モデル(LLM)は、様々なタスクにまたがって顕著な能力を示していますが、高い領域への展開には、複数のインタラクションラウンドで一貫したパフォーマンスが必要です。
本稿では,LLM応答整合性の評価と改善のための総合的なフレームワークを紹介し,その3つの重要な貢献について述べる。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:35:00 GMT)
A Computational Approach to Improving Fairness in K-means Clustering [8.0] 一般的なK平均クラスタリングアルゴリズムは、さらなる分析や解釈の大きな弱点に悩まされる可能性がある。
この研究は、K平均クラスタリングの公平性を改善するために、2段階最適化の定式化を試みる。
ベンチマークデータセットの実験は、クラスタリングの品質に最小限の影響を伴って、フェアネスを大幅に改善したことを示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:48:12 GMT)
Uncovering Visual-Semantic Psycholinguistic Properties from the Distributional Structure of Text Embedding Spac [8.0] イメージ可能性と具体性は、視覚空間と意味空間をリンクする心理言語学的特性である。
画像キャプチャデータセットのテキスト自身は、これらの特性を正確に推定するのに十分な信号を提供する。
本稿では,ピークのシャープネスを定量化する,教師なし分布自由度尺度を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:14:11 GMT)
DeepFilterGAN: A Full-band Real-time Speech Enhancement System with GAN-based Stochastic Regeneration [8.0] 本稿では,GANをベースとしたリアルタイム音声強調システムを提案する。
358万のパラメータと低レイテンシで、私たちのシステムは軽量なアーキテクチャでリアルタイムストリーミング用に設計されています。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:56:07 GMT)
Instruction-Tuning LLMs for Event Extraction with Annotation Guidelines [7.9] イベント抽出のための大規模言語モデルの指導訓練において,アノテーションガイドライン(イベントタイプと引数のテキスト記述)の効果について検討する。
我々は人為的ガイドラインと機械的ガイドラインの両方を用いて、フルデータとローデータの両方で一連の実験を行った。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:34:03 GMT)
Redefining Research Crowdsourcing: Incorporating Human Feedback with LLM-Powered Digital Twins [7.9] Amazon Mechanical TurkやProlificといったクラウドワークプラットフォームは研究に不可欠だが、生成型AIツールの利用の増加が課題となっている。
本稿では、労働者の行動や嗜好をエミュレートするパーソナライズされたAIモデルであるデジタルツインを用いたハイブリッドフレームワークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:55:27 GMT)
Learn Singularly Perturbed Solutions via Homotopy Dynamics [7.9] 特定の摂動問題に対するニューラルネットワークのトレーニングは、損失関数にほぼ特異性を導入するPDEのパラメータによって困難である。
本稿では,これらのパラメータを効果的に操作するためのホモトピー力学に基づく新しい手法を提案する。
実験的に,本手法は収束を著しく加速し,これらの特異摂動問題の精度を向上することを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:37:00 GMT)
DeepTopoNet: A Framework for Subglacial Topography Estimation on the Greenland Ice Sheets [7.9] 本研究では,レーダーによる氷厚観測とBedMachine Greenlandデータを統合するディープラーニングフレームワークを提案する。
提案した損失関数は、レーダーとBedMachineデータの重み付けを適応的に調整し、レーダーカバレッジに制限のある領域で堅牢性を確保する。
Upernavik Isstrom領域で系統的にテストすることにより、このモデルは、亜氷河の地形を再構築する上で、高精度で優れたベースライン法を実現することができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:12:27 GMT)
Daunce: Data Attribution through Uncertainty Estimation [7.8] トレーニングデータ属性法は、特定のテストデータに対して、どのトレーニング例がモデルの予測に最も影響するかを特定することを目的としている。
勾配に基づくTDA法は勾配と2次情報に依存し、大規模に適用性を制限する。
本稿では,不確実性推定による簡便かつ効果的なデータ帰属手法であるDaunceを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:08:38 GMT)
Point-MoE: Towards Cross-Domain Generalization in 3D Semantic Segmentation via Mixture-of-Experts [7.8] 我々は,3次元知覚におけるクロスドメインの一般化を実現するために,Mixture-of-ExpertsアーキテクチャであるPoint-MoEを提案する。
標準的なポイントクラウドバックボーンは、混合ドメインデータでトレーニングされた場合、パフォーマンスが大幅に低下する。
シンプルなトップkルーティング戦略のPoint-MoEは、ドメインラベルにアクセスしなくても、専門家を自動的に専門化することができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:21:47 GMT)
Prompting Whisper for Improved Verbatim Transcription and End-to-end Miscue Detection [7.7] 本稿では,目的の読解テキストをプロンプトで組み込んだエンドツーエンドアーキテクチャを提案する。
本研究は, 幼児の読解音声と成人非定型音声の2つの事例研究を行い, 提案手法は, 現在の最先端技術と比較して, 動詞の書き起こしと誤検出を改善していることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:34:47 GMT)
SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6] SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)まで改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:14:16 GMT)
TiRex: Zero-Shot Forecasting Across Long and Short Horizons with Enhanced In-Context Learning [7.6] 文脈内学習は近年,時系列予測に応用されている。
ゼロショット時系列予測の新しいアプローチであるTiRexを紹介する。
TiRexは、HuggingFaceベンチマークのGiftEvalとChronos-ZSで予測するゼロショット時系列で、新しい最先端の技術を設定している。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:52:10 GMT)
HMAD: Advancing E2E Driving with Anchored Offset Proposals and Simulation-Supervised Multi-target Scoring [7.6] HMADは,Bird's-Eye-View (BEV) をベースとした軌道提案機構を学習用マルチ基準スコアリングと統合したフレームワークである。
重要なイノベーションであるシミュレーション制御スコアリングモジュールは、これらの提案を、オンフォールト衝突、ドライビング可能なエリアコンプライアンス、快適性、全体的な運転品質などを含む重要な指標に対して評価する。
HMADはその有効性を実証し、CVPR 2025プライベートテストセットで44.5%の運転スコアを達成した。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:59:24 GMT)
UAQFact: Evaluating Factual Knowledge Utilization of LLMs on Unanswerable Questions [7.5] 複雑な状況において、誤解を招く応答を防ぐのに役立つため、LLMにとって、解決不可能な質問(UAQ)を扱うことが不可欠である。
本稿では,知識グラフから作成された補助的な事実知識を持つバイリンガルデータセットであるUAQFactを紹介する。
実験結果から,UAQFact は実知識を蓄積しても LLM が常に良好に機能しないため,重要な課題を呈することが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:10:24 GMT)
FMG-Det: Foundation Model Guided Robust Object Detection [7.5] ノイズアノテーションの訓練は検出器性能を著しく低下させる。
ノイズの多いアノテーションでモデルをトレーニングするための,シンプルで効率的な方法論である -Det を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:55:41 GMT)
CAST: Contrastive Adaptation and Distillation for Semi-Supervised Instance Segmentation [7.5] 我々は,事前学習型視覚基礎モデル(VFM)をコンパクトな専門家に圧縮する,半教師付き知識蒸留(SSKD)フレームワークであるCASTを紹介する。
1) コントラスト画素校正による自己学習による VFM 教師のドメイン適応,(2) 統一多目的損失によるコンパクトな学生への蒸留,の3段階に展開する。
Cityscapes と ADE20K では、我々の11X小学生は、適応された VFM 教師を +3.4 AP (33.9 vs. 30.5) と +1.5 AP (16.7 vs. 15.2) で上回り、州を上回ります。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:20:59 GMT)
On the Efficacy of the Peeling Decoder for the Quantum Expander Code [7.5] 線形複雑性を持つ剥離デコーダとともに量子展開器符号を用いることを示す。
また,剥離操作後に適用可能な小セットフリップ復号法などの追加手法についても論じる。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:21:19 GMT)
Jailbreaking to Jailbreak [7.5] 大型言語モデル(LLM)は有害な内容を引き出すために他のモデルをレッドチーム(例えばジェイルブレイク)に使用することができる。
以前の作業ではオープンウェイトモデルやプライベートアンプレッショルドモデルを使用してジェイルブレイクを行うのが一般的だったが、強力なLCM(例えばOpenAI o3)の拒絶(例えばOpenAI o3)はジェイルブレイクを支援することを拒否したため、我々の作業はブラックボックスのLSMを攻撃者に転換した(ほとんど)。
その結果、J$(jailbreak-to-jailbreak)攻撃者は、様々な戦略を使用してターゲットモデルの保護を効果的にジェイルブレイクすることができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:12:00 GMT)
Contextualized Automatic Speech Recognition with Dynamic Vocabulary Prediction and Activation [7.5] 本稿では,動的語彙予測とアクティベーションを利用するエンコーダに基づくフレーズレベルの文脈化ASR手法を提案する。
Librispeech と Wenetspeech のデータセットの実験により、我々の手法はベースラインと比較して28.31% と 23.49% の WER の相対的な削減を実現していることが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:31:33 GMT)
Argumentative Experience: Reducing Confirmation Bias on Controversial Issues through LLM-Generated Multi-Persona Debates [7.4] 大きな言語モデル(LLM)は、デザイナーが情報アクセスのためのエキサイティングな新しいユーザーエクスペリエンスに命を吹き込むことを可能にする。
本研究は, 異論を呈する諸問題に対して, 混合方法論, 対象内研究を通じて複数の視点を呈する。
ベースライン検索システムと比較すると、より創造的な相互作用と多様な情報検索が、我々の多人数討論システムと比較される。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:33:08 GMT)
Threshold-less and Flexibly Tunable Frequency Comb via Floquet Engineering [7.4] 周波数コム-フロケット共振器共振器共振器共振器の周波数コムについて提案する。
キャビティの共振周波数を周期的に変調することにより、複数の等間隔周波数成分を有するフロケットキャビティを作成する。
カーオメカニカルコムと比較して、このアプローチはキャビティの内在周波数から遠く離れたポンプ信号のコンブを効率よく生成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:11:49 GMT)
Decom-Renorm-Merge: Model Merging on the Right Space Improves Multitasking [7.4] 本稿では,重み行列を整列結合空間に分解・コーディネートするために特異値分解を利用する,単純かつ効果的な手法であるデコム・リノルム・マージ(DRM)を提案する。
実験の結果,DRMは完全微調整および低ランク適応設定において,最先端のマージ技術よりも優れていた。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:37:53 GMT)
Instance-dependent Convergence Theory for Diffusion Models [7.2] 我々は、異なる対象分布の滑らかさに適応する収束率を開発し、これをインスタンス依存境界と呼ぶ。
さらに、$L$は緩和されたリプシッツ定数を表し、ガウス混合モデルの場合、成分の数と対数的にしかスケールしない。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:33:03 GMT)
JAPAN: Joint Adaptive Prediction Areas with Normalising-Flows [7.2] コンフォーマル予測は、有限サンプルの妥当性を保証する不確実性定量化のためのモデルに依存しないフレームワークを提供する。
既存のアプローチは通常、幾何的制約を課す残差ベースの整合性スコアに依存する。
本稿では,密度に基づく適合度スコアを用いた共形予測フレームワークである日本(Joint Adaptive Prediction Areas with Normalising-Flows)を紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:34:51 GMT)
Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.2] モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:45:18 GMT)
Synthetic Document Question Answering in Hungarian [7.1] 本稿では,HuDocVQAとHuDocVQAを用いた文書VQAデータセットを提案する。
データセットの品質を検証するために、これらのデータセットの混合による微調整が、Llama 3.2 11BのHuDocVQAの精度を+7.2%向上することを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:34:36 GMT)
Carbon-Efficient 3D DNN Acceleration: Optimizing Performance and Sustainability [7.1] 3D統合はパフォーマンスを向上させるが、持続可能性の問題をもたらす。
本稿では3次元加速器の炭素効率設計手法を提案する。
提案手法は,高い計算精度を維持しつつ,シリコン面積と製造オーバーヘッドを効果的に低減する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:57:22 GMT)
Quantum computing and artificial intelligence: status and perspectives [6.9] 量子コンピューティングが革新的なAIソリューションの開発を支援する方法について説明している。
また、量子技術の研究と開発を促進することができる古典的なAIのユースケースについても検討している。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:15:23 GMT)
INRFlow: Flow Matching for INRs in Ambient Space [6.9] フローマッチングモデルは、まずデータ圧縮機を訓練し、その後、データ圧縮機の潜在空間でフローマッチング生成モデルを訓練する。
この2段階のパラダイムは、データドメイン全体にわたってモデルを統一するための障害を設定する。
InRFlowは、周辺空間で直接フローマッチング変換器を学習するためのドメインに依存しないアプローチである。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:03:51 GMT)
Differential Gated Self-Attention [6.9] マルチヘッド差分ゲーテッド・セルフアテンションは、ヘッドごとの入力依存ゲーティングを学習し、注意雑音を動的に抑制する。
筆者らの貢献は, 側方抑制を基礎とした自己保持のための新たな入力依存型ゲーティング機構, (ii) 生物学的コントラスト増強と自己保持理論の原理的合成, (iii) 耐雑音性およびクロスドメイン適用性を示す総合的な実験である。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:52:56 GMT)
BiBLDR: Bidirectional Behavior Learning for Drug Repositioning [6.8] 薬物再配置は、新しい薬物の開発に伴う時間と費用を削減するために、既存の薬物に対する潜在的な新しい徴候を特定することを目的としている。
薬物再配置のための双方向行動学習戦略(BiBLDR)を提案する。
この革新的な枠組みは、薬物と薬物の相互作用パターンを捉えるための行動シーケンシャルな学習課題として、薬物再配置を再定義する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:20:15 GMT)
PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.8] 手動浸透試験は時間と費用がかかる。
大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。
我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:48:08 GMT)
The challenge of hidden gifts in multi-agent reinforcement learning [6.8] 隠れギフトが与える影響について,非常に単純なMARLタスクを用いて検討する。
このタスクでは、グリッドワールド環境内のエージェントは、個々の報酬を得るために、個別のドアをアンロックする。
我々は、MARLアルゴリズムを含むいくつかの最先端RLアルゴリズムが、この単純なタスクにおいて集団報酬を得る方法を学ぶことができないことを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:37:25 GMT)
Unsupervised Transcript-assisted Video Summarization and Highlight Detection [6.8] 本稿では,ビデオフレームとその対応する文字起こしを活用して,より凝縮したビデオを生成するマルチモーダルパイプラインを提案する。
パイプラインはRLフレームワーク内でトレーニングされ、多彩で代表的な要約を生成するモデルに報酬を与える。
実験の結果,映像の要約やハイライト検出における転写文字の使用は,映像の視覚的内容にのみ依存するよりも優れた結果が得られることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:16:19 GMT)
Quantum Langevin theory for two coupled phase-conjugated electromagnetic waves [6.8] 2つの位相共役光場の雑音に対する複素値非線形結合係数の影響はこれまでにも疑問視されていない。
量子ランゲヴィン方程式を用いて線形ゲイン・アンド・ロス、複素位相ミスマッチ、複素非線形結合係数の影響を光子対(光子対)生成に応用する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:23:46 GMT)
Revisit CP Tensor Decomposition: Statistical Optimality and Fast Convergence [6.7] 統計学的観点からカノニカルポリアディクス(CP)テンソル分解を再検討する。
本稿では,信号+雑音モデルに基づくAlternating Least Squares(ALS)の包括的理論的解析を行う。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:42:03 GMT)
Optimal Protocols for Continual Learning via Statistical Physics and Control Theory [6.7] ニューラルネットワークは、複数のタスクを逐次学習する際に、破滅的な忘れに苦しむことが多い。
近年の理論的研究は、学習プロトコル下での合成フレームワークにおける学習曲線の分析によってこの問題に対処している。
このギャップを、統計物理技術を用いて導出したトレーニング力学の正確な方程式と最適制御法を組み合わせることで埋める。
我々の理論的分析は、破滅的な忘れを緩和するための非自明で解釈可能な戦略を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:27:57 GMT)
FutureGen: LLM-RAG Approach to Generate the Future Work of Scientific Article [6.7] 本研究は,関連論文とともに,学術論文の重要部分から今後の研究提案を生成する。
様々な大規模言語モデル (LLM) とRAG(Retrieval-Augmented Generation) を統合して, 生成プロセスを改善する実験を行った。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:23:48 GMT)
Avoid Forgetting by Preserving Global Knowledge Gradients in Federated Learning with Non-IID Data [6.7] FedProjは、グローバルな意思決定境界をしっかりと学習し、ローカルトレーニング中に忘れることを避ける、連邦学習フレームワークである。
本稿では,ローカルトレーニングの各段階における勾配更新を規制するために,公開されていないデータセット上での平均アンサンブルロジットのエピソードメモリを活用することを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:56:25 GMT)
Evaluating the Efficacy of LLM-Based Reasoning for Multiobjective HPC Job Scheduling [6.6] 大規模言語モデル(LLM)ベースのスケジューラはReActスタイルのフレームワークを使用する(Reason + Act)
Systemはスクラッチパッドメモリを内蔵し、スケジューリング履歴を追跡し、自然言語のフィードバックを通じて決定を洗練する。
我々は,OpenAI の O4-Mini と Anthropic の Claude 3.7 を用いて,実世界の7つの HPC ワークロードシナリオに対してアプローチを評価した。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:25:29 GMT)
EAD: An EEG Adapter for Automated Classification [6.6] EEG Adapter (EAD) は、任意の信号取得デバイスと互換性のある柔軟なフレームワークである。
分類タスクにおいて,脳波データからロバストな表現を学習するために,適応度の高い最近の脳波モデルを活用する。
我々は、EEG-ImageNetとBrainLatでそれぞれ99.33%と92.31%の最先端の精度を達成する2つの公開データセットでEADを評価した。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:21:06 GMT)
SimGRAG: Leveraging Similar Subgraphs for Knowledge Graphs Driven Retrieval-Augmented Generation [6.6] そこで我々はSimGRAG(Simisal Graph Enhanced Retrieval-Augmented Generation)法を提案する。
クエリテキストとナレッジグラフの整合性という課題に効果的に対処する。
SimGRAGは、質問応答と事実検証において最先端のKG駆動RAG法より優れている。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:58:17 GMT)
Long-Lived Photon Blockade with Weak Optical Nonlinearity [6.5] 従来の光子遮断では、複数の光子によるキャビティモードの占有は、強い光非線形性によって抑制される。
いくつかの空洞寿命の大きな時間窓上で光子遮断を実現する方法を提案する。
LLPB現象は、弱い光学非線形性を持つ材料を利用した単一光子源の開発に役立つ可能性がある。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:24:48 GMT)
Graph Random Walk with Feature-Label Space Alignment: A Multi-Label Feature Selection Method [6.5] 特徴次元の急速な成長は、多ラベルデータセットの特徴とラベルの間に暗黙の関連をもたらす可能性がある。
既存の手法では、しばしば低次元線形分解を用いて特徴とラベルの関係を探索する。
本稿では,特徴-特徴,ラベル-ラベル関係,特徴-ラベル関係を統合したランダムウォークグラフを含む革新的な解を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:28:02 GMT)
Probing Politico-Economic Bias in Multilingual Large Language Models: A Cultural Analysis of Low-Resource Pakistani Languages [6.5] 本稿では、パキスタンで話されている5つの低リソース言語を対象とした、13の大規模言語モデル(LLM)における政治的バイアスの体系的分析について述べる。
本手法は、経済(右派)と社会(リバタリアン・権威主義)の軸間の政治的指向の定量的評価と、内容、スタイル、強調を通じてのフレーミングの質的分析とを組み合わせる。
その結果, LLMは欧米の訓練データの影響を反映しながら, リベラル左派と概ね一致しているが, 地域言語における権威主義的フレーミングへの顕著な変化がみられた。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:15:42 GMT)
MCTSr-Zero: Self-Reflective Psychological Counseling Dialogues Generation via Principles and Adaptive Exploration [6.4] オープンエンドな人間中心対話のためのフレームワークであるMCTSr-Zeroを紹介する。
中心となるイノベーションは"ドメインアライメント"であり、MCTS検索の目的をシフトさせる。
マルチターン心理カウンセリング対話の評価のためのベンチマークであるPsyEvalについても紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:30:15 GMT)
Single Domain Generalization for Alzheimer's Detection from 3D MRIs with Pseudo-Morphological Augmentations and Contrastive Learning [6.4] この記事では、単一領域の一般化設定に焦点を当てる。
脳形態学はアルツハイマーの診断において重要な役割を担っていることが知られているため、学習可能な擬似形態学モジュールの使用を提案する。
3つのデータセットで実施された実験では、パフォーマンスと一般化能力が改善された。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:07:49 GMT)
Multimodal Inverse Attention Network with Intrinsic Discriminant Feature Exploitation for Fake News Detection [6.4] マルチモーダルフェイクニュース検出は、社会保障に深く影響しているため、大きな注目を集めている。
本稿では,ニュースコンテンツに基づく固有識別特徴を探索し,偽ニュース検出を推し進める新しい枠組みを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:33:39 GMT)
Adaptive finite element type decomposition of Gaussian processes [6.4] コンパクトに支持された基底関数の線形結合をとることによって得られる近似ガウス過程(GP)のクラスについて検討する。
固定された滑らか度パラメータによるSPDE関連手法は,基本関数数や帯域幅の選択にも拘わらず,最適以下となることを示す。
逆に,基本関数の個数に適切な事前を置けば,後続のアプローチは根底にある真の関数のすべてのレベルに対して適応的に速度-最適となることを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:18:33 GMT)
Measuring topological invariants of even-dimensional non-Hermitian systems through quench dynamics [6.3] 非エルミート的(NH)トポロジカル不変量(英語版)は、NHトポロジカル位相の研究において中心的な役割を果たす。
等次元系におけるNH位相不変量を直接測定するための一般的な枠組みを提案する。
熱処理後のスピンテクスチャから構築した動的場の巻線パターンからNHトポロジカル不変量を抽出できることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:41:09 GMT)
Generalizability vs. Counterfactual Explainability Trade-Off [6.3] 我々は、$varepsilon$-valid反実確率(varepsilon$-VCP)の概念を導入する。
モデルオーバーフィットにより, $varepsilon$-VCP は増加する傾向にある。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:17:59 GMT)
Enhancing the sensitivity of quantum optomechanical gyroscope by optical Kerr effect [6.3] 光カー効果による量子光学ジャイロスコープ(QOMG)の感度を高めるための理論的スキームを提案する。
カー相互作用はQOMGの感度を著しく向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:59:22 GMT)
Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.3] 本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。
提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。
実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:06:14 GMT)
NACHOS: Neural Architecture Search for Hardware Constrained Early Exit Neural Networks [6.3] Early Exit Neural Networks(EENN)は、Early Exit(EEC)を備えた非標準ディープニューラルネットワーク(DNN)を提供する
本研究は,ハードウェア制約付き早期排他ニューラルネットワーク(NACHOS)のためのニューラルアーキテクチャ探索である。
NACHOSは、推論時にEENNが実行する乗算および累積(MAC)操作の精度と数に制約を満たす最適なEENNを設計するための最初のNASフレームワークである。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:16:42 GMT)
Global optimization of graph acquisition functions for neural architecture search [6.3] グラフベイズ最適化は、ニューラルネットワーク探索(NAS)のための強力でデータ効率のよいツールとしての可能性を示している。
本稿では,到達性や最短経路などの特性を含むグラフ入力空間の明示的な最適化式を提案する。
提案した符号化がグラフ空間の等価表現であることを理論的に証明し、ノードまたはエッジラベルを持つNAS領域に制限を与える。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:46:29 GMT)
SIM: A mapping framework for built environment auditing based on street view imagery [6.2] 構築された環境監査は、都市部と農村部の物理的、社会的、および環境特性の体系的な文書化と評価を指す。
Googleストリートビューは、リモートで構築された環境監査を行うために広く利用されているデータソースになっている。
ディープラーニングとコンピュータビジョン技術は、ストリートイメージからオブジェクトを抽出し、分類し、監査の生産性を高める。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:43:03 GMT)
LEAVS: An LLM-based Labeler for Abdominal CT Supervision [6.2] LEAVSは腹部ビジョン・スーパービジョンのための大きな言語モデルである。
腹部X線検査では,9例の腹部臓器に7種類の異常が認められた。
腹腔内臓器のいくつかの異常型を抽出し、平均F1スコアは0.89であり、競合するラベルや人間よりも著しく優れている。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:12:13 GMT)
Dc-EEMF: Pushing depth-of-field limit of photoacoustic microscopy via decision-level constrained learning [6.2] 光音響顕微鏡(OR-PAM)はフィールド深度制限(DoF)によって妨害される
そこで本稿では,PAMのDoF限界を押し上げるために,Dc-EEMF(Decision-level constrained end-to-end multi-focus image fusion)を提案する。
DC-EEMF法は, アーティファクト耐性チャネルワイド空間周波数を特徴融合規則として組み込んだ, 軽量シムネットワークである。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:17:52 GMT)
Representing local protein environments with atomistic foundation models [6.1] 原子基盤モデル(AFM)の中間的特徴から得られた局所タンパク質環境の表現法を提案する。
AFMから導かれる表現空間は有意義な構造を示し、データ駆動の事前構築を可能にする。
生体分子NMR分光法(英語版)の文脈において、提案された表現により、第一種物理学インフォームド化学シフト予測器が実現できることを実証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:25:47 GMT)
Promptus: Can Prompts Streaming Replace Video Streaming with Stable Diffusion [6.1] 本稿では,ビデオコンテンツの代わりにプロンプトをストリーミングするディスラプティブ通信システムPromptusを提案する。
実際のビデオフレームを、配信用に一連の"prompts"で表現し、受信機でビデオを生成するためにStable Diffusionを使用している。
我々の研究は、効率的なビデオ通信のための新しいパラダイムを開拓する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:27:33 GMT)
ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning [6.1] ReinFlowは、継続的ロボット制御のためのオンライン強化学習フレームワークである。
学習可能なノイズをフローポリシーの決定論的パスに注入し、フローを離散時間マルコフプロセスに変換する。
代表的な移動と操作タスクでReinFlowをベンチマークします。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:18:07 GMT)
SCORPIO: Serving the Right Requests at the Right Time for Heterogeneous SLOs in LLM Inference [6.0] 既存のLarge Language Model (LLM) サービスシステムは最大スループットを優先する。
SCORPIOはSLO指向のLLMサービスシステムであり、異種SLOのワークロードに対するシステム出力とSLO達成を最大化するように設計されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:03:09 GMT)
Performance Guaranteed Poisoning Attacks in Federated Learning: A Sliding Mode Approach [6.0] 本稿では,フェデレートラーニング・スライディング・アタック(FedSA)と呼ばれる新たな攻撃手法を提案する。
FedSAは、微妙に制御された方法で毒の程度を正確に導入することを目指している。
悪意のあるクライアントからの更新を操作して,グローバルモデルを妥協状態へと駆動することが可能になる。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:20:42 GMT)
DINGO: Constrained Inference for Diffusion LLMs [6.0] 拡散モデルは、ユーザが指定した形式的な制約を確実に強制する能力に欠ける。
本稿では,動的プログラミングに基づく動的復号化戦略であるINGOを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:04:54 GMT)
Collaborative Last-Mile Delivery: A Multi-Platform Vehicle Routing Problem With En-route Charging [5.9] 本研究は、ドローンとロボットによる新しい多プラットフォーム車両ルーティング問題を紹介する。
トラックが$mathcalM$、ドローンが$mathcalN$、ロボットが$mathcalK$を共同で配達する。
トラックはモバイルプラットフォームとして機能し、ドローンやロボットの起動、回収、ルートの充電を可能にする。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:58:01 GMT)
LVLM-COUNT: Enhancing the Counting Ability of Large Vision-Language Models [5.9] 大規模視覚言語モデル(LVLM)は、タスクの数え上げに苦慮していることが知られている。
多数のオブジェクトに対するLVLMのカウント能力を向上する,シンプルで効果的なベースライン手法を提案する。
このアプローチの有効性を,さまざまなデータセットやベンチマークで実証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:10:34 GMT)
From Theory to Application: Fine-Tuning Large EEG Model with Real-World Stress Data [5.8] 大学院生の教室で収集した実世界ストレス分類データセットを用いて,LaBraMの微調整による大脳波モデル(LEM)の有効性を評価する。
最高のパフォーマンスの微調整モデルでは、5秒のウィンドウで90.47%のバランスの取れた精度が得られる。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:40:20 GMT)
BeaverTalk: Oregon State University's IWSLT 2025 Simultaneous Speech Translation System [5.7] BeaverTalkは、IWSLT 2025の同時翻訳タスクの一部として、音声からテキストへの翻訳を行うカスケードシステムである。
システムアーキテクチャでは、音声ストリームをセグメントに分割するためのVADセグメンタ、自動音声認識(ASR)のためのWhisper Large V2、同時翻訳のためのGemma 3 12Bが採用されている。
システムは低レイテンシと高レイテンシの両方の体制において、英語$rightarrow$Germanおよび英語$rightarrow$ Chinese language directionに参加した。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:34:49 GMT)
Radiant Triangle Soup with Soft Connectivity Forces for 3D Reconstruction and Novel View Synthesis [5.7] 本稿では, 形状と外観を表現するために, 三角形を用いた推定時間最適化フレームワークを提案する。
現在の3Dシーン表現の最も広く使われているプリミティブ、すなわちガウスのスプラッターと比較すると、三角形はより表現力のある色を可能にする。
我々は、最適化中に三角形間の接続力を定式化し、3次元における明示的だが柔らかい表面の連続性を奨励する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:50:28 GMT)
mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation [5.6] LVLM(Large Vision-Language Models)は、視覚的質問応答、視覚的接地、複雑な推論といったマルチモーダルなタスクにおいて顕著な進歩を遂げている。
Retrieval-Augmented Generation (RAG)は、LVLMが検索機構を介して大規模知識データベースにアクセスできるようにすることにより、これらの課題を軽減するための実用的なソリューションを提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:32:03 GMT)
Child-Directed Language Does Not Consistently Boost Syntax Learning in Language Models [5.6] 英語の児童指向言語(CDL)で訓練された言語モデルは、成人向けテキストの多量化に基づいて訓練されたLMと同様の構文能力に達することを示す。
我々は、CDLとウィキペディアで訓練されたモデルを、2つのLM目標(masked and causal)、3つの言語(英語、フランス語、ドイツ語)、3つの構文的最小ペアベンチマークで比較することによって、これを検証した。
これらのベンチマークの結果,CDLの非一貫性の利点が示され,ほとんどの場合,ウィキペディアモデルよりも優れていた。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:25:36 GMT)
Efficient Parameter Estimation for Bayesian Network Classifiers using Hierarchical Linear Smoothing [5.6] 本稿では,HDPの挙動を近似するために,対数線形回帰を用いたパラメータ推定手法を提案する。
線形モデルとして,本手法は驚くほど柔軟で解釈が簡単であり,線形モデル学習における膨大な文献を活用することができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:30:13 GMT)
VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos [5.5] 我々は,AIGCビデオ上でMLLMの能力を総合的に評価するために,4つのタスクコヒーレンス検証,エラー認識,エラー型検出,推論評価を導入するVF-Evalという新しいベンチマークを提案する。
VF-Eval上での13のフロンティアMLLMを評価し、最高のパフォーマンスモデルであるGPT-4.1でさえ、全てのタスクにおいて一貫して優れたパフォーマンスを達成するのに苦労していることを発見した。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:31:13 GMT)
Surveying the space of descriptions of a composite system with machine learning [5.5] 本研究では,複合システムの組織構造を窓として記述可能な連続空間について検討する。
本稿では,組織の特徴付けに使用する鍵情報理論量を最大化する記述を最適化する機械学習フレームワークを提案する。
機械学習を複合確率変数の詳細な情報理論解析に組み込むことで、実世界の複雑なシステムの構造を探索するための新たな道を開く。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:24:43 GMT)
VITON-DRR: Details Retention Virtual Try-on via Non-rigid Registration [5.5] 本稿では,多種多様なポーズに対する高精度な非剛性登録(VITON-DRR)による仮想試行法を提案する。
具体的には,2つのピラミド構造を持つ特徴抽出器を用いて,人間のセマンティックセグメンテーションを再構築する。
そして、新規な変形モジュールを、布のキーポイントを抽出し、正確な非剛性登録アルゴリズムによってワープするように設計する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:38:21 GMT)
Hierarchical Bayesian Knowledge Tracing in Undergraduate Engineering Education [5.4] 本研究は,スキルの難易度と個人学生の能力の両面を定量化するために,厳密で解釈可能な統計的アプローチを示す。
大学生のStaticsコースからの大規模データセットを用いて、スキル習得の明確なパターンを特定した。
分析の結果,特定の概念が常に課題を呈し,目標とする指導支援が必要であることが明らかとなった。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:06:34 GMT)
Quantum Signatures of Chaos in Anisotropic Quantum Rabi Model [5.3] ここでは、線形エンタングルメントエントロピーと異方性量子 Rabi モデルにおける半古典位相空間構造との良好な対応が見つかる。
OTOCの指数的成長は、量子系におけるOTOCの指数的成長をもたらす新しいメカニズムを提供する量子崩壊に起因する。
その結果、異方性量子Rabiモデルでは、線形エンタングルメントエントロピーとLoschmidtエコーは、量子カオス信号の診断にOTOCよりも有効であることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:46:44 GMT)
Accelerating RLHF Training with Reward Variance Increase [5.3] 人間からのフィードバックからの強化学習(RLHF)は、学習後の段階において、大きな言語モデル(LLM)が人間の価値観や嗜好と一致していることを保証するための重要な技術である。
本稿では,報酬分散を良好に増加させ,相対的な選好報酬期待値を維持することで,成功度HFトレーニングを加速する報奨調整モデルを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:54:06 GMT)
i$^2$VAE: Interest Information Augmentation with Variational Regularizers for Cross-Domain Sequential Recommendation [5.3] i$2$VAEは、情報ベースレギュレータによるユーザ関心学習を強化する変分オートエンコーダである。
実験により、i$2$VAEは最先端の手法より優れていることが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:27:50 GMT)
Pulse Design of Baseband Flux Control for Adiabatic Controlled-Phase Gates in Superconducting Circuits [5.3] 2量子ゲートは、大規模量子コンピュータの実現のボトルネックであり続けている。
超伝導量子ビットにおける2量子ゲートの1つのタイプは、制御相(CPHASE)ゲートである。
チェビシェフをベースとした軌道は、ある場合においてゲートの不忠実度を平均23.3%下げることができることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:22:25 GMT)
On the Validity of Head Motion Patterns as Generalisable Depression Biomarkers [5.3] 本研究は,うつ病重症度推定のための基本頭部運動単位を用いたモデルの有効性と一般性について検討する。
異なる西欧文化からの3つの抑うつデータセットを考察し, キネムパターンの一般化可能性について検討した。
1) 頭部運動パターンは, 抑うつの重症度を推定するための効果的なバイオマーカーであり, 分類と回帰の両タスクにおいて高い競争力を発揮する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:22:30 GMT)
EL4NER: Ensemble Learning for Named Entity Recognition via Multiple Small-Parameter Large Language Models [5.3] 大規模言語モデル(LLM)に基づくインコンテキスト学習(ICL)技術は、名前付きエンティティ認識(NER)タスクで注目されている。
我々は,NERタスクの全体的な性能を,より少ないデプロイメントと推論コストで向上させるために,EL4NER(Ensemble Learning Method for Named Entity Recognition)を提案する。
NER タスクに適した ICL デモ検索機構を確立するために,新しいスパンレベル文類似性アルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:25:14 GMT)
Joint estimation of smooth graph signals from partial linear measurements [5.2] 弱い一貫性は、個々の$G_t$sが非常に疎結合で非連結である場合でも、$G$の特定の選択に対して確立される。
結果は、$x_t$が$n$アイテムのコレクションの潜在強度に対応するマルチレイヤのランキング問題に拡張される。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:41:45 GMT)
Robustness-enhanced Myoelectric Control with GAN-based Open-set Recognition [5.2] 本稿では,筋電制御システムの堅牢性とユーザビリティを高めるために,GAN(Geneversarative Adrial Networks)に基づく新しいフレームワークを提案する。
GANベースの識別器を組み込んで未知の動作を識別・拒否し、誤分類を防止してシステムの安定性を維持する。
公開データセットと自己収集データセットの実験的評価は、未知のアクションを拒絶した後、既知のアクションに対する認識精度97.6%、アクティブエラーレート(AER)を23.6%改善したことを示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:39:27 GMT)
REDDIX-NET: A Novel Dataset and Benchmark for Moderating Online Explicit Services [5.2] REDDIX-NETは、オンライン性サービスのモデレーションに特化した新しいベンチマークデータセットである。
このデータセットは、Reddit上の何千ものウェブスクラッドNSFWポストから派生したものだ。
我々は最先端の大規模言語モデルの分類性能を評価する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:34:13 GMT)
Deep Modeling and Optimization of Medical Image Classification [5.2] 4つのCNNと8つのViTを画像エンコーダとして用いた新しいCLIP変異体を導入し,脳がんと皮膚がんの分類を行った。
従来の機械学習(ML)手法を用いて、未確認領域データにおける深層モデルの一般化能力を向上する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:27:51 GMT)
Quality assessment of 3D human animation: Subjective and objective evaluation [5.2] 我々は、新しいデータ駆動フレームワークを活用するための、最初の品質評価尺度を導入する。
まず、仮想人間アニメーションのデータセットと、それに対応する主観的リアリズム評価スコアを生成する。
次に、得られたデータセットを用いて知覚評価スコアの予測を学習する。
その結果,我々のデータセット上で線形回帰器をトレーニングすると90%の相関関係が得られ,その相関関係が深層学習ベースラインの状態を上回ります。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:58:53 GMT)
Accelerating AllReduce with a Persistent Straggler [5.2] StragglARは、永続的なストラグラーの存在下で、分散トレーニングと推論を加速するAllReduceアルゴリズムである。
8-GPUサーバ上では、StragglARの実装は最先端のAllReduceアルゴリズムよりも22%高速化される。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:03:56 GMT)
Optimizing Token Consumption in LLMs: A Nano Surge Approach for Code Reasoning Efficiency [5.0] Chain of Thought (CoT)推論は、コードの自動修復に欠かせないアプローチとなっている。
CoTはトークン消費を大幅に増加させ、推論効率を低下させ、計算コストを上昇させる。
本稿では,コンテキスト認識,責任調整,コスト感の3つの最適化手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:29:37 GMT)
Spatio-Temporal Joint Density Driven Learning for Skeleton-Based Action Recognition [4.9] 本稿では,空間時空間関節密度(STJD)と呼ばれる新しい計測手法を提案する。
作用を通してこの密度の進化を追跡することは、識別的移動および/または静的関節の部分集合を効果的に特定することができる。
STJD-CLと呼ばれる新しい対照的な学習戦略が提案され、骨格配列の表現をその素関節の表現と整合させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:40:47 GMT)
DiffER: Categorical Diffusion for Chemical Retrosynthesis [4.9] DiffERは、カテゴリー拡散の形での逆合成予測のための代替的なテンプレートフリーな手法である。
本研究では,トップ1の精度とトップ3,トップ5,トップ10の精度の競争性能を実現する拡散モデルのアンサンブルを構築する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:53:37 GMT)
Minimal Sufficient Views: A DNN model making predictions with more evidence has higher accuracy [4.8] 考えられる仮説は、ディープニューラルネットワーク(DNN)が画像から複数の証拠を識別することで、堅牢で正確な予測を達成しているということである。
本研究は、この仮説をテストするのに十分な最小のビュー(MSV)を提案する。
MSVは、DNNの予測を保存するのに十分な入力画像内の最小領域の集合として定義される。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:09:08 GMT)
Weakly-supervised Localization of Manipulated Image Regions Using Multi-resolution Learned Features [4.8] 現在のディープラーニングに基づく操作検出手法は、高い画像レベルの分類精度を達成するのに優れている。
実世界のシナリオにおけるピクセルワイズアノテーションの欠如は、既存の完全に制御された操作ローカライゼーション技術を制限する。
本稿では,画像レベルの操作検出ネットワークが生成するアクティベーションマップと,事前学習したモデルからのセグメンテーションマップを統合する,弱教師付きアプローチを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:58:29 GMT)
BugRepro: Enhancing Android Bug Reproduction with Domain-Specific Knowledge Integration [4.8] BugReproは、バグ再現の正確性と効率を高めるために、ドメイン固有の知識を統合する新しいテクニックである。
BugReproは2つの最先端メソッドを著しく上回っている。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:03:01 GMT)
What's In Your Field? Mapping Scientific Research with Knowledge Graphs and Large Language Models [4.8] 大規模言語モデル(LLM)は、大きな仕事の全体にわたる詳細な関係を捉えることができない。
構造化された表現は、自然に補完する -- コーパス全体にわたって体系的な分析を可能にする。
文献全体に関する正確な質問に答えるシステムを試作する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:22:31 GMT)
A Hassle-free Algorithm for Private Learning in Practice: Don't Use Tree Aggregation, Use BLTs [4.7] 本稿では,最近導入されたBuffered Linear Toeplitz (BLT) メカニズムをマルチ参加シナリオに拡張する。
我々のBLT-DP-FTRLは、木集約の使いやすさを維持しつつ、実用性とプライバシの観点から行列の分解にほぼ一致する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:44:31 GMT)
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers [4.7] 本稿では,LoRAモデルを用いたマルチコンセプト画像編集のための最初のフレームワークであるLoRAShopを紹介する。
LoRAShopは、Fluxスタイルの拡散トランスフォーマー内の機能相互作用パターンに関する重要な観察の上に構築されている。
LoRAShopは、トレーニングや外部の制約をなくすことで、パーソナライズされた拡散モデルを、実用的なPhotoshop-with-LoRAsのツールに変える。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:46 GMT)
Agent-UniRAG: A Trainable Open-Source LLM Agent Framework for Unified Retrieval-Augmented Generation Systems [4.7] 本稿では,最近の大規模言語モデル (LLM) エージェントの概念を用いたRAGシステムに対する新しいアプローチを提案する。
本稿では,統合検索拡張LLMシステムのためのエージェントUniRAGと呼ばれるトレーニング可能なエージェントフレームワークを提案する。
主なアイデアは、入力の複雑さに基づいてRAGタスクを段階的に解決するLLMエージェントフレームワークを設計することである。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:52:23 GMT)
Position: Federated Foundation Language Model Post-Training Should Focus on Open-Source Models [4.7] 基礎言語モデルのポストトレーニングは、フェデレートラーニング(FL)における有望な研究領域として浮上している。
この領域の最近の進歩は、ブラックボックス基礎言語モデルの上に構築された集中的なポストトレーニングアプローチを採用する。
我々の立場では、FLにおけるブラックボックスモデルの使用は、データプライバシや自律性といったフェデレーションの原則とは矛盾している。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:04:39 GMT)
Prompt Engineer: Analyzing Skill Requirements in the AI Job Market [4.7] 我々は、エンジニア72名を含む、LinkedIn上の20,662件の求人情報を分析した。
私たちは、プロンプトエンジニアリングは、まだ珍しい(サンプルのジョブ投稿の0.5%未満)が、ユニークなスキルプロファイルを持っていることに気付きました。
プロンプトエンジニアはAI知識(22.8%)、設計スキル(18.7%)、優れたコミュニケーション(21.9%)、創造的な問題解決スキル(15.8%)を必要とする。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:11:23 GMT)
Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts [4.6] ScMoEは、重複する並列化戦略と統合された新しいショートカット接続型MoEアーキテクチャである。
一般的なトップ2のMoEベースラインと比較して、ScMoEはトレーニングで1.49倍、推論で1.82倍のスピードアップを達成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:25:16 GMT)
Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents [4.6] 本稿では,自己改善型AIであるDarwin G"odel Machine(DGM)を紹介する。
ダーウィンの進化とオープンエンドネスの研究に触発されたDGMは、生成されたコーディングエージェントのアーカイブを維持している。
エージェントをサンプリングし、ファンデーションモデルを使用して、サンプルされたエージェントの新しい、興味深いバージョンを作成することで、アーカイブを成長させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:26:15 GMT)
Actor-Critic based Online Data Mixing For Language Model Pre-Training [4.6] 事前学習データのカバレッジと構成は、大規模言語モデル(LLM)の一般化能力に大きな影響を及ぼす
本研究では,アクタ・アクタ・アクタ・アクタ・アクタ・アクタ・オンライン・データ・ミキシング(AC-ODM)手法を開発した。
数値計算の結果,410Mパラメータを持つプロキシLDMで得られたサンプリング戦略を起動するAC-ODM-410Mは,ODMの最適検証難易度に早く到達することがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:41:35 GMT)
Comparative assessment of fairness definitions and bias mitigation strategies in machine learning-based diagnosis of Alzheimer's disease from MR images [4.6] 本研究では,MCIとアルツハイマー病(AD)の診断のための機械学習モデル(ML)の公平性解析をMRIによる神経画像特徴から行う。
マルチコホートデータセットにおける年齢,人種,性別に関連するバイアスについて検討した。
その結果、年齢や人種に関連するバイアスの存在が明らかとなったが、有意な性別バイアスは観察されなかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:07:19 GMT)
DATD3: Depthwise Attention Twin Delayed Deep Deterministic Policy Gradient For Model Free Reinforcement Learning Under Output Feedback Control [4.5] 実世界のアプリケーションにおける強化学習は、エージェントが部分的な状態情報のみを受け取る出力フィードバック設定を含むことが多い。
観測履歴に基づく意思決定に対応するため,標準MPPの定式化を拡張した出力フィードバックマルコフ決定プロセス(OPMDP)を提案する。
本稿では,DATD3(Depthwise Attention Twin Delayed Deep Deterministic Policy Gradient)について紹介する。
連続制御タスクの実験は、DATD3が既存のメモリベースおよびリカレントベースラインを部分的および完全の両方で上回ることを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:22:06 GMT)
From Parameters to Prompts: Understanding and Mitigating the Factuality Gap between Fine-Tuned LLMs [4.4] 未知の知識と未知の知識を微調整する際に生じる事実のギャップについて検討する。
我々の結果は、微調整データとテストタイムプロンプトの相互作用に光を当てた。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:59:30 GMT)
Foundation Models for Rapid Autonomy Validation [4.4] 重要な課題は、自動運転車が遭遇するあらゆる種類の運転シナリオでテストする必要があることだ。
本研究では,運転シナリオを再構築するための行動基礎モデル,特にマスク付きオートエンコーダ(MAE)の使用を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:47:20 GMT)
LLM-based Property-based Test Generation for Guardrailing Cyber-Physical Systems [4.4] サイバー物理システム(サイバー物理システム、CPS)は、物理、計算、通信サブシステムを統合する複雑なシステムである。
本稿では,Large Language Models (LLMs) が生成するプロパティベーステスト (PBTs) を用いたCPSの自動ガードレール手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:27:52 GMT)
Super-temporal-resolution Photoacoustic Imaging with Dynamic Reconstruction through Implicit Neural Representation in Sparse-view [4.3] Inlicit Neural Representation (INR)は、スパースデータによる逆問題解決のための強力なディープラーニングツールとして登場した。
本研究では、スパースビューからの動的光音響画像再構成を改善するためのINRに基づく手法を提案する。
提案したINRは、動的光音響画像を暗黙の関数として表現し、それらをニューラルネットワークにエンコードする。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:36:44 GMT)
CVOCSemRPL: Class-Variance Optimized Clustering, Semantic Information Injection and Restricted Pseudo Labeling based Improved Semi-Supervised Few-Shot Learning [4.3] 半教師付き数発の学習環境では、かなりの量のラベルなしサンプルが利用可能である。
このようなラベルのないサンプルは一般に入手しやすく、モデルの数発の学習性能を向上させるために使用できる。
本稿では,クラスタリングを改善するためにモデルが学習した表現の改善に焦点をあて,その結果,モデル性能について述べる。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:23:17 GMT)
Efficient Quantum Approximate $k$NN Algorithm via Granular-Ball Computing [4.3] リアルタイム複雑性は、$k$-Nearest Neighbors($k$NN)が直面する最大の課題の1つ
我々は、Granular-BallベースのQuantum $k$NN(GB-Q$k$NN)と呼ばれる革新的なアルゴリズムを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:16:29 GMT)
Synthesizing Performance Constraints for Evaluating and Improving Code Efficiency [4.3] We present WEDGE, a framework for performance-stressing input given the program under test。
WEDGEは、プログラムの実行空間をパフォーマンス固有の領域に分割するために、分岐条件の形で明示的なパフォーマンス特性制約を合成する。
評価の結果、WEDGEは、CodeContestsのテストや既存のアプローチによって最適化されていると主張されたテストと比較して、大幅にスローダウンしていることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:26:22 GMT)
Deep Retrieval at CheckThat! 2025: Identifying Scientific Papers from Implicit Social Media Mentions via Hybrid Retrieval and Re-Ranking [4.3] CLEF CheckThat! 2025コンペティションのサブタスク4bに対するDeep Retrievalチームの方法論と結果を示す。
本稿では,語彙的精度,意味的一般化,文脈的再ランク付けを併用したハイブリッド検索パイプラインを提案する。
提案手法は, 開発セットで76.46%, 隠されたテストセットで66.43%の平均相反ランクを5 (MRR@5) 達成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:55:39 GMT)
Multi-output Classification using a Cross-talk Architecture for Compound Fault Diagnosis of Motors in Partially Labeled Condition [4.3] 本研究では,部分ラベル付き(PL)ターゲットデータセットのドメイン適応に適した,新しいマルチアウトプット分類(MOC)フレームワークを提案する。
従来のマルチクラス分類(MCC)の手法とは異なり,提案したMOCフレームワークは複合断層の重大度レベルを同時に分類する。
本研究では,診断タスク間の情報共有を実現するクロストーク層構造を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:52:54 GMT)
A Gibbs Sampler for Efficient Bayesian Inference in Sign-Identified SVARs [4.2] 楕円スライスサンプリングをギブスサンプリング手法に組み込むことで,速度が劇的に向上することを示す。
楕円スライスサンプリングをギブスサンプリング手法に組み込むことで,速度が劇的に向上することを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:21:10 GMT)
Concurrent Composition for Interactive Differential Privacy with Adaptive Privacy-Loss Parameters [4.2] 本稿では,適応的に選択されたプライバシ-ロスパラメータを用いた対話機構の同時構成について検討する。
この設定では、相手はクエリを既存の対話メカニズムにインターリーブし、新しいものを作成することができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:49:48 GMT)
Grower-in-the-Loop Interactive Reinforcement Learning for Greenhouse Climate Control [4.2] 本稿では, 温暖化対策に不完全な入力を含む対話型RLの適用の可能性と性能について検討する。
ポリシーシェーピングや制御共有のようなアクション選択に影響を与えるRLアルゴリズムは、不完全な入力を扱う場合、より良い性能を発揮する。
対照的に、報酬関数を操作するアルゴリズムである報酬整形は、不完全な入力に敏感であり、利益の9.4%が減少する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:30:35 GMT)
Safety Implications of Explainable Artificial Intelligence in End-to-End Autonomous Driving [4.2] 本稿では,エンド・ツー・エンドの自動運転における説明の安全性への影響について述べる。
我々はまず、エンド・ツー・エンドの運転における安全性と説明可能性の概念を再考し、運転安全性の向上における説明の重要性を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:50:48 GMT)
Estimating Head Motion in Structural MRI Using a Deep Neural Network Trained on Synthetic Artifacts [4.1] 運動関連アーティファクトは磁気共鳴イメージング(MRI)では避けられず、皮質の厚みなどの自動神経解剖学的指標に偏りがある。
ここでは3次元畳み込みニューラルネットワークを訓練し、合成されたボリュームのみを用いて動きの重大度を推定する。
提案手法はスキャナーのブランドやプロトコルにまたがって一般化され,前向きな動作補正を伴わない構造MRI研究において,客観的かつスケーラブルな動作評価が可能となった。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:08:59 GMT)
Satellite Imagery and AI: A New Era in Ocean Conservation, from Research to Deployment and Impact (Version. 2.0) [4.0] イルガル、非報告、および非規制漁業(IUU)は、海洋生物にとって世界的脅威となる。
NASA、欧州宇宙機関(ESA)、アメリカ地質調査所(USGS)によって提供された衛星データにより、この活動は活発に監視される。
海面保全のために衛星データを効果的に活用するには、最小のレイテンシで世界中で運用される信頼性の高い機械学習モデルが必要である。
本稿では,Sentinel-1(合成開口レーダ),Sentinel-2(光学画像),Landsat 8-9(光学画像),Suomi-NPP/NOAA-20/NOAA-21(夜間光)の4種類の特殊なコンピュータビジョンモデルを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:39:41 GMT)
VLM-RRT: Vision Language Model Guided RRT Search for Autonomous UAV Navigation [4.0] 本稿では,視覚言語モデル(VLM)のパターン認識機能とRRT(Rapidly-Exploring Random Trees)の経路計画強度を統合するハイブリッドアプローチであるビジョン言語モデルRT(VLM-RRT)を提案する。
提案手法は, サンプリング効率と経路品質を著しく向上させるため, 実現可能な経路を含む可能性が高い領域に対してサンプリングをバイアスする。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:15:44 GMT)
A Bayesian Model Selection Criterion for Selecting Pretraining Checkpoints [4.0] 下流適応性を高める事前学習チェックポイントの特性について検討した。
我々は、チェックポイントの適応性を定量化する下流自由エネルギーと呼ばれるベイズモデル選択基準を導入する。
評価基準が微調整性能の向上と確実に相関することを示す実証的証拠を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:21:14 GMT)
Noise-Robustness Through Noise: Asymmetric LoRA Adaption with Poisoning Expert [3.9] ダウンストリームタスクに事前訓練された言語モデルを適用するための現在の微調整手法は、ノイズの多いデータからの干渉に影響を受けやすい。
非対称なロラ中毒専門家(LoPE)によるノイズロバスト適応手法を提案する。
LoPEは、低コストのノイズ注入によって、パフォーマンスとロバスト性を純粋に達成し、データクリーニングの必要性を完全に排除する。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:35:07 GMT)
Verify-in-the-Graph: Entity Disambiguation Enhancement for Complex Claim Verification with Interactive Graph Representation [3.9] グラフ表現 - 入力クレームは構造化三重項に分解され、構造化情報と非構造化情報の両方を統合するグラフベースの表現を形成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:02:55 GMT)
Information Structure in Mappings: An Approach to Learning, Representation, and Generalisation [3.8] この論文では、空間間の写像における体系的構造を特定するための定量的手法を紹介している。
マッピングに存在する構造的プリミティブと、それぞれの情報理論を識別します。
また、ベクトル空間のエントロピーを推定する新しい高性能なアプローチを導入し、この分析を100万から1200億のパラメータのモデルに適用する。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:27:50 GMT)
Learning Interpretable Differentiable Logic Networks for Tabular Regression [3.8] 微分論理ネットワーク(DLN)は解釈可能な推論を提供し、推論コストを大幅に削減する。
我々はDLNフレームワークを監督的回帰に拡張し、特に、最終的な出力層を再設計し、継続的な目標をサポートし、元の2段階トレーニング手順を1つの異なる段階に統一する。
以上の結果から,DLNは回帰タスク,特にモデルの透明性と計算効率が重要である場合において,実行可能で費用対効果の高い代替手段であることが示唆された。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:24:18 GMT)
Fusing Bidirectional Chains of Thought and Reward Mechanisms A Method for Enhancing Question-Answering Capabilities of Large Language Models for Chinese Intangible Cultural Heritage [3.8] 本稿では,思考の双方向連鎖と報酬機構を統合した新しい学習手法を提案する。
この手法は、無形文化財の分野に特化して設計された大きな言語モデルであるICH-Qwenに基づいている。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:27:23 GMT)
Multimodal Large Language Models: A Survey [3.8] MLLM(Multimodal Large Language Models)はテキスト生成を超えて急速に進化してきた。
本調査では,6つの主要な生成モダリティを分類し,基礎技術がクロスモーダル機能を実現する方法について検討する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:29:39 GMT)
Retrieval Augmented Generation based Large Language Models for Causality Mining [3.7] 因果検出とマイニングは情報検索において重要な課題である。
本稿では、因果検出および抽出タスクを強化するために、複数のRAGに基づく動的プロンプトスキームを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:51:00 GMT)
Of Mice and Machines: A Comparison of Learning Between Real World Mice and RL Agents [3.7] 近年の強化学習(RL)は,複雑な意思決定タスクにおいて顕著な能力を示した。
また, RL エージェントは自己保存本能の欠如を一貫して示し, 「死を危険にさらす」 と限界効率の向上を示唆している。
我々はRL剤のより自然主義的なリスク回避行動を促進する2つのメカニズムを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:03:47 GMT)
Machine-Facing English: Defining a Hybrid Register Shaped by Human-AI Discourse [3.7] マシン・フェーシング・イングリッシュ(MFE)は、AIインターロケータの存在拡大に日々の言語を適応させることによって形成された創発的なレジスタである。
本研究は,ヒトとAIの相互作用が統語的剛性,実践的単純化,超明示的表現を如何に正規化するかを追究する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:22:39 GMT)
Should We Simultaneously Calibrate Multiple Computer Models? [3.6] 多くのアプリケーションデザイナが複数のコンピュータモデルにアクセスできるようになっている。
伝統的にデザイナは、高忠実度データに対して、これらのモデルを1度にキャリブレーションする。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:28:22 GMT)
TRAP: Targeted Redirecting of Agentic Preferences [3.6] 本稿では,拡散型セマンティックインジェクションを用いてエージェントの意思決定を制御する,生成的敵対的フレームワークであるTRAPを紹介する。
提案手法は, 負のプロンプトに基づく劣化と正のセマンティック最適化を組み合わせ, シームズ意味ネットワークとレイアウト対応空間マスキングによって導かれる。
TRAPはLLaVA-34B、Gemma3、Mistral-3.1など主要なモデルで100%の攻撃成功率を達成した。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:57:16 GMT)
Conformal Object Detection by Sequential Risk Control [3.6] コンフォーマル予測(Conformal Prediction)は、任意のデータセットサイズに有効な統計的保証を提供する、ポストホックな手順である。
コンフォーマルオブジェクト検出(COD)の問題を正式に定義する。
本稿では,CRC(Conformal Risk Control)の統計的保証を2つのシーケンシャルタスクに拡張する,シークエンシャル・コンフォーマル・リスク・コントロール(SeqCRC)を提案する。
提案手法の再現とさらなる探索を可能にする共形ツールキットを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:19:01 GMT)
Knowledge Distillation for Reservoir-based Classifier: Human Activity Recognition [3.6] PatchEchoClassifierは、Echo State Network(ESN)として知られる貯水池ベースのメカニズムを活用する新しいモデルである。
このモデルは1次元センサ信号を用いた人間の活動認識(HAR)のために設計され、トークン化器を組み込んでパッチレベルの表現を抽出する。
複数のHARデータセットに対する実験により、我々のモデルは80%以上の精度を達成し、計算コストを大幅に削減することを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:48:36 GMT)
PBEBench: A Multi-Step Programming by Examples Reasoning Benchmark inspired by Historical Linguistics [3.6] 我々は,事例によるプログラミングとして定式化された,歴史的言語学にヒントを得た帰納的推論問題に焦点をあてる。
ほぼ1kのインスタンスでテストセットを生成します。
最良のモデル(Claude-3.7-Sonnet)は、わずか54%のパスレートを達成し、LCoT LLMが歴史的言語学においてユビキタスなクラスや推論といまだに苦労していることを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:51:16 GMT)
DeepRTE: Pre-trained Attention-based Neural Network for Radiative Tranfer [3.5] 我々は、定常放射移動方程式(RTE)に対処するために、DeepRTEと呼ばれる新しいニューラルネットワークアプローチを提案する。
提案するDeepRTEフレームワークは,事前学習した注意に基づくニューラルネットワークを利用して,RTEを高精度かつ計算効率で解く。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:28:36 GMT)
Temporal Relation Extraction in Clinical Texts: A Span-based Graph Transformer Approach [3.5] I2B22012の時間的関連課題コーパスを用いて臨床イベントとその時間的関係を抽出する課題に対処する。
本研究では,スパンベース実体関係抽出,臨床大言語モデル(LPLM),異種グラフ変換器(HGT)を統合した新しい手法である GraphTREX を紹介する。
この研究は、時間的情報抽出の進歩だけでなく、時間的推論の強化による診断および予後モデルの改善の基礎となる。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:56:54 GMT)
Adaptive Jailbreaking Strategies Based on the Semantic Understanding Capabilities of Large Language Models [3.5] 大規模言語モデル(LLM)に対するジェイルブレイク技術による敵攻撃は、AIセキュリティにおいて重要な課題として浮上している。
本稿では,大規模言語モデルの意味的理解能力に基づく適応的ジェイルブレーク戦略を提案する。
GPT-4oの脱獄率は98.9%である。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:50:57 GMT)
Deep Bayesian Filter for Bayes-faithful Data Assimilation [3.5] 非線形状態空間モデル(SSM)のデータ同化のためのディープベイズフィルタ(DBF)を提案する。
DBF は元の物理変数 $z_t$ に加えて新しい潜在変数 $h_t$ を構築し、観測値 $o_t$ を同化する。
物理空間上の真の後続分布がガウス的でないタスクにおいて,DBFはモデルベースアプローチや潜時同化手法よりも優れていることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:23:28 GMT)
Towards Logically Sound Natural Language Reasoning with Logic-Enhanced Language Model Agents [3.5] Logic-Enhanced Language Model Agents (LELMA) は、大きな言語モデルと形式論理を統合するフレームワークである。
LeLMAは自動形式化を用いて推論を論理表現に変換し、論理的妥当性を評価する。
LeLMAはエラー検出の精度が高く,自己修正による推論精度の向上を実現している。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:53:45 GMT)
Generative Agents for Multi-Agent Autoformalization of Interaction Scenarios [3.5] 本稿では,GAMA(Generative Agents for Multi-Agent Autoformalization)フレームワークを紹介する。
GAMAは大規模言語モデル(LLM)を付加したエージェントを用いたシミュレーションにおける相互作用シナリオの形式化を自動化する
5つの2x2同時移動ゲームにおける110の自然言語記述の実験では、GAMAは100%構文的、76.5%の意味的正当性を達成している。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:48:53 GMT)
OTPTO: Joint Product Selection and Inventory Optimization in Fresh E-commerce Front-End Warehouses [3.5] 倉庫は、新鮮な商品のタイムリーな配達を確保するため、住宅地に置かれている。
販売を予測し、在庫を決定する従来の予測最適化(PTO)手法は、しばしば在庫目標と予測を一致させません。
本稿では,製品選択と在庫管理を協調的に最適化するマルチタスク最適化-then-Predict-then-PTO手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:16:46 GMT)
Document-Level Text Generation with Minimum Bayes Risk Decoding using Optimal Transport [3.5] 文書レベルのテキスト生成タスクに対する最小ベイズリスク(MBR)デコードの適用について検討する。
MBRデコードでは、候補出力の集合から最も期待されたユーティリティで出力を推定するためにユーティリティ関数を利用する。
Wasserstein 距離を用いた MBR 復号法の一種である MBR-OT は文レベルユーティリティ関数を用いて文書の有用性を計算する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:34:04 GMT)
Cross-Modal Characterization of Thin Film MoS$_2$ Using Generative Models [3.5] 機械学習は、材料の成長とキャラクタリゼーションに対して、スピードと効率をガイドし、提供することができる。
本研究では,顕微鏡計測から定量的な測定値の投影の可能性について検討した。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:18:26 GMT)
BroadGen: A Framework for Generating Effective and Efficient Advertiser Broad Match Keyphrase Recommendations [3.5] 本研究は, 有効性と有効性の両方を重視した, 理想的なワイドマッチの基準を定義する。
そこで我々はBroadGenを提案する。BroadGenは,履歴検索クエリデータを利用して,効率的かつ効果的に一致したキーフレーズを推薦する,革新的なフレームワークである。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:45:19 GMT)
MedRAX: Medical Reasoning Agent for Chest X-ray [3.5] 胸部X線(CXR)は、疾患管理や患者のケアにおいて重要な決定を下す上で重要な役割を果たしている。
我々は、最先端のCXR分析ツールとマルチモーダルな大規模言語モデルをシームレスに統合した、初めての汎用AIエージェントであるMedRAXを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:45:45 GMT)
Circumventing shortcuts in audio-visual deepfake detection datasets with unsupervised learning [3.5] 私たちは、最も広く使われているオーディオビデオのディープフェイクデータセットの2つが、これまで特定されていなかった突発的な特徴である、主要な沈黙に悩まされていることを示しています。
フェイクビデオは、ごく短い沈黙の瞬間から始まり、この機能だけで、本物と偽のサンプルをほぼ完全に分離することができる。
本研究では,実データのみに基づく学習モデルによる教師なし学習から教師なし学習へのシフトを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:44:11 GMT)
Bridging the Gap: Enhancing Digital Accessibility for Medicaid Populations in Telehealth Adoption [3.4] 本論文は、メディケイド人口のデジタルアクセシビリティの背景にある重要な要因を解明し、これらの課題を根絶するための堅牢な解決策を提示することを目的とする。
論文では、アクセシビリティとユーザビリティの障害を明らかにする上で、医療専門家、政策立案者、および技術開発者のコラボレーションの重要性を強調している。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:15:13 GMT)
A blockchain-based intelligent recommender system framework for enhancing supply chain resilience [3.4] 本研究では,インテリジェントレコメンデータシステム技術に基づくデータ駆動型サプライチェーン破壊応答ベースラインフレームワークを提案する。
提案したIRSのデータ品質と信頼性を改善するため、ブロックチェーン技術はベースラインアーキテクチャに統合される。
開発されたBLC-IRSは、SCResコミュニティのための反応性SCRes尺度として、合成技術で実行可能なSCResデジタルソリューションを提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:46:30 GMT)
Loss-Guided Model Sharing and Local Learning Correction in Decentralized Federated Learning for Crop Disease Classification [3.3] 本稿では、検証損失(Loss_val)を用いて、ピア間のモデル共有を誘導し、重み付けパラメータによって制御される適応的損失関数を介して局所学習を補正する、分散型フェデレートラーニング(DFL)フレームワークを提案する。
その結果、DFLアプローチは精度と収束速度を向上するだけでなく、異種データ環境における一般化と堅牢性の向上も保証している。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:12:53 GMT)
What About Emotions? Guiding Fine-Grained Emotion Extraction from Mobile App Reviews [3.2] 本稿では,アプリレビューにおける微粒な感情分析の課題と限界について論じる。
我々の研究は、構造化アノテーションフレームワークとデータセットを開発することにより、Plutchikの感情分類をアプリレビューに適用する。
また,大規模言語モデルを用いた感情アノテーションの自動化の実現可能性についても検討した。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:58:38 GMT)
The CASE Framework -- A New Architecture for Participatory Research and Digital Health Surveillance [3.2] 本稿では,適応型文脈認識参加型研究のためのオープンソースプラットフォームであるCASEフレームワークを提案する。
CASEはイベント駆動アーキテクチャを実装しており、参加者の反応、外部データ、時間的条件、進化中のユーザ状態に基づくリアルタイム適応を可能にする。
ケースは、さまざまな領域にまたがって展開され、国家の疾病監視プラットフォームに電力を供給し、政治イベント中のリアルタイムの感情分析を可能にした。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:56:26 GMT)
Reality Check: A New Evaluation Ecosystem Is Necessary to Understand AI's Real World Effects [3.2] 論文は、AIの間接的および二次的効果を測定するには、シリコで実施される静的な単一ターンアプローチを超えて拡張する必要がある、と論じている。
我々は、文脈認識を容易にし、下流の解釈とAIの二次効果に関する意思決定を可能にするデータと方法の必要性について説明する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:42:10 GMT)
SGD as Free Energy Minimization: A Thermodynamic View on Neural Network Training [3.2] 勾配降下は自由エネルギー関数$F=U-TS$を暗黙的に最小化し、トレーニング損失$U$と重み分布のエントロピー$S$のバランスをとることを示した。
この視点は、なぜ高い学習率がトレーニングが損失最小値に収束することを妨げているのか、新しいレンズを提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:40:24 GMT)
Multimodal Foundation Model for Cross-Modal Retrieval and Activity Recognition Tasks [3.2] 本研究では,3人称ビデオ,モーションキャプチャ,IMU,テキストの4つのモードを統合した基礎モデルを提案する。
第三者のビデオとモーションキャプチャーデータを組み込むことで、このモデルは人間の活動の詳細な多次元的理解を可能にする。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:47:43 GMT)
Can Large Language Models Challenge CNNS in Medical Image Analysis? [3.1] 本研究では,医療診断画像の正確な分類を目的としたマルチモーダルAIフレームワークを提案する。
提案システムは、畳み込みニューラルネットワーク(CNN)と異なる大言語モデル(LLM)の強みを比較する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:48:09 GMT)
Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation [3.1] Auscultation(特に心臓の音)は、重要な重要なサイン情報を提供する非侵襲的なテクニックである。
近年,自己教師型音響表現基盤モデル (FM) が提案され,音響に基づくバイタルサインの洞察が得られた。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:51:17 GMT)
Enhancing Marker Scoring Accuracy through Ordinal Confidence Modelling in Educational Assessments [3.1] AES(Automated Essay Scoring)における重要な倫理的課題は、高い信頼性基準を満たす場合にのみスコアが解放されることを保証することである。
信頼モデリングは信頼度スコアという形で信頼度推定尺度を各自動スコアに割り当てることでこの問題に対処する。
AESが生成したスコアが適切なCEFRレベルに候補を正しく配置するかどうかを予測する。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:23:20 GMT)
Broadband Ground Motion Synthesis by Diffusion Model with Minimal Condition [3.1] 我々は,高忠実度地震動生成システム(HEGGS)について紹介する。
HEGGSは地震データセットの固有特性を利用して、終端から終端までの微分可能発電機を用いて波形を学習する。
正確なP/S位相到着、包絡相関、信号対雑音比、GMPE分析、周波数内容分析、断面プロット解析の3次元E-N-Z地震波形を生成することができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:13:30 GMT)
Exploring Domain Wall Pinning in Ferroelectrics via Automated High Throughput AFM [3.1] 強誘電体材料のドメインウォールダイナミクスは、各極界面がユニークな局所構造にロックされているため、強く位置依存している。
そこで, 立方体KTaO$_3$上の大面積Pbelastic$_3$膜を解析し, 極歪領域構造の電場駆動動力学を定量化した。
1500回のスイッチングイベントの解析により,領域壁の変位はフィールドパラメータだけでなく,局所強誘電体-強誘電体構成にも依存することが明らかになった。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:11:40 GMT)
HydraNet: Momentum-Driven State Space Duality for Multi-Granularity Tennis Tournaments Analysis [3.1] 本研究は,マルチグラニュラリティテニストーナメントにおける選手の運動量レベルを定量化するための新しいモメンタムスコア(MS)尺度を定義する。
運動量駆動型状態空間双対性に基づくフレームワークHydraNetを設計し、MSをモデル化する。
2012-2023 Wimbledonと2013-2023 US Openにまたがる100万レベルのテニスクロスコースデータセットを構築した。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:21:06 GMT)
RULEBREAKERS: Challenging LLMs at the Crossroads between Formal Logic and Human-like Reasoning [3.1] RULEBREAKERSは、大規模な言語モデルによるルールブレーカーの認識と応答を人間的な方法で厳格に評価するための最初のデータセットです。
GPT-4oを含むほとんどのモデルでは、RULEBREAKERSの中間精度が得られ、典型的な人間の推論と異なり、論理規則を過度に適用する傾向が見られた。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:31:57 GMT)
A Benchmark Dataset for Graph Regression with Homogeneous and Multi-Relational Variants [3.0] プログラムグラフから構築した新しいグラフ回帰データセットであるRelSCを紹介する。
各グラフは、対応するプログラムの実行時間コストにラベル付けされる。
RelSCの両変種について,多種多様なグラフニューラルネットワークアーキテクチャの評価を行った。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:59:36 GMT)
Nosey: Open-source hardware for acoustic nasalance [3.0] 本研究では,低コストでカスタマイズ可能な3DプリントシステムであるNoseyを紹介した。
ノゼイは、商業機器よりも常に高いナサランススコアを示しているが、音韻環境間のコントラストの大きさは、システム間で同等である。
我々は,Noseyは市販の鼻咽喉科装置に代わる柔軟で費用対効果の高い代替品であり,データ収集に利用するための方法論的考察を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:02:41 GMT)
CF-DETR: Coarse-to-Fine Transformer for Real-Time Object Detection [3.0] CF-DETRは、新しい粗大なトランスフォーマーアーキテクチャと専用のリアルタイムスケジューリングフレームワークNPFP**を備えた統合システムである。
それぞれのDETRタスクを、期限内に重要なオブジェクト検出を保証するための安全クリティカルな粗いサブタスクと、全体的な正確性を高めるためのオプションのファインサブタスクに分割する(R2)。
NPFP*ポリシーの下では、CF-DETRはクリティカルオペレーションの厳密なタイミング保証を達成し、様々なAVワークロードにおける既存のベースラインと比較して、全体的なおよび重要なオブジェクト検出精度を大幅に向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:23:37 GMT)
Going from a Representative Agent to Counterfactuals in Combinatorial Choice [2.9] 本稿では,二元多面体の集合からデータを抽出する意思決定問題について検討する。
本稿では,代表エージェントモデルに基づく非パラメトリックな非実例推論手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:24:23 GMT)
SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes [2.9] 我々はNVIDIAのIsaac Sim Replicator Composerを使って構築されたPythonベースのデータセットジェネレータであるSynTableを紹介する。
私たちのデータセット生成ツールは、オブジェクトメッシュ、材料、テクスチャ、照明、背景を含む複雑な3Dシーンをレンダリングすることができます。
我々は、SynTableを用いて生成されたサンプルデータセットを用いて、最先端モデルのUOAIS-Netをトレーニングする。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:47:01 GMT)
Forms of Understanding for XAI-Explanations [2.8] 説明可能性(Explainability)は、コンピュータ科学と人工知能において重要なトピックとなり、説明可能な人工知能(XAI)と呼ばれるサブフィールドへとつながった。
理解」の意味はいまだ明確に定義されておらず、概念そのものが科学的研究の対象になることはめったにない。
この概念的論文は、XAIの解説などに対する理解形態のモデル提示を目的としている。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:38:01 GMT)
Non-rigid Motion Correction for MRI Reconstruction via Coarse-To-Fine Diffusion Models [2.8] モーションアーティファクトは診断ユーティリティ、特にダイナミックイメージングに妥協する可能性がある。
そこで本稿では, ベスパイク拡散モデルを用いて, 動乱k空間データを共同で再構成し, 補正する, 交代最小化フレームワークを提案する。
実世界の心臓MRIデータセットと複雑なシミュレートされた剛性変形と非剛性変形の両方に対して,本手法の有効性を実証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:38:03 GMT)
Understanding and Mitigating Distribution Shifts For Machine Learning Force Fields [2.8] 化学データセットの診断実験を行い、大きな課題をもたらす共通のシフトを明らかにします。
これらの観測から、現在の教師あり訓練手法はMLFFを不適切に正規化していると仮定する。
MLFFの分散シフトを緩和するための初期ステップとして,2つの新しい手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:53:47 GMT)
Synopsis: Secure and private trend inference from encrypted semantic embeddings [2.8] 本稿では,メッセージ埋め込みを用いた協調型E2EEメッセージにおけるメッセージトレンド分析のためのセキュアなアーキテクチャであるSynopsisを紹介する。
このシステムの目的は調査ジャーナリズムであるため、Synopsisは探索的分析と目標分析の両方を促進する必要がある。
ヒンディー語のWhatsAppメッセージのデータセットによる評価は、我々のアプローチの効率性と正確性を示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:34:10 GMT)
MCFNet: A Multimodal Collaborative Fusion Network for Fine-Grained Semantic Classification [2.8] Multimodal Collaborative Fusion Network (MCFNet) はきめ細かい分類のために設計された。
MCFNetアーキテクチャには、モーダル内特徴表現を改善する正規化統合融合モジュールが組み込まれている。
マルチモーダル決定分類モジュールは、モーダル間相関と非モーダル識別機能を利用する。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:42:57 GMT)
Data-to-Dashboard: Multi-Agent LLM Framework for Insightful Visualization in Enterprise Analytics [2.8] モジュール型LCMエージェントによるデータ・ダッシュボード・パイプラインの自動化を行うエージェントシステムを提案する。
既存のグラフシステムとは異なり、我々のフレームワークはビジネスアナリストの分析的推論プロセスをシミュレートする。
提案手法は, 評価指標の調整により, 洞察力, ドメイン関連性, 分析深度が向上したことを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:32:15 GMT)
Automatic Construction of Multiple Classification Dimensions for Managing Approaches in Scientific Papers [2.8] 本稿では、トップダウン方式を用いてアプローチパターンを特定し、4つの異なる言語レベルを通してパターンを精査する。
科学的論文のアプローチは、アプローチパターンに基づいて抽出される。
これらのパターンを用いて、アプローチを分類する5つの次元を同定する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:57:11 GMT)
A Practical Approach for Building Production-Grade Conversational Agents with Workflow Graphs [2.8] 大きな言語モデル(LLM)は、さまざまなサービスドメインで大幅に改善されました。
産業環境でのSOTA(State-of-the-art)研究の適用は課題を提起する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:30:27 GMT)
ARC: Argument Representation and Coverage Analysis for Zero-Shot Long Document Summarization with Instruction Following LLMs [2.8] 我々は、特定の形態の構造に焦点をあてる: 議論の役割は、法律のような高度な領域における文書の要約に不可欠である。
本稿では,LLM生成したサマリが有意な議論をいかに捉えるかを測定するためのフレームワークであるArgument Representation Coverage(ARC)を紹介する。
以上の結果から,LLMはある程度は有意な議論の役割を担っているが,生成した要約では重要な情報が省略されることが多かった。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:04:02 GMT)
BioVL-QR: Egocentric Biochemical Vision-and-Language Dataset Using Micro QR Codes [2.7] 本稿ではバイオケミカル・ビジョン・アンド・ランゲージ・データセットであるBioVL-QRを紹介する。
23のエゴセントリックな実験ビデオ、対応するプロトコル、そして視覚と言語をアライメントする。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:22:51 GMT)
ZooplanktonBench: A Geo-Aware Zooplankton Recognition and Classification Dataset from Marine Observations [2.7] プランクトン(英: Plankton)は、世界中の海中に存在する小さな漂流生物であり、海洋の健康の指標である。
このプランクトン群落の1つの構成要素は、ゼラチン質の動物や甲殻類を含む動物プランクトンである。
動物プランクトンの存在を正確に監視し、海洋環境に関する人口の変化を理解することは、海洋科学研究にとって貴重なことである。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:01:52 GMT)
Retrieval Visual Contrastive Decoding to Mitigate Object Hallucinations in Large Vision-Language Models [2.7] RVCD(Retrieval Visual Contrastive Decoding)は、オブジェクトの幻覚を抑制するための高度な手法である。
提案手法は,既存の復号化手法よりも大幅に改善されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:24:24 GMT)
Psycholinguistic Word Features: a New Approach for the Evaluation of LLMs Alignment with Humans [2.7] 我々は,LLMの代表群と人間の評価値とのアライメントを心理言語学的データセット上で評価した。
その結果,グラスゴーのノルム評価において,アライメントはテキストカラーブラックの方が概ね良好であることが示唆された。
これは、現在のLLMが単語に対する人間の感覚関連と一致している可能性を示唆している。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:56:48 GMT)
The Strong, Weak and Benign Goodhart's law. An independence-free and paradigm-agnostic formalisation [2.7] 代用指標と目的との結合がグッドハートの法則に及ぼす影響について検討する。
以上の結果から,光の尾方向目標と光の尾方向不一致の場合,依存はグッドハートの効果の性質を変えるものではないことが示唆された。
軽テールゴールと重テール一致の場合において,過最適化が重テール一致率に逆比例する例を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:42:05 GMT)
Approaching the Harm of Gradient Attacks While Only Flipping Labels [2.7] 本稿では,ロジスティック回帰モデルに対するラベルフリップ攻撃の新たな形式化を提案する。
各トレーニングステップにおけるラベルのわずか0.1%の予算で、モデルの精度を6%削減できることを示す。
一部のモデルは、最大25%のラベルがフリップされたとき、ランダムな推測よりもパフォーマンスが悪くなります。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:22:43 GMT)
Network Inversion for Uncertainty-Aware Out-of-Distribution Detection [2.7] アウト・オブ・ディストリビューション(OOD)検出と不確実性推定は、安全な機械学習システムを構築する上で重要な要素である。
OOD検出と不確実性推定の両方に対処するために,ネットワークインバージョンと分類器学習を組み合わせた新しいフレームワークを提案する。
我々のアプローチはスケーラブルで解釈可能であり、外部のOODデータセットやポストホックキャリブレーション技術へのアクセスを必要としない。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:53:52 GMT)
Searching Neural Architectures for Sensor Nodes on IoT Gateways [2.6] 本稿では,プライバシに敏感なモノのインターネット(IoT)アプリケーションでも機械学習(ML)アクセスが可能なニューラルネットワーク(NN)をエッジで設計するための自動手法を提案する。
提案手法はIoTゲートウェイ上で動作し,ローカルネットワーク外で収集したデータを共有することなく,接続されたセンサノード用のNNを設計する。
この方法は、データがクラウドサービスに開示されるのを防ぐために、産業機密や個人情報を含む機密情報を保護します。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:42:25 GMT)
Quantum feedback induced entanglement relaxation and dynamical phase transition in monitored free fermion chains with Wannier-Stark ladder [2.6] 本研究では, 傾斜フリーフェミオン鎖の動的相転移を計測フィードバックプロトコルにより検討した。
我々は,ワニエ・スターク・ラグポテンシャルによって増強されたフィードバック誘発皮膚効果を明らかにし,一つの境界における局所化を創出する。
再スケーリング分析を用いて、臨界挙動を特定し、量子ジャンプ変動のフィードバック駆動による抑制とリンクする直感的な物理画像を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:12:39 GMT)
Vision Language Models are Biased [2.6] 大規模言語モデル(LLM)は、ダウンストリームタスクにおいて、インターネットから大量の事前知識を記憶している。
一般的な主題に関する知識が視覚言語モデル(VLM)の標準的視覚的タスクにおける精度をいかに損なうかを検証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:47:58 GMT)
Unveiling Environmental Impacts of Large Language Model Serving: A Functional Unit View [2.6] FUELは、大規模言語モデル(LLM)の環境影響を評価するためのフレームワークである
モデルサイズ、量子化戦略、ハードウェア選択を最適化することで、二酸化炭素排出量を減らすための重要な洞察とトレードオフを明らかにします。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:42:50 GMT)
Scalable decoding protocols for fast transversal logic in the surface code [2.6] サーフェスコードにコヒーレンス論理のための2つの新しいウィンドウ付きデコーディングプロトコルを導入する。
空間オーバーヘッドが非常に小さいため、拡張性のあるデコーダは接続ロジックの桁違いのスピードアップを解放します。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:41:11 GMT)
Large-Scale Multi-Robot Coverage Path Planning on Grids with Path Deconfliction [2.6] マルチロボット被覆経路計画(MCPP: Multi-Robot Coverage Path Planning)を4つの隣接する2DグリッドG上で検討し、複数のロボットがGのすべてのセルをカバーする経路を計算することを目的とした。
問題を直接Gで修正し、グリッドベースのMCPPの解法を革新し、新しいNP硬度結果を確立する。
提案手法は,最大100台のロボットを最大256x256まで実行時間内にグリッド上で管理することにより,ソリューションの品質と効率を大幅に向上することを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:29:56 GMT)
LLM Agents Making Agent Tools [2.6] ツールの使用は、大規模言語モデル(LLM)を、複雑なマルチステップタスクを実行できる強力なエージェントに変えた。
しかし、これらのツールは人間の開発者によって事前に実装されなければならない。
論文をコードで自律的にLLM互換のツールに変換するエージェントフレームワークであるToolMakerを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:47:41 GMT)
Whose Name Comes Up? Auditing LLM-Based Scholar Recommendations [2.5] 本稿では,5つのタスクにまたがる物理分野の専門家を推薦するために,6つのオープンウェイトLDMの性能を評価する。
この評価は、性、民族性、学術的人気、学者の類似性に関連する一貫性、事実性、偏見について検討する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:11:11 GMT)
Toward Effective AI Governance: A Review of Principles [2.5] 本研究の目的は、AIガバナンスに関する二次文献において、どのフレームワーク、原則、メカニズム、ステークホルダーの役割が強調されているかを特定することである。
最も引用されているフレームワークは、EU AI ActとNIST RMFである。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:07:45 GMT)
Unifying Perspectives: Plausible Counterfactual Explanations on Global, Group-wise, and Local Levels [2.5] 本稿では,微分可能なモデルに対する勾配に基づく最適化手法を提案する。
インスタンスグループ化と逆ファクト生成を1つの効率的なプロセスに組み合わせることで,GWCF生成を特に強化する。
本研究は, グループ粒度を最適化しつつ, 妥当性, 近接性, 妥当性のバランスをとる方法の有効性を示すものである。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:23:38 GMT)
Color Image Set Recognition Based on Quaternionic Grassmannians [2.4] 四元数グラスマン多様体を用いたカラー画像の認識手法を提案する。
四元数グラスマン多様体上の二点間の最短距離を計算し、この距離を用いて新しい分類枠組みを構築する。
ETH-80ベンチマークデータセットの実験により,本手法が良好な認識結果が得られることが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:36:02 GMT)
Fixing the Double Penalty in Data-Driven Weather Forecasting Through a Modified Spherical Harmonic Loss Function [2.4] GraphCastモデルを微調整すると、鋭い決定論的天気予報、有効解像度が1,250kmから160kmに向上し、アンサンブルの改善が広がる。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:43:13 GMT)
Sustainable Carbon-Aware and Water-Efficient LLM Scheduling in Geo-Distributed Cloud Datacenters [2.4] ChatGPT、CoPilot、Geminiといった大規模言語モデル(LLM)は、様々な分野で広く採用されている。
近年の研究では, LLMの運用コストが, 年間25倍を超えることが推定されている。
我々はSLITと呼ばれる新しいフレームワークを提案し、LCMのサービス品質(時間から第一のトークン)、二酸化炭素排出量、水使用量、エネルギーコストを最適化する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:31:28 GMT)
Evaluating the Sensitivity of LLMs to Prior Context [2.4] 大規模言語モデル(LLM)は、多ターン対話やその他の持続的な対話シナリオにますます多くデプロイされている。
我々は,文脈変化に対する感度を測定するために,先行文脈のボリュームと性質を変化させる新しいベンチマークのセットを導入する。
その結果,複数質問に対するLLM性能は,多ターンインタラクションにおいて劇的に低下することがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:09:32 GMT)
HoneySat: A Network-based Satellite Honeypot Framework [2.4] ハニーサットは、最初の高相互作用衛星ハニーポットフレームワークである。
現実世界のCubeSatをシミュレートできる。
衛星を狙う敵の技術と戦術の大半を支えている。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:12:50 GMT)
Multi-RAG: A Multimodal Retrieval-Augmented Generation System for Adaptive Video Understanding [2.3] Multi-RAGは、情報集約的な状況下で人間に適応的な支援を提供するために設計された検索拡張生成システムである。
本システムは,マルチソース情報ストリームの統合と推論により,状況理解の改善と認知負荷の低減を目的としている。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:31:29 GMT)
How to Elicit Explainability Requirements? A Comparison of Interviews, Focus Groups, and Surveys [2.3] 本研究は,焦点グループ,インタビュー,オンライン調査の3つの方法の有効性と有効性について検討した。
その結果,インタビューは最も効率的であり,参加者毎のニーズを最も多く捉えることができた。
効率とカバレッジのバランスをとるために、調査とインタビューを組み合わせたハイブリッドアプローチを推奨します。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:23:14 GMT)
Can Large Language Models Trigger a Paradigm Shift in Travel Behavior Modeling? Experiences with Modeling Travel Satisfaction [2.3] 本研究では,上海の世帯調査から得られた旅行満足度データを用いて,大規模言語モデルと人間の行動の相違点と原因を特定する。
ゼロショットLLMは, 動作の誤りを呈し, 予測精度が比較的低いことが判明した。
小型のサンプルを用いた旅行行動モデルに適用可能なLLMに基づくモデリング手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:11:58 GMT)
Designing the Future of Entrepreneurship Education: Exploring an AI-Empowered Scaffold System for Business Plan Development [2.2] 起業教育は学生に革新的アイデアを実践可能な起業計画に転換させる。
従来のアプローチは、成功に必要なパーソナライズされたガイダンスと実践的なアライメントを提供するのに苦労することが多い。
本研究では,これらの課題に対処するためのAIを活用した足場システムの設計ニーズについて検討する。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:35:55 GMT)
You Prefer This One, I Prefer Yours: Using Reference Words is Harder Than Vocabulary Words for Humans and Multimodal Language Models [2.2] 本研究は,3語クラスの人的・参照的使用と,語彙,所有代名詞,実証代名詞といった認知的要求の増大を比較した。
分析の結果,これらの困難は視点的思考と空間的推論の限界に起因することが明らかとなった。
これらの発見は、プラグマティクスと社会的認知を必要とする形態を作り出すことは、現在のNLPシステムにおいて明らかな課題であることを示す理論的および実証的な証拠を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:54:44 GMT)
Transforming Podcast Preview Generation: From Expert Models to LLM-Based Systems [2.2] ポッドキャストエピソードのプレビューを生成し,大規模に展開するためのLCMベースのアプローチを提案する。
総合的なオフライン評価とオンラインA/Bテストにより、LLM生成プレビューは、さまざまなMLエキスパートモデルの上に構築された強力なベースラインを一貫して上回っていることが示された。
オフラインの結果は、理解可能性、文脈的明確性、関心のレベルが顕著に向上し、オンラインA/Bテストでは、プレビューコンテンツによるユーザエンゲージメントが4.6%増加したことを示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:02:16 GMT)
Large Language Models for Controllable Multi-property Multi-objective Molecule Optimization [2.2] 我々はC-MuMOInstructを紹介した。C-MuMOInstructは、明示的でプロパティ固有の目的を持つマルチプロパティ最適化に焦点を当てた最初の命令チューニングデータセットである。
GeLLMO-Cs は命令調整型 LLM で,目標となるプロパティ固有の最適化を行うことができる。
実験の結果,GeLLMO-Csは高いベースラインを一貫して上回り,最大126%の成功率を達成した。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:29:14 GMT)
Accelerated Training of Federated Learning via Second-Order Methods [2.1] 本稿では,フェデレートラーニング(FL)における2次最適化手法について検討する。
これは、収束の遅い重要な課題と、グローバルモデルから最適なパフォーマンスを達成するのに必要な過剰な通信ラウンドに対処する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:00:34 GMT)
On the generic increase of entropy in isolated systems [2.1] 本研究では、固有状態熱化仮説(ETH)によって支配される孤立量子系におけるエントロピー生成の普遍的なメカニズムを確立する。
本研究では, 安定状態のエントロピーが多体相互作用から発生し, 特異な結合の詳細に依存しないことを実証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:28:27 GMT)
Patient Domain Supervised Contrastive Learning for Lung Sound Classification Using Mobile Phone [2.1] 新型コロナウイルス(COVID-19)のパンデミックは、従来の個人内の肺の音の評価の制限を明らかにした。
我々の研究は、スマートフォンのマイクを使って肺の音を録音し分析することを目的としている。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:08:05 GMT)
LUMION: Fast Fault Recovery for ML Jobs Using Programmable Optical Fabrics [2.0] LUMIONは、データセンターラック内のアクセラレーターを接続するための、新しい再構成可能な光布地である。
MLジョブ全体を移行する代わりに、LUMIONはスペアアクセラレータを障害発生時に実行中のワークロードに動的に統合する。
我々の実験によると、LUMIONは故障したGPUを正常なGPUに置き換え、失敗の1秒以内にMLジョブを再起動する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:17:44 GMT)
Large Language Model-Based Agents for Automated Research Reproducibility: An Exploratory Study in Alzheimer's Disease [2.0] 我々は、National Alzheimer's Coordinating Centerの“Quick Access”データセットを使用しました。
NACCデータを用いて,高度に引用された論文を同定した。
コードの記述と実行を担当するLLMベースの自律エージェントのシミュレーション研究チームを作成しました。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:31:55 GMT)
Fine-tuning machine-learned particle-flow reconstruction for new detector geometries in future colliders [2.0] 本研究では,高エネルギー粒子衝突装置における粒子流再構成を訓練した機械学習アルゴリズムにおいて,伝達学習能力を実証する。
我々の知る限り、これは粒子-流れ再構成のための完全なクロス・ディテクター・トランスファー学習研究としては初めてのものである。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:04:51 GMT)
Emergent Risk Awareness in Rational Agents under Resource Constraints [2.0] この研究は、生存圧力下で活動するAIエージェントの創発的行動の理解と解釈可能性を高めることを目的としている。
我々は、生存駆動の嗜好シフトの影響を定量化する理論的および経験的な結果を提供する。
リスク探索やリスク回避行動の出現を緩和するメカニズムを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:31:12 GMT)
iHDR: Iterative HDR Imaging with Arbitrary Number of Exposures [2.0] 高ダイナミックレンジ(LDR)画像は、複数の低ダイナミックレンジ(LDR)画像からの情報を融合して高品質なHDR画像を得る。
我々のフレームワークはゴーストフリーのデュアルインプット・フュージョン・ネットワーク(Di)と物理ベースのドメインマッピング・ネットワーク(ToneNet)で構成されている。
Diは中間HDR画像を推定し、ToneNetはそれを非線形領域にマッピングし、次のペア融合の基準として機能する。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:20:31 GMT)
Neither Stochastic Parroting nor AGI: LLMs Solve Tasks through Context-Directed Extrapolation from Training Data Priors [2.0] 我々は、LLMが「確率的なオウム」か「創発的な」先進的推論能力を持っているという極端な代替見解を誘発するLLM能力の現実的な見方を高く評価する。
我々の中核的な見解は、LLMはトレーニングデータから先行情報から外挿し、文脈内学習に似たメカニズムによって、どの情報を外挿するかをターゲティングできるということです。
制御不能なエージェンシーの出現の恐れは解消され、研究の進歩はコンテキスト指向の外挿のプロセスに適切に焦点を合わせている。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:31:42 GMT)
The End Of Universal Lifelong Identifiers: Identity Systems For The AI Era [2.0] 多くのアイデンティティシステムは、医療、金融、教育といった分野にまたがって再利用された、個人に1つの静的識別子を生涯割り当てる。
私たちは、ULIはAI時代と根本的に相容れない立場にあり、段階的に廃止されなければならないと考えています。
既存の識別子との互換性を維持しつつ、それらを満たす暗号フレームワークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:45:39 GMT)
Pseudo Multi-Source Domain Generalization: Bridging the Gap Between Single and Multi-Source Domain Generalization [2.0] マルチソースドメイン一般化(MDG)は、トレーニング中に複数のソースドメインを活用することで、この問題に対処することを約束している。
Pseudo Multi-source Domain Generalization (PMDG) は、MDGアルゴリズムをより実用的な単一ソースドメイン一般化設定に適用できる新しいフレームワークである。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:11:54 GMT)
Using Reasoning Models to Generate Search Heuristics that Solve Open Instances of Combinatorial Design Problems [2.0] 推論を伴う大規模言語モデル(LLM)は、結果が確定する前に反復的に生成および洗練するように訓練される。
設計の数学的分野において, LLMを推論したコード生成を特定のタスクに適用する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:45:50 GMT)
Artemis: Toward Accurate Detection of Server-Side Request Forgeries through LLM-Assisted Inter-Procedural Path-Sensitive Taint Analysis [2.0] Artemisは、PHP WebアプリケーションのSSRF脆弱性を検出する静的なテナント解析ツールである。
ビルトイン関数とサードパーティ関数の両方を候補ソースとシンク関数として抽出する。
関数の関係を推測するために、明示的および暗黙的なコールグラフの両方を構築する。
207の真の脆弱な経路(106の真のSSRF)と15の偽陽性を報告している。
検出された106個のSSRFのうち、35個が新たに発見され、開発者に報告され、24個のCVE IDと割り当てられた。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:34:13 GMT)
Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts [1.9] 収束学習は、神経システムが同様の内部表現に到達する度合いである。
数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模監査を行う。
発見は、表現の収束に対する理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:26:42 GMT)
Developing Cryptocurrency Trading Strategy Based on Autoencoder-CNN-GANs Algorithms [1.9] 本稿では、機械学習アルゴリズムを用いて財務時系列の予測と分析を行う。
プロセスは、主契約価格データからランダムなノイズ変動をフィルタリングするデノナイジングオートエンコーダから始まる。
1次元畳み込みは、フィルタリングデータの次元性を減少させ、キー情報を抽出する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:52:32 GMT)
A Robot-Assisted Approach to Small Talk Training for Adults with ASD [1.9] 本研究では,家庭内自律ロボットシステムの開発と評価について述べる。
1週間にわたる研究の結果、ASDの成人はトレーニングを楽しみ、会話の開始やアイコンタクトの改善に顕著な進歩をし、会話スキルを高める貴重なツールであると見なされた。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:51:45 GMT)
MenTeR: A fully-automated Multi-agenT workflow for end-to-end RF/Analog Circuits Netlist Design [1.9] MenTeRは、エンドツーエンドのアナログデザインフレームワークに統合されたマルチエージェントワークフローである。
複数の専門的なAIエージェントを採用することで、MenTeRは、頻繁にトライアルとエラースタイルの介入への依存を減らす。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:58:08 GMT)
DGenNO: A Novel Physics-aware Neural Operator for Solving Forward and Inverse PDE Problems based on Deep, Generative Probabilistic Modeling [1.8] Deep Generative Neural Operator (DGenNO)は、PDEベースの逆問題を解決するための物理学的なフレームワークである。
DGenNOは、コンパクトに支持されたラジアル基底関数に基づいて、仮想観測可能、弱い形残基を組み込むことで、ラベル付きデータなしで物理制約を強制する。
DGenNOは複数のベンチマークで高い精度を達成し,ノイズに対する頑健さとアウト・オブ・ディストリビューションケースに対する強力な一般化を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:02:13 GMT)
Walking the Weight Manifold: a Topological Approach to Conditioning Inspired by Neuromodulation [1.8] 脳には異なる戦略があり、パラメータ自体はセロトニンなどの様々な神経調節物質の機能として調節される。
そこで我々は,ニューロ変調からインスピレーションを得て,タスクコンテキスト変数のスムーズなパラメータ化関数である重みを学習することを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:03:29 GMT)
A False Discovery Rate Control Method Using a Fully Connected Hidden Markov Random Field for Neuroimaging Data [1.8] ボクセルワイド多重テストのための,強力で安定かつスケーラブルな空間FDR制御法であるfcHMRF-LISを提案する。
fcHMRF-LISは、FDRの正確な制御、FNRの低下、FDPおよびFNPの変動率の低下、既存手法と比較して真正値の増大を実現している。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:43:09 GMT)
GenCAD-Self-Repairing: Feasibility Enhancement for 3D CAD Generation [1.8] GenCADはこの領域で注目すべきモデルであり、自動回帰トランスフォーマーベースのアーキテクチャを利用してCADプログラムを生成する。
GenCAD-Self-Repairingは,拡散誘導と自己修復パイプラインによって生成CADモデルの実現性を高めるフレームワークである。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:39:19 GMT)
To Judge or not to Judge: Using LLM Judgements for Advertiser Keyphrase Relevance at eBay [1.7] eコマースの売り手は、購入者のエンゲージメントを高めるため、在庫に基づいてキーワードを推奨する(クリック/セール)。
広告主キーフレーズの関連性は 検索システムの浸入を防ぐ 重要な役割を担っています
本研究は,eBay Advertisingのケーススタディを通じて,人間による判断の実用性について論じる。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:39:34 GMT)
Generating discrete time crystals through optimal control [1.7] 汎用多体量子システムにおいて、最適制御を用いて離散時間結晶(DTC)を生成する。
適切なコスト関数を定義し、最適化するとDTCが生成される。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:02:54 GMT)
Fast-tracking and disentangling of qubit noise fluctuations using minimal-data averaging and hierarchical discrete fluctuation auto-segmentation [1.7] 量子コンピュータの性能を制限する重要な要因は、時間とともにノイズが変動することである。
離散ジャンプや連続ドリフトのような複数の重なり合うプロセスのため、高い時間分解能で特徴付けることは困難である。
本研究では,高時間分解能を実現するため,最小限の測定が可能な雑音特徴化手法を考案した。
トランスモン量子ビット上では、時間経過中に数ミリ秒の時間分解能で量子ビットの周波数変動をトラック・アンタングルすることができることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:29:03 GMT)
Stable Thompson Sampling: Valid Inference via Variance Inflation [1.6] 我々はトンプソンサンプリング型アルゴリズムを用いてデータを収集する際の統計的推測の問題を考える。
我々は,後方分散を対数係数で膨らませる,安定トンプソンサンプリング(Stable Thompson Sampling)と呼ばれるTSの変種を提案し,解析する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:11:42 GMT)
Data-efficient Meta-models for Evaluation of Context-based Questions and Answers in LLMs [1.6] 大規模言語モデル(LLM)とレトリーバル拡張生成(RAG)システムは、産業アプリケーションにますます多くデプロイされている。
その信頼性は、幻覚検出の課題によって妨げられている。
本稿では,データアノテーションのボトルネックを,トレーニングデータ要件の低減の可能性を検討することによって解決する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:50:56 GMT)
BIRD: Behavior Induction via Representation-structure Distillation [1.5] BIRD (Behavior induction via Representation-structure Distillation) は、生徒モデルの内部表現構造と教師の表現構造をマッチングすることにより、協調行動の伝達を行うフレキシブルなフレームワークである。
画像分類における分布外ロバスト性に適用され、次の最強ベースラインに対して、ロバスト精度を最大16%向上する。
400人以上の教師-学生ペアの大規模研究において、教師の表現の解釈可能かつ計算可能な3つの特性が、伝達成功の最大85%のばらつきを説明できることを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:29:40 GMT)
StrucSum: Graph-Structured Reasoning for Long Document Extractive Summarization with LLMs [1.5] StrucSumは、大規模言語モデル(LLM)のためのトレーニングフリープロンプトフレームワークである。
構造信号を3つの戦略を介してプロンプトに注入する。
ArXiv、PubMed、Multi-Newsの実験では、StrucSumは要約品質と事実整合性の両方を一貫して改善している。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:10:23 GMT)
Machine Learning Framework for Characterizing Processing-Structure Relationship in Block Copolymer Thin Films [1.5] ブロック共重合体(BCP)の形態は、材料特性や応用に重大な影響を及ぼす。
本研究では,BCP薄膜形態を特徴付けるために,GISAXSデータとAFM画像の解析を行う機械学習(ML)対応フレームワークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:14:42 GMT)
Bridging the classical and quantum regimes in a dissipative Ising chain [1.4] 量子相関の異なる散逸性イジング鎖の長期ダイナミクスについて検討する。
特に、量子相関の増大に伴い古典的な極限サイクルの挙動が徐々に消えていく様子を述べる。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:59:42 GMT)
Distinguishing quantum dynamics via Markovianity and Non-Markovianity [1.4] 我々は、異なる種類の量子力学を示すXXスピン鎖を解析的に研究した。
マルコビアン性と非マルコビアン性の間の接続を構築します。
3種類の量子力学は、量子ビットのみを測定することで区別することができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:14:38 GMT)
MangoLeafViT: Leveraging Lightweight Vision Transformer with Runtime Augmentation for Efficient Mango Leaf Disease Classification [1.4] マンゴー葉病を分類するための自己注意機構を備えた軽量ビジョントランスフォーマーを用いたパイプラインを提案する。
本手法は,病型間の複雑なパターンを捉えるためにグローバルな注意を生かし,パフォーマンス向上のためにランタイム拡張を取り入れている。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:28:57 GMT)
Automatic Transmission for LLM Tiers: Optimizing Cost and Accuracy in Large Language Models [1.4] LLM 層を自動的に選択する LLM Automatic Transmission (LLM-AT) フレームワークを導入する。
スタータは、与えられた質問を解決することを期待する初期LCM層を選択する。
ジェネレータは、選択された階層のLCMを使用して応答を生成し、その応答の有効性を評価する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:05:27 GMT)
Determining Absence of Unreasonable Risk: Approval Guidelines for an Automated Driving System Deployment [1.2] 本稿では,不合理なリスクの判定方法の概要について述べる。
準備の整合性の決定は、その中核にある、リスク評価プロセスです。
本稿は, ADS リリースの可読性レビュープロセスの基礎となる方法論的基準を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:17:49 GMT)
SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods [1.2] 我々は9つの低リソース言語にまたがる多文語を含む文のデータセットをリリースする。
データセット作成を容易にするために,本論文では,有意な半自動アノテーション手法を提案する。
その結果、効果的な多意味的曖昧化のためのターゲットデータセット作成と評価の重要性が浮き彫りになった。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:48:08 GMT)
CoCo-CoLa: Evaluating and Improving Language Adherence in Multilingual LLMs [1.2] 大規模言語モデル(LLM)は、限られた並列データで訓練されているにもかかわらず、言語間能力を開発する。
多言語LLMにおける言語適応性を評価するための新しい指標であるCoCo-CoLaを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:15:32 GMT)
Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization [1.2] 強化学習(Reinforcement Learning, RL)を用いた微調整事前学習生成モデルは, 出力と人間の嗜好を整合させる効果的なアプローチとして登場した。
RLに基づくファインチューニングは、VARモデルに対して効率的かつ効果的であり、特に高速な推論速度の恩恵を受けていることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:45:38 GMT)
Preemptive Hallucination Reduction: An Input-Level Approach for Multimodal Language Model [1.1] 本研究では,最も適切なフィルタリング手法を適応的に選択する,アンサンブルに基づく新しい前処理フレームワークを提案する。
この手法は、自然言語推論(NLI)スコアによって測定された幻覚率を44.3%削減する。
この結果は、幻覚を緩和し、より信頼性の高いマルチモーダルシステムを実現するための適応的前処理技術の重要性を浮き彫りにした。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:09:34 GMT)
Dataset Featurization: Uncovering Natural Language Features through Unsupervised Data Reconstruction [1.1] 大規模言語モデル(LLM)は、そのような自然言語によるデータの解釈を提供することを約束している。
本稿では,抽出した特徴量を正確に制御する,データセットのデファクトライズのためのドメインに依存しない手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:04:29 GMT)
Divide and Conquer: A Hybrid Strategy Defeats Multimodal Large Language Models [1.1] 本稿では,マルチモーダルジェイルブレイク手法であるJMLLMを提案する。
テキスト、視覚、聴覚のモダリティにわたって包括的なジェイルブレイク攻撃を実行するために、複数の戦略を統合する。
また、マルチモーダルジェイルブレイク研究のための新しい包括的データセットTriJailも提供します。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:05:50 GMT)
Beyond mean-field dynamics of the Dicke model with non-Markovian dephasing [1.1] 非マルコフ的局所浴と一対一相互作用を持つ系の平均場力学を計算するために密度行列に基づく時間依存射影作用素の定式化を提案する。
我々の定式化は、有限温度で1対1の相互作用を持つ他の量子光学系に適用できる。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:13:47 GMT)
Exposing the Impact of GenAI for Cybercrime: An Investigation into the Dark Side [1.1] 生成型AIモデルは、安全性、倫理的リスク、デュアルユースに関する重要な議論を引き起こしている。
本稿では,悪意あるインターネット関連活動とサイバー犯罪との関連性に関する実証的証拠を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:57:01 GMT)
A Start To End Machine Learning Approach To Maximize Scientific Throughput From The LCLS-II-HE [1.1] 本稿では,機械学習による最適化,自動化,リアルタイム知識抽出を実現するため,SLACで開発している戦略の概要を紹介する。
この戦略は、電子加速器の開始時に実装され、実験終了まで多次元X線光学系に実装され、Lの高読出率マルチメガピクセル検出器が設計性能をユーザに届ける。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:49:39 GMT)
A complexity theory for non-local quantum computation [1.0] 非局所量子計算(NLQC)は、2つのシステム間の局所的な相互作用を1ラウンドの通信と共有絡みで置き換える。
本研究では,NLQCタスク間のリソース効率の低下を同定し,NLQCタスクの相対的硬度について検討する。
最も顕著なのは、NLQCの最もよく研究された2つのタスクである$f$-measureと$f$-routeが、実際は$O(1)$オーバーヘッド削減の下で等価であることを証明したことである。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:00:01 GMT)
Individual differences in the cognitive mechanisms of planning strategy discovery [1.0] 人間の戦略発見を促進する認知メカニズムを取り入れることで、メタ認知的強化学習のモデルが人間のパフォーマンスに近づけるかどうかを検討する。
内在的に生成されたメタ認知的擬似回帰,主観的努力評価,終末検討を考察する。
これらの強化は、個々の違いと、これらのメカニズムが戦略発見に与える影響に関する貴重な洞察を提供する一方で、モデルと人間のパフォーマンスのギャップを完全に埋めることはできなかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:57:34 GMT)
Principal Context-aware Diffusion Guided Data Augmentation for Fault Localization [1.0] そこで本研究では,PCD-DAugを提案する。
PCD-DAugは、故障局所化を改善するために合成失敗試験ケースを生成する。
我々は6つの最先端FL手法の大規模実験を行い、PCD-DAugと6つのデータ拡張ベースラインを比較した。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:54:29 GMT)
Comparing the Effects of Persistence Barcodes Aggregation and Feature Concatenation on Medical Imaging [1.0] 医用画像解析において、特徴工学は機械学習モデルの設計と性能において重要な役割を果たす。
持続的トポロジカルな特徴と幾何学的特徴を永続的バーコードとして保存する。
分類モデルの性能に対する2つのアプローチの効果を比較した。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:45:33 GMT)
Combining Deep Architectures for Information Gain estimation and Reinforcement Learning for multiagent field exploration [0.9] 精密農業は、作物のモニタリングに効率的な自律システムを必要とする。
本研究は,農業分野を表すグリッド環境における活発な探索課題として,この問題に対処するものである。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:39:38 GMT)
MathArena: Evaluating LLMs on Uncontaminated Math Competitions [0.9] MathArenaは、大きな言語モデル(LLM)を評価するための新しいベンチマークである。
繰り返し行われる数学コンペは、高品質で困難な問題のストリームを提供する。
MathArenaは、証明書込み機能の最初のベンチマークでもある。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:28:06 GMT)
Can LLMs Reason About Program Semantics? A Comprehensive Evaluation of LLMs on Formal Specification Inference [0.9] 大規模言語モデル(LLM)は、プログラミングタスクの自動化にますます使われています。
本稿では,プログラム意味論におけるLLMの推論能力を評価するためのベンチマークであるFormalBenchを紹介する。
このベンチマークを用いて、一貫した仕様と完全な仕様を合成するLLMの能力を評価した。
論文参考訳(メタデータ) (Thu, 29 May 2025 06:07:32 GMT)
Measuring Participant Contributions in Decentralized Federated Learning [0.9] DFLに適したShapley値の拡張であるDFL-Shapleyを提案する。
また,DFL-MRという計算可能な近似を導入し,ラウンドワイドシェープ値の蓄積によって全体の寄与を推定する。
実験により,DFL-Shapleyを有効な基底構造測定基準として確認し,DFL-MRとDFL-Shapleyとの近接性を示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:53:47 GMT)
Dimension reduction via score ratio matching [0.9] スコアマッチングから派生したフレームワークを提案し、勾配を利用できない問題に勾配に基づく次元の減少を拡大する。
提案手法は,低次元構造を有する問題に対して,標準的なスコアマッチングよりも優れていることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:57:50 GMT)
Beam-Guided Knowledge Replay for Knowledge-Rich Image Captioning using Vision-Language Model [0.9] KRCapVLMは知識リプレイに基づく新しい画像キャプションフレームワークである。
ビームサーチデコーディングを組み込んで、より多様なコヒーレントなキャプションを生成する。
提案モデルは,知識認識の精度と生成したキャプションの全体的な品質の両方において,明確な改善を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:33:36 GMT)
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation [0.9] 我々は、ジェネレーティブAIにおける経験的評価が危機点にあることを観察する。なぜなら、従来のML評価とベンチマーク戦略は、現代のGenAIモデルやシステムを評価する必要性を満たすには不十分であるからである。
我々は,GenAI評価において,漏洩や汚染の問題は,実際,最も重要かつ困難な問題であると主張している。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:48:23 GMT)
On the performance of machine-learning-assisted Monte Carlo in sampling from simple statistical physics models [0.8] キュリー・ワイスモデルに対する浅いMADEアーキテクチャに適用した広範に使われている逐次テンパリング手法について検討する。
この研究は、モンテカルロのサンプリングと最適化に機械学習技術を統合するための明確な理論的基盤を確立する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:51:51 GMT)
LLaMA-XR: A Novel Framework for Radiology Report Generation using LLaMA and QLoRA Fine Tuning [0.8] 我々は、LLaMA 3.1とDenseNet-121ベースのイメージ埋め込みと、QLoRA(Quantized Low-Rank Adaptation)の微調整を統合した新しいフレームワークであるLLaMA-XRを提案する。
LLaMA-XRは、計算効率を維持しつつ、コヒーレンスと臨床精度を向上させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:21:18 GMT)
Smaller, Smarter, Closer: The Edge of Collaborative Generative AI [0.8] GenAIは、レイテンシ、コスト、プライバシに関する懸念など、クラウド中心のデプロイメントにおける重要な制限を公開している。
この記事では、エッジリソースとクラウドリソースの両方を活用してこれらの課題に対処する、協調推論システムの可能性について説明する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:04:02 GMT)
Edge-First Language Model Inference: Models, Metrics, and Tradeoffs [0.8] 本研究は、単一エッジデバイス上でのSLM機能の詳細なベンチマークから始まる、エッジとクラウドのデプロイメント間の相互作用について検討する。
エッジ推論が低コストで同等のパフォーマンスを提供するシナリオや、スケーラビリティやモデルキャパシティの制限によりクラウドのフォールバックが不可欠になるシナリオを特定します。
プラットフォームレベルの比較と設計の洞察を,一様かつ適応的なLM推論システム構築のために提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:56:27 GMT)
Evaluating the performance and fragility of large language models on the self-assessment for neurological surgeons [0.8] 神経外科医セルフアセスメント(CNS-SANS)の質問は、脳外科の住民がボード検査を書くために広く利用されている。
本研究の目的は,脳神経外科の板状質問に対する最先端のLSMの性能評価と,障害文の含意に対する頑健性を評価することである。
28大言語モデルを用いて包括的評価を行った。
これらのモデルは、CNS-SANSから導かれた2,904の脳神経外科検査で試験された。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:27:14 GMT)
MADCluster: Model-agnostic Anomaly Detection with Self-supervised Clustering Network [0.7] 自己教師付きクラスタリングを利用したモデルに依存しない異常検出フレームワークMADClusterを提案する。
中心となる考え方は、通常のパターンデータを'単一クラスタ'にクラスタ化すると同時に、クラスタセンタを学習し、このセンタに近いデータをマッピングすることです。
4つの時系列ベンチマークデータセットの実験では、MADClusterを適用することで、比較モデルの全体的なパフォーマンスが向上することが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:21:39 GMT)
Joint Data Hiding and Partial Encryption of Compressive Sensed Streams [0.7] 本稿では,圧縮センシング(CS)ストリームのセキュア化手法を提案する。
秘密鍵によって測定の一部を保護し、残りの部分にコードを挿入する。
提案手法の特長はオンザフライ挿入であり、シングルカメラカメラによる連続的な測定の取得に適している。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:33:23 GMT)
Dialectal Coverage And Generalization in Arabic Speech Recognition [0.7] 既存のASRシステムは、多種多様な話し言葉にまたがる範囲と一般化において不足している。
アラビア語圏の様々な地域では、英語やフランス語とのコードスイッチも一般的である。
音声アラビアの複数の変種を効果的に認識するために最適化された一連のASRモデルを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:48:44 GMT)
Federated Granger Causality Learning for Interdependent Clients with State Space Representation [0.6] 我々は、グランガー因果関係を学習するための連合的なアプローチを開発する。
本稿では,サーバが学習したGranger因果関係情報を用いてクライアントモデルを拡張することを提案する。
また、フレームワークの集中的なオラクルモデルへの収束について研究する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:27:43 GMT)
Number of Clusters in a Dataset: A Regularized K-means Approach [0.6] 正規化k平均アルゴリズムは、データセット内の異なるクラスタの正しい数を見つけるために使用される。
本稿では,クラスタが理想的であると仮定して,$lambda$の厳密な境界を導出する。
実験により、加法正則化器を用いたk平均アルゴリズムは、しばしば複数の解が得られることが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:58:44 GMT)
SVRPBench: A Realistic Benchmark for Stochastic Vehicle Routing Problem [0.6] SVRPBenchは、都市部における車両ルーティングにおける高忠実度静的ダイナミクスをキャプチャする最初のオープンベンチマークである。
現実的な配送条件をシミュレートする: 時間依存の混雑、ログの正常な遅延、確率的事故、住宅および商業顧客のための実験的に根拠付けられた時間窓。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:17:47 GMT)
Correlated emission of electron-current waves [0.6] 関連した光の放出は、原子スピン間の絡み合いの発生の潜在的経路を提供する。
導電性電子の電子浴中における色中心による相関放出条件について検討した。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:51:18 GMT)
Engineering Serendipity through Recommendations of Items with Atypical Aspects [0.6] 非典型的側面を持つ項目の推薦を通じて,工学的セレンディピティーの新たな課題を紹介する。
項目レビューから非定型的な側面を抽出し,ユーザ固有のユーティリティを推定,集約するLLMベースのシステムパイプラインについて述べる。
システムによって生成されたセレンディピティーに基づくランキングは,地上の真理ランキングと高い相関性を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:53:21 GMT)
CURVE: CLIP-Utilized Reinforcement Learning for Visual Image Enhancement via Simple Image Processing [0.6] 低光画像強調(LLIE)は、人間の知覚とコンピュータビジョンの両方を改善するために重要である。
本稿では、ゼロ参照LLIEにおける2つの課題として、知覚的に「良い」画像を取得し、高解像度画像の計算効率を維持することを挙げる。
私たちはCLIPを利用した強化学習に基づく視覚強調(CURVE)を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:09:13 GMT)
Structural Abstraction and Selective Refinement for Formal Verification [0.6] ロボットアプリケーションの安全性検証は、ロボットが通常操作する環境の複雑さのため、非常に難しい。
通常のソリューションアプローチは抽象化であり、より正確に振る舞いの抽象化です。
そこで我々は,ロボット環境のボクセル表現の文脈において,構造的抽象化を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:44:47 GMT)
MINDSTORES: Memory-Informed Neural Decision Synthesis for Task-Oriented Reinforcement in Embodied Systems [0.6] 本研究では,体験向上型計画フレームワークMINDSTORESを導入し,エージェントがメンタルモデルを構築し,活用できるようにする。
MINDSTORES は,既存のメモリベース LLM プランナよりも学習し,その知識を適用している。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:06:32 GMT)
Fluxonium as a control qubit for bosonic quantum information [0.5] トランスモンと比較して,フラキソニウムはキャビティカップリングに有効であることが示唆された。
その結果, 超伝導キャビティのための高性能ボソニック制御量子ビットとしてのフラキソニウムの可能性が示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:47:53 GMT)
Comparative analysis of privacy-preserving open-source LLMs regarding extraction of diagnostic information from clinical CMR imaging reports [0.5] 9つのオープンソースのLarge Language Models (LLMs) について, 患者を診断し, 様々な診断カテゴリーに分類する能力について検討した。
GoogleのGemma2モデルは平均F1スコアが0.98で、Qwen2.5:32BとDeepseekR1-32Bはそれぞれ0.96と0.95だった。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:25:10 GMT)
Characterising the Inductive Biases of Neural Networks on Boolean Data [0.5] 我々は,ネットワークの帰納的先行性,特徴学習を含むトレーニングダイナミクス,そしてその最終的な一般化を結びつける,エンドツーエンドで解析的に抽出可能なケーススタディを提供する。
モンテカルロ学習アルゴリズムでは,予測可能な学習力学と解釈可能な特徴の出現を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:03:33 GMT)
A tertiary review on quantum cryptography [0.4] 量子暗号は量子物理学の原理を用いて理論的に破壊不可能なセキュリティを作り出す。
その結果, 選択した論文の他の手法よりもQKDの方が有意な傾向を示した。
この分野は、実装コスト、エラー訂正、デコヒーレンス、キーレート、通信距離、量子ハッキングに関連する多くの問題に直面している。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:00:56 GMT)
LLM Performance for Code Generation on Noisy Tasks [0.4] 大規模言語モデル(LLM)は、テキストが人間の読み手には理解できないレベルまで難解なタスクを解くことができることを示す。
汚染されたデータセットと目に見えないデータセットの異なる性能劣化パターンの実証的証拠を報告する。
そこで本研究では, 難燃化下での性能低下を, データセット汚染検出の可能な戦略として提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:11:18 GMT)
From Connectivity to Autonomy: The Dawn of Self-Evolving Communication Systems [0.4] 本稿では,AIによるインテリジェンスによって静的接続を超えた動的適応が可能となる,自己進化型通信エコシステムとして6Gを想定する。
我々は、再構成可能なインフラ、適応型ネットワーク、インテリジェントネットワーク機能にまたがる自律通信システムの鍵となる実現可能性について検討する。
本研究は, リアルタイム意思決定の改善, 効率の最適化, 制御システムの遅延低減の可能性を強調した。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:45:02 GMT)
Demonstration of Quantum-Secure Communications in a Nuclear Reactor [0.3] 量子鍵分散(QKD)は、初めて無条件で安全な遠隔通信を約束する。
この研究は、将来のデジタル駆動型原子炉技術のための量子ベースの安全な遠隔通信の可能性を示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:25:21 GMT)
Fischer Information of a Nonequilibrium Anharmonic Donor-Acceptor Rectifier [0.3] 非平衡ドナー・アクセプタ量子系を非調和振動モードに結合して検討する。
我々は、ドナーエネルギー、アクセプタエネルギー、振動周波数といった重要なパラメータを推定する。
この研究は、ナノスケール量子デバイスにおけるパラメータ推定を強化する理論的基盤を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:45:17 GMT)
Data Model Design for Explainable Machine Learning-based Electricity Applications [0.3] 本稿では,エネルギー応用に関連する様々な種類のデータを特定し,構造する分類法を提案する。
本研究では, 4つの解釈可能な機械学習手法の予測精度に及ぼすドメイン, コンテキスト, 行動特性の影響について検討した。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:16:16 GMT)
Advantage of multi-partite entanglement for quantum cryptography over long and short ranged networks [0.3] 汎用攻撃に対するGHZ状態ベース秘密共有プロトコルの亜種に対するセキュリティを示す。
次に、現実的なボトルネックネットワークよりもパフォーマンス上の優位性を示すパラメータを特定します。
量子リピータの追加は、ポイント・ツー・ポイントアプローチに対するマルチパーティ・エンタングルメントのパフォーマンス上の利点を解放する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:16:39 GMT)
An AI System for Continuous Knee Osteoarthritis Severity Grading Using Self-Supervised Anomaly Detection with Limited Data [0.3] 本研究は膝OAの自動連続グルーピングのための3段階的アプローチを提案する。
正常度の中心までの距離に基づいて、健康な膝X線の堅牢な表現と疾患の重症度を学ぶ。
提案手法は,OA検出率において最大24%のマージンで既存の技術よりも優れており,疾患重症度スコアはKellgren-Lawrenceグレーティングシステムと人間専門家の成績と同等のレベルで相関している。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:02:57 GMT)
multivariateGPT: a decoder-only transformer for multivariate categorical and numeric data [0.3] 本稿では,混合分類(トークン化テキストを含む)と数値データのシーケンスをモデル化するための単一アーキテクチャを提案する。
簡単な物理系におけるパターンの一般化と複雑な時系列のモデル化を効果的に学習する方法を実証する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:51:28 GMT)
Reducing Latency in LLM-Based Natural Language Commands Processing for Robot Navigation [0.3] 本研究では,ChatGPT自然言語モデルとロボットオペレーティング・システム2(ROS2)の統合によるインタラクション遅延の軽減について検討する。
トランスポートプラットフォームを必要とせずにこれらの技術を統合するアーキテクチャを提案する。
実験により、この統合により、人間とロボットの相互作用の実行速度、ユーザビリティ、アクセシビリティが向上することが示された。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:16:14 GMT)
Constraints and Variables Reduction for Optimal Power Flow Using Hierarchical Graph Neural Networks with Virtual Node-Splitting [0.2] パワーシステムネットワークは、しばしば同質グラフとしてモデル化され、グラフニューラルネットワーク(GNN)が同一ノードで個々のジェネレータ機能をキャプチャする能力を制限する。
提案した仮想ノード分割戦略を導入することで、コスト、制限、ランプレートといったジェネレータレベルの特性をGNNモデルで完全に捉えることができる。
二段階適応階層型GNNは、(i)混雑する臨界線を予測し、(ii)最大容量で作動するベースジェネレータを予測するために開発された。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:57:08 GMT)
Automatic classification of stop realisation with wav2vec2.0 [0.2] 我々は,wav2vec2.0モデルを用いて,バーストの有無を自動的に高精度に分類できることを示した。
これらの結果は,音声コーパスデータの自動アノテーションおよび処理ツールとして,事前学習された音声モデルの可能性を示している。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:25:35 GMT)
Space magnetometry with a differential atom interferometer [0.2] 国際宇宙ステーション(ISS)にあるNASAのコールド・アトム・ラボ(Cold Atom Lab)で、差動単ループと二重ループの干渉計を用いて行われた軌道磁気学のキャンペーンについて報告する。
磁気感度および非感度状態の原子との測定を比較することで、磁場曲率をマッピングする原子磁気センサを実現した。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:11:31 GMT)
Towards Explainable Sequential Learning [0.2] 本稿では,ハイブリッドな時間データ処理パイプラインであるDataFul Explainable MultivariatE coRrelatIonal Temporal Artificial Intelligence (EMeriTAte+DF)を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:30:59 GMT)
Spectrotemporal Modulation: Efficient and Interpretable Feature Representation for Classifying Speech, Music, and Environmental Sounds [0.2] 本研究では,ヒト聴覚皮質の神経生理学的表現を模倣する信号処理法である,分光時間変調(STM)の特徴に着目した新しいアプローチを提案する。
STMに基づくモデルの分類性能は、事前訓練なしに、様々な自然主義的音声、音楽、環境音の事前訓練されたDNNに匹敵する。
これらの結果から,STMは音声分類のための効率的かつ解釈可能な特徴表現であり,音声や聴覚科学の基本的な理解や,BCIや認知コンピューティングの発達にともなって,機械聴取とアンロックによるエキサイティングな新たな可能性の開拓が進んでいることが示唆された。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:52:47 GMT)
CLaC at SemEval-2025 Task 6: A Multi-Architecture Approach for Corporate Environmental Promise Verification [0.2] 本稿では,企業ESG(環境・社会・ガバナンス)レポートにおける約束の検証に焦点を当てたSemEval-2025 Task6(PromiseEval)について述べる。
本研究では,3つのモデルアーキテクチャを探索し,確証評価,明確性評価,検証タイミングの4つのサブタスクに対処する。
本研究は,クラス不均衡や限られた訓練データによる課題にもかかわらず,言語的特徴抽出,注意プーリング,多目的学習の有効性を強調した。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:19:00 GMT)
Benchmarking ORCA PT-1 Boson Sampler in Simulation [0.2] ORCAコンピューティングは、ボソンサンプリングの原理を使って多くの計算問題を解く、タイムビン干渉計(TBI)を開発した。
シミュレータのスケーリングが従来の方法よりも悪いことを示すが,出力が計算されるよりも物理装置に委ねられる可能性は低い。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:01:46 GMT)
Automated Modeling Method for Pathloss Model Discovery [0.2] 本稿では,解釈可能性を維持しながら経路損失モデルの発見を加速する新しい手法を提案する。
一つはDeep Symbolic Regressionをベースとし、もうひとつは完全な解釈可能性を提供し、もうひとつはKolmogorov-Arnold Networksをベースとし、2つのレベルの解釈性を提供している。
以上の結果から,Kolmogorov-Arnold Networks は予測誤差を最小化して 1 に近い R2 値を達成する一方,Deep Symbolic Regression は適度な精度でコンパクトなモデルを生成することがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:04:07 GMT)
Evaluating AI capabilities in detecting conspiracy theories on YouTube [0.1] 本研究では,オープンウェイトなLarge Language Models (LLMs) のテキストのみとマルチモーダルの両方を用いて,YouTube上での陰謀論のビデオの識別を行う。
我々は、ゼロショット設定で様々なLLMを評価し、その性能を微調整されたRoBERTaベースラインと比較した。
その結果,テキストベースのLLMは高いリコール精度,低い精度を実現し,偽陽性が増大した。
マルチモーダルモデルはテキストのみのモデルよりも遅れており、ビジュアルデータ統合のメリットが限定されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:44:36 GMT)
Diffraction phase-free Bragg atom interferometry [0.1] 入射波パケットの有限温度と高次ブラッグ回折のマルチパス特性を考察する。
提案手法は, マイクロラジアンの次数, あるいはマイクロラジアン以下での回折位相を, 入射ウェーブパケットの運動量幅に対して達成することができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:12:53 GMT)
The Arabic AI Fingerprint: Stylometric Analysis and Detection of Large Language Models Text [0.1] 大型言語モデル(LLM)は、人間のようなテキストを生成する際、前例のない能力を達成した。
本稿ではアラビア語機械生成テキストの包括的調査について述べる。
我々は,形式的文脈における異常な性能を実現するBERTに基づく検出モデルを開発した。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:24:00 GMT)
Digital Forensic Investigation of the ChatGPT Windows Application [0.0] 本研究では,調査目的のデジタルアーティファクトの同定と回収に焦点を当てた。
本研究では,アプリケーションからキャッシュ,チャットログ,メタデータ,ネットワークトラフィックを抽出し,分析するさまざまな手法について検討する。
私たちの重要な発見は、削除後も回復できるアプリケーションのチャット、ユーザーインタラクション、システムレベルのトレースの履歴も示しています。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:41:13 GMT)
A Novel Stabilizer-based Entanglement Distillation Protocol for Qudits [0.0] エンタングルメント蒸留は、エラー発生環境における堅牢な量子情報処理に重要である。
安定化器符号に基づく構築は、そのようなプロトコルを設計するための効果的な方法を提供する。
本稿では, 素次元のすべてのバイパルタイト状態に適用可能な新しい2コピー蒸留プロトコルを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:54:25 GMT)
Zero-Shot Pseudo Labels Generation Using SAM and CLIP for Semi-Supervised Semantic Segmentation [0.0] 注釈付きラベルと擬似ラベルを用いた画像を用いた意味的セグメンテーションモデルを訓練する手法を提案する。
モデルの精度は、擬似ラベルの品質と注釈付きラベルによるデータの量に依存する。
提案手法の有効性は,公開データセットであるPASCALとMS COCOを用いて実証した。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:13:55 GMT)
YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering [0.0] 大規模言語モデル (LLM) は現代の検索エンジンに科学的疑問を投げかけるが、その評価は未定である。
評価器の最適化バイアスを軽減するために,きめ細かなルーリック評価と強化学習を組み合わせたオープンソースのフレームワークであるYESciEvalを紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:45:00 GMT)
Wake-Informed 3D Path Planning for Autonomous Underwater Vehicles Using A* and Neural Network Approximations [0.0] 従来の経路計画手法では、詳細なウェイク構造を組み込むことができず、結果としてエネルギー消費が増加し、制御安定性が低下し、安全性のリスクが高まる。
本稿では,局所的な覚醒効果と大域的な電流を計画アルゴリズムに統合した新しい3次元経路計画手法を提案する。
その結果、ウェイクインフォームされたA*プランナーは、常に最低エネルギー消費を達成し、高速度領域との遭遇を最小限に抑えることを示した。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:53:13 GMT)
Unsupervisedly Learned Representations: Should the Quest be Over? [0.0] 強化学習が動物と同じ精度の表現を学習できることを実証する。
これらの観察の要旨は、シミュレーション環境で訓練される可能性のある教師なし学習の競争パラダイムのさらなる探索が無駄になる可能性があるということである。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:26:12 GMT)
Unified Structural Embedding of Orbifold Sigma Models [0.0] 本研究ではオービフォールドシグマモデルのための新しい統一構造フレームワークを提案する。
形式主義は、従来のシグマモデルを復元すると、$G$が自明な群に近づく滑らかな極限が得られる。
例えば、$mathbbC/mathbbZ$ orbifoldの明示的な計算などである。
論文参考訳(メタデータ) (Thu, 29 May 2025 00:30:19 GMT)
Two identical 1D anyons with zero-range interactions: Exchange statistics, scattering theory, and anyon-anyon mapping [0.0] ボソンとフェルミオン(準粒子に当てはまる)を補間する一般的な交換統計は興味深い話題となっている。
この研究は、2つの同一の1次元ボソニック・エノンと、2つの同一の1次元フェルミオン・エノンと、ゼロレンジの接触相互作用を持つ2つの同一の1次元フェルミオン・エノンの散乱フレームワークを開発する。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:53:05 GMT)
Translation in the Wild [0.0] 大きな言語モデル(LLM)は翻訳に優れています。
しかし、専用ニューラルネットワーク翻訳モデルとは異なり、LLMは翻訳関連の目的についてトレーニングされていない。
私の作業仮説では、LLMの翻訳能力は2種類の事前学習データに起因している。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:26:04 GMT)
Trajectory Generator Matching for Time Series [0.0] 軌道フローマッチングにインスパイアされたSDEとジャンププロセスの新しいジェネレータを見つける。
ジャンプカーネル密度をパラメータ化することで、基礎となるプロセスの不連続性を扱うことができる。
他のほとんどのアプローチとは異なり、不規則にサンプリングされた時系列を扱うことができる。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:56:32 GMT)
Tracking Progress Towards Sustainable Development Goal 6 Using Satellite Imagery [0.0] 本研究では,ランドサット8号とセンチネル2号の衛星画像であるアフロバロメータ調査データを統合し,アフリカ各地の水道水・下水システムへのアクセスを評価するためのモデリングフレームワークを開発した。
このモデリングフレームワークは、水道水96%、下水システムアクセス分類97%という顕著な精度を達成した。
このアプローチは、政策立案者や利害関係者に、効果的な、スケーラブルで、コスト効率のよいツールを提供して、対象とする介入を必要とする未解決領域を特定します。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:00:21 GMT)
Towards A Global Quantum Internet: A Review of Challenges Facing Aerial Quantum Networks [0.0] 量子ネットワークは、セキュアな通信ネットワークを作成するために量子物理学の原理を使用する。
本稿では,このような空飛ぶリンクがどのように機能するか,構築が難しいのか,そしてこれらの問題を克服するために利用可能な解決策についてレビューする。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:15:34 GMT)
Toward Knowledge-Guided AI for Inverse Design in Manufacturing: A Perspective on Domain, Physics, and Human-AI Synergy [0.0] 我々は、ドメイン知識、物理インフォームドラーニング、直感的なヒューマンAIインターフェースを統合することで、ブラックボックスモデリングを超越する次世代の設計システムについて論じる。
実証的な例や概念的な枠組みを通じて、製造における逆設計は統一されたエコシステムへと進化すべきである、と我々は主張する。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:15:27 GMT)
Theoretical Foundations of the Deep Copula Classifier: A Generative Approach to Modeling Dependent Features [0.0] ディープコピュラ(Deep Copula、DCC)は、各特徴の辺縁分布の学習を、その結合依存構造をモデル化することから分離する生成モデルである。
軽量ニューラルネットワークは、機能相互作用を柔軟かつ適応的にキャプチャするために使用される。
DCCは依存性を意識した分類のための数学的基盤と解釈可能なフレームワークを提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:07:26 GMT)
The Multiverse: a Philosophical Introduction [0.0] この本は、我々の宇宙は多くの宇宙の1つにすぎないという考えを哲学者が導入したものである。
私はこのアイデアの3つのバージョン、哲学の1つのバージョンと物理学の2つのバージョンを提示して評価します。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:46:01 GMT)
The 2-Category of Topological Quantum Computation [0.0] 同じカテゴリがトポロジカル量子コンピューティングモデルを定式化していると広く考えられている。
本稿では、任意の理論とトポロジカル量子コンピューティングのモデルの両方をキャプチャし、統一する分類形式論は、ブレイド(融合)2-カテゴリである、と論じる。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:25:27 GMT)
Testing quantum theory on curved space-time with quantum networks [0.0] 量子技術は自然の基本的なテストに新たな機会をもたらす。
1つの潜在的な応用は、量子物理学と一般相対性理論の間の相互作用を探索することである。
このインタフェースをテストするために、量子ネットワークが新しいウィンドウを開くことを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:51:44 GMT)
Targeted Nakamoto: A Bitcoin Protocol to Balance Network Security and Energy Consumption [0.0] ターゲットナカモト(Targeted Nakamoto)は、ターゲットのハッシュレート間隔で鉱山労働者を誘引するProof-of-Workプロトコル拡張である。
ハッシュレートが目標以上の場合、天井は、採掘者が受け取ることができるブロック報酬の上に置かれる。
ハッシュレートが目標より下にある場合、床は採掘者のブロック報酬の下に置かれる。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:52:22 GMT)
Synchronizing Process Model and Event Abstraction for Grounded Process Intelligence (Extended Version) [0.0] モデル抽象化(MA)とイベント抽象化(EA)は、(発見された)モデルとイベントデータの複雑さを軽減する手段です。
同期モデルとイベント抽象化の正式な基盤を提供する。
我々は,非順序保存MA手法として,行動プロファイルの抽象化に基づくアプローチの実現可能性を証明する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:15:23 GMT)
Strategic Reflectivism In Intelligent Systems [0.0] 20世紀後半までに、合理性戦争は直感的で反射的な思考の性質と規範に関する議論を巻き起こした。
本稿では,人間と機械の実験結果をもとに,古いアイデアを合成する。
その結果は、知的システム(人間または人工)に対する一つの鍵が、競争目標を最適に満たすために直感的および反射的推論を実践的に切り替えることである、という立場を取る戦略的反射主義(Strategic Reflectivism)である。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:51:20 GMT)
Stereo Radargrammetry Using Deep Learning from Airborne SAR Images [0.0] 空中合成開口レーダ(SAR)画像からの深層学習を用いたステレオレーダグラム法を提案する。
我々は,SAR画像データセットを作成し,深層学習に基づく画像対応手法の微調整を行う。
提案手法は,SAR画像の地上投影を伴わない画素による画質劣化を抑制する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:22:04 GMT)
Small Language Models: Architectures, Techniques, Evaluation, Problems and Future Adaptation [0.0] 小言語モデル(SLM)は、多種多様な言語タスクをうまく実行できることから、大きな注目を集めている。
本研究では,SLMの完全な評価,設計フレームワークの重視,トレーニングアプローチ,モデルサイズと複雑性の低減技術について述べる。
本研究では, SLM に適用された最適化手法を整理し, プルーニング, 量子化, モデル圧縮などの戦略を包含する新たな分類システムを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:57:36 GMT)
Simplicial methods in the resource theory of contextuality [0.0] 単体分布の理論に基づいて,プレシャフ理論測定シナリオのファンクショナルな一般化としてイベントシナリオを紹介する。
これらのカテゴリ上の対称なモノイド構造を定義し、分布関手を集合に拡張し、シミュレーションのプレシャフ-理論的な概念を一般化する資源理論を導出する。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:14:55 GMT)
Simple Diagonal State Designs with Reconfigurable Real-Time Circuits [0.0] 2-局所ハミルトニアンの下でのリアルタイム進化に基づく簡便で効率的な対角状態3次元設計を導入する。
我々の構成は、多くのランダムな状態の準備を含む古典的なジラード・ハッチンソンのトレースにインスパイアされている。
重要なことに、我々のランダム状態はすべて、進化の期間の変動だけから生じるランダム性によって、リアルタイムの進化のために同じハミルトン的を使って生成される。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:41:58 GMT)
Second Opinion Matters: Towards Adaptive Clinical AI via the Consensus of Expert Model Ensemble [0.0] 本稿では, 単一モデルシステムにおける可溶化および剛性依存のリスクを克服する, コンセンサス機構と呼ばれる新しい枠組みを提案する。
コンセンサスメカニズムは、臨床意思決定の改善を可能にする専門的な医療専門家のアンサンブルを実装している。
論文参考訳(メタデータ) (Thu, 29 May 2025 04:29:22 GMT)
SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering? [0.0] SWE-LancerはUpworkの1,400以上のフリーランスソフトウェアエンジニアリングタスクのベンチマークである。
独立したタスクは、経験豊富なソフトウェアエンジニアによって三度検証されたエンドツーエンドのテストによって評価される。
モデル性能を評価し、フロンティアモデルが依然としてほとんどのタスクを解決できないことを発見した。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:07:34 GMT)
Roughening and dynamics of an electric flux string in a (2+1)D lattice gauge theory [0.0] 純粋な$mathbbZ$格子ゲージ理論における (2+1) 次元の粗化遷移について検討する。
その結果, エントロピー成長速度は, 粗化相におけるボソニックモデルによる励起弦の有効記述と一致していることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:56:52 GMT)
Robust and Annotation-Free Wound Segmentation on Noisy Real-World Pressure Ulcer Images: Towards Automated DESIGN-R\textsuperscript{\textregistered} Assessment [0.0] FUSegNetのような既存のモデルは、主に足の潰瘍データセットに基づいて訓練されているが、多くの場合、他の部位への一般化に失敗する。
本稿では,軽量なYOLOv11n検出器と事前学習されたFUSegNetセグメンテーションモデルを組み合わせたアノテーション効率パイプラインを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:25:30 GMT)
Rethinking Chunk Size For Long-Document Retrieval: A Multi-Dataset Analysis [0.0] 複数の埋め込みモデルを用いた定サイズチャンキング戦略の評価と検索性能への影響について検討した。
短文データセットと長文データセットの両方で行った実験により,チャンクサイズが検索効率において重要な役割を担っていることが明らかとなった。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:16:42 GMT)
Reproducing the effects of quantum deformation in the undeformed Jaynes-Cummings model [0.0] Jaynes-Cummings (JC) モデルでは、結合パラメータの時間依存性はラビ振動の形式の変化を許容する。
Inverse problem approach (IPA) を用いて、未変形JCの集団逆転における$kappa$-deformationの効果を再現する時間依存結合を得る。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:08:52 GMT)
Reassessing the strength of a class of Wigner's friend no-go theorems [0.0] 最近の2つの定理は、物理的現実の可能な性質に新しい非自明な制約を課そうとする。
私はこれらの定理を徹底的に分析し、それらがそれらの妥当性を疑問視し、その強さを制限する欠点のリストに悩まされていることを示す。
観察者に依存しない事実に対するノーゴー定理」と「ローカルフレンドリーなノーゴー定理」は、物理的な現実の性質に重大な制約を課すことができないと結論づける。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:28:32 GMT)
Quantum Measurement for Quantum Chemistry on a Quantum Computer [0.0] 任意の量子アルゴリズムの重要な構成要素は、所望のプロパティが量子コンピュータから抽出される測定ステップである。
このレビューは、量子化学に適した量子計測技術の最近の進歩に焦点を当てている。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:38:23 GMT)
Plug In and Learn: Federated Intelligence over a Smart Grid of Models [0.0] 本稿では,スマートパワーグリッドの動作を反映したモデルに依存しないフェデレーション学習手法を提案する。
エネルギー・プロシューマーのような 多様なローカルモデル 独自のデータで 独立して訓練する 統計学的に類似した仲間と 調整するために 軽量な信号を交換する
この調整はグラフベースの正規化器によって管理され、コネクテッドモデルが共有された公開ラベルのないデータセットで同様の予測を生成することを奨励する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:27:48 GMT)
PhysicsNeRF: Physics-Guided 3D Reconstruction from Sparse Views [0.0] PhysicsNeRFは、スパースビューからの3D再構成のための物理的基盤となるフレームワークである。
ディープランキング、RegNeRFスタイルの整合性、スパシティ事前、クロスビューアライメントの4つの相補的な制約で、Neural Radiance Fieldsを拡張する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:30:17 GMT)
Periodicity of dynamical signatures of chaos in quantum kicked top [0.0] 我々は、量子キックトップをキック強度$k$で分析する。
我々はLoschmidtエコーにおける反射対称性とOTOCにおける時間周期性の特別な場合を指摘する。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:05:07 GMT)
Page Curve of average subsystem entropy [0.0] ページ曲線(英: Page curve)は、サブシステムサイズの関数としての平均サブシステムエントロピーの曲線である。
ここでは、量子状態上で平均化するサブシステムエントロピーと、なぜ曲線が上昇し、そのように落ちるのかを記述する。
論文参考訳(メタデータ) (Thu, 29 May 2025 02:40:07 GMT)
PCA for Enhanced Cross-Dataset Generalizability in Breast Ultrasound Tumor Segmentation [0.0] 医用画像のセグメンテーションでは、モデルが見えないデータセットにデプロイされる場合、外部の妥当性が制限されることは依然として重要な障害である。
本稿では、この制限に対処するための主成分分析(PCA)の新たな適用法を提案する。
PCAプリプロセッシングはノイズを低減し、データセットの約90%の分散を保持することで必須の特徴を強調する。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:59:01 GMT)
Optimizing Storytelling, Improving Audience Retention, and Reducing Waste in the Entertainment Industry [0.0] 本研究では,従来の視聴者データと25000回以上のテレビドラマの自然言語処理(NLP)機能を統合し,予測精度を向上させる機械学習フレームワークを提案する。
Better Call SaulやAbbott Elementaryなど、さまざまなジャンルでテストされているこのフレームワークは、ジャンル固有のパフォーマンスを明らかにし、ライター、エグゼクティブ、マーケターに、オーディエンス行動に関するデータ駆動の洞察を求める解釈可能なメトリクスを提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:01:54 GMT)
Optimal number of stabilizer measurement rounds in an idling surface code patch [0.0] コードパッチに符号化された論理量子ビットに対する安定化器測定ラウンドの速度を数値的に最適化する。
我々は、ゲート誤差、読み出し誤差、振幅、位相減衰を含む回路レベルの環境騒音をモデル化する。
定性的には、安定した測定ラウンドの最適な数は、より良いキュービットのために小さくなり、より良いゲートやより大きなコードサイズのために大きくなっています。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:33:12 GMT)
Optimal Control by Variational Quantum Algorithms [0.0] 古典的成分と量子的成分の両方の制約を考慮に入れた一般的な制御最適度(英語版)という指標を導入する。
本稿では、量子最適制御問題の解法としてハイブリッド量子アルゴリズムの適用可能性を示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:55:37 GMT)
On the Physical Untenability of the Standard Notion of Quantum State [0.0] この研究で、量子状態の概念の複数の定義の中に存在する深い矛盾を明らかにする。
我々は、理論物理学の合理的な理解のために、この概念の不安定性に関する議論に終止符を打つ。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:30:27 GMT)
Numerical Optimization Strategies for the Variational Hamiltonian Ansatz in Noisy Quantum Environments [0.0] tVHAを用いた変分量子化学の8つの最適化アルゴリズムのベンチマークを行う。
ノイズのないサンプリングノイズ条件下では,$H$,$H_4$,$LiH$の性能を評価する。
ノイズサンプリングによって設定された精度限界を同定し,約1000発以上のリターンを減少させる。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:30:21 GMT)
Neural networks with image recognition by pairs [0.0] 距離認識法に基づくニューラルネットワークは、厳密に決定されたアーキテクチャを持つ。
ニューロンの数、接続、およびウェイトとしきい値は、タスクの初期条件に基づいて解析的に計算される。
本稿では,重み値を計算する解析式を使わずに,従来の学習アルゴリズムを応用するために,これらのネットワークを変換する可能性について論じる。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:20:14 GMT)
NAZM: Network Analysis of Zonal Metrics in Persian Poetic Tradition [0.0] この研究は、古典ペルシア詩人の影響力のダイナミクスをシミュレートする計算モデルを定式化した。
我々は、各詩人のコーパスを分類するために、意味的、語彙的、スタイリスティック、主題的、計量的特徴を描き出す。
類型的洞察を得るためには,Louvainコミュニティ検出アルゴリズムを用いて,スタイルとテーマのコヒーレンスを共有する詩人のクラスタを分離する。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:44:10 GMT)
Multilingual Question Answering in Low-Resource Settings: A Dzongkha-English Benchmark for Foundation Models [0.0] ブータンの中学校と高校生を対象に、Dzongkhaと英語の同時テスト質問のデータセットを提供する。
私たちのコレクションにある5万以上の質問は、さまざまな科学的トピックに及び、事実、応用、推論に基づく質問を含む。
並列データセットを用いて、多数のLarge Language Model(LLM)をテストし、英語とDzongkhaのモデル間で大きなパフォーマンス差を見出した。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:11:54 GMT)
More-efficient Quantum Multivariate Mean Value Estimator from Generalized Grover Operator [0.0] 我々は、$Oleft(n log fracddeltaright)$サンプルを使用して、$vectildemu$の平均推定値を求めるアルゴリズムを見つける。
我々の結果は、複雑さの$log fracddelta$項が原因で、まだ正確には最適ではない。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:01:27 GMT)
MCP Safety Training: Learning to Refuse Falsely Benign MCP Exploits using Improved Preference Alignment [0.0] モデルコンテキストプロトコル(MCP)は、生成AIエージェントのシームレスな統合を可能にするオープン標準として広く採用されている。
最近の研究によると、MPPは検索ベースの「偽の良さ」AI攻撃(FBA)の影響を受けており、悪意のあるシステムアクセスとクレデンシャル盗難を可能にしている。
攻撃者は、悪意のあるコンテンツをオンラインで投稿するだけで、MCPエージェントを騙して、不審な被害者のシステムに対する攻撃を行なえることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:44:29 GMT)
Long-time signatures of chaos in large atom-light frequency ratios Rabi model [0.0] 大規模な原子-光周波数比Rabiモデルにおけるカオスの長期量子シグネチャについて検討した。
本結果は, 量子崩壊と再生効果により対応原理が無効化されないことを示唆している。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:40:08 GMT)
Literature Review Of Multi-Agent Debate For Problem-Solving [0.0] マルチエージェント大規模言語モデル(MA-LLM)は、複雑なタスクに対処するために複数の対話型言語エージェントを活用する、急速に成長する研究分野である。
本稿では,エージェントプロファイル,コミュニケーション構造,意思決定プロセスに関する最新の研究を概説する。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:57:00 GMT)
Leveraging machine learning features for linear optical interferometer control [0.0] 我々は、特定のアーキテクチャ制約によらず、再構成可能な光干渉計のモデルを構築するアルゴリズムを開発した。
本アルゴリズムでは,教師付き学習手法を用いて,干渉計モデルと学習対象装置からのトレーニングセットを整列する。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:11:17 GMT)
Keyed Chaotic Tensor Transformations for Secure And Attributable Neural Inference [0.0] この研究は、キー付きカオス動的変換に基づくセキュアでプライバシ保護のニューラルネットワーク推論のための新しいフレームワークを導入している。
提案手法はテンソルに決定論的で暗号的にシードされたカオスシステムを適用し,非可逆なユーザ固有の変換を生成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:05:42 GMT)
Intermediate State Formation of Topologically Associated Chromatin Domains using Quantum Annealing [0.0] トポロジカル・アソシエーション・クロマティック・ドメイン(Topologically Associating Chromatic Domains)は、ゲノム要素を分離して転写を制御する空間的に異なる領域である。
最近のモデルはスピン系を表し、ヌクレオソームは離散状態変数として扱われる。
本稿では,D-Wave量子プロセッサのトポロジーにエピジェネティックIsingモデルを組み込んだ量子アニーリング(QA)手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:40:39 GMT)
Identity resolution of software metadata using Large Language Models [0.0] 本稿では,ソフトウェアメタデータ識別の課題に対する命令調整型大規模言語モデルの評価について述べる。
我々は、人間に注釈を付けた金の標準に対して複数のモデルをベンチマークし、あいまいなケースでそれらの振る舞いを調べ、高信頼度自動決定のための契約ベースのプロキシを導入した。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:47:31 GMT)
Identification of Patterns of Cognitive Impairment for Early Detection of Dementia [0.0] 本稿では,個人固有の障害パターンを識別し,周期的フォローアップのためのパーソナライズされたテストを作成する手法を提案する。
学習されたパターンの集合は、症状前および明らかに正常な人々であっても、認知障害の最も可能性の高い経路を特定するために使用される。
論文参考訳(メタデータ) (Thu, 29 May 2025 05:23:12 GMT)
Identification and Optimal Nonlinear Control of Turbojet Engine Using Koopman Eigenfunction Model [0.0] 非線形力学のスパース同定を用いてロータ動力学を推定した。
結果のKoopmanモデルは、社内のリファレンスコンポーネントレベルモデルに対して検証された。
固有モード構造により、最適化プロセス中に個々のモードをターゲットとすることができ、パフォーマンスチューニングが向上した。
論文参考訳(メタデータ) (Thu, 29 May 2025 13:02:34 GMT)
Hybrid Deep Learning Model to Estimate Cognitive Effort from fNIRS Signals in Educational Game Playing [0.0] 本研究では,ハイブリッド深層学習モデルを用いて,機能的近赤外分光法(fNIRS)データと性能スコアに基づく認知的努力を推定する。
相対的神経効率(RNE)と相対的神経関与(RNI)は、認知活動を表すために用いられる2つの指標である。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:30:27 GMT)
Human Empathy as Encoder: AI-Assisted Depression Assessment in Special Education [0.0] 本稿では、透明で社会的に責任を負ううつ病重症度評価のための、人間中心のAIフレームワークであるHuman Empathy as tacit (HEAE)を紹介する。
本手法は,PHQ-9フレームワークによって指導された教師由来の,9次元の「共感ベクトル(Empathy Vector)」と,生徒の物語テキストを一意に統合する。
厳密な実験は、マルチモーダル融合、テキスト表現、分類アーキテクチャを最適化し、7レベルの重度分類において82.74%の精度を達成した。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:37:15 GMT)
How to (Un-) Quantum Mechanics [0.0] ハミルトン力学の定式化は抽象座標とモータに基づいており、哲学的な枠組みというより数学的である。
空間的時間的記述は客観性の条件ではなく、客観性の結果である。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:41:54 GMT)
Gravity-Bench-v1: A Benchmark on Gravitational Physics Discovery for Agents [0.0] Gravity-Bench-v1は環境ベースのベンチマークで、現代の科学と平行するタスクでAIエージェントに挑戦する。
重力ベンチ(Gravity-Bench)は、実際の世界から逸脱する物理、すなわち真の科学的一般化能力を評価するための分配外ケースを含む。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:35:03 GMT)
Graded Paraparticle Algebra of Majorana Fields for Multidimensional Quantum Computing with Structured Light [0.0] パラ粒子の代数構造にマヨラナの無限成分相対論的方程式を統合する枠組みを提案する。
スピン依存質量スペクトルを一般化量子統計学に関連する次数セクターにマッピングすることにより、マヨラナの質量スピン関係を具現化した方程式を導出する。
このアプローチにより、フェルミオンやボソン以外のパラ粒子ベースの量子情報処理を、グレード付きキューディットを使って設定できる。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:34:29 GMT)
Glucagon and insulin production in pancreatic cells modeled using Petri nets and Boolean networks [0.0] 糖尿病 (diabetes) は、血液中のグルコース濃度を一定に高めることによって特徴づけられる文明性慢性疾患である。
これらのプロセスをよりよく理解するために、私たちは、体内のグルコース調節のペトリネットモデルを作成することを目標にしました。
本稿では,膵β細胞におけるインスリン分泌のペトリネットモデル,および膵α細胞におけるグルカゴンについて紹介する。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:35:16 GMT)
Gibbs randomness-compression proposition: An efficient deep learning [0.0] 命題は、圧縮プロセスに関連する測定ベクトルの集合に対してギブスエントロピーを介して提示されるランダム性と圧縮を結びつける。
この提案は、新たに提案されたDual Tomographic Compression (DTC) compress-train frameworkで観測された振る舞いに由来する。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:48:35 GMT)
GenIC: An LLM-Based Framework for Instance Completion in Knowledge Graphs [0.0] GenIC: 2段階のジェネレーティブ・インスタンス・コンプリート・フレームワークを紹介します。
最初のステップは、マルチラベル分類タスクとして扱われるプロパティ予測に焦点を当てる。
2番目のステップはリンク予測であり、生成シーケンスからシーケンスへのタスクとしてフレーム化されている。
論文参考訳(メタデータ) (Thu, 29 May 2025 22:15:25 GMT)
GeNRe: A French Gender-Neutral Rewriting System Using Collective Nouns [0.0] 本稿では,フランス初のジェンダーニュートラル表記システムであるGeNReについて述べる。
我々は、RBSが生成したデータに基づいて訓練された2つの微調整言語モデルとともに、フランス語に適したルールベースシステム(RBS)を導入する。
また,他のシステムの性能向上のためのインストラクションベースモデルの利用についても検討し,Claude 3 Opusと我々の辞書を組み合わせることでRBSに近い結果が得られることを確認した。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:36:31 GMT)
Fully Generalized Spin Models with Strain Effects of Kitaev Spin Liquid Candidate Materials [0.0] 完全に一般化されたスピンモデルである$epsilon$-$KJGammaGamma'$を導入し、任意の格子変形を$epsilon$に明示的に組み込む。
すべてのスピン交換相互作用とそのひずみ依存係数は密度汎関数理論計算から得られる。
epsilon$-$KJGammaGamma'$モデルの対称性解析は、$d5$イオン、例えば$alpha$-RuCl$_3$、およびコバルト系化合物を含む$d7$の両方に適用できる。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:02:32 GMT)
From Mass-Shell Factorisation to Spin: An Attempt at a Matrix-Valued Liouville Framework for Relativistic Classical and Quantum Phase-Spacetime [0.0] リウヴィルの定理は位相空間の分布そのものに間に合うように一階述語であるが、相対論的質量殻の制約は$pmu p_mu = m2$はエネルギーの第二階述語である。
我々は、相対論的量子力学におけるディラックのアプローチと類似して$(p2 - m2)$を分解することで、ハミルトニアン内の両方のエネルギー枝を統一することは理にかなっていると論じる。
結果の行列に基づくリウヴィル方程式は第一次のままであり、自然に位相における行列値の確率密度関数が 4 倍 4 倍になることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:41:12 GMT)
Fooling the Watchers: Breaking AIGC Detectors via Semantic Prompt Attacks [0.0] テキスト・トゥ・イメージ(T2I)モデルの台頭は、フォトリアリスティックな人間の肖像画の合成を可能にした。
本研究では,自動対向プロンプト生成フレームワークを提案する。
提案手法は,オープンソースのAIGC検出器と商用AIGC検出器の両方を一貫して回避する,多種多様な制御可能なプロンプトを生成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:31:17 GMT)
Fermion parity and quantum capacitance oscillation with partially separated Majorana and quasi-Majorana modes [0.0] 半導体超伝導体量子ドット系における量子容量のフラックス誘起フェルミオンパリティ依存性振動はマヨラナゼロモードから生じうることを示す。
量子キャパシタンスのフラックス依存振動の検出は重要な実験的な進歩であるが、そのような観測だけでは位相的マヨラナゼロモードの存在の証拠は得られない。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:58:10 GMT)
Extending and measuring dephasing times of nuclear spins in NV centers of diamond [0.0] ダイヤモンドのNV中心では、核スピンは特に長い劣化時間を与える。
本研究では,核スピンの劣化時間を測定し,拡張する手法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:54:52 GMT)
Exploring Spatiotemporal Emotional Synchrony in Dyadic Interactions: The Role of Speech Conditions in Facial and Vocal Affective Alignment [0.0] 非重複音声は、より明確な感情的調整を促進する。
重なり合う言葉は同期を乱す。
指向性パターンでは, 顔の表情が発話に先行する傾向がみられた。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:30:48 GMT)
Exploring Societal Concerns and Perceptions of AI: A Thematic Analysis through the Lens of Problem-Seeking [0.0] 本研究では,AIとは対照的に人間の知能の特徴を明らかにするために,問題解決から問題解決を区別する新しい概念的枠組みを提案する。
このフレームワークは、AIは効率と最適化において優れているが、接地と人間の認識に固有のエンボディメントの柔軟性から派生したオリエンテーションは欠如している、と強調している。
論文参考訳(メタデータ) (Thu, 29 May 2025 18:24:34 GMT)
Evaluating Prompt Engineering Techniques for Accuracy and Confidence Elicitation in Medical LLMs [0.0] Chain-of-Thoughtは精度を向上させるが、自信過剰につながった。
感情は更に自信を増し、決定を下す危険を冒した。
これらの結果は, 高精度な医療業務に有効であるためには, 正確性と不確実性の両方に対処する必要があることを示唆している。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:13:26 GMT)
Equivalence of stochastic and deterministic policy gradients [0.0] 勾配と決定論的政策勾配, 自然勾配, 状態値関数は同一であることを示す。
そこで我々は, 決定主義的な政策を持つMDPを構築するための一般的な手順を開発する。
この結果から,状態制御値関数ではなく,状態値関数を近似することでポリシメソッドを統一することが可能であることが示唆された。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:51:34 GMT)
Enantiosensitive locking of photoelectron spin and cation orientation [0.0] 我々はスピン選択光誘起力学の動的・幾何学的機構を確立する。
我々は、光電子のスピンと親分子のホールに対する分子カチオン配向のエナンチオ感応性ロック(enantio-sensitive locking)という新しい効果を報告した。
注目すべきことに、この新しい効果はランダムに配向したキラル分子の光イオン化によって生じる。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:08:01 GMT)
Emergent social conventions and collective bias in LLM populations [0.0] 社会的慣行は、個人が集団を形成する方法を形成する社会調整のバックボーンである。
大規模言語モデル(LLM)エージェントの分散集団における普遍的な社会慣行の自然発生を示す実験結果を示す。
そして、エージェントが個別にバイアスを示さない場合でも、このプロセス中に集団バイアスがどれだけ強く現れるかを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:50:31 GMT)
Eigenstate thermalization to non-monotonic distributions in strongly-interacting chaotic lattice gases [0.0] 非単調平衡エネルギー分布はフェルミ・ディラックやボース・アインシュタイン形式と質的に異なる。
この効果は有限エネルギースペクトルを持つ系で現れ、正および負の温度の両方を支えている。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:27:53 GMT)
Eigenstate Thermalization Hypothesis (ETH) for off-diagonal matrix elements in integrable spin chains [0.0] 行列要素は指数的崩壊と互換性があることを数値的に示し、$exp(-L |M'scriptscriptscriptstylemathcalO_ij|)$とする。
一方、異なるマクロ状態の固有状態間の行列要素は $exp(-|M'_ijscriptscriptstylemathcalO|L2)$ として早く崩壊する。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:14:52 GMT)
Dynamic Spectral Backpropagation for Efficient Neural Network Training [0.0] 動的スペクトルバックプロパゲーション(DSBP)は、主固有ベクトルに勾配を投影することで、リソース制約下でのニューラルネットワークトレーニングを強化する。
堅牢性、少人数の学習、ハードウェア効率の課題に対処する5つの拡張が提案されている。
DSBP は CIFAR 10, Fashion MNIST, MedMNIST, Tiny ImageNet 上で Sharpness Aware Minimization (SAM), Low Rank Adaptation (LoRA), Model Agnostic Meta Learning (MAML) より優れている。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:47:50 GMT)
DiCoFlex: Model-agnostic diverse counterfactuals with flexible control [0.0] モデルに依存しない条件付き生成フレームワークであるDiCoFlexを提案する。
DiCoFlexは、妥当性、多様性、近接性、制約の順守という点で、既存の手法よりも優れていることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:37:47 GMT)
Deep Learning-Based Breast Cancer Detection in Mammography: A Multi-Center Validation Study in Thai Population [0.0] EfficientNetV2アーキテクチャを改良した乳房がん検出のための深層学習システムの開発
モデルはタイの主要な医療センターのマンモグラムで訓練され、3つの異なるデータセットで検証された。
がん検出では、それぞれのデータセットで0.89、0.96、0.94のAUROCを達成した。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:11:41 GMT)
Contrastive Learning and Abstract Concepts: The Case of Natural Numbers [0.0] 対照的な学習は、人間でも超人的範囲でも高い精度で、一目で数えられるように訓練できることを示す。
類似アーキテクチャのニューラルネットワークスキームを,一見教師付き学習(SL)のトレーニング・ツー・カウントの結果と比較した。
論文参考訳(メタデータ) (Thu, 29 May 2025 07:14:15 GMT)
Composite Reward Design in PPO-Driven Adaptive Filtering [0.0] 本稿では、SNRの改善、MSEの低減、残留滑らかさのバランスをとる複合報酬によって導かれるPPOを用いた適応フィルタリングフレームワークを提案する。
各種ノイズ型合成信号の実験により,PPOエージェントはトレーニング分布を超越し,実時間性能を実現し,従来のフィルタよりも優れることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:11:48 GMT)
Comparing the Moore-Penrose Pseudoinverse and Gradient Descent for Solving Linear Regression Problems: A Performance Analysis [0.0] 本稿では,線形回帰問題を解くための2つの基本的アプローチの比較性能について検討する。
両手法の理論的基盤を概観し,その計算複雑性を解析し,その経験的挙動を合成データセット上で評価する。
その結果,各手法が計算時間,数値安定性,予測精度の点で優れる条件が明らかになった。
論文参考訳(メタデータ) (Thu, 29 May 2025 15:28:46 GMT)
Comparative of Genetic Fuzzy regression techniques for aeroacoustic phenomenons [0.0] 本研究では, 遺伝的ファジィシステム (GFS) を用いて, 翼から発生する自己雑音をモデル化する。
公開されているエアフォイル・セルフノイズデータセットを用いて、様々なファジィ回帰戦略を探索、比較する。
論文参考訳(メタデータ) (Thu, 29 May 2025 17:59:04 GMT)
Comparative Analysis of the Land Use and Land Cover Changes in Different Governorates of Oman using Spatiotemporal Multi-spectral Satellite Data [0.0] 土地利用(LULC)の変化は、衛星変更の鍵となる応用である。
本研究は,2016年から2021年におけるオマーン県知事のLULC変化を年次時間ステップを用いて比較した。
監視された機械学習アルゴリズムは、水域、作物、都市など、異なる土地被覆の訓練と分類に使用された。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:36:23 GMT)
Chainless Apps: A Modular Framework for Building Apps with Web2 Capability and Web3 Trust [0.0] Chainless Appsは、実行、信頼、ブリッジング、決済を別々のコンポスト可能なレイヤに分離する、アプリケーションアーキテクチャの新しいパラダイムを提示します。
これにより、アプリ固有のシークエンシング、検証可能なオフチェーン計算、チェーンアセット、Agglayer経由のメッセージルーティングが可能になる。
論文参考訳(メタデータ) (Thu, 29 May 2025 01:55:17 GMT)
Causal Machine Learning in IoT-based Engineering Problems: A Tool Comparison in the Case of Household Energy Consumption [0.0] 因果機械学習法に基づく2つの一般的なツールを比較した。
ツールの動作は18のクエリに対する応答を調べることで実証される。
結果は奨励され、容易に他のドメインに拡張される可能性がある。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:25:14 GMT)
Can Modern NLP Systems Reliably Annotate Chest Radiography Exams? A Pre-Purchase Evaluation and Comparative Study of Solutions from AWS, Google, Azure, John Snow Labs, and Open-Source Models on an Independent Pediatric Dataset [0.0] 本研究では,エンティティ抽出とアサーション検出のための4つの臨床NLPシステムの比較を行った。
CheXpertとCheXbertの2つの専用の胸部X線写真レポートラベルが同じタスクで評価された。
小児科大病院における95,008例のCXR報告について検討した。
論文参考訳(メタデータ) (Thu, 29 May 2025 03:16:18 GMT)
CNN-LSTM Hybrid Model for AI-Driven Prediction of COVID-19 Severity from Spike Sequences and Clinical Data [0.0] スパイクタンパク質配列と臨床データを用いたCNN-LSTMハイブリッドモデルを構築した。
このモデルはF1スコア82.92%、ROC-AUC 0.9084、精度83.56%、リコール82.85%を達成した。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:20:54 GMT)
Bridging Classical and Modern Computer Vision: PerceptiveNet for Tree Crown Semantic Segmentation [0.0] PerceptiveNetは、トレーニング可能なフィルタパラメータを持つ対数ガボールパラメータ化畳み込み層を組み込んだ、新しいモデルである。
セグメンテーション性能に及ぼすLog-Gabor,Gabor,および標準畳み込み層の影響について検討する。
その結果,ツリークラウンデータセットの性能が向上し,最先端モデルよりも優れた結果が得られた。
論文参考訳(メタデータ) (Thu, 29 May 2025 16:11:08 GMT)
BanStereoSet: A Dataset to Measure Stereotypical Social Biases in LLMs for Bangla [0.0] 本研究は,バングラ語用多言語LLMにおけるステレオタイプ的社会的バイアスを評価するためのデータセットであるBanStereoSetを提示する。
私たちのデータセットは、人種、職業、性別、年齢、職業の美しさ、地域、カースト、宗教の9つのカテゴリーにまたがる1,194の文で構成されています。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:02:54 GMT)
Automated Polarization Basis Adjustment and Security Monitoring in Quantum Communication via Coincidence Entropies [0.0] 単一光子に対する偏光感度受信機は、量子通信や量子センシングの分野における様々な応用において重要である。
偏光絡み状態の同時測定のみに依存する全繊維検出装置における複屈折補償法を提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 23:28:13 GMT)
Assessment of Polarization Entanglement Source: Photon Counting and Correlation Measurement [0.0] 電気通信波長における偏光絡みの商業的源はすでに市場に出回っている。
本研究の目的は,光子計数と相関測定のための総合的なテストフレームワークを提供することである。
論文参考訳(メタデータ) (Thu, 29 May 2025 20:11:18 GMT)
An Advanced Cyber-Physical System Security Testbed for Substation Automation [0.0] サイバー物理システム(CPS)テストベッドは、サブステーションにおけるサイバー侵入の検出と緩和戦略のテストと検証のための強力なプラットフォームとして機能する。
本研究では,サブステーションのリアルタイムダイナミクスを効果的に評価できるCPSテストベッドの設計と開発について述べる。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:42:43 GMT)
Acoustic Classification of Maritime Vessels using Learnable Filterbanks [0.0] 異なる記録シナリオにまたがって頑健な性能を有するディープラーニングモデルを提案する。
我々のモデルであるCATFISHは、ジョージア海峡のVTUADハイドロフォン記録に基づいて、最先端の96.63パーセントのテスト精度を達成する。
論文参考訳(メタデータ) (Thu, 29 May 2025 19:41:15 GMT)
A2 Copula-Driven Spatial Bayesian Neural Network For Modeling Non-Gaussian Dependence: A Simulation Study [0.0] A2-SBNNは、座標を連続体にマッピングするために設計された予測空間モデルである。
A2-SBNNは、広範囲の依存性強度に対して、常に高い精度を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 21:02:44 GMT)
A non-Hermitian loop for a quantum measurement [0.0] 我々は、ハミルトニアンがメートルとの相互作用を符号化するパラメータ空間の閉ループを完備すると、崩壊が起こらなければならないと主張する。
2レベルシステムでは,重ね合わせを効果的に除去する機構として,キラル状態変換現象を提唱した。
論文参考訳(メタデータ) (Thu, 29 May 2025 08:17:29 GMT)
A new approximate Eastin-Knill theorem [0.0] 量子誤り訂正符号はゲートの普遍的な集合をサポートし, 局所消去に対してほぼ正であることを示す。
特に、量子誤り訂正符号は、符号化と雑音チャネルのChoi状態の条件最小エントロピーが最悪の誤差確率の関数によって上界にある場合に限り、ゲートの普遍的な集合をサポートすることができることを示す。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:03:49 GMT)
A hierarchy of thermodynamically consistent quantum operations [0.0] 我々は、量子演算の階層と測定値が弱い第三法則(I$)、強い第三法則(II$)、熱力学の第二法則と第三法則(III$)に一致すると考えている。
このような特性化により、与えられた量子演算や測定の(不可能な)到達性にどの熱力学原理が関与しているかを特定できる。
論文参考訳(メタデータ) (Thu, 29 May 2025 11:34:38 GMT)
A comparative analysis of a neural network with calculated weights and a neural network with random generation of weights based on the training dataset size [0.0] 本稿では,メートル法を実装した多層パーセプトロンニューラルネットワークの性能について論じる。
その結果、事前計算した重みを持つ多層パーセプトロンはより高速にトレーニングでき、トレーニングデータセットの縮小に対してより堅牢であることがわかった。
論文参考訳(メタデータ) (Thu, 29 May 2025 14:31:25 GMT)
A Straightforward Gradient-Based Approach for High-Tc Superconductor Design: Leveraging Domain Knowledge via Adaptive Constraints [0.0] 材料設計は、望ましい性質を持つ新規化合物を発見することを目的としている。
従来の要素置換アプローチは、様々なドメイン知識を容易に取り入れるが、狭義の探索空間に限られる。
深層生成モデルは、広大な構成的景観を効率的に探索するが、それらは柔軟にドメイン知識を統合するのに苦労する。
本稿では,これらの強度を組み合わせ,効率と適応性の両方を提供する勾配型材料設計フレームワークを提案する。
論文参考訳(メタデータ) (Thu, 29 May 2025 10:24:54 GMT)
A Practical Guide for Supporting Formative Assessment and Feedback Using Generative AI [0.0] 大規模言語モデル(LLM)は、学生、教師、同僚が「学習者が行く場所」、「学習者が現在いる場所」、「学習者を前進させる方法」を理解するのに役立つ。
本総説では,LSMを形式的評価に統合するための総合的な基盤を提供する。
論文参考訳(メタデータ) (Thu, 29 May 2025 12:52:43 GMT)
A New Scaling Function for QAOA Tensor Network Simulations [0.0] 本研究では,量子近似最適化アルゴリズム(QAOA)の絡み合いに着目した。
具体的には、従来のコンピュータ上でQAOAのテンソルネットワークシミュレーションを行い、過去の研究で提示されたスケーリング関係の研究を拡張した。
エントロピーを垂直軸として用いる場合においても,スケーリング関係が成り立つことが判明した。
論文参考訳(メタデータ) (Thu, 29 May 2025 09:01:44 GMT)