Scaling Vision Pre-Training to 4K Resolution [120.3] 視力トレーニングを4K解像度にスケールアップするPS3を,ほぼ一定コストで導入する。
グローバル表現に関する対照的な学習の代わりに、PS3はローカル領域を選択的に処理することで事前訓練される。
PS3は低解像度でグローバル画像をエンコードし、局所的な高解像度領域を選択的に処理できる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:13:40 GMT)
Reasoning with Exploration: An Entropy Perspective on Reinforcement Learning for LLMs [112.4] 強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 12:47:07 GMT)
Exploring 3D Reasoning-Driven Planning: From Implicit Human Intentions to Route-Aware Activity Planning [103.2] 本研究では,暗黙的な指示から意図した活動を導き,ステップ間の経路や計画を伴うステップに分解する新しい3Dタスクである3D推論駆動計画を提案する。
まずReasonPlan3Dという,多種多様な3Dシーンを多種多様な暗黙の指示でカバーする大規模ベンチマークを構築した。
第二に、複数のステップにまたがってコンテキスト整合性を持つプログレッシブプラン生成を導入する新しいフレームワークを設計する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 11:15:29 GMT)
Stochastic Encodings for Active Feature Acquisition [100.5] Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 23:48:46 GMT)
What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models? [95.5] 本稿では,Halucination検索を用いたObject Probing Evaluationベンチマークを紹介する。
これは、大きな視覚ランゲージモデルで幻覚を誘発する最も誤解を招きやすいイントラクタを生成することを目的としている。
実験結果から, HOPEの精度は少なくとも9%低下し, 最先端のLVLMでは最大23%低下した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:11:48 GMT)
A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models [94.5] 人間の認知に触発された動的刈り取りフレームワークGlimpsePruneを導入する。
データ駆動の 'glimpse' を受け取り、応答生成の前に単一のフォワードパスで無関係な視覚トークンをプルーンする。
強化されたGlimpsePrune+は、同様に高いプルーニング率を維持しながら、ベースライン性能の110%を達成する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 02:15:43 GMT)
Multimodal 3D Reasoning Segmentation with Complex Scenes [92.9] シーン内の複数のオブジェクトによるセグメンテーションを推論するための3次元推論セグメンテーションタスクを提案する。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,複数のオブジェクトのクエリを扱う新しい3D推論ネットワークMORE3Dを設計する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 11:03:07 GMT)
Versatile Transition Generation with Image-to-Video Diffusion [89.7] 本稿では,スムーズで高忠実でセマンティックにコヒーレントな動画遷移を生成できるVersatile Transitionビデオ生成フレームワークを提案する。
我々は,VTGが4つのタスクすべてにおいて,優れた遷移性能を実現することを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:03:56 GMT)
LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.7] 大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。
LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。
これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 12:57:19 GMT)
Agree to Disagree? A Meta-Evaluation of LLM Misgendering [84.8] 我々は,誤認識に対する確率および生成に基づく評価手法の体系的メタ評価を行う。
3つのファミリから6つのモデルのスイートを自動的に評価することにより、これらのメソッドがインスタンス、データセット、モデルレベルで互いに一致しないことが分かる。
また、誤認識行動は複雑であり、代名詞をはるかに超えており、人間の評価と本質的な相違が示唆されていることも示している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:14:13 GMT)
TimeExpert: An Expert-Guided Video LLM for Video Temporal Grounding [84.0] VTGタスクを効果的に分解するMixture-of-Experts(MoE)ベースのVideo-LLMであるTimeExpertを紹介する。
我々の設計選択は各サブタスクの正確な処理を可能にし、様々なVTGアプリケーション間でのイベントモデリングの改善につながります。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:03:58 GMT)
Towards Temporal-Aware Multi-Modal Retrieval Augmented Generation in Finance [79.8] FinTMMBenchは、ファイナンスにおける時間対応マルチモーダル検索・拡張生成システムを評価するための、最初の包括的なベンチマークである。
NASDAQ 100社の異種データから構築されたFinTMMBenchには,3つの大きなメリットがある。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:19:40 GMT)
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.9] 本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 23:59:31 GMT)
SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.2] SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。
本研究では,SmallKVのスループットがベースライン法よりも1.75~2.56倍高いことを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:15:36 GMT)
RouteMark: A Fingerprint for Intellectual Property Attribution in Routing-based Model Merging [69.2] 我々は,統合されたMoEモデルにおけるIP保護のためのフレームワークであるRouteMarkを提案する。
我々の重要な洞察は、タスク固有の専門家は、探索入力の下で安定かつ独特なルーティング行動を示すことである。
属性と改ざん検出のために,類似性に基づくマッチングアルゴリズムを導入する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:51:58 GMT)
StrandDesigner: Towards Practical Strand Generation with Sketch Guidance [69.1] 本稿では,ユーザフレンドリなまま,より細かい制御が可能なスケッチベースストランド生成モデルを提案する。
私たちのフレームワークは、複雑なストランド相互作用や多様なスケッチパターンのモデリングなど、重要な課題に取り組みます。
いくつかのベンチマークデータセットの実験により、我々の手法は現実主義や精度において既存の手法よりも優れていることが示された。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:17:50 GMT)
Diffusion Models for Future Networks and Communications: A Comprehensive Survey [66.0] 近年のGenerative AI(GenAI)の台頭は、無線通信やネットワークの変革的進歩を触媒している。
GenAIファミリーの中では、拡散モデル(DM)が強力な選択肢として注目されている。
我々は,将来の通信システムにおけるDMの理論的基礎と実践的応用の包括的概要を提供する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:59:58 GMT)
Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.6] 本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。
CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:15:52 GMT)
Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.2] マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 12:06:47 GMT)
Reconstructing 4D Spatial Intelligence: A Survey [57.9] 視覚観測から4D空間インテリジェンスを再構築することは、長い間、コンピュータビジョンにおける中心的かつ困難な課題であった。
我々は,既存の手法を5つの段階の4次元空間知能に整理する新たな視点を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:18:19 GMT)
On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.0] 本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:26:20 GMT)
MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.7] マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 02:50:08 GMT)
GAS: Generative Avatar Synthesis from a Single Image [55.0] 本研究では,1枚の画像から一対一かつ時間的にコヒーレントなアバターを合成する枠組みを提案する。
提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせたものである。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:14:09 GMT)
HeQ: a Large and Diverse Hebrew Reading Comprehension Benchmark [54.7] 我々は,抽出質問としてヘブライ語機械読解データセットの提供に着手した。
ヘブライ語の形態学的に豊かな性質はこの努力に挑戦している。
我々は,新しいガイドラインのセット,制御されたクラウドソーシングプロトコル,評価基準の改訂を考案した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 15:53:01 GMT)
General detectability measure [53.6] 資源のない状態から資源状態を排除することは、量子情報の基本課題である。
我々は、与えられた$n$-tensorの積状態を検出するために、故障確率の最適指数減衰率を導出した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:30:08 GMT)
Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation [52.6] INSIGHTは、エゴセントリックなアクション予測のための2段階のフレームワークである。
最初の段階では、INSIGHTは手動オブジェクトの相互作用領域から意味的にリッチな特徴を抽出することに焦点を当てている。
第2段階では、明示的な認知的推論をシミュレートする強化学習ベースのモジュールを導入する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 12:52:27 GMT)
Non-Verbal Vocalisations and their Challenges: Emotion, Privacy, Sparseness, and Real Life [51.4] 非言語ボカライゼーション(Non-Verbal Vocalisations、NVV)は、適切な言語的意味(意味)を持たず、意味を伝達する短いノンワードの発話である。
プライバシーと一般的な倫理的配慮は、現実のシナリオにおいて十分な程度に記録されることを防ぐ。
これらの問題を克服するためのコーパスベースのアプローチを支持する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 23:59:43 GMT)
LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.6] モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。
LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。
評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:36:42 GMT)
Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents [49.9] 我々は,Webエージェントの能力を,知識コンテンツ学習と認知プロセスの2つの重要な段階に分解する。
知識獲得を容易にするため,14の現実世界のウェブサイトから収集した構造化リソースであるWeb-CogDatasetを構築した。
この基盤の上に構築し、新しい知識駆動型チェーン・オブ・ソート(CoT)推論フレームワークを通じてこれらのプロセスを運用する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:17:52 GMT)
Matrix encoding method in variational quantum singular value decomposition [49.5] 検討した$Ntimes N$行列の要素を適切な次元の量子系の状態に符号化した変分量子特異値分解を提案する。
制御された測定は、アンシラ測定の小さな成功を避けるために行われる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 06:58:04 GMT)
Performance and Storage Analysis of CRYSTALS Kyber as a Post Quantum Replacement for RSA and ECC [49.2] CRYSTALS-Kyberは、2022年にNISTによって標準化されたポスト量子暗号ソリューションである。
本研究は,様々な実装方式における性能試験を通じて,Kyberの実用可能性を評価する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:53:45 GMT)
Rein++: Efficient Generalization and Adaptation for Semantic Segmentation with Vision Foundation Models [47.7] Rein++は効率的なVFMベースのセグメンテーションフレームワークである。
これは限られたデータからの優れた一般化を示す。
多様な未ラベルシナリオへの効果的な適応を可能にする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:53:30 GMT)
BEAT: Balanced Frequency Adaptive Tuning for Long-Term Time-Series Forecasting [46.9] 時系列予測は、天気予報や金融市場モデリングを含む多くの現実世界のアプリケーションにとって不可欠である。
BEAT(Balanced frequency Adaptive Tuning)は、各周波数のトレーニング状況を監視し、勾配更新を適応的に調整する新しいフレームワークである。
BEATは7つの実世界のデータセットの実験において、最先端のアプローチを一貫して上回っている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:35:23 GMT)
Neural Predictive Control to Coordinate Discrete- and Continuous-Time Models for Time-Series Analysis with Control-Theoretical Improvements [46.2] 時系列問題を連続ODEに基づく最適制御問題として再放送する。
データからのみダイナミックスを学ぶのではなく、タスクの目的に向かってODE軌道を操縦する制御アクションを最適化する。
軽度の仮定では、この多重水平最適化は無限水平解への指数収束をもたらす。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:41:00 GMT)
Fine-grained Alignment of Large Language Models for General Medication Recommendation without Overprescription [45.4] 大規模言語モデル(LLM)は、一般的な医薬品推奨システムを達成する上で大きな可能性を秘めている。
本稿では,Language-Assisted Medication Recommendationを紹介する。
このフレームワークによる微調整 LLM は、内部バリデーションの10%以上を上回り、時間的および外部バリデーションをまたいで一般化することができる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:19:53 GMT)
Shape Distribution Matters: Shape-specific Mixture-of-Experts for Amodal Segmentation under Diverse Occlusions [44.9] 本稿では,アモーダルセグメンテーションのためのShapeMoEを提案する。
ShapeMoEは、各オブジェクトをキー形状特性をキャプチャするコンパクトなガウス埋め込みにエンコードする。
次にShape-Aware Sparse Routerがオブジェクトを最も適したエキスパートにマッピングし、正確かつ効率的なShape-Awareのエキスパートルーティングを可能にする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:47:59 GMT)
Skip priors and add graph-based anatomical information, for point-based Couinaud segmentation [44.7] 肝外科手術の術前計画はCT画像からのCouinaudセグメンテーションに依存している。
CTの体積を酸化するのではなく、3Dポイントベースで表現することで、CTの物理解像度を保存できるという利点がある。
そこで本研究では,肝血管構造を明示することなく,Couinaudセグメンテーションのポイントベース手法を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:52:14 GMT)
Energy-Efficient Federated Learning for Edge Real-Time Vision via Joint Data, Computation, and Communication Design [43.9] 無線エッジデバイスにおけるリアルタイムコンピュータビジョン(CV)アプリケーションは、エネルギー効率とプライバシ保護の学習を必要とする。
信頼できない無線ネットワーク上でのリアルタイムCVのための超エネルギー効率FLフレームワークであるFedDPQを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:05:11 GMT)
AGENTICT$^2$S:Robust Text-to-SPARQL via Agentic Collaborative Reasoning over Heterogeneous Knowledge Graphs for the Circular Economy [42.7] AgenticT$2$Sは、知識グラフを専門エージェントが管理するサブタスクに分解するフレームワークである。
2段階検証器は、構造的に無効で意味的に不特定なクエリを検出する。
実世界の循環経済の実験では、AgenticT$2$Sが実行精度を17.3%向上することを示した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 15:58:54 GMT)
Fair Generation without Unfair Distortions: Debiasing Text-to-Image Generation with Entanglement-Free Attention [42.3] Entanglement-Free Attention (EFA) は、非ターゲット属性をバイアス緩和時に保存しながら、ターゲット属性を正確に組み込む手法である。
推論時に、EFAは、ターゲット属性を同じ確率でランダムにサンプリングし、選択された層内の交差アテンションを調整して、サンプル属性を組み込む。
大規模な実験により、EFAは非ターゲット属性を保ちながらバイアスを緩和する既存の手法よりも優れていることが示された。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:30:11 GMT)
Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.1] 本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 06:21:59 GMT)
Harmonious Color Pairings: Insights from Human Preference and Natural Hue Statistics [42.0] HSL色空間における色空間の制御色に基づくパレットを用いた色ペアリング選好の定量的・データ駆動的な研究について述べる。
本研究の結果から,文献で提案される普遍調和規則の仮定に挑戦する傾向が示唆された。
興味深いことに、これらのパターンは自然の風景に見られる色相の分布と一致しており、人間の色嗜好と自然における色の構造の間の統計的対応を示している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:02:53 GMT)
Single Point, Full Mask: Velocity-Guided Level Set Evolution for End-to-End Amodal Segmentation [41.2] アモーダルセグメンテーションは、視覚的な外観を持たない隠蔽領域を含む完全な物体の形状を復元することを目的としている。
既存の方法は、目に見えるマスクやバウンディングボックスのような強力なプロンプトに頼っている。
本稿では,点ベースのプロンプトから明示的な進化を行うVELAを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:36:13 GMT)
Beyond Images: Adaptive Fusion of Visual and Textual Data for Food Classification [40.9] このフレームワークはUPMC Food-101データセットで厳格に評価され、画像の73.60%、テキストの88.84%の単調な分類精度を達成した。
両方のモダリティが融合されたとき、このモデルは97.84%の精度を達成し、いくつかの最先端の手法を上回った。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:57:01 GMT)
TSGS: Improving Gaussian Splatting for Transparent Surface Reconstruction via Normal and De-lighting Priors [39.6] 我々は、幾何学学習と外観改善を分離する新しいフレームワークであるTransparent Surface Gaussian Splatting (TSGS)を紹介した。
幾何学学習の段階では、TSGSは、表面を正確に表現するために、スペクトル抑圧された入力を用いて幾何学に焦点を当てる。
深度推定を強化するため、TSGSは第1面の深度抽出法を採用している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:32:22 GMT)
CUPID: Evaluating Personalized and Contextualized Alignment of LLMs from Interactions [39.6] CUPIDは、756人の人為的なインタラクションセッション履歴のベンチマークである。
オープンでプロプライエタリな10のLarge Language Model(LLM)を評価する。
我々の研究は、より文脈的にパーソナライズされたインタラクションのためにLLM機能を進化させる必要性を強調します。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:04:48 GMT)
Sonify Anything: Towards Context-Aware Sonic Interactions in AR [38.8] 実物体の材料を認識・分節するコンピュータビジョンの手法を用いた文脈認識型音の枠組みを提案する。
結果は、物質に基づく音がより現実的な音素相互作用をもたらすことを示している。
これらの結果から,ARにおける文脈認識,物質に基づく音素相互作用は,より強い現実感を育み,現実の環境に対する認識を高めることが示唆された。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:56:56 GMT)
Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.0] 視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 11:00:14 GMT)
SegmentDreamer: Towards High-fidelity Text-to-3D Synthesis with Segmented Consistency Trajectory Distillation [37.3] テキスト・ツー・3D生成の最近の進歩は、スコア蒸留サンプリング(SDS)とそのバリエーションの視覚的品質を改善している。
自己整合性と相互整合性の不均衡のため、CDベースの手法は本質的に不適切な条件ガイダンスに悩まされる。
我々は,高忠実度テキスト・ツー・3D生成のための一貫性モデルの可能性を完全に解き放つために設計された新しいフレームワークであるSegmentDreamerを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:51:56 GMT)
DanceGRPO: Unleashing GRPO on Visual Generation [36.4] 本稿では,グループ相対政策最適化を視覚生成パラダイムに適用する最初の統合フレームワークであるDanceGRPOを紹介する。
私たちの知る限り、DanceGRPOは様々な生成パラダイムをシームレスに適応できるRLベースの統合フレームワークとしては初めてのものです。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:04:53 GMT)
Semantic Encryption: Secure and Effective Interaction with Cloud-based Large Language Models via Semantic Transformation [35.1] クラウドベースの大規模言語モデル(CLLM)は、ユーザインタラクション中のデータのプライバシに関する重要な懸念を提起している。
本稿では,プライバシとユーティリティの両方を維持するために設計されたセマンティック暗号化(SE)のプラグイン・アンド・プレイフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:54:40 GMT)
Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection [34.9] CoDAv2は、新しい3Dオブジェクトのローカライズと分類の両方に取り組むために設計された統一フレームワークである。
CoDAv2は、高いマージンで最高のパフォーマンスの方法より優れている。
ソースコードと事前トレーニングされたモデルはGitHubプロジェクトページで公開されている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 15:13:12 GMT)
L3M+P: Lifelong Planning with Large Language Models [33.9] 本稿では,世界状態の表現として外部知識グラフを用いるフレームワークであるL3M+Pを紹介する。
計画時には、タスクの自然言語記述が与えられた場合、L3M+Pは知識グラフからコンテキストを検索し、古典的なプランナーのための問題定義を生成する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 21:01:50 GMT)
Shifting AI Efficiency From Model-Centric to Data-Centric Compression [33.4] 効率的なAIの研究の焦点は、モデル中心の圧縮からデータ中心の圧縮へとシフトしている、と我々は主張する。
我々はトークン圧縮を新たなフロンティアとして位置づけ、モデルトレーニングや推論中にトークンの数を減らすことでAI効率を向上させる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:09:02 GMT)
Context-Adaptive Multi-Prompt LLM Embedding for Vision-Language Alignment [33.2] 視覚言語コントラスト学習における意味表現の強化を目的とした,コンテキスト適応型マルチプロンプト埋め込みを提案する。
単一のテキスト埋め込みに依存する標準のCLIPスタイルモデルとは異なり、本手法では複数の構造化プロンプトを導入し、それぞれに異なる適応トークンを含む。
結果として得られる即時埋め込みは統一されたテキスト表現に統合され、視覚的特徴とのセマンティックにリッチなアライメントを可能にする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 20:48:43 GMT)
OccamVTS: Distilling Vision Models to 1% Parameters for Time Series Forecasting [32.9] 時系列予測は多様なアプリケーションに基本的であり、近年では視覚表現を通して時間パターンを捉えるために大きな視覚モデル(LVM)を活用している。
OccamVTSは,LVMからの予測情報の1%を軽量ネットワークに抽出する知識蒸留フレームワークである。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 11:43:52 GMT)
Am I Blue or Is My Hobby Counting Teardrops? Expression Leakage in Large Language Models as a Symptom of Irrelevancy Disruption [32.7] 本稿では,大言語モデルが入力コンテキストと意味的に無関係な感傷的な表現を生成する新しい現象である式リークを導入する。
実験の結果、モデルがパラメータ空間でスケールするにつれて、式リークはLLMファミリー内で減少することがわかった。
さらに,本実験は, 負の感情が刺激によって注入されると, 肯定的な感情よりも生成過程が破壊され, 高い発現リーク率が生じることを示した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:29:19 GMT)
GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling [32.5] GestureLSM は空間時間モデルを用いた共音声ジェスチャ生成のためのフローマッチングに基づくアプローチである。
BEAT2の最先端性能を実現し、既存の手法と比較して推論時間を著しく短縮する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:25:09 GMT)
StreamAgent: Towards Anticipatory Agents for Streaming Video Understanding [31.9] 本稿では,今後のタスク関連情報を含むと思われる時間間隔と空間領域を予測できるStreamAgentを提案する。
我々は,重要な出来事の時間的進行を予測するために,予測エージェントに期待を促すことによって,質問の意味論と歴史的観察を統合する。
提案手法は,応答精度とリアルタイム効率において既存の手法よりも優れており,実世界のストリーミングシナリオの実用的価値を強調している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:15:42 GMT)
Drift-aware Collaborative Assistance Mixture of Experts for Heterogeneous Multistream Learning [31.9] 現実のシナリオにおける複数のデータストリームからの学習は、本質的に不均一性と予測不可能な概念の漂流のため、基本的に困難である。
既存の手法は通常、均質なストリームを仮定し、無差別な知識融合を持つ静的アーキテクチャを用いる。
CAMELは,各ストリームに専用の特徴抽出器とタスク固有ヘッドを付加した独立系を割り当てるフレームワークである。
さらに,ドリフトに対する専門家のライフサイクルを動的に管理する自律エキスパートタナー(AET)戦略を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:35:34 GMT)
Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning [30.4] 本稿では,多様なテスト画像の処理の柔軟性を向上する,画像適応型プロンプト学習(IAPL)という新しいフレームワークを提案する。
これは2つの適応モジュール、すなわち条件情報学習器と信頼駆動適応予測からなる。
実験の結果、IAPLは最先端のパフォーマンスを達成しており、95.61%と96.7%は広く使われているUniversalFakeDetectとGenImageの2つのデータセットの精度を示している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:41:24 GMT)
A Survey of LLM-based Deep Search Agents: Paradigm, Optimization, Evaluation, and Challenges [30.1] 大規模言語モデル (LLM) はウェブ検索に革命をもたらした。
これらのエージェントは、ユーザの意図や環境状況を理解することができる。
本調査は,検索エージェントの系統的分析を初めて行った。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:02:51 GMT)
EvoVLMA: Evolutionary Vision-Language Model Adaptation [29.9] 本稿では,視覚言語モデル(VLM)のための学習不要な適応アルゴリズムを自動検索する進化型視覚言語モデル適応法を提案する。
トレーニング不要なVLM適応において,特徴選択とロジットが重要な機能であると認識し,これらを逐次最適化するための2段階LLM支援進化アルゴリズムを提案する。
探索プロセスの安定性と効率性を高めるため,低精度コード変換,Webベースのコード実行,プロセス監視を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:11:01 GMT)
Diffusion-based 3D Hand Motion Recovery with Intuitive Physics [29.8] 画像に基づく再構成を向上する新しい3Dハンドモーションリカバリフレームワークを提案する。
本モデルでは,初期値に条件付された改良された動き推定値の分布を抽出し,改良されたシーケンスを生成する。
我々は、キー動作状態とその関連する動作制約を含む手動物体相互作用における貴重な直感的な物理知識を同定する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:44:24 GMT)
Voxlect: A Speech Foundation Model Benchmark for Modeling Dialects and Regional Languages Around the Globe [29.7] 本稿では、言語基盤モデルを用いて、世界中の方言や地域言語をモデリングするための新しいベンチマークであるVoxlectを紹介する。
具体的には、英語、アラビア語、マンダリン、カントン語、チベット語、インド語、タイ語、スペイン語、フランス語、ドイツ語、ブラジルポルトガル語、イタリア語の方言および地域言語品種に関する総合的なベンチマーク評価を報告する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:51:28 GMT)
Post-detection inference for sequential changepoint localization [29.4] 本研究では、任意の逐次検出アルゴリズムが変更を宣言するデータ依存停止時間までのデータのみを用いて、未知の変更点に対する信頼セットを構築するフレームワークを開発する。
我々のフレームワークは非パラメトリックであり、複合的なポストチェンジクラス、観測空間、あるいは使用されるシーケンシャルな検出手順を仮定せず、漸近的に有効である。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:18:19 GMT)
Density estimation with atoms, and functional estimation for mixed discrete-continuous data [29.4] 密度汎関数推定では、基底分布がルベーグ測度に関して密度を持つと仮定することが標準である。
データ分布が連続成分と離散成分の混合である場合、結果の手法は理論上矛盾し、実際は不整合である。
我々は、混合物の連続成分の幅広い関数のクラスに対して、既存の推定器を変更する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:22:35 GMT)
Empowering Tabular Data Preparation with Language Models: Why and How? [28.1] 大規模言語モデル(LLM)は、データ準備の自動化とサポートのための新しい機会を提供する。
データ取得、統合、クリーニング、変換の4つのフェーズに重点を置いています。
各フェーズに対して、異なる準備作業のために、LMを他のコンポーネントとどのように組み合わせるかを総合的に分析する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:00:02 GMT)
SpectralX: Parameter-efficient Domain Generalization for Spectral Remote Sensing Foundation Models [27.7] SpectralXは、既存のRSFMをバックボーンとして適応する革新的なパラメータ効率の微調整フレームワークである。
AoMoA (Attribute-oriented Mixture of Adapter) を開発した。
低レベルのセマンティックな特徴を高レベルの表現で反復的にクエリすることで、モデルはタスク便益属性にフォーカスすることを学ぶ。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 12:14:38 GMT)
RedDiffuser: Red Teaming Vision-Language Models for Toxic Continuation via Reinforced Stable Diffusion [27.7] VLM(Vision-Language Models)は、ジェイルブレイク攻撃に対して脆弱である。
本研究では, 有害な連続性という, この脅威の近親相姦変異について検討する。
有害な連続を誘発する自然界の逆画像を生成するRedDiffuserを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:52:38 GMT)
DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter [27.6] DMTrackと呼ばれるマルチモーダルトラッキングのための新しいデュアルテンポラルアーキテクチャを導入する。
設計は、単にbfbf0.93Mのトレーニング可能なパラメータで、有望なマルチモーダルトラッキング性能を実現する。
5つのベンチマークの実験は、DMTrackが最先端の結果を達成していることを示している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:13:27 GMT)
RoboGSim: A Real2Sim2Real Robotic Gaussian Splatting Simulator [27.0] RoboGSimは、3D Gaussian Splattingと物理エンジンを搭載した2sim2realのロボットシミュレーターだ。
シミュレーションされたデータを、新しいビュー、オブジェクト、軌跡、シーンで合成することができる。
我々は,RoboGSimと実際のロボットプラットフォーム上でのRoboGSimデータと実ロボットデータの比較を行った。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:06:58 GMT)
Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models [26.6] 個別のコンテンツと動作動態を保存したプルーニングと整合性損失を用いた新しいビデオ拡散モデル圧縮手法を提案する。
テキスト・トゥ・ビデオ(T2V)と画像・トゥ・ビデオ(I2V)の2つの重要なビデオ生成タスクにおけるVDMiniの有効性を実証する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:52:37 GMT)
Examining Test-Time Adaptation for Personalized Child Speech Recognition [26.2] テスト時間適応(TTA)法はこの領域のギャップを埋める大きな可能性を示している。
市販のASRモデルに適応する2種類のTTA手法-SUTAとSGEM-inの有効性について検討した。
以上の結果から,TTAは平均および各子話者の双方において,市販のASRモデルと微調整型ASRモデルの両方の性能を著しく向上させることがわかった。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 00:12:58 GMT)
MHARFedLLM: Multimodal Human Activity Recognition Using Federated Large Language Model [26.1] HAR(Human Activity Recognition)は、フィットネストラッキング、スマートホーム、医療モニタリングなどのアプリケーションにおいて重要な役割を果たす。
従来のHARシステムは、モーションセンサーやカメラのような単一のモードに依存しており、現実の環境でのロバスト性や精度を制限している。
ヘテロジニアスなデータソースを組み合わせることでHARを進化させる新しいマルチモーダル・フェデレート学習フレームワークであるFedTime-MAGNETを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:05:06 GMT)
MLP Memory: Language Modeling with Retriever-pretrained External Memory [26.0] そこで本研究では,事前学習可能な外部メモリを用いてデコーダから切り離すことを提案する。
私たちのアーキテクチャは、下流のタスクに強い難易度とパフォーマンスを示します。
3つの幻覚ベンチマークと9つのメモリ集約タスクにおいて優れた性能を示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:40:53 GMT)
A Provably Secure Network Protocol for Private Communication with Analysis and Tracing Resistance [24.7] 本稿では,トレースやトラフィック解析に抵抗する分散型匿名ルーティングプロトコルを提案する。
非常に敵対的な環境でも、ユーザーにとって識別不能なプライバシーを厳格に証明している。
提案プロトコルは,デジタル環境におけるプライバシ保護通信のためのセキュアなソリューションを提供する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:50:04 GMT)
You Can Generate It Again: Data-to-Text Generation with Verification and Correction Prompting [24.7] T5のような小さな言語モデルは、データからテキストへのタスクのための高品質なテキストを生成するのに優れている。
彼らはしばしばキーワードを見逃すが、これはこのタスクで最も重大で一般的なエラーの1つだと考えられている。
我々は,データ・テキスト生成タスクにおいて,より小さな言語モデルにおける意味的忠実度を高めるためにフィードバックシステムを利用することの可能性を探る。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 20:48:55 GMT)
From Age Estimation to Age-Invariant Face Recognition: Generalized Age Feature Extraction Using Order-Enhanced Contrastive Learning [23.8] 一般的な年齢特徴抽出は、年齢に関連する顔分析タスクに不可欠である。
年齢などの順序属性を明示的に用いた新しいコントラスト学習フレームワークを提案する。
提案手法は,様々なベンチマークデータセット上での最先端手法に匹敵する結果が得られる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 21:23:24 GMT)
IMUCoCo: Enabling Flexible On-Body IMU Placement for Human Pose Estimation and Activity Recognition [23.5] IMU over Continuous Coordinates (IMUCoCo) は,体表面に配置された多数のIMUからの信号を統一された特徴空間にマッピングする新しいフレームワークである。
評価の結果,IMUCoCoは多種多様なセンサ配置において正確なポーズ推定をサポートすることがわかった。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 19:09:20 GMT)
Efficient Byzantine Consensus MechanismBased on Reputation in IoT Blockchain [22.7] 本稿では、上述した問題を解消するための効率的なビザンチン意見に基づく合意(EBRC)機構を提案する。
実験の結果,EBRCアルゴリズムはコンセンサス遅延の低減,スループットの向上,セキュリティの向上,検証コストの低減を実現している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:13:29 GMT)
A Plug-and-Play Multi-Criteria Guidance for Diverse In-Betweening Human Motion Generation [22.5] 本稿では,Multi-Criteria Guidance with In-Betweening Motion Model (MCG-IMM) と呼ばれる新しい手法を提案する。
MCG-IMMの重要な強みはプラグ・アンド・プレイの性質であり、追加のパラメータを導入することなく事前訓練されたモデルによって生成された動きの多様性を高めることである。
一般的な4つのモーションデータセットの実験により、MDG-IMMは、中間動作生成タスクにおいて一貫して最先端の手法を示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:06:37 GMT)
AI-Generated Text is Non-Stationary: Detection via Temporal Tomography [22.4] 本稿では,信号処理タスクとして検出を再構成することによって位置情報を保存する新しい検出パラダイムであるTDTを紹介する。
RAIDベンチマークでは、TDTは0.855 AUROC(最高のベースラインよりも7.1%改善)を達成した。
我々の研究は、AI生成テキストの基本的な特徴として非定常性を確立し、時間的ダイナミクスの保存が堅牢な検出に不可欠であることを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:43:34 GMT)
First Experience with Real-Time Control Using Simulated VQC-Based Quantum Policies [22.4] 本稿では,量子コンピューティングのオフライン強化学習への統合について検討する。
目標は、現実の産業制御問題に量子アーキテクチャをデプロイする可能性を評価することである。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:50:40 GMT)
Understanding Student Attitudes and Acceptability of GenAI Tools in Higher Ed: Scale Development and Evaluation [22.4] 本研究では,ジェネレーティブAI(GenAI)に対する学生の認識を評価するための実証調査機器を紹介する。
この楽器には、制度的理解、公正性と信頼、学術的・職業的影響、社会的な関心事、執筆と講習におけるGenAIの使用の6つのテーマドメインが含まれている。
多言語家庭の学生は制度的政策の明確さを強く感じ、第一世代の学生はGenAIが将来のキャリアに与える影響を強く信じていると報告した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 21:22:34 GMT)
The Art of Breaking Words: Rethinking Multilingual Tokenizer Design [22.0] 既存のトークン化器は高いトークン対ワード比、文脈長の非効率な使用、推論の遅さを示す。
本稿では,語彙サイズ,事前トークン化規則,トレーニングコーパス構成をトークン・ツー・ワード効率とモデル品質の両方に関連付ける体系的な研究を提案する。
我々のトークンライザは、最先端の多言語インデックスモデルに対して平均トークン対ワード比を40%以上改善する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 15:31:10 GMT)
Joint Lossless Compression and Steganography for Medical Images via Large Language Models [21.9] 本稿では,新しい非破壊圧縮・ステガノグラフィーフレームワークを提案する。
ビットプレーンスライシング(BPS)にインスパイアされて、医療画像にプライバシーメッセージを埋め込むことができる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:45:51 GMT)
Implicit Search Intent Recognition using EEG and Eye Tracking: Novel Dataset and Cross-User Prediction [21.6] 本稿では,脳波と視線追跡記録からの検索意図のクロスユーザー予測法を提案する。
ユーザ1回の評価では84.5%の精度に達しています。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:27:32 GMT)
DiffusionFF: Face Forgery Detection via Diffusion-based Artifact Localization [21.1] DiffusionFFは、拡散に基づくアーティファクトローカライゼーションによる顔偽造検出を強化する新しいフレームワークである。
本手法は,高次拡散モデルを用いて高次構造相似性(DSSIM)マップを生成し,微妙な操作の痕跡を効果的に捉える。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:06:04 GMT)
MagicVL-2B: Empowering Vision-Language Models on Mobile Devices with Lightweight Visual Encoders via Curriculum Learning [21.1] VLM(Vision-Language Models)は近年,目覚ましいブレークスルーを達成している。
本稿では,フラグシップスマートフォン向けに高度に最適化された新しいVLMであるMagicVL-2Bを紹介する。
我々は,MagicVL-2Bが現在の最先端モデルの精度と一致し,デバイス上での消費電力を41.1%削減することを示した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:49:08 GMT)
CLIMD: A Curriculum Learning Framework for Imbalanced Multimodal Diagnosis [21.0] 不均衡型マルチモーダル診断(CLIMD)のためのカリキュラム学習フレームワークを提案する。
具体的には、まず、モーダル内信頼度とモーダル間相補性を組み合わせたマルチモーダルカリキュラム尺度を設計し、モデルがキーサンプルに集中できるようにする。
プラグイン・アンド・プレイのCLフレームワークとして、CLIMDは他のモデルに容易に統合することができ、マルチモーダル病の診断精度を向上させるための有望な経路を提供する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:25:12 GMT)
Unified Locomotion Transformer with Simultaneous Sim-to-Real Transfer for Quadrupeds [21.0] Unified Locomotion Transformer (ULT)は、知識伝達とポリシー最適化のプロセスを統合するための新しいトランスフォーマーベースのフレームワークである。
ポリシーは強化学習、次の状態アクション予測、アクション模倣によって最適化され、すべて1つのトレーニング段階で、ゼロショットデプロイメントを実現する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:21:45 GMT)
Practical, Generalizable and Robust Backdoor Attacks on Text-to-Image Diffusion Models [20.9] テキスト間拡散モデル(T2I DM)は,テキストプロンプトから高品質で多様な画像を生成することに成功している。
最近の研究では、バックドア攻撃に対する脆弱性が明らかにされている。
本稿では,3つの重要な特性を実現するバックドア・アタック・フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:42:20 GMT)
Distinguishing Target and Non-Target Fixations with EEG and Eye Tracking in Realistic Visual Scenes [20.5] 本研究では,現実的な場面における自由な視覚探索における目標対目標外固定の分類について検討する。
視線と脳波の特徴に基づくアプローチは,従来の最先端アプローチよりも優れていた。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:10:52 GMT)
CoT-Vid: Dynamic Chain-of-Thought Routing with Self Verification for Training-Free Video Reasoning [19.9] CoT-Vidは、多段階の複雑な推論設計を持つビデオドメインのための新しいトレーニング不要のパラダイムである。
幅広いベンチマークで優れた結果を示し、Egochemaでは9.3%、VideoEspressoでは5.6%でベースモデルを上回っている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:43:40 GMT)
Granular Concept Circuits: Toward a Fine-Grained Circuit Discovery for Concept Representations [19.5] 本稿では,各回路が与えられたクエリに関連する概念を表現する,GCC(Granular Concept Circuit)と呼ばれる効果的な回路探索手法を提案する。
複数の回路を自動的に発見し、それぞれがクエリ内の特定の概念をキャプチャすることで、我々のアプローチはモデルの深い概念的解釈を提供する。
我々は,様々な深部画像分類モデルにおけるGCCの汎用性と有効性を検証する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 11:45:38 GMT)
Harnessing Textual Semantic Priors for Knowledge Transfer and Refinement in CLIP-Driven Continual Learning [19.2] 継続的な学習は、過去の知識を忘れずにタスクの流れから学習する能力をモデルに装備することを目的としている。
本稿では,テキスト先行のアンチフォッゲッティングと構造化の性質を利用した統合フレームワークを提案し,セマンティック・アウェア・ナレッジ・トランスファーを導く。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:09:00 GMT)
Revisiting Replay and Gradient Alignment for Continual Pre-Training of Large Language Models [19.1] 大規模言語モデルのトレーニングは通常、大量のコーパスで事前トレーニングを行う。
新しいデータは、しばしば分散シフトを引き起こし、以前に学習したタスクのパフォーマンスが低下する。
この分散シフトに対処するための2つの一般的な提案、すなわちエクスペリエンスのリプレイとアライメントアライメントについて、より深く検討する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 20:07:15 GMT)
Collaborative Chain-of-Agents for Parametric-Retrieved Knowledge Synergy [18.9] コラボレーティブ・チェーン・オブ・アジェンツ(Collaborative Chain-of-Agents)は、パラメトリックと検索された知識の相乗効果を高めるために設計されたフレームワークである。
CoCoA-zeroとCoCoAは、オープンドメインおよびマルチホップQAタスクにおいて優れたパフォーマンスを達成する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:00:38 GMT)
EAC-MoE: Expert-Selection Aware Compressor for Mixture-of-Experts Large Language Models [18.9] Mixture-of-Experts (MoE) は LLM のスケーリングに有望な可能性を実証している。
1) 専門家全員をロードするメモリ消費、2) アクティベーションの低いパラメータは推論加速効果に等価に変換できない。
量子化とプルーニングの観点から,MoEの特徴と深く一致したMoE-LLMのエキスパート・セレクション・ウェアを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:30:42 GMT)
Generalized Kernelized Bandits: Self-Normalized Bernstein-Like Dimension-Free Inequality and Regret Bounds [18.7] 一般化核包括バンド(GKB)の新規設定における後悔問題について検討する。
本稿では,楽観的なアルゴリズムであるGKB-UCBを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:23:19 GMT)
JSidentify-V2: Leveraging Dynamic Memory Fingerprinting for Mini-Game Plagiarism Detection [18.5] JSidentify-V2は、ミニゲームプラジャリズムを検出する新しい動的分析フレームワークである。
JSidentify-V2はプログラム実行中にメモリ不変量をキャプチャする。
ミニゲーム1200のデータセット上で,8つの難読化手法に対してJSidentify-V2を評価した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:26:13 GMT)
A Trainable Optimizer [18.2] モデルの全勾配推定器とトレーニング可能な重みを共同で訓練する枠組みを提案する。
Pseudo-linear TOは無視可能な計算オーバーヘッドを発生させ、最小限の乗算しか必要としない。
実験により、TOメソッドはベンチマークアルゴリズムよりも早く収束することが示された。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:06:07 GMT)
Distributed fault-tolerant quantum memories over a 2xL array of qubit modules [18.1] 循環シフトを備えたモジュールの2倍のL$配列に分散した量子メモリのアーキテクチャを提案する。
本稿では,このアーキテクチャの物理実装について,忠実に搬送可能なフライングキュービットを用いて提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:21:34 GMT)
DAG: Unleash the Potential of Diffusion Model for Open-Vocabulary 3D Affordance Grounding [18.0] 3Dオブジェクトソーランスグラウンドは、3Dオブジェクト上でタッチ可能な領域を予測することを目的としている。
近年の進歩は実演画像から学ぶことでこの問題に対処している。
本稿では,テキスト・ツー・イメージ拡散モデルを用いて,一般的な手頃な知識を抽出することを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:20:59 GMT)
DERMARK: A Dynamic, Efficient and Robust Multi-bit Watermark for Large Language Models [18.0] テキストを各ウォーターマークビットに対して可変長セグメントに分割する動的で効率的で堅牢なマルチビット透かし法を提案する。
本手法は,埋め込みビット当たりのトークン数を25%削減し,透かし埋め込み時間を50%削減し,テキスト修正や透かし消去攻撃に対して高い堅牢性を維持する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:58:10 GMT)
KANMixer: Can KAN Serve as a New Modeling Core for Long-term Time Series Forecasting? [18.0] 我々は,kanの適応能力を完全に活用したマルチスケール混合バックボーンを統合した簡潔なアーキテクチャであるkanMixerを紹介する。
そこで,KanMixerは7つのベンチマークデータセットに対して,28実験のうち16実験で最先端のパフォーマンスを実現していることを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:03:13 GMT)
Robust and Efficient Fine-tuning of LLMs with Bayesian Reparameterization of Low-Rank Adaptation [17.6] 大規模言語モデル(LLM)は、その巨大なサイズのため、リソース集約性が高いため、微調整が可能である。
本稿では,評価器の分散を低減し,最終的なモデル出力の安定性を高めるために,低ランク微調整における効果的なパラメータ化の重要性を強調した。
モンテカルロ推定を応用して,低次パラメータの非バイアス後推定を低次分散で学習する,効率的な微調整手法であるモンテクロラを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:26:57 GMT)
ROVER: Recursive Reasoning Over Videos with Vision-Language Models for Embodied Tasks [17.3] ROVER(Reasoning Over VidEo Recursively)は、長い水平ビデオの軌跡を短いサブタスクに対応するセグメントに分解できるフレームワークである。
ROVER は OpenX Embodiment ビデオや RoboCasa から派生した新しいデータセットで評価する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 22:33:43 GMT)
Cascade Reward Sampling for Efficient Decoding-Time Alignment [17.3] 復号時間アライメントにおける効率の両立を図るためにカスケード逆サンプリング(CARDS)を導入する。
CARDSは、大きな言語モデル(LLM)と報酬モデル(RM)の両方の冗長な計算を最小化する
論文参考訳(メタデータ) (Sun, 03 Aug 2025 22:12:55 GMT)
Learning to Fuse Temporal Proximity Networks: A Case Study in Chimpanzee Social Interactions [17.1] 我々はネットワーク表現を使い、チンパンジー間の社会的相互作用のためのデータを組み合わせる作業に繋がる。
我々は、革新的損失関数を用いて、これらの近接型重みを原則的に最適化する。
チンパンジーのデータセットにアプローチを適用することで、動物ソーシャルネットワークの時系列における傾きを検出する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 15:17:04 GMT)
Learning large softmax mixtures with warm start EM [17.1] ソフトマックス混合モデル(SMM)は、$p$候補からRRL$の$x_jを選択する確率をモデル化するために導入された離散的な$K$混合モデルである。
本稿では,高次元SMMにおけるEMアルゴリズムの包括的解析を行う。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:32:47 GMT)
Adaptive Label Correction for Robust Medical Image Segmentation with Noisy Labels [16.5] 本稿では,雑音ラベルによる堅牢な医用画像分割のための平均教師に基づく適応ラベル補正フレームワークを提案する。
適応ラベルリファインメント機構は、複数の外乱バージョン間での差異を動的にキャプチャし、重み付けし、ノイズラベルの品質を高める。
また、サンプルレベルの不確実性に基づくラベル選択アルゴリズムを導入し、ネットワーク更新に高信頼なサンプルを優先順位付けする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:56:29 GMT)
PLGS: Robust Panoptic Lifting with 3D Gaussian Splatting [16.3] 雑音の多い2Dセグメンテーションマスクから3DGSが一貫した単眼セグメンテーションマスクを生成できるPLGSと呼ばれる新しい手法を提案する。
本手法は,従来の最先端手法よりもセグメンテーション品質と速度の両面で優れていた。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:55:14 GMT)
SPARTA: Advancing Sparse Attention in Spiking Neural Networks via Spike-Timing-Based Prioritization [16.1] 現在のスパイキングニューラルネットワーク(SNN)は、スパイクベースの処理に固有の時間的ダイナミクスを弱めている。
本研究では、ヘテロジニアスニューロンのダイナミクスとスパイク刺激情報を活用して効率的なスパースアテンションを実現するフレームワークであるSPARTAを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:11:33 GMT)
Measuring and Predicting Where and When Pathologists Focus their Visual Attention while Grading Whole Slide Images of Cancer [15.9] 本研究は,前立腺癌のスライディング画像を評価することによって,病理学者の注意の動きを予測する手法を開発した。
このモデルから開発されたツールは、病理研修生が専門家のように読書中に注意を配るのを助けることができる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:53:45 GMT)
THREAD: Thinking Deeper with Recursive Spawning [15.8] 大規模言語モデル(LLM)のための思考再帰的・動的(ThReaD)を提案する。
ThReaDは、実行のスレッドとしてモデル生成をフレーム化し、コンテキストに基づいて、完了まで実行したり、新しいスレッドを動的に生成することができる。
我々は、エージェントタスクの多様なベンチマークとデータ基底型質問応答を用いて、数ショットの学習アプローチを用いて実装されたTHREADをテストする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 22:56:22 GMT)
CSI-BERT2: A BERT-inspired Framework for Efficient CSI Prediction and Classification in Wireless Communication and Sensing [15.6] CSI予測と分類タスクのための統合フレームワークCSI-BERT2を提案する。
まず、マスク言語モデル(MLM)を用いて、不足するデータセットから一般的な特徴抽出を学習できるようにする。
また、サブキャリア表現を強化するための適応的再重み付け層(ARL)と、MLPベースの時間埋め込みモジュールを導入する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:00:02 GMT)
ProSAM: Enhancing the Robustness of SAM-based Visual Reference Segmentation with Probabilistic Prompts [15.6] ProSAMは、既存のSAMベースのビジュアル参照セグメンテーションアプローチにおいて、我々が特定した安定性の課題に対処する、シンプルだが効果的な方法である。
ProSAMは不安定な領域にあるプロンプトの生成を回避し、より堅牢でないプロンプトによって引き起こされる不安定さを克服する。
私たちのアプローチは、Pascal-5$i$とCOCO-20$i$データセットの最先端メソッドを一貫して超越しています。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:12:39 GMT)
SPICE: An Automated SWE-Bench Labeling Pipeline for Issue Clarity, Test Coverage, and Effort Estimation [15.4] SWEベンチスタイルのデータセットをラベル付けするためのスケーラブルで自動化されたパイプラインであるSPICEを紹介する。
SPICEは、コンテキスト対応のコードナビゲーション、合理化によるプロンプト、マルチパスコンセンサスを組み合わせて、専門家のアノテーションに近似したラベルを生成する。
SPICEツールとSPICE Benchは、SWE-Gymの291のオープンソースプロジェクトから収集された6,802のSPICEラベル付きインスタンスのデータセットです。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:31:21 GMT)
Flow-Aware GNN for Transmission Network Reconfiguration via Substation Breaker Optimization [15.4] 本稿では,電力グリッドにおける離散トポロジ最適化のための機械学習フレームワークOptiGridMLを紹介する。
最大1000ブレーカによる合成ネットワークの実験では、OptiGridMLはベースライントポロジよりも最大18%の電力輸出改善を実現している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 23:21:37 GMT)
Context Guided Transformer Entropy Modeling for Video Compression [15.4] 条件付きエントロピーモデルは、時間的・時間的複雑さを効果的に活用し、ビデオの冗長性を減少させる。
我々は,赤時間的コンテキストと依存性重み付き空間文脈を条件とした現在のフレームの確率質量関数を推定するコンテキスト案内変換器(CGT)エントロピーモデルを提案する。
実験結果から, CGTモデルではエントロピーのモデル化時間を約65%削減し, 従来の条件付きエントロピーモデルと比較して11%のBD-Rate削減を実現していることがわかった。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:07:49 GMT)
Set Pivot Learning: Redefining Generalized Segmentation with Vision Foundation Models [15.3] 本稿では,ビジョンファウンデーションモデル(VFM)に基づくドメイン一般化(DG)を再定義するパラダイムシフトであるSet Pivot Learningの概念を紹介する。
従来のDGは、トレーニング中にターゲットドメインがアクセスできないと仮定するが、VFMの出現により、この仮定は不明確で時代遅れである。
VFMに基づく新しいドメインマイグレーションタスクであるSet Pivot Learning (SPL)を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:20:35 GMT)
Multi-turn Natural Language to Graph Query Language Translation [15.2] 現実的なアプリケーションでは、グラフデータベースとのユーザインタラクションは通常、マルチターン、動的、コンテキスト依存である。
シングルターン変換に焦点を当てた研究は、マルチターン対話や複雑なコンテキスト依存に効果的に対応できない。
大規模言語モデル(LLM)に基づくマルチターンNL2GQLデータセットの自動構築法を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:56:52 GMT)
RepoForge: Training a SOTA Fast-thinking SWE Agent with an End-to-End Data Curation Pipeline Synergizing SFT and RL at Scale [15.2] トレーニングソフトウェアエンジニアリング(SWE) LLMは、高価なインフラストラクチャ、非効率な評価パイプライン、少ないトレーニングデータ、高価な品質管理によってボトルネックになっている。
本稿では,SWEエージェントを大規模に生成し,評価し,訓練する,自律的なエンドツーエンドパイプラインであるRepoForgeを紹介する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 02:34:16 GMT)
Long-tailed Adversarial Training with Self-Distillation [15.2] 敵対的トレーニングは、敵の堅牢性を著しく向上させるが、バランスの取れたデータセット上では、優れたパフォーマンスが主に達成される。
本研究では,長期分布におけるテールクラスの性能向上に苦慮する対人訓練の課題について,詳細な分析を行った。
そこで本研究では,新しい自己蒸留法により,長い尾の分布に対する敵の強靭性を向上するための,単純かつ効果的な解を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:20:26 GMT)
A Spatio-temporal Continuous Network for Stochastic 3D Human Motion Prediction [15.0] 本研究では,2段階からなる連続的な人間の動作予測のためのSTCと呼ばれる新しい手法を提案する。
最初の段階では、よりスムーズな人間の動き列を生成するための時間的連続ネットワークを提案する。
第2段階では、STCNは観測された動き列のガウス混合分布(GMM)を取得する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:53:39 GMT)
Inversion-DPO: Precise and Efficient Post-Training for Diffusion Models [15.0] Inversion-DPOは報酬モデリングを回避するアライメントフレームワークである。
本手法は, 拡散DPOにおいて, 入賞・敗戦からノイズへの決定論的逆転を伴って, 抽出可能な後部サンプリングを行う。
Inversion-DPOをテキスト・画像生成の基本課題と合成画像生成の課題に適用する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:07:39 GMT)
DiffSemanticFusion: Semantic Raster BEV Fusion for Autonomous Driving via Online HD Map Diffusion [14.9] 軌道予測と計画のための融合フレームワークであるDiffSemanticFusionを提案する。
提案手法は, マップ拡散モジュールにより拡張された意味融合型BEV空間に起因する。
実世界の自動運転ベンチマークであるnuScenesとNAVSIMの実験では、最先端のいくつかの手法よりも性能が向上した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:32:05 GMT)
Lifelong Person Re-identification via Privacy-Preserving Data Replay [14.8] LReID(Lifelong person re-identification)は、ドメインシフトの下で一連のタスクに知識を段階的に蓄積することを目的としている。
近年のリプレイベース手法は, 補助記憶に記憶された過去のサンプルをリハーサルすることにより, LReIDに強い効果を示した。
プライバシ保存リプレイ(Pr2R)を実現するために,シーケンシャルデータからリプレイメモリ内のピクセル空間に情報を凝縮する手法を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:00:19 GMT)
Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning [14.3] 大規模言語モデル(LLM)は、好みに基づく微調整を通じて顕著な進歩を見せている。
本稿では、1つのLCMを精細化と判定の両方に活用し、データセットの品質を向上させる自動反復手法であるRefine-n-Judgeを紹介する。
本研究では,5つのコーパスにまたがる公開データセットにまたがるRefine-n-Judgeの有効性を示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:56:03 GMT)
From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models [14.2] 画像のジオローカライゼーションは、危機対応、デジタル法医学、位置に基づくインテリジェンスなどの応用において重要である。
大規模言語モデル(LLM)の最近の進歩は、視覚的推論の新しい機会を提供する。
我々は, 精度, 距離誤差, 地理空間バイアス, 推論過程を体系的に評価する, imageO-Bench というベンチマークを導入する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 06:04:33 GMT)
DMSC: Dynamic Multi-Scale Coordination Framework for Time Series Forecasting [14.2] 時系列予測(TSF)は、さまざまなスケールにわたる複雑な時間的依存関係をモデル化する上で、永続的な課題に直面します。
マルチスケールパッチ分解ブロック(EMPD)、トライアドインタラクションブロック(TIB)、適応スケールルーティングMoEブロック(ASR-MoE)を備えた新しい動的マルチスケールコーディネーションフレームワーク(DMSC)を提案する。
EMPDは、指数関数的にスケールした粒度を持つ階層的なパッチにシーケンスを動的に分割する組み込みコンポーネントとして設計されている。
TIBは、各レイヤの分解された表現の中で、パッチ内、パッチ間、およびクロス変数の依存関係を共同でモデル化する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:11:52 GMT)
Conditional Balance: Improving Multi-Conditioning Trade-Offs in Image Generation [14.1] DDPMアテンション層内の感度を識別する新しい手法を導入し、異なるスタイルの側面に対応する特定の層を同定する。
提案手法は,スタイルや内容のきめ細かい制御を可能にし,過度に制約された入力から生じる問題を著しく低減する。
提案手法は,スタイルや内容の整合性を向上し,最終的に生成した視覚的コンテンツの質を向上させることによって,最近のスタイリング技術の向上を図っている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:03:12 GMT)
Rate-distortion Optimized Point Cloud Preprocessing for Geometry-based Point Cloud Compression [13.9] 幾何ベースのポイントクラウド圧縮(G-PCC)は最近のディープラーニングベースのPCC法と比較して性能が劣る。
本稿では,圧縮指向のボキセル化ネットワークとG-PCCサロゲートモデルを統合した新しい前処理フレームワークを提案する。
実験では、G-PCCよりも平均BDレートが38.84%減少した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:40:42 GMT)
Minimal High-Resolution Patches Are Sufficient for Whole Slide Image Representation via Cascaded Dual-Scale Reconstruction [13.9] 全スライディング画像(WSI)解析は、ギガピクセルスケールとわずかに分散した診断領域のため、依然として困難である。
本稿では,WSIあたりの平均9つの高解像度パッチだけが,スライドレベルの堅牢な表現に十分であることを示すカスケードデュアルスケール再構築フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:01:30 GMT)
Privacy-Preserving Inference for Quantized BERT Models [13.4] 量子化は浮動小数点演算を低精度整数計算に変換することで有望な解を提供する。
本研究では, 層単位での微細な量子化手法を提案し, 1ビットの重み付き全連結層をセキュアな設定で支持する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:52:08 GMT)
From Binary to Continuous: Stochastic Re-Weighting for Robust Graph Explanation [13.3] グラフニューラルネットワーク(GNN)は,幅広いグラフ関連学習タスクにおいて,優れたパフォーマンスを実現している。
それらの予測を説明することは難しい問題であり、特に訓練中に使われたグラフと説明中に遭遇したグラフのミスマッチのためである。
既存のほとんどの手法は、重み付きグラフ上のソフトエッジマスクを最適化して重要な部分構造を強調するが、これらのグラフはGNNが訓練されている未重み付きグラフとは異なる。
この分布シフトは信頼性の低い勾配と劣化した説明品質につながる。
モデルのトレーニングデータ分布と重み付けを整合させることにより、説明の堅牢性を改善する新しい反復的説明フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 21:19:58 GMT)
Inferring Reward Machines and Transition Machines from Partially Observable Markov Decision Processes [13.2] 非マルコビアン性を扱うためのオートマトンを推定することは、有効なアプローチであるが、2つの制限に直面している。
そこで本研究では, TMとRMを併用したDBMM(Dual Behavior Mealy Machine)を提案する。
次に,DBMMを効率よく推論し,先行作業に必要なコスト削減を回避した受動的自動学習アルゴリズムDB-RPNIを紹介する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 22:53:25 GMT)
AG$^2$aussian: Anchor-Graph Structured Gaussian Splatting for Instance-Level 3D Scene Understanding and Editing [13.0] 3D Gaussian Splatting (3DGS)は、様々なアプリケーションにまたがって指数関数的な採用を目撃し、セマンティック・アウェアな表現を重要視している。
既存のアプローチは通常、自由ガウスの集合に意味的特徴を付加し、微分可能なレンダリングによって特徴を蒸留する。
AG$2$aussianは、アンカーグラフ構造を利用して意味的特徴を整理し、ガウス的プリミティブを規制する新しいフレームワークである。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 12:47:30 GMT)
Cure or Poison? Embedding Instructions Visually Alters Hallucination in Vision-Language Models [12.2] VLM(Vision-Language Models)はしばしば幻覚に悩まされる。
本稿では,画像に直接テキスト命令を埋め込むシンプルな方法であるPrompt-in-Imageを提案する。
本手法は,3つのオープンソースVLM (Qwen2.5-VL, LLaVA-1.5, InstructBLIP) で評価する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:11:18 GMT)
QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry [12.2] QCBenchは、7つの化学サブフィールドにわたる350の計算化学問題からなるベンチマークである。
それぞれの問題は、現実世界の化学垂直場に根ざした純粋計算に焦点を当てている。
19のLLMの評価は、タスクの複雑さを増大させるとともに、一貫したパフォーマンス劣化を示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:55:42 GMT)
Imbalance-Robust and Sampling-Efficient Continuous Conditional GANs via Adaptive Vicinity and Auxiliary Regularization [12.1] CcGAN(Continuous Conditional Generative Adversarial Network)とCCDM(Continuous Conditional Diffusion Model)
CcGANは固定サイズ近傍の制約によりデータ不均衡に悩まされ、CCDMは計算コストのかかる反復サンプリングを必要とする。
1) GANフレームワークのネイティブワンステップ生成を活用してCCDMのサンプリングボトルネックを克服し、(2)データ不均衡を特にターゲットとする2つの新しいコンポーネントを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 11:36:00 GMT)
Are All Prompt Components Value-Neutral? Understanding the Heterogeneous Adversarial Robustness of Dissected Prompt in Large Language Models [11.6] PromptAnatomyは、プロンプトを機能コンポーネントに分解する自動化フレームワークです。
提案手法であるComPerturbを用いて,各コンポーネントを選択的に摂動することで,逆例を生成する。
補完的なリソースとして,PromptAnatomyフレームワークを用いて4つの公開命令チューニングデータセットを注釈付けする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 02:46:30 GMT)
Dynamic Robot-Assisted Surgery with Hierarchical Class-Incremental Semantic Segmentation [11.6] クラスインクリメンタルセマンティックセグメンテーション(CISS)は、モデルが以前のデータをトレーニングすることなく、新しいクラスに継続的に適応できるようにする。
評価ベンチマークとしてオンラインでホストされたSyn-Mediverse合成データセットに144以上のクラスを持つ改良されたラベルセットを導入する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:47:01 GMT)
CTBench: Cryptocurrency Time Series Generation Benchmark [11.6] textsfCTBenchは、暗号ドメイン用に調整された、最初の総合的なTSGベンチマークである。
textsfCTBenchは、452トークンからオープンソースのデータセットをキュレートし、5つの主要な次元にまたがる13のメトリクスにわたるTSGモデルを評価する。
4つの異なる市場体制にまたがる5つの方法論家を代表する8つのモデルをベンチマークし、統計的忠実性と現実世界の収益性の間のトレードオフを明らかにする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:07:08 GMT)
AI-Generated Compromises for Coalition Formation [11.4] エージェント提案間の妥協を見つけることは、議論、調停、交渉のようなAIサブフィールドの基本である。
エージェント境界合理性と不確実性を組み込んだモデルを定式化し、妥協提案を生成するAI手法を開発する。
提案手法では,自然言語処理技術と大規模言語モデルを用いて,テキスト上の意味的距離空間を誘導する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:13:17 GMT)
Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence [11.4] 拡散モデルは生成モデリングの強力なツールとして登場してきた。
微調整拡散モデルのための制御フレームワークを提案する。
PI-FTは線形速度で大域収束することを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:59:30 GMT)
Adaptive LiDAR Scanning: Harnessing Temporal Cues for Efficient 3D Object Detection via Multi-Modal Fusion [11.4] 従来のLiDARセンサーは、現実世界のシーンの強い時間的連続性を無視して、密度の高いステートレススキャンを行う。
本研究では,過去の観測結果に基づいて,興味のある情報領域を推定する,予測的かつ歴史に配慮した適応型スキャンフレームワークを提案する。
本手法は,これらのROI内にのみ高密度LiDARスキャンを集中させることにより,不要なデータ取得を著しく削減する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:20:36 GMT)
DreamFrame: Enhancing Video Understanding via Automatically Generated QA and Style-Consistent Keyframes [11.3] 最近の視覚言語モデル(LVLM)は、主にオンラインプラットフォームから抽出された様々なスクレイピングによって微調整されている。
現在のLVLMは主に、広範囲で汎用的な設定で既存のデータセットでトレーニングされているが、特定のダウンストリームシナリオに適応することは依然として難しい。
そこで我々はDreamFrameという3段階のフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:38:06 GMT)
Enhancing the Preference Extractor in Multi-turn Dialogues: From Annotating Disasters to Accurate Preference Extraction [11.1] 我々はtextbfIterChat という対話データ生成フレームワークを提案する。
まず,対話データを属性付き歴史的嗜好とワンターン対話に分類する新しいデータ形式を構築する。
これにより、アノテーションエラーの確率が減少し、アノテーション効率が向上する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 12:44:03 GMT)
Towards High-Precision Depth Sensing via Monocular-Aided iToF and RGB Integration [11.1] Indirect Time-of-Flight (iToF) 深度検出の固有の限界に対処する新しいiToF-RGB融合フレームワークを提案する。
提案手法は,まず狭帯域iToF深度マップを広帯域RGB座標系に再計画する。
次に、二重エンコーダ融合ネットワークを用いて、再計画したiToF深度とRGB画像から相補的特徴を共同抽出する。
クロスモーダル構造的キューと奥行き整合性制約を統合することにより, 深度精度の向上, エッジシャープネスの向上, シームレスなFoV拡張を実現する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:48:00 GMT)
Gradient Inversion Attack on Graph Neural Networks [11.1] 悪意のある攻撃者は、フェデレート学習中にニューラルネットワークの交換からプライベートイメージデータを盗むことができる。
本稿では,ノード分類タスクとグラフ分類タスクの両方において,リークした勾配からプライベートデータを再構成できるかどうかについて検討する。
広く使われている2つのGNNフレームワーク、すなわちGCNとGraphSAGEが分析されている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:05:31 GMT)
FinCoT: Grounding Chain-of-Thought in Expert Financial Reasoning [11.0] FinCoTは、ドメイン固有の金融推論の青写真が組み込まれている構造化連鎖フレームワークである。
我々はFinCoTを、ドメインの専門家による青写真を用いた最初の構造化金融特化促進手法として紹介する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:31:25 GMT)
CheXalign: Preference fine-tuning in chest X-ray interpretation models without human feedback [10.8] 放射線科医は、医療画像を実行可能なレポートに翻訳する上で重要な役割を担っている。
放射線学における現在の視覚言語モデル(VLM)のほとんどは、教師付き微調整のみに依存している。
胸部X線ラジオグラフィーレポート生成(RRG)に着目した選好フィードバックのための自動パイプラインを提案する。
我々の最高のパフォーマンス設定は、RRGタスクのMIMIC-CXRデータセット上で最先端のCheXbertスコアを達成します。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:48:51 GMT)
Proactive Constrained Policy Optimization with Preemptive Penalty [10.6] 本稿では,制約付き政策最適化のための新しいプリエンプティブ・ペナルティ・メカニズムを提案する。
このメカニズムは、ポリシーが境界に近づくと、障壁要素を目的の関数に統合し、コストを課す。
また,政策が制約境界に近づいた場合にのみ有効となる境界対応探索を誘導するために,制約対応固有の報酬を導入する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:35:55 GMT)
Register Anything: Estimating "Corresponding Prompts" for Segment Anything Model [10.5] 本稿では,複数対の対応するROIを識別する新しい登録アルゴリズムを提案する。
Diceや解剖学的構造上のターゲット登録エラーなどの指標に基づいて、提案された登録は、強度に基づく反復アルゴリズムと学習に基づくDDF予測ネットワークの両方より優れている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:00:44 GMT)
Dynamic Clustering for Personalized Federated Learning on Heterogeneous Edge Devices [10.5] フェデレートラーニング(FL)は、エッジデバイスがグローバルモデルを協調的に学習することを可能にする。
パーソナライズド・フェデレーション・ラーニング・システム(DC-PFL)のための動的クラスタリングアルゴリズムを提案する。
また,DC-PFLはトレーニング時間を大幅に短縮し,ベースラインに比べてモデルの精度が向上することを示した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:19:22 GMT)
Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning [10.2] 本稿では,自動プロセス報酬データ構築のための不確実性駆動型フレームワークを提案する。
本稿では,2つの一般的な不確実性を考慮した出力アグリゲーション手法を提案する。
ProcessBench、MATH、GSMPlusの実験では、提案したPRMデータ構築フレームワークの有効性と効率が示されている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:14:13 GMT)
Boosting Robotic Manipulation Generalization with Minimal Costly Data [10.1] RoboTron-Craftは、現実的な操作生成のためのステージ分割で費用対効果の高いパイプラインである。
PIPデータにコスト効率の高いSRPトラジェクトリを多数導入することにより、ゼロショットシーンにおける成功率を最大41%向上できることを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:19:15 GMT)
REINFORCE++: An Efficient RLHF Algorithm with Robustness to Both Prompt and Reward Models [10.0] REINFORCE++は、グローバルな優位性正規化を使用しながら、批判モデルを削除する新しいアプローチである。
プロンプトセットのトランケーションを必要とせずに、様々な報酬モデルに対して堅牢なパフォーマンスを示す。
RLHFとロングチェーン・オブ・ソートの両方において優れた一般化を実現する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:48:29 GMT)
EgoTrigger: Toward Audio-Driven Image Capture for Human Memory Enhancement in All-Day Energy-Efficient Smart Glasses [9.9] EgoTriggerはマイクからのオーディオキューを使用して、電力集約カメラを選択的に起動する。
EgoTriggerは、平均で54%のフレームを使用でき、両方の電力消費検知コンポーネントのエネルギーを大幅に節約できる。
我々は、このコンテキスト認識トリガー戦略が、エネルギー効率が高く、機能的なスマートグラスを一日中使えるようにするための有望な方向であると考えている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 20:51:23 GMT)
Evaluating the Dynamics of Membership Privacy in Deep Learning [9.9] メンバーシップ推論攻撃(MIA)は、ディープラーニングにおけるトレーニングデータのプライバシーに重大な脅威をもたらす。
本稿では,個々のサンプルレベルでのプライバシー漏洩ダイナミクスの分離と定量化のための動的解析フレームワークを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 23:23:03 GMT)
Understanding Why ChatGPT Outperforms Humans in Visualization Design Advice [9.8] 2つのChatGPTモデルと人間のアウトプットの間には、修辞的構造、知識の幅、知覚的品質の違いがあることが判明した。
2つのモデルは一般に人間の反応よりも好まれ、その強みはカバレッジと広さであり、技術的およびタスク指向の可視化フィードバックに重点を置いて、全体的な品質を総合的に向上させた。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 02:14:00 GMT)
A Brain Graph Foundation Model: Pre-Training and Prompt-Tuning for Any Atlas and Disorder [9.8] 本稿では,脳グラフ基盤モデルを構築するための,グラフに基づく新しい事前学習パラダイムを提案する。
BrainGFMは、様々なパーセレーションと様々な脳のアトラスの混合物で事前訓練されている。
BrainGFMは、25の一般的な神経疾患と精神疾患にまたがる27のデータセットで事前訓練されている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 12:24:00 GMT)
BeDKD: Backdoor Defense based on Dynamic Knowledge Distillation and Directional Mapping Modulator [9.6] 指向性マッピングモジュールと対角的知識蒸留(BeDKD)に基づく新しいバックドア防御手法を提案する。
BeDKDは最先端の防御を克服し、CACCを大幅に削減することなく、ASRを98%削減する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:28:01 GMT)
Learning Disentangled Stain and Structural Representations for Semi-Supervised Histopathology Segmentation [9.6] そこで本研究では, 色構造2次構造(CSDS)を用いて, 染色の外観や組織構造の歪んだ表現を学習する手法を提案する。
CSDSは2つの専門的な学生ネットワークで構成されており、ひとつは色変化をモデル化するための染色強化された入力と、もう一つは形態的手がかりを捉えるための構造強化された入力である。
GlaSとCRAGデータセットの実験は、CSDSが低ラベル設定で最先端のパフォーマンスを達成することを示している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:09:32 GMT)
LLM-Assisted Model-Based Fuzzing of Protocol Implementations [9.5] プロトコル動作の障害は脆弱性やシステム障害につながる可能性がある。
プロトコルテストに対する一般的なアプローチは、プロトコルの状態遷移と期待される振る舞いをキャプチャするマルコフモデルを構築することである。
本稿では,大規模言語モデル(LLM)を利用して,ネットワークプロトコルの実装をテストするためのシーケンスを自動的に生成する手法を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:16:18 GMT)
"Energon": Unveiling Transformers from GPU Power and Thermal Side-Channels [9.4] 本稿では,物理的アクセスを伴わないアーキテクチャの詳細を明らかにするサイドチャネル攻撃のリスクについて検討する。
重要なアーキテクチャの詳細を明らかにするために、これらのサイドチャネルをユーザ権限でどのように活用するかを示します。
モデル家族識別において,攻撃モデルの精度は平均89%以上であることを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:08:15 GMT)
Measuring CEX-DEX Extracted Value and Searcher Profitability: The Darkest of the MEV Dark Forest [9.2] 我々は、CEX-DEXを同定した7,203,560人の主要なCEX-DEXサーチによって抽出された合計233.8万USDを推定した。
3人の探索者が2つのボリュームと抽出値の4分の3を捕獲し、中央集権化の傾向が明らかになった。
これらの洞察は、MEVランドスケープの最も暗い角を照らし、分散化のためのCEX-DEX仲裁の重大な意味を強調している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:26:10 GMT)
AutoPLC: Generating Vendor-Aware Structured Text for Programmable Logic Controllers [9.2] AutoPLCは、ベンダーが認識するSTコードを自動的に自然言語要求から生成できるフレームワークである。
Siemens TIA PortalとCODESYSプラットフォーム向けに実装されている。
AutoPLCは914タスクベンチマークで90%以上のコンパイル成功を実現しています。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:26:10 GMT)
Tractography-Guided Dual-Label Collaborative Learning for Multi-Modal Cranial Nerves Parcellation [9.1] マルチモーダルCranial Nervesパーセレーションネットワークは有望なセグメンテーション性能を達成した。
本研究では,マルチモーダルCNs構文解析のためのトラクトグラフィ誘導デュアルラベル協調学習ネットワーク(DCLNet)を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:08:15 GMT)
The Bidirectional Process Reward Model [9.1] 双方向プロセスリワードモデル(BiPRM)と呼ばれる新しい双方向評価パラダイムを提案する。
BiPRMは、従来のL2Rフローと並行して、並列右から左へ(R2L)評価ストリームをシームレスに組み込む。
3つの異なるポリシーモデルから生成されたサンプルを用いて、2つの数学的推論ベンチマークで広範な実験を行う。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:23:49 GMT)
Graph of Verification: Structured Verification of LLM Reasoning with Directed Acyclic Graphs [8.8] Graph of Verification (GoV)は、適応性と多粒性検証のための新しいフレームワークである。
GoVのコアイノベーションは、柔軟性のある"ノードブロック"アーキテクチャである。
GoVの適応的アプローチは、全体論的ベースラインと他の最先端の分解ベース手法の両方を著しく上回っている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 06:41:46 GMT)
Structure Maintained Representation Learning Neural Network for Causal Inference [8.6] 我々は,個々の治療効果を推定する上で,表現学習と敵ネットワークの予測精度を向上させる。
表現層の末尾に識別器を訓練し、表現バランスと情報損失をトレードオフする。
シミュレーションおよび実世界の観測データを用いて広範な実験を行い,提案手法が最先端の手法より優れていることを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:34:38 GMT)
Learning Unified System Representations for Microservice Tail Latency Prediction [8.5] マイクロサービスアーキテクチャは、スケーラブルなクラウドネイティブアプリケーションを構築するためのデファクトスタンダードになっています。
従来のアプローチでは、要求毎のレイテンシメトリクスに依存しており、過渡的なノイズに非常に敏感です。
我々は,トラフィック側とリソース側の機能を明確に分離し,モデル化するディープラーニングネットワークであるUSRFNetを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:46:23 GMT)
E-VRAG: Enhancing Long Video Understanding with Resource-Efficient Retrieval Augmented Generation [8.4] ビデオ理解のための新規かつ効率的なビデオRAGフレームワークであるE-VRAGを提案する。
まず,階層的な問合せ分解に基づくフレーム前フィルタリング手法を適用し,無関係なフレームを除去する。
次に、フレームスコアリングに軽量なVLMを用い、モデルレベルでの計算コストをさらに削減する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 02:09:54 GMT)
HateClipSeg: A Segment-Level Annotated Dataset for Fine-Grained Hate Video Detection [8.3] HateClipSegはビデオレベルとセグメントレベルのアノテーションを備えた大規模マルチモーダルデータセットである。
私たちの3段階アノテーションプロセスは、アノテータ間の高い合意をもたらす。
結果は現在のモデルにおける大きなギャップを浮き彫りにする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:46:06 GMT)
EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation [8.2] EchoMimicV3はマルチタスクとマルチモーダルアニメーションを統合する効率的なフレームワークである。
最小のモデルサイズが13億のEchoMimicV3は、定量評価と定性評価の両方で競合性能を達成する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:18:59 GMT)
LetheViT: Selective Machine Unlearning for Vision Transformers via Attention-Guided Contrastive Learning [8.1] ViT(Vision Transformers)は、コンピュータビジョンタスクに革命をもたらした。
この研究は、ViTにおけるランダムなデータの忘れという特に困難なシナリオに対処する。
本稿では,ViTに適した非学習手法であるLetheViTを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:37:31 GMT)
Scendi Score: Prompt-Aware Diversity Evaluation via Schur Complement of CLIP Embeddings [8.1] 本研究では,CLIP埋め込みの応用を拡張し,テキスト・画像モデル固有の多様性を定量化し,解釈する。
画像データのCLIPベースのカーネル共分散行列をテキストベースおよび非テキストベースコンポーネントに分解する。
以上の結果から,Scendiスコアが突発誘導生成モデルの本質的な多様性を捉えたことが示唆された。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 06:19:26 GMT)
MeLA: A Metacognitive LLM-Driven Architecture for Automatic Heuristic Design [8.0] MeLAはメタ認知型LLM駆動アーキテクチャで、AHD(Automatic Heuristic Design)の新しいパラダイムを提供する
MeLAは、これらを生成する際にLLM(Large Language Model)を導くために使われる命令プロンプトを進化させる。
プロンプト進化」のこのプロセスは、新しいメタ認知フレームワークによって駆動される。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:31:26 GMT)
Multi-Modal Semantic Parsing for the Interpretation of Tombstone Inscriptions [7.8] 墓石は歴史的かつ文化的に豊かな人工物であり、個人の生活、コミュニティの記憶、歴史物語、芸術的表現をカプセル化している。
今日の多くの墓石は、物理的侵食、破壊、環境劣化、政治的変化など、重要な保存上の課題に直面している。
本稿では,墓石の解釈,整理,検索の改善を目的とした,墓石のデジタル化のための新しいマルチモーダルフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 20:05:38 GMT)
Why Heuristic Weighting Works: A Theoretical Analysis of Denoising Score Matching [7.8] 重み付け関数は 正式な正当性を持たずに スコアマッチングの損失を
本研究では,ヘテロサスティック性が聴取スコアマッチング目的の固有の性質であることを実証する。
この知見は、一般化された任意の順序の採点損失に対する最適重み付け関数の原理的導出につながる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:35:20 GMT)
From SHAP to Rules: Distilling Expert Knowledge from Post-hoc Model Explanations in Time Series Classification [7.7] 本稿では,数値的特徴属性をポストホック,インスタンスワイド・アナライザから構造化されたヒューマン可読なルールに変換するフレームワークを提案する。
このアプローチは、Anchorのようなネイティブなルールベースのメソッドと互換性があり、長いTSにスケーリングし、より多くのインスタンスをカバーしています。
UCIデータセットの実験では、結果のルールベースの表現が解釈可能性、決定透明性、TS分類の実践的適用性を改善することが確認されている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:45:40 GMT)
SSVQ: Unleashing the Potential of Vector Quantization with Sign-Splitting [7.7] 本稿では,新たなVQパラダイムであるSign-Splitting VQ(SSVQ)を紹介する。
SSVQは従来のVQに比べて圧縮精度のトレードオフがかなり優れていることを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:28:36 GMT)
TCDiff: Triplex Cascaded Diffusion for High-fidelity Multimodal EHRs Generation with Incomplete Clinical Data [7.7] 実世界のEHRデータの特徴を学習するために,3つの拡散ネットワークをカスケードする新しいEHR生成フレームワークTCDiffを提案する。
TCDiffは、さまざまな欠落率でデータ忠実度の平均10%で、最先端のベースラインを一貫して上回っている。
これは、現実のヘルスケアシナリオにおける我々のアプローチの有効性、堅牢性、一般化性を強調します。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 06:24:20 GMT)
Collaborative Perceiver: Elevating Vision-based 3D Object Detection via Local Density-Aware Spatial Occupancy [7.6] 視覚に基づく鳥眼視(BEV)3次元物体検出は、自律運転において著しく進歩している。
既存の方法では、抽出した物体の特徴を分解して3次元のBEV表現を構築することが多い。
本研究では,空間表現のギャップを埋めるマルチタスク学習フレームワークであるCollaborative Perceiverを導入する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 22:46:43 GMT)
Clue-RAG: Towards Accurate and Cost-Efficient Graph-based RAG via Multi-Partite Graph and Query-Driven Iterative Retrieval [7.5] Retrieval-Augmented Generation (RAG) は、しばしばグラフ構造化データから外部情報を統合することで制限に対処する。
本稿では,マルチパーティグラフインデックスとクエリ駆動反復検索戦略を導入した新しいアプローチであるClue-RAGを提案する。
3つのQAベンチマークの実験により、Clue-RAGは最先端のベースラインを著しく上回っている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:07:40 GMT)
StyleDrive: Towards Driving-Style Aware Benchmarking of End-To-End Autonomous Driving [7.5] エンドツーエンド自動運転(E2EAD)の文脈では、パーソナライゼーションはほとんど見過ごされている。
パーソナライズされたE2EAD用に明示的にキュレートされた,最初の大規模実世界のデータセットを紹介する。
パーソナライズされたE2EADモデルを体系的に評価するための最初の標準ベンチマークを紹介する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:28:43 GMT)
Pulse Shape Discrimination Algorithms: Survey and Benchmark [7.3] 本稿では,放射線検出のためのパルス形状判別(PSD)アルゴリズムの総合的な調査とベンチマークについて述べる。
本研究では,F1スコア,ROC-AUC,メソッド間相関などの指標を用いて,標準化された2つのデータセットを実装・評価する。
ディープラーニングモデル、特にMLP(Multi-Layer Perceptrons)と、統計的特徴とニューラル回帰を組み合わせたハイブリッドアプローチは、従来の手法よりも優れていることが多い。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:41:32 GMT)
MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing [7.3] LVLM(Large Vision-Language Models)は、マルチモーダルタスクにおいて印象的なパフォーマンスを達成したが、まだ幻覚に悩まされている。
本稿では,LVLMにおける幻覚を緩和するために,新たなマップレベルの視点を導入し,モデルの隠れ状態を2次元意味マップとして解釈する。
本研究では,注意に基づく地図レベルの操作を通じて実情報を効果的に活用する学習自由復号法であるMap-Level Attention Processing (MAP)を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:23:31 GMT)
Towards EXPTIME One Way Functions: Bloom Filters, Succinct Graphs, Cliques, & Self Masking [7.2] n 個のノードのグラフを検討し、長さ 2 log3 n ビットのブルームフィルタを使用する。
i と j の間の端点 i と j は、i と j 上のハッシュ関数に従ってブルームフィルタの特定のビットを反転させる。
ブルームフィルタは、x と y にハッシュ関数を適用することで選択された全てのビットがブルームフィルタに斜めのエッジを巻き込むためにオンになったような、他のエッジ、すなわち x y のあるエッジの存在を暗示する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:16:35 GMT)
BVQC: A Backdoor-style Watermarking Scheme for Variational Quantum Circuits [7.2] 変分量子回路(VQC)は量子コンピューティングのパラダイムとして登場した。
本稿では,VQCのバックドアベースの透かし技術であるBVQCを提案する。
BVQCは従来の透かし技術と比較して9.89e-3の確率的証明(PPA)変化と0.089のグラウンド真理距離(GTD)変化を大幅に低減することを示した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 19:06:31 GMT)
KinMo: Kinematic-aware Human Motion Understanding and Generation [7.0] 現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
ランのような単一の粗い記述は、速度の変動、手足の位置決め、運動力学といった詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークであるKinMoを紹介する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:16:03 GMT)
DeepVIS: Bridging Natural Language and Data Visualization Through Step-wise Reasoning [6.9] 本稿では,CoT推論を自然言語から可視化(NL2VIS)パイプラインに統合することを提案する。
まず,NL2VISのための包括的CoT推論プロセスを設計し,構造化された推論ステップで既存のデータセットを装備する自動パイプラインを開発する。
第二にnvBench-CoTは、曖昧な自然言語記述から最終的な視覚化まで、ステップバイステップの詳細な推論をキャプチャする特殊なデータセットである。
第3に,CoT推論プロセスと密に統合された対話型ビジュアルインタフェースであるDeepVISを開発する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:04:17 GMT)
How Can I Publish My LLM Benchmark Without Giving the True Answers Away? [6.9] 大規模言語モデル(LLM)ベンチマークをインターネット上で公開することで、将来のLLMを汚染するリスクがある。
一般的な緩和策は、ベンチマークを非公開にし、参加者がモデルや予測をオーガナイザに提出できるようにすることである。
質問に対する根本的回答を完全に開示することなく,ベンチマークを公開する方法を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:08:52 GMT)
DUP: Detection-guided Unlearning for Backdoor Purification in Language Models [6.7] DUP (Detection-guided Unlearning for Purification) は、非学習ベースの浄化とバックドア検出を統合するフレームワークである。
検出結果に基づいてパラメータ効率の低い未学習機構を用いてモデルを浄化する。
私たちのコードはhttps://github.com/ManHu2025/DUP.comで公開されています。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:12:21 GMT)
Semantically-Guided Inference for Conditional Diffusion Models: Enhancing Covariate Consistency in Time Series Forecasting [6.7] SemGuideは条件付き拡散モデルにおける共変量一貫性を高めるプラグイン・アンド・プレイの推論時間法である。
本稿では,中間拡散状態と将来の共変量とのセマンティックアライメントを評価するためのスコアリングネットワークを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:04:04 GMT)
Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning [6.7] 非基底整列部分空間を教師なしで学習する。
その結果、取得した部分空間内の符号化された情報は、異なる入力間で同じ抽象概念を共有する傾向にあることが示された。
また、2Bモデルに拡張性を示す証拠として、コンテキストを仲介する部分空間とパラメトリックな知識ルーティングを見つける。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 20:59:29 GMT)
Closed-Circuit Television Data as an Emergent Data Source for Urban Rail Platform Crowding Estimation [6.5] 正確な都市鉄道のプラットフォーム占有率の推定は、交通機関が情報的な運用上の決定を下す能力を高めることができる。
CCTVの映像は有望なデータソースとして現れており、正確なリアルタイムの占有率を推定することができる。
この研究は、交通機関が利用できる他のデータソースとは独立して、CCTV画像データがより正確なリアルタイムの混雑推定を可能にすることを実証している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:52:12 GMT)
Anomalous flow in correlated quantum systems: No-go result and multiple-charge scenario [6.4] 関連量子系は古典的な期待に反する熱力学的挙動を示すことができる。
温度勾配に対する異常エネルギーフロー(AEF)の増加は、パラダイム的な例である。
任意の相関量子系間の電荷交換を記述するための一般的なグローバル局所熱力学手法を開発する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:27:02 GMT)
Path-LLM: A Shortest-Path-based LLM Learning for Unified Graph Representation [6.4] 統一グラフ表現を効率的に学習するための新しいパス-LLMモデルを提案する。
私たちのフレームワークは、よく設計された4つのテクニックで構成されています。
WalkLMと比較して、我々のアプローチは数百万のグラフ上でのトレーニングパスの90%以上を節約し、少なくとも35倍高速に動作します。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:59:43 GMT)
NeuFlow v2: Push High-Efficiency Optical Flow To the Limit [6.2] リアルタイムの高精度な光フロー推定は、様々な実世界のロボット応用に不可欠である。
我々は,計算オーバーヘッドの少ない実世界のデータセットに高い精度を提供する新しい方法であるNeuFlow-V2を提案する。
これはJetson Orin Nanoで512x384解像度の画像を20FPS以上で実行することができる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 00:37:23 GMT)
CapRecover: A Cross-Modality Feature Inversion Attack Framework on Vision Language Models [6.0] CapRecoverは、ラベルやキャプションなどの高レベルのセマンティックコンテンツを、画像再構成なしで中間機能から直接復元する。
本稿では,各層における中間機能にランダムノイズを付加し,次層におけるノイズを除去する,シンプルで効果的な保護手法を提案する。
実験の結果,追加のトレーニングコストを伴わずにセマンティックリークを防止できることが示唆された。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:07:09 GMT)
An Actor-Critic Algorithm with Function Approximation for Risk Sensitive Cost Markov Decision Processes [5.9] 我々はマルコフ決定プロセスの指数的コストを伴うリスク感受性コスト基準を考察し、この設定でモデルフリーポリシーアルゴリズムを開発する。
本稿では,最近の論文における他のアルゴリズムよりもアルゴリズムの性能が優れていることを示す数値実験の結果を示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:36:44 GMT)
CA-W3D: Leveraging Context-Aware Knowledge for Weakly Supervised Monocular 3D Detection [5.9] 本稿では,この制限を2段階の訓練パラダイムで解決するために,単眼3次元物体検出のためのコンテキスト認識弱スーパービジョン(CA-W3D)を提案する。
具体的には、まず、トレーニング可能なモノクロ3Dエンコーダと凍結したオープンボキャブラリ2D視覚接地モデルから得られた地域オブジェクトの埋め込みを整列するROCM(Regional-wise Object Contrastive Matching)を用いた事前学習ステージを導入する。
第2段階では、文脈先行を効果的に伝達するD2OD(Dual-to-One Distillation)機構を備えた擬似ラベルトレーニングプロセスを導入する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:19:51 GMT)
Implementing Cumulative Functions with Generalized Cumulative Constraints [5.9] 本稿では,一般化累積法(Generalized Cumulative)と呼ばれる,単一の大域的制約を用いたモデリング手法の実装について述べる。
また、条件付き時間間隔で定義されたタスクを処理するために設計された新しい時間テーブルフィルタリングアルゴリズムを導入する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:29:44 GMT)
Beyond Vulnerabilities: A Survey of Adversarial Attacks as Both Threats and Defenses in Computer Vision Systems [5.8] コンピュータビジョンシステムに対する敵対的攻撃は、ニューラルネットワークの堅牢性とセキュリティに関する基本的な前提に挑戦する重要な研究領域として浮上している。
この包括的調査は、敵のテクニックの進化の状況を調べ、その2つの性質を高度なセキュリティ脅威と貴重な防御ツールの両方として明らかにしている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:02:05 GMT)
DRKF: Decoupled Representations with Knowledge Fusion for Multimodal Emotion Recognition [5.8] マルチモーダル感情認識のための解答表現と知識融合(DRKF)手法を提案する。
DRKFは、最適化表現学習(ORL)モジュールと知識融合(KF)モジュールの2つの主要なモジュールで構成されている。
実験の結果, DRKFはIEMOCAP, MELD, M3ED上でのSOTA(State-of-the-art)性能を実現することがわかった。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:05:57 GMT)
Unsupervised Learning for the Elementary Shortest Path Problem [5.6] プライマリ・ショート・パス問題(英語版) (ESPP) は、s から t への最小のコストパスを求め、それぞれを一度に訪問する。
本稿では,教師なしグラフニューラルネットワークによって実現された近似ESPPの確率的探索法を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:03:05 GMT)
LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding [5.4] 視覚指導による生体画像理解に適した,最初の大規模言語拡散モデルである textbfLLaDA-MedV を紹介する。
LLaDA-MedVはLLaVA-Medより7.855%、LLaDA-Vより1.867%の相対的な性能向上を実現している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 06:46:46 GMT)
FluidFormer: Transformer with Continuous Convolution for Particle-based Fluid Simulation [5.2] 学習に基づく流体シミュレーションネットワークは、ナヴィエ・ストークス方程式の従来の数値解法に代わる有効な選択肢として証明されている。
本研究では,局所的な階層構造を持つ最初のFluid Attention Block (FAB)を提案する。
連続流体シミュレーションに特化して設計された最初のTransformerアーキテクチャを、デュアルパイプアーキテクチャにシームレスに統合した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:44:17 GMT)
How Does Controllability Emerge In Language Models During Pretraining? [5.1] インターベンション検出器」は, 直線的操舵性がトレーニング中にどのように進化するかを明らかにするために設計されている。
トレーニングの中間段階において介入効果が出現することが示唆された。
さらに密接に関連する概念(怒りや悲しみなど)は、異なる訓練段階においてステアビリティの出現を示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:58:12 GMT)
ACT-Tensor: Tensor Completion Framework for Financial Dataset Imputation [5.1] 本稿では,アダプティブ・クラスタベースのテンソルスムージング・テンソル・コンプリート・フレームワーク(ACT-Tensor)を導入する。
ACT-Tensorは、欠落するデータレシスタンスの範囲で、計算精度の点で、最先端のベンチマークを一貫して上回っている。
その結果、ACT-Tensorは価格の誤差を減らすだけでなく、構築されたポートフォリオのリスク調整されたリターンを大幅に改善することがわかった。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:28:57 GMT)
TopoImages: Incorporating Local Topology Encoding into Deep Learning Models for Medical Image Classification [5.0] 連結成分やループなどの画像データのトポロジ構造は、画像の内容を理解する上で重要な役割を果たす。
TopoImagesは、パッチの局所的なトポロジを符号化することで、入力画像の新たな表現を計算する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:48:35 GMT)
LEMON: A Large Endoscopic MONocular Dataset and Foundation Model for Perception in Surgical Settings [4.9] LEMONは4K以上の手術用ビデオのコレクションで、さまざまなタイプの高品質な映像を938時間(8500万フレーム)で撮影する。
レモンFM(LemonFM)は、LEMONで事前訓練された基礎モデルである。
レモンとレモンFMは研究コミュニティと産業の基盤となる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 23:47:13 GMT)
Authorship Attribution in Multilingual Machine-Generated Texts [4.7] LLM(Large Language Models)は、人間のような流布とコヒーレンスに到達した。
機械生成テキスト(MGT)と人間が書いたコンテンツとを区別することはますます困難になっている。
オーサシップ属性(AA)は、テキストの背後にある正確なジェネレータ(LLMまたは人間)を特定することができる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:28:02 GMT)
Glass Surface Segmentation with an RGB-D Camera via Weighted Feature Fusion for Service Robots [4.6] 本稿では,RGBと深度機能を組み合わせた重み付き特徴融合(WFF)モジュールを提案し,透明性やリフレクションといった問題に対処する。
また、実環境をナビゲートするサービスロボットによって収集された総合的なRGB-DデータセットであるMJU-Glassデータセットについても紹介する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:58:10 GMT)
GlaBoost: A multimodal Structured Framework for Glaucoma Risk Stratification [4.6] GlaBoostは、構造化された臨床特徴、基礎画像の埋め込み、緑内障のリスク予測のための専門家によるテキスト記述を統合している。
実際のアノテートデータセットで実施された実験は、GlaBoostがベースラインモデルを大幅に上回っていることを示している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 22:02:42 GMT)
The Fellowship of the LLMs: Multi-Model Workflows for Synthetic Preference Optimization Dataset Generation [4.5] 本稿では,マルチモデルを用いた合成優先度最適化(PO)データセットの生成手法を提案する。
データセット生成プロセスの自動化と向上において,これらの有効性と可能性を評価する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:53:23 GMT)
Agent-Based Feature Generation from Clinical Notes for Outcome Prediction [4.5] 大規模言語モデル(LLM)を利用したモジュール型マルチエージェントシステムであるSNOWを導入する。
SNOWは,Stanford Healthcareの147例において,手動CFG,クリニカルガイド下LCM法,RFG法を用いて5年間の前立腺癌再発の予測を行った。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 23:45:18 GMT)
ChairPose: Pressure-based Chair Morphology Grounded Sitting Pose Estimation through Simulation-Assisted Training [4.5] ChairPoseは、最初のフルボディ、ウェアラブルフリーの着席ポーズ推定システムである。
圧力感知のみに依存し、椅子形状とは独立して機能する。
使用者と椅子の両方が見えない場合に、関節位置誤差の平均89.4mmを実現する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:06:09 GMT)
Bayes-Entropy Collaborative Driven Agents for Research Hypotheses Generation and Optimization [4.5] 本稿では,HypoAgentsと呼ばれるマルチエージェント協調フレームワークを提案する。
多様性のサンプリングを通じて仮説を生成し、事前の信念を確立する。
その後、外部文献の証拠収集にRAG(erieval-augmented generation)を採用している。
情報エントロピー$H = - sum p_ilog p_i$ を用いて高不確かさ仮説を特定し、それらを積極的に洗練する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:05:32 GMT)
Optimal and Feasible Contextuality-based Randomness Generation [4.2] Kochen-Speckerコンテキスト性に基づく半独立(デバイスに依存しない)ランダムネス生成プロトコルは、コンパクトデバイスの魅力的な特徴を提供する。
一つのqubitが非文脈的であることを示し、$epsilon$-faithful NCHVモデルでは説明できないqubit相関が存在することを示す。
我々は、特定の文脈性テストのクラスに対する、量子的および一般整合性(非シグナリング)の敵による攻撃の可能性について指摘する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:01:32 GMT)
A Survey on Privacy-Preserving Computing in the Automotive Domain [4.2] 本調査は,セキュアマルチパーティ計算 (MPC) と同型暗号化 (HE) の応用を概観する。
まず、これらの技術のプライバシーに敏感なユースケースの範囲を特定し、異なる自動車環境におけるプライバシー問題に対処する既存の研究を調査する。
そして、これらのユースケースのソリューションとしてMPCとHEを用いた最近の研究を詳細にレビューする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 15:23:41 GMT)
T-GRAG: A Dynamic GraphRAG Framework for Resolving Temporal Conflicts and Redundancy in Knowledge Retrieval [4.1] 本稿では,時間とともに知識の進化をモデル化する動的時間認識RAGフレームワークであるT-GRAGを提案する。
T-GRAGは、(1)時間スタンプで進化するグラフ構造を生成するテンポラル知識グラフ生成装置、(2)複雑な時間的クエリを管理可能なサブクエリに分解するテンポラルクエリ分解機構、(3)時間的サブグラフ間の検索を段階的にフィルタリングし洗練する3層インタラクティブレトリバーからなる。
T-GRAGは検索精度と応答性の両方において,RAGおよびGraphRAGベースラインよりも有意に優れていた。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:15:36 GMT)
Counterfactual Reciprocal Recommender Systems for User-to-User Matching [4.1] 本稿では,このバイアスを軽減するための因果的枠組みであるCFRRを紹介する。
実験の結果、CFRRはNDCG@10を最大3.5%改善し、ロングテールのユーザカバレッジを最大51%向上し、Giniの露出不平等を最大24%削減した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:45:04 GMT)
Optimal Discriminant Analysis in High-Dimensional Latent Factor Models [4.1] 高次元分類問題において、一般的に用いられるアプローチは、まず高次元の特徴を低次元空間に射影することである。
我々は、この2段階の手順を正当化するために、隠れた低次元構造を持つ潜在変数モデルを定式化する。
観測された特徴の特定の主成分(PC)を射影とする計算効率の良い分類器を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:03:27 GMT)
ProKG-Dial: Progressive Multi-Turn Dialogue Construction with Domain Knowledge Graphs [3.9] 現在の大規模言語モデル(LLM)は一般的なNLPタスクでは優れているが、プロの設定ではドメイン固有の精度を欠いていることが多い。
ドメイン固有知識グラフ(KG)を用いた知識集中型多元対話構築フレームワークであるProKG Dialを紹介する。
医療知識グラフ上のProKGダイアルを多様性,セマンティック・コヒーレンス,エンティティ・カバレッジの観点から評価し,評価する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:52:42 GMT)
KLLM: Fast LLM Inference with K-Means Quantization [3.9] K平均量子化重みとアクティベーションを用いた効率的な実行のための推論アクセラレータであるKLLMを提案する。
KLLMは、K-Means量子化データ上でのMatMulsと非線形演算を効率的に実行するためのインデックスベースの計算スキームを備えている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 20:01:17 GMT)
RAISE: Realness Assessment for Image Synthesis and Evaluation [3.8] 我々は、実感予測のためのベースラインを確立するために、RAISEのモデルを開発し、訓練する。
実験結果から,深い基盤視モデルから得られた特徴が主観的現実性を効果的に捉えることができることが示された。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 20:05:22 GMT)
AGFT: An Adaptive GPU Frequency Tuner for Real-Time LLM Inference Optimization [3.7] 我々は、オンライン強化学習を用いて最適な周波数調整ポリシーを自律的に学習するフレームワークであるAGFT(An Adaptive GPU Frequency Tuner)を提案する。
AGFTは、パフォーマンス遅延のオーバーヘッドを10%以下に抑えながら、44.3%のGPUエネルギー消費を削減できたことを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:02:07 GMT)
One Subgoal at a Time: Zero-Shot Generalization to Arbitrary Linear Temporal Logic Requirements in Multi-Task Reinforcement Learning [3.6] 複雑で時間的に拡張されたタスク目標と安全制約への一般化は、強化学習(RL)における重要な課題である。
本稿では,任意の仕様に対してゼロショットの一般化を可能にするGenZ-LTLを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:17:49 GMT)
Contrastive Multi-Task Learning with Solvent-Aware Augmentation for Drug Discovery [3.2] 各種溶媒条件下で生成する配位子コンフォメーションアンサンブルを付加入力として組み込んだ事前学習法を提案する。
トレーニングプロセスは、分子再構成を統合し、局所的な幾何学、原子間距離予測、および対照的な学習を捉え、溶媒不変の分子表現を構築する。
このフレームワークは、溶媒を意識したマルチタスクモデリングをサポートし、ベンチマーク間で一貫した結果を生成する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 15:25:42 GMT)
Probabilistic Domain Adaptation for Biomedical Image Segmentation [3.0] ドメイン適応は有望な対策である。ソースデータセット上の与えられたタスクのモデルをラベルでトレーニングし、追加のラベルなしでターゲットデータセットに適応する。
本稿では,確率的ドメイン適応手法,自己学習アプローチ,確率的UNetを提案する。
さらに,バイオメディカルセグメンテーションのための3つの挑戦的領域適応課題について,共同および個別のソースターゲットトレーニング戦略について検討し,提案手法の評価を行った。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:25:01 GMT)
Test-Time Training for Speech Enhancement [3.0] 本稿では,音声強調のためのTTT(Test-Time Training)の新たな適用法を提案する。
予測不可能なノイズ条件とドメインシフトによって引き起こされる課題に対処する。
音声品質の指標間で一貫した改善が見られ、ベースラインモデルよりも優れています。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:02:55 GMT)
Neural Policy Iteration for Stochastic Optimal Control: A Physics-Informed Approach [2.9] 物理インフォームドニューラルネットワークポリシー反復フレームワーク(PINN-PI)を提案する。
各イテレーションにおいて、ニューラルネットワークは、固定ポリシーによって誘導される線形PDEの残余を最小限にして、値関数を近似するように訓練される。
提案手法は,最大10次元の勾配カートポール,振り子高次元線形二次規則(LQR)問題など,いくつかのベンチマーク問題に対する有効性を示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 11:02:25 GMT)
ReasonAct: Progressive Training for Fine-Grained Video Reasoning in Small Models [2.9] より小さなモデルにおけるビデオ推論を強化する手法であるReasonActを紹介する。
テキストのみの推論で基礎を築き、ビデオで微調整し、最後に時間対応の強化学習で補修します。
実験では, ベースライン上の17.9, 15.8, 12.3点の改善を実証した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:25:13 GMT)
Enhancing Math Reasoning in Small-sized LLMs via Preview Difficulty-Aware Intervention [2.9] 最先端のLLMの技術的な詳細は未公表のままである。
我々はオープンソースのGRPOフレームワーク上に構築されたEPRLI(Early Preview Reinforcement Learning)アルゴリズムから研究を開始する。
AIME24では50.0%,Math500では89.2%,AMCでは77.1%,Minervaでは35.3%,OBenchでは51.9%であった。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:41:36 GMT)
Online and Customizable Fairness-aware Learning [2.8] 本稿では,分散フローの可能なデータストリームに公平性を持つオンライン決定ツリーの新たなフレームワークを提案する。
具体的には、まず、データを可能な限り符号化する2つの新しい公平分割基準を提案する。
第2に、オンラインの公正意思決定要求を満たす2つの公正決定木オンライン成長アルゴリズムを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:59:20 GMT)
Classification of Heart Sounds Using Multi-Branch Deep Convolutional Network and LSTM-CNN [2.8] 本研究は, 心臓疾患の自動診断のための, 迅速かつ正確かつ費用対効果の高い手法を提供する新しいディープラーニングアーキテクチャを開発し, 評価する。
まず,多様な畳み込みフィルタサイズを利用して人間の聴覚処理をエミュレートするマルチブランチディープ畳み込みニューラルネットワーク(MBDCN)と,特徴抽出のためのパワースペクトル入力の2つの革新的な手法を提案する。
第二に、LSTMブロックをMBDCNに統合し、時間領域の特徴抽出を改善するLong Short-Term Memory-Convolutional Neural (LSCN)モデルである。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:26:35 GMT)
Floquet theory and applications in open quantum and classical systems [2.7] 本稿では、開(散逸)量子系または古典系におけるフロケット工学(FE)現象を解析するための理論的手法について概説する。
運転場によるエネルギ注入と浴室への放出とのバランスにより, 長時間運転後に非平衡定常状態が出現することを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:46:21 GMT)
Quantum storage with flat bands [2.6] フラットバンド格子におけるコンパクト励起のターゲット生成法を提案する。
平面波と共振平面波のコンパクトな局在状態(s)のハイブリッド化を誘導する。
このハイブリッド化は、量子メモリ用途に適した空間的にコンパクトで安定した励起の形成を可能にする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:02:52 GMT)
SoccerTrack v2: A Full-Pitch Multi-View Soccer Dataset for Game State Reconstruction [2.5] SoccerTrack v2は、多目的追跡(MOT)、ゲーム状態再構成(GSR)、サッカー分析におけるボールアクションスポッティング(BAS)を前進させるための新しいパブリックデータセットである。
SoccerTrack v2は、大学レベルの試合をフル長のパノラマ4Kで記録し、BeProカメラで撮影してプレイヤーの視認性を高める。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 15:38:59 GMT)
SURE-Med: Systematic Uncertainty Reduction for Enhanced Reliability in Medical Report Generation [2.2] 視覚, 分布, 文脈の3つの重要な次元における不確実性を体系的に低減する統合フレームワークSURE-Medを提案する。
視覚的不確実性を軽減するため、Frontal-Aware View Resamplingモジュールはビューアノテーションエラーを修正し、補足ビューから情報的特徴を適応的に選択する。
ラベル分布の不確実性に対処するために,批判的診断文のモデリングを促進させるToken Sensitive Learningの目標を提案する。
文脈不確実性を低減するため、文脈証拠フィルタは、現在の画像と整合する事前情報を検証し、選択的に組み込んで、幻覚を効果的に抑制する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:52:30 GMT)
VAGPO: Vision-augmented Asymmetric Group Preference Optimization for the Routing Problems [2.2] ルーティング問題の解法として,視覚拡張型非対称グループ優先最適化(VAGPO)を提案する。
ResNetベースのビジュアルエンコーディングとTransformerベースのシーケンシャルモデリングを活用することで、VAGPOは空間構造と時間的依存関係の両方をキャプチャする。
実験結果から,提案したVAGPOは競争力の高いソリューション品質を実現するだけでなく,再学習なしに大規模インスタンスに強力な一般化を示すことがわかった。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:19:12 GMT)
LinguaSynth: Heterogeneous Linguistic Signals for News Classification [2.1] 本稿では,5つの相補的言語特徴型を統合した新しいテキスト分類フレームワークを提案する。
解釈可能性と計算効率を維持し、20ニューズグループデータセットで84.89パーセントの精度を達成している。
統語的信号と実体的信号が本質的な曖昧さをもたらし,分散意味論を効果的に補完することを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:30:11 GMT)
Surgical Gaussian Surfels: Highly Accurate Real-time Surgical Scene Rendering using Gaussian Surfels [2.1] 異方性点プリミティブを表面整列楕円形スプラットに変換する手術用ガウスサーフェルス(SGS)を導入する。
また,標準放射の5倍の精度で正確な波動場を予測する軽量な多層パーセプトロン (FFD-MLP) も導入した。
本手法は, 表面形状, 正規地図品質, レンダリング効率において, 現状の手法より優れている2つの手術用データセットを用いて評価した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 22:13:27 GMT)
LT-Gaussian: Long-Term Map Update Using 3D Gaussian Splatting for Autonomous Driving [2.1] LT-Gaussianは3D-GSベースの地図のマップ更新手法である。
LT-Gaussianはガウス写像を効果的に効率的に更新できることを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:15:13 GMT)
Robustness of graph embedding methods for community detection [2.0] 本研究では,ネットワーク摂動面におけるコミュニティ検出のためのグラフ埋め込み手法のロバスト性について検討する。
この研究は、行列因数分解とランダムウォークベースという2つのファミリからの最先端のグラフ埋め込み手法を考察している。
このロバスト性は、ネットワークサイズ、初期コミュニティ分割強度、摂動の種類などの影響を受けている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:23:58 GMT)
Efficient optimization of expensive black-box simulators via marginal means, with application to neutrino detector design [1.6] 本稿では,BOMM(Marginal Means)アプローチによるブラックボックス最適化を提案する。
BOMMはグローバル$mathbfx*$の新しい推定器を使用し、高次元の限られたランで効率的に推論できる。
BOMMは最適化に一貫性があることが示されるが、既存の手法が直面する「次元の商」を誘惑する最適化率も示している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:44:05 GMT)
Time to Retrain? Detecting Concept Drifts in Machine Learning Systems [1.4] 機械学習(ML)モデルにおける概念ドリフトを検出するためのモデル非依存手法(CDSeer)を提案する。
その結果、CDSeerの精度とリコールは最先端と比較して優れており、手作業によるラベリングは極めて少ないことがわかった。
CDSeerのパフォーマンス向上と導入の容易さは、MLシステムをより信頼性の高いものにする上で価値がある。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 15:46:06 GMT)
DALEQ -- Explainable Equivalence for Java Bytecode [1.4] Javaバイトコードをリレーショナルデータベースに分解するツールであるdaleqを紹介します。
次に、データログルールを適用し、2つのクラス間で等価性を推測することで、このデータベースを正規化することができる。
本研究では,2,714対の瓶を含む大規模評価を通じて,工業的文脈におけるdaleqの影響を実証する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:17:25 GMT)
MacroSwarm: A Field-based Compositional Framework for Swarm Programming [1.4] 本稿では,新しいフィールドベースのコーディネーション手法であるMacroSwarmを提案し,Swarmの動作を設計・プログラムする。
集約コンピューティングのマクロプログラミングパラダイムに基づいて、MacroSwarmは、各Swarm動作ブロックを純粋関数として表現するという考え方に基づいている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:42:28 GMT)
Censored Sampling for Topology Design: Guiding Diffusion with Human Preferences [1.4] 本稿では, 生成過程を制御できる, 新規なHuman-in-the-loop拡散フレームワークを提案する。
生成モデルにおける選好アライメント手法に着想を得て,非現実的な出力を抑える方法を学ぶ。
予備的な結果は、様々なテスト条件で失敗モードが大幅に減少し、設計リアリズムが改善したことを示している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:06:26 GMT)
CultureGuard: Towards Culturally-Aware Dataset and Guard Model for Multilingual Safety Applications [1.2] CultureGuardは、文化的に整列した高品質な安全データセットを複数の言語でキュレートするための新しいソリューションです。
提案手法では,文化データ分離,文化データ適応,機械翻訳,品質フィルタリングという,4段階の合成データ生成とフィルタリングパイプラインを導入している。
得られたデータセットであるNemotron-Content-Safety-Dataset-Multilingual-v1は、9言語で386,661のサンプルで構成され、LoRAベースの微細チューニングを通じてLlama-3.1-Nemotron-Safety-Guard-Multilingual-8B-v1のトレーニングを容易にする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:35:05 GMT)
Reasoning Systems as Structured Processes: Foundations, Failures, and Formal Criteria [1.2] 我々は、現象、説明空間、推論と生成マップ、原理ベースからなる構造体として推論システムをモデル化する。
我々は,コヒーレンス,健全性,完全性を含む基本的な内部基準と,矛盾,不完全性,非収束性といった典型的な障害モードのカタログを調査する。
この研究の目的は、特に内部の失敗、適応、断片化が発生する可能性のある状況において、推論システムを表現し比較するための基礎構造を確立することである。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:04:15 GMT)
CloudAnoAgent: Anomaly Detection for Cloud Sites via LLM Agent with Neuro-Symbolic Mechanism [1.2] クラウドサイトの異常検出は依然として重要な課題だが、難しい課題だ。
大規模言語モデル(LLM)の最近の進歩は、メトリクスをログデータに統合する新たな機会を提供する。
CloudAnoAgentは,クラウド環境下での異常検出のための,最初のニューロシンボリックLSMベースのエージェントである。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:59:43 GMT)
MCTS-SQL: Light-Weight LLMs can Master the Text-to-SQL through Monte Carlo Tree Search [1.2] Text-to-OTAは、NLP領域における基本的な課題である。
モンテカルロ木探索を用いた新しいフレームワークMCTS-OTAを提案する。
本稿では,反復中に事前情報を格納するトークンレベルのプレフィックスキャッシュ機構を提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:27:19 GMT)
LoRA-based methods on Unet for transfer learning in Subarachnoid Hematoma Segmentation [1.1] 動脈瘤性くも膜下出血(Aneurysmal subarachnoid hemorrhage、SAH)は、致死率30%を超える致命的な神経疾患である。
関連する血腫型からの移行学習は、潜在的に価値はあるが未発見のアプローチである。
LoRA法は、大動脈瘤SAHセグメンテーションにおける標準Unet微調整よりも一貫して優れていた。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:12:42 GMT)
Asynchronous Federated Learning with non-convex client objective functions and heterogeneous dataset [0.9] Tosampling Federated Learning (FL)は、不安定なデータのプライバシを保持しながら、分散デバイス間のコラボレーティブモデルを可能にする。
非同期学習(AFL)は、クライアントが独立して更新できるようにし、スケーラビリティを改善し、同期を遅くすることで、これらの問題に対処する。
我々のフレームワークは、データパワー、分散、通信のバリエーションに対応しており、現実世界のアプリケーションに実用的です。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:06:42 GMT)
ChEmbed: Enhancing Chemical Literature Search Through Domain-Specific Text Embeddings [0.9] 汎用テキスト埋め込みモデルは複雑な化学用語を適切に表現できない。
ChEmbedは、化学固有のテキストからなるデータセットに微調整されたテキスト埋め込みモデルのドメイン適応型ファミリーである。
我々は大規模言語モデルを用いてクエリを合成し、その結果、約170万の高品質なクエリパスペアが生成される。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:04:44 GMT)
Optimizing Day-Ahead Energy Trading with Proximal Policy Optimization and Blockchain [0.9] 本稿では,PPOアルゴリズム,最先端の強化学習手法,ブロックチェーン技術を統合した新しいフレームワークを提案する。
我々は、マルチオブジェクトエネルギー最適化のためのRLエージェントと、改ざん防止データとトランザクション管理のためのブロックチェーンを利用する包括的フレームワークを導入する。
私たちの貢献には、新しいシステムアーキテクチャ、堅牢なエージェント開発のためのカリキュラム学習、実用的なデプロイメントのための実行可能なポリシー洞察が含まれています。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:45:17 GMT)
Topolow: Force-Directed Euclidean Embedding of Dissimilarity Data with Robustness Against Non-Metricity and Sparsity [0.8] Topolowは、そのような埋め込み問題に対する物理学に着想を得た、勾配のない最適化フレームワークである。
トポローは入力の相似性を計量として必要とせず、非計量測度を有効ユークリッド空間に埋め込む堅牢な解となる。
本稿では, 抗原マッピングにおけるTopolowとして最初に導入されたアルゴリズムを定式化した(Arhami and Rohani, 2025)。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 12:19:17 GMT)
ADAPT: A Pseudo-labeling Approach to Combat Concept Drift in Malware Detection [0.8] データ分散の変更に機械学習モデルを適用するには、頻繁な更新が必要である。
我々は、コンセプトドリフトに対処するための新しい擬似ラベル付き半教師付きアルゴリズムであるtexttADAPTを紹介する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:46:40 GMT)
CVD-SfM: A Cross-View Deep Front-end Structure-from-Motion System for Sparse Localization in Multi-Altitude Scenes [0.8] 本稿では,様々な高度にまたがるロバストかつ正確な位置決めの課題に対処する,新しい多高度カメラポーズ推定システムを提案する。
このシステムは, クロスビュートランス, 深い特徴, 動きからの構造を統合して, 多様な環境条件や視点変化を効果的に処理する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 22:11:48 GMT)
Analyzing The Mirai IoT Botnet and Its Recent Variants: Satori, Mukashi, Moobot, and Sonic [0.7] Miraiは、IoT(Internet of Things)ボットネットの歴史上、最も重要な攻撃の1つだ。
これは、古いコードと一般的なIoTデバイスで見つかった新たな脆弱性を組み合わせた、いくつかの変種の開発のきっかけとなった。
この記事では、これらの変種による攻撃方法と影響について詳述する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 20:09:36 GMT)
Less is More: AMBER-AFNO -- a New Benchmark for Lightweight 3D Medical Image Segmentation [0.6] 我々は、もともとマルチバンド画像用に設計されたトランスフォーマーベースモデルであるAMBERを、3次元医療データキューブセグメンテーションのタスクに適用する。
AMBER-AFNOは、トレーニング効率、推論速度、メモリ使用量を大幅に向上させ、競争力または優れた精度を達成する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 22:31:00 GMT)
HiPPO-Prophecy: State-Space Models can Provably Learn Dynamical Systems in Context [0.5] 本研究では、状態空間モデル(SSM)の文脈内学習能力について検討する。
我々はSSMの新たな重み構造を導入し、任意の力学系の次の状態を予測できるようにした。
我々は、連続SSMが任意の入力信号の微分を近似できることを示すために、HiPPOフレームワークを拡張した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:56:59 GMT)
Artificial Intelligence for Quantum Matter: Finding a Needle in a Haystack [0.5] 任意の多体複素波動関数のNN表現を学習するための汎用的で効率的な方法を提案する。
99.9%のコストでオーバーラップした私たちは、分数量子ホールの問題を解決するために、事前トレーニングに神経波関数を使用します。
我々の研究は、汎用深部NNを用いた高絡み合い量子物質の効率的かつ正確なシミュレーションを実証する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 15:00:28 GMT)
Hard-Earned Lessons in Access Control at Scale: Enforcing Identity and Policy Across Trust Boundaries with Reverse Proxies and mTLS [0.5] 今日のエンタープライズ環境では、Virtual Private Networks(VPN)やSSO(Single Sign-On)といった従来のアクセス方法は、分散された動的労働力へのアクセスをセキュアにスケーリングすることに関して、しばしば不足しています。
本稿では,Multual TLS(mTLS)と集中型SSOを統合したリバースプロキシを活用した,最新のゼロトラスト対応アーキテクチャの実装経験について述べる。
この多次元ソリューションには、デバイスごとの認証とユーザ毎の認証、セキュリティポリシの集中的な実施、包括的な可観測性が含まれる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:32:11 GMT)
Towards a Manifesto for Cyber Humanities: Paradigms, Ethics, and Prospects [0.5] 『サイバー・ヒューマニティ』は、ポストデジタル時代の人文主義的探究の批判的な再構成を提案する。
サイバー・ヒューマニティ」は、計算によって媒介される世界におけるヒューマニズム的探究の基礎パラダイムとして理解されるべきである。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:33:24 GMT)
Semi-Parametric Batched Global Multi-Armed Bandits with Covariates [0.5] マルチアームバンディット(MAB)フレームワークは、シーケンシャルな意思決定に広く使われているアプローチである。
本稿では,コパラメトリックと腕間の共有パラメータを持つバッチバンドの半パラメトリックフレームワークを提案する。
Batched Single-Index Dynamic binning and Successive arm elimination (BIDS) というアルゴリズムでは、バッチ化された逐次アームの除去戦略を採用している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 19:12:44 GMT)
Token Pruning in Audio Transformers: Optimizing Performance and Decoding Patch Importance [0.5] We apply token pruning to ViT-based audio classification model using Mel-spectrograms。
パッチ内の信号の強度や変動にのみ基づくプルーニングは、顕著な精度低下につながることを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:38:28 GMT)
Robust Channel Estimation for Optical Wireless Communications Using Neural Network [0.4] 本稿では,周波数選択効果を低減するために,低複雑さなチャネル推定手法を提案する。
ニューラルネットワークは、環境に関する事前のチャネル情報なしで、一般的な光無線チャネルを推定することができる。
シミュレーションの結果,提案手法は正規化平均二乗誤差 (NMSE) とビット誤り率 (BER) を改良し,頑健化していることがわかった。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:10:07 GMT)
Scalable Subset Selection in Linear Mixed Models [0.4] リニアモデル(LMM)は、パーソナライズドメディカルのような異種データを分析するための重要なツールである。
LMMの既存の手法は、数十から数百の予測値を超えない。
LMMサブセット選択の新しい方法は、数千の予測器を数秒から数分で含むデータセット上で実行できる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:11:55 GMT)
A Simple Algebraic Solution for Estimating the Pose of a Camera from Planar Point Features [0.4] 本稿では,平面目標に対するカメラのポーズを,基準点$n geq 4$から簡易に推定する手法を提案する。
アプローチの正確性と堅牢性は、広範な実験を通じて検証される。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:47:34 GMT)
Leveraging Machine Learning for Botnet Attack Detection in Edge-Computing Assisted IoT Networks [0.3] 本稿では,エッジコンピューティング支援IoT環境におけるセキュリティ向上のための機械学習技術の適用について検討する。
ボットネット脅威の動的で複雑な性質に対処するため、ランダムフォレスト、XGBoost、LightGBMの比較分析を行う。
この結果は、IoTネットワークを新たなサイバーセキュリティ問題に対して強化する機械学習の可能性を強調している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:52:35 GMT)
Efficient Algorithm for Sparse Fourier Transform of Generalized $q$-ary Functions [0.3] GFastはFourier変換を$f$、サンプル複雑性は$O(Sn)$で計算する符号化理論アルゴリズムである。
GFastは、実世界の心臓疾患の診断とタンパク質の適合性モデルの説明を、最大13時間分のサンプルで行える。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 22:43:00 GMT)
Boosting Generalization Performance in Model-Heterogeneous Federated Learning Using Variational Transposed Convolution [0.3] Federated Learning(FL)は、分散クライアントがローカルデータを効率的に処理できるようにする、先駆的な機械学習パラダイムである。
従来のモデル均質なアプローチは、主に局所的なトレーニング手順を正規化したり、集約においてクライアントの重みを動的に調整したりする。
モデルアグリゲーションなしで未確認データに対するクライアントの一般化性能を向上させるモデル不均一FLフレームワークを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:55:18 GMT)
Hamiltonian simulation for nonlinear partial differential equation by Schrödingerization [0.2] ハミルトンシミュレーションは量子コンピューティングの基本的なアルゴリズムであり、かなりの関心を集めている。
非線形偏微分方程式(PDE)のハミルトニアンシミュレーション法を提案する。
提案手法はCarleman linearization + Schr"odingerization (CL) と呼ばれ、Carleman linearization (CL) とワープ位相変換 (WPT) を組み合わせたものである。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:00:38 GMT)
Causal Discovery in Multivariate Time Series through Mutual Information Featurization [0.2] 時間的因果関係(TD2C)は、情報理論と統計的記述の豊富なセットから複雑な因果的シグネチャを認識することを学ぶ。
以上の結果から,TD2Cは最先端の性能を達成し,確立された手法を一貫して上回ることを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:03:13 GMT)
Tokenize Everything, But Can You Sell It? RWA Liquidity Challenges and the Road Ahead [0.1] リアル・ワールド・アセット(RWA)のトークン化は、不動産、プライベート・クレジット、政府債などの伝統的に違法な資産の分断所有、グローバル・アクセシビリティ、プログラム可能な決済を可能にすることで金融市場を変革することを約束する。
本稿では、最近の学術研究とRWA.xyzのようなプラットフォームからの市場データをもとに、トークン化とトレーダビリティのギャップについて検討する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:30:15 GMT)
AI-Based Crypto Tokens: The Illusion of Decentralized AI? [0.1] AIトークンは、分散化されたAIプラットフォームとサービスを動かすために設計された暗号資産である。
本稿では,主要なAIプロジェクトに関する総合的なレビューを行う。
従来の集中型AIサービスを超えて、彼らが価値を提供する範囲を評価します。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:55:43 GMT)
Medical Image De-Identification Resources: Synthetic DICOM Data and Tools for Validation [0.1] 患者のプライバシーを確保することは、オープンアクセスデータ共有にとって重要な課題である。
Digital Imaging and Communications in Medicine (DICOM)は、重要な臨床メタデータと広範囲に保護された健康情報(PHI)と個人識別可能な情報の両方を符号化する(PII)。
このギャップに対処するために、合成PHI/PIIを取り入れたオープンアクセス型DICOMデータセットと、画像識別のベンチマークを行うための評価フレームワークを開発した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:48:28 GMT)
MOPrompt: Multi-objective Semantic Evolution for Prompt Optimization [0.1] MOPromptは、正確性とコンテキストサイズ(トークンで測定される)の両方のプロンプトを同時に最適化するために設計された、新しいフレームワークである。
ポルトガルの感情分析課題であるMOPromptについて, Gemma-2BとSabiazinho-3を評価モデルとして評価した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:50:43 GMT)
Vision transformer-based multi-camera multi-object tracking framework for dairy cow monitoring [0.1] 本研究は,屋内飼育のホルスタイン・フリーズ産乳牛を対象とした,独自のマルチカメラリアルタイム追跡システムを開発した。
この技術は最先端のコンピュータビジョン技術を使っており、たとえばインスタンスのセグメンテーションや追跡アルゴリズムを使って牛の活動をシームレスに正確にモニタする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 13:36:40 GMT)
Word Overuse and Alignment in Large Language Models: The Influence of Learning from Human Feedback [0.0] 大規模言語モデル(LLM)は、"delve"や"intricate"のような特定の用語を過剰に使用することが知られている。
本研究は,LHF(Human Feedback)からの学習の貢献について検討する。
我々はLHF法を実験的にエミュレートすることによりLHFと語彙過剰使用をより確定的に関連付ける。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 21:45:37 GMT)
VFP: Variational Flow-Matching Policy for Multi-Modal Robot Manipulation [0.0] 変動フローマッチングポリシは、タスクレベルとトラジェクトリレベルの両方のマルチモーダリティをキャプチャする。
VFPは、標準的なフローベースベースラインよりもタスク成功率を相対的に49%向上させる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:23:02 GMT)
The AI-Augmented Research Process: A Historian's Perspective [0.0] 本稿では,人工知能,特に大規模言語モデルが歴史的研究にどのように組み入れられるか,その詳細な事例について述べる。
ワークフローは9つのステップに分けられ、質問の定式化から普及とドメインまでの完全な研究サイクルをカバーする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:34:36 GMT)
Secure coding for web applications: Frameworks, challenges, and the role of LLMs [0.0] セキュアなコーディングは、ソフトウェア開発において批判的ですが、見落とされがちなプラクティスです。
広く意識された努力にもかかわらず、組織的、教育的、技術的障壁のため、現実世界の採用は相容れないままである。
本稿では、研究者、開発者、教育者に対して、セキュアなコーディングを現実世界の開発プロセスに統合する実践的な洞察を提供する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:54:37 GMT)
Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation [0.0] NL2Flowは計画問題をパラメトリックに生成するための完全に自動化されたシステムである。
自動ワークフロー生成における2296の低微分問題データセットを生成する。
タスク固有の最適化やアーキテクチャの変更なしに、複数のオープンソースでインストラクトしたLLMを評価する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:52:42 GMT)
Sandwich test for Quantum Phase Estimation [0.0] 量子位相推定(QPE)は多くの実用的な応用を通じて科学的革命の可能性を秘めている。
多くのQPEアルゴリズムは、大きな整数$k$に対して$langle psi|Uk|psirangle$を推定するためにHadamardテストを使用する。
本稿では,このボトルネックに対処する新しいアルゴリズムであるSANDWICHを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:18:55 GMT)
SHIELD: Secure Hypernetworks for Incremental Expansion Learning Defense [0.0] 本稿では,逐次的タスク間で堅牢な連続学習を可能にする新しいフレームワークを提案する。
提案手法であるShielDは,コンパクトなタスク埋め込みのみを前提とした共有ハイパーネットワークにより,タスク固有のモデルパラメータを生成する。
より堅牢性を高めるために,我々は,MixUpポイントを中心とした$ell_infty$ボールとして表現された仮想例をブレンドする,新しいトレーニング戦略であるInterval MixUpを紹介した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:01:10 GMT)
Rovibrational computation of H$_3^+$ with permutationally invariant Pekeris coordinates [0.0] ペケリス座標は H$_3+$ に対して置換不変な座標の集合を与える。
これらは3つの核間距離の線形結合として定義され、非負の座標値の三角形の不等式を自動的に満たす。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 05:39:36 GMT)
Revisiting Gossip Protocols: A Vision for Emergent Coordination in Agentic Multi-Agent Systems [0.0] Gossipプロトコルは、エージェントAIにおけるコンテキストリッチで適応的なコミュニケーションに欠けているレイヤを提供する。
Gossipは、共有知識のスケーラブルで低オーバーヘッドな普及を可能にすると同時に、未解決の課題も提起する。
Gossipは銀の弾丸ではないが、それを見渡すと、レジリエンス、反射性、自己組織化されたマルチエージェントシステムへの重要な道を欠くリスクがある。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:18:58 GMT)
Quantum-RAG and PunGPT2: Advancing Low-Resource Language Generation and Retrieval for the Punjabi Language [0.0] PunGPT2はPunjabiの大規模言語モデルの最初の完全なオープンソーススイートである。
また、Pun-RAGは、PunGPT2と高密度FAISSレトリバーを組み合わせた検索拡張生成フレームワークである。
本稿では,スパース (BM25) と高密度手法を融合した新しいハイブリッド検索システムであるQuantum-RAGを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 21:03:22 GMT)
Quantum Optimal Control for Coherent Spin Dynamics of Radical Pairs via Pontryagin Maximum Principle [0.0] 本稿では、ラジカル対のスピンダイナミクスをコヒーレントな状態に駆動する外部電磁場の形状を考案することを目的とする。
バンバンバン最適制御の同定のための新しい反復型ポントリャーギン最大原理(IPMP)法を開発した。
結果は、生体現象の顕在化として磁気受容の潜在的な実験的研究の場を開く。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 15:42:09 GMT)
Proactive Disentangled Modeling of Trigger-Object Pairings for Backdoor Defense [0.0] ディープニューラルネットワーク(DNN)とジェネレーティブAI(GenAI)は、バックドア攻撃に対してますます脆弱になっている。
本稿では、構造的ゆがみを利用したプロアクティブなフレームワークであるDBOMを紹介し、見えないバックドアの脅威を識別し、中和する。
そこで本研究では,DBOMが下流トレーニングに先立って有毒な画像を確実に検出し,トレーニングパイプラインの安全性を著しく向上することを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 21:58:15 GMT)
Polymorphic Combinatorial Frameworks (PCF): Guiding the Design of Mathematically-Grounded, Adaptive AI Agents [0.0] Polymorphic Combinatorial Framework(PCF)は、Large Language Models(LLM)と数学的フレームワークを活用して、ソリューション空間と適応AIエージェントの設計をガイドする。
静的エージェントアーキテクチャとは異なり、PCFは数学的に基底付けられた適応可能な空間を通じてリアルタイムな再構成を可能にする。
このフレームワークは、カスタマサービス、ヘルスケア、ロボティクス、コラボレーティブシステムといった分野におけるスケーラブルで動的、説明可能な、倫理的なAIアプリケーションをサポートする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 04:19:31 GMT)
Parametric pair production of collective excitations in a Bose-Einstein condensate [0.0] ボース=アインシュタイン凝縮体において, 縦方向の集合励起を相互に生成する。
この過程は、宇宙論的な粒子生成の類似と見なすことができる。
本稿では、対相関による原子数における振動の存在と、相互作用が切り離される速度について論じる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 08:26:08 GMT)
Orbital angular momentum of entangled photons as a probe for relativistic effects [0.0] 光の古典状態と量子状態の両方としての軌道角運動量(OAM)は多くの応用において必須であることが証明されている。
移動参照フレームのローレンツ因子を決定するために、OAMメトロジーを相対論的シナリオに拡張する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:55:26 GMT)
OpenMed NER: Open-Source, Domain-Adapted State-of-the-Art Transformers for Biomedical NER Across 12 Public Datasets [0.0] 名前付き認識のためのオープンソースドメイン適応型トランスフォーマーモデルであるOpenMed NERを紹介する。
化学物質, 疾患, 遺伝子, 種にまたがる12種類のバイオメディカルNERベンチマークのモデルについて検討した。
OpenMed NERは、これらの12データセットのうち10つで、最先端のマイクロF1スコアを新たに達成し、さまざまなエンティティタイプで大幅に向上している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:33:28 GMT)
On the Simulation of Conical Intersections in Water and Methanimine Molecules Via Variational Quantum Algorithms [0.0] 本研究では,変分量子アルゴリズムを用いた円錐交叉(CI)の探索を目的として,メタン (CH2NH) および水 (H2O) 分子について検討する。
我々の手法は、変分量子固有解法(VQE)を含む、様々なハイブリッド量子古典法を実装し、比較する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 19:08:18 GMT)
More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram [0.0] ドイツ語のテレグラムチャンネルにおける陰謀論の分析にマルチモーダル・トピック・モデリングを適用した。
我々は、モダリティを横断するトピックの対称性と交叉を分析することによって、一様および多様のトピックモデルに対する洞察を提供する。
本稿では,陰謀論のコミュニケーションにおけるテキスト・ビジュアル・ディスキュレイティブ・ストラテジーの分析のための概念的枠組みを提案する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 21:00:55 GMT)
Microscopic analysis of above-threshold ionization driven by squeezed light [0.0] 本稿では、強い励起光の影響下でのATIを記述する微視的量子光学理論を提案する。
圧縮光は光と物質との結合を著しく促進し、古典的な運転よりも相互のバックアクションが重要であることを観察する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:19:27 GMT)
Long-time behavior of multi-level open systems interacting with non-vacuum reservoirs [0.0] 系の還元密度行列に対して正確な積分表現を与える。
対角状態における同一の非相関な貯水池については、ボゴルボフ・ヴァン・ホーブ極限におけるそのような力学に対する最初の摂動補正が得られた。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:06:11 GMT)
Large Kernel MedNeXt for Breast Tumor Segmentation and Self-Normalizing Network for pCR Classification in Magnetic Resonance Images [0.0] 我々は,3x3x3から5x5x5までの受容場を拡大する2段階のトレーニング戦略を備えた大規模カーネルMedNeXtアーキテクチャを採用している。
pCR分類では,予測セグメンテーションから抽出した放射能特性に基づいて自己正規化ネットワーク(SNN)を訓練した。
以上の結果から,より大きな受容野と放射能による分類の利点が示唆された。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:37:14 GMT)
LanternNet: A Hub-and-Spoke System to Seek and Suppress Spotted Lanternfly Populations [0.0] 侵入によって発見されたランタンフライ(SLF)は農業や生態系に重大な脅威をもたらす。
卵のスクラップ、殺虫剤、検疫などの現在の制御方法は、労働集約的で環境に有害であり、長期のSLF抑制には不十分である。
この研究は、SLF人口のスケーラブルな検出と抑制を目的とした、新しい自律ロボットHub-and-SpokeシステムであるLanternNetを紹介する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 12:10:39 GMT)
InspectVLM: Unified in Theory, Unreliable in Practice [0.0] 統一視覚言語モデル(VLM)は、単一の言語駆動インタフェース内で複数の視覚タスクをフレキシブルにすることで、コンピュータビジョンパイプラインの合理化を約束する。
InspectMMをトレーニングしたFlorence-2ベースのVLMであるInspectVLMを用いて,この統一パラダイムの有効性を批判的に評価する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 21:09:35 GMT)
Innovative tokenisation of structured data for LLM training [0.0] 本稿では,構造化されたデータを大規模言語モデル(LLM)の訓練に適したシーケンシャルな形式に変換する,新しいハイブリッドなトークン化手法を提案する。
提案手法は効率が高く, ネットワークフロー3300万回以上を5時間以内で処理し, 6.18:1の有意なデータ圧縮比を達成した。
このプロセスは10億以上のトークンを計算的に管理可能なコーパスとなり、構造化されたデータ上で基礎モデルをトレーニングするための実行可能で一般化可能な経路を確立した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:29:50 GMT)
Informed Forecasting: Leveraging Auxiliary Knowledge to Boost LLM Performance on Time Series Forecasting [0.0] 時系列予測において,Large Language Models (LLMs) の性能を高めるために,新しいクロスドメイン知識伝達フレームワークを提案する。
この手法は、LLMを構造化時間情報で体系的に注入し、予測精度を向上させる。
その結果,知識インフォームド予測は予測精度と一般化の点で非フォームドベースラインを著しく上回ることがわかった。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:25:58 GMT)
Impartial Games: A Challenge for Reinforcement Learning [0.0] 我々は,AlphaZeroスタイルの強化学習アルゴリズムが,公平なゲームに適用した場合,重要かつ基本的な課題に直面することを示す。
その結果,AlphaZeroスタイルのエージェントはチャンピオンレベルのプレーを達成できるが,ボードサイズが大きくなるにつれて学習の進歩は著しく低下することがわかった。
これらの結果は、AlphaZeroスタイルのアルゴリズムの攻撃に対する脆弱性に関するより広範な懸念と一致している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:36:35 GMT)
Human-AI collaboration or obedient and often clueless AI in instruct, serve, repeat dynamics? [0.0] 本研究では,複雑な問題を解きながら人間とAIの相互作用を考察する。
発見は、協調的な交渉よりも反復的な順序付けによって特徴づけられる相互作用による指導的パターンが支配的であることを示している。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 11:43:01 GMT)
Hedging with memory: shallow and deep learning with signatures [0.0] 非マルコフ的ボラティリティモデルの下で、エキゾチックな微分をヘッジするための機械学習コンテキストにおける経路シグネチャの使用について検討する。
ディープラーニング環境では、フィードフォワードニューラルネットワークの機能としてシグネチャを使用し、ほとんどの場合、LSTMよりも優れていることを示す。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:20:49 GMT)
Getting out of the Big-Muddy: Escalation of Commitment in LLMs [0.0] 大規模言語モデル(LLM)は、自律的な意思決定の役割にますます取り組まれている。
LLMは、コミットメントのエスカレーションを含む人間の判断を体系的に歪める認知バイアスを継承することができる。
本稿では,これらのバイアスがLLMに一貫して現れるか,あるいは特定のトリガー条件を必要とするかを検討する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:58:38 GMT)
Fidelity Isn't Accuracy: When Linearly Decodable Functions Fail to Match the Ground Truth [0.0] 線形モデルによって回帰ネットワークの出力がどの程度うまく模倣できるかを定量化する,単純かつ解釈可能な診断法である,線形性スコア $lambda(f)$ を導入する。
我々は、このフレームワークを、合成(y = x cdot sin(x) + epsilon$)と実世界のデータセットの両方で評価する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:25:42 GMT)
Fast Gaussian process inference by exact Matérn kernel decomposition [0.0] 多くの高速カーネル行列ベクトル乗法 (MVM) 近似アルゴリズムが長年にわたって提案されてきた。
我々は、カーネルの正確な分解から重み付けされた経験的累積分布関数への正確なカーネルMVMアルゴリズムを確立する。
数値実験により,本アルゴリズムは低次元ガウス過程推論問題に対して非常に有効であることが確認された。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:32:42 GMT)
Exact diagonalization study of energy level statistics in harmonically confined interacting bosons [0.0] 準2次元平面に調和に閉じ込められたボソンのスペクトル特性の正確な対角化研究について述べる。
我々は、N=12、16ドル、20ドルのシステムに対する最低100ドルのエネルギーレベルを、適度で強い相互作用体制に対するボソンとみなす。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 11:58:03 GMT)
Difficulty Generating Factors for Context-free Language Construction Assignments [0.0] 文脈自由言語における文脈自由文法やプッシュダウンオートマトン構築の難しさに影響を与える要因について検討する。
対話型学習システムにおいて,物体内ランダム化を用いた制御実験を行った。
その結果,個別の学生に対して適切なエクササイズを適応的に選択する学習システムの基礎を築いた。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 12:23:04 GMT)
Deeply Supervised Multi-Task Autoencoder for Biological Brain Age estimation using three dimensional T$_1$-weighted magnetic resonance imaging [0.0] 脳年齢推定のためのDeply Supervised Multitask Autoencoder (DSMT-AE) フレームワークを提案する。
DSMT-AEは、訓練中に中間層に監視信号を適用するディープ・インスペクションを採用している。
我々は、Open Brain Health Benchmarkデータセット上でDSMT-AEを広範囲に評価した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 03:24:02 GMT)
Deep Learning-Driven Prediction of Microstructure Evolution via Latent Space Interpolation [0.0] 位相場モデルは微細構造の進化を正確にシミュレートするが、複雑な微分方程式の解法に依存するため計算コストがかかる。
この研究は、立方体スプライン補間と球面線形補間(SLERP)を組み合わせた変分オートエンコーダ(CVAE)を利用して、新しいディープラーニングベースのフレームワークを通じて大きな加速を実現する。
本研究では, 中間合金組成の微細構造変化を, 限られたトレーニング組成から予測し, 二元系スピノダル分解の手法を実証する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 16:22:15 GMT)
Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0] 本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。
提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 17:29:48 GMT)
Confabulation dynamics in a reservoir computer: Filling in the gaps with untrained attractors [0.0] 貯水池コンピュータ(RC)における衝突の発生状況について検討する。
RCが与えられたアトラクションのダイナミクスを再構築するために訓練された場合、彼らは時にアトラクションを構築するために訓練されていないアトラクションを組み立てる。
本稿では,再建に失敗する場合にUAが果たす役割と,再建されたアトラクション間の遷移をモデル化する場合の影響について述べる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:45:22 GMT)
Complexity of Bernstein--Vazirani algorithm in the presence of noise [0.0] 偏極雑音の存在下でのベルンシュタイン-ヴァジラニアルゴリズムのロバスト性について解析を行った。
量子ビットの品質を同時に向上させることなく、量子システムをスケールアップすることは、このアルゴリズムの量子上の優位性を著しく低下させることがわかった。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:36:01 GMT)
Complete Evasion, Zero Modification: PDF Attacks on AI Text Detection [0.0] 我々は、PDF文書における視覚テキストレイアウトと抽出順序の相違を利用した新しい攻撃であるPDFuzzを提案する。
我々は、人間とAIが生成するテキストのデータセットを用いて、ArguGPT検出器に対するこのアプローチを評価する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 18:43:41 GMT)
CSLRConformer: A Data-Centric Conformer Approach for Continuous Arabic Sign Language Recognition on the Isharah Datase [0.0] 本稿では,連続手話認識システムの能力向上に向けた手話非依存認識の課題に対処する。
データ中心の方法論は、体系的な機能エンジニアリング、堅牢な前処理パイプライン、最適化されたモデルアーキテクチャを中心に提案されている。
このアーキテクチャはコンフォーマーモデルのハイブリッドCNN-Transformer設計に適応し、その能力を利用して局所的な時間的依存関係とグローバルなシーケンスコンテキストをモデル化する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:58:50 GMT)
Bose-Hubbard model in the canonical ensemble: a beyond mean-field approach [0.0] 本稿では,量子多体系における全粒子数保存を尊重するアンザッツ波動関数について考察する。
この波動関数は平均場グッツウィラーアンザッツと同じ数のパラメータを持つ。
ハミルトンパラメータの急激なクエンチの下での様々な平衡初期状態の緩和ダイナミクスを、このアンザッツ波動関数を用いて研究できることが示される。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:51:35 GMT)
Bimodal phase transition in a periodically modulated $Λ$-type three-level system [0.0] 本稿では,周期的に駆動される$Lambda$-type 3レベルシステムにおける動的量子相転移(QPT)の理論的検討を行う。
この結果から,有効な拡張Jaynes-Cummingsシステム内の3レベルシステムにおける量子位相の操作について考察した。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:31:43 GMT)
Beyond the Wavefunction: Qualia Abstraction Language Mechanics and the Grammar of Awareness [0.0] 本稿では,主観的経験の構造化力学に基づく量子力学の形式的再構築を提案する。
Qualia Abstraction Language (QAL) は物理システムをイントロスペクティブユニットの進化ストリームとしてモデル化する。
我々は、QALと内科的アプローチの整合性を分析し、量子論の標準的な解釈と対比し、プラトニズム後の内省的な基底物理学にその意味を探求する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 15:07:24 GMT)
Benchmarking Adversarial Patch Selection and Location [0.0] パッチ配置の空間的に徹底した最初のベンチマークであるPatchMapを提示する。
PatchMapは、小さなパッチが確実な分類ミスを引き起こし、モデルの信頼性が大幅に低下するホットスポットを明らかにしている。
本手法は,ランダム配置や固定配置に比べて攻撃成功率を8~13ポイント向上させる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 09:07:19 GMT)
Augmented Reinforcement Learning Framework For Enhancing Decision-Making In Machine Learning Models Using External Agents [0.0] 本研究は,意思決定能力向上のための新しい手法である強化強化学習フレームワークを提案する。
外部エージェントは、人間や自動スクリプトのような、決定経路の修正に役立つ誰でもよい。
このフレームワークには、2つの外部エージェントが組み込まれており、コース修正とトレーニングサイクルのすべてのポイントにおける品質データの保証を支援する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 06:17:44 GMT)
Application-oriented automatic hyperparameter optimization for spiking neural network prototyping [0.0] この文書は、ニューラルネットワークインテリジェンス(NNI)ツールキットを参照フレームワークとして使用して、そのようなソリューションを1つ提示する。
SNNプロトタイピングのためのアプリケーション指向HPO実験に関する洞察の源泉として,提案パイプラインを用いた論文の要約が報告されている。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 11:06:14 GMT)
AlphaViT: A flexible game-playing AI for multiple games and variable board sizes [0.0] 視覚変換器(ViT)をAlphaZeroフレームワークに組み込んだ3つのゲームプレイングエージェントを提案する。
これらのエージェントは、共通の重みを持つ単一のニューラルネットワークを使用して、さまざまなサイズの複数のボードゲームをプレイすることができる。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 01:55:40 GMT)
Affine Equivalence in the Clifford Hierarchy [0.0] クリフォード階層における4ビット置換のアフィン同値類に関する暗号文を用いて、すべての4ビット置換を探索する。
次に、対角ゲートの構造に関する 4-qubit 置換の分類と以前の結果を用いて、クリフォード階層の第3階の 4-qubit ゲートが半クリフォードであることを証明する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 21:10:47 GMT)
A comprehensive taxonomy of hallucinations in Large Language Models [0.0] 大型言語モデル (LLM) は自然言語処理に革命をもたらしたが、幻覚の確率は依然として重要な課題である。
本報告では, LLM幻覚の包括的分類を, 形式的定義と理論的枠組みから開始する。
根本原因を分析し、それらをデータ関連問題、モデル関連要因、およびプロンプト関連の影響に分類する。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 14:37:16 GMT)
A Multi-Agent Pokemon Tournament for Evaluating Strategic Reasoning of Large Language Models [0.0] 本研究は,大言語モデル(LLM)を知的エージェントとして活用し,ポケモン戦における戦略的意思決定をシミュレートする競技トーナメントシステム LLM Pokemon League を提案する。
このプラットフォームは、型ベースのターンベースの戦闘環境において、異なるLLMが示す推論、適応性、戦術的な深さを分析し、比較するように設計されている。
このプロジェクトは、制約のあるルールベースのゲーム環境において、比較AIの振る舞い、戦闘心理学、メタストラテジー開発に関する豊富な調査を可能にする。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 07:27:36 GMT)
A Decentralized Framework for Ethical Authorship Validation in Academic Publishing: Leveraging Self-Sovereign Identity and Blockchain Technology [0.0] 未合意の著作者、贈与の著作者、著者の不明瞭さ、興味の対立が学術出版を脅かしている。
本稿では,SSI(Self-Sovereign Identity)とブロックチェーン技術を活用した分散フレームワークを提案する。
ブロックチェーンベースのトラストレジストリは、オーサシップの同意とピアレビューアクティビティを不変に記録する。
この研究は、より透明性があり、説明責任があり、信頼できる学術出版エコシステムへの一歩である。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 20:26:19 GMT)
A Decade of You Only Look Once (YOLO) for Object Detection: A Review [0.0] レビュー:You Only Look Once (YOLO)の10周年
YOLOはリアルタイムオブジェクト検出において最も影響力のあるフレームワークの1つである。
論文参考訳(メタデータ) (Sun, 03 Aug 2025 10:27:57 GMT)