MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.6] MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:14:55 GMT)
Enhanced Generative Structure Prior for Chinese Text Image Super-resolution [101.7] 低解像度(LR)漢字の正確なストロークを復元するためのテキスト画像フレームワークを提案する。
われわれのフレームワークはこの構造をStyleGANモデルに組み込む。
私たちのコードと事前トレーニングされたモデルは、https://github.com/csi2016/MARCONetPlus.comで公開されます。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:34:45 GMT)
Learning to Reason without External Rewards [100.3] RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:08:55 GMT)
Cut2Next: Generating Next Shot via In-Context Tuning [93.1] マルチショット生成には、目的があり、映画のような遷移と厳密な撮影連続性が必要である。
現在の手法はしばしば基本的な視覚的一貫性を優先し、重要な編集パターンを無視している。
我々は、プロの編集パターンを批判的に合成する、その後の高品質なショットであるNext Shot Generation (NSG)を紹介する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:56:59 GMT)
From Trial-and-Error to Improvement: A Systematic Analysis of LLM Exploration Mechanisms in RLVR [92.5] 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
本技術報告では,RLVRにおける探査能力の体系的調査について述べる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:26:16 GMT)
StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation [91.5] オーディオ駆動型アバタービデオ生成のための現在の拡散モデルでは、自然な音声同期とアイデンティティの整合性を備えた長ビデオの合成が困難である。
本稿では,無限長高画質映像を後処理なしで合成する最初のエンドツーエンドビデオ拡散変換器であるStableAvatarについて述べる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:58:24 GMT)
Power Battery Detection [84.7] 電力電池は、内部構造欠陥が深刻な安全リスクを生じさせる電気自動車において必須の部品である。
我々は,X線画像から陰極および陽極板の密集端を局所化し,品質検査を行うことを目的として,電力電池検出(PBD)に関する総合的研究を行った。
PBD5Kは,9種類のバッテリタイプから5,000枚のX線画像と8種類の実世界の視覚的干渉を含む,このタスクのための最初の大規模ベンチマークである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:35:25 GMT)
PP-Motion: Physical-Perceptual Fidelity Evaluation for Human Motion Generation [84.4] 人間の運動生成は、AR/VR、映画、スポーツ、医療リハビリテーションに広く応用されている。
従来のアプローチでは、人間の知覚や身体的制約を用いた動きの忠実度評価が試みられている。
人間の運動の身体的および知覚的忠実度を評価するための新しいデータ駆動計量PP-Motionを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:59:15 GMT)
Is Single-View Mesh Reconstruction Ready for Robotics? [78.1] 本研究では,ロボット操作のための物理シミュレータを用いたリアルタイム計画と動的予測のためのディジタル双対生成の実現の可能性について,単一ビューメッシュ再構成モデルの評価を行った。
我々の研究は、コンピュータビジョンの進歩とロボティクスの必要性の間に重要なギャップがあることを浮き彫りにし、この交差点における将来の研究を導く。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:39:48 GMT)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.5] 機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:25:08 GMT)
QUDsim: Quantifying Discourse Similarities in LLM-Generated Text [70.2] 本稿では,会話の進行過程の違いの定量化を支援するために,言語理論に基づくQUDと質問意味論を紹介する。
このフレームワークを使って$textbfQUDsim$を作ります。
QUDsimを用いて、コンテンツが異なる場合であっても、LLMはサンプル間で(人間よりも)談話構造を再利用することが多い。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:38:47 GMT)
OverFill: Two-Stage Models for Efficient Language Model Decoding [68.7] 大規模言語モデル(LLM)は多様なタスクにまたがって優れていますが、高い推論コストのため、デプロイメント上の大きな課題に直面しています。
プリフィルとデコードステージを分離し,精度と効率のトレードオフを最適化するOverFillを提案する。
我々の3B-to-1B OverFill構成は1Bプルーニングモデルを83.2%上回り、8B-to-3B構成は3Bプルーニングモデルを79.2%上回った。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:07:34 GMT)
Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3] 本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:08:37 GMT)
Being-M0.5: A Real-Time Controllable Vision-Language-Motion Model [67.8] being-M0.5は、複数のモーション生成タスクのパフォーマンスを実現する、初めてのリアルタイムで制御可能な視覚言語-モーションモデルである。
私たちのアプローチは、これまでで最大かつ最も包括的な人間のモーションデータセットであるHuMo100Mをベースにしています。
動作トークン化のための新しい部分認識残差量子化手法を導入し、生成中の個々の身体部分の精密かつきめ細かい制御を可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:26:10 GMT)
WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent [67.4] Deep ResearchのようなWebエージェントは認知能力を示しており、高度に難解な情報検索問題を解決することができる。
このようなエージェントは知覚、論理、知識においてより強力な推論能力を必要とするため、マルチモーダルディープリサーチは非常に困難である。
本稿では,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:09:49 GMT)
WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.1] 本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:36:31 GMT)
Improving Document Retrieval Coherence for Semantically Equivalent Queries [64.0] 同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:34:59 GMT)
Aligning Instruction Tuning with Pre-training [61.5] そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:28:39 GMT)
ReferSplat: Referring Segmentation in 3D Gaussian Splatting [60.7] 3次元ガウス散乱(R3DGS)を参照
Taskは、自然言語の記述に基づいて、ターゲットオブジェクトを3Dガウスシーンにセグメントすることを目的としている。
これらの課題に対処するため,自然言語表現を用いて3次元ガウス点を明示的にモデル化するフレームワークReferSplatを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:59:30 GMT)
S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix [60.1] そこで本研究では,既製の単眼ビデオ生成モデルを利用して,没入型3Dビデオを生成する,ポーズフリーかつトレーニングフリーな手法を提案する。
提案手法はまず,生成したモノクロ映像を推定深度情報を用いて予め定義されたカメラ視点にワープし,新しいテキストフレーム・マトリクス・インペイント・フレームワークを適用した。
提案手法の有効性は,Sora, Lumiere, WALT, Zeroscope など,様々な生成モデルを用いた実験により検証した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:50:03 GMT)
Thompson Exploration with Best Challenger Rule in Best Arm Identification [59.0] 本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:09:28 GMT)
BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [59.0] BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:04:47 GMT)
Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control [58.9] Follow-Your-Shapeは、トレーニング不要でマスクなしのフレームワークで、オブジェクト形状の正確かつ制御可能な編集をサポートする。
インバージョンとデノナイジングパスのトークン単位の速度差を比較することで,TDM(Torjectory Divergence Map)を算出する。
本手法は、特に大規模な形状変更を必要とするタスクにおいて、優れた編集性と視覚的忠実性を実現する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:10:00 GMT)
Exponential convergence rate for Iterative Markovian Fitting [58.8] 反復マルコフフィッティング(IMF)アルゴリズムは、基底真理解へのクルバック・リーバーの発散に収束する。
我々は、IMFが明示的な収縮係数を持つ指数収束を示すのを初めて確立する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:39:40 GMT)
Generative Video Matting [57.2] ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:18:55 GMT)
HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches [54.7] 本稿では,階層型RLで学習した階層型エージェントディープ検索フレームワークであるHierSearchを提案する。
低レベルにおいては、ローカルなディープサーチエージェントとWebのディープサーチエージェントがトレーニングされ、対応するドメインから証拠を検索する。
高レベルでは、プランナーエージェントが低レベルのエージェントをコーディネートし、最終回答を提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:31:47 GMT)
Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.6] キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:53:27 GMT)
Expert Preference-based Evaluation of Automated Related Work Generation [54.3] 本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:08:07 GMT)
CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.5] そこで我々は,大言語モデル(LLM)とLVLM(Large Vision-Language Model)の推論能力を評価するためのベンチマークであるCrossWordBenchを紹介する。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界を強調し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:26:48 GMT)
MIMIC: Multimodal Inversion for Model Interpretation and Conceptualization [52.7] 視覚言語モデル(VLM)の内部表現を可視化するMIMIC(Multimodal Inversion for Model Interpretation and Conceptualization)フレームワークを提案する。
MIMICは、VLMの自己回帰処理のために、ジョイントVLMベースの反転と特徴アライメントの目的を使用する。
可変長自由形VLM出力テキストに対して視覚概念を反転させることによりMIMICを定量的に定性的に評価する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:36:58 GMT)
Preliminary Ranking of WMT25 General Machine Translation Systems [51.6] 本稿では,WMT25汎用機械翻訳共有タスクの事前ランキングを示す。
ランキングは自動評価に基づくが、再ランクの手法を採用するシステムに偏っている可能性がある。
公式のWMT25ランキングは人間による評価に基づいており、より信頼性が高く、自動ランキングに取って代わる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:22:31 GMT)
Beauty and the Bias: Exploring the Impact of Attractiveness on Multimodal Large Language Models [51.6] 物理的魅力は人間の知覚と意思決定に影響を与えることが示されている。
マルチモーダル大言語モデル(MLLM)による評価と意思決定において魅力が果たす役割は、不明である。
我々は、91の社会的関連シナリオと924の顔画像の多様なデータセットで評価された7つのオープンソースMLLMを用いて実証的研究を行った。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:46:37 GMT)
Forecasting Continuous Non-Conservative Dynamical Systems in SO(3) [51.5] コンピュータビジョンにおける移動物体の回転をモデル化するための新しい手法を提案する。
我々のアプローチは、入力ノイズに対して頑健でありながら、エネルギーと運動量保存に非依存である。
トレーニング中の雑音状態から物体のダイナミクスを近似させることで、シミュレーションや様々な現実世界の設定において頑健な外挿能力が得られる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:03:10 GMT)
Ehrenfeucht-Haussler Rank and Chain of Thought [51.3] 本稿では、よく知られたトランスフォーマーアーキテクチャを基盤とした、ランクの新たな特徴付けについて述べる。
関数 $f$ のランクは、単一層変換器が要求する思考ステップの EmphChain の最小値に対応していることを示す。
また、マルチヘッド単一層トランスをキャプチャするマルチヘッドランクの概念を導入し、有界なマルチヘッドランクを持つ関数クラスのPAC学習性の解析を行う。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:54:09 GMT)
Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.3] 異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:35:45 GMT)
Exploring Causal Effect of Social Bias on Faithfulness Hallucinations in Large Language Models [50.2] 大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めたが、忠実な幻覚に弱いままである。
社会的偏見がこれらの幻覚に寄与するかどうかを考察する。
重要な課題は、バイアス状態と幻覚の間の因果関係の分離を複雑化する、コンテキスト内の共同創設者を制御することである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:34:28 GMT)
How Far Are We from Generating Missing Modalities with Foundation Models? [49.4] 欠落したモダリティの再構築に適したエージェントフレームワークを提案する。
本手法は, 画像再構成に要するFIDを少なくとも14%, MERを少なくとも10%削減する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:25:52 GMT)
GLiClass: Generalist Lightweight Model for Sequence Classification Tasks [49.3] 本稿では,シーケンス分類タスクにGLiNERアーキテクチャを適用する新しい手法であるGLiClassを提案する。
提案手法は,ゼロショットおよび少数ショット学習シナリオに必要な柔軟性を維持しつつ,埋め込み方式に匹敵する高い精度と効率を実現する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:22:25 GMT)
DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [49.0] DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:54:45 GMT)
Careful Queries, Credible Results: Teaching RAG Models Advanced Web Search Tools with Reinforcement Learning [48.5] 我々は、ソース制限されたクエリを生成し、信頼できないコンテンツをフィルタリングする新しいRAGフレームワークであるWebFilterを提案する。
WebFilterは応答品質と検索精度を向上し,ドメイン内ベンチマークとドメイン外ベンチマークの両方で既存のRAGメソッドよりも優れていることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:08:37 GMT)
Dual Information Speech Language Models for Emotional Conversations [48.1] 音声を入力として使用する言語モデル(SLM)が,将来性のあるソリューションとして浮上している。
我々は、絡み合った情報と不適切なトレーニング戦略を重要な課題として挙げる。
提案手法はパラ言語情報や言語情報を解き、SLMが構造化表現を通して音声を解釈することを可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:33:44 GMT)
MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy [47.3] MathSmithは、LSM推論を強化するために数学的な問題に挑戦する新しいフレームワークである。
既存の問題を修正するのではなく、MathSmithはPlanetMathからランダムに概念-説明ペアをサンプリングすることで、スクラッチから新しいものを構築する。
難易度を高めるために,9つの事前定義された戦略を合理的な制約として設計する。
実験によると、MathSmithは短いCoT設定と長いCoT設定の両方で既存のベースラインを一貫して上回っている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:10:56 GMT)
Optimal Transport Regularization for Speech Text Alignment in Spoken Language Models [46.8] OTRegは、音声テキストアライメントを最適な輸送問題として定式化し、正規化損失を導出し、SLM訓練を改善する方法である。
OTRegは軽量で、追加のラベルや学習可能なパラメータは必要とせず、既存のSLMトレーニング手順とシームレスに統合される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:06:04 GMT)
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks [46.7] ODYSSEYは、マニピュレータを備えたアジャイル四足ロボットのための統合モバイル操作フレームワークである。
言語条件付きタスクにおける自我中心的認識の課題に対処するために,視覚言語モデルを用いた階層型プランナを導入する。
コントロールレベルでは、新しい全身政策は、挑戦的な地形をまたいだ堅牢な協調を実現する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:54:31 GMT)
Beyond Single: A Data Selection Principle for LLM Alignment via Fine-Grained Preference Signals [46.6] 本研究では,大規模言語モデルのための新しい理論的基盤データ選択法を提案する。
直接選好最適化目標の損失境界を解析することにより,この戦略の最適性を証明する。
我々の戦略は、標準的な全体主義的嗜好とより強い託宣の両方に対して、10%以上の相対的な改善を達成する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:43:02 GMT)
How Post-Training Reshapes LLMs: A Mechanistic View on Knowledge, Truthfulness, Refusal, and Confidence [46.5] 大規模言語モデル(LLM)の成功にはポストトレーニングが不可欠である
学習後効果をよりよく理解するために,4つの視点からベースとポストトレーニング後のLLMを比較した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:54:01 GMT)
A Theory of Learning with Autoregressive Chain of Thought [46.4] チェーンオブ思考が観察された場合と,即時回答ペアのみをトレーニングする場合の両方において,学習問題を定式化する。
本稿では,普遍的な表現可能性と計算的に抽出可能な連鎖学習を実現するための,シンプルなベースクラスを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:23:28 GMT)
DiffVC-OSD: One-Step Diffusion-based Perceptual Neural Video Compression Framework [45.1] まず,1ステップ拡散に基づく知覚型ニューラルビデオ圧縮フレームワークDiffVC-OSDを提案する。
我々は、全体的な圧縮性能を改善するためにエンドツーエンドファインタニング戦略を採用する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:59:23 GMT)
InterChart: Benchmarking Visual Reasoning Across Decomposed and Distributed Chart Information [44.8] 視覚言語モデル(VLM)が複数の関連チャートにどの程度うまく関連しているかを評価するための診断ベンチマークであるInterChartを紹介する。
ベンチマークは,個々のチャートに対する現実的推論,合成的に整合したチャートセット間の積分解析,視覚的に複雑な実世界のチャートペアに対する意味推論の3段階に分類する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:19:23 GMT)
StreetViewAI: Making Street View Accessible Using Context-Aware Multimodal AI [44.7] 初めてアクセス可能なストリートビューツールであるStreetViewAIを紹介します。
StreetViewAIでは、視覚障害者は目的地を事実上検査したり、オープンワールドで探索したり、200億以上の画像やGSVが配備されている100以上の国を仮想的にツアーすることができる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 23:30:39 GMT)
Tailored Emotional LLM-Supporter: Enhancing Cultural Sensitivity [44.3] 大規模言語モデル(LLMs)は、感情的なサポートを提供し、苦悩中の個人に対して共感的な反応を生み出すことを約束している。
しかし、文化に敏感な支援を提供する能力は、資源不足のため、まだ探索されていない。
このタスクのために設計された最初のデータセットであるCultureCareを紹介する。4つの文化にまたがり、1729の苦難メッセージ、1523の文化信号、1041の詳細な感情的・文化的アノテーションによる支援戦略を含む。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:17:58 GMT)
LaVieID: Local Autoregressive Diffusion Transformers for Identity-Preserving Video Creation [43.9] LaVieIDは、難易度保存のテキスト・ツー・ビデオタスクに取り組むために設計されたフレームワークである。
既存のDiTにおける顔潜伏状態のグローバルおよび非構造化モデリングとは異なり、LaVieIDは潜伏状態を明確に表現するローカルルータを導入している。
時間的自己回帰モジュールをLaVieIDに統合し、ビデオ復号化前に復号化潜在トークンを精錬する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:13:32 GMT)
AU-IQA: A Benchmark Dataset for Perceptual Quality Assessment of AI-Enhanced User-Generated Content [43.8] AIベースの画像強調技術は様々な視覚的応用に広く採用されており、ユーザ生成コンテンツ(UGC)の知覚品質が著しく向上している。
専門品質評価モデルの欠如は、ユーザエクスペリエンスを制限し、拡張手法の進歩を妨げる、この分野において重要な制限要因となっている。
代表的な3種類のAI-UGC画像から4,800個のAI-UGC画像を生成するベンチマークデータセットであるAU-IQAを構築した。
本データセットでは,従来のIQA法や大規模マルチモーダルモデルなど,既存の品質評価モデルについて評価する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:08:57 GMT)
RNA-FrameFlow: Flow Matching for de novo 3D RNA Backbone Design [41.8] 本稿では3次元RNAバックボーン設計のための最初の生成モデルであるRNA-FrameFlowを紹介する。
我々は、剛体フレームと関連する損失関数の集合としてRNA構造を定式化する。
3次元RNAデータセットの多様性の欠如に対処するため、構造的クラスタリングと収穫増強によるトレーニングについて検討する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:09:33 GMT)
Investigating the Design Space of Visual Grounding in Multimodal Large Language Model [41.5] 本稿では,MLLMの視覚的接地性能に影響を及ぼす様々な設計選択について包括的に検討する。
LLaVA-1.5を用いて解析を行い,MLLMの実験的研究に広く採用されている。
以上の結果から,LLaVA-1.5より5.6%/+6.9%/+7.0%,RefCOCO/+/gの改善が得られた。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:10:52 GMT)
Conformal Linguistic Calibration: Trading-off between Factuality and Specificity [41.5] 本稿では,言語プラグマティクスのレンズを通して,抑止と言語キャリブレーションを結合する枠組みを提案する。
以上の結果から,本手法は実精度に適合した精度で校正出力を生成する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:27:28 GMT)
Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning [41.3] 大規模音声言語モデル(LALM)の推論能力を高めるための強化学習フレームワークであるAudio-Thinkerを提案する。
提案手法は適応的思考精度報酬を導入し,タスクに基づいた推論戦略を動的に調整する。
実験の結果,Audio-Thinkerモデルは,様々なベンチマークタスクにおいて,既存の推論指向のLALMよりも優れていた。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:41:10 GMT)
Towards Comprehensible Recommendation with Large Language Model Fine-tuning [41.2] 本稿では,コラボレーティブ・パースペクティブ・フレームワーク(CURec)によるレコメンデーションシステムのための新しいコンテンツ理解手法を提案する。
Curecは、より包括的なレコメンデーションのために、協調的なコンテンツ機能を生成する。
公開ベンチマークの実験では、既存の方法よりもCURecの方が優れていることが示されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:55:31 GMT)
SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models [40.3] 本稿では,画像キャプチャペアを生成するための新しいデータ合成とキュレーション手法であるSynthVLMを紹介する。
また,100Kのキュレートと合成画像カプセルペアからなる高品質なデータセットであるSynthVLM-100Kを紹介する。
モデルと人両方の評価において、SynthVLM-100Kは従来の実世界のデータセットよりも優れています。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:20:55 GMT)
Not Yet AlphaFold for the Mind: Evaluating Centaur as a Synthetic Participant [40.2] 参加者シミュレータのコア基準を概観し,Centaurの適合性を評価する。
センターは強い予測精度を示すが、その生成行動は人間のデータから体系的に分岐する。
これは、Centaurが人間の行動を予測するための重要なステップである一方で、信頼性の高い参加者シミュレータや正確な認知モデルの標準を満たしていないことを示唆している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:05:18 GMT)
Reconstruction of boosted and resolved multi-Higgs-boson events with symmetry-preserving attention networks [39.8] 我々はSPA-Netアプローチに一般化を導入し、強化と解決された再構築可能性の両方を同時に検討する。
SPA-Net法によりヒッグス粒子再構築の純度は57~62%向上した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:18:13 GMT)
UltraAD: Fine-Grained Ultrasound Anomaly Classification via Few-Shot CLIP Adaptation [39.5] 視覚言語モデル(VLM)に基づく,異常な局所化ときめ細かい分類のためのアプローチであるUltraADを提案する。
UltraADは乳房の3つのデータセットで広く評価されており、病変のデータセットと微細な医学的分類の両方において最先端の手法よりも優れている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:03:32 GMT)
Mitigating Biases in Surgical Operating Rooms with Geometry [39.3] ディープニューラルネットワークは、予測のためにデータセット固有のアーティファクトを活用することで、急激な相関を学習する傾向がある。
外科手術室 (OR) では, スモックやガウンの標準化により, 目印が不明瞭であることが明らかとなった。
この問題を解決するために、人員を3Dポイントクラウドシーケンスとしてエンコードし、外見に基づく共同設立者からアイデンティティ関連形状と動きパターンを遠ざけている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:32:32 GMT)
Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild [38.9] 本稿では,参照対象画像ペア間の固有対応を擬似ビデオとして表現する手法を提案する。
この観点により、SAM2として知られるSAMの最新バージョンは、ダウンストリームタスクに軽量に適応できる。
我々はこのアプローチをSAM(CAV-SAM)のためのビデオとして対応づける。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:42:49 GMT)
TrackOR: Towards Personalized Intelligent Operating Rooms Through Robust Tracking [38.6] 手術室における長期多人数追跡と再同定のためのフレームワークであるTrackORを提案する。
TrackORは3Dの幾何学的シグネチャを使用して、最先端のオンライントラッキングパフォーマンスを実現する。
我々の研究は、3次元幾何学的情報を活用することで、永続的なアイデンティティ追跡が実現可能であることを示している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:28:50 GMT)
Unequal Uncertainty: Rethinking Algorithmic Interventions for Mitigating Discrimination from AI [38.1] 人工知能の予測の不確実性は、AI支援による意思決定に緊急の法的および倫理的課題をもたらす。
人間のAI協力のためのガードレールとして機能する2つのアルゴリズム的介入について検討する。
どちらの介入も、英国法の下では違法な差別のリスクをもたらすが、選択的摩擦はより公平で説明可能なAI支援による意思決定への、有望な道筋を提供する、と我々は主張する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:43:34 GMT)
Attribution Explanations for Deep Neural Networks: A Theoretical Perspective [38.0] 我々は、忠実性の問題が帰属説明の信頼性と実用性を損なうと論じている。
最近の理論的進歩は、これらの課題に取り組むための有望な方法を提供する。
我々は、これらの研究が理論的理解を深め、方法の選択を知らせ、新しい帰属法を刺激する上でどのように役立つかについての洞察を提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:41:20 GMT)
Efficient Speculative Decoding for Llama at Scale: Challenges and Solutions [37.3] Llamaモデルの生産規模で投機的復号化を実現するために実装したトレーニングおよび推論最適化手法について述べる。
これらの変更により、Llamaモデルに対する最先端の推論レイテンシが新たに実現される。
例えば、Llama4 Maverickは8つのNVIDIA H100 GPU上でトークンあたり約4ミリ秒でデコードする(バッチサイズは1である)。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:11:26 GMT)
Efficient Approximate Posterior Sampling with Annealed Langevin Monte Carlo [37.2] スコアベース生成モデルの文脈における後部サンプリングの問題について検討する。
我々は,KLの発散前とFisherの発散後とにおいて,ノイズの後部に近い分布から抽出できることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:25:24 GMT)
Tracking Any Point Methods for Markerless 3D Tissue Tracking in Endoscopic Stereo Images [36.9] 本稿では,2D Tracking Any Point (TAP) ネットワークを利用したマーカーレス3次元組織追跡手法を提案する。
ステレオ内視鏡画像から3次元運動を推定するために,時間的追跡用とステレオマッチング用という2つのCoTrackerモデルを組み合わせる。
人工3Dプリントファントムとニワトリ組織ファントムを用いた実験により,より信頼性の高い結果を得た。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:10:16 GMT)
Reinforcement Learning in Vision: A Survey [36.8] この調査は、この分野の批判的かつ最新の合成を提供する。
まず、視覚的RL問題を定式化し、政策最適化戦略の進化を辿る。
カリキュラム駆動型トレーニング、嗜好整合拡散、統一報酬モデリングなどのトレンドを蒸留する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:08:55 GMT)
Score Augmentation for Diffusion Models [36.7] 拡散モデルに特化して設計された新しいデータ拡張フレームワークであるScore Augmentation(ScoreAug)を提案する。
ScoreAugはノイズの多いデータに変換を適用する。
実験では、CIFAR-10、FFHQ、AFHQv2、ImageNetなどの複数のベンチマークでScoreAugを広範囲に検証した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:39:46 GMT)
Pose-RFT: Enhancing MLLMs for 3D Pose Generation via Hybrid Action Reinforcement Fine-Tuning [36.4] Pose-RFTはMLLMの3次元ポーズ生成に適した強化微調整フレームワークである。
本稿では,HyGRPOを提案する。HyGRPOは,サンプル応答に対してグループワイド報酬正規化を行うハイブリッド強化学習アルゴリズムである。
複数のポーズ生成ベンチマークの実験により、Pose-RFTは既存のポーズ固有のMLLMよりも性能を大幅に向上することが示された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:44:58 GMT)
Waveguide quantum electrodynamics at the onset of spin-spin correlations [36.1] 2つの結晶基板の1つに属する分子が1次元スピン鎖を形成する。
マイクロ波透過は、準恒等スピンと伝播光子の集団結合の証拠を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:00:01 GMT)
Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images [36.1] スパース2Dビューから3Dシーンを再構築し、意味的に解釈することは、コンピュータビジョンの根本的な課題である。
本稿では,オープンな語彙意味論に富んだ統一された3次元シーン表現を共同で再構築する,新しいフィードフォワードフレームワークであるUni3Rを紹介する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:47:38 GMT)
TextQuests: How Good are LLMs at Text-Based Video Games? [36.0] TextQuestsは、Infocomのインタラクティブフィクションゲームスイートをベースにしたベンチマークである。
外部ツールの使用を前もって,自己完結型問題解決のためのエージェントの能力を評価するように設計されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:46:08 GMT)
Progressive Depth Up-scaling via Optimal Transport [35.7] LLM(Large Language Models)をスケールすると、パフォーマンスが向上するが、かなりのトレーニングコストが発生する。
我々は、層間におけるニューロンの置換を緩和するために、OpT-DeUS(Optimal Transport Depth Up-Scaling)を提案する。
OpT-DeUSは、全体的なパフォーマンスの向上と、既存の方法よりもトレーニング効率の向上を実現している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:15:33 GMT)
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch [35.6] マルチファイルWebサイトをスクラッチから作成するLLMベースのエージェントの能力を測定するために設計された新しいベンチマークであるWebGen-Benchを紹介する。
ヒトアノテータとGPT-4oの併用によるWebサイト生成の多様な指示が含まれている。
我々は、GPT-4oを使用して、命令に記述された各機能をターゲットにしたテストケースを生成し、手動でフィルタリング、調整、整理を行い、精度を保証し、647のテストケースを作成します。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:13:00 GMT)
ThinkTuning: Instilling Cognitive Reflections without Distillation [35.6] テストタイムスケーリングの最近の進歩は、自己回帰行動と多段階推論を示すLLMの出現につながっている。
そもそもそのような思考行動を示しないモデルを、どうやってトレーニングすればいいのか?
本研究では,GRPOに基づく対話型学習手法であるThinkTuningを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:51:43 GMT)
Error-Resilient Fast Entangling Gates for Scalable Ion-Trap Quantum Processors [35.4] トラップイオン系に対する非断熱二ビットゲートの提案は、断熱方式よりも優れた性能と柔軟性を提供する。
既存の高速ゲートスキームは単一量子遷移誤差によって制限され、これは高忠実度解におけるパルスの総数を制限する。
数十個のイオンを含む鎖内の局所的および非局所的な2ビットゲートの両方を可能にする改良されたゲート探索方式を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:44:18 GMT)
WeChat-YATT: A Simple, Scalable and Balanced RLHF Trainer [35.1] WeChat-YATTはシンプルでスケーラブルでバランスの取れたRLHFトレーニングフレームワークである。
複雑なRLHFシナリオの柔軟かつ効率的なオーケストレーションを可能にする並列コントローラプログラミングモデルを備えている。
WeChat-YATTを様々な実験シナリオで評価し,スループットの大幅な向上を実証した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:31:53 GMT)
Retuve: Automated Multi-Modality Analysis of Hip Dysplasia with Open Source AI [35.1] ヒップ(DDH)の発達は、時間的介入を妨げる重要な診断上の課題を生じさせる。
これらの制約に対処するため、マルチモーダルDDH分析のためのオープンソースのフレームワークであるRetuveを紹介した。
Retuveはオープンソースの原則に固執することにより、DDH研究における透明性、コラボレーション、アクセシビリティを促進する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:48:33 GMT)
REX-RAG: Reasoning Exploration with Policy Correction in Retrieval-Augmented Generation [35.1] 強化学習(RL)は、大規模言語モデル(LLM)が複雑な推論タスクを実行できるための強力なパラダイムとして浮上している。
本稿では、厳格な政策学習を維持しつつ、代替推論経路を探求するフレームワークであるREX-RAGを提案する。
その結果,REX-RAG は Qwen2.5-3B では5.1%, Qwen2.5-7B では3.6% であることがわかった。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:25:25 GMT)
B-VLLM: A Vision Large Language Model with Balanced Spatio-Temporal Tokens [34.8] 視覚エンコーダと統合された大規模言語モデル(VLLM)は、視覚理解において有望な性能を示している。
Balanced Vision-VLLM(B-VLLM):タスクに関連する時間的手がかりを効果的に活用することを目的とした新しいVLLMフレームワーク。
B-VLLMは、映像理解におけるフレーム数と視覚トークン数のバランスをとるのに有効であり、様々な映像理解において優れた性能が得られる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:40:50 GMT)
ALFA: Aligning LLMs to Ask Good Questions A Case Study in Clinical Reasoning [34.8] 大規模言語モデル(LLM)は、不確実性の下で有効な質問をすることがしばしば失敗する。
LLM質問応答を改善するフレームワークである細粒度属性によるアライメントを提案する。
この結果から,構造化された細粒度属性による質問応答を明示的に導くことで,LCMを改善するためのスケーラブルな経路が得られることが示唆された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:23:40 GMT)
SharpXR: Structure-Aware Denoising for Pediatric Chest X-Rays [34.2] SharpXR(シャープXR)は、低用量X線をノイズ化するために設計された構造対応のデュアルデコーダU-Netである。
小児肺炎チェストX線データセットにおける現実的なポアソン・ガウスノイズをシミュレートする。
SharpXRは、すべての評価指標で最先端のベースラインを上回っている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 23:07:20 GMT)
Enhancing Small-Scale Dataset Expansion with Triplet-Connection-based Sample Re-Weighting [33.7] 制御不能な生成プロセスと自然言語のあいまいさのため、ノイズの多い画像を生成することができる。
再重み付けは、このようなノイズの多い画像に低重みを割り当てることによってこの問題に対処する効果的な方法である。
本稿では,3重結合型サンプル再重み付け手法であるTriReWeightを開発した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:50:47 GMT)
Integrating Task-Specific and Universal Adapters for Pre-Trained Model-based Class-Incremental Learning [33.6] 本稿では,タスク特化およびユニバーサルアダプタ(TUNA)の統合を提案する。
具体的には、タスク固有のアダプタをトレーニングし、それぞれのタスクに関連する最も重要な特徴をキャプチャします。
我々は,タスク間で共有される最も差別的な特徴を符号化するユニバーサルアダプタを構築するために,アダプタ融合戦略を利用する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:41:04 GMT)
Spotter+GPT: Turning Sign Spottings into Sentences with LLMs [33.5] 手話翻訳は手話ビデオから話し言葉文を生成することを目的とした課題である。
本稿では,軽量かつモジュール化されたSLTフレームワークであるSputter+GPTを導入する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:32:09 GMT)
ArtiMuse: Fine-Grained Image Aesthetics Assessment with Joint Scoring and Expert-Level Understanding [32.6] ArtiMuseはMLLMベースの革新的なIAAモデルで、Joint ScoringとExpert-Level Understanding機能を備えている。
ArtiMuse-10Kは、5つの主要なカテゴリと15のサブカテゴリにまたがる10,000のイメージからなる、最初の専門家による画像美的データセットである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:10:24 GMT)
Breaking Down and Building Up: Mixture of Skill-Based Vision-and-Language Navigation Agents [31.6] VLN(Vision-and-Language Navigation)は、エージェントが自然言語命令を解釈し、複雑な3D環境をナビゲートできるようにする上で、大きな課題となる。
トランスフォーマーベースのVLNエージェントに構造化されたスキルベースの推論を導入するモジュラーフレームワークであるSkillNavを提案する。
本手法では,ナビゲーションを解釈可能な原子技術(垂直移動,地域識別,停止,一時停止など)の集合に分解し,それぞれが特殊エージェントによって処理される。
次に、ゼロショットビジョンランゲージモデル(VLM)ベースの新しいルータを導入し、各ステップで最適なエージェントを動的に選択する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:50:30 GMT)
AdaptFlow: Adaptive Workflow Optimization via Meta-Learning [31.3] AdaptFlowは、モデルに依存しないメタラーニングにインスパイアされた自然言語ベースのメタラーニングフレームワークである。
素早いサブタスクレベルの適応を可能にする一般的なワークフローを学習する。
手作業で作成し、ベースラインを自動的に検索することで、一貫してパフォーマンスが向上する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:52:59 GMT)
Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts [31.3] 我々はGrove MoEを紹介した。Grove MoEは、大きな.LITTLE CPUアーキテクチャにインスパイアされた、さまざまなサイズのエキスパートを取り入れた新しいアーキテクチャである。
このアーキテクチャは、動的アクティベーション機構を備えた新しいアジュゲートの専門家を特徴とし、管理可能な計算オーバーヘッドを維持しながら、モデルのキャパシティ拡張を可能にする。
本稿では,Qwen3-30B-A3B-Baseモデルに対して,トレーニング中および後トレーニング中の上昇戦略を適用したGroveMoE-BaseとGroveMoE-Inst,33B-パラメータLSMを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:15:36 GMT)
Interpreting Fedspeak with Confidence: A LLM-Based Uncertainty-Aware Framework Guided by Monetary Policy Transmission Paths [31.0] 連邦準備制度が使用するスタイル化され、しばしばニュアンスな言語である「Fedspeak」は、暗黙の政策信号と戦略的スタンスを符号化している。
我々はFedspeakを解析・解釈するための不確実性を考慮したフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:04:59 GMT)
Towards Customized Knowledge Distillation for Chip-Level Dense Image Predictions [31.0] 我々は高密度画像予測(EDIP)のための独自の境界・コンテキスト知識蒸留法(BCKD)を提案する。
具体的には, 境界領域における学生モデルのマスク品質を高めるために, 階層的特徴マップから明示的な対象レベルの境界を抽出することに焦点を当てた。
電子テキスト蒸留は、教師モデルから生徒モデルに暗黙のピクセルレベルのコンテキストを伝達するブリッジとして自己関係を利用し、ターゲット領域における強い接続性を確保する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:08:05 GMT)
Exploiting Layer Normalization Fine-tuning in Visual Transformer Foundation Models for Classification [30.2] 微調整後のLayerNormパラメータの変化は、ソースとターゲットドメイン間の遷移を示していることを示す。
本研究は,移動学習におけるLayerNormの過小評価力学を解明し,LayerNormの微調整のための実践的戦略を提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:18:47 GMT)
Splat4D: Diffusion-Enhanced 4D Gaussian Splatting for Temporally and Spatially Consistent Content Creation [30.0] Splat4Dはモノクロビデオから高忠実度4Dコンテンツを生成するための新しいフレームワークである。
Splat4Dは、忠実な時空間コヒーレンスを維持しながら優れた性能を達成する。
Splat4Dは、テキスト/画像条件付き4D生成、4Dヒューマン生成、テキスト誘導コンテンツ編集など、様々な応用で検証されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:35:53 GMT)
Position: Certified Robustness Does Not (Yet) Imply Model Security [29.6] 認証された堅牢性は、人工知能システムの敵例に対する解決策として推奨される。
我々は,検出のパラドックスを含む,現在の研究における重要なギャップを識別する。
本稿では,これらの基本的な課題に対処し,実用化に向けての分野を前進させる手順を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:15:49 GMT)
Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning [29.0] 本稿では,広く採用されている強化学習手法を体系的にレビューする。
特定の設定に合わせてRLテクニックを選択するための明確なガイドラインを示す。
また、2つのテクニックを最小限に組み合わせることで、批判のないポリシーの学習能力を解き放つことも明らかにした。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:39:45 GMT)
From Platform Migration to Cultural Integration: the Ingress and Diffusion of #wlw from TikTok to RedNote in Queer Women [28.8] 西オリジンの#wlwハッシュタグは、RedNoteの中国のレズビアンコミュニティで上昇している。
この出来事は、異文化間のハッシュタグの侵入と拡散を研究するためのユニークなレンズを提供する。
結果は、#wlwの導入の成功は、TikTok移民の大胆な輸入によって促進されたことを示している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:22:28 GMT)
TAR-TVG: Enhancing VLMs with Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding [28.8] 時間的ビデオグラウンディングは、自然言語クエリに対応するビデオセグメントを正確にローカライズすることを目的としている。
テンポラルビデオグラウンド(TAR-TVG)のためのタイムスタンプアンカー制約推論を提案する。
TAR-TVGは、思考内容の明示的な監督を強制するために、推論プロセス内にタイムスタンプアンカーを導入する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:59:32 GMT)
BonnBeetClouds3D: A Dataset Towards Point Cloud-based Organ-level Phenotyping of Sugar Beet Plants under Field Conditions [28.8] 農業生産は今後数十年間、気候変動と持続可能性の必要性によって深刻な課題に直面している。
自律無人航空機(UAV)による作物のモニタリングと、ロボットによる非化学雑草によるフィールド管理の進歩は、これらの課題に対処するのに有用である。
表現型化と呼ばれる植物形質の分析は、植物の育種に不可欠な活動であるが、大量の手作業が伴う。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:28:50 GMT)
Fourier-VLM: Compressing Vision Tokens in the Frequency Domain for Large Vision-Language Models [28.8] Vision-Language Models (VLM) は通常、定義された画像プレースホルダートークンをイメージエンコーダの視覚的特徴に置き換え、バックボーンのLarge Language Model (LLM) への入力を形成する。
本稿では,周波数領域における視覚表現を圧縮するシンプルで効率的なFourier-VLMを提案する。
我々のアプローチは、視覚エンコーダから出力される視覚特徴が低周波成分に集中したエネルギーを示すという観察に動機づけられている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:31:12 GMT)
Exploring Safety Alignment Evaluation of LLMs in Chinese Mental Health Dialogues via LLM-as-Judge [28.5] PsyCrisis-Benchは、現実の中国のメンタルヘルスの対話に基づく基準のない評価ベンチマークである。
モデル応答が専門家が定義する安全原則と一致しているかどうかを評価する。
本稿では,自傷行為,自殺観念,実存的苦悩を対象とする,手作業による高品質な中国語データセットを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:52:07 GMT)
EvoCoT: Overcoming the Exploration Bottleneck in Reinforcement Learning [28.3] 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデル(LLM)を学習後,推論能力を向上させる上で有望なパラダイムとなっている。
本稿では,2段階チェーン・オブ・シークレット(CoT)推論最適化に基づく自己進化型カリキュラム学習フレームワークであるEvoCoTを提案する。
EvoCoTは、CoT軌道の自己生成と検証によって探索空間を制約し、その後徐々に短くし、制御された方法で空間を拡張する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:49:01 GMT)
VGGSounder: Audio-Visual Evaluations for Foundation Models [28.3] VGGSounderは、VGGSoundを拡張し、音声・視覚基盤モデルを評価するために特別に設計された、再注釈付きマルチラベルテストセットである。
VGGSounderは詳細なモダリティアノテーションを備えており、モダリティ固有のパフォーマンスを正確に分析することができる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:53:23 GMT)
VisionUnite: A Vision-Language Foundation Model for Ophthalmology Enhanced with Clinical Knowledge [26.9] 臨床知識によって強化された眼科の新しい視覚言語基盤モデルであるVisionUniteを紹介する。
VisionUniteは、124万の画像テキストペアからなる広範囲なデータセットで事前訓練されている。
実験の結果,VisionUnite は GPT-4V や Gemini Pro などの既存の生成基盤モデルよりも優れていた。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:17:44 GMT)
Trapping of Single Atoms in Metasurface Optical Tweezer Arrays [26.7] ホログラフィック変成層から生成した光ツイーザーアレイにおける単一ストロンチウム原子のトラップ効果を実証する。
我々は,1000個以上の閉じ込められた原子を持つ2次元配列を,トラップ間隔が1.5m程度の任意のジオメトリーに配置した。
これは高屈折率材料から作製した高効率なホログラフィックメタサーフェスによって実現される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:56:35 GMT)
Make Your MoVe: Make Your 3D Contents by Adapting Multi-View Diffusion Models to External Editing [26.6] 本研究では,編集された資産と元の幾何学を1つの推論実行で整列する,チューニング不要なプラグイン・アンド・プレイ方式を提案する。
編集された3Dアセットのマルチビュー整合性とメッシュ品質を一貫して改善する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:23:39 GMT)
DoorDet: Semi-Automated Multi-Class Door Detection Dataset via Object Detection and Large Language Models [26.4] 最小限の手作業でマルチクラスドア検出データセットを構築するための半自動パイプラインを提案する。
提案手法は,フロアプラン解析におけるニューラルネットワークのベンチマークに適したデータセットを作成しながら,アノテーションのコストを大幅に削減する。
この研究は、複雑な実世界の領域における効率的なデータセット構築のために、ディープラーニングとマルチモーダル推論を組み合わせる可能性を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:41:09 GMT)
ReconDreamer-RL: Enhancing Reinforcement Learning via Diffusion-based Scene Reconstruction [26.4] ReconDreamer-RLは、ビデオ拡散前処理をシーン再構成に統合し、強化学習を支援するためのフレームワークである。
ReconDreamer-RLは、衝突率を5倍に下げた模倣学習法よりも優れた、エンドツーエンドの自動運転訓練を改善する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:45:55 GMT)
DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval [26.4] 推論集約型情報検索に適した検索パイプラインである textbfDIVER を提案する。
BRIGHTベンチマークでは、DIVERは元のクエリで最先端のnDCG@10スコアの41.6と28.9を達成している。
コードと検索モデルはまもなくリリースされます。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:57:49 GMT)
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring [26.1] 我々は、視覚的およびテキスト的プロンプトによるフレキシブルなオブジェクト参照を可能にする、統合された高分解能一般化モデル、Griffon v2を導入する。
我々は,大規模言語モデルにおける入力トークン制約を克服するために,シンプルで軽量なダウンサンプリングプロジェクタを設計する。
実験により、Griffon v2は、視覚的およびテキスト的参照による関心のあるオブジェクトのローカライズ、RECとフレーズグラウンドの最先端のパフォーマンス、オブジェクト検出、オブジェクトカウント、REGのエキスパートモデルよりも優れていることが示された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:33:05 GMT)
MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling [25.6] MAViSは、長期的なビデオストーリーテリングのためのエンドツーエンドのコラボレーティブフレームワークである。
スクリプト作成、ショットデザイン、キャラクターモデリング、生成、ビデオアニメーション、オーディオ生成など、複数のステージにまたがる特殊エージェントを編成する。
短いユーザープロンプトだけで、MAViSは高品質で表現力のあるロングシーケンスなビデオストーリーテリングを制作できる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:42:41 GMT)
Prototype-Guided Curriculum Learning for Zero-Shot Learning [25.6] CLZSLと呼ばれるプロトタイプ誘導型カリキュラム学習フレームワークを提案する。
PCLモジュールは、視覚マッピングとクラスレベルのセマンティックプロトタイプとの間のコサイン類似度の高いサンプルを優先順位付けする。
PUPモジュールは、インスタンスから学んだ視覚マッピングを活用することで、クラスレベルのセマンティックプロトタイプを動的に更新する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:56:21 GMT)
SMART: Self-Generating and Self-Validating Multi-Dimensional Assessment for LLMs' Mathematical Problem Solving [25.3] 大規模言語モデル(LLM)は、様々な数学的なベンチマークで顕著な結果を得た。
最終回答か推論プロセスに焦点をあてた共通評価手法は、問題解決手順全体を評価するのに失敗する。
この結果から,現在のLCMの真の弱点が明らかとなり,新たな指標であるオールパススコア(All-Pass Score)のモチベーションが得られた。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:58:00 GMT)
Optimization of Private Semantic Communication Performance: An Uncooperative Covert Communication Method [25.1] サーバは、画像データの意味である意味情報を複数のタイムスロットでユーザへ抽出し、送信する。
攻撃者は、セマンティックトランスミッションを検出して盗聴し、元の画像の詳細を取得する。
友好的なジャマが配置され、妨害信号を送信して攻撃者を妨害し、送信されたセマンティック情報を隠蔽する。
本稿では,送信された意味情報と時間スロット当たりの送信電力を協調的に決定するために,優先順位付きサンプリング支援2つの遅延深層決定性ポリシー勾配アルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:31:05 GMT)
A Physics-Driven Neural Network with Parameter Embedding for Generating Quantitative MR Maps from Weighted Images [25.1] 臨床重み付きMRIによる定量的画像合成の精度と一般化性を改善するために,MRIシーケンスパラメータを統合する深層学習に基づくアプローチを提案する。
物理駆動型ニューラルネットワークは、パラメータ埋め込みを介してMRIシーケンスパラメータを直接モデルに埋め込む。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:01:12 GMT)
Towards Effective MLLM Jailbreaking Through Balanced On-Topicness and OOD-Intensity [24.8] マルチモーダル大言語モデル(MLLM)は視覚言語推論タスクで広く使われている。
MLLMは、安全機構が有害な出力の発生を防ぐのに失敗するため、敵のプロンプトに対して脆弱である。
本研究では,入力オントピー性,出力アウトオブディストリビューション(OOD)強度,出力有害性,出力拒否率を考慮した4軸評価フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:57:55 GMT)
What Breaks Knowledge Graph based RAG? Empirical Insights into Reasoning under Incomplete Knowledge [24.7] 知識グラフに基づく検索型生成(KG-RAG)は、大規模言語モデルの推論能力と知識グラフの構造的エビデンスを組み合わせるための、ますます研究が進んでいるアプローチである。
既存のベンチマークには、KGの既存のトリプルを使って直接答えられる質問が含まれていることが多い。
本研究では,KG-RAG手法を知識の不完全性の下で体系的に評価するための評価プロトコルとともに,ベンチマークを構築するための一般的な手法を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:55:06 GMT)
Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.7] LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:12:36 GMT)
Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model [23.6] Affordance Groundingは、ロボットが実行するアクションに関連するオブジェクトの特定の領域を予測することに焦点を当てている。
既存のモデルは、しばしば異なるオブジェクト間で共有される余裕を無視する。
Affordance-R1は,認知的CoT誘導グループ相対的政策最適化を統合した,最初の統合型アプライアンス基盤フレームワークである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:30:16 GMT)
Information Bottleneck-based Causal Attention for Multi-label Medical Image Recognition [23.5] 本稿では,クラス固有の注意を因果関係,刺激要因,雑音要因の混合として扱う新しい構造因果モデル(SCM)を提案する。
そこで我々は,医用画像に対する識別的クラス固有の注意を学習できる新しい情報ボトルネック型因果注意(IBCA)を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:12:54 GMT)
Symmetry breaking for inductive logic programming [23.3] 仮説空間における対称性を破る手法を提案する。
視覚的推論やゲームプレイなど,複数の領域に対する実験により,本手法が1時間以上から17秒に短縮できることが判明した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:05:14 GMT)
3D Gaussian Splatting Data Compression with Mixture of Priors [23.0] 3DGSデータ圧縮は、3Dシーンモデリングにおける効率的なストレージと伝送を実現するために重要である。
本稿では,これら2つの課題に対処する新たなMixture of Priors(MoP)戦略を提案する。
提案する3DGSデータ圧縮フレームワークは,複数のベンチマークにまたがって最先端の性能を実現する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:33:11 GMT)
Keyword-Centric Prompting for One-Shot Event Detection with Self-Generated Rationale Enhancements [23.0] KeyCP++はキーワード中心のチェーンプロンプトアプローチである。
入力テキストと検出結果の論理的ギャップを自動的にアノテートすることで、従来のICLの弱点に対処する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:58:35 GMT)
Comparison Reveals Commonality: Customized Image Generation through Contrastive Inversion [22.5] 本稿では,入力画像の比較を付加情報に頼ることなく,共通概念を識別する手法であるContrastive Inversionを提案する。
我々は、画像的に補助的なテキストトークンとともに、コントラスト学習を用いてターゲットトークンを訓練し、ターゲットの真の意味をよく理解する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:36:29 GMT)
FIT-Print: Towards False-claim-resistant Model Ownership Verification via Targeted Fingerprint [22.4] モデルフィンガープリントは、オープンソースモデルの知的財産権を保護するために広く採用されているアプローチである。
本稿では, 相手が第三者モデルの所有権を誤って主張する, 虚偽のクレーム攻撃に対して脆弱であることを明らかにする。
これらの知見に触発され,疑似クレーム攻撃に対処するための指紋認証パラダイム(FIT-Print)を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:52:21 GMT)
First Experience with Real-Time Control Using Simulated VQC-Based Quantum Policies [22.4] 本稿では,量子コンピューティングのオフライン強化学習への統合について検討する。
目標は、現実の産業制御問題に量子アーキテクチャをデプロイする可能性を評価することである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:22:51 GMT)
Observation and Modulation of the Quantum Mpemba Effect on a Superconducting Quantum Processor [22.2] 非平衡量子多体系では、量子Mpemba効果(QME)が反直観現象として現れる。
超伝導プロセッサを用いたQMEの観測と制御について報告する。
本研究は、複数の制御可能なパラメータを持つ超伝導体上でのフレキシブルQME変調の最初の実演である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:35:26 GMT)
Decoupled Global-Local Alignment for Improving Compositional Understanding [22.1] コントラスト言語-画像事前学習(CLIP)は、画像とテキストのモダリティを調整することで、複数の下流タスクで成功している。
しかし、グローバルコントラスト学習の性質は、作曲概念を理解するCLIPの能力を制限している。
本稿では,デカップリング型グローバルローカルアライメント(DeGLA)フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:35:42 GMT)
Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery [21.9] Mol-R1は、テキストベースの分子生成におけるR1のようなExplicit Long-CoT推論モデルの説明可能性と推論性能を改善するために設計された新しいフレームワークである。
分子反復適応(英: Molecular Iterative Adaptation)とは、分子発見のためのR1ライクな推論モデルの推論性能を高めるために、SFT(Supervised Fine-tuning)とRPO(Reinforced Policy Optimization)を反復的に組み合わせたトレーニング戦略である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:50:05 GMT)
Exploring Multimodal Diffusion Transformers for Enhanced Prompt-based Image Editing [21.9] トランスフォーマーベースの拡散モデルは最近、従来のU-Netアーキテクチャに取って代わった。
MMDiTは、単一のフルアテンション操作を行う統一アテンション機構を導入する。
本稿では,グローバルからローカルへの編集をサポートするMM-DiTのための,堅牢でプロンプトベースの画像編集手法を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:40:12 GMT)
From Prediction to Explanation: Multimodal, Explainable, and Interactive Deepfake Detection Framework for Non-Expert Users [21.6] DF-P2E(Deepfake: Prediction to Explanation)は、視覚的、意味的、物語的な説明層を統合して、ディープフェイク検出を解釈し、アクセス可能にする新しいフレームワークである。
現在最も多様なディープフェイクデータセットであるDF40ベンチマークで、フレームワークをインスタンス化し、評価しています。
実験により,Grad-CAMアクティベーションに適合した高品質な説明を提供しながら,競合検出性能を実証した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:55:47 GMT)
Vertex Features for Neural Global Illumination [21.6] 明示的なメッシュ表面を含むニューラルレンダリングタスクのための学習可能な表現の一般化された定式化であるニューラル特徴を示す。
我々は、様々なニューラルレンダリングタスクにおける神経表現を、特にニューラルラジオシティに重点を置いて検証する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:10:19 GMT)
Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models [21.4] Global Compression Commander"はHR-LVLM用の新しいトークン圧縮フレームワークである。
GlobalCom$2$は90%以上のパフォーマンスを維持し、90%のビジュアルトークンを圧縮し、FLOPとピークメモリを9.1%と60%に削減している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:49:32 GMT)
Selective Contrastive Learning for Weakly Supervised Affordance Grounding [21.3] 厳格に監督された余裕基盤は、第三者によるデモンストレーションから人間の学習を模倣しようと試みている。
本稿では,各部分と対象の双方で,可視性関連キューを適応的に学習する,選択的プロトタイプおよび画素コントラスト目的を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:49:37 GMT)
Invisible Walls in Cities: Leveraging Large Language Models to Predict Urban Segregation Experience with Social Media Content [21.3] 本稿では,大規模言語モデルを用いてオンラインレビューマイニングを自動化し,セグレゲーション予測を提案する。
我々は,文化共鳴や魅力などの分離経験を示す重要な次元を捉えたコードブックを作成した。
我々のフレームワークは予測精度を大幅に改善し、R2は22.79%、MSEは9.33%低下した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:00:40 GMT)
OMGSR: You Only Need One Mid-timestep Guidance for Real-World Image Super-Resolution [20.8] One Mid-timestep Guidance Real-ISR (OMGSR) はDDPM/FMベースの生成モデルに適用可能な普遍的なフレームワークである。
OMGSR-S (SD-Turbo) と OMGSR-F (FLUX.1-dev) の2つの変種を持つDDPM/FMベース生成モデルのOMGSRをインスタンス化する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:44:59 GMT)
R4ec: A Reasoning, Reflection, and Refinement Framework for Recommendation Systems [20.8] R4$ecは、リコメンデーションシステムを弱いSystem-2モデルに進化させる推論、リフレクション、改善フレームワークである。
我々は反復的なリフレクション・リフレクション・リファインメント・プロセスを採用し、LLMがシステム-2のような思考を遅く、意図的に促進することを可能にする。
我々はAmazon-BookとMovieLens-1Mデータセットの広範な実験を行い、R4$ecの優位性を実証した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:53:22 GMT)
Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey [20.8] Bird's-Eye-View (BEV) の認識は、自動運転の基本的なパラダイムとなっている。
この調査は、安全クリティカルな観点からのBEVの認識に関する、初めての包括的なレビューを提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:40:46 GMT)
Overconfidence in LLM-as-a-Judge: Diagnosis and Confidence-Driven Solution [20.6] 大規模言語モデル(LLM)は自動化された判断として広く使われており、実際的な価値は正確さと信頼性の高いリスク認識の判断の両方に依存する。
既存のアプローチは主に正確さに焦点を合わせ、よく校正された信頼の必要性を見越す。
我々は、精度中心の評価から信頼性駆動型、リスク対応型LCM-as-a-Judgeシステムへの移行を提唱する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:15:26 GMT)
Matrix-3D: Omnidirectional Explorable 3D World Generation [20.6] 広視野全方位3次元世界生成のためのパノラマ表現を利用するフレームワークMatrix-3Dを提案する。
まず,シーンメッシュレンダリングを条件として,軌跡誘導パノラマ動画拡散モデルを訓練する。
本研究では, パノラマシーン映像を3次元世界へ持ち上げるために, (1) 高速3次元シーン再構成のためのフィードフォワード大パノラマ再構成モデル, (2) 正確かつ詳細な3次元シーン再構成のための最適化ベースパイプラインの2つの方法を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:29:57 GMT)
3D Plant Root Skeleton Detection and Extraction [20.5] 植物根の3次元構造を画像から効率的に抽出する3Dルートスケルトン抽出法を提案する。
抽出した3Dルートスケルトンは, モデルの有効性を検証し, 地上の真実とかなり類似していた。
この方法は自動繁殖ロボットにおいて重要な役割を果たす。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:33:10 GMT)
SketchSplat: 3D Edge Reconstruction via Differentiable Multi-view Sketch Splatting [20.4] エッジは3Dで構造情報を記述するための最も基本的なパラメトリックプリミティブの1つである。
従来の方法は、通常、多視点2Dエッジイメージから設定された3Dエッジポイントを再構成し、それから3Dエッジをポイントセットに適合させる。
そこで我々はSketchSplatを提案する。SketchSplatは,多視点スケッチスプラッティングにより,高精度で完全かつコンパクトな3次元エッジを再構築する手法である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:58:03 GMT)
Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models [20.4] 本稿では,高密度等価量上でのMoEモデルの計算優位性を定量化する指標として,レバレッジ効率(EL)を紹介する。
ELは、予測可能な電力法に従って、専門家のアクティベーション比と総計算予算によって駆動される。
我々はこれらの発見を統合スケーリング法則に統合し、その構成に基づいてMoEアーキテクチャのELを正確に予測する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:47:10 GMT)
Quantum advantage in decentralized control of POMDPs: A control-theoretic view of the Mermin-Peres square [20.1] 長期平均報酬基準を最大化することを目的とした複数の協調エージェントによる部分的マルコフ決定問題(POMDP)を考える。
我々は,製品量子システムのエージェント間の絡み合った状態の一定速度での可用性が,厳密な性能向上をもたらすことを観察した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:51:41 GMT)
Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [20.0] ニューラルネットワークが早期停止でGDによってトレーニングされている場合、トレーニングされたネットワークは、非パラメトリック回帰リスクの急激なレートを示す。
$mathcalO(epsilon_n2)$は、特定のケースに最適なminimaxであることが知られている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:57:26 GMT)
SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [19.9] 本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:10:21 GMT)
MuGa-VTON: Multi-Garment Virtual Try-On via Diffusion Transformers with Prompt Customization [19.8] 我々は,上着と下着を共用した多目的拡散フレームワーク MuGa-VTON を紹介する。
このアーキテクチャはプロンプトベースのカスタマイズをサポートし、最小限のユーザ入力できめ細かい衣服の修正を可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:45:07 GMT)
D-Judge: How Far Are We? Assessing the Discrepancies Between AI-synthesized and Natural Images through Multimodal Guidance [19.8] 5000の自然画像と440,000以上のAIGIサンプルからなる大規模マルチモーダルデータセットD-ANIを構築した。
次に、AI生成画像(AIGI)が真に現実的なイメージからどこまで遠いのかという、重要な問題に対処するために、AI-Natural Image Discrepancy評価ベンチマーク(D-Judge)を導入します。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:35:19 GMT)
Multi-Faceted Large Embedding Tables for Pinterest Ads Ranking [19.4] 複数の事前学習アルゴリズムを組み込んだ,複数面事前学習方式を提案する。
このフレームワークはPinterest Adsシステムにデプロイされ、1.34%のオンラインCPC削減と2.60%のCTR向上を達成した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 23:31:12 GMT)
Advancing Knowledge Tracing by Exploring Follow-up Performance Trends [19.3] 本稿では,歴史学習シーケンスとFPT(Follow-up Performance Trends)を組み合わせることで,学生のパフォーマンス予測精度を向上させる手法を提案する。
6つの実世界のデータセットの実験により、FINERは10種類の最先端KT法を上回り、精度は8.74%から84.85%向上した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:26:11 GMT)
GAPNet: A Lightweight Framework for Image and Video Salient Object Detection via Granularity-Aware Paradigm [19.0] GAPNetは、画像とビデオの両方のオブジェクト検出のための粒度認識パラダイムに基づいて構築された軽量ネットワークである。
我々のデコーダは、低粒度の高レベル特徴と高粒度の低レベル特徴を融合した粒度対応接続で構築されている。
エンコーダ上には,グローバル情報学習のための自己認識モジュールが構築されており,計算コストを無視できる精度の高いオブジェクトローカライゼーションを実現している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:30:59 GMT)
Undress to Redress: A Training-Free Framework for Virtual Try-On [19.0] 既存のVTONメソッドとシームレスに統合可能なトレーニングフリーフレームワークであるUR-VTON(Undress-Redress Virtual Try-ON)を提案する。
UR-VTON は 'undress-to-redress' というメカニズムを導入している。
また、長袖から短袖へのトライオンのための新しいベンチマークLS-TONも提示する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:55:49 GMT)
Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL [18.9] ASearcherは、検索エージェントの大規模RLトレーニングのためのオープンソースプロジェクトである。
ASearcher-Web-QwQは、xBenchで42.1、GAIAで52.8のAvg@4スコアを獲得し、既存のオープンソース32Bエージェントを上回っている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:36:57 GMT)
CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback [18.9] SDS(Score Distillation Sampling)はテキストから3Dコンテンツ生成において顕著な成功を収めた。
SDSベースの手法はユーザプロンプトのセマンティックな忠実さを維持するのに苦労する。
マルチモーダル大言語モデル(MLLM)からのアライメントフィードバックを統合したテキストコヒーレントスコア蒸留(TCSD)を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:43:39 GMT)
Spatiotemporally Consistent Indoor Lighting Estimation with Diffusion Priors [18.8] 単一の画像やビデオからの照明推定は、非常に不適切な性質のため、依然として課題である。
本稿では,シーンの照明を記述する連続光場を記述する入力映像から推定する手法を提案する。
従来の作品ではめったに実演されていない映像からの一貫した照明推定結果について検討した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:11:42 GMT)
1-2-3 Check: Enhancing Contextual Privacy in LLM via Multi-Agent Reasoning [18.8] プライバシ推論を専門のサブタスク(抽出,分類)に分解するマルチエージェントフレームワークを導入する。
情報フロートポロジに対して系統的なアブレーションを行い、上流検出がダウンストリームリークにカスケードを間違えた理由を明らかにした。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:34:09 GMT)
PyVeritas: On Verifying Python via LLM-Based Transpilation and Bounded Model Checking for C [18.5] Pythonは汎用プログラミングの主流言語になったが、形式検証のための堅牢なツールが欠けている。
PyVeritasはPythonからCへの高レベルのトランスパイルにLLM(Large Language Models)を利用する新しいフレームワークである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:49:07 GMT)
LL3M: Large Language 3D Modelers [18.2] LL3Mは,解釈可能なPythonコードをBlenderで記述することで3Dアセットを生成するシステムである。
形状生成をコード記述タスクとして再構成し,モジュール性,編集性,アーティストBlenderとの連携を実現する。
本実験では,3次元アセット生成のための生成的・解釈可能な媒体としてのコードの有用性を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:48:02 GMT)
G-IFT: A Gated Linear Unit adapter with Iterative Fine-Tuning for Low-Resource Children's Speaker Verification [18.2] 反復ファインチューニング(G-IFT)を用いたGated Linear Unit Adapterという,革新的なフレームワークを提案する。
本稿では,高リソースの成人音声領域と低リソースの児童音声領域との知識伝達効率を高めるために,反復ファインタニング(G-IFT)を用いたGated Linear Unitアダプタを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:41:56 GMT)
Active Policy Improvement from Multiple Black-box Oracles [18.0] 我々は,複数の準最適オラクルから模倣学習を行うポリシ改善アルゴリズムのクラスであるMAPSとMAPS-SEを紹介する。
特にMAPSは、どのオラクルを模倣するかを積極的に選択し、値関数の推定を改善します。
我々は,MAPS-SEが複数のオーラクルからの状態的模倣学習を通じて,政策最適化を著しく促進することを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:45:00 GMT)
Zoom-Refine: Boosting High-Resolution Multimodal Understanding via Localized Zoom and Self-Refinement [17.8] MLLM(Multimodal Large Language Models)は高解像度画像の正確な解釈に苦慮することが多い。
この問題に対処するためのMLLM機能を強化した新しいトレーニングフリーのZoom-Refineを導入する。
本手法は, 空間的局所化, 文脈的推論, 比較分析にMLLM固有の能力を活用し, 追加の訓練や外部の専門家を必要とせずに活用する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:25:46 GMT)
Mem4D: Decoupling Static and Dynamic Memory for Dynamic Scene Reconstruction [17.6] 静的幾何学と動的運動のモデリングを分離する新しいフレームワークを提案する。
Mem4Dは、グローバルな整合性を持つ静的幾何学を同時に維持し、高忠実度で動的要素を再構成する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:23:31 GMT)
Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs [17.4] 我々は、人を別々に扱うという観点から公正さを研究する。
16kの質問に対して8つのシナリオからなるベンチマークスイートを提案する。
差分認識が公平性とは異なる次元であることを示す10のモデルで結果を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:37:48 GMT)
SAGOnline: Segment Any Gaussians Online [17.3] 3D Gaussian Splatting (3DGS) は、明示的な3Dシーン表現のための強力なパラダイムとして登場した。
現在の手法では, 計算コストの禁止, 空間的推論の制限, 複数物体の同時追跡が困難となっている。
Segment Any Gaussians Online (SAGOnline) はガウスシーンにおけるリアルタイム3Dセグメンテーションのための軽量でゼロショットのフレームワークである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:38:50 GMT)
Reviewing Clinical Knowledge in Medical Large Language Models: Training and Beyond [17.2] 臨床知識は現実の医療実践において広く研究されている。
この種の知識を大規模言語モデルに統合することを目的とした研究努力が顕著に増加した。
臨床知識をトレーニングベース、KG支援、RAG支援LSMに組み込むための様々な取り組みについてレビューする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:03:23 GMT)
Evaluating Large Language Models as Expert Annotators [17.1] 本稿では,トップパフォーマンス言語モデルが,人間の専門家アノテータの直接的な代替として機能するかどうかを考察する。
我々は、金融、バイオメディシン、法という3つの専門分野にまたがる個別のLCMとマルチエージェントのアプローチを評価した。
実験結果から,推定時間的手法を具備した個々のLSMは,限界あるいは負の利得しか示さないことが明らかとなった。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:19:10 GMT)
MomentMix Augmentation with Length-Aware DETR for Temporally Robust Moment Retrieval [16.9] Video Moment Retrieval (MR)は、与えられた自然言語クエリに基づいて、ビデオ内のモーメントをローカライズすることを目的としている。
近年のDETRベースのモデルでは性能が顕著に向上しているが、短時間の正確なローカライズには苦戦している。
MomentMixは、フォアグラウンドMixとバックグラウンドMixの2つの拡張戦略を採用しており、それぞれがフォアグラウンドとバックグラウンドの特徴表現を強化する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:20:49 GMT)
HGMF: A Hierarchical Gaussian Mixture Framework for Scalable Tool Invocation within the Model Context Protocol [16.9] 外部ツールを呼び出すことで、LLM(Large Language Models)は複雑な実世界のタスクを実行できる。
しかし、大きく階層的に構造化されたライブラリから正しいツールを選択することは大きな課題です。
本稿では,スケーラブルなツール実行のための確率的プルーニング手法である階層型ガウス混合フレームワーク(HGMF)を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:13:06 GMT)
SASST: Leveraging Syntax-Aware Chunking and LLMs for Simultaneous Speech Translation [16.9] 本研究は,依存関係を解析することにより,入力ストリームを意味的に完全な単位に分割する文法に基づくチャンキング戦略を提案する。
SASST(Syntax-Aware Simultaneous Speech Translation)は,凍結したWhisperエンコーダとデコーダのみのLLMを統合したエンドツーエンドのフレームワークである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:13:35 GMT)
Exploring Strategies for Personalized Radiation Therapy: Part III Identifying genetic determinants for Radiation Response with Meta Learning [16.8] SF2で測定された放射線感度の1ショット予測のためのメタラーニングフレームワークを提案する。
提案したメタ学習モデルでは,各遺伝子の重要性を微調整によりサンプルによって変化させることができる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:34:18 GMT)
Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters [16.7] データ品質を犠牲にすることなく,オープンソースの大規模言語モデル (LLM) がCTPEレポートから概念抽出を自動化できるかを検討した。
LLMは、PEレジストリの抽象化のためのスケーラブルで正確なソリューションを提供し、デュアルモデルレビューワークフローは、人間の監視を最小限にして、データ品質をさらに保護します。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 23:09:56 GMT)
\(X\)-evolve: Solution space evolution powered by large language models [16.6] X)-evolveは、代わりに解空間(X)(個々の解の集合)を進化させるパラダイムシフト法である。
スコアに基づく探索アルゴリズムは、目的関数のスコアからのフィードバックによって導かれるこのパラメトリックに定義された空間を効率的に探索する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:47:59 GMT)
Towards Theoretical Understanding of Transformer Test-Time Computing: Investigation on In-Context Linear Regression [16.5] 言語モデル推論中により多くのテストタイム計算を使用することで、より中間的な考えを生成したり、複数の候補回答をサンプリングしたりするなど、効果的であることが証明された。
本稿では,実用的な言語モデル推論と理論的トランスフォーマー解析のギャップを埋める第一歩を踏み出す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:05:36 GMT)
A Risk Taxonomy and Reflection Tool for Large Language Model Adoption in Public Health [16.4] 我々は、公衆衛生の専門家や生活経験のある個人と焦点を合わせ、懸念を解き放つ。
参加者の視点をリスク分類にまとめる。
この分類は、個人に対するリスクの4つの次元、人間中心のケア、情報エコシステム、および技術説明責任を強調している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:13:48 GMT)
MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision [16.3] 我々はまず,新しい視覚言語タスクであるUMRG(Unified Medical Reasoning Grounding)を定義した。
第二にU-MRG-14Kは、暗黙の臨床的クエリと推論トレースを伴い、画素レベルのマスクを特徴とする14Kサンプルのデータセットである。
第3に、セグメンテーションから推論を明確に分離するモジュラーフレームワークであるMedReasonerを紹介します。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:59:06 GMT)
Semantic-Enhanced Time-Series Forecasting via Large Language Models [16.2] 時系列予測は、金融、エネルギー、気象学、IoTアプリケーションにおいて重要な役割を果たす。
近年,大規模言語モデル(LLM)の一般化機能を活用して時系列予測に適応し,有望な性能を実現している。
本稿では,時系列の固有周期性と異常特性を探索し,意味空間に埋め込むセマンティック拡張LDM(SE-LLM)を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:19:21 GMT)
VeriPHY: Physical Layer Signal Authentication for Wireless Communication in 5G Environments [16.1] 物理層認証(PLA)は、無線ネットワークにおいてセキュアで効率的な認証を提供するために、通信媒体の固有の特性を使用する。
ディープラーニングの進歩に伴い、PLAは精度と信頼性の面で広く採用されている。
We introduced VeriPHY, a novel deep learning-based PLA solution for 5G networks。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:13:39 GMT)
Learning User Preferences for Image Generation Model [15.9] 本稿では,マルチモーダルな大規模言語モデルに基づいて,パーソナライズされたユーザの好みを学習する手法を提案する。
対照的な選好損失は、利用者の「好き」と「嫌い」を効果的に区別するように設計されている。
学習可能な選好トークンは、既存のユーザ間で共有された関心表現をキャプチャし、モデルがグループ固有の選好を活性化し、類似ユーザ間の一貫性を高める。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:39:42 GMT)
Scaling Transformers for Discriminative Recommendation via Generative Pretraining [15.8] オーバーフィット問題に対処するため,GPSD (textbfGenerative textbfPretraining for textbfScalable textbfDiscriminative Recommendation) というフレームワークを提案する。
産業規模のデータセットと一般公開データセットの両方で実施された大規模な実験は、GPSDの優れた性能を示している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:29:10 GMT)
CATP: Contextually Adaptive Token Pruning for Efficient and Enhanced Multimodal In-Context Learning [15.7] マルチモーダル・イン・コンテクスト・ラーニング(ICL)を対象とした学習自由プルーニング手法であるCATP(Contextual Adaptive Token Pruning)を提案する。
画像トークンの77.8%を取り除いた後、CATPは4つのLVLMと8つのベンチマークでバニラモデルよりも平均0.6%の性能向上を達成した。
平均10.78%のレイテンシ削減を達成することで効率を効果的に向上する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:41:51 GMT)
A Methodology for Incompleteness-Tolerant and Modular Gradual Semantics for Argumentative Statement Graphs [15.7] 文グラフの文法的意味論を得るための新しい手法を提案する。
まず、不完全な情報を自然に扱えるので、部分的に指定された前提を持つ議論が評価において意味のある役割を果たす。
第2に、QBAFの任意のGSを利用するようにモジュール的に定義されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:22:05 GMT)
sbi reloaded: a toolkit for simulation-based inference workflows [15.7] 我々は、ニューラルネットワークに基づくベイズSBIアルゴリズムを実装したPyTorchベースのパッケージであるsbiを開発し、保守し、拡張した。
sbiツールキットは、科学者やエンジニアが最先端のSBIメソッドをブラックボックスシミュレータに適用することを可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:09:32 GMT)
Do AI Companies Make Good on Voluntary Commitments to the White House? [15.7] 我々は、2023年のホワイトハウスへの8つの自発的なコミットメントに基づいて、詳細なルーリックを開発することで、公表された行動に基づいて企業を評価する。
最も高く評価されている企業(OpenAI)は、当社のルーリック全体で83%だが、全企業の平均スコアはわずか52%だ。
両社は、平均17%のスコアでウェイトセキュリティのモデル化を約束する上で、システム的にパフォーマンスが劣っていることを実証している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:23:28 GMT)
ELF: Efficient Logic Synthesis by Pruning Redundancy in Refactoring [15.6] そこで本稿では,不必要な再合成操作を不要にするため,前もって切断を未然に行う手法を提案する。
EPFLベンチマークスイートと10の大規模産業設計を用いたオペレータの実験により、この技術は最先端のABC実装と比較して論理最適化を平均3.9倍高速化できることが示された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:18:07 GMT)
PersonalAI: A Systematic Comparison of Knowledge Graph Storage and Retrieval Approaches for Personalized LLM agents [15.5] 大規模言語モデル (LLM) とRetrieval-Augmented Generation (RAG) の組み合わせは、複雑な長期的相互作用においてスケールできない。
LLM自体によって自動的に構築・更新される知識グラフに基づくフレキシブルな外部メモリフレームワークを提案する。
AriGraphアーキテクチャに基づいて、標準エッジと2種類のハイパーエッジの両方をサポートする新しいハイブリッドグラフ設計を導入する。
本稿では,TriviaQA,HotpotQA,DiaASQ-demonstratingの3つのベンチマークを用いて,メモリと検索の異なる構成でタスクに応じて最適な性能が得られることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:41:39 GMT)
Blending Imitation and Reinforcement Learning for Robust Policy Improvement [15.5] イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:00:11 GMT)
Understanding Syntactic Generalization in Structure-inducing Language Models [15.4] 構造誘導言語モデル(SiLM)は、自己教師型言語モデリングタスクに基づいて訓練される。
SiLMは入力を処理する際に副産物として階層的な文表現を誘導する。
自然言語(英語)コーパスと合成ブラケット表現を併用した3種類のSiLMアーキテクチャについて検討した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:29:41 GMT)
Conversational DNA: A New Visual Language for Understanding Dialogue Structure in Human and AI [15.4] 本稿では,対話を解釈可能な構造を持つ生体系として扱う新しい視覚言語であるConversational DNAを紹介する。
統計的要約とのリッチな相互作用を減少させる従来の会話分析とは異なり、我々のアプローチは生物学的メタファーを通して対話の時間的構造を明らかにする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:43:35 GMT)
Can You Trick the Grader? Adversarial Persuasion of LLM Judges [15.4] この研究は、戦略的に組み込まれた説得言語が数学的推論タスクを評価する際にLCMの判断に偏りがあることを初めて明らかにした。
我々は,7つの説得技法(マジョリティ,一貫性,フラタリー,互恵性,ピティ,権威,アイデンティティ)を定式化し,それらと全く同じ応答に組み込む。
説得力のある言語は、LCMの判断者が不正確な解に膨らませたスコアを、平均で最大8%の精度で割り当てることを可能にし、一貫性は最も深刻な歪みを引き起こす。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:45:02 GMT)
RIDGECUT: Learning Graph Partitioning with Rings and Wedges [15.4] RIDGECUTは、正規化カット問題における構造認識分割を強制するために、アクション空間を制約する最初のRLフレームワークである。
本手法は,グラフを線形あるいは円形構造に置き換え,分割作業を簡略化する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:26:08 GMT)
Topological quantum electrodynamics in synthetic non-Abelian gauge fields [15.3] 我々は、非アベリアフォトニック格子に埋め込まれた量子エミッタの光-物質相互作用の理論を開発する。
我々は,エミッタとスピンモメンタムロックバンドを選択的に結合させることにより,非相反性を示すキラル光子放出と渦を明らかにする。
結果は非アベリア物理学を量子光学で橋渡しし、トポロジカル量子光学状態のための汎用ツールとして非アベリアゲージ場を確立する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:45:01 GMT)
PCLVis: Visual Analytics of Process Communication Latency in Large-Scale Simulation [15.1] 本稿では,プロセス通信遅延(PCL)イベントの解析を支援するPCLVisというフレームワークを提案する。
物理リンク層情報の代わりに、PCLVisは解析にMPIプロセス通信データを使用する。
PCLVisフレームワークの有効性は、TH-1Aスーパーコンピュータ上で実行されるいくつかのシミュレーションのPCLイベントを分析することで実証される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:23:10 GMT)
Segmenting and Understanding: Region-aware Semantic Attention for Fine-grained Image Quality Assessment with Large Language Models [15.1] 非参照画像品質評価(NR-IQA)は、人間の知覚に合わせた画像品質の知覚過程をシミュレートすることを目的としている。
領域レベルの歪み情報を統合し,多次元品質の相違を知覚する精細な画質評価モデル RSFIQA を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:03:00 GMT)
Robust Reinforcement Learning over Wireless Networks with Homomorphic State Representations [15.1] 通信ネットワーク上での強化学習(RL)エージェントの訓練の問題に対処する。
我々は,同型ロバスト遠隔強化学習(HR3L)という新しいアーキテクチャを提案する。
HR3Lは無線チャネル間の勾配情報の交換を必要としないため、最先端のソリューションよりも高速な訓練と通信オーバーヘッドの低減が可能となる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:50:25 GMT)
FairFLRep: Fairness aware fault localization and repair of Deep Neural Networks [15.0] 本稿では,FairFLRepについて紹介する。
FairFLRepは、人種や性別などのセンシティブな属性に関連するニューロンの重みを調整することで、不公平な決定に責任を負うニューロンを補正する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:28:42 GMT)
Can AI Explanations Make You Change Your Mind? [15.0] AIベースの意思決定支援システムでは、ユーザがAIの提案をいつ信頼するか、いつ質問するかを判断するのに役立つ。
説明可能なDSSに対する信頼に関するオンライン調査を行い、参加者が説明にほとんど時間を費やしておらず、常に詳細を考慮していないことに驚きました。
このデータを探索的に分析し、参加者がAIの説明をいかに慎重に検討するかを調査する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:36:20 GMT)
Communication-Efficient Zero-Order and First-Order Federated Learning Methods over Wireless Networks [14.7] Federated Learning (FL)は、エッジデバイスがローカルデータを共有せずに、協調的にMLモデルをトレーニングすることを可能にする。
FLは、トレーニングフェーズにおいて、デバイスとアグリゲータの間で大量の情報を交換する必要があるため、重大な課題に直面します。
2つの通信効率の高いFL法は、長いベクトルの代わりにスカラー値を通信することで通信オーバーヘッドを低減できると考えられる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:16:23 GMT)
Optimistic Interior Point Methods for Sequential Hypothesis Testing by Betting [14.7] 本稿では, 内部点法を最適化に活用して, 勾配爆発のリスクを伴わずに, 決定空間全体を横断的に更新する新たな戦略を提案する。
提案手法は,強い統計的保証を保ちながら,ONSほど計算量的に軽量でありながら,より高速なヌル仮説の拒絶を促進する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:11:46 GMT)
A Deep Learning Based Resource Allocator for Communication Networks with Dynamic User Utility Demands [14.7] 本稿では,DL ベースのリソースアロケータ (ALCOR) を導入し,ユーザによるユーティリティ要求の調整を自由に行えるようにした。
ALCORは、時間共有問題におけるポリシーとしてディープニューラルネットワーク(DNN)を使用している。
このポリシーは、アクティブユーザの間で、制限のないRA(URA) -- ユーザユーティリティの要求を考慮せずに -- を実行し、各時点の合計ユーティリティ(SU)を最大化する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:13:36 GMT)
Fast weight programming and linear transformers: from machine learning to neurobiology [14.6] 機械学習のための人工知能ニューラルネットワークの最近の進歩は、リカレントニューラルネットワーク(RNN)アーキテクチャのファミリーを確立している。
FWP(Fast Weight Programmers)は、入力観測の関数として、シナプス重みが時間とともに動的に変化するニューラルネットワークとして解釈することができる。
我々は、FWPと脳のシナプス可塑性モデルとの関係について論じ、自然と人工知能の収束を示唆する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:50:03 GMT)
From Reusing to Forecasting: Accelerating Diffusion Models with TaylorSeers [14.4] Diffusion Transformers (DiT) は高忠実度画像とビデオ合成に革命をもたらしたが、リアルタイムアプリケーションでは計算要求は禁じられている。
機能キャッシングは、前のタイムステップで機能をキャッシュし、次のタイムステップでそれらを再利用することで、拡散モデルを加速するために提案されている。
我々はTaylorSeerを提案する。これはまず、将来の時間ステップにおける拡散モデルの特徴を、過去の時間ステップにおけるそれらの値に基づいて予測できることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:15:27 GMT)
Boosting Active Defense Persistence: A Two-Stage Defense Framework Combining Interruption and Poisoning Against Deepfake [14.1] 我々は、効果的な防御が偽のコンテンツを歪ませるだけでなく、モデルが適応する能力を阻害すると主張している。
これを実現するために,革新的な2段階防衛フレームワーク(TSDF)を提案する。
我々のフレームワークは、アクティブディフェンスの持続性を向上できる強力なデュアルディフェンス能力を示している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:26:48 GMT)
Sparsity Outperforms Low-Rank Projections in Few-Shot Adaptation [14.1] ラベル付きサンプルがほとんどない新しいドメインにビジョンランゲージモデルを適用することは、過度なオーバーフィットと計算上の制約のため、課題である。
本稿では,ごく少数のパラメータを動的に調整する新しいスパース最適化フレームワークを提案する。
11の多様なデータセットの実験により、SOはメモリオーバーヘッドを低減しつつ、最先端の数発の適応性能を実現している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:17:39 GMT)
Re:Verse -- Can Your VLM Read a Manga? [14.1] 現在の視覚言語モデル(VLM)は、表面レベルの認識と深い物語的推論の間に重要なギャップを示す。
本稿では,細粒度マルチモーダルアノテーション,クロスモーダル埋め込み解析,検索強化評価を組み合わせた新しい評価フレームワークを提案する。
本稿では,VLMにおける長期的物語理解に関する最初の体系的研究を,生成的ストーリーテリング,文脈的対話グラウンドニング,時間的推論という3つのコア評価軸を通じて行った。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 22:40:05 GMT)
Rethinking Prompt Optimizers: From Prompt Merits to Optimization [14.0] MePOはメリット誘導型プロンプトデータセットでトレーニングされた、メリット誘導型でローカルにデプロイ可能なプロンプトである。
MePOはオンライン最適化を避け、プライバシーの懸念を減らし、明確で解釈可能なメリットを学習することで、大規模な推論モデルと軽量推論モデルの両方に効果的に一般化する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:19:39 GMT)
On the Limits of Selective AI Prediction: A Case Study in Clinical Decision Making [14.0] 臨床的文脈における人的決定に対する選択的予測の効果について検討した。
以上の結果から,選択予測は不正確なAIの負の効果を判定精度の観点から軽減することが明らかとなった。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:53:13 GMT)
Word Clouds as Common Voices: LLM-Assisted Visualization of Participant-Weighted Themes in Qualitative Interviews [14.0] ThemeCloudsは,対話の書き起こしから主題的,参加者に重み付けされたワードクラウドを生成する,オープンソースの可視化ツールである。
このシステムは、LLMに、コーパス全体で概念レベルのテーマを識別するよう促し、各トピックに言及する参加者の数をカウントする。
5つの記録デバイス構成を比較したユーザスタディのインタビューから,本手法は,周波数雲やトピックモデリングベースラインよりも動作可能なデバイス関心事を明らかにする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:27:52 GMT)
Memory Storyboard: Leveraging Temporal Segmentation for Streaming Self-Supervised Learning from Egocentric Videos [13.7] 本研究では,長大な実世界のエゴセントリックなビデオストリームからの自己教師型学習のストリーミングについて検討する。
人間の知覚と記憶における事象セグメンテーションのメカニズムに着想を得て,我々は「記憶ストーリーボード」を提案する。
効率的な時間分割を実現するために,2階層のメモリ階層を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:34:51 GMT)
CITYWALK: Enhancing LLM-Based C++ Unit Test Generation via Project-Dependency Awareness and Language-Specific Knowledge [13.6] CITYWALKは、C++ユニットテスト生成のための新しいフレームワークである。
プログラム分析を通じて、テスト中のプロジェクト内の依存関係関係の包括的な理解を提供する。
プロジェクトドキュメンテーションと経験的な観察から派生したC++に関する言語固有の知識が組み込まれている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:52:42 GMT)
FEAT: A Multi-Agent Forensic AI System with Domain-Adapted Large Language Model for Automated Cause-of-Death Analysis [13.6] 死因決定の法医学的原因は、労働力不足や診断の多様性など、体系的な課題に直面している。
本稿では,ドメイン適応型大規模言語モデルによる死亡調査の自動化と標準化を行うマルチエージェントAIフレームワークであるFEATを紹介する。
様々な中国のケースコホートの評価において、FEATは、ロングフォームの解剖分析と簡潔な死因結論の両方において最先端のAIシステムより優れていた。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:05:59 GMT)
Toward Intelligent and Secure Cloud: Large Language Model Empowered Proactive Defense [13.6] 大規模言語モデル(LLM)は、セキュリティインテリジェンスに対する有望なソリューションを提供する。
我々は,クラウドネットワークにおける様々なDoS脅威を積極的に軽減する,新しい防御アーキテクチャ LLM-PD を提案する。
3つのDoS攻撃のケーススタディは、防御効果と効率の点で、その顕著な能力を示している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:32:01 GMT)
A New One-Shot Federated Learning Framework for Medical Imaging Classification with Feature-Guided Rectified Flow and Knowledge Distillation [13.4] ワンショットフェデレートラーニング(OSFL)は,通信オーバーヘッドの低さから注目を集めている。
既存の生成モデルベースのOSFLメソッドは、トレーニング効率の低下と、医療領域における潜在的なプライバシー漏洩に悩まされている。
本稿では,新しいFG-RF(Feature-Guided Rectified Flow Model)とDLKD(Dual-Layer Knowledge Distillation)アグリゲーション手法を開発したOSFLフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:48:45 GMT)
IPBA: Imperceptible Perturbation Backdoor Attack in Federated Self-Supervised Learning [13.3] フェデレート自己教師学習(FSSL)は、分散モデリングとラベルなし表現学習の利点を組み合わせたものである。
研究によると、FSSLはバックドア攻撃に弱いままである。
我々はIPBAと呼ばれるFSSLに対する非受容的で効果的なバックドア攻撃手法を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:36:11 GMT)
Pindrop it! Audio and Visual Deepfake Countermeasures for Robust Detection and Fine Grained-Localization [13.3] 本稿では,ディープフェイク映像分類とローカライゼーションの問題に対する解決策を提案する。
この手法はACM 1M Deepfakes Detection Challengeに提案された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:14:17 GMT)
AdaBoost is not an Optimal Weak to Strong Learner [13.2] AdaBoostのサンプルの複雑さや他の古典的なバリエーションは、強学習者の所望の精度において、少なくとも1つの対数係数によって最適以下であることが示される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:21:48 GMT)
Towards Understanding the Impact of Data Bugs on Deep Learning Models in Software Engineering [13.2] ディープラーニング(DL)システムは、トレーニングデータを含む多くのソースからのバグがちである。
既存の文献では、トレーニングデータのバグが非常に多いことが示唆されている。
本稿では,コードベース,テキストベース,メトリックベースの3種類のデータについて検討する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:02:09 GMT)
GenEscape: Hierarchical Multi-Agent Generation of Escape Room Puzzles [13.0] 我々は,視覚的,論理的,知的刺激的な,脱出室パズル画像を生成することによって,テキスト・ツー・イメージモデルに挑戦する。
本稿では,このタスクを機能設計,象徴的なシーングラフ推論,レイアウト合成,局所画像編集など,構造化段階に分解する階層型マルチエージェントフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:14:09 GMT)
Anatomy-Aware Low-Dose CT Denoising via Pretrained Vision Models and Semantic-Guided Contrastive Learning [13.0] ALDENは、事前学習された視覚モデルの意味的特徴と、敵対的かつ対照的な学習を統合する解剖学的認識型LDCT復号法である。
具体的には、解剖学的に認識された識別器を導入し、参照正常線量CT(NDCT)からの階層的意味的特徴を、クロスアテンション機構を介して動的に融合させる。
さらに, LDCT, denoized CT, NDCTのPVM由来の特徴を対比し, 正のペアによる組織特異的パターンの保存, 二重の負のペアによるアーティファクトの抑制により, 解剖学的一貫性を強制する意味誘導型コントラスト学習モジュールを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:17:12 GMT)
UMRE: A Unified Monotonic Transformation for Ranking Ensemble in Recommender Systems [12.9] アンサンブルソートにおける従来の手法の限界に対処する新しい統一モノトニックランキングアンサンブル(UMRE)フレームワークを提案する。
UMREは、非拘束型モノトニックネットワーク(UMNN)で手作り変換を置き換え、正の神経積分を統合することで、表現力のある厳密な単調関数を学習する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:38:57 GMT)
Federated Quantum Kernel-Based Long Short-term Memory for Human Activity Recognition [12.8] 本稿では,Fed-QK-LSTM(Federated Quantum Kernel-Based Long Short-term Memory)フレームワークを紹介する。
Fed-QK-LSTMフレームワーク内では、プライバシに敏感な環境下での人間の活動認識を強化する。
我々は、実世界のアプリケーションにおいて、堅牢でプライバシーに配慮した人間の活動認識のためのFed-QK-LSTMフレームワークの可能性を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:25:26 GMT)
From Limited Labels to Open Domains:An Efficient Learning Method for Drone-view Geo-Localization [12.8] 従来のドローンビュージオローカライゼーション(DVGL)手法は、ペア化されたトレーニングデータに大きく依存している。
DVGL法は、新しいペアデータを取得し、その後のモデル適応のための再訓練を必要とする。
本稿では,限られた監督力を有するクロスドメイン不変知識伝達ネットワーク(CDIKTNet)を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:09:45 GMT)
SHIELDA: Structured Handling of Exceptions in LLM-Driven Agentic Workflows [12.7] LLM(Large Language Model) エージェントシステム(LLM)は、多段階プロセスの自律的推論、計画、実行を行うLLMをベースとしたソフトウェアシステムである。
既存の例外処理ソリューションは、しばしば例外を表面的に扱い、実行フェーズ例外を根本原因にトレースすることができない。
LLMエージェントランタイムのためのモジュール型例外処理フレームワークShielDAを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:50:46 GMT)
Rethinking Irregular Time Series Forecasting: A Simple yet Effective Baseline [12.7] 本稿では,汎用的で効率的な予測フレームワークであるAPNを紹介する。
APNの中核には、新しい Time-Aware Patch Aggregation (ATAPA) モジュールがある。
パッチ表現をタイムアウェアな重み付けで計算し、すべての生の観察を集約する。
このアプローチは、人工的なデータポイントの導入を回避し、設計による完全な情報カバレッジを確保することによって、データの忠実性を維持する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:49:44 GMT)
ME-TST+: Micro-expression Analysis via Temporal State Transition with ROI Relationship Awareness [12.6] マイクロ表現(ME)は、個人固有の感情、嗜好、傾向の重要な指標とみなされる。
従来のディープラーニングアプローチでは、スライディングウインドウ分類ネットワークが一般的であった。
本稿では,ME-TSTとME-TST+という2つの状態空間モデルに基づくアーキテクチャを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:28:32 GMT)
Probabilistic Active Goal Recognition [12.6] 能動ゴール認識のための確率的フレームワークを採用する。
本稿では,モンテカルロ木探索アルゴリズムと共同信条更新機構を組み合わせた統合解を提案する。
共同信条更新は受動的目標認識を著しく上回ることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 22:09:28 GMT)
TAG: A Simple Yet Effective Temporal-Aware Approach for Zero-Shot Video Temporal Grounding [12.6] Video Temporal Groundingは、与えられた自然言語クエリに基づいて、関連するビデオセグメントを抽出することを目的としている。
従来のアプローチでは、同じ意味論を共有する時間的に連続したフレームが複数のセグメントに分割されるセマンティックな断片化に悩まされていた。
本稿では、時間プーリング、時間的コヒーレンスクラスタリング、類似度調整を取り入れた、ゼロショットビデオ時間的グラウンディングのための、シンプルで効果的な時間的認識アプローチを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:38:46 GMT)
A Methodological Framework for LLM-Based Mining of Software Repositories [12.5] 大規模言語モデル(LLM)は、ソフトウェア工学の研究でますます使われている。
人気の高まりにもかかわらず、マイニングソフトウェアリポジトリ(MSR)へのLCMの方法論統合はいまだに理解されていない。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:16:03 GMT)
Tech-ASan: Two-stage check for Address Sanitizer [12.5] アドレスサニタイザー(ASan)は、メモリの安全性違反を検出するための鋭い武器である。
ASanは、大規模なソフトウェアテストの効率を制限した、大幅なランタイムオーバーヘッドを発生させる。
Tech-ASanは、安全保証でASanを加速する2段階のチェックベースの技術である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:33:24 GMT)
POEX: Towards Policy Executable Jailbreak Attacks Against the LLM-based Robots [12.4] 本稿では,LLM型ロボットに対するジェイルブレイク攻撃の実現可能性と理性について検討する。
より徹底的なセキュリティ分析を可能にするため、POEX(Policy Executable)ジェイルブレイクを導入する。
実世界のロボットシステムおよびシミュレーション実験は、POEXの有効性を実証した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:29:19 GMT)
Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation [12.2] ビデオ生成におけるアイデンティティ保護のための軽量かつプラグアンドプレイのフレームワークであるStand-Inを提案する。
我々のフレームワークは、ビデオの品質とアイデンティティの保存において優れた結果をもたらし、他のフルパラメータトレーニング方法よりも優れています。
我々のフレームワークは、主題駆動のビデオ生成、ポーズ参照ビデオ生成、スタイル化、顔交換など、他のタスクにシームレスに統合できる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:17:38 GMT)
MLego: Interactive and Scalable Topic Exploration Through Model Reuse [12.1] 本稿では,リアルタイムトピックモデリング分析を支援する対話型クエリフレームワークであるMLegoを紹介する。
MLegoは、スクラッチからモデルを再訓練する代わりに、物質化されたトピックモデルを効率的にマージして、対話的な速度で近似結果を構築する。
我々はMLegoを視覚分析のプロトタイプシステムに統合し,対話型クエリによる大規模テキストデータセットの探索を可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:06:26 GMT)
A Steel Surface Defect Detection Method Based on Lightweight Convolution Optimization [12.1] 本研究では,欠陥検出精度とモデル性能を改善するために,ディープラーニング,特にYOLOv9sに基づく検出フレームワークを提案する。
実験により, 鋼表面欠陥検出タスクにおいて, 他の手法と比較して高精度かつ堅牢性が得られることを示した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:14:14 GMT)
Empowering Children to Create AI-Enabled Augmented Reality Experiences [12.1] CapybaraはARベースのビジュアルプログラミング環境で、子供たちに物理的な世界にオーバーレイされた3Dキャラクターを作成し、カスタマイズし、プログラムすることを可能にする。
Capybaraは、子供たちにテキストから3D生成AIモデルを使って仮想文字とアクセサリを作成し、これらの文字を自動リギングとボディトラッキングを通じてアニメーションすることを可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:57:39 GMT)
Tomography-assisted noisy quantum circuit simulator using matrix product density operators [12.0] 量子プロセストモグラフィー(QPT)技術を用いて,実験装置の動作特性を解析し,数値シミュレーションに統合する。
以上の結果から,複雑な雑音環境下での量子アルゴリズムの設計と評価の強化の基礎となる,量子デバイスに対するノイズの影響に関する貴重な知見が得られた。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:29:59 GMT)
Zero-Shot Generalization of Vision-Based RL Without Data Augmentation [11.8] 視覚に基づく強化学習(RL)エージェントを新しい環境に一般化することは、依然として困難かつオープンな課題である。
本稿では、ゼロショットの一般化に向けて、標準のオフポリチックRLの上に構築されたアソシエーション・ラテント・ディスタン・アングルメント(ALDA)モデルを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 23:25:36 GMT)
Evaluating Compositional Approaches for Focus and Sentiment Analysis [11.6] 本稿では,自然言語処理(NLP)における言語学・感性分析(SA)における焦点分析(FA)の構成的アプローチの評価結果について要約する。
FAとSAは密接な関係にあるため,SAの組成規則もFAに当てはまると論じている。
非合成分析法とは対照的に, 構成解析法の利点は, 解釈可能性と説明可能性である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:52:41 GMT)
Differentiable Cyclic Causal Discovery Under Unmeasured Confounders [11.6] DCCD-CONFは、計測されていない共同創設者の存在下での非線形環状因果グラフの微分可能学習のための新しいフレームワークである。
我々は,DCCD-CONFが因果グラフの回復と共同設立者の識別において,最先端の手法よりも優れていることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:13:34 GMT)
GRASPTrack: Geometry-Reasoned Association via Segmentation and Projection for Multi-Object Tracking [11.4] GRASPTrackはモノクロ深度推定とインスタンスセグメンテーションを標準TBDパイプラインに統合する新しいMOTフレームワークである。
これらの3D点雲は、精密で堅牢なVoxel-based 3D Intersection-over-Unionを可能にするために酸化される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:56:21 GMT)
Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation [11.4] オムニエフェクト(Omni-Effects)は、即時誘導効果と空間制御可能な複合効果を生成できるフレームワークである。
LoRAベースのMixture of Experts (LoRA-MoE)は、専門家グループであるLoRAを採用し、統一モデルに多様な効果を統合する。
Space-Aware Prompt (SAP) は、空間マスク情報をテキストトークンに組み込んで、正確な空間制御を可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:41:24 GMT)
Data-Efficient Biomedical In-Context Learning: A Diversity-Enhanced Submodular Perspective [11.4] 本稿では,生物医学ICLにおける実証選択のための多様性向上型データ効率フレームワークであるDual-Divを提案する。
まず、代表性と多様性の両方を最適化することで、コーパスから限られた候補例を識別する。
第2に、これらの候補をテストクエリに対してランク付けし、最も関連性があり、非依存的なデモを選択する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:13:21 GMT)
EDiT: Efficient Diffusion Transformers with Linear Compressed Attention [11.4] Diffusion Transformers (DiTs) はテキストと画像の合成において主要なアーキテクチャとして登場し、高品質でフォトリアリスティックな画像を生成する。
本研究は,従来の DiT や Multimodal DiT の効率ボトルネックを軽減するために,効率的な拡散変圧器 (EDiT) を導入する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:15:46 GMT)
Predicting Depression in Screening Interviews from Interactive Multi-Theme Collaboration [11.4] 本稿では,対話型抑うつ検出フレームワークを提案する。
テキスト内学習技術を活用して、臨床面接におけるテーマを特定し、テーマ内およびテーマ間相関の両方をモデル化する。
臨床医の興味をシミュレートするためにAIによるフィードバックを採用し、テーマのインタラクティブな調整が重要となる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:41:20 GMT)
Dynamic Hologram Generation with Automatic Differentiation [11.3] 我々は、時間とともにスムーズに変化する光トラップアレイを生成するための、自動微分に基づく戦略を開発した。
本手法と空間光変調器を組み合わせることにより,実実験における粒子の動的操作を期待できる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:02:24 GMT)
Learning an Implicit Physics Model for Image-based Fluid Simulation [11.3] 人間は1枚の静止画から4Dシーンを想像し、動きと3D幾何学の両方を包含する能力を持っている。
本稿では,この容量をニューラルネットワークで再現することを目的としており,特に自然流体画像に焦点を当てている。
そこで本研究では,物理に一貫性のある1つの画像から4次元シーンを生成する手法を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:59:58 GMT)
Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation [11.3] ALN(Aerial Vision-and-Language Navigation)は、無人航空機(Unmanned Aerial Vehicles、UAV)が自然言語の指示や視覚的手がかりを通じて屋外の環境を航行できるようにする新しいタスクである。
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして活用する,空飛ぶVLNタスクのためのトレーニングフリーゼロショットフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:42:18 GMT)
DreamFrame: Enhancing Video Understanding via Automatically Generated QA and Style-Consistent Keyframes [11.3] 最近の視覚言語モデル(LVLM)は、主にオンラインプラットフォームから抽出された様々なスクレイピングによって微調整されている。
現在のLVLMは主に、広範囲で汎用的な設定で既存のデータセットでトレーニングされているが、特定のダウンストリームシナリオに適応することは依然として難しい。
そこで我々はDreamFrameという3段階のフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:47:49 GMT)
THAT: Token-wise High-frequency Augmentation Transformer for Hyperspectral Pansharpening [11.0] トランスフォーマーに基づく手法は、高スペクトルパンシャーピングにおいて強い可能性を証明している。
それらの効果は、冗長なトークン表現とマルチスケール機能モデリングの欠如によって制限されることが多い。
本稿では,高スペクトルパンシャーピングを向上する新しいフレームワークであるToken-wise High- frequency Augmentation Transformer (THAT)を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:03:10 GMT)
Improving Merge Pipeline Throughput in Continuous Integration via Pull Request Prioritization [11.0] 本稿では,実際のビルド予測を用いて,マージパイプラインにおけるPRの順序を最適化することを提案する。
ピーク時間中におそらく通過するPRを動的に優先順位付けすることで、最も重要となるスループットを最大化する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:25:07 GMT)
CD-TVD: Contrastive Diffusion for 3D Super-Resolution with Scarce High-Resolution Time-Varying Data [10.6] CD-TVDは、コントラスト学習と改良された拡散ベース超解像モデルを組み合わせたフレームワークである。
流体および大気シミュレーションデータセットの結果、CD-TVDが正確で資源効率のよい3D超解像を提供することを確認した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:51:28 GMT)
Regret minimization in Linear Bandits with offline data via extended D-optimal exploration [10.6] 本稿では, 線形帯域におけるオンライン後悔の問題を, 基礎となる帯域モデルから事前観測(オフラインデータ)にアクセスして考察する。
オフライン・オンライン・フェイズド・エミネーション(OOPE)というアルゴリズムは,オフラインデータを効果的に組み込んでオンラインの後悔を軽減する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:14:56 GMT)
LaRender: Training-Free Occlusion Control in Image Generation via Latent Rendering [10.5] 画像中の物体間の閉塞関係を正確に制御する学習自由な画像生成アルゴリズムを提案する。
本研究では,物体の透明度,質量密度,光強度など,様々な効果が得られることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:57:59 GMT)
Architectural Co-Design for Zero-Shot Anomaly Detection: Decoupling Representation and Dynamically Fusing Features in CLIP [10.3] Zero-Shot Anomaly Detection (ZSAD) に適用した場合、VLM(Pre-trained Vision-Language Models) は重要な適応ギャップに直面している。
これらの制限には、特徴表現とクロスモーダルな融合を共同で洗練するアーキテクチャ共同設計フレームワークを通じて対処する。
提案手法はパラメータ効率のよいConv-LoRAアダプタを統合し,局所帰納バイアスを微細な表現に注入し,動的フュージョンゲートウェイ(DFG)を導入する。
多様な産業・医療ベンチマークの実験では、精度と堅牢性が向上し、この相乗的共設計が基礎モデルを密接な知覚タスクに頑健に適応させる上で重要であることを証明している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:03:45 GMT)
SOPHY: Learning to Generate Simulation-Ready Objects with Physical Materials [10.2] SOPHYは3次元物理を意識した形状合成のための生成モデルである。
本手法は, 物理接地力学に関連する形状, テクスチャ, 材料特性を共同で合成する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:43:49 GMT)
Fairness in Dysarthric Speech Synthesis: Understanding Intrinsic Bias in Dysarthric Speech Cloning using F5-TTS [10.0] 外科的スピーチは、補助技術を開発する上で重要な課題である。
近年のニューラル音声合成、特にゼロショット音声クローニングは、データ拡張のための合成音声生成を促進する。
TORGOデータセットを用いた変形性関節症音声のクローニングにおける最先端F5-TTSの有効性について検討した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:20:23 GMT)
Enhancing Reliability of Medical Image Diagnosis through Top-rank Learning with Rejection Module [9.8] 本稿では,リジェクションモジュールを統合することでトップランク学習を強化する新しい手法を提案する。
リジェクションモジュールは追加のブランチとして機能し、標準からの逸脱を測定するリジェクション関数に基づいてインスタンスを評価する。
本手法は, 臨床画像診断の信頼性と精度を向上し, 異常値の検出・緩和に有効であることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:08:53 GMT)
A Planning Compilation to Reason about Goal Achievement at Planning Time [9.7] 達成した特定の目標の持続性を強制するコミットアクションを用いて、当初の計画タスクを拡張するコンパイルを提案する。
実験結果から,最適化タスクの解決は最適計画と最適計画の両方のオーバーヘッドを伴わないことが明らかとなった。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:33:28 GMT)
Towards Scalable Training for Handwritten Mathematical Expression Recognition [9.7] textbfHand written textbfMathematical textbfExpression textbfRecognition (HMER)はデータの不足によって妨げられている。
複雑で一貫したシーケンスを生成するスケーラブルなデータエンジンを開発した。
比較的小さなHMEデータセットを混合学習するtextttTex80M を用いた HMER モデルである textttTexTeller を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:10:34 GMT)
Robust Anomaly Detection in O-RAN: Leveraging LLMs against Data Manipulation Attacks [9.7] 5GとOpen Radio Access Network (O-RAN)アーキテクチャにより、より柔軟でインテリジェントなネットワークデプロイメントが可能になった。
O-RANプラットフォーム内の半標準化された共有データ層(SDL)に対するデータ操作攻撃は、悪意のあるxAppsによって悪用される。
特に悪意のあるxAppsは、従来の機械学習(ML)ベースの異常検出手法で使用されているデータにUnicodeの微妙な修正(ハイポグリンフ)を導入することで、この脆弱性を悪用することができる。
我々は,この課題に対処するために,O-RANアーキテクチャ内の異常検出にLarge Language Models (LLMs) を用いることを検討した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:32:43 GMT)
Steerable Pluralism: Pluralistic Alignment via Few-Shot Comparative Regression [9.6] 大規模言語モデル(LLM)は現在、人間のフィードバックから強化学習のような技術を用いて調整されている。
本稿では,個々のユーザの好みに適応可能な,少数ショット比較回帰に基づく評価可能な多元性モデルを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 22:40:31 GMT)
Physics-Informed Teleconnection-Aware Transformer for Global Subseasonal-to-Seasonal Forecasting [9.6] S2S予測は農業計画、エネルギー管理、災害対策にとって重要なフロンティアである。
現在のアプローチでは、S2Sの時間スケールにおいて重要な物理プロセスとテレコネクションを明示的にモデル化することができないことが多い。
textbfTelePiTは,マルチスケール物理とテレコネクション認識を統合してグローバルなS2S予測を強化する,新しいディープラーニングアーキテクチャである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:46:56 GMT)
Street-Level AI: Are Large Language Models Ready for Real-World Judgments? [9.6] 直近でおそらくはAIは、いわゆるストリートレベルの官僚を支援するか、完全に置き換えることである。
本稿では,LLM判定が人間の判断とどのように一致しているかを検討する。
LLMの優先順位付けは、いくつかの点で非常に矛盾している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:12:55 GMT)
Sharper Perturbed-Kullback-Leibler Exponential Tail Bounds for Beta and Dirichlet Distributions [9.4] より大きな摂動が選択できることを示し、それによって境界を締め付ける。
次に、この結果をベータ分布からディリクレ分布およびディリクレ過程(DP)へ拡張する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:53:55 GMT)
UniSVG: A Unified Dataset for Vector Graphic Understanding and Generation with Multimodal Large Language Models [9.3] MLLMのトレーニングと評価に適した525万データ項目からなるSVG中心のデータセットUniSVGを提案する。
UniSVGは、(テキストプロンプトと画像から)SVG生成とSVG理解(色、カテゴリ、使用法など)の統合のために設計された最初の包括的なデータセットである。
予想通り、提案データセットの学習により、様々なSVG U&GタスクにおけるオープンソースのMLLMのパフォーマンスが向上し、GPT-4VのようなSOTAのオープンソースMLLMを上回っている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:50:14 GMT)
Fitting Description Logic Ontologies to ABox and Query Examples [9.3] 記述ロジックは$mathcalALC$と$mathcalALCI$をオントロジー言語と様々なクエリ言語とみなす。
得られた全ての適合問題に対して、有効な特徴付けを提供し、適合オントロジーが存在するかどうかを決定するための計算複雑性を決定する。
この問題は、AQとフルCQには$ Small CONP$、CQとUCQには$2E Small XPTsmall IME$-completeであることが判明した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:11:27 GMT)
Exploring Adapter Design Tradeoffs for Low Resource Music Generation [9.2] 我々は2つのAI音楽モデル、MusicGenとMustangoのアダプタ構成について、ヒンドゥーシャニー古典音楽とトルコ・マカム音楽の2つのジャンルについて検討した。
コンボリューションベースのアダプタはきめ細かな局所的な音楽的詳細を捉えるのに優れ、トランスフォーマーベースのアダプタは長距離依存をよりよく保存する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:29:15 GMT)
Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models [9.1] 本研究では,事前学習した2次元拡散モデルから合成した3次元サンプルを利用して,オブジェクト対間の空間的関係を学習する手法を提案する。
提案手法では,多彩なOOR手がかりを捉えた多彩な画像を合成し,それを3Dサンプルにアップリフトする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:16:12 GMT)
DAViD: Modeling Dynamic Affordance of 3D Objects Using Pre-trained Video Diffusion Models [9.1] 本稿では,様々な対象対象カテゴリにまたがって動的アフォーダンスを学習するための新しいフレームワークを提案する。
4D HOIデータセットの不足に対処するために, 合成した4D HOIサンプルから3次元ダイナミックアベイランスを学習する。
生成的4次元物体相互作用モデルであるDAViDがHOI動作のベースラインを上回っていることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:45:30 GMT)
A New Lens on Homelessness: Daily Tent Monitoring with 311 Calls and Street Images [9.1] 本研究では,サンフランシスコのホームレステントのトレンドを追跡し,予測するために,クラウドソーシングによる公開データを用いた新しいアプローチを提案する。
我々の予測モデルは、日次や近隣の詳細な変動を捉え、伝統的に見落とされがちなパターンを明らかにする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:43:21 GMT)
MiqroForge: An Intelligent Workflow Platform for Quantum-Enhanced Computational Chemistry [9.0] MiqroForgeは、量子コンピューティング機能を統合するインテリジェントなクロススケールプラットフォームである。
AI駆動の動的リソーススケジューリングと直感的なビジュアルインターフェースを組み合わせることで、MiqroForgeは計算効率を最適化しながら、エントリバリアを大幅に削減する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:27:34 GMT)
Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization [9.0] Klear-Reasonerは、長い推論能力を持つモデルで、問題解決時に慎重に検討する。
本報告では、学習後のワークフロー全体を網羅した推論モデルの詳細分析を行う。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:17:51 GMT)
CoDAE: Adapting Large Language Models for Education via Chain-of-Thought Data Augmentation [8.9] 大規模言語モデル(LLM)は、スケーラビリティとパーソナライズされた命令の可能性のため、AIチューターとしてますます採用されている。
我々は、Chain-of-Thoughtデータ拡張を通じてLLMを教育用途に適用するフレームワークであるCoDAEを紹介する。
学生とChatGPTをベースとした教師との現実世界の対話を収集し,CoTを駆使して,ステップバイステップの推論と教育的に整合した指導を促進する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:13:31 GMT)
In-Situ Fine-Tuning of Wildlife Models in IoT-Enabled Camera Traps for Efficient Adaptation [8.9] リソース制約のあるIoTデバイスは、ますますディープラーニングモデルに依存している。
ディープラーニングモデルは、ドメインシフトによる大幅な精度低下を経験する。
多くのIoTデプロイメントは、限られた接続性とエネルギー制約で動作する。
自律型in-situ適応フレームワークWildFitを紹介する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:56:22 GMT)
Learning Phonetic Context-Dependent Viseme for Enhancing Speech-Driven 3D Facial Animation [8.8] 音声駆動型3D顔アニメーションは、音声と同期した現実的な顔の動きを生成することを目的としている。
従来の手法では、各フレームを接地構造に合わせることで、復元損失を最小化していた。
本稿では,音韻遷移に対する音韻文脈の影響を明示的にモデル化した新しい音韻文脈認識損失を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:06:46 GMT)
A Rule-Based Approach to Specifying Preferences over Conflicting Facts and Querying Inconsistent Knowledge Bases [8.7] 本稿では,矛盾する事実間の優先度関係を規定し,計算するためのルールベースのフレームワークを提案する。
本稿では,フレームワークの予備実装と実験的評価について述べる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:21:02 GMT)
Patient-Specific Deep Reinforcement Learning for Automatic Replanning in Head-and-Neck Cancer Proton Therapy [8.7] 頭頸部癌(HNC)に対するIMPT治療中の解剖学的変化は、ブラッグピークをシフトさせ、腫瘍のアンダードと臓器-アット・リスクオーバードーシングのリスクを負う。
本稿では,IMPT自動更新のための患者固有の深層強化学習フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:44:49 GMT)
GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games [8.6] GVGAI-LLMは,大規模言語モデル(LLM)の推論と問題解決能力を評価するためのゲームベンチマークである。
General Video Game AIフレームワーク上に構築され、既存のLLMベンチマークとは異なるタスクを処理するモデルの能力をテストするために設計された、アーケードスタイルのゲームの多種多様なコレクションを備えている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 22:17:07 GMT)
Retrieval-Augmented Multi-Agent System for Rapid Statement of Work Generation [8.6] 本稿では,作業内容書(SOW)を起草するAI駆動型自動化システムを提案する。
人間に完全に依存するのではなく、3つの知的な構成要素または「エージェント」を使用する。
あるエージェントが最初のドラフトを書き、別のエージェントが法的に正しいかどうかをチェックし、3番目のエージェントがドキュメントをフォーマットします。
完全なSOWを3分以内で作成できたが、手作業で数時間や数日を要した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:59:36 GMT)
Neural Tangent Knowledge Distillation for Optical Convolutional Networks [8.5] ハイブリッド・オプティカル・ニューラル・ネットワーク(ONN)は、リアルタイム・電力制約システムのための完全なデジタルディープ・ネットワークに代わるエネルギー効率の高い代替手段を提供する。
それらの採用は、トレーニング中の大規模ネットワークと比較して精度のギャップが小さいこと、シミュレートされたシステムと製造されたシステムの相違、という2つの主な課題によって制限されている。
本稿では,様々な光学系にまたがる画像分類とセグメンテーションを支援するタスク非依存かつハードウェア非依存のパイプラインを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:15:06 GMT)
DanceChat: Large Language Model-Guided Music-to-Dance Generation [8.5] 音楽からダンスへの生成は、音楽入力に基づく人間のダンスの動きを合成することを目的としている。
本研究では,Large Language Model (LLM) を用いた音楽間距離生成手法であるDanceChatを紹介する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:10:59 GMT)
VSF: Simple, Efficient, and Effective Negative Guidance in Few-Step Image Generation Models By \underline{V}alue \underline{S}ign \underline{F}lip [8.4] Value Sign Flip (VSF) は、数ステップの拡散とフローマッチング画像生成モデルに負のプロンプトガイダンスを組み込む、シンプルで効率的な方法である。
本手法は計算オーバーヘッドを小さくし,MMDiTスタイルのアーキテクチャを効果的に統合する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 23:56:02 GMT)
Prompt-Guided Relational Reasoning for Social Behavior Understanding with Vision Foundation Models [8.4] グループアクティビティ検出(GAD)は、ビデオ内での社会的グループとその集団行動を認識することを含む。
Vision Foundation Models(VFM)はDinoV2と同様、優れた機能を提供するが、主にオブジェクト中心のデータに基づいて事前訓練されている。
本稿では,Pmpt-driven Group Activity Detection (ProGraD)を導入し,そのギャップを1つに埋める手法を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:59:22 GMT)
Toward Machine Interpreting: Lessons from Human Interpreting Studies [8.4] 我々は,近年のモデリング技術を用いて,人間の解釈原理を多く採用する可能性が大きいと論じている。
われわれの発見がユーザビリティのギャップを埋めることにインスピレーションを与え、真の機械解釈への進歩を動機付けることを願っている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:20:33 GMT)
Designing Object Detection Models for TinyML: Foundations, Comparative Analysis, Challenges, and Emerging Solutions [8.3] オブジェクト検出(OD)は多くのコンピュータビジョンアプリケーションにとって不可欠だが、リソースに制約のあるIoTデバイスにデプロイすることは大きな課題である。
TinyMLは、超低消費電力デバイス上でODを有効にし、エッジでの効率的なリアルタイム処理を実現することで、魅力的なソリューションを提供する。
本稿では、リソース制約のあるデバイスにODモデルをデプロイするための鍵となる最適化手法を詳細に分析する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:28:59 GMT)
Proven Approximation Guarantees in Multi-Objective Optimization: SPEA2 Beats NSGA-II [8.3] 強度進化アルゴリズム2(SPEA2)は、支配に基づく多目的進化アルゴリズム(MOEA)の1つである。
簡単な定常SPEA2がパレートフロントの最適近似を時間内に計算できることを実証する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:52:17 GMT)
Phase transition of the Sinkhorn-Knopp algorithm [8.3] Sinkhorn-Knoppアルゴリズムは$O(log n - log varepsilon)$と$widetildeO(n2)$timeでほぼ2倍の行列を生成する。
すべての$gamma 1/2$に対して、密度$gammaを持つ行列が存在し、アルゴリズムは$Omegaleft(n1/2/varepsilonright)$ iterationsを必要とする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:31:58 GMT)
FNBT: Full Negation Belief Transformation for Open-World Information Fusion Based on Dempster-Shafer Theory of Evidence [8.1] 実世界のシナリオでは、トレーニングされたアルゴリズムやデータは、データサイロが一般的であるさまざまなリージョンや組織から生まれることが多い。
本研究では,Dempster-Shafer理論に基づくFNBT(Full Negation Belief Transformation)と呼ばれるオープンワールド情報融合手法を提案する。
FNBTは実世界のデータセットにおけるパターン分類タスクにおいて優れた性能を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:21:48 GMT)
Optimal and Practical Batched Linear Bandit Algorithm [8.1] 本稿では, 線形バンドイット問題(バッチ化線形バンドイット)について, 限定適応性の下で検討する。
我々は,腕の除去と正規化G-最適設計を統合した新しいバッチアルゴリズムBLAEを提案する。
BLAEは、全てのレジームにおける証明可能なミニマックス最適性と、バッチ化された線形帯域における実用上の優位性を組み合わせた最初のアルゴリズムである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:05:40 GMT)
Fully-Fluctuating Participation in Sleepy Consensus [8.1] 我々は,外敵と呼ばれる新たな敵モデルを提案する。
我々は、スリーピーモデルにおけるプロトコルが、完全に変動する参加に対して安全であり続けることを有意義に主張できることを示した。
我々の敵モデルは極めて自然であり、プロトコルで悪意ある振る舞いが発生する過程を自然に捉えている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:12:18 GMT)
Universally Unfiltered and Unseen:Input-Agnostic Multimodal Jailbreaks against Text-to-Image Model Safeguards [8.1] 我々は,T2Iの保護者に対するマルチモーダルジェイルブレイク攻撃手法であるUniversally Unfiltered and Unseen (U3)-Attackを提案する。
われわれのU3-Attackは、最先端のマルチモーダルジェイルブレイク攻撃であるMMA-Diffusionよりも4倍高い成功率を達成した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:24:05 GMT)
Pareto Multi-Objective Alignment for Language Models [7.9] 大規模言語モデル(LLM)は、複数の、しばしば矛盾する、目的の慎重なバランスを必要とする現実世界のアプリケーションに、ますます多くデプロイされている。
LLMにおける多目的アライメント(MOA)を明示的に設計するアルゴリズムを提案する。
PAMAは、マルチオブジェクトRLHFをクローズドフォームソリューションで凸最適化に変換し、スケーラビリティを大幅に向上させる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:54:14 GMT)
TRIDE: A Text-assisted Radar-Image weather-aware fusion network for Depth Estimation [7.9] TRIDE (Radar-camera fusion algorithm) は,レーダポイント情報を組み込んだテキスト特徴抽出アルゴリズムである。
提案手法はnuScenesデータセット上でベンチマークを行い,現状よりも性能が向上したことを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:39:41 GMT)
Visual Evolutionary Optimization on Graph-Structured Combinatorial Problems with MLLMs: A Case Study of Influence Maximization [7.9] 複雑なネットワークにおけるグラフ構造問題は、多くの領域でよく見られる。
伝統的な進化的アルゴリズム(EA)は、コンテンツ共有の符号化制限と構造的認識の欠如のためにしばしば障害に直面している。
マルチモーダル大言語モデル(MLLM)を利用した視覚的進化的最適化(VEO)という独自のフレームワークを導入する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:39:55 GMT)
3D Human Mesh Estimation from Single View RGBD [7.8] 単一のRGBDビューから正確な3次元メッシュ推定法を提案する。
既存のMoCap(Motion Capture)データセットを活用して、データの不足を克服しています。
BEHAVEデータセット上では競争力のある70.9 PVEが得られ、18.4mmのRGBベースの手法よりも優れていた。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:59:14 GMT)
Multi-Modal Semantic Parsing for the Interpretation of Tombstone Inscriptions [7.8] 墓石は歴史的かつ文化的に豊かな人工物であり、個人の生活、コミュニティの記憶、歴史物語、芸術的表現をカプセル化している。
今日の多くの墓石は、物理的侵食、破壊、環境劣化、政治的変化など、重要な保存上の課題に直面している。
本稿では,墓石の解釈,整理,検索の改善を目的とした,墓石のデジタル化のための新しいマルチモーダルフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:11:31 GMT)
Is neural semantic parsing good at ellipsis resolution, or isn't it? [7.8] ニューラルセマンティクスは、様々な言語現象に対して優れた総合的な性能を示し、90%以上のセマンティクスマッチングスコアに達した。
英語の動詞句 ellipsis は、すべての動詞句を1つの補助動詞で省略できる構造である。
そうでなければ、強力なセマンティクスとして知られていますが、エリプシスに対処できるのでしょうか?
我々は,120例のエリプシスのコーパスをその意味表現で構築し,ニューラルセマンティクスの大きな電池の挑戦セットとして利用した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:52:28 GMT)
Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.8] 本稿では,2段階のプロセスとして注目する新しい設計原則を提案する。
第一段階では、標準指数関数をより数値的に安定なソフトプラス活性化に置き換える。
第2段階では、注意分布を鋭くする再重み付け機構を導入する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:00:03 GMT)
Learned Regularization for Microwave Tomography [7.8] 単段拡散正規化(Single-Step Diffusion Regularization、SSD-Reg)は、拡散先行を反復的再構成プロセスに埋め込む新しいアプローチである。
SSD-Regは、制御物理学と構造の詳細の両方に忠実さを維持している。
機能的画像再構成に固有の不備に対処するための、柔軟で効果的なソリューションを提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:54:58 GMT)
Disentangling Multiplex Spatial-Temporal Transition Graph Representation Learning for Socially Enhanced POI Recommendation [7.8] Next Point-of-Interest(POI)推奨はビジネスインテリジェンスにおけるホットスポットであり、ユーザの時空間遷移と社会的関係が重要な役割を果たす。
多重時間空間遷移グラフ上の不整合表現学習に基づく社会的に拡張されたPOIレコメンデーションモデルであるDiMuSTを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:00:20 GMT)
FantasyStyle: Controllable Stylized Distillation for 3D Gaussian Splatting [7.8] 3DGSベースのスタイル転送フレームワークである textbfFantasyStyle を導入する。
我々は,多視点雑音遅延に3Dフィルタを適用し,低周波成分を選択的に低減し,先行競合を緩和することで,クロスビューの整合性を向上させる。
提案手法は最先端の手法を一貫して上回り,様々な場面やスタイルで高いスタイリゼーション品質と視覚的リアリズムを実現する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:11:08 GMT)
A Physics-informed Deep Operator for Real-Time Freeway Traffic State Estimation [7.7] 交通状態推定(TSE)は、モデル駆動、データ駆動、モデル駆動の3つのカテゴリに分類される。
本稿では,物理インフォームド・ディープ・オペレーターネットワーク(PI-DeepONet)におけるリアルタイム高速道路TSEの研究を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:07:01 GMT)
Steering the CensorShip: Uncovering Representation Vectors for LLM "Thought" Control [7.7] 我々は、表現工学技術を用いて、オープンウェイトな安全チューニングモデルの研究を行っている。
本稿では,モデル出力における検閲のレベルを検出し,制御する拒絶対応ベクトルの探索手法を提案する。
同様の手法を用いて、モデルの推論過程を抑えるベクターを見つけ出し、このベクターの負の倍数を適用することで検閲を除去できることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:20:44 GMT)
Grouped Speculative Decoding for Autoregressive Image Generation [7.7] Grouped Speculative Decodingは、AR画像モデルのためのトレーニング不要のアクセラレーション手法である。
我々の詳細な分析では、言語と画像トークンの根本的な違いが明らかになっている。
我々は,単一のターゲットトークンに頼るのではなく,視覚的に有効なトークンのクラスタを評価する新しいSD戦略を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:27:57 GMT)
Disclosure Avoidance for the 2020 Census Demographic and Housing Characteristics File [7.7] 我々は,2020年国勢調査統計データ製品リリースを支援するために,情報開示回避システムによって公式にプライベートなアウトプットを生成するために使用される概念と手法について述べる。
デモグラフィック・ハウジング特性(DHC)ファイルのリリースに必要なDASの更新について述べる。
また、2020年のDHC DAS実装における最終構成パラメータ、これらの生産統計データ製品におけるエラーメトリクス、将来の実験データ製品に関する計画についても述べる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:19:04 GMT)
AIS-LLM: A Unified Framework for Maritime Trajectory Prediction, Anomaly Detection, and Collision Risk Assessment with Explainable Forecasting [7.6] 時系列AISデータと大言語モデル(LLM)を統合する新しいフレームワークであるAIS-LLMを提案する。
このアーキテクチャは、軌道予測、異常検出、単一エンドツーエンドシステム内の容器衝突のリスク評価という、3つの重要なタスクを同時に実行可能にする。
AIS-LLMは,タスクアウトプットを総合的に分析して状況要約やブリーフィングを生成することにより,よりインテリジェントで効率的な海上交通管理の可能性を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:39:45 GMT)
Quadratic Gaussian Splatting: High Quality Surface Reconstruction with Second-order Geometric Primitives [7.5] Quadratic Gaussian Splatting (QGS) は、静的プリミティブを変形可能な二次曲面に置き換える新しい表現である。
QGSは2DGSで33%、DTUデータセットでGOFで27%の幾何学的誤差(チャンファー距離)を減少させる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:59:10 GMT)
Physics-Informed Generative Modeling of Wireless Channels [7.4] 機械学習(ML)の潜在能力を最大限活用するためには、特定の環境における無線チャネルのサイト固有の分布を学習することが不可欠である。
我々は,無線チャネルの物理圧縮性と生成モデルを組み合わせることで,基礎となる物理チャネルパラメータの分布を学習する。
本手法は,リトレーニングを必要とせずに,システム構成を物理的に解釈し,一般化する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:32:27 GMT)
Separation and Collaboration: Two-Level Routing Grouped Mixture-of-Experts for Multi-Domain Continual Learning [7.4] 破滅的忘れを緩和する2レベル混合実験法(TRGE)を提案する。
TRGEはトレーニング済みのCLIPモデルを動的に拡張し、各タスクに特定の専門家グループを割り当てる。
我々は,タスク記述を生成し,正しいタスク識別子を認識するために,強力なマルチモーダル理解機能を持つマルチモーダル大規模言語モデル(MLLM)を利用する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:18:22 GMT)
Fed-TGAN: Federated Learning Framework for Synthesizing Tabular Data [7.4] 我々は,タブラルガンのための最初のフェデレート学習フレームワークであるFed-TGANを提案する。
非同一人物の複雑なGANを効果的に学習するために、Fed-TGANは2つの新しい特徴を設計する。
我々は、分散学習アーキテクチャの変種に対して提案したFed-TGANを広範囲に評価する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:03:06 GMT)
Collaborative Learning of Scattering and Deep Features for SAR Target Recognition with Noisy Labels [7.3] 雑音ラベル付きSAR自動目標認識のための散乱・深度特徴の協調学習を提案する。
具体的には、散乱と深い特徴を統合するために、マルチモデル機能融合フレームワークが設計されている。
提案手法は,ラベルノイズの異なる動作条件下での最先端性能を実現することができる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:10:23 GMT)
Adaptive Learning for IRS-Assisted Wireless Networks: Securing Opportunistic Communications Against Byzantine Eavesdroppers [7.3] ビザンチン耐性スペクトルセンシングとセキュアインテリジェント反射面(IRS)のための共同学習フレームワークを提案する。
本研究では,局所曲率の緩やかな速度で,予測更新と証明可能なサブ線形収束を提供する拡張ラグランジアン交互化アルゴリズムを開発した。
多様なネットワーク条件のシミュレーションでは、敵攻撃時の固定偽アラームレートの検出確率が高く、正直なユーザに対する総和MSEの大幅な削減、盗聴信号の強い抑制、高速収束が示される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:28:25 GMT)
A Game-Theoretic Foundation for Bitcoin's Price: A Security-Utility Equilibrium [7.2] 本稿では,Bitcoinのような分散型デジタル資産の価値を評価するための構造ゲーム理論モデルを提案する。
それは、Rational-Expectations Security-Utility Nash Equilibrium (RESUNE)における資産の価格を規定している。
我々は、RESUNEの存在を証明し、その特異性と安定性の条件を提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:48:49 GMT)
Efficient Learning on Large Graphs using a Densifying Regularity Lemma [7.2] 交差する二部体成分の組み合わせに基づいて、大きな有向グラフの低ランク分解を導入する。
グラフ,スパース,あるいは密度を高密度IBGで効率的に近似する方法を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:48:49 GMT)
LAG: Logic-Augmented Generation from a Cartesian Perspective [7.2] 本稿では,体系的な問題分解と依存性を考慮した推論を通じて知識強化を再構築する新しいパラダイムである論理拡張生成(LAG)を紹介する。
4つのベンチマークデータセットの実験では、LAGは推論の堅牢性を大幅に向上し、幻覚を減少させ、LLM問題の解決を人間の認知と整合させることが示されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:17:06 GMT)
NeuroDx-LM: A Clinical Large-Scale Model for EEG-based Neurological Disorder Detection [7.2] 脳電図(EEG)で事前訓練された大規模モデルは、神経疾患検出などの臨床応用において有望である。
NeuroDx-LMは、脳波に基づく神経疾患を検出するために特別に設計された新しい大規模モデルである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:02:25 GMT)
FairDRL-ST: Disentangled Representation Learning for Fair Spatio-Temporal Mobility Prediction [7.1] ディープ・テンポラル・ニューラルネットワークは、都市コンピューティングの文脈でますます活用されている。
本稿では,不整合表現学習に基づく新たなフレームワークであるFairDRL-STを提案する。
敵対的学習と非絡み合った表現学習を活用することで、フレームワークは機密情報を含む属性を分離することを学ぶ。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:36:19 GMT)
MemoryKT: An Integrative Memory-and-Forgetting Method for Knowledge Tracing [7.1] 学生の記憶状態をシミュレーションすることは、知識追跡モデルの性能と解釈可能性の両方を高めるための有望なアプローチである。
メモリは、エンコーディング、ストレージ、検索の3つの基本的なプロセスから構成される。
本稿では,新しい時間変動オートエンコーダに基づく知識追跡モデルであるMemoryKTを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:59:59 GMT)
Observation of Metal-Insulator and Spectral Phase Transitions in Aubry-André-Harper Models [7.1] ユニタリ・ニアマチュー作用素(UAMO)の最初の実験的実現について述べる。
複素準エネルギーの出現を特徴とするパリティ時対称性破壊遷移を実験的に検討した。
これらの結果は、非エルミート準結晶の局在化、対称性の破れ、トポロジーの間の相互作用を明らかにする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:59:59 GMT)
FDC-Net: Rethinking the association between EEG artifact removal and multi-dimensional affective computing [6.9] エンド・ツー・エンドのノイズ・ロバスト感情認識のための新しいフレームワークを提案する。
FDC-Netは、人工物除去と感情認識の動的協調メカニズムを確立する。
FDC-Netは、DREAMERで82.3+7.1%、DREAMERで88.1+0.8%の感情認識精度を達成する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:26:06 GMT)
MambaTrans: Multimodal Fusion Image Translation via Large Language Model Priors for Downstream Visual Tasks [6.6] MambaTransは、新しい多モード融合画像モダリティトランスレータである。
トレーニング中の検出損失を最小限に抑え、テキスト、マスク、イメージ間の長期的な依存関係をキャプチャする。
公開データセットの実験では、MambaTransは下流タスクにおけるマルチモーダル画像のパフォーマンスを効果的に改善している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:39:16 GMT)
Learning to Select MCP Algorithms: From Traditional ML to Dual-Channel GAT-MLP [6.6] 単一の最大傾きアルゴリズムは、全てのインスタンスで常に最善を尽くす。
従来の機械学習とグラフニューラルネットワークを統合した学習ベースのフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:09:58 GMT)
End-to-End Text-to-SQL with Dataset Selection: Leveraging LLMs for Adaptive Query Generation [6.5] 従来のアプローチでは、直接変換タスクとしてテキストからクエリをモデル化する。
大規模言語モデル(LLM)の最近の進歩は翻訳精度を大幅に改善した。
本稿では,ユーザの意図するデータベースを識別する3段階のエンドツーエンドテキスト・ツー・エンド・フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:36:43 GMT)
Iterative refinement, not training objective, makes HuBERT behave differently from wav2vec 2.0 [6.5] 隠れ表現と単語の同一性, 音素の同一性, 話者の同一性に対する標準的相関の相違は, 学習目的ではなく, 訓練によって説明できることが判明した。
本稿では,自己教師型音声表現における言語情報の符号化における反復的改良の有効性について検討することを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:48:56 GMT)
Exploring the Technical Knowledge Interaction of Global Digital Humanities: Three-decade Evidence from Bibliometric-based perspectives [6.5] 本研究では,トピック・メソッド・コンポジション(TMC)の新たな概念を紹介する。
TMCは、特定の研究トピックとそれに対応する手法の共起によって生成される、ハイブリッドな知識構造を指す。
本研究では, 文献分析, トピックモデリング, ネットワーク解析を組み合わせたワークフローを構築し, 研究分野の発達特性とパターンを解析する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:27:39 GMT)
MCPToolBench++: A Large Scale AI Agent Model Context Protocol MCP Tool Use Benchmark [6.5] Model Context Protocol(MCP)は、AI Agentにコンテキストを供給する標準化された方法を提供する。
LLMとAI AgentsのMPPツール使用能力の評価にはいくつかの問題がある。
大規模マルチドメインAIエージェントツールのベンチマークであるMPPToolBench++を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:16:02 GMT)
Adaptive Spiking with Plasticity for Energy Aware Neuromorphic Systems [6.4] ASPENはニューロモルフィックシステムのエネルギーを意識した技術で、インテリジェントで常時オン、超低消費電力、低バーデンのウェアラブルの未来を解き放つことができる。
本研究の目的は,ウェアラブルにおけるニューロモルフィックコンピューティングの実現可能性を探究し,オープンな研究方向を同定し,エネルギーを意識した計算に適応的なスパイキング技術を開発する可能性を示すことである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:25:17 GMT)
Model-Agnostic Policy Explanations with Large Language Models [6.4] 本研究では,観察された状態や行動のみに基づいて,エージェント行動の自然言語説明を生成する手法を提案する。
本手法は, エージェントの行動の局所的解釈可能な代理モデルについて, 観察から学習する。
分析結果から,ユーザ調査の参加者はエージェントの今後の行動をより正確に予測できることがわかった。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:48:52 GMT)
Adaptive Cache Enhancement for Test-Time Adaptation of Vision-Language Models [6.4] 視覚言語モデル (VLM) は、ゼロショット一般化が際立つが、分布シフトによる性能劣化に悩まされる。
TTA(Test-Time Adaptation)は、推論中のVLMのオンライン最適化を可能にし、アノテーション付きデータの必要性をなくすことによって、この問題に対処する。
本稿では,高信頼あるいは低エントロピー画像のクラスごとの埋め込みを選択的に記憶することで,堅牢なキャッシュを構築する適応キャッシュ拡張(ACE)フレームワークを紹介する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:03:34 GMT)
Decoupled Functional Evaluation of Autonomous Driving Models via Feature Map Quality Scoring [6.3] 本研究は,特徴マップ-構造表現類似性に基づく評価フレームワークを構築し,特徴マップ収束スコア(FMCS)に基づく独立評価手法を提案する。
CLIPベースの特徴マップ品質評価ネットワーク(CLIP-FMQE-Net)がさらに開発され、機能モジュールが生成する特徴マップのリアルタイム品質解析を可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:24:08 GMT)
Symmetry-Aware Transformer Training for Automated Planning [6.2] 変圧器は多くの設定で優れていますが、自動計画分野の応用は限られています。
最先端のデコーダ専用トランスであるPlanGPTは、簡単な計画問題から難しい計画問題への外挿に苦労している。
本研究では, トランスフォーマーの対称性を意識し, 帰納バイアスの欠如を補うために, 新たなコントラスト学習目標を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:23:34 GMT)
CAOTE: KV Cache Eviction for LLMs via Attention Output Error-Based Token Selection [6.1] Token Evictionは、キャッシュからあまり重要でないトークンを排除してボトルネックを軽減するために設計された、広く採用されているポストトレーニング手法である。
本稿では,キャッシュされたトークンのアテンション出力への寄与に基づく簡単な消去基準を提案する。
本稿では,CAOTEと最先端の注目スコアベースの手法を組み合わせることで,下流タスクの精度が常に向上することを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:16:52 GMT)
TextInPlace: Indoor Visual Place Recognition in Repetitive Structures with Scene Text Spotting and Verification [6.1] TextInPlaceは、Scene Text Spotting(STS)を統合して、反復的な屋内環境における視覚的知覚のあいまいさを軽減するフレームワークである。
現在のテキストベースの反復屋内シーンデータセットとロボットナビゲーションで遭遇する典型的なシナリオとのギャップを埋めるため、室内VPRベンチマークデータセットを構築した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:25:17 GMT)
Minimal Sensing for Orienting a Solar Panel [6.1] ソーラーパネルは、その上に落下する全照明(照射)を最大化する方向を指し示すときに最もエネルギーを回収する。
本研究は,4個の光検出器の測定値を用いて,パネルの傾きを最大化するための最小限のセンシング手法を開発する。
検出器とパネルの間の傾きがより大きく、最適化され、照射関数がぼやけていることが示される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:09:21 GMT)
Riemannian quantum circuit optimization based on matrix product operators [6.0] 量子系のハミルトニアンシミュレーションのための初期トロッター回路のシミュレーション精度を著しく向上する。
本手法は, 量子系に対して, 翻訳不変性などの対称性の仮定を課さない。
分子系,特に水素化リチウムに応用し,最大8桁の誤差改善を実現することで,本手法の汎用性を実証した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:05:14 GMT)
RSVLM-QA: A Benchmark Dataset for Remote Sensing Vision Language Model-based Question Answering [5.8] 本稿では,RSドメイン用の大規模コンテンツリッチVQAデータセットであるRSVLM-QAデータセットを紹介する。
RSVLM-QAは13,820枚の画像と162,373枚のVQAペアで構成され、豊富なアノテーションと多様な質問タイプを備えている。
データセットの詳細な統計分析と既存のRS VQAベンチマークとの比較を行う。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:32:48 GMT)
Generating Query-Relevant Document Summaries via Reinforcement Learning [5.7] ReLSumは、検索関連性に最適化された製品記述のクエリ関連要約を生成するために設計された強化学習フレームワークである。
このフレームワークは、トレーニング可能な大言語モデル(LLM)を使用して要約を生成し、その後、クロスエンコーダランキングモデルの入力として使用される。
実験の結果、オンラインユーザエンゲージメント指標と同様に、リコールやNDCGを含むオフラインメトリクスの大幅な改善が示されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:52:28 GMT)
X2Edit: Revisiting Arbitrary-Instruction Image Editing through Self-Constructed Data and Task-Aware Representation Learning [5.6] X2Editデータセットは、14の多様な編集タスクをカバーする包括的なデータセットである。
バランスの取れたカテゴリで370万の高品質なデータを構築します。
実験により、多くの優れたモデルの間で、モデルの編集性能が競争力があることが示されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:22:49 GMT)
Goldilocks Test Sets for Face Verification [5.5] 本稿では,既存の顔認識アルゴリズムの弱点を明らかにするために,3つの挑戦的なテストセットを提案する。
類似した人物のFRモデルに挑戦するため、専用ツインデータセットの画像を含むツインズ-INDを提案する。
提案したテストセットは、既存のテストセットよりも十分な難易度または高い難易度を有する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:55:07 GMT)
BadPromptFL: A Novel Backdoor Threat to Prompt-based Federated Learning in Multimodal Models [5.5] textbfBadPromptFLは,プロンプトベースのフェデレーション学習をターゲットにした最初のバックドア攻撃である。
BadPromptFLでは、妥協されたクライアントが、ローカルなバックドアトリガーを共同で最適化し、埋め込みを促し、中毒したプロンプトをグローバルアグリゲーションプロセスに注入する。
本実験は, 攻撃の有効性, ステルス性, 一般化性を検証し, 即時学習の堅牢性に対する批判的懸念を提起するものである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:42:44 GMT)
SHeRL-FL: When Representation Learning Meets Split Learning in Hierarchical Federated Learning [5.4] Federated Learning(FL)は、大規模ネットワークにおけるスケーラビリティとレイテンシの問題に対処するための、有望なアプローチである。
これまでの作業では、分割学習(SL)と階層FL(HierFL)を組み合わせてデバイス側の計算を削減しているが、これは階層間の調整によるトレーニングの複雑さをもたらす。
SLと階層モデルアグリゲーションを統合し,中間層での表現学習を取り入れたSHeRL-FLを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:13:56 GMT)
Diffusing the Blind Spot: Uterine MRI Synthesis with Diffusion Models [5.4] 子宮MRI合成のための新しい拡散型フレームワークを提案する。
本手法は, 解剖学的に整合した高忠実な合成画像を生成し, 実際のスキャンを忠実に再現する。
ブラインドド・エキスパートによる評価は,我々の合成画像の臨床的現実性を評価する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:18:23 GMT)
AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning [5.4] 視覚ロボットマニピュレーション(VRM)は、ロボットの状態と視覚的観察に基づいて、ロボットが自然言語の指示に従うことを可能にすることを目的としている。
既存のアプローチでは、大規模データを用いた視覚言語事前学習が採用されている。
我々は,大規模人間のアクションビデオデータセットから明示的な方法で学習することを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:09:58 GMT)
Semi-supervised Multiscale Matching for SAR-Optical Image [5.3] SAR-光画像マッチングのための半教師付きマルチスケールマッチング(S2M2-SAR)を提案する。
具体的には、未ラベルのSAR-光画像対に擬似接地構造類似性熱マップを擬似ラベル付けする。
また,モダリティ間の相互独立損失をトレーニングしたクロスモーダル機能拡張モジュールも導入した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:55:39 GMT)
A Trustworthy Method for Multimodal Emotion Recognition [5.2] 信頼感情認識(TER)と呼ばれる新しい感情認識手法を提案する。
TERは、信頼度値に基づいて複数のモダリティの結果を組み合わせて、信頼された予測を出力する。
TERは、ミュージックビデオで最先端のパフォーマンスを達成し、82.40%のAccを達成した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:08:31 GMT)
Stochastic dynamics learning with state-space systems [5.2] この研究は、フェージングメモリとエコー状態特性(ESP)の統一処理を提供することにより、貯水池コンピューティング(RC)の理論基盤を前進させる。
時系列学習における中心的なモデルクラスである状態空間システムについて検討し,ESPがなくても,記憶の低下と解安定性が全般的に維持されることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:49:01 GMT)
Large Language Models for Subjective Language Understanding: A Survey [5.1] 主観的言語理解(英: subjective language understanding)とは、客観的事実ではなく、個人的感情、意見、あるいは具体的意味を伝達するコンテンツを解釈または生成することを目的とする、自然言語処理タスクの幅広いセットを指す。
ChatGPTやLLaMAといった大規模言語モデル(LLM)の出現により、これらの固有のニュアンスなタスクにどのようにアプローチするかというパラダイムシフトが生まれました。
本研究では,感情分析,感情認識,皮肉検出,ユーモア理解,姿勢検出,比喩解釈,意図検出,美学評価などの主観的言語課題にLLMを適用した最近の進歩を概観する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:10:44 GMT)
CognitiveArm: Enabling Real-Time EEG-Controlled Prosthetic Arm Using Embodied Machine Learning [5.1] CognitiveArmは、組み込みAIハードウェア上に実装された脳波駆動の脳制御義肢システムである。
組み込みハードウェアで完全に動作するため、低レイテンシとリアルタイムの応答性が保証される。
OpenBCI UltraCortex Mark IV EEGヘッドセットとインターフェースされた本格的なプロトタイプは、3つのコアアクションの分類において最大90%の精度を達成した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:04:59 GMT)
Mixture-of-RAG: Integrating Text and Tables with Large Language Models [5.0] 不均一文書RAGは、テキストデータと階層データ間の共同検索と推論を必要とする。
階層構造と異種関係を保存する新しい3段階フレームワークであるMixRAGを提案する。
実験の結果、MixRAGは強いテキストのみ、テーブルのみ、ナイーブミキサーベースラインよりもトップ1検索を46%向上させることがわかった。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:03:50 GMT)
Benchmarking Federated Learning for Throughput Prediction in 5G Live Streaming Applications [5.0] 本稿では,現実的な5Gエッジシナリオにおけるスループット予測のためのフェデレーション学習戦略の総合的なベンチマークを行う。
FedBNは、非IID条件下で一貫してロバストな性能を提供する。
LSTMとTransformerモデルは、CNNベースのベースラインを最大80%のR2スコアで上回る。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:27:40 GMT)
Grid2Guide: A* Enabled Small Language Model for Indoor Navigation [5.0] 本研究では,A*探索アルゴリズムとSmall Language Model(SLM)を組み合わせるハイブリッドナビゲーションフレームワークを提案する。
提案手法を,リアルタイム屋内ナビゲーション支援のための軽量かつインフラストラクチャフリーなソリューションとして検証した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:39:27 GMT)
On Understanding of the Dynamics of Model Capacity in Continual Learning [4.9] 本稿では,安定性・塑性バランス点の動的挙動を特徴付けるCLの有効モデル容量について紹介する。
NNアーキテクチャや最適化手法によらず,新しいタスクを表現できるNNの能力は,従来のタスク分布と異なる場合に低下することを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:52:56 GMT)
Auditory Intelligence: Understanding the World Through Sound [4.7] 本稿では,知覚,推論,相互作用を包含する階層的位置決めプロセスとして,聴覚知能の概念的再フレーミングを提案する。
時間周波数パターンキャプション,階層的イベント/シーン記述,因果的説明,目標駆動解釈の4つの認知的インスピレーションを受けたタスクパラダイム(ASPIRE, SODA, AUX, AUGMENT)を紹介する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:25:58 GMT)
Learning Optimal and Fair Policies for Online Allocation of Scarce Societal Resources from Data Collected in Deployment [4.7] 当社は、予算制約を満たしつつ、期待される成果を最大化するオンラインポリシーを設計するために、デプロイメントで収集された管理データを使用します。
当社の政策は,ホームレスからの退去率を5.16%向上させ,人種ごとの配分や結果に公平な政策は,フェアネスの非常に低い価格で得られることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 23:36:48 GMT)
9th Workshop on Sign Language Translation and Avatar Technologies (SLTAT 2025) [4.6] 手話翻訳とアバター技術(SLTAT)のワークショップは、非侵襲的な手段による聴覚/人的コミュニケーションの改善における最近の進歩を共有するために、一連の集まりを継続している。
2011年に初登場したこの2025版は、International Conference on Intelligent Virtual Agents (IVA)によって開催されている。
本論文で述べられているように、SLTATはアバター技術を超えて、手話認識に一貫した数で貢献している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:50:21 GMT)
SOFA: Deep Learning Framework for Simulating and Optimizing Atrial Fibrillation Ablation [4.6] 心房細動(英: atrial fibrillation、AF)は、心臓不整脈の1つで、カテーテルアブレーション法で治療されることが多い。
手続き的パラメータの効果のシミュレーションは、AF再発リスクを予測するのに役立つ。
SoFAは、手続き効果、反復予測、パラメータ最適化のシミュレーションを統合する最初のフレームワークである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:01:54 GMT)
Adaptive Pseudo Label Selection for Individual Unlabeled Data by Positive and Unlabeled Learning [4.6] 本稿では,正・未ラベルのデータのみを二項分類問題に用いた正・非ラベル学習について紹介する。
PU学習により、様々な背景領域の擬似ラベルを簡単に選択できる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:11:49 GMT)
Vision-Based Localization and LLM-based Navigation for Indoor Environments [4.6] 本研究では,大規模言語モデル(LLM)に基づくナビゲーションと視覚的ローカライゼーションを統合した屋内ローカライゼーションとナビゲーション手法を提案する。
このモデルは、制限された視聴条件下であっても、テストされた全てのウェイポイントに対して高い信頼性と96%の精度を実現した。
本研究は、オフザシェルフカメラと一般公開フロアプランを用いた、スケーラブルでインフラストラクチャフリーな屋内ナビゲーションの可能性を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:59:09 GMT)
CLGRPO: Reasoning Ability Enhancement for Small VLMs [4.6] SVLM(Small Vision Language Models)は、一般にパラメータサイズが2B未満のモデルを指す。
本稿では,SVLMの推論能力を高めるために,インクリメンタルトレーニング戦略(Incrmental Training Strategy)と呼ばれるポストトレーニング後の最適化パラダイムを提案する。
実験により,本手法は1B SVLMの推論能力を大幅に向上することが示された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:18:57 GMT)
Cross-Subject and Cross-Montage EEG Transfer Learning via Individual Tangent Space Alignment and Spatial-Riemannian Feature Fusion [4.5] 音楽に基づく介入は、外部の時間維持手段を提供し、情動状態を調節し、歩行パターンを安定化するために、聴覚刺激を動的に調整することで運動回復を支援する。
一般的なBrain-Computer Interfaces (BCI) は、個人間でこれらの介入を適用することを約束している。
我々は,対象物間の一般化を促進するために,対象物毎の更新,分布マッチング,監督された回転アライメントを取り入れた新しい事前アライメント戦略であるPersonal Tangent Space Alignment (ITSA)を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:37:17 GMT)
How is science discussed on Bluesky? [4.5] 本研究は,ブルースキーにおける学術論文の普及について,初めて大規模な分析を行ったものである。
我々は2023年1月から2025年7月までの532,302の学術論文を参考に、260万件以上のブルースキーの投稿を収集し分析した。
2024年11月から2025年1月にかけて、ブルースキーにおける学術活動の急激な増加が観測された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:20:17 GMT)
Gaussian Approximation for Two-Timescale Linear Stochastic Approximation [4.4] We establish algorithm driven by martingale difference or Markov noise。
確率間の凸距離の観点から正規近似のバウンダリを導出する。
また,線形TTSAアルゴリズムの誤差に対する高次モーメント境界も提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:41:14 GMT)
Extracting Complex Topology from Multivariate Functional Approximation: Contours, Jacobi Sets, and Ridge-Valley Graphs [4.4] 暗黙的な連続モデルは、科学データの保存、転送、分析に関する新しい視点を提供する。
連続的な暗黙的モデルから複雑なトポロジ的特徴を直接抽出する最初のフレームワークを紹介する。
我々の研究は、関数値と高階微分のクエリをサポートする任意の連続的暗黙モデルに容易に一般化できる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:41:24 GMT)
$\bf A^2$-robust superradiant phase transition in hybrid qubit-cavity optomechanics [4.4] 本稿では,$mathbfA2$項の有無にかかわらずSPTを実現するハイブリッド量子システムを提案する。
補助空洞は臨界結合強度を指数関数的に減少させ、実験的な要求を著しく緩和する。
我々の研究は、光力学と空洞量子力学のハイブリッド化がSPT物理へのアクセスに有望な経路を提供することを示した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:28:23 GMT)
Capabilities of GPT-5 on Multimodal Medical Reasoning [4.4] 本研究は,GPT-5を医学的意思決定支援の汎用的マルチモーダル推論器として位置づける。
GPT-5, GPT-5-mini, GPT-5-nano, GPT-4o-2024-11-20を, MedQA, MedXpertQA (text and multimodal), MMLU医療サブセット, USMLE自己評価試験, VQA-RADの標準分割と比較した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:43:45 GMT)
Optimizing Federated Learning for Scalable Power-demand Forecasting in Microgrids [4.4] IoT(Internet of Things)による都市やマイクログリッドの電力消費のリアルタイムモニタリングは、将来の需要予測とグリッド操作の最適化に役立つ。
すべてのコンシューマレベルの使用データをクラウドに移行して,詳細な時間スケールでの予測と分析を行なうことで,アクティビティパターンの公開が可能になる。
我々は,時系列需要予測のために,エッジとクラウドをまたいだフェデレートラーニング(FL)トレーニングのいくつかの最適化を開発し,評価する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:27:26 GMT)
Runtime Monitoring and Enforcement of Conditional Fairness in Generative AIs [4.3] 生成型AI(GenAI)モデルの展開は,本稿で論じる公平性に関する重要な懸念を提起する。
まず、生成した出力の公平さを、プロンプトとモデルとは独立に評価し、第二は中立なプロンプトで固有のフェアネスを評価する。
我々は,現在最先端のGenAIシステムで検証されている,最小限の介入で条件フェアネスを強制するエージェントベースのフレームワークを開発した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:29:56 GMT)
Barron Space Representations for Elliptic PDEs with Homogeneous Boundary Conditions [4.3] 単位ハイパーキューブ上の均質境界条件を持つ高次元2階楕円型PDEの近似複雑性について検討した。
係数が適切に定義されたバロン空間に属するという仮定の下で、この解が2層ニューラルネットワークによって効率的に近似できることを証明する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:36:40 GMT)
Cutting Slack: Quantum Optimization with Slack-Free Methods for Combinatorial Benchmarks [4.3] 制約処理は、量子最適化における重要なボトルネックである。
量子シミュレータやハードウェア上での制約問題を解くために,ラグランジアンに基づく一連の最適化手法について検討する。
この結果は,QUBOのペナライゼーションに代わるスケーラブルな代替手段として,ラグランジアン定式化の柔軟性を強調した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:20:55 GMT)
Evaluating lightweight unsupervised online IDS for masquerade attacks in CAN [4.3] CAN(Vehicular Control Area Network)は、悪意のある敵によるマスクレード攻撃の影響を受けやすい。
CANにおけるマスクレード攻撃に対する4つの異なる非深層学習(DL)に基づく非教師なしオンライン侵入検知システム(IDS)の比較評価を行った。
評価されたIDSは,全ての攻撃タイプを検出するには有効ではないが,時系列クラスタの階層構造の変化を検出する手法が最適であることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:56:48 GMT)
Maximizing GPU Efficiency via Optimal Adapter Caching: An Analytical Approach for Multi-Tenant LLM Serving [4.2] シリアビングアダプタは、いくつかの大きなオーバーヘッドを導入し、パフォーマンスの低下と最適な配置の課題につながります。
単一ノードセットアップにおけるアダプタの最適割り当てを正確に決定する,AI駆動パイプラインを提案する。
これらの洞察は、配置、ロードバランシング、サーバ設定全体に対して、マルチレプリカデプロイメントに活用することができる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:47:35 GMT)
Wasserstein Barycenter Soft Actor-Critic [4.1] 本稿では、時間差学習のための悲観的アクターと探索を促進する楽観的アクターの恩恵を受けるWBSACアルゴリズムを提案する。
We show that WBSAC is more sample- efficient on MuJoCo continuous control task。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:18:59 GMT)
Domain Generalization of Pathological Image Segmentation by Patch-Level and WSI-Level Contrastive Learning [4.1] 患者の特徴や組織厚などのスライド画像全体(WSI)の変化に着目し,病理画像の領域シフトに着目した。
従来のアプローチはマルチホスピタルデータに依存していたが、データ収集の課題はしばしばこれを非現実的なものにしている。
提案手法は,これらのギャップを効果的に最小化するために,WSIレベルとパッチレベルのコントラスト学習という2段階のコントラスト学習手法を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:38:31 GMT)
TBAC-UniImage: Unified Understanding and Generation by Ladder-Side Diffusion Tuning [4.1] 本稿では,マルチモーダル理解と生成のための新しい統一モデルであるTBAC-UniImageを紹介する。
我々は、生成はしごとして機能する事前学習拡散モデルとマルチモーダル大言語モデル(MLLM)を深く統合することにより、これを実現できる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:37:22 GMT)
Solving Zero-Shot 3D Visual Grounding as Constraint Satisfaction Problems [4.0] 3Dビジュアルグラウンドは、自然言語で記述された3Dシーン内のオブジェクトを見つけることを目的としている。
本稿では,制約満足度問題として3DVGタスクを再構成するゼロショット手法を提案する。
その結果,CSVGの有効性と現状のゼロショット3DVG法よりも優れた接地精度が得られた。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:50:10 GMT)
Meta Off-Policy Estimation [4.0] Off-policy Estimation (OPE) は、レコメンダシステムの非バイアスのオフライン評価を可能にする手法である。
我々は、OPE推定器のセットとその関連する信頼区間を1つのより正確な推定に組み合わせるために、別の視点を取る。
本手法を実世界のシミュレーションデータと実世界のデータの両方で検証し,既存の個人推定値に対する統計的効率の向上を実証した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:31:13 GMT)
Neural Logic Networks for Interpretable Classification [3.9] 本稿では,解釈可能な構造を持つニューラルネットワークの新たなクラスを提案する。
我々は、観測されていないデータを考慮したNOT演算とバイアスでこれらのネットワークを一般化する。
本手法はブールネットワーク発見における最先端の手法を改良し,関連性のある解釈可能なルールを学習することができる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:49:56 GMT)
Quantum Policy Gradient in Reproducing Kernel Hilbert Space [3.9] パラメトリッド量子回路は、機械学習のための表現力とデータ効率の表現を提供する。
量子カーネルにおける量子回路の表現は量子教師あり学習において広く研究されている。
本稿では、量子アクセス可能な環境におけるカーネルポリシーと量子ポリシー勾配アルゴリズムの利用を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:54:53 GMT)
Obfuscated Quantum and Post-Quantum Cryptography [3.8] 量子鍵分布(QKD)とポスト量子暗号(PQC)を組み合わせた新しい設計の実験的展開を提案する。
本システムでは,QKD-PQC操作の動的難読化が特徴である。
我々の設計は、現在利用可能な最も安全な通信システムの一つであることを示唆する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:35:04 GMT)
EFU: Enforcing Federated Unlearning via Functional Encryption [3.8] フェデレーテッド・アンラーニング(FU)アルゴリズムにより、フェデレーテッド・セッティングのクライアントは「忘れられる権利」を行使できる。
既存のFUメソッドは、未学習のデータをクライアント側でローカルに実行し、忘れたデータを露出することなく、ターゲットとする更新をサーバに送信することで、データのプライバシを維持する。
EFU(Enforced Federated Unlearning)は,クライアントがサーバから発生した情報を隠蔽しながら,未学習の開始を可能にする,暗号的に強制されたFUフレームワークである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:44:21 GMT)
TeamMedAgents: Enhancing Medical Decision-Making of LLMs Through Structured Teamwork [3.7] We present TeamMedAgents, a novel multi-agent approach that evidence-based teamwork into medical decision-making with large language model (LLMs)。
本手法は,人間のコラボレーションからコンピュータ・マルチエージェント医療システムまで,組織心理学チームワークモデルを検証する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:55:06 GMT)
Multi-Treatment-DML: Causal Estimation for Multi-Dimensional Continuous Treatments with Monotonicity Constraints in Personal Loan Risk Optimization [3.7] 既存の因果的手法は、主にバイナリ/離散的処理を扱い、連続した多次元的な設定に苦しむ。
本稿では,DML(Double Machine Learning)を利用した任意の次元連続処理のための新しいフレームワークであるMulti-Treatment-DMLを提案する。
公開ベンチマークと実世界の産業データセットに関する大規模な実験は、我々のアプローチの有効性を実証している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:13:04 GMT)
Using LLMs to Capture Users' Temporal Context for Recommendation [3.7] 本稿では,Large Language Models (LLMs) を用いて,意味的にリッチでタイムアウェアなユーザプロファイルを生成する手法を提案する。
我々は、新しいエンドツーエンドレコメンデーションアーキテクチャを提案していないが、中核となる貢献は、LLMの有効性の程度を体系的に調査することである。
Movies&TV と Video Games のドメイン間での評価では、LLM の生成したプロファイルは意味的な深さと時間構造を提供するが、コンテキスト対応のレコメンデーションの有効性はユーザーインタラクション履歴の豊かさに特有である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 22:48:31 GMT)
Temporal User Profiling with LLMs: Balancing Short-Term and Long-Term Preferences for Recommendations [3.7] 本稿では,短期および長期の嗜好を明示的にモデル化するユーザプロファイリング手法を提案する。
LLM-TUPは、いくつかのベースラインに対して大幅に改善されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:28:24 GMT)
LPI-RIT at LeWiDi-2025: Improving Distributional Predictions via Metadata and Loss Reweighting with DisCo [3.7] DisCoは、アイテムレベルとアノテータレベルのラベル分布を共同でモデル化するニューラルネットワークである。
我々は、アノテータメタデータを組み込んだDisCoを拡張し、入力表現を強化し、不一致パターンをよりよく捉えるために損失関数を修正した。
この結果から,不一致認識モデリングの価値を浮き彫りにし,システムコンポーネントが人間の注釈付きデータの複雑さとどのように相互作用するかを考察した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:39:09 GMT)
How Quantum Agents Can Change Which Strategies Are More Complex [3.6] 複雑性に関する結論は、エージェントが量子情報を処理して保存できるかどうかに依存する。
古典的エージェントは戦略Bよりも実行が複雑であるのに対して、量子エージェントは反対の結論に達することができる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:32:03 GMT)
Multi-Turn Jailbreaks Are Simpler Than They Seem [3.6] マルチターンジェイルブレイク攻撃は、シングルターン保護に最適化されたモデルに対して、70%以上の成功率を達成する。
この結果は,AIの安全性評価やジェイルブレイク耐性システムの設計に重要な意味を持つ。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:57:41 GMT)
Navigating Demand Uncertainty in Container Shipping: Deep Reinforcement Learning for Enabling Adaptive and Feasible Master Stowage Planning [3.6] 本研究では、状態依存的制約を伴う逐次動的意思決定問題に対処する。
関連性のある実世界のケーススタディとして、コンテナの出荷におけるストーッジ計画の問題に注目します。
本稿では,凸制約を満たすエンコーダ・デコーダモデルとファシビリティ層を備えた深いRLフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:53:28 GMT)
Adaptive Computation Pruning for the Forgetting Transformer [3.5] Forgetting Transformer (FoX) は、忘れゲートをソフトマックスアテンションに組み込む。
FoXの多くの注目はすぐに忘れてしまう傾向があり、各時点の出力はローカルコンテキストに依存している。
本稿では,FoX に対する適応計算処理 (ACP) を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:43:22 GMT)
On the Reliability of Sampling Strategies in Offline Recommender Evaluation [3.5] オフライン評価は、オンラインテストが非現実的または危険である場合、推奨システムのベンチマークにおいて中心的な役割を果たす。
露出バイアスは、ユーザが表示されているアイテムのみと対話する、露出バイアスと、全カタログではなくログされたアイテムのサブセットで評価を行う際に導入されるサンプリングバイアスである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:11:56 GMT)
NeeCo: Image Synthesis of Novel Instrument States Based on Dynamic and Deformable 3D Gaussian Reconstruction [3.4] 外科画像データセットにおけるデータ不足に対処する新しい動的ガウススプラッティング手法を提案する。
本研究では,現実シナリオからのカメラポーズの調整が不十分な場合に生じる課題に対処するために,動的トレーニング調整戦略を利用する。
提案手法により生成した合成画像に基づいてトレーニングしたモデルの性能は、最先端の標準データ拡張でトレーニングしたモデルよりも10%優れていた。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:13:05 GMT)
Hierarchical Adaptive networks with Task vectors for Test-Time Adaptation [3.4] タスクベクトルを用いた階層型適応ネットワーク(Hi-Vec)を提案する。
Hi-Vecは、既存のメソッドが様々な複雑さのシフトに適応できるようにする。
挑戦的なシナリオや複数のターゲットデータセットにおいて、Hi-Vecの性能を厳格に評価する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:55:53 GMT)
Generative Inversion for Property-Targeted Materials Design: Application to Shape Memory Alloys [3.4] 高速SMAの逆設計のためのGAN(Generative Adversarial Network)インバージョンに基づくデータ駆動フレームワークを提案する。
このフレームワークは、5つのNiTi基SMAの合成とキャラクタリゼーションによって実験的に検証されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:36:08 GMT)
LLMs for Law: Evaluating Legal-Specific LLMs on Contract Understanding [3.3] 法的な LLM は汎用モデルより一貫して優れている。
CaseLaw-BERTとContracts-BERTは、3つのタスクのうち2つの新しいSOTAを構築します。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:08:32 GMT)
RAIR: Retrieval-Augmented Iterative Refinement for Chinese Spelling Correction [3.3] 中国語のspelling Correction(CSC)は、文中の誤ったトークンを検出し、修正することを目的としている。
従来のCSCは等長補正に重点を置いており、事前訓練言語モデル(PLM)を使用している。
textbfRetrieval-textbfAugmented textbfIterative textbfRefinement frameworkを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:10:45 GMT)
ChatGPT on the Road: Leveraging Large Language Model-Powered In-vehicle Conversational Agents for Safer and More Enjoyable Driving Experience [3.3] 本研究では,ChatGPTをベースとした車内エージェントが連続多ターン対話を実現する可能性について検討した。
動作に基づく運転シミュレータを用いた実験には40名のドライバーが参加した。
結果,ChatGPTをベースとしたエージェント条件により,複数の指標に対してより安定した運転性能が得られた。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:40:44 GMT)
Sparse Partial Optimal Transport via Quadratic Regularization [3.2] Partial Optimal Transport (POT)は、さまざまな機械学習(ML)アプリケーションの中心的なツールとして登場した。
二次正則化を伴う新しいPOTの定式化を提案し、従って二次正則化POT(QPOT)と呼ぶ。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:22:35 GMT)
REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation [3.2] 同時音声翻訳(SimulST)システムは、翻訳されたテキストや音声を同時に出力しながら音声でストリームする。
私たちは、このトレードオフを最適化するための戦略を導入します。
正規化エントロピー情報適応(Regularized Entropy Information Adaptation, REINA)を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:42:21 GMT)
Parallel Quantum Signal Processing Via Polynomial Factorization [3.2] 量子並列信号処理アルゴリズムを開発した。
我々のアルゴリズムは、$texttr (P(rho)$ over $k$の計算を並列化し、クエリの深さを$d/k$に減らし、QSPの時間空間トレードオフのファミリを可能にする。
これにより、量子コンピュータに適した特性推定が可能となり、$O(textpoly(d) 2(k) )$ で測定数を増やすことで実現される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:04:45 GMT)
Single-Shot Decoding and Fault-tolerant Gates with Trivariate Tricycle Codes [3.2] 我々は,いくつかの望ましい特徴を組み合わせた三サイクル符号,qLDPC符号を導入する。
TT符号は、回路レベルのノイズモデルの下で高いしきい値を持ち、低時間オーバーヘッド復号のための部分的な単発復号性を持つ。
コードにはいくつかの$CZゲートがあり、2つのコードブロック間の論理量子ビットを部分的に扱うことができる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:11:23 GMT)
Dream4D: Lifting Camera-Controlled I2V towards Spatiotemporally Consistent 4D Generation [3.2] 現在のアプローチは、複雑なシーンダイナミクスを処理しながら、ビューの一貫性を維持するのに苦労することが多い。
このフレームワークは、リッチな時間的先行ビデオ拡散モデルと、再構成モデルの幾何学的認識の両方を活用する最初のものである。
これは4D生成を著しく促進し、既存の方法よりも高い品質(mPSNR、mSSIMなど)を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:55:47 GMT)
IBPS: Indian Bail Prediction System [3.1] ベイルの決定は、インドの裁判所でしばしば上訴される事項の1つである。
インドの刑務所人口の75%以上が囚人である。
本稿では,AIを活用した意思決定支援フレームワークであるIndian Bail Prediction System(IBPS)を紹介する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:44:17 GMT)
Real-time deep learning phase imaging flow cytometer reveals blood cell aggregate biomarkers for haematology diagnostics [3.1] 我々は、オフ軸デジタルホログラフィー(DHM)のためのエンドツーエンドのディープラーニングベース画像およびデータ処理フレームワークRT-HADを提案する。
RT-HADは、1.5分間のターンアラウンド時間と血小板凝集検出のエラー率8.9%で、30GBの画像をオンザフライで処理する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:58:12 GMT)
Time Marching Neural Operator FE Coupling: AI Accelerated Physics Modeling [3.1] 本研究は、物理インフォームド・ディープ・オペレーター・ネットワークをドメイン分解によりFEMと統合する新しいハイブリッド・フレームワークを導入する。
動的システムの課題に対処するため、DeepONetに直接タイムステッピングスキームを組み込み、長期エラーの伝搬を大幅に低減する。
提案手法は, 従来手法に比べて収束率を最大20%向上させるとともに, 誤差マージンが3%未満の解の忠実度を保ちながら, 収束率の高速化を図っている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:55:12 GMT)
Exploring Content and Social Connections of Fake News with Explainable Text and Graph Learning [3.0] 偽情報は、しばしば「いいね!」やユーザーネットワークのようなソーシャルメディアのダイナミクスを利用して、そのリーチを増幅する。
本稿では、ファクトチェックを強化するために、コンテンツ、ソーシャルメディア、グラフベースの機能を組み合わせた説明可能なフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:03:37 GMT)
Compact and De-biased Negative Instance Embedding for Multi-Instance Learning on Whole-Slide Image Classification [3.0] 半超音波信号を導入し、スライディング間の変動を抑えるとともに、通常のパッチの変動の共通要因を捉える。
本手法は,カメリオン16およびTGA肺がんを含む2つのWSIデータセットを用いて検討した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:29:32 GMT)
CBDES MoE: Hierarchically Decoupled Mixture-of-Experts for Functional Modules in Autonomous Driving [3.0] 本稿では,階層的に分離されたMixture-of-Expertsアーキテクチャを機能モジュールレベルで提案する。
CBDES MoEは、複数の構造的に異質な専門家ネットワークと軽量なセルフアテンションルータゲーティング機構を統合している。
3Dオブジェクト検出において、固定されたシングルエキスパートベースラインを一貫して上回る。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:44:25 GMT)
C-MAG: Cascade Multimodal Attributed Graphs for Supply Chain Link Prediction [2.9] PMGraphは8,888 のメーカー,70k 以上の製品,110k 以上のメーカー製品エッジ,29k 以上の製品イメージをリンクするバイパーティタイトおよび異種マルチモーダルサプライチェーングラフの公開ベンチマークである。
C-MAGは2段階のアーキテクチャで、まずテキストと視覚の属性を中間グループ埋め込みにアライメントし集約し、その後、マルチスケールのメッセージパッシングを通じて製造元が生成するヘテログラフを介して伝播し、リンク予測精度を向上させる。
C-MAGはまた、雑音下での予測性能を保ちながら、モーダルアウェア融合の実践的ガイドラインも提供している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:14:03 GMT)
CADRE: Customizable Assurance of Data Readiness in Privacy-Preserving Federated Learning [2.9] CADREは、ユーザが特定のFLタスクに合わせてカスタムデータ準備性(DR)メトリクス、ルール、修正を定義することができるフレームワークである。
CADREは、ユーザ定義のメトリクス、ルール、修正に基づいて包括的なDRレポートを生成し、プライバシを保持しながらデータセットがFLに備えられていることを保証する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:34:12 GMT)
A spin-embedded diamond optomechanical resonator with mechanical quality factor exceeding one million [2.9] 組み込みカラーセンタースピンを備えたダイヤモンド光学結晶(OMC)デバイスは、量子センシング、ネットワーク、コンピューティングアプリケーションのための有望なプラットフォームである。
ここでは、低温下で106ドルを超える機械的品質因子を有するサイドバンド分解ダイヤモンドOCCを実証する。
組込み窒素空孔 (NV) センターのコヒーレンス時間を最大$T$ = $mu$s とする。
量子状態におけるハイブリッドスピンメカニカルデバイスのためのこのプラットフォームの可能性について論じる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 23:48:46 GMT)
SystolicAttention: Fusing FlashAttention within a Single Systolic Array [2.9] Transformer Modelは、SDPA(Scaled dot-product attention)に大きく依存している。
現在のsystolic-arrayベースのアクセラレータは、FlashAttentionの実行において重大な課題に直面している。
本稿では、FlashAttentionアルゴリズムを単一のsystolic配列内で完全に動作させることができる拡張されたsystolic配列アーキテクチャであるFSAを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:00:05 GMT)
Exploring Procedural Data Generation for Automatic Acoustic Guitar Fingerpicking Transcription [2.9] 本研究では、実際の音声記録の代替として、手続き型データ生成パイプラインについて検討する。
提案手法は,知識ベースフィンガーピッキング・タブチュア・コンポジション,MIDIパフォーマンス・レンダリング,物理モデリングの4段階を通じてトレーニングデータを合成する。
我々は、実データと合成データの両方でCRNNベースのノート追跡モデルを訓練し、評価し、手続きデータを用いて適切なノート追跡結果が得られることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:52:17 GMT)
What am I missing here?: Evaluating Large Language Models for Masked Sentence Prediction [2.9] Next Token Prediction (NTP)は、モデルを事前計画したり、長距離コヒーレンスを維持する能力を制限する。
マスケ文予測(MSP)における3つの商用LCMの評価
我々の重要な発見は、商業LLMが、他のタスクにおいて最上級のパフォーマンスにもかかわらず、低構造領域におけるマスキング文の予測に不適であることを明らかにしている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:25:50 GMT)
Graffiti: Enabling an Ecosystem of Personalized and Interoperable Social Applications [2.8] Graffitiは、多様なパーソナライズされたソーシャルアプリケーションを構築するために使用できるシステムである。
友人やデータを失うことなく、複数のデザインの間を自由に移動することができる。
Graffitiアプリケーションは最小限のクライアントサイドAPIを介してやり取りします。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:00:05 GMT)
A Registration-Based Star-Shape Segmentation Model and Fast Algorithms [2.8] 登録フレームワークに基づく星形セグメンテーションモデルを提案する。
我々のアプローチは、特定された境界の強制が特定のランドマークの場所を通過することを可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:47:46 GMT)
Multi-view Normal and Distance Guidance Gaussian Splatting for Surface Reconstruction [2.8] 3D Gaussian Splatting (3DGS) は表面再構成の分野で顕著な成果を上げている。
しかし、ガウス正規ベクトルが単視点射影平面内に配置されているとき、現在のビューでは幾何は妥当であるように見えるが、近くのビューに切り替えるとバイアスが現れるかもしれない。
我々は,近傍のビューにおける画素点の正規値と一致させ,損失を計算することで,ビュー間の整合性を確保するマルチビュー正規拡張モジュールを開発した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:25:13 GMT)
A variational Bayes approach to debiased inference for low-dimensional parameters in high-dimensional linear regression [2.7] 疎線形回帰における統計的推測のためのスケーラブルな変分ベイズ法を提案する。
我々のアプローチは、平均場近似をニュアンス座標に割り当てることに依存している。
これは前処理のステップに過ぎず、平均場変動ベイズの計算上の優位性を保っている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:26:24 GMT)
RAPNet: A Receptive-Field Adaptive Convolutional Neural Network for Pansharpening [2.7] 本稿では,コンテンツ適応型畳み込みを利用した新しいアーキテクチャであるRAPNetを紹介する。
RAPNetはReceptive-field Adaptive Pansharpening Convolution (RAPConv)を採用している。
ネットワークには Pansharpening Dynamic Feature Fusion (PAN-DFF) モジュールが組み込まれており、空間的詳細化とスペクトルの忠実度を最適にバランスさせるためのアテンション機構が組み込まれている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:17:28 GMT)
MIND: A Noise-Adaptive Denoising Framework for Medical Images Integrating Multi-Scale Transformer [2.7] 本稿では,マルチスケールの畳み込みとトランスフォーマーアーキテクチャを統合した医療画像適応型復調モデル(MI-ND)を提案する。
雑音知覚によって駆動されるチャネル空間的注意制御とクロスモーダル特徴融合を実現する。
構造回復、診断感度、クロスモーダルロバストネスに優れた利点があり、医用画像の強化とAIによる診断と治療に有効なソリューションを提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:00:51 GMT)
Sea-Undistort: A Dataset for Through-Water Image Restoration in High Resolution Airborne Bathymetric Mapping [2.7] 我々は,Blenderで描画された1200対の512x512透水シーンの総合的な合成データセットであるSea-Undistortを紹介した。
それぞれのペアは歪みのない、歪んだ景色で構成されており、太陽の輝き、波、様々な海底に散らばる散乱といった現実的な水の影響を特徴としている。
カメラパラメータや太陽位置、平均深度といった画像毎のメタデータと合わせて、Sea-Undistortは実際の環境では不可能な教師付きトレーニングを可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:43:29 GMT)
DETACH: Cross-domain Learning for Long-Horizon Tasks via Mixture of Disentangled Experts [2.7] DETACHは、生物学的にインスパイアされた二重ストリームの絡み合いによるLHタスクのためのクロスドメイン学習フレームワークである。
平均サブタスク成功率が23%、平均実行効率が29%向上する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:54:28 GMT)
Designing with Deception: ML- and Covert Gate-Enhanced Camouflaging to Thwart IC Reverse Engineering [2.6] 集積回路(IC)は現代の電子システムには不可欠であるが、物理的なリバースエンジニアリング(RE)攻撃による重大なリスクに直面している。
本稿では,RE に対する IC セキュリティを強化するために,暗号的および模倣的サイバー詐欺の原則を統合した機械学習駆動方式を提案する。
我々の研究は、ICカモフラージュの新しい標準を設定し、重要なシステムを敵の脅威から守るためのサイバー詐欺原則の適用を推進した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:40:42 GMT)
Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying [2.6] 誘導航法制御(GNC)システムは安全に重要であり、厳格な性能要件を満たす必要がある。
このようなシステムの検証は、宇宙環境の複雑さのために難しい。
本論文の主な貢献は、統合されたエンドツーエンドのディジタル・ロボット・ツインニング・フレームワークである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:07:14 GMT)
Challenges and opportunities in portraying emotion in generated sign language [2.5] 本稿では,パウラ署名アバターに対する運動的非手動信号に対する直観的2パラメータ表現の適用について検討する。
従来の方法よりも一貫性のある方法で感情的表情の言語的特定を促進することを約束している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:52:39 GMT)
Inference-Time Gaze Refinement for Micro-Expression Recognition: Enhancing Event-Based Eye Tracking with Motion-Aware Post-Processing [2.5] イベントベースの視線追跡は、きめ細かい認知状態の推測に重要な可能性を秘めている。
本稿では、既存の事象に基づく視線推定モデルの出力を高めるために、モデルに依存しない推論時間改善フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:39:09 GMT)
Joint Transcription of Acoustic Guitar Strumming Directions and Chords [2.5] 我々は,新しいデータセットと深層学習に基づく転写モデルを導入することで,ギターストーミング転写へのマルチモーダルアプローチを拡張した。
ESP32スマートウォッチモーションセンサと構造化記録プロトコルを用いて90分間のギター録音を収集する。
畳み込みイベントを検出し、その方向を分類し、マイクオーディオのみを使用して対応するコードを特定するために、畳み込みリカレントニューラルネットワーク(CRNN)モデルを訓練する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:34:49 GMT)
Sortability of Time Series Data [2.5] 自己相関型定常時系列のデータセットにおいても、変数可能性などのデータセットの特定の特性が生じることを示す。
最も驚くべき発見は、調査対象の現実世界のデータセットが高いバラエティと低いR2$ソータビリティを示していることです。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:01:33 GMT)
Federated Learning for Epileptic Seizure Prediction Across Heterogeneous EEG Datasets [2.5] 本稿では,4つのパブリックデータセット(Siena,CHB-MIT,Helsinki,NCH)にまたがる単一EEGチャネルを用いた発作予測のためのFLについて検討する。
プライバシ保護のグローバルな正規化を実装し,各クライアントがラウンドごとのデータの固定サイズのランダムサブセットをトレーニングし,アグリゲーション中に同等のコントリビューションを確保するランダムサブセットアグリゲーション戦略を提案する。
以上の結果から, 局所学習モデルではサイト全体の一般化が困難であり, 標準重み付きFedAvgは高度に歪んだ性能が得られる(CHB-MITでは89.0%, ヘルシンキでは50.8%, NCHでは50.6%)。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:36:31 GMT)
AD-AVSR: Asymmetric Dual-stream Enhancement for Robust Audio-Visual Speech Recognition [2.5] 双方向モダリティ向上に基づく新しいAVSRフレームワークAD-AVSRを提案する。
具体的には、まず、複数の視点から音声表現を豊かにするための音声二重ストリーム符号化方式を導入する。
我々は、無関係または弱相関のオーディオ視覚対をフィルタリングするために閾値に基づく選択機構を採用する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:23:08 GMT)
When and how can inexact generative models still sample from the data manifold? [2.5] スコア関数やドリフトベクトル場における学習誤差にもかかわらず、生成されたサンプルはデータ分布の支持を強調させるが、それから強調しないように見える。
我々は、上のリャプノフベクトルとデータ多様体の境界に沿った接空間とのアライメントがロバスト性をもたらすことを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:24:34 GMT)
MSPT: A Lightweight Face Image Quality Assessment Method with Multi-stage Progressive Training [2.4] マルチステージプログレッシブトレーニング(MSPT)を用いた軽量顔品質評価ネットワークを提案する。
我々のネットワークは、より多様なデータサンプルを徐々に導入する3段階のプログレッシブトレーニング戦略を採用している。
MSPTは、VQualA 2025顔画像品質評価ベンチマークデータセットで2番目に高いスコアを達成した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:37:09 GMT)
Uniform Loss vs. Specialized Optimization: A Comparative Analysis in Multi-Task Learning [2.4] マルチタスク学習におけるタスク学習のバランスをとる特殊マルチタスク(SMTO)。
近年の批判は、同様に重み付けされたタスクはSMTOと比較して競争的な結果が得られることを示唆している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:50:06 GMT)
Shapley-Inspired Feature Weighting in $k$-means with No Additional Hyperparameters [2.4] クラスタリングアルゴリズムは、すべての機能がデータ構造に等しく寄与していると仮定することが多い。
SHARK(Shapley Reweighted $k$-means)は,Shapley値を用いた特徴量クラスタリングアルゴリズムである。
合成および実世界のデータセットの実験は、SHARKが既存の手法と一貫して一致し、性能を向上していることを示している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:07:21 GMT)
Helveg: Diagrams for Software Documentation [2.3] 私たちは、ソフトウェアアーキテクチャの視覚化の側面をAPIリファレンスドキュメンテーションにもたらすアプローチを設計しました。
表現力のあるノードグリフと柔軟なフィルタリング機能を備えた高度にインタラクティブなノードリンクダイアグラムを利用する。
我々は,これらの問題の多くを,ツールのグリフ設計,インタラクション手段,ユーザインターフェースの大幅な変更を通じて解決する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:05:31 GMT)
MORE-CLEAR: Multimodal Offline Reinforcement learning for Clinical notes Leveraged Enhanced State Representation [2.3] 集中治療室におけるセプシス制御のための拡張stAte表現フレームワークを応用したマルチモーダルオフライン強化学習を提案する。
More-CLEARは、臨床ノートからリッチな意味表現の抽出を容易にするために、事前訓練された大規模言語モデル(LLM)を使用している。
我々の知る限り、医療アプリケーションにおける状態表現を改善するために、マルチモーダルオフラインRL内でLLM機能を利用するのは、これが初めてである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:58:33 GMT)
PrIINeR: Towards Prior-Informed Implicit Neural Representations for Accelerated MRI [2.2] Inlicit Neural Representations (INRs) はMRIの再構成を約束するが、事前の制約が弱いため、高いアクセラレーション要因に悩まされる。
我々は、事前学習したディープラーニングモデルからの事前知識をINRフレームワークに統合する、INRに基づくMRI再構成手法PrIINeRを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:59:09 GMT)
Multimodal Visual Transformer for Sim2real Transfer in Visual Reinforcement Learning [2.2] 視覚変換器をベースとした視覚バックボーンを提案し,RGBと奥行き変調を融合させて一般化を促進させる。
異なるモダリティはまず別々のCNNステムで処理され、組み合わせた畳み込み機能はスケーラブルな視覚変換器に配信される。
sim2real転送では、トレーニングプロセスよりもドメインランダム化をデプロイする柔軟なカリキュラム学習スケジュールが開発されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:04:20 GMT)
Mitigating Hallucination in Large Vision-Language Models via Adaptive Attention Calibration [2.2] 大規模視覚言語モデル(LVLM)はマルチモーダルタスクにおいて印象的な性能を発揮するが、幻覚に悩まされることが多い。
2つの重要なバイアスをターゲットとして、この問題に対処するために、信頼性意識(CAAC)フレームワークを導入します。
CAACでは、視覚トークン間の注意のバランスをとるためにVTC(Visual-Token)と、視覚的接地を強化するためにAdaptive Attention Re-Scaling(Adaptive Re-Scaling)という2段階のアプローチを採用している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:24:13 GMT)
Deep Generative Models for Discrete Genotype Simulation [2.2] 本研究では,非条件と表現型条件の両方でジェノタイプデータを生成することを検討する。
可変オートエンコーダ(VAE)、拡散モデル、GAN(Generative Adversarial Networks)などの一般的な生成モデルを開発し評価した。
以上の結果から,これらのモデルが遺伝的パターンを効果的に捉え,遺伝子型・フェノタイプ関連を保存できることが示唆された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:56:03 GMT)
EMPATHIA: Multi-Faceted Human-AI Collaboration for Refugee Integration [2.2] 難民統合への現在のAIアプローチは、雇用のような狭い目標を最適化する。
我々は、中央のCreative AI問題に対処するマルチエージェントフレームワークであるEMPATHIAを紹介します。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:50:55 GMT)
Derivation from classical Majorana--Bloch equation to quantum von Neumann equation for any angular momenta in coherent states [2.1] 古典的ブロッホ方程式から量子フォン・ノイマン方程式への導出を公表した後、ブロッホ方程式をマヨラナ-ブロッホ方程式に改名することを提案した。
ここでは、以前の導出を純粋状態の高スピンや角モータに一般化する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:08:38 GMT)
$100,000 or the Robot Gets it! Tech Workers' Resistance Guide: Tech Worker Actions, History, Risks, Impacts, and the Case for a Radical Flank [2.1] ビッグデータは過去10年間で労働者活動のレベルが上昇している。
労働者の行動が肯定的な結果をもたらす一方で、そのような成功はますます稀になってきている。
これは、企業が労働者活動の増加に対処する戦略を調整したからである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:29:34 GMT)
Two-Photon Interference from an InAs Quantum Dot emitting in the Telecom C-Band [2.1] 通信Cバンドに放出されるInAs/InAlGaAs量子ドット(QD)からの2光子干渉は、V_HOM=(71.9pm0.2)$ %の生の2光子干渉可視性を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:19:53 GMT)
A Comparative Analysis of Lightweight Hash Functions Using AVR ATXMega128 and ChipWhisperer [2.1] 本稿では,22個のソフトウェアをベースとした軽量ハッシュ関数の比較分析を行った。
我々はマイクロコントローラとChipWhisperer暗号解析プラットフォームを組み合わせた新しいベンチマーク手法を用いる。
実行速度, Byte (CpB) 当たりのサイクル数 % , メモリフットプリント, エネルギー消費など, 各種ハッシュ関数の評価と比較を行った。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:48:56 GMT)
Self-Supervised Autoencoder Network for Robust Heart Rate Extraction from Noisy Photoplethysmogram: Applying Blind Source Separation to Biosignal Analysis [2.1] 本稿では,PPG信号からソース信号を分離する自己教師型オートエンコーダ(MEAE)を提案する。
MEAEは、事前処理やデータ選択なしに、大きなオープンポリソノグラフィーデータベースからのPSG信号に基づいて訓練される。
抽出された心拍信号は、元のPGと比較してHR検出を大幅に改善する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:15:02 GMT)
The DNA of nuclear models: How AI predicts nuclear masses [2.0] 本稿では,E_b$の最先端精度を実現するAIモデルを提案する。
E_b$のAI予測は階層的に分解・順序付け可能であり、最も重要な用語はよく知られた記号モデルに対応する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:00:17 GMT)
An automatic patent literature retrieval system based on LLM-RAG [2.0] 本研究では,LLMとRetrievalAugmented Generation RAG技術を組み合わせた自動特許検索フレームワークを提案する。
システムは,1) 特許データの標準化のための事前処理モジュール,2) LLM生成埋め込みを利用した高効率ベクトル検索エンジン,3) 外部文書検索とコンテキスト対応応答生成を組み合わせたRAGenhancedクエリモジュールの3つのコンポーネントから構成される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:39:16 GMT)
Energy and Quality of Surrogate-Assisted Search Algorithms: a First Analysis [2.0] 我々は,サロゲートがメタヒューリスティック(メタヒューリスティック,メタヒューリスティック,メタヒューリスティック,メタヒューリスティック,メタヒューリスティック)をいかに支援しているかを研究する。
我々の結論は、このトピックに新たな光を当て、サロゲート支援アルゴリズムを評価するための方法論への第一歩として理解することができる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:07:55 GMT)
Multi-modal Adaptive Mixture of Experts for Cold-start Recommendation [2.0] MAMEXはマルチモーダルなコールドスタートレコメンデーションのための新しいフレームワークである。
異なるモダリティから潜在表現を動的に活用する。
実験では、MAMEXはコールドスタートシナリオで最先端の手法よりも優れています。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:47:14 GMT)
Enabling Privacy-preserving Model Evaluation in Federated Learning via Fully Homomorphic Encryption [2.0] センシティブなデータを集中化せずにモデルを協調的にトレーニングする能力によって、フェデレートラーニングが急速に普及している。
評価フェーズでは、文献で適切に対処されていない重要なプライバシーリスクが提示される。
完全同型暗号を利用した新しい評価手法を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:36:27 GMT)
Bilevel MCTS for Amortized O(1) Node Selection in Classical Planning [2.0] マルチアーマッド・バンドイット(MAB)をベースとしたモンテカルロ木探索(MCTS)の効率的な実装について検討した。
MCTSの弱点のひとつは、次にどのノードを拡張するかを決めるのにかなりの時間を費やしていることだ。
本稿では,各葉ノードから最優先探索を行うMCTSの2段階修正を提案し,拡張予算は$d$に比例する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:12:40 GMT)
PainDiffusion: Learning to Express Pain [1.9] 自然主義的な顔面痛表情を合成する生成モデルPainDiffusionを紹介する。
PainDiffusionは連続的な潜伏空間で動作し、より滑らかで自然な顔の動きを保証する。
本手法は、痛み表現性や感情などの本質的な特徴を取り入れ、パーソナライズされた、制御可能な痛み表現合成を可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:40:00 GMT)
Quantum-centric simulation of hydrogen abstraction by sample-based quantum diagonalization and entanglement forging [1.8] 重要な応用はラジカル鎖反応の計算である。
2,2-ジフェニルジプロパンから水素を抽象化するための活性化エネルギーと反応エネルギーを計算する。
計算はIBM Heronファミリーの超伝導量子プロセッサと古典計算資源を用いて行われる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:48:17 GMT)
Spatial-ORMLLM: Improve Spatial Relation Understanding in the Operating Room with Multimodal Large Language Model [1.8] 空間ORMLLMは手術室における3次元空間推論のための視覚言語モデルである。
推定アルゴリズムにより抽出された3次元空間知識の豊富な2次元モダリティ入力を組み込む。
専門家のアノテーションやセンサー入力を使わずに、堅牢な3Dシーン推論を提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:17:20 GMT)
Evaluating structural uncertainty in accelerated MRI: are voxelwise measures useful surrogates? [1.8] ボクセルレベルの不確実性は形態的不確実性についての洞察を与えないことを示す。
臨床的に関連のある下流課題としてセグメンテーションを使用し、再建モードのアンサンブルを配置し、再建における不確実性を測定する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:36:37 GMT)
GPU-Accelerated Syndrome Decoding for Quantum LDPC Codes below the 63 $μ$s Latency Threshold [1.8] 本稿では,量子低密度パリティチェック(QLDPC)符号のためのGPU高速化デコーダを提案する。
これは、GoogleのWilow量子プロセッサで実証された表面コードデコーダのリアルタイムしきい値の下にある63ドル以下のレイテンシを実現する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:53:00 GMT)
KARMA: Efficient Structural Defect Segmentation via Kolmogorov-Arnold Representation Learning [1.7] KARMAは1次元関数の合成を通じて複雑な欠陥パターンをモデル化するセマンティックセグメンテーションフレームワークである。
ベンチマークインフラストラクチャインスペクションデータセットの実験は、KARMAがIoUパフォーマンスの競争力または優位性を達成することを示した。
KARMAは、リアルタイムデプロイメントに適した推論速度を維持し、精度を損なうことなく、実用的な自動インフラ検査システムを実現する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:06:55 GMT)
Discovering Spatial Correlations between Earth Observations in Global Atmospheric State Estimation by using Adaptive Graph Structure Learning [1.7] 本研究では,地球観測と大気状態の空間的相関を見極め,大気状態推定の予測精度を向上させることを目的とする。
時間グラフニューラルネットワーク(STGNN)と構造学習を用いて複雑な相関を処理し,動的に変化する。
本研究では,東アジアの実際の大気状態と観測データを用いて,提案手法の有効性を検証した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:14:31 GMT)
From Natural Language to Solver-Ready Power System Optimization: An LLM-Assisted, Validation-in-the-Loop Framework [1.7] 本稿では,Large Language Models (LLMs) を用いたエージェントを導入し,電力系統最適化シナリオの自然言語記述を,コンパクトで解決可能な定式化に自動変換する。
提案手法は,オフザシェルフ最適化解法により効率よく解ける数学的に互換性のある定式化の発見に重点を置いている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:22:57 GMT)
Assessing LLM Text Detection in Educational Contexts: Does Human Contribution Affect Detection? [1.7] 大規模言語モデル(LLM)は、学生が自動的にテキストを生成するのをこれまで以上に容易にしている。
本稿では,様々な最先端検出器の性能を教育的文脈で評価する。
ほとんどの検出器は、中間的学生の貢献レベルのテキストを正確に分類するのに苦労している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:34:49 GMT)
COMponent-Aware Pruning for Accelerated Control Tasks in Latent Space Models [1.7] 資源制約のあるモバイルプラットフォームの急速な成長により、計算効率の良いニューラルネットワークコントローラ(NNC)の需要が高まっている。
ディープニューラルネットワーク(DNN)は、制御アプリケーションにおいて優れたパフォーマンスを示し、その相当な計算複雑性とメモリ要件は、エッジデバイスへの実践的なデプロイに重大な障壁をもたらす。
本稿では,各プルーニング群に対する最適プルーニングサイズを決定するために,コンポーネント認識型構造化プルーニングを利用した包括的モデル圧縮手法を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:16:51 GMT)
Safeguarding Generative AI Applications in Preclinical Imaging through Hybrid Anomaly Detection [1.6] 本稿では,BIOEMTECHの視線(TM)システムにおけるGenAIモデルを保護するためのハイブリッド異常検出フレームワークの開発と実装を紹介する。
写真マウス画像から合成X線を生成するPose2Xrayと、2D SPECT/CTスキャンから3D線量マップを推定するDosimetrEYEの2つの応用が示されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:35:44 GMT)
Energy Consumption in Parallel Neural Network Training [1.6] ResNet50とFourCastNetという2つのモデルのデータ並列トレーニングの並列化について検討した。
エネルギー消費は消費資源、すなわちGPU時間とほぼ線形にスケールすることを示す。
私たちの結果は、ニューラルネットワークトレーニングをスケールアップする複雑な相互作用に光を当て、今後の発展を知らせることができます。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:34:04 GMT)
A Small-footprint Acoustic Echo Cancellation Solution for Mobile Full-Duplex Speech Interactions [1.6] 本稿では,様々なハードウェア,非線形歪み,長時間の待ち時間といったシナリオにおける課題に対処するニューラルネットワークベースのソリューションを提案する。
プログレッシブ・ラーニング(Progressive Learning)は、AEC増強効果を改善するために使用され、それによって音声品質が大幅に向上する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:45:31 GMT)
MambaFlow: A Mamba-Centric Architecture for End-to-End Optical Flow Estimation [1.6] MambaFlowは,Mambaアーキテクチャの高精度かつ効率性を生かして,局所的に相関する特徴を抽出する新しいフレームワークである。
MambaFlowはSintelベンチマークで高い精度を実現し、リソース制約のあるデバイスへの現実的なデプロイの可能性を強く示している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:49:28 GMT)
Multi-Hop Privacy Propagation for Differentially Private Federated Learning in Social Networks [1.6] フェデレート学習は、ローカルデータを共有することなく、分散クライアント間で協調的なモデルトレーニングを可能にする。
クライアントのプライバシ損失は、そのプライバシ保護戦略だけでなく、他者のプライバシ決定にも依存する。
本稿では,間接的プライバシー漏洩を体系的に定量化する,社会的に認識されたプライバシー保護FL機構を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:53:32 GMT)
Alternates, Assemble! Selecting Optimal Alternates for Citizens' Assemblies [1.6] 市民の集会は、無作為に選ばれた人々が政策問題について議論する、熟考民主主義の影響力のある形態である。
ドロップアウトはプリセレクトされた代替物に置き換えられるが、既存のメソッドはこれらの代替物を選択する方法に対処しない。
代替選択のための最適化フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:34:53 GMT)
Understanding Ethical Practices in AI: Insights from a Cross-Role, Cross-Region Survey of AI Development Teams [1.5] AI応用の最近の進歩は、これらの技術によって引き起こされるリスクを軽減するための倫理的ガイドラインと規制の必要性に対する懸念が高まっている。
本稿では,様々なAI開発に携わる個人に対する倫理的認識,実践,知識について調査する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:07:20 GMT)
SynLLM: A Comparative Analysis of Large Language Models for Medical Tabular Synthetic Data Generation via Prompt Engineering [1.5] オープンソースのLarge Language Modelsを用いて高品質な合成医療データを生成するためのモジュラーフレームワークであるSynLLMを提案する。
SynLLMは糖尿病, 硬変, ストロークを含む3つの公的医療データセットで評価した。
以上の結果から,プロンプトエンジニアリングがデータ品質とプライバシリスクに大きく影響し,ルールベースのプロンプトが最高のプライバシ品質バランスを達成することが示唆された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 23:56:42 GMT)
Modeling Deontic Modal Logic in the s(CASP) Goal-directed Predicate Answer Set Programming System [1.5] デフォルトの否定と強い否定を用いて、(決定的な)モーダル作用素をエレガントに表現する方法を示す。
本稿では、ASPのグローバル制約を用いて、デオン型モーダル論理の義務と不完全性を表現することを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:46:45 GMT)
Improving Facial Rig Semantics for Tracking and Retargeting [1.5] トラッキングされた顔のパフォーマンスは、ゲームやバーチャルリアリティ(VR)環境において、他者または仮想キャラクタに対して考慮する。
我々は、顔のリグをパフォーマーとターゲットの両方に合わせるために、モーフィングを利用する。
慎重に選択されたSimon-Says式は、各リグの校正に使用される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:39:04 GMT)
VISOR: Visual Input-based Steering for Output Redirection in Vision-Language Models [1.4] VISOR(Visual Input-based Steering for Output Redirection)は、最適化された視覚入力のみで高度な動作制御を実現する新しい手法である。
我々は,LLaVA-1.5-7B上のVISORを,拒絶,梅毒,生存本能の3つの重要なアライメントタスクで検証した。
VISORは、14,000の無関係なMMLUタスクに対して99.9%のパフォーマンスを維持しながら、堅牢な双方向制御を提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 23:25:16 GMT)
Flexible Prefrontal Control over Hippocampal Episodic Memory for Goal-Directed Generalization [1.4] 人間は数日から何年も前にエピソード記憶を復元し、新しいが構造的に関係のある状況にまたがって行動のコンテキスト化と一般化を行う。
前頭前皮質(PFC)と海馬(HPC)の相互作用による脳の課題要求に基づくてんかん記憶の制御能力
ゴール指向一般化のためのPFC-HPC相互作用機構を組み込んだ強化学習モデルを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:07:30 GMT)
RedDino: A foundation model for red blood cell analysis [1.4] 赤血球(RBC)はヒトの健康に必須であり、その正確な形態解析は血液疾患の診断に重要である。
RBC画像解析のための自己教師型基礎モデルであるRedDinoを提案する。
RedDinoは、DINOv2自己教師型学習フレームワークのRBC固有の適応を使用し、125万のRBCイメージのキュレートデータセットでトレーニングされている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:59:31 GMT)
VOIDFace: A Privacy-Preserving Multi-Network Face Recognition With Enhanced Security [1.4] 本稿では,顔認識システムのための新しいフレームワークVOIDFaceを紹介する。
データレプリケーションの必要性を排除し、ビジュアルシークレット共有を使用することで、トレーニング用の顔データをセキュアに保存するデータ制御を改善している。
顔認識トレーニングのプライバシー、セキュリティ、効率を改善すると同時に、機密性の高い顔データに対するコントロールを強化することを目的としている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:15:36 GMT)
The Medical Metaphors Corpus (MCC) [1.4] Medical Metaphors Corpus (MCC) は、医学領域と生物学的領域にまたがる、792の注釈付き科学概念メタファーのデータセットである。
MCCは、査読された文学、ニュースメディア、ソーシャルメディアの談話、クラウドソースのコントリビューションなど、さまざまな情報源からのメタファー表現を集約している。
MCCは、メタファ検出ベンチマーク、品質認識生成システム、患者中心のコミュニケーションツールなど、複数の研究アプリケーションを可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:55:31 GMT)
When the Domain Expert Has No Time and the LLM Developer Has No Clinical Expertise: Real-World Lessons from LLM Co-Design in a Safety-Net Hospital [1.4] 大規模言語モデル(LLM)は、健康の社会的および行動的決定要因に対処する可能性がある。
LLMやその開発者は、このローカルな専門知識を持っていないことが多い。
ドメインエキスパートに限定された設定のための新しい協調設計フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 22:34:23 GMT)
On the Sample Efficiency of Abstractions and Potential-Based Reward Shaping in Reinforcement Learning [1.3] PBRSは、強化学習(RL)におけるサンプル非効率に挑戦する研究において、大きな可能性を秘めている。
まず,課題の最適値関数としてのポテンシャル関数の選択が性能上の優位性をもたらす理由について理論的に考察した。
そして、PBRSの文脈で有限地平線によって引き起こされるバイアスを解析し、新しい洞察を生み出す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:06:43 GMT)
Unveiling 3D Ocean Biogeochemical Provinces in the North Atlantic: A Systematic Comparison and Validation of Clustering Methods [1.3] Aimは、クラスタリング手法の体系的な比較を通じて、北大西洋の地域を客観的に定義することを目的としていた。
塩分濃度, 温度, 酸素, 硝酸塩, リン酸塩, ケイ酸塩の濃度を入力として測定した。
その結果,UMAP-DBSCANはデータとして最適であることが判明した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:15:33 GMT)
Probabilistic Representation of Commutative Quantum Circuit Models [1.3] 可換量子回路では、ペアワイズ忠実度のフーリエ級数は確率変数の特性関数として表すことができる。
この構成をパウリ作用素の任意の可換集合に一般化する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:00:05 GMT)
SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis [1.2] 話者特性 ディープフェイクデータセットは、男性と女性両方の話者のバランスの取れた表現で237,000以上の発話を含んでいる。
話者特性が検出性能に大きく影響し,性別,言語,年齢,シンセサイザータイプの違いが明らかになった。
これらの知見は、偏見を意識した開発の必要性を強調し、差別的でないディープフェイク検出システムを構築するための基盤を提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:58:37 GMT)
FIDELIS: Blockchain-Enabled Protection Against Poisoning Attacks in Federated Learning [1.2] フェデレーション学習は、IoTデバイスのプライベートデータを使用するモデルの共同トレーニングを可能にすることによって、従来のディープラーニングを強化する。
クライアントのプライバシを保証するが、モデルのパフォーマンスと整合性を低下させるトレーニング中のデータ中毒攻撃の影響を受けやすい。
我々は、フェデレートラーニングにおける新しいブロックチェーン対応毒検出フレームワークであるSysを紹介する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 22:12:27 GMT)
Real-Time Moving Flock Detection in Pedestrian Trajectories Using Sequential Deep Learning Models [1.2] 本稿では,マルチペデストリアントラジェクトリにおけるリアルタイムフロック検出に,リカレントニューラルネットワーク(RNN)を含む逐次的深層学習モデルを用いることを検討した。
本手法は実世界のグループ移動データセットを用いて検証し、その頑健さを様々なシーケンスの長さと多様な動きパターンで実証する。
我々は,護送船団や群れなどの集団行動の他の形態を特定するためのアプローチを拡張し,より包括的なマルチエージェント行動分析の道を開く。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:44:00 GMT)
EduCoder: An Open-Source Annotation System for Education Transcript Data [1.2] EduCoderは、教育対話の発話レベルアノテーションをサポートするように設計されたドメイン特化ツールである。
研究者やドメインの専門家が、観測データに基づいたコードブックを共同で定義するためのプラットフォームを提供する。
分類的およびオープンなアノテーションタイプと文脈的素材を取り入れている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:02:27 GMT)
Grasp-HGN: Grasping the Unexpected [1.2] 現在の把握モデルは、目に見えないオブジェクトに対して性能が悪く、ユーザの独立性と生活の質に悪影響を及ぼす。
本研究では,Grasp視覚言語モデルであるGrasp-LLaVAを提案する。
最後に,エッジを高速に把握できるエッジクラウドデプロイメントインフラストラクチャであるHybrid Grasp Network(HGN)を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:58:28 GMT)
OFAL: An Oracle-Free Active Learning Framework [1.2] 本研究は、ニューラルネットワークの不確実性を利用したオラクルフリーなアクティブラーニングスキームOFALを紹介する。
OFALはモデル自身の不確実性を利用して、信頼性の高い未ラベルサンプルを情報に富んだ不確実なサンプルに変換する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:04:29 GMT)
Enhancing Lung Disease Diagnosis via Semi-Supervised Machine Learning [1.2] 肺がんやPDを含む肺疾患は、世界中で重大な健康上の問題となっている。
本研究では,MFCC+CNNのモデル組み合わせを用いた肺音信号検出のための半教師付き学習法について検討した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:40:09 GMT)
MDD-Net: Multimodal Depression Detection through Mutual Transformer [1.2] うつ病は、個人の感情と身体の健康に深刻な影響を及ぼす主要な精神状態である。
本研究では,マルチモーダル圧縮検出ネットワーク(MDD-Net)を提案する。
開発されたマルチモーダルうつ病検出ネットワークは、F1スコアの最先端を最大17.37%超える。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:32:56 GMT)
A DICOM Image De-identification Algorithm in the MIDI-B Challenge [1.2] 医学におけるデジタルイメージングとコミュニケーション (DICOM) フォーマットにおける医用画像の公開共有には, 脱識別が不可欠である。
MIDI-Bチャレンジは、ルールベースのDICOM画像識別アルゴリズムを、臨床用DICOM画像の大規模なデータセットを用いて評価するために編成された。
これらの標準に厳格に準拠したテストフェーズでデータセットを処理するために、ピクセルマスキング、日付シフト、日付ハッシュ、テキスト認識、テキスト置換、テキスト削除など、私たちが適用した非識別方法の詳細を説明します。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:38:07 GMT)
Time Ordering Effects and Destruction of Quasiparticles in Two-dimensional Holographic CFTs [1.2] ユークリッド時間とローレンツ時間進化の順序付けは、二部体の絡み合いと非局所的相関の挙動に影響を及ぼす。
また, 準粒子の崩壊が二部体の絡み合いと非局所相関に与える影響についても検討した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:56:01 GMT)
Exploring the Challenges and Opportunities of AI-assisted Codebase Generation [1.1] 最近のAIコードアシスタントは、より複雑なコンテキストを処理する能力を大幅に改善している。
初期の逸話では興奮の報告があったが、スニペットレベルのコードアシスタントに比べて採用頻度は低い。
本稿では、開発者がCBAとどのように相互作用し、CBAが開発者のニーズに合わない理由と理由について述べる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:26:48 GMT)
A Plug-and-Play Method for Guided Multi-contrast MRI Reconstruction based on Content/Style Modeling [1.1] マルチコントラストMRI再構成のためのモジュラー2段階手法を提案する。
2コントラスト画像データのコンテント/スタイルモデルは、ほとんどペアリングされていない画像ドメインデータセットから学習される。
内容とスタイルのアンタングル化は、コントラスト非依存およびコントラスト固有の要因の明示的な表現を可能にする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:31:56 GMT)
Fast and Generalizable parameter-embedded Neural Operators for Lithium-Ion Battery Simulation [1.1] 我々は,Deep Operator Networks (DeepONets), Fourier Neural Operators (FNOs), and a new proposed parameter-embedded Fourier Neural Operator (PE-FNO)の3つの演算子学習サロゲートをベンチマークした。
DeepONetは、一定の動作を正確に再現するが、よりダイナミックな負荷に対処する。FNOはメッシュ不変性を維持し、濃度誤差を1%以下に抑え、すべての負荷タイプで1.7mV以下の電圧平均絶対誤差を発生させる。PE-FNOは16スレッドのSPMソルバよりも約200倍高速に実行される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:31:23 GMT)
Deep Space Weather Model: Long-Range Solar Flare Prediction from Multi-Wavelength Images [1.1] Deep Space Weather Model(ディープ・スペース・ウェザー・モデル、ディープ・SWM)は、10チャンネルの太陽画像と長距離の時間的依存関係の両方を扱う複数のディープ・ステート・スペース・モデルに基づいている。
FlareBenchは、太陽フレア予測のための公開ベンチマークで、11年間の太陽活動サイクルをカバーしています。
提案手法は,基準基準法と人的専門家による標準指標の性能を,性能と信頼性の点で上回った。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:06:56 GMT)
CoT-Pose: Chain-of-Thought Reasoning for 3D Pose Generation from Abstract Prompts [1.1] ポーズ生成プロセスにCoT推論を組み込んだ新しいフレームワークを導入する。
本稿では,抽象的なプロンプト,詳細なプロンプト,対応する3Dポーズを自動生成するデータ合成パイプラインを提案する。
実験結果から,我々の推論モデルであるCoT-Poseが,有意かつ意味的に整合したポーズを効果的に生成できることが示唆された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:43:41 GMT)
From Field to Drone: Domain Drift Tolerant Automated Multi-Species and Damage Plant Semantic Segmentation for Herbicide Trials [1.0] 本稿では,植物分類に基づく階層的推論を用いた汎用的自己教師型視覚モデルを提案する。
このモデルでは種同定(F1-score: 0.52 - 0.85, R-squared: 0.75 - 0.98)と損傷分類(F1-score: 0.28 - 0.44, R-squared: 0.71 - 0.87)を大幅に改善した。
現在はBASFの表現型パイプラインにデプロイされており、大規模で自動化された作物や雑草のモニタリングが多様な地理的に可能である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:08:42 GMT)
Symbolic Quantile Regression for the Interpretable Prediction of Conditional Quantiles [1.0] シンボリック量子回帰(英: Symbolic Quantile Regression、SQR)は、SRを用いて条件量子を予測するためのアプローチである。
SQRは条件付き量子化を予測し、様々な量子化における興味深い特徴の影響を理解するのに適している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:27:40 GMT)
DAGR: Decomposition Augmented Graph Retrieval with LLMs [1.0] DAGRは、複雑な質問と、関連するリンクされたサブグラフを抽出するサブクエストにおけるそれらの分解の両方を活用する検索手法である。
結果として得られるGraph-RAGパイプラインは、複雑なマルチホップ質問の処理と、グラフ構造化データに対する効果的な推論に適している。
DAGRを標準マルチホップQAベンチマークで評価し、競合する既存手法に匹敵する性能または優れた性能を発揮することを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:35:31 GMT)
Chaos into Order: Neural Framework for Expected Value Estimation of Stochastic Partial Differential Equations [1.0] 線形偏微分方程式(SPDE)の期待値を近似する物理インフォームドニューラルネットワークを提案する。
トレーニング中の時空座標とノイズ実現の両方のランダムサンプリングを活用することで、LECは標準フィードフォワードニューラルネットワークをトレーニングし、複数のサンプル間での残留損失を最小限に抑える。
このモデルでは, より低次元における解の期待値の正確な近似を常に学習し, 空間次元の増加に伴うロバスト性低下を予測可能であることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:30:49 GMT)
The Escalator Problem: Identifying Implicit Motion Blindness in AI for Accessibility [1.0] エスカレーター問題(Escalator problem)とは、エスカレーターの走行方向を知覚する最先端のモデルが存在しない問題である。
この盲目は、ビデオ理解におけるフレームサンプリングのパラダイムの支配に起因している。
我々は、純粋に意味認識から堅牢な物理的知覚へのパラダイムシフトを提唱する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:53:09 GMT)
Detecting Mislabeled and Corrupted Data via Pointwise Mutual Information [1.0] 本稿では,ハイブリッドノイズシナリオ下でのデータ選択のための相互情報に基づくフレームワークを提案する。
各サンプルの総合的な相互情報に対するポイントワイドな寄与を計算し、低い寄与はノイズやラベルの誤りを示す。
ラベルの破損下では、高MIサンプルのトレーニングにより、ランダムサンプリングと比較して、最大15%の分類精度が向上する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:39:20 GMT)
Large Language Models as Oracles for Ontology Alignment [1.0] オントロジーアライメントは、ドメイン間で多様なデータソースを統合する上で重要な役割を果たす。
ループ内アライメントは、非常に正確なマッピングを必要とするアプリケーションに不可欠である。
ドメインエキスパートの代替手段としての大規模言語モデル(MLL)。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 22:16:20 GMT)
Logarithmic Depth Decomposition of Approximate Multi-Controlled Single-Qubit Gates Without Ancilla Qubits [1.0] 単一アンシラ量子ビットを用いた多重制御NOTゲートの対数深度分解を改良した。
また,アシラを不要とした相対位相多制御NOTゲートも導入した。
NISQとフォールトトレラント量子アーキテクチャの両方に特に適している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:46:43 GMT)
Morphological Analysis of Semiconductor Microstructures using Skeleton Graphs [0.9] イオンビーム照射によりGe表面に形成された微細構造を加工し, トポロジ的特徴を骨格グラフとして抽出した。
その結果, 主成分分析により解析し, 得られたPCA空間におけるクラスタ分離性を評価した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:10:07 GMT)
Adopting Road-Weather Open Data in Route Recommendation Engine [0.9] 本稿では,大規模道路気象と交通データに関する課題について論じる。
このようなデータセットを扱うために必要なプロセスの実践例として、DigiTrafficのロードウェザー関連属性を紹介します。
さらに、簡単なルーティングアプリケーションに基づくパーソナライズされた道路レコメンデーションエンジンである、ターゲットアプリケーションのための効率的なデータ利用手法を提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:55:32 GMT)
Augmenting Bias Detection in LLMs Using Topological Data Analysis [0.9] 本稿では,StereoSetデータセットに存在するアイデンティティグループを,どのヘッダが表現に寄与しているかを特定するために,トポロジカルデータ解析を用いた手法を提案する。
性別や職業など、特定のカテゴリーの偏見は、ホットスポットとして機能する注目の頭脳に集中していることがわかりました。
提案する指標は、偏り圏内の特定の群に対してどの頭部が偏りを捉えているかを決定するためにも用いられる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:19:47 GMT)
Adaptive Fine-Tuning via Pattern Specialization for Deep Time Series Forecasting [0.9] 時系列予測は、非定常環境において重要な課題である。
本稿では,モデル適応と選択を特化して,ディープニューラルネットワーク(DNN)の性能を向上させる新しいフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:40:08 GMT)
Large Language Models for Czech Aspect-Based Sentiment Analysis [0.9] ドメイン固有の小さなモデルでは、ABSAはゼロショットと少数ショットの設定で汎用LLMより優れている。
我々は,多言語性,モデルサイズ,遅延などの要因が性能に与える影響を分析し,重要な課題を浮き彫りにする誤り解析を提示する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:24:57 GMT)
Few-shot Cross-lingual Aspect-Based Sentiment Analysis with Sequence-to-Sequence Models [0.9] 4つのABSAタスクと6つのターゲット言語と2つのシーケンス・ツー・シーケンス・モデルからなるトレーニングセットに、少数ショット対象言語サンプルを追加する効果を評価する。
我々は、1000のターゲット言語例と英語データを組み合わせることで、モノリンガルベースラインを超越することも実証した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:31:37 GMT)
Interactive Imitation Learning for Dexterous Robotic Manipulation: Challenges and Perspectives -- A Survey [0.8] 有害な操作は、ヒューマノイドロボティクスにおいて不可欠だが非常に複雑な課題である。
実世界のデクスタラスな操作のための既存の学習ベースの手法をレビューする。
有望だが未発見の方向性はインタラクティブな模倣学習であり、人間のフィードバックがロボットの振る舞いを活発に洗練させる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:13:37 GMT)
Superresolution for two incoherent optical sources with arbitrary intensities in two dimensions [0.8] レイリー基準は、長い間、古典的な光学画像の解像度の基本的な限界として機能してきた。
量子力学の進歩は、一対の不整点源と無矛盾な精度の分離を推定できる量子超解像法に繋がった。
2次元光学系では、全体の分離を推定する精度の限界は依然として不明である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:50:07 GMT)
Czech Dataset for Complex Aspect-Based Sentiment Analysis Tasks [0.8] 本稿ではアスペクトベース感情分析(ABSA)のための新しいデータセットを提案する。
レストランドメインからの注釈付きレビューが手作業で3.1Kである。
教師なし学習に適したアノテーションを使わずに2400万のレビューを提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:03:28 GMT)
Encode Me If You Can: Learning Universal User Representations via Event Sequence Autoencoding [0.8] ユーザ行動の本質的な側面を捉えた普遍的なユーザ表現の構築は、現代の機械学習システムにとって重要な課題である。
SyneriseによるRecSys Challenge 2025の目標は、過去のユーザの振る舞いのログからこのようなユニバーサルな振る舞いプロファイルを開発することだった。
本稿では,ユーザインタラクション履歴全体を1つの時系列シーケンスに変換し,GRUベースのオートエンコーダをトレーニングして,このシーケンスを固定サイズのベクトルから再構築する手法を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:28:01 GMT)
Average Contraction Coefficients of Quantum Channels [0.7] 我々は、最悪の場合を超えて、典型的な状態のノイズがいかに区別可能かを研究した。
チャネルの最悪の収縮係数と平均的な振舞いを補間する量子発散の収縮モーメントの族を見つける。
我々はこれらの位相遷移現象を単位雑音を持つランダム量子回路に拡張する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:35:15 GMT)
Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [0.7] この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。
まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。
本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 02:33:53 GMT)
Towards Human-AI Collaboration System for the Detection of Invasive Ductal Carcinoma in Histopathology Images [0.7] 浸潤性乳管癌(Invasive ductal carcinoma,IDC)は乳癌の最も多い形態である。
病理画像中のIDCを検出するためのHuman-in-the-loop(HITL)ディープラーニングシステムを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:45:57 GMT)
Recommendation Is a Dish Better Served Warm [0.7] 本研究では,冷間開始境界について,利用者や項目が冷間と見なされるべきかどうかを判断するための基準を検討することにより,体系的に検討する。
以上の結果から,寒冷開始しきい値の不整合の選択は,不要なデータ除去につながるか,あるいは寒冷インスタンスの誤分類につながる可能性が示唆された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:14:49 GMT)
AI Pedagogy: Dialogic Social Learning for Artificial Agents [0.7] 本研究では,従来のAIトレーニング手法の限界に対処するために,社会的に媒介する学習パラダイムの可能性を探る。
そこで我々は,AI学習者エージェントが,知識のあるAI教師エージェントと教科の教育対話を行う,AIソーシャルガイム(AI Social Gym)と呼ばれる動的環境を導入する。
我々の調査は、異なる教育戦略が、買収の文脈におけるAI学習プロセスにどのように影響するかに焦点を当てている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:32:56 GMT)
Punctuation and Predicates in Language Models [0.6] 我々は,GPT-2,DeepSeek,Gemmaの各層における句読点の必要性と有効性を評価する。
異なる推論規則がLLMによって異なる処理を行うかを検討する。
本研究は, LLMにおける句読解と推論の機構について, 新たな知見を提供するものである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:53:30 GMT)
GaussianFlowOcc: Sparse and Weakly Supervised Occupancy Estimation using Gaussian Splatting and Temporal Flow [0.6] 職業推定は3次元コンピュータビジョンにおいて顕著な課題となっている。
本稿では,GaussianFlowOccと呼ばれる,新規な占有率推定手法を提案する。
ガウススプラッティングにインスパイアされ、伝統的な密度の強いボクセル格子をスパース3Dガウス表現に置き換える。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:08:29 GMT)
Toward Patient-specific Partial Point Cloud to Surface Completion for Pre- to Intra-operative Registration in Image-guided Liver Interventions [0.6] 画像と物理の登録は、術前情報と術中データの融合を可能にする。
登録プロセスを支援するために,患者固有のポイントクラウド補完手法を提案する。
我々はVN-OccNetを利用して部分的術中点群から完全肝表面を生成する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:40:53 GMT)
PCA-Guided Autoencoding for Structured Dimensionality Reduction in Active Infrared Thermography [0.5] 能動赤外線サーモグラフィ(Active Infrared thermography, AIRT)は、産業部品の地下異常を検出するために広く採用されている非破壊検査(NDT)技術である。
AIRTデータの高次元性のため、現在の手法では次元削減のために非線形オートエンコーダ(AE)を採用している。
本稿では,構造化次元減少のための主成分分析ガイド(PCA誘導型)自動符号化フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:58:13 GMT)
Solver-Aided Expansion of Loops to Avoid Generate-and-Test [0.5] 本稿では,最終制約セットを生成するのに必要な組み合わせのみを計算するために,ソルバを用いて全列挙を回避する手法を提案する。
これにより、ハイレベルなユーザモデルをソルバ対応形式に変換する効率が向上する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:59:16 GMT)
Quantum Geometric Phases as a New Window on Gravitational Waves [0.5] 低周波重力波は、メソスコピック光学系において純粋に量子幾何学的な位相を誘導する。
本稿では,光モードの光子数状態がミラーの中心運動と絡み合うラムゼー型干渉計プロトコルを提案する。
この枠組みは低周波重力波モードを求めるための明確な量子的アプローチを確立し、時空ひずみに基づく従来の検出方法に代わるものである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:57:56 GMT)
Physics-Informed Multimodal Bearing Fault Classification under Variable Operating Conditions using Transfer Learning [0.5] 本研究では,物理インフォームド・マルチモーダル畳み込みニューラルネットワーク (CNN) とレイトフュージョンアーキテクチャを提案する。
このモデルには、物理的に不可解な予測をペナルティ化する、新しい物理インフォームド・ロス関数が組み込まれている。
パーダーボーン大学のデータセットの実験では、提案された物理学的インフォームドアプローチが、非物理学的インフォームドベースラインを一貫して上回ることを示した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:32:09 GMT)
Spin Phonon Coupling and Relaxation time in Lu(II) compound with 9.2GHz clock transition [0.4] 固体系では、量子ビットと格子フォノンの相互作用はスピン緩和(T1)とデコヒーレンス(T2)において重要な役割を果たすことが知られている。
本研究では、Lu(II)複素スピン量子ビット上で、顕著なクロック遷移を特徴とする第一原理計算を行う。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:46:48 GMT)
Effortless Vision-Language Model Specialization in Histopathology without Annotation [0.4] VLM(Vision-Language Models)は、様々なタスクにまたがる印象的なゼロショット分類機能を実証している。
その汎用設計は、特定の下流アプリケーションにおいて最適以下の性能をもたらす可能性がある。
本稿では,ドメインおよびタスク関連画像カプセルの事前学習によるVLMのアノテーションなし適応について検討する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:39:27 GMT)
A Bit of Freedom Goes a Long Way: Classical and Quantum Algorithms for Reinforcement Learning under a Generative Model [0.4] 有限水平および無限水平平均逆マルコフ決定過程(MDP)を学習するための古典的および量子オンラインアルゴリズムを提案する。
我々のアルゴリズムは、エージェントが生成的サンプリング方式で環境と自由に対話できるハイブリッド探索・生成的強化学習モデルに基づいている。
我々は、RLから「不確実性に直面した最適主義」や「後続サンプリング」といったいくつかのパラダイムを回避し、代わりに最適なポリシーを直接計算し、使用することで、以前の作品と比較して後悔の限界が良くなることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:00:03 GMT)
Personalized Contest Recommendation in Fantasy Sports [0.4] 本稿では,WiDIR(Wide and Deep Interaction Ranker)をベースとした,スケーラブルなコンテストレコメンデーションシステムを提案する。
オンライン実験は、リコールやその他の重要なビジネス指標の観点から、他の候補モデルよりも顕著に改善されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:22:33 GMT)
Unintended Bias in 2D+ Image Segmentation and Its Effect on Attention Asymmetry [0.4] 教師付き事前訓練モデルはディープラーニング、特に画像分割タスクに広く利用されている。
しかし、バイオメディカルイメージングのような特殊なデータセットに適用すると、事前訓練された重み付けは意図しないバイアスをもたらすことが多い。
本研究では,これらのバイアスの影響について検討し,緩和策を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:47:54 GMT)
Echoes of Agreement: Argument Driven Opinion Shifts in Large Language Models [0.4] 政治偏見評価実験を,支持論と反感論の存在下で実施する。
実験により, 与えられた議論の方向に対するモデル応答が, 実質的に変化していることが示唆された。
これらの効果は、LLMが提示された議論と整合する姿勢に適応する際の空想傾向を示している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:54:14 GMT)
From free-evolution to tomographic representation [0.3] 自由進化プロパゲータを用いて、任意の1次元系の量子確率表現を決定する。
検討された量子系の進化作用素は、対応する時間依存トモグラフィーを確立するためにも用いられる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:30:21 GMT)
Quantum Circuit Complexity of Matrix-Product Unitaries [0.3] 行列積ユニタリ(英: Matrix-product Unitary、MPU)は、1Dシステムにおける絡み合い領域の法則を保存するユニタリ演算子である。
量子回路を用いて大規模なMPUを実装可能であることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:37:14 GMT)
Enhanced Liver Tumor Detection in CT Images Using 3D U-Net and Bat Algorithm for Hyperparameter Optimization [0.3] 肝がんは最も多く、致死的ながんの1つである。
本稿では,CT画像における肝腫瘍自動切除の新たなアプローチを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:21:30 GMT)
Deep Learning-Based Analysis of Power Consumption in Gasoline, Electric, and Hybrid Vehicles [0.3] ICEモデルでは,平均絶対誤差と平均2乗誤差を10~3ドル,累積誤差を3%以下で達成した。
トランスフォーマーと長期短期記憶モデルは、それぞれ4.1%未満と2.1%未満の累積誤差を持つEVとHEVで最高の性能を示した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:37:40 GMT)
CTC Transcription Alignment of the Bullinger Letters: Automatic Improvement of Annotation Quality [0.3] 歴史的文書に対する手書き文字認識は、手書きの可変性、劣化ソース、レイアウト対応アノテーションの制限により、依然として困難である。
我々は,CTCの損失を学習した動的プログラミングとモデル出力確率を用いて,全文字とテキスト行画像とをマッチングするCTCアライメントアルゴリズムに基づく自己学習手法を提案する。
提案手法は性能(例えば、PyLaia の CER の 1.1 パーセント)を改善し、アライメント精度を向上させる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:18:41 GMT)
Handling fabrication defects in hex-grid surface codes [0.3] ヘックスグリッド表面のコードアーキテクチャにおいても、壊れたキュービットとカプラを扱う方法を提案する。
分離された故障量子ビットの場合、回路距離は1つずつ低下する一方、分離された故障量子ビットの場合、その距離は1つまたは両方に低下することを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:55:35 GMT)
Learning Satellite Attitude Dynamics with Physics-Informed Normalising Flow [0.3] 宇宙機の姿勢力学の学習に物理インフォームドニューラルネットワークを組み込むことの利点について検討する。
バシリスクシミュレータで生成されたシミュレーションデータに基づいて複数のモデルを訓練する。
PINNベースのモデルは、制御精度とロバスト性の観点から、純粋にデータ駆動モデルよりも一貫して優れています。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:50:49 GMT)
Discrete Diffusion-Based Model-Level Explanation of Heterogeneous GNNs with Node Features [0.3] 実ノード特徴を持つ異種グラフを合成するモデルレベルの説明手法であるDiGNNExplainerを提案する。
我々は、複数のデータセットに対するアプローチを評価し、DiGNNExplainerが現実的で、モデルの意思決定に忠実な説明を生成することを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:33:10 GMT)
Scheduling of syndrome measurements with a few ancillary qubits [0.2] 本稿では,数量子ビットの効率的なシンドローム計測回路を生成するためのフレームワークを提案する。
平衡データとアシラリー量子ビット数は、物理量子ビットの固定総数以下で低い論理誤差率を達成する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:27:10 GMT)
Recommender Systems for Social Good: The Role of Accountability and Sustainability [0.2] 推薦システムは、責任ある消費をサポートし、環境への影響を減らし、社会的善を育むために、パーソナライズを超えていなければならない。
我々は、推奨モデルの炭素フットプリントを緩和し、公正性を確保し、説明責任メカニズムを実装する戦略を探究する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:11:09 GMT)
Early Explorations of Recommender Systems for Physical Activity and Well-being [0.2] 本稿では,ユーザの身体,ルーチン,幸福に影響を及ぼす有形リコメンデーションの概念的枠組みを紹介する。
信頼と解釈、意図のアライメント、結果の認識という3つのデザインの側面について説明する。
今後のシステムは、長期的な幸福、行動アライメント、そして社会的に責任あるパーソナライゼーションをサポートすることができるのかを概説する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:38:58 GMT)
AI-AI Bias: large language models favor communications generated by large language models [0.2] 雇用差別研究に触発された古典的実験設計を用いて,広範に使用されている大規模言語モデル(LLM)を検証した。
この結果から,LLMをベースとしたAIでは,LLMを提示するオプションが好まれる傾向がみられた。
これは、将来のAIシステムが、クラスとして人間を暗黙に差別し、AIエージェントとAI支援人間に不公平な優位性を与える可能性を示唆している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:57:40 GMT)
Ethics2vec: aligning automatic agents and human preferences [0.2] 本稿では,自動エージェント決定(あるいは制御法則)戦略を多変量ベクトル表現にマッピングする方法を提案する。
Ethics2Vec法は、自動エージェントがバイナリ決定を行う場合に最初に導入される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:52:46 GMT)
Projection-based multifidelity linear regression for data-scarce applications [0.2] 本研究では,高次元出力を持つデータ限定型アプリケーションを対象としたマルチインプット多重出力線形回帰法の開発を行う。
提案手法は,超音速車両の表面圧力場を近似する手法である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 22:55:04 GMT)
Charge sensitivity in the transmon regime [0.2] 我々は、$E_textJ/E_textC approx 50$ であっても、トランスモンはチャージノイズで制限できることを示した。
E_textJ/E_textC approx 50$でも、トランスモンはチャージノイズで制限できる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:34:02 GMT)
MLOps with Microservices: A Case Study on the Maritime Domain [0.1] このケーススタディでは,海上ドメインにおける異常検出のためのMLES(Machine Learning-Enabled System)の構築において学んだ課題と教訓について述べる。
MLESとして、Ocean Guardはコード、モデル、データコントラクトを採用して、サービス間のガイドラインを確立している。
このケーススタディは、ソフトウェアエンジニア、機械学習エンジニア、データサイエンティストに、同様のアプローチをシステムに活用させることを期待している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:45:36 GMT)
An Iterative Reconstruction Method for Dental Cone-Beam Computed Tomography with a Truncated Field of View [0.1] 歯科用コーンビームCT(CBCT)では、コンパクトで費用対効果の高いシステム設計は小さな検出器を使用することが多い。
反復的再構成アプローチでは、トランカットされたFOV内の実際の射影と前方射影との差が反復的に蓄積される。
歯科用CBCTにおけるトラクションアーティファクトの軽減のための2段階的アプローチを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:54:18 GMT)
Microwave-to-Optical Quantum Transduction with Antiferromagnets [0.0] 反強磁性マグノンを介するマイクロ波-光量子変換の理論
研究は、将来の量子配線における反強磁性物質の応用の可能性への道を開く。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:38:17 GMT)
Pangenome-guided sequence assembly via binary optimisation [0.0] パンジェノム誘導配列アセンブリのためのフレームワークを提案する。
単一の参照ゲノムへのバイアスを伴わずに、複雑な領域の短読データを解決できる。
本手法は,量子コンピュータ上で実装可能なグラフ最適化問題としてアセンブリをフレーム化する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:17:21 GMT)
Diagrams-to-Dynamics (D2D): Exploring Causal Loop Diagram Leverage Points under Uncertainty [0.0] 因果ループ図(CLD)は、仮説化された因果構造を表現するために、健康と環境研究で広く使われている。
本研究では,経験的データがない場合にCLDを探索系力学モデル(SDM)に変換するダイアグラム・トゥ・ダイナミクス(D2D)を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:01:32 GMT)
From Source to Target: Leveraging Transfer Learning for Predictive Process Monitoring in Organizations [0.0] 既存の予測プロセス監視(PPM)技術は、十分な量のイベントデータやその他の関連するリソースを必要とする。
本稿では,伝達学習に基づくPPM技術により,適切なイベントデータや関連するリソースを持たない組織がPPMを実装することができる。
実験の結果は、ひとつのビジネスプロセスの知識が、同じまたは異なる組織内の類似したビジネスプロセスに移行できることを示唆している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:03:50 GMT)
Work Statistics via Real-Time Effective Field Theory: Application to Work Extraction from Thermal Bath with Qubit Coupling [0.0] 量子熱状態は、熱力学の第2法則で要求されるように受動的であることが知られている。
本稿では, 熱浴をスピン, フェルミオン, トポロジカルタイプのいずれかのキュービットに結合させることにより, 作業抽出の可能性を検討する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:08:34 GMT)
v-representability on a one-dimensional torus at elevated temperatures [0.0] 有限温度で熱浴に接触する粒子数が一定であれば, 1次元トーラス上に, $v$-representable densities の集合を明示的に与える。
これにより$v$-representabilityが得られ、与えられた$v$-representable densitiesの集合が極大であることが証明される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:14:15 GMT)
mAIstro: an open-source multi-agentic system for automated end-to-end development of radiomics and deep learning models for medical imaging [0.0] mAIstroは、医療AIモデルのエンドツーエンド開発とデプロイのための、オープンソースの、自律的なマルチエージェントフレームワークである。
自然言語インタフェースを通じて探索データ分析、放射能特徴抽出、画像分割、分類、回帰を編成する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:40:16 GMT)
ZClassifier: Temperature Tuning and Manifold Approximation via KL Divergence on Logit Space [0.0] 従来の決定論的ロジットを対角的なガウス分布ロジットに置き換える新しい分類フレームワークZClassifierを導入する。
予測されたガウス分布と単位等方的ガウス分布のKL分散を最小化することにより、温度スケーリングと多様体近似を同時に処理する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:56:15 GMT)
Winner-takes-all for Multivariate Probabilistic Time Series Forecasting [0.0] 本稿では,MCL(Multiple Choice Learning)パラダイムを利用した時系列予測手法であるTimeMCLを紹介する。
提案手法では,複数の頭部を持つニューラルネットワークを用いて,予測の多様性を促進するためにWinner-Takes-All(WTA)損失を利用する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:57:52 GMT)
Wigner representation enables the exact derivation of the atom interferometer phase, unlike the path integral approach [0.0] この表現は、正確に重力、コリオリ、遠心力、重力勾配力を考慮している。
我々は、小さな回転角と短い尋問時間というよく知られた極限において、3つの新しい用語を導出した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:21:34 GMT)
Voice Pathology Detection Using Phonation [0.0] 本研究では,音声の病状を検出するための機械学習フレームワークを提案する。
Saarbr"ucken Voice Databaseからの発声データを解析する。
リカレントニューラルネットワーク(RNN)は、サンプルを正常および病理学的カテゴリに分類する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:33:18 GMT)
Vision-Based Adaptive Robotics for Autonomous Surface Crack Repair [0.0] 本研究は,手作業の削減,安全性の向上,保守作業の合理化などによる人間とロボットの相互作用の分野に寄与する。
先進的なセンシング技術を用いた表面き裂検出と修復のための適応型自律ロボットシステムを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 23:49:55 GMT)
UrzaGPT: LoRA-Tuned Large Language Models for Card Selection in Collectible Card Games [0.0] 我々は、リアルタイムのドラフト決定を推奨するドメイン適応の大規模言語モデルである$textitUrzaGPT$を紹介します。
ゼロショット LLM や最先端のドメイン固有モデルと比較して $textitUrzaGPT$ をベンチマークする。
UrzaGPTを使って小さなモデルを微調整し、わずか10,000ステップで6.2%の精度を得る。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:09:15 GMT)
Topological Feature Compression for Molecular Graph Neural Networks [0.0] 本稿では,圧縮された高次トポロジカル信号と標準分子特性を組み合わせた新しいグラフニューラルネットワーク(GNN)アーキテクチャを提案する。
提案手法は,計算的トラクタビリティと人間の解釈可能な構造を維持しながら,グローバルな幾何学的情報を取得する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:45:47 GMT)
The role of Quantum Diffusion Flux in Super-Luminal Wave Packets [0.0] ガウス波とソリトン波のパケットを解析することにより,三田の論文から得られたいくつかの結果を簡潔に説明する。
我々の主な焦点は、超光波パケットの進化における拡散の役割である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:09:00 GMT)
The Canonical Forms of Matrix Product States in Infinite-Dimensional Hilbert Spaces [0.0] 我々は、分離可能な無限次元ヒルベルト空間のテンソル積の任意の元が、おそらく無限結合次元の行列積状態(MPS)として表せることを証明した。
無限次元MPS (idMPS) の構成は、行列の特異値分解の観点からよく知られた有限次元の構成と類似している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:14:11 GMT)
Steady state properties of periodically driven quantum systems [0.0] 低密度熱ガスと相互作用する周期駆動のN$レベル量子系について検討する。
NESSは、意外にもボルツマン法に則っている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:53:01 GMT)
Stabilizer Testing and Magic Entropy via Quantum Fourier Analysis [0.0] 量子状態とゲートにおける「魔法」のテストと測定のための体系的プロトコルを導入する。
我々のプロトコルは量子畳み込みとスワップテストに基づいており、量子回路で実装されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:10:10 GMT)
Spin-orbit-enabled realization of arbitrary two-qubit gates on moving spins [0.0] 大型スピン軌道相互作用(SOI)は任意の高忠実な2量子ビット(2Q)ゲートを実装するために利用することができる。
停止速度と待ち時間を制御することにより,任意の高忠実度2Qゲートを実現することができることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:35:17 GMT)
Spin liquid and glass behavior in quantum spin models with all-to-all p-spin interactions [0.0] スピン液体とスピンガラス状態は、乱れた量子スピン系の2つの異なる相を表す。
相互作用における異方性の増加はスピン液体相を体系的に抑制し、スピンガラス状態を拡張することを示す。
我々の発見は、量子乱れ相とそれらの間の遷移に関する新たな洞察を提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:30:38 GMT)
Single-gate, multipartite entanglement on a room-temperature quantum register [0.0] ダイヤモンド中の窒素空孔中心のような固体量子レジスタでは、絡み合った状態は、中心電子と個々の核量子ビットの間の逐次的かつ一対のゲートを用いて生成される。
ここでは,室温NV中心を用いた4量子GHZ状態を生成する並列化マルチキュービットエンタングゲートを,2量子ゲートのシーケンスを使用する場合に比べてわずか14.8$mu$s $-$10の速度で示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:46:12 GMT)
Simulation of Charge Stability Diagrams for Automated Tuning Solutions (SimCATS) [0.0] 量子ドットは、量子計算の適切な基礎を提供するために正確に調整されなければならない。
1つの重要なステップは、量子ドット内の適切な数の電子をトラップすることである。
本稿では,そのような測定の現実的なシミュレーションに対する新しいアプローチを紹介する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:36:33 GMT)
Secure Quantum Key Distribution via Entangled Quantum Walkers [0.0] 量子鍵分配(Quantum Key Distribution, QKD)は、セキュアな鍵共有のために設計された暗号手法である。
2つの絡み合った量子ウォーカに基づく新しいQKDプロトコルを提案する。
本プロトコルでは,歩行の極端位置における歩行者間のユニークな相関を利用して,両当事者が独占的に共有する秘密鍵を確立する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:52:29 GMT)
Scaled-Dot-Product Attention as One-Sided Entropic Optimal Transport [0.0] 本研究は、SDPA(Scaled-Dot-product attention)の第一原理的正当性を提供する。
まず、注目の進行は、縮退した片側エントロピー最適輸送問題の正確な解であることを示す。
バックプロパゲーションによって計算される標準勾配は、数学的に有利なポリシー勾配と同一であることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:00:17 GMT)
Sagnac and Mashhoon effects in graphene [0.0] 我々は、回転するナノチューブや無限小の狭いリングの単純化されたモデルの中で、電子の擬スピンスピンと内在スピンの両方を考慮に入れている。
我々の分析は、グラフェンにおけるスピンと擬スピンの自由度の両方の類似点と相違点を強調した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:45:34 GMT)
Robust Anomaly Detection in Network Traffic: Evaluating Machine Learning Models on CICIDS2017 [0.0] 筆者らはCICIDS 2017データセット上で, 4つの代表モデルの比較を行った。
SupervisedとCNNは、慣れ親しんだ攻撃に対してほぼ完璧な精度を達成したが、新しい攻撃に対して劇的なリコールの損失を被った。
監視されていないLOFは、誤報の高揚を犠牲にして、適度な全体的な精度と未知の脅威に対する高いリコールを達成する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:45:26 GMT)
Retrieval-Augmented Generation in Industry: An Interview Study on Use Cases, Requirements, Challenges, and Evaluation [0.0] Retrieval-Augmented Generation (RAG)は、AIにおける急速に進化する分野である。
工業的文脈におけるその実践的応用に関する研究の欠如がある。
本研究では,企業におけるRAGの適用状況について検討した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:40:54 GMT)
Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment [0.0] 以前の研究は、形態学的に整合したトークン化アプローチが性能を向上させるかどうかに関して矛盾する結果を示した。
我々は、テルグ語(凝集)、ヒンディー語(主に凝集を伴う融合)、英語(融合)の類型的に多様な言語を選択する。
形態的アライメントとトークン化の品質という,2つの重要な要素に注目します。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:23:59 GMT)
Rethinking Self-Replication: Detecting Distributed Selfhood in the Outlier Cellular Automaton [0.0] 細胞性オートマトンにおける自然自己複製は、長い間稀であると考えられてきた。
我々はそのような複製が無力化できるという公式な因果的証拠を提示する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:49:11 GMT)
Resource-optimized fault-tolerant simulation of the Fermi-Hubbard model and high-temperature superconductor models [0.0] 高温超伝導体のシミュレーションでは,フェルミ・ハッバードモデルのシミュレーションよりも,トッホリゲートのオーダーが1桁以上必要であることが示されている。
我々は, 早期の耐故障量子コンピュータにおける高温超伝導体の研究への道を開いたと信じている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:54:04 GMT)
Rabi Oscillations Modulated Noise Squeezing in Active Quantum Dot Ensembles [0.0] 本稿では,Rabiの発振が周期的に励起パルス面積に変化する周期的ノイズのスクイーズを引き起こすことを初めて示す。
この実験のノイズは量子限界に達しないので、この条件を準スキューズ(quasi queezing)と呼ぶ。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:06:23 GMT)
Quantum logic operations and algorithms in a single 25-level atomic qudit [0.0] 量子情報処理における137$Ba$+$イオンの使用について実験的に検討する。
我々は,3量子ベルンシュタイン・ヴァジラニアルゴリズムと4量子トフォリゲートを1つのイオンで実装し,高次元キューディット演算を実演する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:53:38 GMT)
Quantum asymptotic amplitude for quantum oscillatory systems from the Koopman operator viewpoint [0.0] 本稿では,量子振動系に対する量子振幅の定義を提案する。
提案した量子振幅は、一定速度で指数関数的に減衰する等方振幅値が得られることを示す。
我々は、量子極限周期振動と量子ノイズ誘起振動に有効な量子周期軌道を導入する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:22:05 GMT)
Quantum Prime Factorization: A Novel Approach Based on Fermat Method [0.0] 合成奇数分解のための新しい量子アルゴリズムを提案する。
私たちは8,689,739を分解しました。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:46:23 GMT)
Quantum Cluster State Model with Haagerup Fusion Category Symmetry [0.0] クラスタ状態モデルの弱いホップ代数一般化に着想を得た(1+1)D格子モデルを提案する。
このモデルはHaagerup圏対称性をサポートし、テンソル積ヒルベルト空間を特徴とすることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:28:07 GMT)
Proton-proton scattering on a quantum computer [0.0] 太陽物理学に関連する低エネルギーでの陽子-陽子-陽子$s$波位相シフトを計算する。
基底状態エネルギーは、ハイブリッド量子古典変動アルゴリズムを用いて計算される。
長距離クーロン力の存在下での短距離核相互作用の理論は散乱を記述するために用いられる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:51:16 GMT)
Progress towards efficient 4-level photon echo memories [0.0] Er:YSO におけるスピン記憶量子メモリの効率(最大80%)を示す。
書き込み時間は150時間,ストレージ時間は25時間である。
そのようなデバイスは量子ネットワークや測定ベースの量子コンピューティングに応用される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:19:05 GMT)
Processing of synthetic data in AI development for healthcare and the definition of personal data in EU law [0.0] 人工知能(AI)は医療を変革する可能性があるが、健康データにアクセスする必要がある。
本研究は,合成データを個人データとして分類すべきかどうかを検討する。
この結果は、特定の要因によっては、合成データが匿名である可能性が高いことを示唆している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:59:06 GMT)
Principle of Diminishing Potentialities in Large N Algebra [0.0] 熱平衡では、DDP(Diminishing potentialities)の原理が$mathcalN=4$ Super Yang-Mills (SYM) 理論の大きい$N$代数に成り立つことを示す。
二つの辺の永遠ブラックホールのコンパクト対称性群 $G$ の極大アーベル部分群 $H$ で交差積をすることで、大きな $N$ 代数学を拡張する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:53:18 GMT)
Preprocessing Algorithm Leveraging Geometric Modeling for Scale Correction in Hyperspectral Images for Improved Unmixing Performance [0.0] 本研究では,アンミックス前のスペクトル変動を補正する新しい前処理アルゴリズムを提案する。
本稿では,スケールの変動性を記述するための厳密な数学的枠組みと,提案アルゴリズムの広範な実験的検証について述べる。
このアルゴリズムの一般化と大きな影響は、実際の超スペクトルアンミックスパイプラインにおける重要なコンポーネントとしての可能性を強調している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:42:35 GMT)
Prediction error certification for PINNs: Theory, computation, and application to Stokes flow [0.0] 厳密な誤差推定は数値解析の基本的なトピックである。
偏微分方程式の解法として物理情報ニューラルネットワーク(PINN)の利用が増加し、関連する予測誤差を定量化するためにいくつかのアプローチが開発されている。
筆者らは以前,PINNエラーを推定するために,半グループベースのフレームワークを構築した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:57:02 GMT)
Playing Atari Space Invaders with Sparse Cosine Optimized Policy Evolution [0.0] 元の空間の有意義な表現を維持しながら、入力空間のサイズを小さくする方法を示す。
本研究では,AtariゲームスペースインベーダーのポリシーとしてのSCOPEの有効性を示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 23:44:08 GMT)
Photon Statistics for Fock and Coherent States Interfering in a Beamsplitter [0.0] Fock state $|nrangle|mrangle$, hybrid state $|nrangle|alpharangle$, and coherent states $|alpharangle|betarangle$。
本研究は,ビームスプリッタを用いた基礎光子統計の理解を目的とした,学生や研究者の紹介資料として,教育資料として意図されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:43:37 GMT)
POMO+: Leveraging starting nodes in POMO for solving Capacitated Vehicle Routing Problem [0.0] この作業ではPOMOを改善し、初期ノードを利用してより情報のある方法でソリューションを見つけるメソッド(textbfPOMO+)を作成しました。
CVLIBRPデータセットでモデルを検証した結果、最大100の顧客が抱える問題インスタンスの改善に気付きました。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:55:16 GMT)
Optomechanically induced transparency in Four-wave mixing atomic ensemble assisted Laguerre-Gaussian vortex cavity system [0.0] コールド原子と一体化したラゲール・ガウス渦空洞系の定常光学応答について検討した。
このハイブリッドシステムでは、原子はキャビティモードと3つのコヒーレント渦ビームによって駆動され、それぞれ独立軌道角運動量(OAM)を担っている。
オプトメカニカルインダクタンス(OMIT)スペクトルはOAM差によって変調されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:11:37 GMT)
Optimization of Quantum-Repeater Networks using Stochastic Automatic Differentiation [0.0] 長距離エンタングルメント分布を可能にするために、量子リピータが想定される。
ここでは、ネットワークの離散モンテカルロシミュレーションから導出物を自動的に抽出する手法、自動微分を用いる。
特に,ネットワーク改善に必要なリピータの最小数,ネットワーク規模をネットワークの物理的サイズに飽和させるリピータの数を把握できた。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:40:23 GMT)
On the Simulation of Conical Intersections in Water and Methanimine Molecules Via Variational Quantum Algorithms [0.0] 本研究では,変分量子アルゴリズムを用いた円錐交叉(CI)の探索を目的として,メタン (CH2NH) および水 (H2O) 分子について検討する。
我々の手法は、変分量子固有解法(VQE)を含む、様々なハイブリッド量子古典法を実装し、比較する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:08:18 GMT)
On continuum and resonant spectra from exact WKB analysis [0.0] 散乱問題を記述するために複素スケーリング法(CSM)と正確なWKB解析を適用する。
我々は、正確なWKB分析に基づいて連続スペクトルを計算し、反転ローゼン・モースポテンシャルのS行列を導出する。
我々の分析は散乱断面積とスペクトル理論を結びつけ、散乱理論と関連する公式の洞察を与える。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:45:06 GMT)
On Noise-Sensitive Automatic Tuning of Gate-Defined Sensor Dots [0.0] ゲート定義量子ドット系では、静電結合されたセンサドットのコンダクタンス変化は、量子ドットの電荷とスピン状態の観測を可能にする。
2つのセンサドット形成バリアゲート電圧を変化させた一連のコンダクタンス測定は、ドットを対応する動作状態に調整するのに役立ちます。
測定したデータの雑音特性を分析し、十分な信号勾配-雑音比で連続領域を識別するための基準を定義する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:14:11 GMT)
Multimodal AI Systems for Enhanced Laying Hen Welfare Assessment and Productivity Optimization [0.0] 養鶏の未来は、主観的で労働集約的な福祉チェックをデータ駆動のインテリジェントなモニタリングエコシステムに置き換えることに依存する。
伝統的な福祉評価は、人間の観察と単一センサーのデータによって制限されるが、現代の農場における鶏の福祉の複雑な多次元的な性質を完全には捉えられない。
この研究は、生産性と倫理的、科学に基づく動物ケアを一体化する、反応的、一助的モニタリングから、積極的な、精密な福祉システムへの移行の基礎を築いた。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:17:16 GMT)
MuaLLM: A Multimodal Large Language Model Agent for Circuit Design Assistance with Hybrid Contextual Retrieval-Augmented Generation [0.0] MuaLLMは、回路設計支援のためのオープンソースのマルチモーダル大規模言語モデル(LLM)エージェントである。
ハイブリッドなRetrieval-Augmented Generationフレームワークと、回路設計研究論文の適応ベクトルデータベースを統合する。
質問応答設計アシスタントとして機能し、複雑なクエリを解釈し、合理的な応答を提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:11:09 GMT)
Momentum Point-Perplexity Mechanics in Large Language Models [0.0] 我々は、大規模言語モデルの内部隠れ状態が、推論中にトークンからトークンへどのように変化するかを研究するために、物理学に基づくアプローチをとる。
隠れ状態の変化率と、物理におけるエネルギーに類似したモデルが持つ次の確実性を組み合わせた量は、ほぼ一定である。
我々は、ターゲットトークンを優先するために最小限の方法で隠れた状態を摂動するジャコビアンステアリングと呼ばれる制御手法を導出する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:50:34 GMT)
Mitigation of correlated readout errors without randomized measurements [0.0] 単一キュービットパウリ測定のみを用いた読み出し誤り軽減プロトコルを提案する。
提案手法は、非常に広い種類の相関ノイズモデルを取得する。
これは、数量子の相関した正の作用素値測定の完全かつ効率的な評価に基づいている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:01:50 GMT)
Memory Effects and Entanglement Dynamics of Finite time Acceleration [0.0] 我々はミンコフスキー時空における滑らかな軌道を構築し、これは過去と未来において慣性であるが、有限期間は一様加速度を受ける。
このような軌道に沿ったUnruh-DeWitt検出器の挙動を解析し、検出器の周波数、加速度、加速度の持続時間に対する完全正の可視性(CP)の依存性について検討する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:34:03 GMT)
Master Equation for Quantum Self-Organization of Atoms and Molecules in Cavities [0.0] 我々は、偏光可能な粒子の単独運動変数の力学に対する効果的なリンドブラッドマスター方程式を導出する。
理論的な記述は、広い温度間隔で力学を捉えていることを示すことによって検証する。
我々の理論は、空洞内の量子気体の力学を記述するための強力な枠組みを提供する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:10:31 GMT)
Likelihood Ratio Tests by Kernel Gaussian Embedding [0.0] カーネル平均値とカーネル共分散埋め込みを組み合わせた新しいカーネルベース非パラメトリック2サンプルテストを提案する。
本試験は, カーネルのRKHS上の特異なガウス測度に対して, それらの埋め込みが異なる確率測度をどうマッピングするかを示す最近の結果に基づく。
我々は、ガウス埋め込み間の相対エントロピー、すなわち確率比に基づくテスト統計を構築した。
可能性比は、2つのガウスの等式対特異点を検出するために特別に調整され、0/infty$"法則を満たす。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:41:38 GMT)
Learning Generative Models for Climbing Aircraft from Radar Data [0.0] 本稿では,標準航空機データ(BADA)モデルがデータから学習した推力の関数的補正によって強化された登山用航空機の生成モデルを提案する。
この手法には3つの特徴がある: BADAと比較すると26.7%の誤差で到着時刻の予測;テストデータと比較すると現実的な軌道を生成する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:53:34 GMT)
KIRETT: Knowledge-Graph-Based Smart Treatment Assistant for Intelligent Rescue Operations [0.0] 世界中の救助活動の必要性は急速に高まっている。
画像上の変化と怪我や健康障害のリスクは、緊急呼び出しの基礎となる。
最初の対応者は、可能な限り短時間で、パーソナライズされた最適化されたヘルスケアを提供できなければならない。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 10:39:15 GMT)
Josephson Traveling Wave Parametric Amplifiers with Plasma oscillation phase-matching [0.0] 本稿では,位相整合のための共振素子として,増幅器の中心となるジョセフソン接合を用いることを提案する。
提案したTWPAの設計は、15dBと3.5GHzの帯域幅を持ち、最先端のTWPAと同等である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:43:53 GMT)
Information Transport in Classic-Quantum Hybrid System [0.0] エントロピーや絡み合いのような量子情報科学における多くの重要な量は密度行列の非線形関数である。
標準開系アプローチは密度行列の1つのコピーだけを進化させ、そのような量のダイナミクスを追跡することは不可能である。
ここでは、このアプローチを量子システムと古典環境との強い結合に拡張する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:41:03 GMT)
Improving LLM Outputs Against Jailbreak Attacks with Expert Model Integration [0.0] Archiasはドメイン内通信とドメイン外通信を区別できるエキスパートモデルである。
Archiasは、ユーザからの問い合わせを、ドメイン内(特に自動車業界)、悪意のある質問、価格注入、インジェクションのプロンプト、ドメイン外の例に分類する。
アーチは調整され、微調整され、小型のため様々な目的に使用される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:32:14 GMT)
Human-Alignment and Calibration of Inference-Time Uncertainty in Large Language Models [0.0] 本研究では,人間のグループレベルの不確実性と従来のモデルキャリブレーションの両概念との密接な一致を判断するために,推論時不確実性尺度の収集を評価する。
その結果,ヒトの回答嗜好に一致していないにもかかわらず,人間の不確実性に強い対応を示す尺度が多数存在することが判明した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:22:45 GMT)
Growing Reservoirs with Developmental Graph Cellular Automata [0.0] 発達型グラフセルオートマタは形態形成の新しいモデルである。
本稿では, 貯水池を育成するためにDGCAsを訓練できることを述べる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:32:01 GMT)
Gradient Electronic Landscapes in van der Waals Heterostructures [0.0] グラフェンや六方晶窒化ホウ素(hBN)のような二次元(2D)材料は、量子エレクトロニクスのための汎用的なプラットフォームを提供する。
ここでは, 熱走査プローブリソグラフィー (tSPL) を用いて, vdWヘテロ構造のスムーズな地形を生成する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:11:48 GMT)
Graded Quantum Codes: From Weighted Algebraic Geometry to Homological Chain Complexes [0.0] 我々は、量子誤り訂正符号の2つのクラスを統一した階数付き量子符号を導入する。
応用例としては、ポスト量子暗号、フォールトトレラント量子コンピューティング、グレードニューラルネットワークによる最適化などがある。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:44:51 GMT)
Genuine Multipartite Nonlocality sharing under sequential measurement [0.0] 我々は量子非局所性共有の研究を$n$-qubit Greenberger-Horne-Zeilinger (GHZ)システムに拡張する。
無バイアスアンシャープ測定による非局所性共有の分析を行った。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:55:10 GMT)
Frequency-Domain Analysis of Time-Dependent Multiomic Data in Progressive Neurodegenerative Diseases: A Proposed Quantum-Classical Hybrid Approach with Quaternionic Extensions [0.0] 時系列データを周波数またはs領域に変換する理論的数学的枠組みを提案する。
パターン検出の強化には,変分量子固有解法(VQE)を用いた量子古典ハイブリッドコンピューティングを用いる。
本枠組みは, 神経変性疾患の精密医学の再定義に向けた基礎研究を, 今後の検証を通じて進めることを目的としている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:03:58 GMT)
Fast hydrogen atom diffraction through monocrystalline graphene [0.0] 150eVから1200eVの運動エネルギーで水素原子を用いた単一層グラフェンによる高速原子回折を報告する。
高解像度画像は、共存する単結晶ドメインからの重なり合うパターンを明らかにする。
飛行時間タギングは無視可能なエネルギー損失を確認し、物質波干渉計に適した方法である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:02:11 GMT)
Fast and efficient long-distance quantum state transfer in long-range spin-$\frac{1}{2}$ models [0.0] 量子状態移動は、長いスピン$frac12$線形鎖の最も近い隣り合うカップリングスキームを超えて研究される。
隣り合うハミルトンの分散関係の性質を爆発させると、平均転写忠実度は99%以上に達する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:01:45 GMT)
Fano microcavity with a pair of suspended resonant mirrors [0.0] スペクトル重重畳された2つのファノ鏡の平面配置による光学マイクロキャビティの実現について報告する。
1次元フォトニック結晶構造をパターン化した超薄膜窒化ケイ素膜を用いて, 単一ファノミラーを有するブロードバンドミラーキャビティやファノキャビティと比較した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:07:14 GMT)
FQGA-single: Towards Fewer Training Epochs and Fewer Model Parameters for Image-to-Image Translation Tasks [0.0] 本稿では、高品質な医用合成CT(sCT)生成画像をより効率的に作成するために、CycleGAN: FQGA-singleにインスパイアされた新しいモデルを提案する。
ベンチマークおよびCBCT-to-sCT生成画像の品質の比較に使用されるCycleGANモデルを用いて,SynthRAD Grand Challengeデータセット上で評価を行った。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 03:55:37 GMT)
Extending unified gravity to account for graviton-graviton interaction [0.0] 標準モデルの通常の4ベクトルおよびテンソル場記法を用いて統一重力を示す。
本研究の主な目的は、重力-重力相互作用を考慮に入れたミンコフスキー時空の理論の定式化を拡張することである。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:40:36 GMT)
Exponentially Improved Constant in Quantum Solution Extraction [0.0] 我々は,指数的に抑制された部分正規化の問題に遭遇することなく,量子メモリサイズ2n$でエンコードされた滑らかで正の定値関数$psi(x)$を抽出するアルゴリズムを提供した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:01:30 GMT)
Exploring Molecular Odor Taxonomies for Structure-based Odor Predictions using Machine Learning [0.0] 構造に基づく臭気予測のための機械学習モデルの予測性能は、専門家とデータ駆動臭気分類の両方を用いて改善できることを示す。
専門的な分類法は意味的および知覚的類似性に基づいており、一方、データ駆動型分類法は匂い記述子のクラスタリング共起パターンに基づいている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:56:50 GMT)
Experimental protocol for observing single quantum many-body scars with transmon qubits [0.0] 量子多体傷(Quantum many-body scars)は、局所的な観測対象の熱的期待値を再現できないエネルギー固有状態である。
本研究では, 固定周波数, 固定結合型超伝導量子ビットのアーキテクチャにおいて, 単一障害を観測するためのプロトコルを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:20:49 GMT)
Expanding a 4-qubit Dicke State a to 5-qubit Dicke State with Limited Qubit Access [0.0] 4量子ディック状態が5量子ディック状態に拡張可能であることを示す。
制限制御下でこの変換を実現する量子回路を提案し,数値解析による解析的導出を支援する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:37:20 GMT)
Exact perturbative expansion of the transport coefficients of a normal low-temperature Fermi gas with contact interactions [0.0] 常相フェルミ液相における短距離相互作用を持つフェルミガスのせん断粘度, 熱伝導率, スピン拡散率を計算した。
我々は、前方散乱限界を超えた衝突振幅を計算するためにランダウ・サルペター方程式を拡張した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:26:12 GMT)
Evolutionary Optimization of Deep Learning Agents for Sparrow Mahjong [0.0] 我々は、Sparrow MahjongでAI意思決定のためのディープラーニングベースのエージェントであるEvo-Sparrowを紹介する。
本モデルは,非決定論的かつ部分的に観察可能なゲーム環境において,ボード状態を評価し,意思決定ポリシーを最適化する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 00:53:52 GMT)
Ethical Challenges in Computer Vision: Ensuring Privacy and Mitigating Bias in Publicly Available Datasets [0.0] 本稿では,コンピュータビジョン技術の創造と展開に関する倫理的問題に光を当てることを目的とする。
コンピュータビジョンは医療、セキュリティシステム、貿易など多くの産業において重要なツールとなっている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 04:03:45 GMT)
Estimating classical mutual information between quantum subsystems with neural networks [0.0] 本稿では,ニューラルネットワークによる量子システムの古典的相互情報と固有エントロピーの再構築の可能性を示す。
ニューラルネットワーク手法は、状態空間に非局在化した常磁性波動関数であっても、古典的相互情報の信頼性の高い推定値を与えることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 06:04:38 GMT)
Enhancing Small LLM Alignment through Margin-Based Objective Modifications under Resource Constraints [0.0] 小さな大きな言語モデル(LLM)は、出力を人間の好みに合わせるのにしばしば困難に直面します。
本稿では2つの軽量DPOベースの変種であるAdaptive Margin-Sigmoid LossとAPO-hinge-zeroを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 20:53:37 GMT)
Enhancing Egocentric Object Detection in Static Environments using Graph-based Spatial Anomaly Detection and Correction [0.0] 本稿では,物体間の空間的関係を明示的にモデル化し,自己中心型フレームにおける異常検出を補正するグラフベースの後処理パイプラインを提案する。
手動でアノテートされたデータに基づいてトレーニングされたグラフニューラルネットワーク(GNN)を用いて、無効なオブジェクトクラスラベルを特定し、近隣のコンテキストに基づいて修正されたクラスラベルを予測する。
実験では、この空間推論を組み込むことで検出性能が大幅に向上し、mAP@50は最大4%向上した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 05:08:02 GMT)
EngiBench: A Framework for Data-Driven Engineering Design Research [0.0] EngiBenchは最初のオープンソースライブラリで、データ駆動エンジニアリング設計のためのさまざまなドメインにまたがる。
EngiOptは、EngiBenchインターフェースと互換性のあるアルゴリズムのコレクションを提供するコンパニオンライブラリである。
これらの問題は、高感度で制約のある設計データセットにより、標準的な機械学習手法に重大な課題をもたらすことが示されている。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:08:57 GMT)
Emergence of distinct relaxation behaviour and Quantum Regression Theorem in the Ultra-strong Coupling Limit [0.0] 開量子系における二時間相関関数を規定する力学式を導出する。
相関関数に係わる演算子の種類により, 2時間相関器の緩和挙動が異なることがわかった。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:04:02 GMT)
EEG-Language Pretraining for Highly Label-Efficient Clinical Phenotyping [0.0] マルチモーダル言語モデリングは、表現学習のブレークスルーを可能にしてきたが、臨床表現型検索のための機能的脳データの範囲では未解明のままである。
本稿では臨床報告と15,000の脳波を訓練した脳波モデル(ELM)を考案した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:47:56 GMT)
Dynamic control of photon-magnon interactions via secondary magnon excitation [0.0] 平面ヘキサゴナルリング共振器上でのYIGとNiFe薄膜間の光子を介するマグノン-マグノン結合について検討した。
ヘキサゴナルリング共振器とパーマロイ膜との結合強度はYIG膜の厚みによって増大する。
これは共振子光子を介する間接的な相互作用チャネルの存在を示唆している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:28:55 GMT)
Differential Privacy for Regulatory Compliance in Cyberattack Detection on Critical Infrastructure Systems [0.0] 本稿では、CIN利害関係者のプライバシー懸念を緩和しつつ、規制の信頼性を高めるためのサイバー攻撃検出フレームワークを提案する。
本手法は,非DPケースに匹敵する誤分類エラー率を誘導し,堅牢なプライバシ保証を実現する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:10:49 GMT)
Deep Reinforcement Learning with anticipatory reward in LSTM for Collision Avoidance of Mobile Robots [0.0] 本稿では,エージェント位置の短期予測に基づく衝突リスク予測手法を提案する。
過去の軌跡に基づいて訓練されたLong Short-Term Memory(LSTM)モデルを用いて,各ロボットの次の位置を推定する。
この予測により,Deep Q-Learning Network (DQN) エージェントの報酬を動的に調節することで,予測される衝突リスクを定義することができる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:55:51 GMT)
Deconfined quantum criticality on a triangular Rydberg array [0.0] ゆらぎは、2つの異なる順序の位相間の連続的な位相遷移を駆動することができる。
いくつかの理論的予測にもかかわらず、DQCPの実験的証拠はいまだ解明されていない。
三角格子上に配置されたレイドベルク原子系においてDQCPを探索可能であることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:00:05 GMT)
Commentary Generation for Soccer Highlights [0.0] GOALデータセットを用いて,サッカーハイライトのコメント生成にMatchVoiceを拡張した。
元のMatchTimeの結果を再現する広範な実験を行い、セットアップを評価します。
以上の結果から,より広範なビデオ言語領域の技法を統合することで,さらなるパフォーマンス向上の必要性が示唆された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:48:37 GMT)
Color it, Code it, Cancel it: k-local dynamical decoupling from classical additive codes [0.0] 本稿では、時間最適、選択的に調整されたシーケンスを構築するための一般的なフレームワークを紹介する。
我々のアプローチは、様々な量子ビットプラットフォームにまたがるコンパクトでハードウェアに適したシーケンスを可能にする。
これにより、量子コンピューティングとシミュレーションの幅広い応用が開かれる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:34:59 GMT)
Cold atomic ensembles as quantum antennas for distributed networks of single-atom arrays [0.0] 光ツイーザーアレイ内の単一中性原子は、局所ノードにおける高忠実性量子コンピューティングのための有望なプラットフォームを提供する。
コールド原子アンサンブルが量子アンテナとして機能する分散量子ネットワークアーキテクチャを設計する。
局所的な演算に単一原子量子ビットの相補的な強度、ネットワークにコールド原子アンサンブルを活用することで、このアプローチはスケーラブルな分散量子コンピューティングとセンシングの道を開く。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 19:55:53 GMT)
CleanCTG: A Deep Learning Model for Multi-Artefact Detection and Reconstruction in Cardiotocography [0.0] マルチスケールの畳み込みとコンテキスト対応のクロスアテンションにより,まず複数のアーティファクトタイプを識別するエンド・ツー・エンドのデュアルステージモデルであるCleanCTGを提案する。
合成データでは、CureCTGは完全人工物検出(AU-ROC = 1.00)と劣化セグメントの平均二乗誤差(MSE)を2.74×10-4に削減した。
933の臨床的CTG記録において、デュース・レッドマン・システムと統合されると、識別された痕跡は特異性(80.70%から82.70%)を高め、中央値の判断時間を33%短縮した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:24:45 GMT)
Characterization of syndrome-dependent logical noise in detector regions [0.0] 本稿では,2つ以上のシンドローム抽出装置からなる検出器領域と関連する論理的パウリチャネルを直接推定するプロトコルを提案する。
我々は,この新たなプロトコルを,閉じ込められたイオンデバイスであるQuantinuum H1-1を用いて,小さなエラー検出コード上で検証する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:07:54 GMT)
Chain of Thought Still Thinks Fast: APriCoT Helps with Thinking Slow [0.0] 我々は、Agnostically Primed CoT (APriCoT)による対物プロンプトを導入する。
APriCoTは、全体的な精度を改善しつつ、ベースレート確率の影響を効果的に低減する。
以上の結果から,CoTだけでは提供できないような緩やかな思考プロセスが必要であることが示唆された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:13:08 GMT)
Cavity-based optical switching via phase modulation in warm rubidium vapor [0.0] 光スイッチングは、スケーラブルなフォールトトレラントフォトニック量子コンピューティングにおける重要な課題である。
この制限を克服し、22 nsの上昇時間、2.4 dBの挿入損失、17.5 dBの絶滅率を示す空洞ベースの光スイッチを提案する。
我々のスイッチの最終的な性能は、速度と効率の両方を組み合わせて、アクティブな多重化、ループベースの量子メモリ、量子エラー訂正プロトコルのフィードフォワードに応用される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 09:11:32 GMT)
Calculating the Projective Norm of higher-order tensors using a gradient descent algorithm [0.0] 射影ノルムを計算することはNPハード問題である。
我々は高次テンソルの射影ノルムを推定する新しい勾配降下アルゴリズムを開発した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:48:29 GMT)
CObL: Toward Zero-Shot Ordinal Layering without User Prompting [0.0] コンカレント・オブジェクト・レイヤ(CObL)という拡散型アーキテクチャを導入する。
CObL はオブジェクト層を並列に生成し、Stable Diffusion を自然オブジェクトの先駆体として使用する。
ゼロショットは、様々な種類の新しい物体を持つ現実世界のタブレットの写真に一般化される。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 22:08:57 GMT)
Bridging ASR and LLMs for Dysarthric Speech Recognition: Benchmarking Self-Supervised and Generative Approaches [0.0] 音素歪みと高い可変性による音声認識(ASR)
Wav2Vec、HuBERT、Whisperといった自己監督型ASRモデルは、将来性を示しているが、変形性音声におけるそれらの有効性は未だ不明である。
本研究は, CTC, seq2seq, LLM強化復号化など, 異なる復号化戦略でこれらのモデルを体系的にベンチマークする。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 14:31:20 GMT)
Beyond Ordinal Preferences: Why Alignment Needs Cardinal Human Feedback [0.0] LLMは嗜好に基づく目的の最適化に依存しており、これらの選好は通常、反応間の順序付き二項選択として引き起こされる。
最近の研究は、ラベルの品質向上や特定のバイアス軽減に重点を置いていますが、より基本的な制限を見つけました。
最適なモデルを選択するには、(単に応答ではなく)エレフモデルよりも好みを回復する必要があることを示し、応答品質に関する基本的なフィードバックのみを特定できることを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:42:33 GMT)
Autonomous Navigation of Cloud-Controlled Quadcopters in Confined Spaces Using Multi-Modal Perception and LLM-Driven High Semantic Reasoning [0.0] 本稿では,GPSを用いた屋内環境における自律ナビゲーションのための高度なAI駆動認識システムを提案する。
システムは、物体検出用YOLOv11、単眼深度推定用深度任意のV2、タイム・オブ・ライト(ToF)センサーと慣性測定ユニット(IMU)を備えたPCBを統合する。
室内テストベッドにおける実験結果は、平均平均精度(mAP50)が0.6、深さ推定平均絶対誤差(MAE)が7.2cm、エンドツーエンドのシステム遅延が1秒以下で達成された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 12:00:03 GMT)
Artificial Intelligence Software Structured to Simulate Human Working Memory, Mental Imagery, and Mental Continuity [0.0] 本稿では,人間の作業記憶システムの反復更新をシミュレートする人工知能アーキテクチャを提案する。
大脳皮質の特別なモジュールをエミュレートするために設計された、いくつかの相互接続されたニューラルネットワークが特徴である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 22:36:58 GMT)
Analytical shortcuts to adiabaticity of weakly driven processes [0.0] 断熱へのショートカットは、過大なパワーが全ての瞬間において無効であることを示し、運転中に非平衡励起が起こらないことを示すことによって証明される。
非焼成過程は、臨界点が達成されるまで非平衡励起を抑えることで焼成過程より優れる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:03:00 GMT)
An effective potential for generative modelling with active matter [0.0] 有限の相関時間を持つ活性粒子プロセスに基づいて生成拡散モデルを実装可能であることを示す。
活性粒子の速度座標に作用するスコア関数を用いる従来の手法とは対照的に、位置座標に有効時間依存電位を課すことにより、時間反転が達成される。
有効ポテンシャルは持続時間において第一次に有効であり、標準スコア関数とその導関数によって完全に決定される力場につながる。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:21:32 GMT)
An Efficient Algorithm for Generating Minimal Unique-Cause MC/DC Test cases for Singular Boolean Expressions [0.0] MC/DC(Modified Condition/Decision Coverage)は、重要なシステムの信頼性と安全性を確保するための構造的カバレッジ基準である。
Unique-Cause MC/DCは高い保証を提供するが、その効率的なテスト生成に関する研究は不足している。
本稿は,N条件のSBEに対して,100%ユニクカスMC/DCを保証するため,N + 1ケースの最小限のテストセットを直接構築する決定論的アルゴリズムである'Robin's Rule'を提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 01:14:49 GMT)
Allee Synaptic Plasticity and Memory [0.0] 本稿ではアリーベース非線形塑性モデルについて検討する。
生物学的にインスパイアされた体重安定化機構、騒音の堅牢性の向上、シナプス調節の限界しきい値を強調している。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:27:23 GMT)
Algebraic approach to a $d$-dimensional matrix Hamiltonian with so($d+1)$ symmetry [0.0] スピン拡張された So($d+1$,1) 代数を導入し、スピン1/2 と so($d+1$) 対称性を持つ$d$次元行列ハミルトンの性質を議論するための興味深いフレームワークを提供することを示した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 13:05:43 GMT)
AI Gossip [0.0] OpenAIのChatGPTやGoogleのGeminiのような生成AIは、日常的に物事を解決します。
これらの幻覚は馬鹿げているとよりよく理解されていると主張する者もいる。
しかし、彼らはゴシップもできるのだろうか?
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:16:36 GMT)
ADAM-SINDy: An Efficient Optimization Framework for Parameterized Nonlinear Dynamical System Identification [0.0] 本稿では,ADAM-SINDyと呼ばれるSINDyフレームワークの新たな手法を提案する。
ADAM-SINDyはADAM最適化アルゴリズムを用いて確立されたアプローチの強みを合成する。
その結果、パラメータ化力学系を同定する際の大幅な改善が示された。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 16:23:44 GMT)
A genetic algorithm to generate maximally orthogonal frames in complex space [0.0] フレームはベクトル空間の基底であり、ベクトルが線型に依存する冗長なオーバースパニング集合である。
任意の大きさの任意のフレームを$d次元複素空間で生成できる遺伝的アルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 18:00:02 GMT)
A Tutorial: An Intuitive Explanation of Offline Reinforcement Learning Theory [0.0] オフライン強化学習(RL)は,エージェントトラジェクトリの固定データセットが環境と追加のインタラクションを伴わずに与えられた場合のリターンを最適化することを目的としている。
これらの理論的洞察を実用的なアルゴリズム設計でブリッジすることは、現在も進行中の課題である。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 08:26:28 GMT)
A Moral Agency Framework for Legitimate Integration of AI in Bureaucracies [0.0] 公務員官僚は人工知能(AI)の恩恵を享受しようとする
これらの懸念は、官僚制の双子の目的に対する脅威、すなわち立法の正当かつ忠実な実施、安定した長期的な統治の提供に焦点を当てている。
本稿では,官僚構造におけるAIの合法的な統合のための3点のモラルエージェンシー・フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 17:49:19 GMT)
A Meta-Learning Method for Estimation of Causal Excursion Effects to Assess Time-Varying Moderation [0.0] DR-W」は、メタラーナーの観点から因果抽出効果を推定するための、柔軟で二重に頑健な推論法である。
提案する推定器の双方向特性を理論的およびシミュレーションにより比較する。
結果は、観察不足や不確実な治療ランダム化確率であっても、一貫した、より効率的な見積もりを示す。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 11:44:19 GMT)
A Frame for Communication Control [0.0] ガバナンス,経済,コミュニティ,科学の4つの専門言語を統合する枠組みが,これらの失敗に対処可能であることを示す。
我々は,このフレームがRAG-LLMアーキテクチャの設計および適用に関する知識を提供し,そのジャーゴン発生の可能性について検討する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 15:49:02 GMT)
A Fast GRASP Metaheuristic for the Trigger Arc TSP with MIP-Based Construction and Multi-Neighborhood Local Search [0.0] 本稿では,複数の構成と複数の近傍局所探索を組み合わせたGRASPに基づくメタヒューリスティックを提案する。
このアルゴリズムはMESS 2024のトップ3で完成し、状態依存の旅行コストを持つリアルタイムルーティングアプリケーションに適していることを示した。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 21:24:38 GMT)
A Constructive Definition of Space via Dynamical Evolution and Observational Acts [0.0] 静的な背景として空間を前提とするのではなく、観測的行為を通じて生じる創発的実体として空間を解釈する。
このアプローチは、古典的領域と量子的領域の両方における空間概念の観測者に依存し、文脈に敏感な性質を強調する。
論文参考訳(メタデータ) (Mon, 11 Aug 2025 07:34:37 GMT)