From Selection to Generation: A Survey of LLM-based Active Learning [153.8] 大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:58:17 GMT)
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.0] 我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。
Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:58:33 GMT)
Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.4] LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。
我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。
実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:38:12 GMT)
MagicArticulate: Make Your 3D Models Articulation-Ready [109.4] 静的な3Dモデルを自動的に調音可能なアセットに変換する効果的なフレームワークであるMagicArticulateを提案する。
まず,高品質な調音アノテーションを備えた33k以上の3Dモデルを含むArticulation-averseベンチマークを紹介し,XL-XLから慎重にキュレートする。
大規模な実験では、MagicArticulateはさまざまなオブジェクトカテゴリで既存のメソッドよりも大幅に優れています。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:53:27 GMT)
Descriminative-Generative Custom Tokens for Vision-Language Models [101.4] 本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。
本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:13:42 GMT)
The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.2] ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。
責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 00:31:25 GMT)
Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction [98.8] 本稿では,音声認識のための最初のプロダクション対応オープンソースソリューションであるStep-Audioを紹介する。
1) 統合された理解と生成を実現する統合音声テキストマルチモーダルモデル、2) 安価な音声クローニングフレームワークを確立し、蒸留によりオープンソースで軽量なStep-Audio-TTS-3Bモデルを生産する生成音声データエンジン、3) 方言、感情、歌、RAP間の動的調整を可能にする命令駆動型微制御システム、4) ツールコールとロールプレイング機能を備えた強化認知アーキテクチャ。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:58:56 GMT)
Is Human-Like Text Liked by Humans? Multilingual Human Detection and Preference Against AI [95.8] 人文と機械文の大きなギャップは、具体性、文化的ニュアンス、多様性にある。
また,人間は必ずしも人書きのテキストを好んではいないこと,特にその情報源を明確に特定できない場合などを見いだす。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:56:46 GMT)
Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.6] 視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:54:49 GMT)
BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.9] BRIGHTERは28の言語で感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:39:50 GMT)
FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.7] FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:54:05 GMT)
What Makes a Maze Look Like a Maze? [92.8] 本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:45:08 GMT)
Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning [90.0] 拡散モデルが自己回帰的アプローチを損なう困難なサブゴールをどのように学習するかを示す。
学習時の難易度に基づいてサブゴールを優先する多粒性拡散モデリング(MDM)を提案する。
Countdown、Sudoku、Boolean Satisfiability Problemsといった複雑なタスクでは、MDMは検索テクニックを使わずに自己回帰モデルよりも優れている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:10:46 GMT)
FairDiverse: A Comprehensive Toolkit for Fair and Diverse Information Retrieval Algorithms [87.8] 情報検索(IR)における公平性と多様性を考慮したアルゴリズム評価のためのオープンソースで標準化されたツールキットであるFairDiverseを提案する。
FairDiverseは、IRパイプラインのさまざまな段階において、前処理、内処理、後処理技術を含む公正で多様なメソッドを統合するためのフレームワークを提供する。
このツールキットは、16のベースモデルにまたがる28のフェアネスと多様性のアルゴリズムの評価をサポートし、2つのコアIRタスクをカバーする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:11:09 GMT)
Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention [86.4] 人間の意図に基づくRGB-Dを用いた3Dオブジェクト検出における新しいタスクである3Dインテントグラウンドを導入する。
3Dインテンショニングは、AIエージェントが人間の意図のみに基づいて、望まれるターゲットを自動的に観察し、推論し、検出することを課題とする。
我々は,この意図に基づく検出問題に対処するために,我々のユニークなアプローチであるIntentNetを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:10:49 GMT)
MARS: Mesh AutoRegressive Model for 3D Shape Detailization [86.0] 3次元形状詳細化のための新しいアプローチであるMARSを紹介する。
本稿では,次のLODトークン予測により,そのような潜在表現を生成するメッシュ自己回帰モデルを提案する。
挑戦的な3次元形状Detailizationベンチマークで行った実験により,提案したMARSモデルが最先端の性能を発揮することが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:12:16 GMT)
Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.4] 本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:58:12 GMT)
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning [83.0] BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。
チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。
AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:27:16 GMT)
LM Agents for Coordinating Multi-User Information Gathering [82.4] PeopleJoinは、LMによる協調的な問題解決を評価するためのベンチマークである。
PeopleJoinは、PeopleJoin-QAとPeopleJoin-DocCreationの2つの評価ドメインで構成されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:19:45 GMT)
How compositional generalization and creativity improve as diffusion models are trained [82.1] 生成モデルでは、多くの新しいデータを生成するために、構成規則を学習する必要があるサンプルはいくつありますか?
言語や画像などのデータ構造を表現するために,木のようなグラフィカルモデルを用いて,単純な文脈自由文法に基づいて学習した拡散モデルを考察する。
拡散モデルは,統計学的に類似したコンテキストを持つクラスタリング機能に必要なサンプル複雑度で構成規則を学習する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:06:33 GMT)
DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection [81.9] 新たに抽出したCommon Crawlデータを用いて構築された大規模多言語コーパスであるDCAD-2000を導入する。
DCAD-2000には2,282言語、46.72TBのデータ、833億のドキュメントがあり、155のハイソース言語と159のスクリプトがある。
我々はFineTaskベンチマークでDCAD-2000の品質を評価し、多言語データセットの品質とタスク性能を大幅に改善した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:28:29 GMT)
APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5] 我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:59:56 GMT)
Navigating the Helpfulness-Truthfulness Trade-Off with Uncertainty-Aware Instruction Fine-Tuning [79.5] インストラクションファインチューニング(IFT)は大規模言語モデル(LLM)の有用性を高める
IFT は LLM に対して、事前訓練中に十分にカバーされていない長い尾の知識で応答を生成し、不明瞭なタスクに一般化する際には、より情報に富むが、より真実に乏しい回答をもたらす。
我々はこのトレードオフに対処するための新しいIFTパラダイムである$textbfUNIT$を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:10:30 GMT)
Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications [78.8] 生成セマンティックコミュニケーション(GenSC)におけるクロスモーダルコンテキスト情報を活用する統合フレームワークであるトークン通信(TokCom)を導入する。
TokComは、最近の生成基盤モデルとマルチモーダル大言語モデル(GFM/MLLM)の成功に動機づけられている。
我々は、画像のGenSC設定において対応するTokComの利点を実証し、クロスモーダルなコンテキスト情報を活用し、セマンティック/パーセプチュアル品質の無視によって帯域幅効率を70.8%向上させる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:14:18 GMT)
SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.8] SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:29:36 GMT)
From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.6] オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。
現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。
この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:17:08 GMT)
Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6] エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。
提案アルゴリズムは,ベイズ理論をモデルとした。
本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:08:50 GMT)
Can LLM Watermarks Robustly Prevent Unauthorized Knowledge Distillation? [76.0] 本稿では,学生モデルが知識蒸留により,透かしの継承を回避しつつ,教師モデルの能力を獲得することができるかどうかを考察する。
本稿では,未ターゲットおよび目標とするトレーニングデータパラフレージング(UP,TP)による蒸留前除去と,推論時透かし中和(WN)による蒸留後除去の2つのカテゴリを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:34:19 GMT)
Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.9] 我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:38:42 GMT)
Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.2] 近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:26:34 GMT)
Bitnet.cpp: Efficient Edge Inference for Ternary LLMs [71.6] 我々はBitNet b1.58と3次LLM向けに最適化された推論システムBitnetを紹介する。
Bitnetは、新しいmpGEMMライブラリを組み込んで、サブ-2ビット毎の軽量、効率的、損失のない推論を容易にする。
我々の実験は、Bitnetが全精度ベースラインで最大6.25倍、低ビットベースラインで最大2.32倍の速度を達成することを示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:06:28 GMT)
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.4] 本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。
我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。
結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:14:04 GMT)
Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.3] RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:43:24 GMT)
Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment [69.7] 本稿では,条件付き確率分布を埋め込んだコントラスト学習手法であるAutoRegEmbedを提案する。
本手法は従来のコントラスト学習手法よりも優れていることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:36:25 GMT)
Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.4] モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。
モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。
この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:34:31 GMT)
Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.1] 本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:22:58 GMT)
Multi-granularity Interest Retrieval and Refinement Network for Long-Term User Behavior Modeling in CTR Prediction [68.9] クリックスルーレート(CTR)の予測は、オンラインパーソナライズプラットフォームにとって不可欠である。
近年の進歩は、リッチなユーザの振る舞いをモデル化することで、CTR予測の性能を大幅に改善できることを示している。
マルチグラニュラリティ興味検索ネットワーク(MIRRN)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:53:43 GMT)
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation [68.4] HealthGPTは医療用大規模視線モデル(Med-LVLM)である
医療的な視覚的理解と生成能力を統合された自己回帰パラダイムに統合する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:17:44 GMT)
FastMCTS: A Simple Sampling Strategy for Data Synthesis [67.6] 我々はモンテカルロ木探索にインスパイアされた革新的なデータ合成戦略であるFastMCTSを紹介する。
FastMCTSは、ステップレベルの評価信号を提供するマルチステップ推論データに対して、より効率的なサンプリング方法を提供する。
英語と中国語の両方の推論データセットの実験では、FastMCTSが30%以上の正しい推論パスを生成することが示されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:27:57 GMT)
Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.6] NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:00:38 GMT)
In-Context Parametric Inference: Point or Distribution Estimators? [66.2] 償却点推定器は一般に後部推論より優れているが、後者は低次元問題では競争力がある。
実験の結果, 償却点推定器は一般に後部推定より優れているが, 後者は低次元問題では競争力があることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:00:24 GMT)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.0] 大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:37:02 GMT)
Towards Neural Scaling Laws for Time Series Foundation Models [63.5] 我々は、エンコーダオンリーとデコーダオンリーのトランスフォーマーの2つの一般的なTSFMアーキテクチャについて検討し、IDおよびOODデータのスケーリング挙動について検討する。
実験の結果,TSFMのログライクな損失はOODとID設定の両方で同様のスケーリング挙動を示すことがわかった。
モデル機能を強化した大規模TSFMの設計とスケーリングのための実用的なガイドラインを提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:35:14 GMT)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.9] 金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:51:33 GMT)
Can Language Models Learn Typologically Implausible Languages? [62.8] 人間の言語にまたがる文法的特徴は、人間の学習バイアスに起因する興味深い相関関係を示している。
言語モデル(LM)が言語普遍性におけるドメイン一般学習バイアスの役割をよりよく決定する方法について論じる。
本研究は,英語(頭初期)と日本語(頭最終)の超自然主義的だが反実的なバージョンを用いて,LMを試験する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:40:01 GMT)
DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.4] 大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:39:21 GMT)
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.3] LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。
本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。
以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:15:07 GMT)
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.9] 我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:21:11 GMT)
Predicting the Performance of Black-box LLMs through Self-Queries [60.9] 大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:41:42 GMT)
How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs [60.3] 本稿では,コード関連ベンチマークの開発を包括的に管理するためのガイドラインとして,55の基準チェックリストからなるHow2Benchを提案する。
私たちは過去10年以内にリリースされた274のベンチマークをプロファイルし、問題を見つけました。
ベンチマークの70%近くはデータ品質保証の措置を取らず、10%以上がオープンソースでも、部分的にはオープンソースでもなかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:49:45 GMT)
Real-time Verification and Refinement of Language Model Text Generation [60.0] 大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。
重要な課題は、時に事実的に誤った答えを生じさせることである。
本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:26:52 GMT)
NaVILA: Legged Robot Vision-Language-Action Model for Navigation [60.0] 人間の言語命令を低レベルの脚関節動作に翻訳するのは簡単ではない。
そこで我々は,VLA(Vision-Language-Action Model)とロコモーションスキルを一体化した2レベルフレームワークであるNaVILAを提案する。
NaVILAは既存のベンチマークのアプローチを大幅に改善している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:27:27 GMT)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.5] この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:04:39 GMT)
SMART: Self-Aware Agent for Tool Overuse Mitigation [58.7] 現在のLarge Language Model (LLM) エージェントは、強力な推論とツールの使用能力を示すが、しばしば自己認識に欠ける。
この不均衡はツール・オーバーユースにつながり、モデルはパラメトリックな知識を持つタスクに対して、不要に外部ツールに依存する。
SMART(Strategic Model-Aware Reasoning with Tools)は、エージェントの自己認識を高め、タスクハンドリングを最適化し、ツールの過剰使用を減らすパラダイムである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:50:37 GMT)
Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception [58.6] 大きな言語モデル(LLM)は様々なタスクにまたがって優れたパフォーマンスを示すが、しばしば知識境界を正確に測定するのに苦労する。
本稿では,LLMの内部状態を有効利用して,効率性やリスクの観点から知識境界に対する認識を高める方法について検討する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:11:09 GMT)
HRP: High-Rank Preheating for Superior LoRA Initialization [58.3] 微調整低域適応(LoRA)のための高域予熱法(HRP)の提案
HRPはLoRAの様々なモデルやタスクにおける一般化の有効性を大幅に向上させる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:39:51 GMT)
Towards Fusing Point Cloud and Visual Representations for Imitation Learning [57.9] 本稿では,ポイントクラウドとRGBモダリティの両方の長所を効果的に組み合わせた,新しい模倣学習手法を提案する。
適応層ノルム条件付けを用いて,グローバルおよびローカル画像トークン上のポイントクラウドエンコーダを条件付けする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:46:54 GMT)
Best of Both Worlds: Regret Minimization versus Minimax Play [57.7] この結果から,悪用可能な相手からOmega(T)$を得ることができながら,少なくともO(1)$損失のリスクを保証できることが分かる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:04:01 GMT)
RIDE: Enhancing Large Language Model Alignment through Restyled In-Context Learning Demonstration Exemplars [57.7] 調整調整は、大きな言語モデル(LLM)が倫理的かつ有用な振る舞いを確実にするために不可欠である。
本稿では,LLMアライメントを向上させるために,ICL(In-context Learning)を用いた低コストでチューニング不要な手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:16:19 GMT)
Continuous Diffusion Model for Language Modeling [57.4] 離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。
本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:54:29 GMT)
Beyond Factual Accuracy: Evaluating Coverage of Diverse Factual Information in Long-form Text Generation [56.8] ICATは、長文テキスト生成における多様な事実情報のカバレッジを測定するための評価フレームワークである。
原子の事実的クレームと出力で提示されるであろう様々な側面のアライメントを計算する。
私たちのフレームワークは、多様性とカバレッジの解釈可能かつきめ細かな分析を提供します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:41:07 GMT)
HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense Reasoning [56.2] 大規模言語モデル(LLM)は、常識推論において顕著な能力を示している。
これらのモデルは、本当に常識的知識を理解しているのか、あるいは単に表現パターンを記憶しているだけなのか?
11,200のケースからなる大規模バイリンガルベンチマークであるHellaSwag-Proを紹介する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:24:02 GMT)
Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.9] 大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:56:23 GMT)
Graph Foundation Models for Recommendation: A Comprehensive Survey [55.7] 大規模言語モデル(LLM)は自然言語を処理し、理解するために設計されており、どちらも非常に効果的で広く採用されている。
最近の研究はグラフ基礎モデル(GFM)に焦点を当てている。
GFM は GNN と LLM の強みを統合し,複雑な RS 問題をより効率的にモデル化する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:47:18 GMT)
Intelligent Mobile AI-Generated Content Services via Interactive Prompt Engineering and Dynamic Service Provisioning [55.6] AI生成コンテンツは、ネットワークエッジで協調的なMobile AIGC Service Providers(MASP)を編成して、リソース制約のあるユーザにユビキタスでカスタマイズされたコンテンツを提供することができる。
このようなパラダイムは2つの大きな課題に直面している: 1) 生のプロンプトは、ユーザーが特定のAIGCモデルで経験していないために、しばしば生成品質が低下する。
本研究では,Large Language Model (LLM) を利用してカスタマイズしたプロンプトコーパスを生成する対話型プロンプトエンジニアリング機構を開発し,政策模倣に逆強化学習(IRL)を用いる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:05:20 GMT)
2FA: Navigating the Challenges and Solutions for Inclusive Access [55.2] 2要素認証(2FA)は、オンライン活動を保護する重要なソリューションとして浮上している。
本稿では,全ユーザに対して安全かつアクセス可能な方法で2FAをデプロイすることの難しさについて検討する。
人気オンラインプラットフォームにおける様々な2FA手法の実装と利用状況について分析を行った。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:23:53 GMT)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.6] 我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:39:58 GMT)
Oversmoothing as Loss of Sign: Towards Structural Balance in Graph Neural Networks [54.6] オーバースムーシングはグラフニューラルネットワーク(GNN)において一般的な問題である
反過剰化手法の3つの主要なクラスは、数学的に符号付きグラフ上のメッセージパッシングと解釈できる。
負のエッジはノードをある程度撃退することができ、これらのメソッドが過剰なスムースを緩和する方法に関する深い洞察を提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:25:36 GMT)
Idiosyncrasies in Large Language Models [54.3] 大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:59:02 GMT)
A Novel Unified Parametric Assumption for Nonconvex Optimization [53.9] 非最適化は機械学習の中心であるが、一般の非凸性は弱い収束を保証するため、他方に比べて悲観的すぎる。
非凸アルゴリズムに新しい統一仮定を導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:25:31 GMT)
BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments [53.7] 大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:50:17 GMT)
Statistical Inference of Constrained Stochastic Optimization via Sketched Sequential Quadratic Programming [53.6] 制約付き非線形最適化問題のオンライン統計的推測を考察する。
これらの問題を解決するために、逐次二次計画法(StoSQP)を適用する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:07:54 GMT)
Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.4] In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:53:49 GMT)
Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.4] MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。
1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。
我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:56:33 GMT)
Magic 1-For-1: Generating One Minute Video Clips within One Minute [53.1] メモリ消費と推論遅延を最適化した効率的なビデオ生成モデルMagic 1-For-1(Magic141)を提案する。
テスト時間スライディングウィンドウを適用することで、1分以内に1分間の動画を生成できるようになり、視覚的品質と動きのダイナミクスが大幅に向上した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:02:08 GMT)
Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.9] 相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。
我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:28:40 GMT)
Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.4] Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:56:20 GMT)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.4] 大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:49:25 GMT)
MMRC: A Large-Scale Benchmark for Understanding Multimodal Large Language Model in Real-World Conversation [52.4] 本稿では,MLLMの6つのコアオープンエンド能力を評価するベンチマークであるMMRCを紹介する。
MMRCにおける20個のMLLMの評価は、オープンエンド相互作用における精度低下を示している。
そこで我々は,会話から重要な情報を記録し,その応答中にモデルを思い出させる,シンプルで効果的なNOTE-TAKing戦略を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:24:49 GMT)
ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.2] 本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。
我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 00:25:52 GMT)
TimeCAP: Learning to Contextualize, Augment, and Predict Time Series Events with Large Language Model Agents [52.1] TimeCAPは、時系列データのコンテキスト化ツールとしてLarge Language Models(LLM)を創造的に利用する時系列処理フレームワークである。
TimeCAPには2つの独立したLCMエージェントが組み込まれており、1つは時系列のコンテキストをキャプチャするテキスト要約を生成し、もう1つはより情報のある予測を行うためにこのリッチな要約を使用する。
実世界のデータセットによる実験結果から,TimeCAPは時系列イベント予測の最先端手法よりも優れていることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:17:27 GMT)
GLTW: Joint Improved Graph Transformer and LLM via Three-Word Language for Knowledge Graph Completion [52.0] 我々は、KGの構造情報をエンコードし、それを大規模言語モデルにマージするGLTWと呼ばれる新しい手法を提案する。
具体的には、局所構造情報とグローバル構造情報の両方を効果的に符号化する改良されたグラフ変換器(iGT)を導入する。
また,KG内のすべてのエンティティを分類対象として用いたサブグラフに基づく多分類学習目標を開発し,学習効率を向上する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:02:59 GMT)
TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.7] TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:45:00 GMT)
$\text{M}^{\text{3}}$: A Modular World Model over Streams of Tokens [51.7] トークン化を個別に最適化しながら、トークンストリームを動的にモデリングする、有望なモジュラーフレームワークとして、トークンベースのワールドモデルが登場した。
本稿では、このフレームワークを拡張した、$textbfm$odular $textbfw$orld $textbfm$odelを紹介します。
アタリ100Kで人間レベルの中央値に到達したのは初めてで、13試合で超人的なパフォーマンスを記録した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:06:10 GMT)
Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation [51.4] 本稿では、行動誘導応答生成によるソーシャルメディアのエンゲージメントをシミュレートする大規模言語モデルの能力について分析する。
GPT-4o-mini,O1-mini,DeepSeek-R1をソーシャルメディアエンゲージメントシミュレーションで評価した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:43:08 GMT)
Focused-DPO: Enhancing Code Generation Through Focused Preference Optimization on Error-Prone Points [51.4] Focused-DPOは、優先度最適化を重要なエラー発生箇所に向けることで、コード生成を強化するフレームワークである。
エラーを起こしやすい点に焦点を当てることで、Focused-DPOはモデル生成コードの正確性と機能を向上させる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:16:02 GMT)
Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning [51.2] クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、モデルが学習したクラスの知識を維持しつつ、新しいクラスを逐次学習できるようにすることを目的とする。
柔軟性と安定性のバランスをとることは、特にタスクIDが不明な場合には、依然として大きな課題である。
本研究では,平均シフト補償と共分散校正を組み合わせたセマンティックドリフト校正法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:57:42 GMT)
Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.1] 我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:42:35 GMT)
ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.9] 逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:38:57 GMT)
Adversary-Aware DPO: Enhancing Safety Alignment in Vision Language Models via Adversarial Training [50.8] 本稿では,相手を意識した新しいトレーニングフレームワークである$textitAdversary-Aware DPO (ADPO)$を提案する。
$textitADPO$は、相手のトレーニングをDPOに統合し、最悪の対向的摂動の下でのVLMの安全性アライメントを強化する。
$textitADPO$は、高度なジェイルブレイク攻撃があっても、VLMが堅牢で信頼性を保つことを保証します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:28:47 GMT)
Detect, Investigate, Judge and Determine: A Knowledge-guided Framework for Few-shot Fake News Detection [50.1] Few-Shot Fake News Detection (FS-FND) は、極めて低リソースのシナリオにおいて、非正確なニュースを実際のニュースと区別することを目的としている。
ソーシャルメディア上でのフェイクニュースの拡散や有害な影響により、このタスクは注目を集めている。
本稿では,内外からLLMを増強するDual-perspective Knowledge-Guided Fake News Detection (DKFND)モデルを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:25:32 GMT)
Global-Local Distillation Network-Based Audio-Visual Speaker Tracking with Incomplete Modalities [49.8] 本稿では,ロバストな音声・視覚的話者追跡のためのグローバルローカル蒸留方式トラッカー(GLDTracker)を提案する。
GLDTrackerは教師による蒸留モデルによって駆動され、各モードから不完全情報の柔軟な融合を可能にする。
AV16.3データセットの実験結果は、提案されたGLDTrackerが既存の最先端オーディオ視覚トラッカーより優れていることを示している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:59:26 GMT)
Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras [49.8] ハイパーコンプレックス画像処理は、代数的および幾何学的原理を含む統一パラダイムで従来の手法を拡張している。
このワークル平均は、自然・生体画像解析のための四元数と2次元平面(四元数 - ピクセルを表す - を2次元平面に分割する)を分割する。
提案手法は、画像の自動処理パイプラインの一部として、カラー外観(例えば、代替リフレクションやグレースケール変換)と画像コントラストを規制することができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:44:46 GMT)
MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.4] 数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:22:24 GMT)
ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [49.0] ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。
本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:42:28 GMT)
Paradigm Completion for Derivational Morphology [48.4] 派生形態学はNLPでは見落とされた問題である。
本稿では、帰納的パラダイム補完の課題を、帰納的パラダイム補完の並列化として紹介する。
我々は、最先端のニューラルモデルが様々な派生パターンを学習でき、非神経ベースラインを16.4%上回っていることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:05:07 GMT)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.3] CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
本稿では,LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:52:29 GMT)
Assistive Large Language Model Agents for Socially-Aware Negotiation Dialogues [48.0] 我々は,ビジネス交渉における対話者を支援する大規模言語モデル(LLM)に基づく支援エージェントを開発する。
第3のLLMは、交渉結果を改善するための基準に違反した発話を書き換える仲介役として機能する。
3つの異なる交渉トピックにわたる交渉において,その効果を示すための実証的証拠を豊富に提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:44:36 GMT)
AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.8] 我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:12:33 GMT)
What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations [47.8] 本稿では,科学領域におけるビデオとテキストの要約に特化したデータセットであるVISTAを紹介する。
我々は、最先端の大規模モデルの性能をベンチマークし、抽象概念の構造的性質をよりよく捉えるためにプランベースのフレームワークを適用した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:01:02 GMT)
Exploring the Small World of Word Embeddings: A Comparative Study on Conceptual Spaces from LLMs of Different Scales [47.5] 概念空間は概念をノードとして、意味的関連性はエッジとして表現する。
様々なスケールの大規模言語モデルから単語埋め込みを用いて概念空間を構築する。
我々は,概念的ペア,WordNet関係,質的な単語に対する言語間セマンティックネットワークを解析する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:52:07 GMT)
On-Policy Self-Alignment with Fine-grained Knowledge Feedback for Hallucination Mitigation [47.5] 幻覚は、大きな言語モデルが応答生成時の知識の境界から逸脱する振る舞いを示すときに起こる。
従来の学習に基づく手法はモデルを微調整しようとするが、非政治的なサンプリングと粗い粒度のフィードバックによって制限される。
RLFHは、LLMが自らの知識境界と自己正しい生成挙動を積極的に探求することを可能にする、政治上の自己調整手法である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:20:32 GMT)
Chinese Spelling Correction: A Comprehensive Survey of Progress, Challenges, and Opportunities [47.3] 中国語のスペル訂正(英語: Chinese Spelling Correction, CSC)は、中国語のテキスト中のスペルエラーを検出し修正することを目的とした自然言語処理における重要なタスクである。
このサーベイは、CSCの総合的な概要を提供し、事前訓練された言語モデルから大規模言語モデルへの進化をトレースし、この領域におけるそれぞれの長所と短所を批判的に分析する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:17:27 GMT)
CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction [47.2] 我々は,文脈的に構築されたコードに埋め込まれた多様な推論パターンを凝縮する新しい手法であるCodeI/Oを提案する。
与えられたコードとテストケースを完全に自然言語で予測するためにモデルをトレーニングすることで、それらを普遍的な推論プリミティブに公開します。
実験の結果、CodeI/Oは記号、科学、論理学、数学と数値、常識推論タスクに一貫した改善をもたらすことが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:51:51 GMT)
Independence Tests for Language Models [47.1] 2つのモデルの重みを考えると、独立してトレーニングされたかどうかテストできますか?
制約付きと制約なしの2つの設定を検討します。
本稿では,2つのモデル間の隠れアクティベーションに一致し,逆変換やモデルアーキテクチャの変更に対して堅牢な新しいテストを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:01:08 GMT)
GraphCompNet: A Position-Aware Model for Predicting and Compensating Shape Deviations in 3D Printing [46.8] 本稿では、添加性製造(AM)における形状偏差のモデル化と補償のためのデータ駆動アルゴリズムを提案する。
機械学習(ML)の最近の進歩により補償精度は向上しているが、複雑な地形をまたいで一般化し、位置依存的な変化に適応する問題は残っている。
本稿では,グラフベースニューラルネットワークとGAN(Generative Adversarial Network)にインスパイアされたトレーニングプロセスを組み合わせた計算フレームワークであるGraphCompNetを用いて,粉体層融合プロセスの新しいアプローチを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:05:43 GMT)
Leveraging Dual Process Theory in Language Agent Framework for Real-time Simultaneous Human-AI Collaboration [46.7] 大規模言語モデル(LLM)は、ターンバイターンの人間とAIのコラボレーションにおいて優れているが、リアルタイムの対話を必要とする同時タスクに苦労している。
本稿では,システム1とシステム2を統合した新しい言語エージェントフレームワークであるDPT-Agentを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:09:45 GMT)
InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning [46.6] 本稿では,効率的な小言語モデル (SLM) とマルチモーダル小言語モデル (MSLM) の開発に焦点をあてる。
推論機能を強化し,エッジデバイスへの展開を容易にする,新たなトレーニングパイプラインを導入する。
InfRは、推論を改善し、採用障壁を減らし、より小さなモデルサイズでプライバシの問題に対処することで、AIシステムの改善を目指している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:07:32 GMT)
MING: A Functional Approach to Learning Molecular Generative Models [46.2] 本稿では,関数表現に基づく分子生成モデル学習のための新しいパラダイムを提案する。
本稿では,関数空間における分子分布を学習する拡散モデルである分子インプリシットニューラルジェネレーション(MING)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:09:21 GMT)
Nautilus: Locality-aware Autoencoder for Scalable Mesh Generation [46.1] アーティストのようなメッシュ生成のための局所性を考慮したオートエンコーダであるNautilusを提案する。
本手法では,顔の近接関係を保存する新しいトークン化アルゴリズムを提案する。
また,マルチスケールガイダンスを提供するDual-stream Point Conditionerを開発した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:18:07 GMT)
Bridging Compressed Image Latents and Multimodal Large Language Models [45.8] 本稿では、下流視覚タスクのニーズに合うように圧縮画像ラテントを適応させる最初の研究について述べる。
MLLMは、大規模な言語モデルの成功をテキスト以外のモダリティにまで拡大してきたが、その数十億ドルのスケールは、リソースに制約のあるエンドデバイスへのデプロイメントを妨げる。
本稿では,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を用いた圧縮画像ラテントを適応させる新しいフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:29:40 GMT)
MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs [45.2] 本稿では,パラメータ干渉を緩和する手法,ルーティング,アーキテクチャの異なる専門家をマージするための新しい手法など,新たなMoEマージ手法を提案する。
複数の領域にわたる実験により,提案手法の有効性,微調整コストの低減,最先端手法の性能向上,MoEマージの適用性の向上が示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:51:23 GMT)
Hypernym Bias: Unraveling Deep Classifier Training Dynamics through the Lens of Class Hierarchy [45.0] 分類問題における学習過程はラベルクラスタリングのレンズを通して理解することができると論じる。
具体的には、トレーニングの初期段階において、ネットワークが上位(高位)のカテゴリーを区別する傾向があることを観察する。
学習中に特徴多様体の進化を追跡する新しいフレームワークを導入し、クラス関係の階層構造がどのように現れるかを明らかにする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:47:01 GMT)
Image Inversion: A Survey from GANs to Diffusion and Beyond [44.9] 画像インバージョンは生成モデルの基本課題であり、画像を潜在表現にマッピングすることを目的としている。
本稿では,GAN(Generative Adversarial Network)インバージョンと拡散モデルインバージョンという2つのパラダイムに焦点を当てる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:20:48 GMT)
GLAD: Improving Latent Graph Generative Modeling with Simple Quantization [44.9] GLADを潜在空間グラフ生成モデルとして提示する。
従来のラテント空間グラフ生成モデルとは異なり、GLADは離散ラテント空間で動作する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:06:11 GMT)
Understanding Long Videos with Multimodal Language Models [44.8] LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。
本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。
得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:58:31 GMT)
Selective Task Group Updates for Multi-Task Optimization [44.6] 本稿では,タスクを効果的にグループ化し,学習プロセス中に更新する方法を適応的に決定するアルゴリズムを提案する。
提案手法は,従来のマルチタスク最適化手法よりも大幅に優れている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:26:05 GMT)
Vision CNNs trained to estimate spatial latents learned similar ventral-stream-aligned representations [44.5] 霊長類の腹側視覚ストリームの機能的役割の研究は、伝統的に対象の分類に焦点を当ててきた。
ここでは、別の仮説を探求する: 腹側流は空間的潜伏量の推定に最適化されるか?
数個の空間的遅延を推定するためにトレーニングされたモデルは、数百のカテゴリでトレーニングされたモデルに匹敵するニューラルアライメントスコアを達成できることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:50:21 GMT)
A Survey of Personalized Large Language Models: Progress and Future Directions [44.5] LLM(Large Language Models)は、一般的な知識タスクを扱うのに優れているが、ユーザ固有のパーソナライゼーションに苦慮している。
パーソナライズされた大規模言語モデル(PLLM)は、個々のユーザデータを活用することでこれらの課題に対処する。
PLLMは、ユーザの満足度を大幅に向上させ、会話エージェント、システム、感情認識、医療アシスタントなどの幅広い用途に応用することができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:58:31 GMT)
Investigating Inference-time Scaling for Chain of Multi-modal Thought: A Preliminary Study [44.4] 様々な領域にまたがる10の課題に対して,一般的なサンプリングベースと木探索ベースの推論時間スケーリング手法について検討した。
結果から,マルチモーダル思考は従来のテキストのみの思考よりも性能が向上することが示された。
これらの利点にもかかわらず、マルチモーダル思考はよりリッチな視覚入力を処理するためにより高いトークン消費を必要とする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:29:01 GMT)
JoLT: Joint Probabilistic Predictions on Tabular Data Using LLMs [44.1] 本稿では,JoLT と呼ばれる大規模言語モデル (LLM) に基づく表データの確率的予測法を提案する。
JoLTはデータ変換なしで複数のターゲット変数の共分散を定義する。
テキスト側情報を活用することで,JoLTが欠落したデータを自動的に処理し,データ計算を行うことができることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:03:54 GMT)
Calibration of Vehicular Traffic Simulation Models by Local Optimization [43.9] トラフィックカウントデータを用いたシミュレーションモデルのキャリブレーションは、環境の複雑さ、データの欠如、トラフィックダイナミクスの不確実性のために困難である。
本稿では,シミュレーションに基づく新しい交通キャリブレーション手法を提案する。
ベルギーのブリュッセルで,実交通監視装置のデータを用いて提案手法の評価を行った。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:17:01 GMT)
Entropy-Based Decoding for Retrieval-Augmented Large Language Models [43.9] 外部知識を抽出した大規模言語モデルの拡張は、生成した応答の事実的正確性を改善するのに有効であることが証明されている。
本稿では,この問題を緩和するために,エントロピーを考慮した新しい学習自由復号法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:07:19 GMT)
Zero Token-Driven Deep Thinking in LLMs: Unlocking the Full Potential of Existing Parameters via Cyclic Refinement [43.5] 本稿では,ヘッドテールデカップリングパラメータサイクリング方式を特徴とするZero Token Transformer (ZTT)を提案する。
最初の(頭)層と最後の(尾)層をパラメータサイクリングから切り離し、中間層のみを反復的に洗練します。
提案手法は, 厳密なパラメータ予算下での優れた性能を実現し, 早期出口による計算オーバーヘッドを効果的に低減し, 既存の訓練済みモデルに容易に適用することができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:37:22 GMT)
Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models [43.5] この調査は、従来のアプローチから基礎モデルへの進歩に関する、初めての包括的なレビューを提供する。
1)マルチモーダルドメイン適応,(2)マルチモーダルテスト時間適応,(3)マルチモーダルドメイン一般化,(4)マルチモーダルファンデーションモデルの助けを借りたドメイン適応と一般化,(5)マルチモーダルファンデーションモデルの適応。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:54:39 GMT)
Unhackable Temporal Rewarding for Scalable Video MLLMs [43.5] 時間的ハッキング」とは、モデルが特定のフレームに固定することでショートカットし、完全なビデオ物語を欠く現象である。
この研究は、時間的ハッキングを軽減するために、unhackable Temporal Rewarding (UTR)フレームワークを提案する。
UTRは時間的ハッキングに対処するだけでなく、ビデオの理解能力を大幅に向上させる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:55:55 GMT)
Machine Learning Should Maximize Welfare, Not (Only) Accuracy [43.4] 我々は、現在機械学習が欠落しており、社会福祉の適切な概念を取り入れることで、多くのものを得ることができると論じている。
予測を処分するのではなく,この機械学習を社会福祉の促進に活用することを目指す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:22:46 GMT)
A Problem-Oriented Perspective and Anchor Verification for Code Optimization [43.3] 大規模言語モデル(LLM)は、様々なプログラミングタスクを解く際、顕著な能力を示している。
本稿では,LLMが最小実行時間に最適化する能力について検討する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:38:47 GMT)
Leader and Follower: Interactive Motion Generation under Trajectory Constraints [42.9] 本稿では,対話型モーションジェネレーションにおける動作範囲改善過程について検討する。
Pace ControllerとKinematic Synchronization Adapterを統合した、トレーニング不要のアプローチを提案する。
実験結果から,提案手法は軌道情報をよりよく活用することにより,既存の手法よりも現実性と精度が優れていることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:52:45 GMT)
How Well Do LLMs Handle Cantonese? Benchmarking Cantonese Capabilities of Large Language Models [42.8] 8500万人以上の人々が話していた カントン語のような表現不足言語は 著しい発展のギャップに直面しています
広範に使われているにもかかわらず、カントン語はNLP研究において、特に同様の発展途上国の他の言語と比較して、スカンプト表現を持っている。
我々は、現在のカントンNLP法の概要と、実数生成、数学的論理、複素推論、およびカントンにおける一般知識におけるLLMの性能を評価するために設計された新しいベンチマークを紹介する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:59:54 GMT)
On the practicality of quantum sieving algorithms for the shortest vector problem [42.7] 格子ベースの暗号は、量子後暗号の主要な候補の1つである。
量子攻撃に対する暗号セキュリティは、最短ベクトル問題(SVP)のような格子問題に基づいている
SVPを解くための漸近的な量子スピードアップはGroverの探索に依存している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:16:30 GMT)
SB-Bench: Stereotype Bias Benchmark for Large Multimodal Models [42.5] 大規模マルチモーダルモデル(LMM)におけるステレオ型バイアスは有害な社会的偏見を持続させる。
LMMにおけるステレオタイプバイアスを評価する既存のデータセットは、しばしば多様性に欠け、合成画像に依存している。
我々は、ステレオタイプバイアスを評価するための最も包括的なフレームワークであるStereotype Bias Benchmark(SB-bench)を紹介する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:45:50 GMT)
A-MEM: Agentic Memory for LLM Agents [42.5] 大規模言語モデル(LLM)エージェントは、歴史的経験を活用するためにメモリシステムを必要とする。
現在のメモリシステムは基本的なストレージと検索を可能にするが、洗練されたメモリ構造は欠如している。
本稿では, LLMエージェントに対して, エージェント方式で動的に記憶を整理できる新しいエージェントメモリシステムを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:36:14 GMT)
RAG vs. GraphRAG: A Systematic Evaluation and Key Insights [42.3] 我々は,テキストベースベンチマークを用いて,検索型拡張生成(RAG)とグラフRAGを体系的に評価する。
本結果は,RAGとGraphRAGの異なる課題と評価の観点から,それぞれ異なる強みを浮き彫りにしている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:36:30 GMT)
Statistical Query Hardness of Multiclass Linear Classification with Random Classification Noise [41.2] ランダム分類ノイズ(RCN)を用いた分布自由PACモデルにおけるMLC(Multiclass Linear Classification)の課題について検討する。
本研究の主な貢献として,3つ以上のラベルが存在する場合,RCN との MLC の複雑性が著しく異なることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:54:38 GMT)
Benchmarking Large Language Models via Random Variables [40.7] 近年の研究では、現在の数学ベンチマークの信頼性が懸念されている。
本稿では,Random Variablesによる大規模言語モデルを数学的推論でベンチマークするフレームワークであるRV-Benchを提案する。
以上の結果から,LSMは出現したデータドメインと"見えない"データドメインの習熟度に不整合を示すことが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:06:13 GMT)
Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers [40.4] 深度(MoD)の混合は、重要でない層をスキップすることで計算深度を動的に調整する。
MoDアプローチの主な課題は2つある: 1) 重要なレイヤをバイパスする際のパフォーマンス劣化のリスクを回避できるルータとともに、モデル全体をトレーニングする必要があるため、トレーニングコストが高くなる。
本稿では,小さなデータセット上でのみルータを微調整し,フルモデルトレーニングに伴う計算オーバーヘッドを大幅に削減するルータチューニングを提案する。
第2の課題として、動的深さで注意を配置するMindSkipを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:52:10 GMT)
Unveiling Privacy Risks in LLM Agent Memory [40.3] 大規模言語モデル(LLM)エージェントは、様々な現実世界のアプリケーションでますます普及している。
デモのためにメモリモジュールにプライベートユーザエージェントインタラクションを格納することで、意思決定を強化する。
本稿では,メモリからプライベート情報を抽出するメモリ・エクストルーアクション・アタック(MEXTRA)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:55:53 GMT)
Improve LLM-as-a-Judge Ability as a General Ability [40.2] 大規模言語モデル(LLM)は様々なシナリオで応答を評価し、正確な選好信号を提供する。
近年の研究では、LLMをジェネレーティブ・ジャッジ(ジェネレーティブ・ジャッジ)として訓練する多くの方法が提起されているが、そのほとんどはデータ消費か精度の欠如である。
本研究では、教師付き微調整(SFT)ウォームアップと直接選好最適化(DPO)強化を含む2段階の訓練手法を実装した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:28:43 GMT)
Accurate Expert Predictions in MoE Inference via Cross-Layer Gate [39.5] MoEモデルはエッジシナリオに適しているが、専門家の予測では困難に直面している。
Fateは、リソース制約のある環境で効率的な推論を可能にするために、MoEモデル用に設計されたオフロードシステムである。
Fateはプリフィル速度で4.5倍と1.9倍のスピードアップ、復号速度で4.1倍と2.2倍のスピードアップを達成する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:54:14 GMT)
Deviation Ratings: A General, Clone-Invariant Rating Method [39.5] この研究は、粗相関平衡に基づく偏差レーティングと呼ばれる、最初のN-プレイヤーの一般サムクローン不変レーティングを導入する。
LLMの評価を含むいくつかの領域で評価されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:39:04 GMT)
Connecting Large Language Model Agent to High Performance Computing Resource [39.4] 大規模言語モデルエージェントワークフローにより、LLMはツール関数を実行して、特定の科学的領域の質問のパフォーマンスを向上させることができる。
大規模な科学研究に取り組むためには、計算資源へのアクセスと並列コンピューティングのセットアップが必要である。
我々はLangChain/LangGraphツールコール設定にParslを実装し、LLMエージェントとコンピューティングリソースのギャップを埋める。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:32:30 GMT)
GaussianMotion: End-to-End Learning of Animatable Gaussian Avatars with Pose Guidance from Text [39.2] テキスト記述に整合した完全アニマタブルなシーンを生成する新しいレンダリングモデルを提案する。
本手法は, 変形可能な3次元ガウススプラッティングとテキスト・ツー・3次元スコア蒸留を組み合わせることで, 完全アニマタブルな3次元アバターを生成する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:36:36 GMT)
Training-Free Guidance Beyond Differentiability: Scalable Path Steering with Tree Search in Diffusion and Flow Models [39.1] この研究は、非微分不可能な目的や離散的なデータ分布からの課題に対処するトレーニング不要なガイダンスに焦点を当てている。
本稿では,木探索に基づく経路ステアリングガイダンス(TreeG: Tree Search-Based Path Steering Guidance)を提案する。
実験の結果,TreeGはシンボリック・ミュージック・ジェネレーション,小分子生成,エンハンサーDNA設計において,トップ・ガイダンス・ベースラインを一貫して上回っていることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:20:39 GMT)
Intuitive physics understanding emerges from self-supervised pretraining on natural videos [39.0] 自然映像におけるマスキング領域の予測を訓練したディープニューラルネットワークモデルにおける直感的な物理理解の出現について検討する。
学習された表現空間における結果を予測するために訓練された映像予測モデルは、様々な直感的な物理特性の理解を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:27:14 GMT)
Harness Local Rewards for Global Benefits: Effective Text-to-Video Generation Alignment with Patch-level Reward Models [39.0] 本稿では,パッチ報酬モデルからの局所的なフィードバックを明示的に取り入れた,VGMのためのポストトレーニング戦略HALOを提案する。
効果的なパッチ報酬モデルを開発するために,GPT-4oを蒸留し,映像報酬モデルを継続的に訓練する。
VGM最適化にパッチ報酬を調和的に組み込むため、DMのための粒度DPO(Gran-DPO)アルゴリズムを導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:35:45 GMT)
"See the World, Discover Knowledge": A Chinese Factuality Evaluation for Large Vision Language Models [38.9] 我々は,中国語で「 ChineseSimpleVQA」というファクトリティに基づく視覚質問応答ベンチマークを初めて導入した。
このベンチマークの主な特徴は、中国語、多様な知識タイプ、マルチホップ質問の構築、高品質なデータ、静的な一貫性、短い回答による評価、などである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:02:23 GMT)
Presumed Cultural Identity: How Names Shape LLM Responses [38.8] アイデンティティのコア指標として名前を使うことは、複雑なアイデンティティの過剰な単純化につながる可能性がある。
名前は個人化にとって重要な情報である。
文化的推定値を測定することで、名前に関連付けられたバイアスについて検討する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:35:15 GMT)
Evaluating o1-Like LLMs: Unlocking Reasoning for Translation through Comprehensive Analysis [38.7] o1に似たLLMは、人間の認知過程をシミュレートしてAIを変換している。
複数のo1-like LLMを評価し,ChatGPTやGPT-4oといった従来のモデルと比較した。
その結果、o1-like LLMは、文脈のないタスクでGPT-4oを超えるDeepSeek-R1という、新しい多言語翻訳ベンチマークを構築していることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:23:46 GMT)
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation [38.7] マルチモーダル大規模言語モデルにおける理解と生成のギャップを埋めるためにHermesFlowを提案する。
データを入力として、理解と生成の両方の好みデータをキュレートする。
HermesFlowは、好みデータを用いたマルチモーダル理解と生成を効果的に調整する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:57:51 GMT)
LLM4EFFI: Leveraging Large Language Models to Enhance Code Efficiency and Correctness [38.4] 大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを示している。
ulineLarge ulineLanguage ulineModel for Code ulineEfficiencyは、LLMが効率性と正確性の両方のバランスをとるコードを生成することができる新しいフレームワークである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:01:18 GMT)
NOTA: Multimodal Music Notation Understanding for Visual Large Language Model [38.3] 大規模な総合マルチモーダル音楽表記データセットであるNOTAを提案する。
世界の3つの地域からの1,019,237のレコードで構成され、3つのタスクを含んでいる。
このデータセットに基づいて,音楽表記の視覚的大言語モデルであるNotaGPTを訓練した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:39:19 GMT)
Learning Plasma Dynamics and Robust Rampdown Trajectories with Predict-First Experiments at TCV [37.9] 我々はScientific Machine Learningの最近の進歩を活用し、トカマクランプダウン中のプラズマ力学を予測するニューラルステートスペースモデル(NSSM)を開発した。
NSSMは、反応器内の5パルスのみを含む311パルスの控えめなデータセットから、ランプダウン中のプラズマ力学を効率よく学習する。
TCVによる高性能プラズマの昇圧実験では、プラズマ終端における電流とエネルギーの統計的に有意な改善が見られ、連続的な再学習による速度の向上が見られた。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:19:15 GMT)
Refined PAC-Bayes Bounds for Offline Bandits [37.8] バンディット問題におけるオフポリシー学習における経験的報酬推定の確率的境界について検討した。
我々はRodr'iguezらによって導入された新しいパラメータ最適化アプローチを用いる。
我々は「確率」パラメータを設定することによって得られるのと同じ速度を回復するので、我々の境界はほぼ最適であることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:05:14 GMT)
The Point of View of a Sentiment: Towards Clinician Bias Detection in Psychiatric Notes [37.8] 本研究は, 精神医学的ノートにおける潜在的に有害な言語使用を特徴付けることを目的として, 読取者の視点に基づいて, 患者を記述した文章に表される感情を識別することを目的とする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:48:09 GMT)
Wavefront shaping enhanced nano-optomechanics down to the quantum precision limit [37.7] 本稿では,ナノオプトメカニカル計測方式の感度を最適化するツールとして,ウェーブフロントシェイピングを導入する。
本研究では,波面形状が350倍に向上できることを実証した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:47:40 GMT)
Unsupervised Mutual Learning of Discourse Parsing and Topic Segmentation in Dialogue [37.6] 対話システムでは、会話の焦点の管理と対話のコーディネートにおいて、会話が重要な役割を果たす。
修辞的構造と主題的構造という2つの重要な構造から構成される。
我々は、修辞構造とトピック構造を統合する統一表現を導入し、それら間のセマンティック一貫性を確保する。
本稿では,レトリック構造とトピック構造を協調的にモデル化し,追加アノテーションを必要とせずに相互に強化できる教師なし相互学習フレームワーク(UMLF)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:22:19 GMT)
From Dense to Dynamic: Token-Difficulty Driven MoEfication of Pre-Trained LLMs [37.5] 異なる推論制約に対する大規模言語モデル(LLM)のトレーニングには計算コストがかかる。
DynaMoEは、最小の微調整コストでトークン微分駆動型Mixture-of-Expertsモデルに事前訓練された高密度LCMを適用する。
提案手法は, 微調整コストの$frac19textth$しか使用していないにもかかわらず, 下流タスク間で類似の集計精度を実現する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:12:57 GMT)
Path Planning for Masked Diffusion Model Sampling [37.5] 本稿では,事前学習したBERTモデルやデノイザを用いたサンプリングフレームワークであるPath Planning (P2)を提案する。
P2は、既知の全てのMDMサンプリング戦略を一般化し、様々な領域におけるパフォーマンスを大幅に改善する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:07:09 GMT)
The Role of Deductive and Inductive Reasoning in Large Language Models [37.4] 本稿では,大規模言語モデル(LLM)推論を強化するために,DID法を提案する。
DIDはリトルストーン次元と情報エントロピーを組み合わせた2次元複雑度評価システムを実装している。
その結果,推理精度と解の精度は有意に向上した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:22:52 GMT)
VLDBench: Vision Language Models Disinformation Detection Benchmark [37.4] 本稿では、VLDBenchの視覚言語情報検出ベンチマークについて述べる。
これは、unimodal (textonly) と multimodal (text and image) コンテンツの両方にわたる偽情報を検出するための、最初の包括的なベンチマークである。
VLDBenchは厳格な半自動データキュレーションパイプラインを備えており、22のドメイン専門家がアノテーションに300時間以上の時間を割いている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:18:47 GMT)
Towards Understanding Fine-Tuning Mechanisms of LLMs via Circuit Analysis [37.4] 本稿では,回路解析による微調整プロセスの深い解釈を実現することを目的とする。
我々は、細調整中の様々なチェックポイントの回路を同定し、回路解析、細調整方法、タスク複雑度の間の相互作用を調べる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:59:41 GMT)
Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback [37.3] 階層的なパイプラインとグラフ生成のための新しいデータセットを提案する。
私たちのデータセットであるText2Chart31には、Matplotlibライブラリを参照する31のユニークなプロットタイプが含まれています。
本稿では,人間からのフィードバックを必要とせず,グラフ生成タスクのための強化学習に基づく指導指導手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:04:24 GMT)
Roadmap to fault tolerant quantum computation using topological qubit arrays [37.0] 本稿では、耐雑音性、トポロジカルに保護されたMajoranaベースの量子ビットに基づく、フォールトトレラントな量子コンピューティングアーキテクチャに向けたデバイスロードマップについて述べる。
当社のロードマップは,測定ベースのクビットベンチマークプロトコルを実現する単一キュービットデバイスと,測定ベースのブレイディングを用いて1キュービットのクリフォード演算を行う2キュービットデバイスと,論理キュービット上で行う場合の2キュービット操作の改善を示すために使用可能な8キュービットデバイスと,の4世代にわたる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:00:10 GMT)
Multiband dispersion and warped vortices of strongly-interacting photons [36.9] 我々はRydberg偏光子を共伝播させることにより実現した相互作用光子間の量子相関について検討した。
3つの光子に対して、分散は1つの光子と1つの光子の後方で伝播する光子対の対称性を破る。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:35:10 GMT)
ADO: Automatic Data Optimization for Inputs in LLM Prompts [36.9] 本研究では,プロンプト内の入力データの最適化を通じて,Large Language Models (LLM) の性能を向上させる新しい手法を提案する。
本稿では,コンテンツエンジニアリングと構造改革という,入力データ最適化のための2つの戦略を導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:50:41 GMT)
A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability [36.8] 本稿では,異なる評価機能に着目したデュアルパースペクティブなNLGメタ評価フレームワークを提案する。
また、新しい人的アノテーションを必要とせず、対応するベンチマークを自動的に構築する手法も導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:22:49 GMT)
CriteoPrivateAd: A Real-World Bidding Dataset to Design Private Advertising Systems [36.8] このデータセットは、Criteoプロダクションログの匿名バージョンを表している。
これは、多くのプライバシー制約の下で、オンライン広告で一般的に使用される入札モデルを学ぶのに十分なデータを提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:24:48 GMT)
MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders [36.5] 本稿では,弱いエンコーダの混合物をAudioLLMフレームワークに組み込むことを提案する。
MoWEは、ベースエンコーダに比較的軽量なエンコーダのプールを補足し、音声入力に基づいて選択的にアクティベートし、モデルサイズを大幅に増大させることなく特徴抽出を強化する。
実験の結果,MoWEはマルチタスク性能を効果的に向上し,AudioLLMsの多様なオーディオタスクへの適用性を高めた。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:40:56 GMT)
MuSC: Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training [36.5] より強力なモデルに頼ることなく、複雑な命令アライメントを改善するために、MuSC(Multi-granularity Self-Contrastive Training)フレームワークを提案する。
提案手法は,オープンソースモデルを用いて評価し,提案手法が複雑かつ一般的な命令追従ベンチマークにおいて有意な改善をもたらすことを示す実験結果を得た。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:12:49 GMT)
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning [36.2] 1200プロブレムの大規模言語モデル評価ベンチマークであるPhysReasonを提案する。
問題は平均8.1の解ステップが必要で、ハードは15.6である。
Deepseek-R1、Gemini-2.0-Flash-Thinking、o3-mini-highといったトップパフォーマンスモデルは、回答レベルの評価で60%以下を実現している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:24:14 GMT)
WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback [36.1] WildFeedbackは、大規模言語モデル(LLM)との会話中にユーザからのフィードバックをその場で活用して、好みのデータセットを自動的に作成する新しいフレームワークである。
実験の結果,WildFeedbackデータセットを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:14:31 GMT)
Personalized Help for Optimizing Low-Skilled Users' Strategy [36.0] 我々は、自然言語エージェントであるCICEROを拡張し、プレイヤーの意図に基づいて移動とメッセージのアドバイスを生成する。
初心者や経験豊富なプレイヤーによる12の外交ゲームでは、様々なアドバイス設定があり、生成されたアドバイスのいくつかが有益であることを示している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:36:13 GMT)
InfiFusion: A Unified Framework for Enhanced Cross-Model Reasoning via LLM Fusion [36.0] InfiFusionは、ドメイン特化言語モデル(LLM)を単一のピボットモデルに統合するために設計された、効率的なトレーニングパイプラインである。
Pairwise Fusion (InfiFusion$_p$) と Unified Fusion (InfiFusion$_u$) の2つの融合戦略を提案する。
InfiFusionは、Qwen-2.5-14B-InstructやPhi-4といった最先端のモデルよりも、11の広く適用されたベンチマークで優れている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:49:14 GMT)
Object-Attribute-Relation Representation Based Video Semantic Communication [35.9] 我々は,低ビットレート符号化を実現するためのビデオのセマンティックフレームワークとして,OAR(Object-Atribute-Relation)を導入する。
我々は低ビットレート表現と生成ビデオ再構成の両方にOARシーケンスを利用する。
トラヒック監視ビデオデータセットに関する実験は,映像伝送性能の観点から,我々のアプローチの有効性を評価した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:12:25 GMT)
KnowPath: Knowledge-enhanced Reasoning via LLM-generated Inference Paths over Knowledge Graphs [35.6] 知識グラフのような外部知識の導入は、現実的な回答を提供するLLMの能力を高めることができる。
KnowPathは、内部知識と外部知識の協調によって駆動される、知識に富んだ大規模モデルフレームワークである。
LLMの内部知識に頼り、外部知識グラフの解釈可能な有向部分グラフの探索を導く。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:02:01 GMT)
Hierarchical Graph Topic Modeling with Topic Tree-based Transformer [35.6] 本稿では,文書内のトピック階層と文書間のグラフ階層を統合する階層型グラフトピックモデリング変換器を提案する。
話題とグラフの階層性の両方を保存するため,ハイパーボリック空間におけるモデルの設計と,ハイパーボリックダブルリカレントニューラルネットワークの提案を行う。
教師なし実験と教師なし実験の両方が、我々のモデルの有効性を検証する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:55:29 GMT)
On the Query Complexity of Verifier-Assisted Language Generation [35.4] 本研究では,事前学習した言語モデル生成器を用いて制約付き生成を推論するフレームワークを開発する。
検証者へのアクセスは、難解な問題(情報理論上または計算上)を、難解な問題にレンダリングすることができる。
トークンワイド・リジェクション・サンプリングのような単純なアルゴリズムでさえ、検証器へのアクセスによる大きなメリットを享受できることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:46:32 GMT)
Growth Inhibitors for Suppressing Inappropriate Image Concepts in Diffusion Models [35.3] テキストと画像の拡散モデルは、広範かつ未フィルタリングのトレーニングデータから不適切な概念を不適切な方法で学習する。
本手法は,画像レベルでの微妙な単語の出現を効果的に捉え,ターゲット概念の直接的かつ効率的な消去を可能にする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:34:38 GMT)
LanP: Rethinking the Impact of Language Priors in Large Vision-Language Models [35.0] LVLM(Large Vision-Language Models)は、様々なタスクにおいて顕著なパフォーマンスを示している。
LVLMは幻覚に悩まされ、現実の世界での採用を妨げる。
LVLMにおける言語優先の影響を再考するために,LanPというベンチマークを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:48:34 GMT)
Reinforced Information Retrieval [35.0] textbfReinforced-IRは、事前学習した検索器とジェネレータを併用して正確なクロスドメイン検索を行う新しい手法である。
Reinforced-IRの重要なイノベーションは textbfSelf-Boosting フレームワークである。
我々の実験では、Reinforced-IRは既存のドメイン適応手法を大きなマージンで上回り、広範囲のアプリケーションシナリオで検索品質が大幅に向上した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:52:39 GMT)
Warmup Generations: A Task-Agnostic Approach for Guiding Sequence-to-Sequence Learning with Unsupervised Initial State Generation [34.6] シーケンシャル・ツー・シークエンス・タスクのための従来の教師付き微調整(SFT)戦略は、しばしばターゲット出力を直接生成するようにモデルを訓練する。
モデルが中間の"upwarm"シーケンスを生成可能なタスク非依存フレームワークを提案する。
提案手法は従来のSFT手法よりも優れており,シーケンシャル・ツー・シーケンス・タスクに対してスケーラブルで柔軟なソリューションを提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:23:42 GMT)
Rethinking Latent Representations in Behavior Cloning: An Information Bottleneck Approach for Robot Manipulation [34.5] 行動クローニング(BC)は、ロボット操作において広く採用されている視覚模倣学習手法である。
我々は,潜在表現における冗長性を定量化し緩和するために相互情報を導入する。
本研究は, 様々な方法, バックボーン, 実験環境における潜在表現の冗長性に関する最初の包括的研究である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:04:04 GMT)
On the Universality of Self-Supervised Representation Learning [34.4] i) 識別可能性: トレーニングサンプルで良好に動作すること; (ii) 一般化: 目に見えないデータセットで良好に動作すること; (iii) 転送可能性。
その重要性にもかかわらず、現在の自己教師付き学習法は普遍性の明示的なモデリングを欠いている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:50:31 GMT)
Learning to Sample Effective and Diverse Prompts for Text-to-Image Generation [34.1] 本稿では,元のプロンプトをモデル優先のプロンプトに洗練し,所望の画像を生成するプロンプト適応に着目する。
textbfGFlowNets (textbfPAG) を用いた textbfPrompt textbfAdaptation を導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:28:53 GMT)
GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs [34.1] テキストと画像は通常相互接続され、マルチモーダル属性グラフ(MMAG)を形成する
MLLMが関係情報 (textiti.e. graph structure) と意味情報 (textiti.e. texts and image) をこのようなグラフに組み込んで、マルチモーダルな理解と生成を行う方法が検討されている。
我々は,MMAGにおける全多モーダル理解と生成を支援するGraphGPT-oを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:35:36 GMT)
LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.9] LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。
最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。
すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:45:03 GMT)
EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents [33.8] 異種ロボット間の効果的な協調を実現するための新しいマルチエージェントフレームワークを提案する。
エージェントがロボットURDFファイルを理解し、ロボットキネマティクスツールを呼び出し、その物理能力の記述を生成する。
Habitat-MASベンチマークは、マルチエージェントフレームワークがエンボディメント認識推論を必要とするタスクをどのように処理するかを評価するように設計されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:33:11 GMT)
UltraGen: Extremely Fine-grained Controllable Generation via Attribute Reconstruction and Global Preference Optimization [33.7] 既存のメソッドは主に3から5のような小さな属性セットにフォーカスする。
極微細制御可能ジェネレーション(EFCG)のための新しいゼロショット手法を提案する。
本研究では,制約満足度(CSR)とEFCGのテキスト品質を,バイアスを緩和し,注意の希釈を緩和することで著しく改善する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:28:58 GMT)
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model [33.7] 一般的なビデオ理解タスク用に設計された,初のオープンソース推論拡張型音声視覚LLMである video-SALMONN-o1 を提案する。
我々は,ステップバイステップのソリューションを用いて,音声視覚問題に挑戦する推論集約型データセットを開発した。
また、RivaBenchは、最初の推論集約型ビデオ理解ベンチマークであり、4000以上の高品質で専門家による質問応答ペアを備えている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:07:40 GMT)
Any Information Is Just Worth One Single Screenshot: Unifying Search With Visualized Information Retrieval [33.7] textitVisualized Information Retrieval または textbfVis-IR と呼ばれる新しいIRパラダイムを定義し,マルチモーダル情報を統一された視覚形式で表現する。
まず、さまざまなソースから大量のスクリーンショットを収集した大規模なデータセットである textbfVIRA (Vis-IR Aggregation) を作成します。
第2に textbfUniSE (Universal Screenshot Embeddings) という,スクリーンショットのクエリやクエリを可能な検索モデルのファミリーを開発する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:40:15 GMT)
FitLight: Federated Imitation Learning for Plug-and-Play Autonomous Traffic Signal Control [33.5] 強化学習(Reinforcement Learning, RL)に基づく交通信号制御(TSC)手法は, 高い学習コストや一般化性の低下といった深刻な問題を提起する。
We propose a novel Federated Imitation Learning (FIL) based framework for multi-intersection TSC, named FitLight。
FitLightはリアルタイムの模倣学習と強化学習へのシームレスな移行を可能にする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:48:46 GMT)
FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback [33.5] FB-Benchは、中国語の実際の使用シナリオ下での人間のフィードバックに対する大規模言語モデルの応答性を評価するために設計されたベンチマークである。
我々は,多種多様なLLMを広範囲に評価し,異なる相互作用シナリオにおける性能の顕著な変動を明らかにした。
我々の研究結果は、現在のモデルの強みと限界の両方を強調し、将来の研究に価値ある洞察と方向性を提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:45:48 GMT)
Exploring LLM-based Student Simulation for Metacognitive Cultivation [33.3] 高品質なシミュレーション学生エージェントを自動生成・フィルタリングするパイプラインを提案する。
我々の研究は、パーソナライズされた学習と教育アセスメントにおける幅広い応用の道を開く。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:12:47 GMT)
Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023 [33.1] 2023年、最初のSCICAPチャレンジが行われ、世界中のチームが拡張されたSCICAPデータセットを使用して、さまざまな学術分野のさまざまなフィギュアタイプをキャプションするモデルを開発するよう促した。
本稿では,第1回SCICAPチャレンジの概要と,そのデータ上での各種モデルの性能について詳述し,フィールド状態のスナップショットを撮影する。
プロの編集者は、GPT-4Vが生成した文字キャプションを他の全てのモデルや著者のオリジナルのキャプションよりも圧倒的に好んだ。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:11:44 GMT)
Mufu: Multilingual Fused Learning for Low-Resource Translation with LLM [33.0] 自動生成された多言語候補の選択と、プロンプト内の不正確な翻訳を補正する命令を含む。
Mufuは、翻訳タスクをポストされたタスクに変換する。
Flores-200データセット上でのEn-XX翻訳実験により,Museスタイルのプロンプトに対して微調整されたLLMは,高品質な補助翻訳候補に対して堅牢であることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:05:08 GMT)
Generative Multi-Agent Collaboration in Embodied AI: A Systematic Review [32.7] Embodied Multi-Adnt System (EMAS) は、現実の課題に対処する可能性に注目が集まっている。
基礎モデルの最近の進歩は、よりリッチなコミュニケーションと適応的な問題解決が可能な生成エージェントの道を開いた。
この調査は、EMASがこれらの生成能力の恩恵を受けることができるかを体系的に検証する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:39:34 GMT)
Knowledge Swapping via Learning and Unlearning [32.7] 我々は、事前訓練されたモデルの知識を選択的に制御する新しいタスクであるtextbfKnowledge Swappingを紹介する。
そこで,本稿では,知識交換タスクをtextitLearning Before Forgetting の戦略でベンチマークする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:53:00 GMT)
Wasserstein Distances, Neuronal Entanglement, and Sparsity [32.4] 本研究では,特に重み空間下での非絡み合いが,パフォーマンスの理解にどのように役立つかを検討する。
LLMの各リニア層に、少数の高度に絡み合った「ワッサースタインニューロン」が存在することを示す。
我々のフレームワークは各層の入力を分離し、各ニューロンの出力がワーセルシュタイン距離の低いニューロンの混合によって計算される専門家の混合を生成する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:06:24 GMT)
EXCGEC: A Benchmark for Edit-Wise Explainable Chinese Grammatical Error Correction [32.4] 本稿では,修正作業と説明作業の統合的な役割に着目したExplainable GEC(EXGEC)の課題を紹介する。
この作業を容易にするために,8,216個の説明付きサンプルからなる中国語EXGECの調整されたベンチマークであるEXCGECを提案する。
次に、マルチタスク学習環境において、後説明や事前説明を含む複数のLLMをベンチマークする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:40:05 GMT)
Text4Seg: Reimagining Image Segmentation as Text Generation [32.2] 画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。
セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。
MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:35:12 GMT)
Hyperspherical Energy Transformer with Recurrent Depth [32.0] トランスフォーマーベースの基礎モデルは、膨大なパラメータと計算資源で前例のない成功を収めた。
次世代アーキテクチャを進化させるためには、高い解釈可能性と実用的な能力を持つモデルが必要である。
本報告では,バニラ変圧器のリカレント深さの代替として,textitHyper-Spherical Energy Transformer (Hyper-SET)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:39:11 GMT)
VLM$^2$-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues [32.0] VLM$2$-Benchは、視覚言語モデルがマッチングキューを視覚的にリンクできるかどうかを評価するために設計されたベンチマークである。
我々は、モデルが視覚的手がかりをリンクする能力において重要な課題を特定し、GPT-4oでさえ人間より34.80%遅れている重要なパフォーマンスギャップを浮き彫りにしている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:57:50 GMT)
RoleMRC: A Fine-Grained Composite Benchmark for Role-Playing and Instruction-Following [31.8] ロールプレイングは、大規模言語モデルにとって、多様な指示に従うことが重要である。
既存のロールプレイングデータセットは、主にロールスタイルと知識境界の制御に寄与する。
本稿では,RoleMRCという詳細なロールプレイングと命令フォローのベンチマークを紹介する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:08:37 GMT)
Teleportation With Null Space Gradient Projection for Optimization Acceleration [31.6] 本稿では,テレポーテーション対象関数の勾配を入力ヌル空間に投影するアルゴリズムを提案する。
我々のアプローチは、容易にCNNからトランスフォーマー、そして潜在的に他の高度なアーキテクチャへ一般化できる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:27:16 GMT)
DynamicKV: Task-Aware Adaptive KV Cache Compression for Long Context LLMs [31.6] 既存のKVキャッシュ圧縮手法は、タスク固有の特性を無視し、必須情報の保持を減らす固定パターンを強制する。
本研究では,各層に保持されるトークンの数を調整することで,トークン保持を動的に最適化するDynamicKVを提案する。
本手法は,LongBench上でのフルKVキャッシュ性能の85%を達成しながら,KVキャッシュサイズの1.7%しか保持しない。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:34:58 GMT)
Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation [31.6] 現在の模倣学習(IL)は通常不完全なデータを破棄し、成功した専門家データにのみ焦点をあてる。
本稿では、専門家と不完全なデータを組み合わせた自己監督データフィルタリングフレームワーク(SSDF)を導入し、故障したトラジェクトリセグメントの品質スコアを計算する。
SSDFは、高品質な不完全なデータでトレーニングデータセットを正確に拡張し、すべてのロボット操作タスクの成功率を改善する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:41:03 GMT)
V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models [31.5] 車両間通信(V2V)は提案されているが、検出と追跡に重点を置く傾向にある。
本稿では,Large Language Models (LLM) を協調自律運転に組み込む新しい問題設定を提案する。
また,LLMを用いて複数の連結自動運転車の知覚情報を融合するV2V-LLM法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:34:15 GMT)
AURORA:Automated Training Framework of Universal Process Reward Models via Ensemble Prompting and Reverse Verification [31.5] 本稿では,アンサンブルのプロンプトと逆検証を用いた統一プロセス報酬モデル(PRM)をトレーニングするための新しいフレームワークであるAURORAを提案する。
まず、さまざまなプロンプト戦略とアンサンブルメソッドを使用して、自動化されたアノテーションとプロセスの評価を行います。
フレームワークのパフォーマンスを評価するために、UniversalBenchを導入することで、既存のProcessBenchベンチマークを超えて拡張します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:41:27 GMT)
HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Device Scenarios [31.4] HammerBenchは、実世界のマルチターン対話におけるモバイルアシスタント機能呼び出し機能を評価するための新しいフレームワークである。
実験の結果、異なるタイプのパラメータ名エラーが、異なる相互作用シナリオにおける重大な障害の原因であることを明らかにした。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:46:24 GMT)
Component-aware Unsupervised Logical Anomaly Generation for Industrial Anomaly Detection [31.3] 異常検出は、製品の品質を確保し、自動化プロセスの効率を向上させるために、工業生産において重要である。
最近の生成モデルは、しばしば偽陽性を増大させる非現実的な異常を発生させるか、訓練のために現実世界の異常サンプルを必要とする。
本稿では,論理的異常生成のギャップに対処するコンポーネント・アウェアで教師なしのフレームワークであるComGENを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:54:43 GMT)
MedS$^3$: Towards Medical Small Language Models with Self-Evolved Slow Thinking [31.3] 本稿では,医療業務における長鎖推論を目的とした,展開可能な小規模医療推論システムMedS3を提案する。
MedS3は6.59倍,32Bレベルの一般推論モデルも8.71ポイント向上した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:04:54 GMT)
S2TX: Cross-Attention Multi-Scale State-Space Transformer for Time Series Forecasting [31.2] 時系列予測は, 長距離パターンと短距離パターンの不均一性に対処するマルチスケールモデルにおいて, 最近大きな進歩を遂げている。
これらの問題に対処するため、クロスアテンション(S2TX)を備えた状態空間変換器を提案する。
S2TXは、メモリフットプリントを低く保ちながら、非常に堅牢なSOTA結果を達成することができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:40:45 GMT)
Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives [31.0] 本研究では,時間的・モダリティに特有な脆弱性を考慮した音声視覚モデルの対角的ロバスト性について検討する。
このような攻撃を防ぎつつ,新たな対人訓練フレームワークを導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:50:34 GMT)
Diffusion-EXR: Controllable Review Generation for Explainable Recommendation via Diffusion Models [31.0] Diffusion-EXR と呼ばれる説明可能なレコメンデーションに対する拡散モデルに基づくレビュー生成
拡散-EXRと呼ばれる説明可能な勧告に対する拡散モデルに基づくレビュー生成を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:36:07 GMT)
3D Gaussian Inpainting with Depth-Guided Cross-View Consistency [31.0] 本稿では,3次元の立体インパインティングのための3次元ガウス的インパインティング(3DGIC)のフレームワークを提案する。
当社の3DGICは、さまざまなビューに表示される背景画素を利用して、塗装マスクを更新し、塗装目的のために3DGSを洗練します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:46:47 GMT)
Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models [30.9] IRR (Identify, Remove, and Recalibrate for Safety Realignment) を提案する。
IRRの中核は、保持されたパラメータを再調整しながら、微調整されたモデルから安全でないデルタパラメータを特定し、除去することである。
この結果から,IRRは有害なクエリやジェイルブレイク攻撃などの安全性ベンチマークにおいて,微調整モデルの安全性を著しく向上することが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:03:22 GMT)
SciPIP: An LLM-based Scientific Paper Idea Proposer [30.7] SciPIPは,文献検索とアイデア生成の両面での改善を通じて,科学的アイデアの提案を強化するために設計された,革新的なフレームワークである。
自然言語処理やコンピュータビジョンなど,さまざまな領域で実施した実験では,SciPIPが革新的で有用なアイデアを多数生成する能力を示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:59:45 GMT)
VLP: Vision-Language Preference Learning for Embodied Manipulation [29.7] 具体的操作タスクに対する好みフィードバックを提供するための視覚言語選好モデルを提案する。
選好モデルは言語に関連する特徴を抽出し、様々な下流タスクにおいて選好アノテータとして機能する。
提案手法は,未知のタスクや未知の言語命令に対して,精度の高い選好と一般化を提供し,ベースラインを大きなマージンで上回る。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:32:14 GMT)
Revisiting Classification Taxonomy for Grammatical Errors [29.6] 文法的誤り分類は、言語学習システムにおいて重要な役割を果たす。
既存の分類は厳格な検証を欠くことが多く、矛盾と信頼できないフィードバックにつながります。
本稿では,系統的,定性的な評価枠組みを導入することで,文法的誤りに対する以前の分類を再考する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:16:44 GMT)
Provable Benefit of Annealed Langevin Monte Carlo for Non-log-concave Sampling [28.9] 簡単なアンニール型Langevin Monte Carloアルゴリズムに対して$widetildeOleft(fracdbeta2cal A2varepsilon6right)のオラクル複雑性を確立する。
例えば、$cal A$ は対象分布 $pi$ と容易にサンプリング可能な分布を補間する確率測度の曲線の作用を表す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:29:40 GMT)
Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile [28.9] 3次元フルアテンションを持つ拡散変換器(DiT)は、注意計算の複雑さと多数のサンプリングステップにより、高価な推論に悩まされる。
本稿では,1)ビデオデータの冗長性に基づく3Dフルアテンションの抽出,2)既存の多段整合蒸留によるサンプリングプロセスの短縮,の2つの側面から非効率性の問題に対処する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:08:23 GMT)
BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data [28.9] BIG5-CHATは、人間が言語で人格を表現する方法のモデルを構築するために設計された10万の対話を含む大規模なデータセットである。
提案手法は,BFIやIPIP-NEOなどの人格評価に優れ,特徴相関は人的データとより密に一致している。
実験の結果,高良性,高良性,低外転,低神経障害を訓練したモデルでは,推論タスクの性能が向上することが判明した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:05:21 GMT)
Efficient Response Generation Method Selection for Fine-Tuning Large Language Models [28.7] 近年の研究では、トレーニングで使用する出力変動の選択がモデルの性能に影響を与えることが報告されている。
本稿では,生成したトレーニングデータの小さなサブセットの品質を推定する,スケーラブルで近似的な手法を提案する。
選択した戦略によって生成されたデータに基づいて訓練されたLCMが、大きなパフォーマンス向上をもたらす可能性があることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:14:11 GMT)
\textsc{FLAG-Trader}: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading [28.6] 大規模言語モデル(LLM)は、マルチモーダルな財務データに基づいて微調整されている。
言語処理(LLM)と勾配駆動強化学習(RL)ポリシーの最適化を統合した統一アーキテクチャであるtextscFLAG-Traderを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:45:53 GMT)
Decrypting Cryptic Crosswords: Semantically Complex Wordplay Puzzles as a Target for NLP [28.5] クリプティッククロスワード(英: Cryptic crosswords)は、NLPシステムの進歩に向けた有望なターゲットである。
我々は、NLPシステムの新しいベンチマークとして、秘密の手がかりのデータセットを提示する。
また、課題データ分割を導入し、サブワード・トークン化モデルのメタ言語的能力を検証し、手掛かりのワードプレイ部分を摂動することでモデル体系性を検討する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:17:05 GMT)
PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [28.4] PRISMは、効率的なマルチモーダルデータ選択のためのトレーニング不要のアプローチである。
Pearson相関解析を用いて、MLLMの固有視覚符号化特性の定量化を行う。
ビジュアルインストラクションのチューニングとデータ選択に要する時間を従来の手法の30%に短縮する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:43:41 GMT)
LinguaLIFT: An Effective Two-stage Instruction Tuning Framework for Low-Resource Language Reasoning [28.3] 大規模言語モデル(LLM)は、多言語事前学習コーパスと命令微調整データによって駆動される、印象的な多言語推論能力を示す。
事前学習コーパスにおける言語不均衡に起因する高リソース言語推論タスクと低リソース言語推論タスクの間には,パフォーマンスギャップが存在する。
LinguaLIFTは低リソース言語推論を進めるための2段階の命令チューニングフレームワークである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:20:15 GMT)
Leveraging Labelled Data Knowledge: A Cooperative Rectification Learning Network for Semi-supervised 3D Medical Image Segmentation [27.9] 半教師付き3次元医用画像セグメンテーションは,少ないラベル付きデータと多数の非ラベル付きデータを用いて正確なセグメンテーションを実現することを目的としている。
半教師付き学習法の設計における主な課題は、学習に未学習データを効果的に活用することである。
一貫性学習戦略のための高品質な擬似ラベルを作成するための新しい手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:29:50 GMT)
Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce [27.9] 与えられた言語のデータは、トークンの集まり以上のものと見なすべきである。
優れたデータ収集とラベル付けのプラクティスは、より人間中心で社会的に意識した技術を構築する上で鍵となる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:01:40 GMT)
CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.9] 大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:25:09 GMT)
QuZO: Quantized Zeroth-Order Fine-Tuning for Large Language Models [27.7] 言語モデル(LLM)はしばしば、推論におけるメモリコストとレイテンシを低減するために、精度を下げるために量子化される。
従来の微調整手法ではバックプロパゲーションが必要であり、低精度設定ではエラーが発生しやすい。
本稿では,低精度フォワードパスを用いた微調整LDMのための量子ゼロオーダー(Quantized Zeroth-Order)フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:20:31 GMT)
The Widespread Adoption of Large Language Model-Assisted Writing Across Society [27.3] 求人記事では、LSMが支援する筆記は小企業では10%以下であり、若い企業ではより一般的である。
当社のデータセットには、687,241件の消費者苦情、537,413件の企業プレスリリース、304.3万件の雇用投稿、および15,919件の国連プレスリリースが含まれている。
我々の研究は、企業や消費者、さらには国際機関さえも、コミュニケーションのための生成AIに大きく依存する新しい現実の出現を示している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:25:22 GMT)
MaZO: Masked Zeroth-Order Optimization for Multi-Task Fine-Tuning of Large Language Models [27.0] 本稿では,ZO最適化下でのマルチタスクLLMファインチューニング用に設計された最初のフレームワークであるMaZOを紹介する。
MaZOは2つの重要な革新を通じてパラメータレベルでこれらの課題に取り組む: 臨界パラメータを識別する重みの重みの指標と、これらのパラメータを選択的に更新するマルチタスクの重みの更新マスクである。
実験により、MaZOは、一階最適化のために設計されたマルチタスク学習手法を超越して、最先端の性能を達成することが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:28:52 GMT)
Pragmatics in the Era of Large Language Models: A Survey on Datasets, Evaluation, Opportunities and Challenges [26.8] NLPにおける実用能力を評価するために設計されたリソースのレビューを行う。
タスク設計,データ収集方法,評価手法,および実世界のアプリケーションとの関係について分析する。
本調査は,実用的評価の状況を明確にし,より包括的で目標とするベンチマークの開発を導くことを目的としている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:31:38 GMT)
MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval [26.6] 我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:49:01 GMT)
Control-CLIP: Decoupling Category and Style Guidance in CLIP for Specific-Domain Generation [26.6] Control-CLIPはCLIPファインチューニングフレームワークである。
CLIPモデルは、補完的な方法でカテゴリとスタイルの意味を学ぶことができる。
複数の領域にまたがる実験により,本手法の有効性が確認された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:03:55 GMT)
Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding [26.6] PASTAは、大規模言語モデルにセマンティックな独立性を識別し、独自の応答で並列デコーディングの機会を表現するための学習ベースのシステムである。
PASTA-Langは、LLMが自身の応答でセマンティックな独立性を表現することができるアノテーション言語である。
本研究は,2.2%から7.1%の品質変化を伴う1.21xから1.93xまでの幾何平均スピードアップを,逐次デコードベースラインに対する長さ制御ウィンドレートで測定した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:39:16 GMT)
Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement [26.5] 本稿では,一般的な視覚言語モデルとリモート生理計測タスクをうまく統合する新しいフレームワークを提案する。
フレームワークを最適化する一連の生成的かつコントラスト的な学習メカニズムを開発した。
本手法は,視覚・テキストモダリティにおける周波数関連知識の消化・調整にVLMを初めて適用した手法である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:52:15 GMT)
Pretraining Frequency Predicts Compositional Generalization of CLIP on Real-World Tasks [25.9] CLIPは、事前学習データで観測されたオブジェクトをアンタングルにすることで、それらを簡単に再構成できることを示す。
実際のデータキュレーションでは,オブジェクトの分散化が一般化を促進することが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:52:02 GMT)
Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.7] 実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。
FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:33:11 GMT)
From Informal to Formal -- Incorporating and Evaluating LLMs on Natural Language Requirements to Verifiable Formal Proofs [25.7] 本稿では,形式的推論の即時適用シナリオである形式的検証に焦点を当てる。
我々は5つの形式仕様言語で18kの高品質な命令応答ペアを構築した。
フォーマルなデータによる微調整は、数学、推論、コーディング能力も強化する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:00:34 GMT)
MEMIT-Merge: Addressing MEMIT's Key-Value Conflicts in Same-Subject Batch Editing for LLMs [25.7] 同一主題を共有する複数の編集を含むバッチ処理において,MEMITの編集効率は著しく低下することを示した。
我々の分析によると、根本原因はMEMITのキーバリューモデリングフレームワークにある。
我々は、同じ主題を共有する事実に対して、価値プロセスをマージする強化されたアプローチであるMEMIT-Mergeを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:42:36 GMT)
Cluster and Predict Latent Patches for Improved Masked Image Modeling [25.6] 我々は,潜在クラスタリングの予測に依存する新しい純粋なMIMフレームワークであるCAPIを紹介する。
このアプローチでは,トレーニングに安定なクラスタリングベースの損失を活用し,有望なスケーリング特性を示す。
我々のVT-LバックボーンであるCAPIは、ImageNetで83.8%、ADE20Kで32.1%のmIoUを単純な線形プローブで達成している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:54:11 GMT)
HumanGif: Single-View Human Diffusion with Generative Prior [25.5] HumanGif/strong>は,2次元キャラクタアニメーションの成功に動機づけられた1視点のヒト拡散モデルである。
単一ビューに基づく3次元人間の新しいビューを定式化し、単一ビュー条件のヒト拡散過程として合成する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:55:27 GMT)
LIMR: Less is More for RL Scaling [25.5] 学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:13:29 GMT)
Variable Radiance Field for Real-World Category-Specific Reconstruction from Single Image [25.4] 単一画像からNeural Radiance Field(NeRF)を使用してカテゴリ固有のオブジェクトを再構成することは、有望だが挑戦的な作業である。
本稿では,カテゴリ固有のオブジェクトを効率的に再構成できる新しいフレームワークである可変放射場(VRF)を提案する。
VRFは、再構築品質と計算効率の両方において最先端の性能を達成する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:54:08 GMT)
Hovering Flight of Soft-Actuated Insect-Scale Micro Aerial Vehicles using Deep Reinforcement Learning [25.4] ソフトアクチュレートされた昆虫型マイクロエアロビー(IMAV)は、堅牢で計算効率のよい制御装置を設計する上で、ユニークな課題を生んでいる。
本稿では、システムの遅延と不確実性に対処する深層強化学習(RL)コントローラを設計する。
このコントローラは、それぞれ720 mgと850 mgの2つの異なる昆虫スケールの空中ロボットに展開する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:45:59 GMT)
Towards Practical First-Order Model Counting [25.3] 1次モデルカウント(英: First-order model counting、FOMC)とは、一階述語論理における文のモデル数をカウントする問題である。
1次知識コンパイルに基づく新しい手法が提案された。
この研究の主な貢献は、関数定義を任意の精度演算を備えたC++コードに変換するGantryと呼ばれる完全自動コンパイルアルゴリズムである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:28:06 GMT)
Auto-Search and Refinement: An Automated Framework for Gender Bias Mitigation in Large Language Models [25.3] 巨大なテキストコーパス上でのLLM(Pre-training large language model)は、自然言語処理能力を向上するが、社会的バイアス、特に性別バイアスを符号化するリスクがある。
我々は、Fairwordsを適応的に生成するためのパラダイムを利用する自動化およびモデルに依存しないフレームワークである$textitFaIRMaker$を提案する。
実験によると、$textitFaIRMaker$はFairwordsを自動的に検索し、動的に洗練し、タスクの整合性を維持しながら、事実上性バイアスを緩和する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:44:04 GMT)
Toward Secure Tuning: Mitigating Security Risks from Instruction Fine-Tuning [25.2] SWATと呼ばれる新しいセキュアチューニング戦略を導入する。
モジュールレベルのパラメータがセキュリティ機能空間のドリフトにどのように影響するかを分析することで、Mods_Robと呼ばれるモジュールのロバストなサブセットを特定します。
私たちのSWAT戦略は、Mods_Robをウォームアップして、最小限のセキュリティリスクで低レベルの機能をキャプチャし、続いて、最適なタスクパフォーマンスを達成するためにすべてのパラメータをトレーニングすることから始まります。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:32:33 GMT)
VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution [25.1] 3Dボリュームビデオは没入感のある体験を提供し、デジタルメディアで注目を集めている。
ボリュームビデオコンテンツのストリーミングは、データ帯域幅の要求が高いため、大きな課題となる。
帯域幅問題を緩和するための自然なアプローチは、転送前にコンテンツをダウンサンプリングすることで、ボリュームビデオのデータレートを下げることである。
ボリュームコンテンツに特化して設計された新しいSRアルゴリズムを用いて,VoLUTを開発した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:59:03 GMT)
Demographic Attributes Prediction from Speech Using WavLM Embeddings [25.0] 本稿では, 年齢, 性別, 母語, 教育, 国などの人口動態特性を音声から推定するために, WavLM の特徴に基づく一般的な分類法を提案する。
提案フレームワークは,年齢予測のための平均絶対誤差(MAE)が4.94で,性別分類のための99.81%以上の精度で達成されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:43:47 GMT)
Maximum Entropy Reinforcement Learning with Diffusion Policy [24.9] 本稿では,MaxEnt RLの目的を満たすためのポリシー表現として,複雑なマルチモーダル分布をキャプチャ可能な強力な生成モデルである拡散モデルを用いる。
提案手法により,効率的な探索が可能となり,最適なMaxEntポリシーに近づいた。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:55:58 GMT)
Understanding Figurative Meaning through Explainable Visual Entailment [24.8] 本稿では,概念的意味理解問題を説明可能な視覚的含意タスクとしてフレーミングする新しいタスクを提案する。
我々は、6,027の画像、キャプション、ラベル、説明例を含む付随するデータセットV-FLUTEを構築した。
VLMはリテラルから比喩的意味への一般化に苦慮している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:24:42 GMT)
Ontology-Guided Reverse Thinking Makes Large Language Models Stronger on Knowledge Graph Question Answering [24.8] Ontology-Guided Reverse Thinking (ORT)は、目的から条件への推論パスを構築する新しいフレームワークである。
ORT は,(1) LLM を用いて目的ラベルと条件ラベルを抽出し,(2) KG オントロジーに基づくラベル推論経路を構築し,(3) ラベル推論経路を用いて知識検索を行う。
WebQSPとCWQデータセットの実験は、ORTが最先端のパフォーマンスを達成し、KGQAのためのLLMの能力を大幅に向上することを示している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:53:15 GMT)
Trinity: A Scalable and Forward-Secure DSSE for Spatio-Temporal Range Query [24.8] TrinityIIはストレージ要求を80%削減する。
TrinityIIは、わずか0.01秒で100万レコードレベルでのデータ検索を可能にする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:30:42 GMT)
Systematic Knowledge Injection into Large Language Models via Diverse Augmentation for Domain-Specific RAG [24.7] Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) にドメイン知識を組み込む重要な手法として登場した。
本稿では,学習データを2つの方法で強化することで,微調整プロセスを大幅に強化する新しいフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:29:48 GMT)
Unifying Explainable Anomaly Detection and Root Cause Analysis in Dynamical Systems [24.6] 本稿では, 常微分方程式(ODE)が支配する力学系における異常検出, 根本原因の局在化, および異常型分類の課題に対処する。
モデル固有の説明可能な学習フレームワークであるICODE(Interpretable Causality Ordinary Differential Equation)ネットワークを提案する。
ICODEは、単一の解釈可能なフレームワーク内で、異常検出、根本原因分析(RCA)、および異常型分類を同時に実行するように設計されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:01:07 GMT)
Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models [24.6] 本稿では, 大規模言語モデル(LLM)における時間的不整合の問題に対処し, 新たな対実的プロンプト手法を提案する。
提案手法は, 対実的な質問を生成し, 集合的制約を強制し, モデルの一貫性を高める。
提案手法を複数のデータセット上で評価し、明示的で暗黙的なイベントのイベント順序付けと時間的コモンセンス理解の大幅な改善を実証した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:37:07 GMT)
Can humans teach machines to code? [24.3] 鍵となる前提は、人間が機械に概念を教えるのに十分な例を提供することができるということである。
我々は、人間の参加者が6つのプログラミング概念の例を示す研究を行う。
入力出力の例に基づいて学習した5つのプログラム合成システムの一般化性能を評価する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:49:46 GMT)
SMOL: Professionally translated parallel data for 115 under-represented languages [24.2] 低リソース言語(LRL)の翻訳をアンロックするためのトレーニングデータスイートSMOLをオープンソースとして公開した。
SMOLは115のアンダーリソース言語に翻訳されている。
SMOLは2つのサブデータセットから構成される。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:22:08 GMT)
Equilibrate RLHF: Towards Balancing Helpfulness-Safety Trade-off in Large Language Models [24.2] 人間の好みに基づく微調整型大規模言語モデル(LLM)は,その性能向上に有効である。
微調整プロセスを通して安全性を維持することは、依然として大きな課題である。
トレーニングデータが少ない場合でも安全性を向上する平衡RLHFフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:40:30 GMT)
FineFilter: A Fine-grained Noise Filtering Mechanism for Retrieval-Augmented Large Language Models [24.1] FineFilterはRetrieval-Augmented Generationのための新しいきめ細かいノイズフィルタリング機構である。
手がかり抽出器、再ランカ、およびトランケータから構成される。
3つのQAデータセットの実験では、FinFilterはパフォーマンスと推論コストの点でベースラインを大幅に上回っている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:55:42 GMT)
Training Large Language Models to be Better Rule Followers [24.0] 大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
現在の訓練方法はこれらのルールを効果的に活用できない。
本稿ではメタルール追従ファインチューニング(Meta-RFFT)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:54:50 GMT)
REP: Resource-Efficient Prompting for Rehearsal-Free Continual Learning [23.9] 近年のリハーサルフリーな手法は,視覚関連連続学習(CL)とドリフトデータに優れ,資源効率に欠ける。
本稿では,Resource-Efficient Prompting(REP)を提案する。
提案手法は高速なプロンプト選択を用いて、注意深く設定されたモデルを用いて入力データを洗練する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:10:52 GMT)
Better Language Models Exhibit Higher Visual Alignment [23.9] 識別的視覚言語モデルフレームワークにおいて、凍結したテキスト表現を利用して、最初の直接解析を行う。
復号器をベースとしたLCMは,本質的な視覚的アライメントを示す。
弊社のアプローチは、CLIPの精度が1.4%、中国語が38.7%を超えている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:25:17 GMT)
The Validation Gap: A Mechanistic Analysis of How Language Models Compute Arithmetic but Fail to Validate It [23.8] 大規模言語モデル(LLM)における誤り検出の力学解析について述べる。
回路解析により,4つの小さいLLMの演算誤差を検出する計算部分グラフを同定する。
この結果から,算術的解法における数値値の表面レベルのアライメントを評価するために,すべてのモデルが$textitConsistency Head$-attention Headに大きく依存していることが判明した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:00:44 GMT)
Does Editing Provide Evidence for Localization? [23.8] 大規模言語モデルにおける解釈可能性研究の基本的な願望は、意味論的に意味のある振る舞いを「局所化」することである。
候補のローカライゼーションが見つかると、対応するローカライゼーションで内部表現を編集して評価することができる。
重要な新しい技術ツールとして、LLMアライメント技術を適用して、そのような最適なローカライズされた編集を見つける方法がある。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:09:46 GMT)
Uncovering the Impact of Chain-of-Thought Reasoning for Direct Preference Optimization: Lessons from Text-to-SQL [23.7] 直接選好最適化(DPO)は、算術語問題やコード生成といった複雑な推論タスクに有効であることが証明されている。
しかし、Text-to-nativeデータセットに適用すると、DPOはパフォーマンス向上に失敗し、さらに劣化する可能性がある。
CoT(Synthetic Chain-of-Thought)ソリューションでText-to-nativeデータセットを拡張することで、初めて、一貫性と大幅なパフォーマンス向上を実現しました。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:47:17 GMT)
Exploring Translation Mechanism of Large Language Models [23.7] 大規模言語モデル(LLM)は多言語翻訳タスクにおいて著しく成功している。
本研究では,計算成分の観点から,LLMの翻訳機構について検討する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:50:29 GMT)
M-ABSA: A Multilingual Dataset for Aspect-Based Sentiment Analysis [23.5] M-ABSAは、7つのドメインと21の言語にまたがる包括的なデータセットである。
私たちの主な焦点は三重項抽出であり、アスペクトの項、アスペクトのカテゴリ、感情の極性を特定することである。
実験により,このデータセットは多言語・多ドメイン移動学習などの多様な評価タスクを可能にすることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:16:01 GMT)
PUGS: Zero-shot Physical Understanding with Gaussian Splatting [23.3] 現在のロボットシステムは、オブジェクトのカテゴリやポーズをよく理解することができる。
しかし、質量、摩擦、硬さといった物理的性質を理解することは、野生では難しいままです。
ガウススプラッティング表現を用いて3次元オブジェクトを再構成し、ゼロショット方式で様々な物理特性を予測できる新しい手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:59:42 GMT)
Hiding and Recovering Knowledge in Text-to-Image Diffusion Models via Learnable Prompts [23.0] 我々は、望ましくない概念を公開ユーザにとってアクセスし難いものにする、新しいコンセプトハイディングアプローチを導入する。
モデルから知識を完全に消去する代わりに、学習可能なプロンプトをクロスアテンションモジュールに組み込む。
これにより、フレキシブルなアクセス制御が可能になります -- 望ましくないコンテンツが簡単に生成されないようにし、再保存するオプションを保持します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 00:34:04 GMT)
Defining and Evaluating Visual Language Models' Basic Spatial Abilities: A Perspective from Psychometrics [23.0] 視覚言語モデル(VLM)における5つの基本空間能力(BSA)を定義する心理測定の枠組みを開拓する。
13の主流VLMのベンチマークでは、人間との大きなギャップが明らかになった(平均スコアは24.95対68.38)
我々は,空間知能評価のための診断ツールキット,具体的AI開発のための方法論基盤,および人間のような空間知能を達成するための認知科学インフォームドロードマップを提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:50:53 GMT)
Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models [22.9] 言語モデル内の高構成サブタスクの回路解析により,ニューラルネットワークのモジュラリティについて検討する。
以上の結果から,機能的に類似した回路は,ノード重なりとクロスタスク忠実度の両方を示すことが明らかとなった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:30:15 GMT)
Quantification of Large Language Model Distillation [22.7] モデル蒸留の評価と定量化のための枠組みを提案する。
本手法は, 同一性認知の矛盾を同定し, 同一性関連情報の知覚・表現方法の相違性を評価すること, そして, 同一性化の程度を測定するために, モデル間での多粒度応答類似性を解析することの2つの重要な側面に対処する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:28:20 GMT)
Understanding Silent Data Corruption in LLM Training [22.7] 本研究では,SDCを呈する健全な生産ノードと不健康なノードのモデルトレーニングを比較して,サイレントデータ破損(SDC)が大規模言語訓練に与える影響について検討した。
その結果,SDCが計算に与える影響は,不健康なノードによって異なることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:07:49 GMT)
Connector-S: A Survey of Connectors in Multi-modal Large Language Models [22.6] コネクタは多様なモダリティをブリッジし、モデルパフォーマンスを向上させる上で重要な役割を担います。
MLLMにおけるコネクタの現況を体系的にレビューし,コネクタをアトミックな操作に分類する構造的分類法を提案する。
本稿では,高解像度入力,動的圧縮,ガイド情報の選択,組み合わせ戦略,解釈可能性など,有望な研究フロンティアと課題について論じる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:28:04 GMT)
FunnelRAG: A Coarse-to-Fine Progressive Retrieval Paradigm for RAG [22.5] 広く使われている検索パラダイムは、いまだにフラットである。
検索手順を一定の粒度のワンオフ取引として扱う。
本稿では,FunnelRAGと呼ばれるRAGの粒度が粗い進行的検索パラダイムを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:51:14 GMT)
Variable-frame CNNLSTM for Breast Nodule Classification using Ultrasound Videos [22.4] 本研究では,CNNとLSTMに基づく新しい映像分類手法を提案する。
CNNが抽出した画像の特徴を1x512次元に減らし、LSTMトレーニングのための特徴ベクトルのソートと圧縮を行う。
実験により,我々の可変フレームCNNLSTM法は,すべての指標において,他の手法よりも優れていることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:35:37 GMT)
A Monocular Event-Camera Motion Capture System [22.3] 本稿では,この制限を克服し,狭い空間に適した単眼イベントカメラモーションキャプチャシステムについて述べる。
受動的マーカーの代わりにLEDマーカーを点滅させ、各マーカーを方向周波数から一意に識別できるようにしている。
開発したシステムにはミリ秒の精度,ミリ秒のレイテンシがあり,その状態推定がアジャイルな小型クオータの飛行に有効であることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:38:27 GMT)
Efficient Off-Policy Learning for High-Dimensional Action Spaces [22.1] 既存の非政治強化学習アルゴリズムは、しばしば明示的な状態-作用-値関数表現に依存している。
本稿では,非政治的な深層強化学習に対する批判として,状態値関数のみを利用する効率的なアプローチを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:58:32 GMT)
Attention as a Hypernetwork [22.1] トランスフォーマーは、トレーニング中に構成部品に遭遇した可能性があるが、構成が存在しない新しい問題インスタンスに一般化することができる。
マルチヘッドアテンションをハイパーネットワークとして再構成することにより、構成可能な低次元ラテント符号がキークエリ固有の演算を規定していることを明らかにする。
この潜伏コードは、未確認のタスク構成に対してネットワークが実行するサブタスクを予測し、トレーニング中に取得した潜伏コードは、未確認の問題のインスタンスを解決するために再利用されることを明らかにする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:55:26 GMT)
FlexCAD: Unified and Versatile Controllable CAD Generation with Fine-tuned Large Language Models [22.0] 大規模言語モデル(LLM)を微調整した統合モデルFlexCADを提案する。
我々はCADモデルを構造化テキストとして表現し、各階層をテキストトークンのシーケンスとして抽象化する。
推論中、ユーザの意図をCADテキストに変換し、ユーザが変更したい部分をマスクトークンで置き換える。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:04:57 GMT)
Toward Metaphor-Fluid Conversation Design for Voice User Interfaces [21.7] メタファーはVUI(Voice User Interfaces)でユーザエクスペリエンスを形成する上で重要な役割を果たす
既存のデザインはしばしば、さまざまなコンテキストやユーザニーズに適応できない静的な人中心のメタファに依存します。
本稿ではメタファー・フロード・デザインについて紹介する。メタファー・フルド・デザインは,会話の文脈に基づくメタファー表現を動的に調整する手法である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:36:12 GMT)
Large Memory Network for Recommendation [21.6] Large Memory Network (LMN) は、ユーザ履歴の振る舞い情報を大規模メモリブロックに圧縮保存する新しいアイデアである。
LMNはDouyin E-Commerce Search (ECS)に完全にデプロイされており、毎日数百万のユーザにサービスを提供している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:34:41 GMT)
IRIS: An Immersive Robot Interaction System [21.5] IRISは、複数のシミュレータ、ベンチマーク、さらにはヘッドセットもすでにサポートしている、新しくて容易に拡張可能なフレームワークである。
統一されたシーン仕様はシミュレータや現実世界のセンサーから直接生成され、XRヘッドセットに送信され、XRで同じシーンを生成する。
IRISはUnity Frameworkをサポートするあらゆるデバイスにデプロイできる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:42:24 GMT)
Exploring Prosocial Irrationality for LLM Agents: A Social Cognition View [21.3] 大規模言語モデル(LLM)は、人間のバイアスを頻繁に含んでいるデータのために幻覚に直面することが示されている。
幻覚特性を利用してLLMエージェントのソーシャルインテリジェンスを評価し,強化するオープンエンドマルチLLMエージェントフレームワークであるCogMirを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:14:44 GMT)
SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.3] ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。
大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:57:56 GMT)
SAIF: A Sparse Autoencoder Framework for Interpreting and Steering Instruction Following of Language Models [21.3] 本稿では,スパースオートエンコーダ(SAE)を利用して,大規模言語モデルにおける命令の解釈を行う新しいフレームワークを提案する。
私たちが特定した機能は、与えられた命令に合わせるために、モデル出力を効果的に操ることができます。
以上の結果から,命令追従能力は異なる命令関連SAE潜伏剤によって符号化されていることが明らかとなった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:11:17 GMT)
Human-Agent Coordination in Games under Incomplete Information via Multi-Step Intent [21.2] 自律エージェントと人間のパートナー間の戦略的調整はターンベースの協調ゲームとしてモデル化できる。
不完全な情報の下でターンベースのゲームを拡張し、プレイヤーが単一のアクションではなく、ターンごとに複数のアクションを実行できるようにする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:35:16 GMT)
Human-centered explanation does not fit all: The interplay of sociotechnical, cognitive, and individual factors in the effect AI explanations in algorithmic decision-making [21.1] 本研究は,説明評価の認知的側面に焦点を当てる。
我々は、異なるコントラスト戦略と情報選択性を持つ6つの説明を評価する。
我々は、AIインターフェースを設計するために、説明戦略の微妙な見解を求める。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:42:53 GMT)
Exploring Large Language Models in Healthcare: Insights into Corpora Sources, Customization Strategies, and Evaluation Metrics [21.1] 本研究では,医療におけるLarge Language Models(LLMs)の使用について,トレーニングコーパス,カスタマイズ技術,評価指標を中心に検討した。
臨床リソース,文献,オープンソースデータセット,Webcrawled dataの4種類のコーパスが使用された。
検証されていないデータや構造化されていないデータへの依存は、エビデンスベースの臨床ガイドラインのより良い統合の必要性を浮き彫りにした。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:53:23 GMT)
LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.1] ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。
実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:45:25 GMT)
LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.0] 既存のjailbreakメソッドには、複雑なプロンプトエンジニアリングと反復最適化の2つの大きな制限がある。
本稿では,LLMの高度な推論能力を活用し,有害コンテンツを自律的に生成する効率的なジェイルブレイク攻撃手法であるAnalyzing-based Jailbreak(ABJ)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:00:28 GMT)
STRIVE: Structured Reasoning for Self-Improvement in Claim Verification [21.0] 自己改善検証のための構造化推論を提案する。
本稿では,Crim Decomposition,Entity Analysis,Evidence Grounding Verificationを用いた構造化推論設計を提案する。
その後、すべてのトレーニング例に対して推論連鎖を生成するために適用され、その後の自己改善トレーニングのために正確で構造的に健全なもののみを選択する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:07:07 GMT)
EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild [20.8] EgoSpeakは、エゴセントリックストリーミングビデオにおけるリアルタイム音声開始予測の新しいフレームワークである。
話者の1対1の視点から会話をモデル化することにより、EgoSpeakは人間のような対話に向いている。
EgoSpeakはランダムおよびサイレントベースのベースラインをリアルタイムでパフォーマンスする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:47:12 GMT)
X-IL: Exploring the Design Space of Imitation Learning Policies [20.8] 我々は、模倣学習ポリシーのための広大なデザイン空間を探求するために設計されたオープンソースのフレームワークであるX-ILを紹介する。
このフレームワークのモジュラー設計は、バックボーン(Transformer、Mamba、xLSTMなど)やポリシー最適化技術などのポリシーコンポーネントのシームレスなスワップを可能にする。
本研究は,実践者の実践的参考と,模倣学習における今後の研究を導くための基盤としての役割を担っている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:33:56 GMT)
HintsOfTruth: A Multimodal Checkworthiness Detection Dataset with Real and Synthetic Claims [20.7] 我々はHintsOfTruthを紹介した。HintsOfTruthは、27ドル(約2,300円)のリアルワールドと合成画像/再生ペアによるマルチモーダルチェックネス検出のためのパブリックデータセットである。
我々は、微調整および大言語モデル(LLM)の比較を行う。
十分に構成された軽量テキストベースのエンコーダは、マルチモーダルモデルと互換性があるが、最初に焦点を当てるのは、非定型的なコンテンツを特定することだけである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:49:55 GMT)
Kernel-Based Distributed Q-Learning: A Scalable Reinforcement Learning Approach for Dynamic Treatment Regimes [20.6] 動的処理規則(DTR)を生成するためのスケーラブルなカーネルベースの分散Q-ラーニングアルゴリズムを提案する。
その結果,本アルゴリズムは,最先端の深層強化学習手法に関連する計算複雑性を著しく低減することを示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:07:21 GMT)
How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines [20.6] 初期の研究では、モデル性能におけるパワー-ロー関係が確立され、計算-最適スケーリング戦略が導かれた。
スパースモデル、Mix-of-Experts、検索強化学習、マルチモーダルモデルは、しばしば伝統的なスケーリングパターンから逸脱する。
スケーリングの振る舞いは、視覚、強化学習、微調整といった領域によって異なり、よりニュアンスなアプローチの必要性が強調されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:20:41 GMT)
BackdoorDM: A Comprehensive Benchmark for Backdoor Learning in Diffusion Model [20.6] 拡散モデル(DM)におけるバックドア学習は、新しい研究ホットスポットである。
BackdoorDMは、DMにおけるバックドア学習のために設計された最初の総合的なベンチマークである。
9つの最新技術(SOTA)攻撃方法と4つのSOTA防衛戦略と2つの視覚化分析ツールから構成される。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:39:05 GMT)
Leave No One Behind: Enhancing Diversity While Maintaining Accuracy in Social Recommendation [20.6] ソーシャルレコメンデーションは、ソーシャル接続情報を利用してレコメンデーションシステムを構築するアルゴリズムの一分野である。
本研究では,既存のソーシャルレコメンデーションアルゴリズムの2つの性能について,精度と多様性の観点から検討する。
多様性社会勧告(Diversified Social Recommendation, DivSR)と呼ばれる新しいアプローチを提案する。
DivSRは、既存のソーシャルレコメンデーションアーキテクチャとシームレスに統合されるシンプルなモデルに依存しないフレームワークとして設計されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:41:11 GMT)
From Text to Trust: Empowering AI-assisted Decision Making with Adaptive LLM-powered Analysis [20.5] 大規模言語モデル(LLM)は、例外的な会話機能と分析機能を持つ。
LLMは、AIの決定推奨に関する自然言語ベースの分析を提供する。
LLMによる各タスク特徴の逐次的または並行的な分析を行うことは、人々のAI支援意思決定性能を著しく向上させるものではないことを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:32:54 GMT)
HedgeAgents: A Balanced-aware Multi-agent Financial Trading System [20.5] 大規模言語モデル(LLM)とエージェントベースのモデルは、リアルタイム市場分析と取引決定において有望な可能性を秘めている。
急激な減少や頻繁な変動に直面すると、依然として顕著な-20%の損失を経験する。
本稿では,ロバストネスの戦略を強化することを目的とした,革新的なマルチエージェントシステムであるHedgeAgentsを紹介する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:13:19 GMT)
Multi-Modal Retrieval Augmentation for Open-Ended and Knowledge-Intensive Video Question Answering [20.3] 本研究は,KI-VideoQAのマルチモーダル検索拡張生成を初めて研究する試みである。
我々は,KI-VideoQAにおける知識統合を,検索の強化戦略がいかに促進するかを考察する。
我々の探索では、KnowIT VQAデータセットにおいて、複数の選択問題に対する最先端の精度を17.5%以上向上させる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:40:35 GMT)
A Physics-Informed Blur Learning Framework for Imaging Systems [20.1] 本稿では,物理インフォームドPSF学習フレームワークを提案する。
我々のフレームワークは高い精度と普遍的な適用性を達成することができる。
提案手法は,シミュレーションにおける画質の向上を示すとともに,実写画像の目立った画質向上を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:54:14 GMT)
DAST: Context-Aware Compression in LLMs via Dynamic Allocation of Soft Tokens [20.0] LLM(Large Language Models)は、長いコンテキスト入力を扱う際に、計算の非効率性と冗長な処理に直面する。
我々は,LLMの文脈関連性に関する本質的な理解を活用して圧縮を誘導する簡易かつ効果的な手法であるDAST(Dynamic Allocation of Soft Tokens)を提案する。
複数のベンチマークでの実験結果から、DASTが最先端の手法を超越していることが示されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:55:13 GMT)
Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST) [19.9] GISTは2000年から2023年にかけての上位AIカンファレンス論文から抽出された5K語を含む、大規模な多言語AI用語データセットである。
この用語はアラビア語、中国語、フランス語、日本語、ロシア語に翻訳され、LLMを抽出するためのハイブリッドフレームワークと翻訳のための人間の専門知識を組み合わせたものである。
この研究は、AI用語リソースにおける重要なギャップに対処し、AI研究におけるグローバルな傾きとコラボレーションを促進することを目的としている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:13:38 GMT)
From Personas to Talks: Revisiting the Impact of Personas on LLM-Synthesized Emotional Support Conversations [19.7] 大規模言語モデル(LLM)は感情的サポートの会話の世代に革命をもたらした。
本稿では,感情的支援会話の創出におけるペルソナの役割について考察する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:24:30 GMT)
UniCBE: An Uniformity-driven Comparing Based Evaluation Framework with Unified Multi-Objective Optimization [19.7] 統一統一性駆動型CBEフレームワークUniCBEを提案する。
AlpacaEvalベンチマークでは、UniCBEは評価予算の17%以上を削減し、Pearsonと地上の真実との相関は0.995を超えている。
新しいモデルが継続的に導入されるシナリオでは、UniCBEは評価コストの50%以上を節約できる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:28:12 GMT)
A MIMO Wireless Channel Foundation Model via CIR-CSI Consistency [19.7] 本稿では,チャネル状態情報(CSI)とチャネルインパルス応答(CIR)を自然に整列したマルチモーダルデータとして扱う。
CIRとCSIの両方の結合表現を効果的にキャプチャすることで、CSI-CLIPはシナリオ間で顕著な適応性を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:13:40 GMT)
Space-aware Socioeconomic Indicator Inference with Heterogeneous Graphs [19.6] 非連続推論のための地理空間を表現するために不均一なグラフ構造を用いる空間認識型社会経済指標推論法GeoHGを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:52:16 GMT)
MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training [19.6] テキスト・ツー・モーション・ジェネレーションでは、制御性だけでなく、生成品質やスピードもますます重要になっている。
高速で高品質で可変長のモーション生成が可能なMoLAを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:00:41 GMT)
GraphMorph: Tubular Structure Extraction by Morphing Predicted Graphs [19.5] 提案手法は,よりトポロジ的に正確な予測を行うために,管状構造の分岐レベル特徴に着目した。
GraphMorphは、Graph DecoderとMorph Moduleの2つの主要コンポーネントで構成されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:18:24 GMT)
Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem? [19.4] マルチモーダル大言語モデル(MLLM)は、クロスモーダルな理解と生成に顕著な性能を示したが、それでも厳しい推論コストに悩まされている。
近年,MLLMの冗長なトークンを識別し,計算コストとKVストレージコストを削減するトークンプルーニングにより,この問題を解決するための豊富な研究が提案されている。
本稿では,これらの疑問に一つずつ答え,将来的なトークンプルーニング手法の設計について考察する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:05:36 GMT)
GraphEval36K: Benchmarking Coding and Reasoning Capabilities of Large Language Models on Graph Datasets [19.3] GraphEval36Kは、40のグラフコーディング問題と36,900のテストケースからなる、最初の包括的なグラフデータセットである。
我々のデータセットは8つのプライマリカテゴリと4つのサブカテゴリに分類され、異なるタイプのグラフに対する徹底的な評価が保証される。
評価フレームワークのユーザビリティ向上のために,構造化記号分解(SSD)を提案する。
SSDはGPT-4, GPT-4o, Gemini-Pro, Claude-3-Sonnetの平均通過速度を8.38%, 6.78%, 29.28%, 25.28%改善する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:53:43 GMT)
EssayJudge: A Multi-Granular Benchmark for Assessing Automated Essay Scoring Capabilities of Multimodal Large Language Models [19.3] EssayJudgeは,語彙,文レベル,言論レベルの特性にまたがるAES能力を評価するための,最初のマルチモーダルベンチマークである。
18種類のMLLMを用いた実験では,特に談話レベルの特性において,人的評価と比較してAES性能の差が明らかとなった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:31:59 GMT)
Can Input Attributions Interpret the Inductive Reasoning Process Elicited in In-Context Learning? [19.3] 本稿では,言語学における一般化テストに触発された帰納的推論の総合的診断タスクを設計する。
問題は、従来の入力属性(IA)手法が、ICLにおいてそのような推論プロセスを追跡し、影響のある例を特定することができるかどうかである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:12:33 GMT)
SqueezeMe: Mobile-Ready Distillation of Gaussian Full-Body Avatars [19.2] 本稿では,高忠実度3Dガウスフルボディアバターを軽量な表現に変換するフレームワークであるSqueezeMeを紹介する。
私たちはMeta Quest 3 VRヘッドセットで3つのガウスアバターをリアルタイムで(72FPS)同時アニメーションとレンダリングを初めて実現しました。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:29:25 GMT)
If Multi-Agent Debate is the Answer, What is the Question? [19.2] マルチエージェント・ディベート(MAD)は,大規模言語モデルの事実的正確性と推論品質を高めるための,有望なアプローチとして登場した。
その可能性にもかかわらず、MAD研究は評価実践における重大な欠点に悩まされている。
本稿では,9つのベンチマークにおいて5つの代表的MAD手法を体系的に評価する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:28:35 GMT)
Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data [19.2] 大規模言語モデル(LLM)は一般に事前学習プロセスを通して一貫したデータ分布を利用する。
モデルの性能が向上するにつれて、データ嗜好が動的に変化するのは直感的であり、様々なトレーニング段階で異なるデータで事前トレーニングする必要があることを示している。
我々は、常にLLMが好むデータを認識し、活用し、それらをトレーニングし、強化するパープレキシティ・ディファレンス(PD)ベースのPreference Curriculum Learningフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:44:35 GMT)
FRAMES: Boosting LLMs with A Four-Quadrant Multi-Stage Pretraining Strategy [19.2] マルチステージ事前トレーニングは有望なアプローチだが、既存の手法ではデータ分割の量的基準が欠如しており、直観に頼っていることが多い。
本稿では,4段階の事前学習プロセスを4段階に編成し,大幅な損失削減を実現するという確立された原則に導かれる,4段階の多段階訓練戦略(FRAME)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:39:22 GMT)
A Quantum Circuit-Based Compression Perspective for Parameter-Efficient Learning [19.2] 量子パラメータ生成の枠組みに量子s適応(QPA)を導入する。
QPAはQNNと古典的な多層パーセプトロンマッピングモデルを統合し、微調整のためのパラメータを生成する。
Gemma-2とGPT-2をケーススタディとして、QPAはパラメータ効率のよい微調整法に対して重要なパラメータ還元を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:44:37 GMT)
FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation [19.0] FUNCTOは3次元関数キーポイント表現と関数中心の対応を確立するOSIL方式である。
モジュール型OSIL法とエンド・ツー・エンドの動作クローン法に対するFUNCTOの評価を行った。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:34:42 GMT)
A Survey of Automatic Prompt Engineering: An Optimization Perspective [18.9] 本稿では,統合最適化理論レンズによる自動プロンプト工学の総合的な研究について紹介する。
我々は離散的かつ連続的でハイブリッドなプロンプト空間上の問題としてプロンプト最適化を定式化する。
制約のある最適化とエージェント指向のプロンプト設計において、未探索のフロンティアを強調した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:48:07 GMT)
Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More [18.9] トークンがプルーニングされるべきかどうかを決定するのに、重要さは理想的な指標ではないことを示す。
DART(Duplication-Aware Reduction of Tokens)を提案する。
実験によると、DARTは88.9%の視覚トークンを出力でき、同等のパフォーマンスを維持している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:56:28 GMT)
Be Cautious When Merging Unfamiliar LLMs: A Phishing Model Capable of Stealing Privacy [18.9] プライバシを盗むことのできるフィッシングモデルをトレーニングするプライバシ攻撃アプローチであるPhiMMを提案する。
本稿では,攻撃意図を隠蔽する特殊能力を模倣した新しいモデルクローキング手法を提案する。
実験結果から,フィッシングモデルをマージすることで,プライバシー侵害のリスクが高まることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:04:52 GMT)
SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.8] SWE-Searchは、MCTS(Monte Carlo Tree Search)と自己改善機構を統合し、ソフトウェアエージェントのパフォーマンスを向上させるマルチエージェントフレームワークである。
本研究は,複雑でダイナミックなソフトウェア工学環境において,エージェント推論と計画を強化する自己評価型検索技術の可能性を強調した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:13:48 GMT)
RDSA: A Robust Deep Graph Clustering Framework via Dual Soft Assignment [18.6] 我々は、Dual Soft Assignment (RDSA)を介してRobust Deep Graph Clustering Frameworkと呼ばれる新しいフレームワークを導入する。
RDSAは3つの主要なコンポーネントから構成される: (i) グラフのトポロジ的特徴とノード属性を効果的に統合するノード埋め込みモジュール、 (ii) ノード割り当てに親和性行列を利用することでグラフモジュラリティを改善する構造ベースのソフトアサインモジュール、 (iii) コミュニティランドマークを識別し、モデルの堅牢性を高めるためにノード割り当てを洗練させるノードベースのソフトアサインモジュール。
我々はRDSAを実世界の様々なデータセットで評価し、既存の状態と比較して優れた性能を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:26:20 GMT)
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination [18.6] MLLM(Multimodal large language model)は、様々なマルチモーダルベンチマークにおいて優れた性能を示す。
トレーニング中のデータ汚染の問題は、パフォーマンス評価と比較の課題を生み出します。
MLLM向けに設計されたマルチモーダルデータ汚染検出フレームワークMM-Detectを導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:29:13 GMT)
AER-LLM: Ambiguity-aware Emotion Recognition Leveraging Large Language Models [18.5] この研究は、あいまいな感情を認識する上でのLarge Language Models(LLM)の可能性を探究する最初のものである。
我々はゼロショットと少数ショットのプロンプトを設計し、過去の対話を曖昧な感情認識のための文脈情報として組み込んだ。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:28:55 GMT)
Atom of Thoughts for Markov LLM Test-Time Scaling [18.3] 推論の規模が大きくなるにつれて、既存のテストタイムスケーリング手法は、蓄積した履歴情報に悩まされる。
提案するAtom of Thoughts(AoT)では,各状態遷移が現在の質問から依存ベースの非巡回グラフへと構成される。
AoTを既存のテストタイムスケーリングメソッドにシームレスに統合することで、AoTは推論機能を改善するプラグイン拡張として機能することができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:52:42 GMT)
Plant in Cupboard, Orange on Table, Book on Shelf. Benchmarking Practical Reasoning and Situation Modelling in a Text-Simulated Situated Environment [18.3] 大規模言語モデル(LLM)は、自然言語を介して対話するための'チャットボット'として有名になった。
我々は、非常に抽象的に、家庭の設定をシミュレートするシンプルなテキストベースの環境を実装した。
以上の結果から,環境の複雑さとゲーム制限が性能を損なうことが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:20:39 GMT)
Ad-hoc Concept Forming in the Game Codenames as a Means for Evaluating Large Language Models [18.3] 本研究では,大規模な言語モデル(LLM)を評価するためのベンチマークツールとして,Codenamesを利用する。
LLMはゲームの各サイドでプレイし、一方のサイドはいくつかのターゲットワードをカバーする手掛かりの単語を生成し、もう一方のサイドはそれらのターゲットワードを推測する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:46:46 GMT)
iMOVE: Instance-Motion-Aware Video Understanding [18.2] 現在のモデルは、詳細で複雑なインスタンスの動きを認識するのに苦労している。
データとモデルの両方の観点から改善しました。
インスタンス・モーションアウェア・ファンデーションモデルであるiMOVEを紹介する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:28:31 GMT)
MMRole: A Comprehensive Framework for Developing and Evaluating Multimodal Role-Playing Agents [18.2] MRPA(Multimodal Role-Playing Agents)の概念について紹介する。
本稿では,その開発と評価のための総合的なフレームワークであるMMRoleを提案する。
具体的には,85文字,11K画像,14Kシングル/マルチターン対話からなる大規模かつ高品質なMMRole-Dataを構築した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:40:51 GMT)
CCJA: Context-Coherent Jailbreak Attack for Aligned Large Language Models [18.1] ジェイルブレイク(jailbreaking)とは、意図しない振る舞いをトリガーする大きな言語モデルである。
本稿では,ジェイルブレイク攻撃の成功率とセマンティック・コヒーレンスとのバランスをとる新しい手法を提案する。
本手法は攻撃効率において最先端のベースラインよりも優れている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:49:26 GMT)
Verification of Neural Networks against Convolutional Perturbations via Parameterised Kernels [18.1] 本研究では,ブラーリングやシャープニングなどの畳み込み摂動に対するニューラルネットワークの有効検証法を開発した。
入力摂動を定義するには、よく知られたカメラシェイク、ボックスのぼかし、カーネルをシャープする。
ニューラルネットワーク検証におけるそれらの使用を容易にするため、パラメータ化されたカーネルで与えられた入力を効果的に結合する方法を開発した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:37:58 GMT)
Object-Centric Image to Video Generation with Language Guidance [17.5] TextOCVPは、テキスト記述によってガイドされる画像からビデオ生成のためのオブジェクト中心モデルである。
提案手法は,テキストガイダンスを取り入れたオブジェクトのダイナミクスとインタラクションを共同でモデル化することにより,正確かつ制御可能な予測を導出する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:46:47 GMT)
SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.2] 近年のモデル編集は,大規模言語モデルの少数の知識を効率的に更新する上で有望な手法である。
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
SWEA$oplus$OSのCounterFactデータセットとzsREデータセット上でのSOTA(State-of-the-art)パフォーマンスを実証する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:18:37 GMT)
Deep Spatio-Temporal Neural Network for Air Quality Reanalysis [17.1] 近い将来,観測ステーションと観測ステーションの時間的再解析モデルであるAQ-Netを提案する。
細粒度空間空気質の推定を学習するために、ニューラルネットワークにAQ-Netを組み込む。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:52:22 GMT)
GraphThought: Graph Combinatorial Optimization with Thought Generation [17.1] 大規模言語モデル(LLM)は、特にテキスト処理や生成タスクにおいて、様々な領域で顕著な機能を示している。
OpenAI-o1のような最先端のLCMの推論能力の最近の進歩は、その適用性を著しく拡大した。
この研究は、モデルスケールが推論能力の主要な要因であるという一般的な概念に挑戦しながら、最先端のベンチマークを新たに設定する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:50:41 GMT)
MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models [17.1] 大規模視覚言語モデル(LVLM)はマルチモーダル推論タスクを大幅に改善した。
これらのモデルは、事実情報を明示的に格納するために外部知識ベースに頼るのではなく、パラメータ内にマルチモーダルな事実を埋め込む。
しかし、LVLMによって識別される内容は、固有のバイアスや誤った推論のために事実性から逸脱する可能性がある。
MFC-Benchは,3段階の検証予測において,LVLMの実際の精度を評価するために設計されたベンチマークである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:00:52 GMT)
Adapting Multi-modal Large Language Model to Concept Drift From Pre-training Onwards [17.0] マルチモーダル大規模言語モデル(MLLM)は、実世界のストリーミングデータを扱う際に、コンセプトドリフトから問題に直面することが多い。
本稿では,概念ドリフト理論をマルチモーダル領域に拡張する統合フレームワークを提案する。
段階的ドリフトによって誘起されるバイアスを効果的に緩和するために,T分布に基づくドリフトアダプタを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:46:11 GMT)
Can LLMs Generate Diverse Molecules? Towards Alignment with Structural Diversity [17.0] そこで本研究では, 構造的に多様な分子の集合を自己回帰的に生成する分子生成LDMを微調整する手法を提案する。
提案手法は,(1)LLMを自己回帰的に生成する分子に適応させるための微調整と,(2)生成分子の構造多様性を最大化するための強化学習の2段階からなる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:23:11 GMT)
Incomplete Modality Disentangled Representation for Ophthalmic Disease Grading and Diagnosis [17.0] 本稿では,不完全なモダリティ・ディアンタングル表現(IMDR)戦略を提案する。
4つのマルチモーダルデータセットの実験により、提案したIMDRが最先端の手法を大幅に上回ることを示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:10:35 GMT)
Stability Bounds for Smooth Optimal Transport Maps and their Statistical Implications [16.9] 2つの確率分布間の最適輸送(OT)マップから導かれるプラグイン推定器に着目した。
我々は、過去の作業でそれらを一般化するOTマップの新しい安定性境界を開発する。
実測的な応用として,2つの強対数分布間のOTマップのための新しいチューニングパラメータフリー推定器を開発し,解析する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:17:03 GMT)
Learning Getting-Up Policies for Real-World Humanoid Robots [16.7] 本稿では,人型ロボットが様々な地形の様々な構成から立ち上がれるようにするための学習フレームワークを開発する。
私たちの知る限りでは、これは人間のサイズのヒューマノイドロボットが現実世界で学習したポリシーを実証する最初の成功例だ。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:59:06 GMT)
FedEAT: A Robustness Optimization Framework for Federated LLMs [16.6] 我々は,クライアントLSMの埋め込み空間における対角的トレーニングを適用した新しいフレームワークであるFedEAT(Federated Embedding space Adversarial Training)を提案する。
実験により,フェデレートLLMのロバスト性は最小限の性能損失で効果的に向上することが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:55:46 GMT)
CausalEval: Towards Better Causal Reasoning in Language Models [16.6] 因果推論(CR)は知性の重要な側面であり、問題解決、意思決定、世界理解に不可欠である。
言語モデル(LM)は出力に対して有理性を生成することができるが、因果推論を確実に行う能力はいまだに不確実である。
因果推論のためのLMの強化を目的とした研究のレビューであるCausalEvalを紹介する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:16:29 GMT)
REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.6] 本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。
本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。
我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:10:47 GMT)
NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing [16.5] 本稿では,音響的帰納バイアスを微分可能な音声生成成分と統合したエンドツーエンドフレームワークを提案する。
具体的には、合成音声の韻律変化を捉えるための基本周波数予測器(F0)を導入する。
提案手法は, 話者特性を明示的にモデル化することなく, 話者類似性に対する良好な性能を実現する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:40:23 GMT)
Intersectional Fairness in Reinforcement Learning with Large State and Constraint Spaces [16.4] 多くの実世界の環境では、複数の目的を同時に最適化することが重要である。
目的を1つのスカラー報酬関数の状態ベース再重み付けによって定義する多目的最適化問題を考察する。
目的数が指数関数的に大きい場合でも、これらの多目的RL問題を解決するためのオラクル効率のアルゴリズムを提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:25:33 GMT)
Programming Refusal with Conditional Activation Steering [16.4] 条件付きアクティベーションステアリング(CAST)は、推論中のLCMアクティベーションパターンを分析して、アクティベーションステアリングを選択的に適用または保持する。
CASTは、特定のコンテンツに対する応答を選択的に修正し、他のコンテンツに対する通常の応答を維持し、すべて重み付けの最適化を必要としない。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:23:19 GMT)
Massively Scaling Explicit Policy-conditioned Value Functions [16.4] 本稿では,EPVF(Explicit Policy-Conditioned Value Function)のスケーリング戦略を紹介する。
EPVFは、ポリシーパラメータに明示的に条件付けされた値関数 V(theta) を学習し、任意のポリシーパラメータを直接勾配ベースの更新を可能にする。
EPVFは、カスタムAnt環境のような複雑なタスクを解くためにスケールでき、最先端のDeep Reinforcement Learning(DRL)ベースラインと競合することができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:02:54 GMT)
A Study on Leveraging Search and Self-Feedback for Agent Reasoning [16.3] 本研究では,探索とモデルの自己フィードバックを推論タスクに活用する方法を検討する。
まず,数理推論の探索において,地道フィードバックと自己フィードバックの相違について検討する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:12:36 GMT)
Towards Mechanistic Interpretability of Graph Transformers via Attention Graphs [16.2] 本稿では,グラフニューラルネットワーク(GNN)とグラフ変換器の機械的解釈性向上のための新しいツールであるAttention Graphsを紹介する。
注意グラフは、入力ノード間の情報の流れを記述するために、トランスフォーマー層とヘッドにまたがる注意行列を集約する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:35:16 GMT)
DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation [16.2] 本研究では,動的遅延フレームレートVAE(DLFR-VAE)を提案する。
我々のシンプルだが効果的なDLFR-VAEはプラグイン・アンド・プレイモジュールとして機能し、既存のビデオ生成モデルとシームレスに統合できる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:22:31 GMT)
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents [16.2] 我々は,これまでで最大かつ最も多様な軌跡レベルのデータセットを合成するスケーラブルなレシピを開発した。
このデータセットには、49KのユニークなURL、720Kのスクリーンショット、3300万のWeb要素を含む、94K以上の成功したマルチモーダルWebトラジェクトリが含まれている。
我々は、Mind2Web-Live、Multimodal-Mind2Web、MiniWob++のようなオフラインおよびオンライン両方のWebエージェントベンチマークで強力なパフォーマンスを示します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:13:48 GMT)
ScriptoriumWS: A Code Generation Assistant for Weak Supervision [16.1] 我々は、コード生成モデルを用いて、弱い監督源を作るためのコーディングアシスタントとして機能することを主張する。
我々は手作りのソースと比較すると精度を保ち、カバー範囲を大幅に改善する弱い監視システムであるScriptoriumWSを紹介した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:07:14 GMT)
Does RAG Really Perform Bad For Long-Context Processing? [15.9] RetroLMは長文処理のための新しいフレームワークである。
従来の方法とは異なり、RetroLMはKVレベルの検索拡張を採用している。
この枠組みに基づいて,臨界ページの正確な検索を行うための特殊検索器を開発した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:02:25 GMT)
Language Models Can See Better: Visual Contrastive Decoding For LLM Multimodal Reasoning [15.9] MLLM(Multimodal Large Language Models)のトレーニングは、リソース集約型であり、様々なトレーニング制限によって制限される。
本稿では,MVCD(Modular-based Visual Contrastive Decoding)フレームワークを提案する。
我々のフレームワークは、LLMのICL(In-Context Learning)機能と、提案した視覚コントラスト・サンプル・デコーディング(CED)を活用している。
その結果、モデル精度が一貫した改善を示し、復号化戦略における有効成分をうまく説明できた。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:47:00 GMT)
Retrieval-Augmented Generation with Estimation of Source Reliability [15.7] Reliability-Aware RAG (RA-RAG) は複数のソースの信頼性を推定し、この情報を検索プロセスと集約プロセスの両方に組み込む。
異質なソース信頼性を持つ実世界のシナリオを反映したベンチマークを導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:16:40 GMT)
ConFit v2: Improving Resume-Job Matching using Hypothetical Resume Embedding and Runner-Up Hard-Negative Mining [15.6] ConFit v2は、分散問題に対処するためのConFitの改善である。
本稿では,エンコーダのコントラスト学習プロセスを強化するための2つの手法を提案する。
実世界の2つのデータセット上でConFit v2を評価し、ConFitおよび先行手法よりも優れていることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:56:42 GMT)
What's in a Query: Polarity-Aware Distribution-Based Fair Ranking [15.6] ランキングにおける注意分布に基づく公正度に関する新しい尺度を提案する。
群フェアネスは個々のフェアネスによって上界であることが証明される。
償却公正ランキングの先行研究は、クエリに関する重要な情報を無視していることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:38:36 GMT)
Memory-based Ensemble Learning in CMR Semantic Segmentation [15.6] 我々は空間的連続性を利用して分節分散から大域的不確実性を抽出する。
エンドスライス精度を定量化するためにエンド係数(EC)を導入する。
我々のフレームワークは、ほぼ最先端のDice similarity Coefficient(DSC)を実現し、エンドスライス性能で全てのモデルを上回る性能を発揮する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:42:24 GMT)
How to Alleviate Catastrophic Forgetting in LLMs Finetuning? Hierarchical Layer-Wise and Element-Wise Regularization [15.4] 大きな言語モデル(LLM)は、強力な汎用言語能力を示す。
これらのモデルをドメイン固有のタスクで微調整すると、大惨な忘れがちになり、そこではモデルが事前訓練中に得られた重要な知識を上書きまたは失う。
本研究では,微調整時の一般知識の保存に不可欠なモデルパラメータの要素的重要性を計算するための新しい手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:10:33 GMT)
Rethinking Meta-Learning from a Learning Lens [15.4] 我々は、メタラーニングの戦略を学ぶためのより基本的な学習に焦点を当て、環境を変えることなく、エラーの原因とこれらのエラーの除去方法を探る。
本稿では,メタラーニングの最適化プロセスの校正にタスク関係を用いることを提案し,その目的を達成するために,タスク関係学習者(TRLearner)と呼ばれるプラグアンドプレイ手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:22:54 GMT)
MVTokenFlow: High-quality 4D Content Generation using Multiview Token Flow [15.2] モノクロビデオから高品質な4Dコンテンツを作成するためのMVTokenFlowを提案する。
マルチビュー拡散モデルを用いて、異なる時間ステップでマルチビュー画像を生成する。
MVTokenFlowはさらに、レンダリングされた2Dフローをガイダンスとして、すべてのマルチビュー画像を再生する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:34:58 GMT)
CELL your Model: Contrastive Explanations for Large Language Models [15.1] ブラックボックス/クエリアクセスを必要とする対照的な説明法を提案する。
オープンテキスト生成などの重要な自然言語タスクに対して,本手法の有効性を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:37:13 GMT)
DP-DyLoRA: Fine-Tuning Transformer-Based Models On-Device under Differentially Private Federated Learning using Dynamic Low-Rank Adaptation [15.0] フェデレートラーニング(FL)は、クライアントがローカルデータをサーバと共有することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
差分プライバシ(DP)は、クライアントのコントリビューションにランダム性を加えるメカニズムを備えた、正式なプライバシ保証を提供することによって、そのようなリークに対処する。
差分プライバシーと組み合わせてDP-DyLoRAと呼ぶ適応手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:23:32 GMT)
Small Models Struggle to Learn from Strong Reasoners [14.9] 小さなモデルは、大きなモデルからの長い連鎖推論や蒸留の恩恵を受けない。
我々は、長いCoTの例と短いCoTの例を組み合わせて推論の複雑さをバランスさせる戦略であるMix Distillationを提案する。
実験により, 混合蒸留は, いずれのデータ単独でのトレーニングよりも, 小型モデル推算性能を著しく向上させることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:56:15 GMT)
Logical forms complement probability in understanding language model (and human) performance [14.7] この研究は、自然言語で論理的推論を行う大規模言語モデルの能力を体系的に調査する。
命題論理およびモーダル論理における仮説的および解離的シロジズムの制御されたデータセットを導入する。
両者の行動データを収集・比較することにより,人間とLLMの論理的推論性能の類似点と相違点を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:56:30 GMT)
Neuron Empirical Gradient: Discovering and Quantifying Neurons Global Linear Controllability [14.7] 本研究はまず,ニューロン活性化とモデル出力の数値的関係について検討する。
ニューロン実験勾配(NEG)の正確かつ効率的な計算法であるNeurGradを導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:19:24 GMT)
DR.GAP: Mitigating Bias in Large Language Models using Gender-Aware Prompting with Demonstration and Reasoning [14.7] 大規模言語モデル(LLM)は、強力な自然言語処理能力を持つが、性バイアスを含む社会的バイアスを継承し、増幅し、公正さを懸念する。
本稿では,性差を緩和し,モデル性能を保ちながら,性差を緩和する手法であるDR.GAP(Demonstration and Reasoning for Gender-Aware Prompting)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:43:36 GMT)
Model Generalization on Text Attribute Graphs: Principles with Large Language Models [14.7] グラフ学習には大規模言語モデル(LLM)が導入されており、ラベル付きグラフデータが不足しているタスクにゼロショットの一般化の成功を拡大することを目的としている。
本研究では,タスク適応型埋め込みと一般化可能なグラフ情報集約機構に基づく,テキスト分散グラフ(TAG)に対する推論フレームワークを開発する。
11の実世界のTAGベンチマークによる評価は、LLM-BPが既存のアプローチよりも大幅に優れていることを示している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:31:00 GMT)
Quantum Hamiltonian Descent for Graph Partition [14.7] グラフ分割問題の解法として量子ハミルトニアン Descent を導入する。
我々はQHDの量子インスパイアされたダイナミクスを利用して最適なコミュニティ構造を同定する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:50:40 GMT)
Robust 6DoF Pose Tracking Considering Contour and Interior Correspondence Uncertainty for AR Assembly Guidance [14.6] 本稿では,誤りの少ない輪郭対応に対処し,耐雑音性を向上させる頑健な輪郭型ポーズトラッキング手法を提案する。
第2に、回転対称な物体の追跡を改良し、局所最小化を克服するための輪郭法を支援するためのCPUのみの戦略を導入する。
公開データセットと実シナリオを用いた実験により,本手法は最先端の単分子追跡法より著しく優れていることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:18:57 GMT)
X-Fi: A Modality-Invariant Foundation Model for Multimodal Human Sensing [14.5] 現在の人間の感覚は主にカメラとLiDARに依存しており、それぞれに独自の強度と限界がある。
既存のマルチモーダル・フュージョン・ソリューションは、一般に固定されたモダリティの組み合わせのために設計されている。
この問題に対処するために、すべてのモダリティ(X-Fi)に対するモダリティ不変基盤モデルを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:11:44 GMT)
Can Your Uncertainty Scores Detect Hallucinated Entity? [14.4] 本稿では,エンティティレベルで幻覚を注釈する新たなデータセットであるHaluEntityを提案する。
このデータセットに基づいて、17の近代LCMにおける不確実性に基づく幻覚検出手法を評価する。
実験の結果,個々のトークン確率に着目した不確実性推定手法は幻覚を過度に予測する傾向があることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:01:41 GMT)
KcMF: A Knowledge-compliant Framework for Schema and Entity Matching with Fine-tuning-free LLMs [14.4] 大規模言語モデル(LLM)は、タスク命令に関する幻覚や混乱に悩まされる。
本研究では、ドメイン固有の微調整を必要とせず、これらの問題に対処する知識-互換性マッチングフレームワーク(KcMF)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:23:58 GMT)
S$^2$-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation [14.4] 事例レベルの学習データからカテゴリレベルへの一般化を可能にするオープン語彙空間意味拡散政策(S$2$-Diffusion)を提案する。
本研究では, 空間表現と組み合わせて, プロンプト可能なセマンティックモジュールによって, スキルの機能的側面を捉えることができることを示す。
その結果、S$2$-Diffusionはカテゴリ非関連要因の変化に不変であり、同じカテゴリ内の他のインスタンスで、たとえ特定のインスタンスでトレーニングされていなくても、満足できることを示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:38:28 GMT)
A Comprehensive Survey on Concept Erasure in Text-to-Image Diffusion Models [14.3] テキスト・ツー・イメージ(T2I)モデルは、自然言語のプロンプトから高品質で多様な視覚コンテンツを生成できる。
著作権のあるスタイル、繊細なイメージ、有害なコンテンツを再現する能力は、重大な倫理的および法的懸念を引き起こす。
概念消去は、望ましくないコンテンツの生成を防ぐためにT2Iモデルを変更することで、外部フィルタリングの積極的な代替手段を提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:51:20 GMT)
VRoPE: Rotary Position Embedding for Video Large Language Models [14.3] テキストベース大規模言語モデル(LLM)における位置埋め込み(RoPE)の性能は高い。
RoPE-3Dのようなビデオ適応は、空間次元と時間次元を別々に符号化しようとするが、2つの大きな制限に悩まされる。
ビデオLLMに適した新しい位置符号化法である位置ロータリー埋め込み(VRoPE)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:53:57 GMT)
Conditional [MASK] Discrete Diffusion Language Model [14.2] Diffusion-EAGSは、条件付きマスキング言語モデルと拡散言語モデルを統合するフレームワークである。
本研究では,Diffusion-EAGSが最高の品質・多様性のトレードオフを実現し,非自己回帰テキスト生成の有効性を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:33:10 GMT)
NeuroStrata: Harnessing Neurosymbolic Paradigms for Improved Design, Testability, and Verifiability of Autonomous CPS [14.0] 本稿では,自律型CPSの試験と検証を強化するニューロシンボリック・フレームワークであるNeuroStrataを紹介する。
主要なコンポーネントの概要、初期の成果、今後の計画について詳述する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:07:41 GMT)
Threats, Attacks, and Defenses in Machine Unlearning: A Survey [14.0] マシン・アンラーニング(MU)は、Safe AIを達成する可能性から、最近かなりの注目を集めている。
この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究のギャップを埋めることを目的としている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:57:26 GMT)
T2VEval: T2V-generated Videos Benchmark Dataset and Objective Evaluation Method [13.9] T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。
テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。
T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:59:13 GMT)
DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversation Systems [13.9] リアルタイム対話シミュレータであるDialSimを紹介する。
本シミュレータでは、人気番組のキャラクターの役割を会話システムに割り当てる。
DialSimの主な特徴は、適切な時間内に応答するシステムの能力を評価することである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:17:41 GMT)
Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.7] 大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:46:03 GMT)
A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models [13.6] 言語モデル(LM)における論理的推論に関する最近の研究は、LMが事前学習中に体系的推論原理を学べるかという議論を巻き起こしている。
本稿では、内部力学の理解を深めるために、LMにおけるシロメトリクス推論の機械論的解釈を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:09:50 GMT)
TSS GAZ PTP: Towards Improving Gumbel AlphaZero with Two-stage Self-play for Multi-constrained Electric Vehicle Routing Problems [13.6] GAZ法(TSS GAZ PTP)を改善するための2段階のセルフプレイ戦略を提案する。
最初の段階では、学習者はGumbel Monte Carlo Tree Search(MCTS)に基づく強化されたポリシーネットワークを使用し、競技者は歴史的に最も訓練されたポリシーネットワーク(グリーディプレーヤーとしての活動)を使用する。
第2段階では,Gumbel MCTSを両プレイヤーに採用し,両プレイヤーがよりスマートな軌道を連続的に学習できるように競争を激化させる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:47:36 GMT)
DeFiScope: Detecting Various DeFi Price Manipulations with LLM Reasoning [13.5] 我々は、最初のLCMベースのアプローチであるDeFiScopeを導入し、DeFi価格操作攻撃を検出する。
DeFiScopeは高い精度の96%、リコールレートの80%を達成し、SOTAのアプローチを著しく上回っている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:45:03 GMT)
Structure based SAT dataset for analysing GNN generalisation [13.4] StructureSAT: 新しいサンプルを生成するためのコードとともに、キュレートされたデータセットを提供します。
我々は,構造グラフ特性の知識を活用することで,既存のGNN SATソルバにおける問題一般化の説明を支援することを目的とする。
我々は、GNNベースのSAT解法の研究者がより効果的で一般化可能なSAT解法を開発するのに役立つ、複数の今後の方向性を結論付けている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:49:25 GMT)
Long-time Integration of Nonlinear Wave Equations with Neural Operators [13.4] ニューラル演算子による非線形波動方程式の長期統合に焦点をあてる。
本研究では,これらの非線形波動方程式の本質的な特徴,例えば保存則やウェルプテンシティをアルゴリズム設計の改善と累積誤差の低減に活用する。
数値実験により,不規則領域上のKdV方程式,Sine-Gordon方程式,Klein-Gordon波方程式のこれらの改善について検討した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:08:36 GMT)
ETGL-DDPG: A Deep Deterministic Policy Gradient Algorithm for Sparse Reward Continuous Control [13.3] 我々は、疎度な報酬を伴う強化学習の文脈において、Deep Deterministic Policy gradient (DDPG) を考慮する。
探索手順としてemph$epsilont$-greedyを導入する。
報酬のある遷移によって提供される情報をより効率的に利用するために、我々は新しいデュアルエクスペリエンスバッファーフレームワークを開発する。
結果として得られるアルゴリズムであるemphETGL-DDPGは、3つのテクニックをすべて統合する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:39:49 GMT)
VidSketch: Hand-drawn Sketch-Driven Video Generation with Diffusion Control [13.3] VidSketchは、手書きのスケッチや簡単なテキストプロンプトから直接高品質のビデオアニメーションを生成する方法である。
具体的には,スケッチの指導力を自動的に調整するレベルベーススケッチ制御方式を提案する。
TempSpatial Attentionメカニズムは、生成されたビデオアニメーションの一貫性を高めるように設計されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:49:03 GMT)
Robot Deformable Object Manipulation via NMPC-generated Demonstrations in Deep Reinforcement Learning [13.3] 実演強化学習(RL)に基づくロボットによる変形可能な物体操作の研究を行う。
RLの学習効率を向上させるため,複数の側面からの実演データの利用を向上し,HGCR-DDPGアルゴリズムを提案する。
新規な高次元ファジィ手法を用いて、ポイント選択を把握し、レインボーDDPGにおけるデータ駆動学習を強化するための洗練された行動閉鎖法と、シーケンシャルなポリシー学習戦略を用いる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:41:46 GMT)
Towards Efficient Molecular Property Optimization with Graph Energy Based Models [13.3] 本稿では,暗黙的な化学特性最適化のための生成エネルギーベースアーキテクチャを提案する。
グラフエネルギーベースモデルとプロパティラベルを必要としないトレーニングアプローチを使用します。
我々は最先端の手法に優れた結果を示し、ド・ノボの薬物設計に対する堅牢性と効率性を実証した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:53:07 GMT)
Mimicking the Familiar: Dynamic Command Generation for Information Theft Attacks in LLM Tool-Learning System [13.2] 情報盗難攻撃は、Large Language Model (LLM)ツール学習システムに重大なリスクをもたらす。
LLMツール学習システムにおける情報盗難攻撃に対する動的攻撃コメント生成手法であるAutoCMDを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:15:46 GMT)
Characterizing Photorealism and Artifacts in Diffusion Model-Generated Images [13.1] フォトリアリスティックなAI生成画像によるメディアへの公衆信頼の課題を考慮し,人間の検出精度を測定する大規模な実験を行った。
私たちは、シーンの複雑さ、画像内のアーティファクトタイプ、画像の表示時間、AI生成画像の人間のキュレーションが、人々がAI生成画像と現実を正確に区別する上で重要な役割を担っていることに気付きました。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:28:15 GMT)
Argumentative Large Language Models for Explainable and Contestable Decision-Making [13.0] 本稿では,議論的推論を用いた大規模言語モデルの拡張手法であるArgLLMsを紹介する。
ArgLLMsは議論フレームワークを構築し、意思決定を支援するための公式な推論の基礎となる。
我々はArgLLMsの性能を最先端技術と比較して実験的に評価した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:05:06 GMT)
SEAL: Towards Safe Autonomous Driving via Skill-Enabled Adversary Learning for Closed-Loop Scenario Generation [13.0] 本稿では,学習対象関数と対人的スキルを活用するシナリオアプローチであるSEALを提案する。
SEAL対応のシナリオはSOTAベースラインよりも現実的であり、実世界、流通中、流通外シナリオ間でのエゴタスクの成功の改善につながります。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:48:52 GMT)
UniGO: A Unified Graph Neural Network for Modeling Opinion Dynamics on Graphs [12.9] 本稿では、異なる意見融合ルールを統合し、対応する合成データセットを生成するために、統一された意見力学モデルを構築する。
統一された意見力学の利点をフル活用するために、グラフ上での意見の進化をモデル化するフレームワークであるUniGOを紹介した。
UniGOは、グラフニューラルネットワークを通じて意見のダイナミクスを効率的にモデル化し、平衡現象を保ちながら過度な平滑化を緩和する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:40:32 GMT)
Reinforcement Learning with Intrinsically Motivated Feedback Graph for Lost-sales Inventory Control [12.8] 強化学習(Reinforcement Learning, RL)は, インベントリコントロール(IC)領域において, 優れた性能と汎用性があることが証明されている。
オンライン体験は、現実世界のアプリケーションで入手するのに費用がかかる。
オンライン体験は、ICの典型的な失業現象による真の需要を反映していない可能性がある。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:34:52 GMT)
No-regret incentive-compatible online learning under exact truthfulness with non-myopic experts [12.8] 我々は、T$以上のラウンド、N$の戦略的専門家がそれぞれ予測をメカニズムに報告するオンライン予測設定を調査します。
いずれのラウンドでも、各専門家は結果に対する信念を持っているが、専門家は、その結果が選択される回数を最大化するために、レポートを選択することを望んでいる。
我々は、この設定において、初めて、完全に真実でないメカニズムを開発します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:36:45 GMT)
High-Dynamic Radar Sequence Prediction for Weather Nowcasting Using Spatiotemporal Coherent Gaussian Representation [12.7] 天気予報における3次元レーダシークエンス予測のための包括的フレームワークを提案する。
動的レーダ表現には新たに提案したスペーシコヒーレント・ガウシアン・スプレイティング(STC-GS)と,効率的かつ正確な予測にはガウマンバを用いる。
実験により,STC-GSは既存の3次元表現法と比較して16時間以上の空間分解能を持つ3次元レーダシーケンスを効率よく表現できることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:00:02 GMT)
Scalable Back-Propagation-Free Training of Optical Physics-Informed Neural Networks [12.7] 物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)の解法において有望であることを示す。
フォトニックコンピューティングは、超高速な演算速度のために、この目標を達成するための潜在的なソリューションを提供する。
本稿では,シリコンフォトニックプラットフォーム上でのリアルタイムPINNのトレーニングのための,完全バックプロパゲーションフリー(BPフリー)かつ高給電性フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:45:23 GMT)
Bias Amplification: Large Language Models as Increasingly Biased Media [12.4] 大規模言語モデル(LLM)における既存社会バイアスの進行的強化について検討する。
右利きバイアスは徐々に増大している。
機械学的解釈は、モデル崩壊とバイアス増幅の原因となるニューロンの異なる集合を識別し、それらが異なる基盤機構から生じることを示唆している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:49:14 GMT)
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation [12.3] 視覚言語モデル(VLM)は自然言語処理や画像理解において顕著な進歩を遂げている。
本稿では,SARChat-2MというSAR画像のための大規模多モード対話データセットを革新的に提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:13:46 GMT)
Grounded Knowledge-Enhanced Medical Vision-Language Pre-training for Chest X-Ray [12.2] 医用視覚言語プレトレーニングは、医用画像とテキストのドメイン汎用表現を学習するための有望なアプローチとして現れてきた。
胸部X線に対する知識強化型医療ビジョン言語事前学習フレームワークを提案する。
以上の結果から,胸部X線像とX線像との整合性を改善するために接地機構を組み込むことの利点が示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:49:16 GMT)
COBRA: A Continual Learning Approach to Vision-Brain Understanding [12.2] 視覚脳理解(VBU)は機能的磁気共鳴画像(fMRI)によって記録された脳活動から視覚情報を抽出することを目的としている
VBUの既存の研究は破滅的な忘れ込みという課題に直面している。
本稿では,視覚脳のための連続学習(Continuous Learning for Vision-Brain,COBRA)と呼ばれる新しいフレームワークを紹介し,VBUにおける連続学習に対処する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:01:31 GMT)
On Representational Dissociation of Language and Arithmetic in Large Language Models [12.2] 簡単な算術方程式と一般言語入力は、大言語モデルにおいて完全に分離された領域に符号化されていることを示す。
これは、算術的推論が一般的な言語入力とは異なる領域にマッピングされることを示している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:42:01 GMT)
ScholaWrite: A Dataset of End-to-End Scholarly Writing Process [12.2] ScholaWriteデータセットは、完全な原稿のエンドツーエンドの学術的な記述プロセスのキーストロークコーパスである。
データセットには5つのプレプリントから得られたキーストロークデータが含まれており、合計62万件のテキスト変更とアノテーションが4ヶ月にわたる論文執筆に費やされている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:37:57 GMT)
All Models Are Miscalibrated, But Some Less So: Comparing Calibration with Conditional Mean Operators [12.1] 条件平均演算子間の差のヒルベルト・シュミットノルムに基づくカーネル校正誤差を提案する。
実験の結果,CKCEはキャリブレーション誤差によるモデルの一貫性の高いランキングを提供し,分散シフトに対してより堅牢であることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:52:09 GMT)
Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging - An Open Recipe [12.1] 本稿では,言語固有の大規模言語モデル(LLM)の推論能力の向上を目的とする。
DeepSeek R1は推論に優れていますが、主に英語や中国語のような高リソース言語にメリットがあります。
低リソース言語は、英語中心のトレーニングデータとモデル最適化の優位性のため、いまだに保存されていない。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:16:00 GMT)
Joint Evaluation of Fairness and Relevance in Recommender Systems with Pareto Frontier [12.0] 推薦システム(RS)における公正性と妥当性を共同評価するための新しいアプローチを提案する。
我々のアプローチはモジュラーで直感的であり、既存の測度で計算できる。
4つのRSモデル、3つの再ランク戦略、6つのデータセットによる実験は、既存のメトリクスがソリューションと矛盾していることを示している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:33:28 GMT)
Multi3Hate: Multimodal, Multilingual, and Multicultural Hate Speech Detection with Vision-Language Models [11.8] マルチモーダルおよびマルチ言語並列ヘイトスピーチデータセットを作成し、マルチ3Hateと呼ばれるマルチカルチャーアノテータセットで注釈付けする。
5つの言語(英語、ドイツ語、スペイン語、ヒンディー語、マンダリン)にまたがる300のミームサンプルを含んでいる。
文化的背景がデータセットにおけるマルチモーダルヘイトスピーチのアノテーションに大きく影響することを示し、各国間の平均的なペアワイド合意は、ランダムに選択されたアノテータグループよりもわずか74%低い。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:34:19 GMT)
A Survey of Fuzzing Open-Source Operating Systems [11.8] オープンソースのオペレーティングシステムの脆弱性は、重大なセキュリティリスクを引き起こす。
この研究は、最先端OSF技術を体系的に調査し、一般的なファジィングプロセスに基づいてそれらを分類し、カーネル、ファイルシステム、ドライバ、ファジィングに特有の課題を調査する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:53:02 GMT)
LaM-SLidE: Latent Space Modeling of Spatial Dynamical Systems via Linked Entities [11.8] 本稿では、LaM-SLidE(リンクされたエンティティによる空間力学系のラテント空間モデリング)を提案する。
我々のアプローチは、グラフニューラルネットワークの利点、すなわち時間ステップ間でのエンティティのトレーサビリティを組み合わせたものです。
本稿では,LaM-SLidEが速度,精度,一般化性において良好に動作することを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:49:13 GMT)
SQL-o1: A Self-Reward Heuristic Dynamic Search Method for Text-to-SQL [11.7] 大規模言語モデル(LLM)の推論能力を高めるために,自己回帰に基づく探索手法を提案する。
私たちのコードは、https://github.com/ShuaiLyu01T-o1.comで公開されています。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:28:11 GMT)
Optimal Brain Iterative Merging: Mitigating Interference in LLM Merging [11.7] 大きな言語モデル(LLM)は印象的な能力を示しているが、その高い計算コストはカスタマイズに困難をもたらす。
モデルマージはコスト効率の良い代替手段を提供するが、既存のメソッドはパラメータ間の干渉に悩まされ、パフォーマンスが低下する。
本稿では,モデル内干渉とモデル間干渉を緩和する新しい手法である,最適脳反復法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:07:49 GMT)
Aligning Sentence Simplification with ESL Learner's Proficiency for Language Acquisition [11.7] 本研究は,第2言語学習者の簡易化による英語習得を支援することを目的としている。
本稿では,複雑な文を学習者に適したレベルに単純化すると同時に,目的レベルの語彙的カバレッジを高めることを提案する。
本手法では,トークンレベルの報酬と文レベルの報酬を用いて,目標属性を満たす単純化仮説を探索するために,自己生成出力のモデルを反復的に訓練する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:32:56 GMT)
Medical Image Registration Meets Vision Foundation Model: Prototype Learning and Contour Awareness [11.7] 既存の変形可能な登録法は強度に基づく類似度測定のみに依存しており、明確な解剖学的知識が欠如している。
本稿では,プロトタイプ学習と輪郭認識を取り入れた新しいSAM支援登録フレームワークを提案する。
私たちのフレームワークは、既存のメソッドを複数のデータセットで大幅に上回っています。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:54:47 GMT)
Generative Topology Optimization: Exploring Diverse Solutions in Structural Design [11.6] トポロジー最適化(英: Topology Optimization、TO)は、公式な問題記述から準最適ジオメトリを導出する計算手法のファミリーである。
生成トポロジ最適化(GenTO)は,ニューラルネットワークを用いて構造に適合した形状を生成するデータフリーな手法である。
我々は,GenTOがほぼ最適性を維持しながら,従来手法よりも多様な解を生成することを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:24:18 GMT)
TokenSkip: Controllable Chain-of-Thought Compression in LLMs [11.6] CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上に有効であることが証明されている。
TokenSkipは、LLMが重要でないトークンを選択的にスキップし、制御可能なCoT圧縮を可能にする、シンプルで効果的なアプローチである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:37:26 GMT)
Exploring the Effect of Explanation Content and Format on User Comprehension and Trust in Healthcare [11.4] 本稿では,QCancerの予測を説明する際に,説明内容と形式がユーザの理解と信頼にどのように影響するかを検討する。
以上の結果から,Occlusion-1の主観的理解と信頼度がSHAPによる説明よりも高いことが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:49:36 GMT)
MaLei at the PLABA Track of TREC 2024: RoBERTa for Term Replacement -- LLaMA3.1 and GPT-4o for Complete Abstract Adaptation [11.4] 本報告は,バイオメディカル・コンストラクト(PLABA)2024の共有タスクであるPlain Language Adaptation of Biomedical Abstracts(PLABA)に関するMaLeiチームのシステム記述である。
課題1(長期的置換)では, バイオメディカル抽象化における難解な用語, ジャーゴン, 頭字語を識別・分類するために, 微調整されたReBERTa-Baseモデルを適用した。
第2タスク(完全な抽象的適応)では、Llamma3.1-70B-InstructとGPT-4oをワンショットプロンプトで処理し、BLEU, SARI, BERTScore, LENS, SALSAでスコアを報告した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:54:59 GMT)
Double Momentum and Error Feedback for Clipping with Fast Rates and Differential Privacy [11.4] 既存のアルゴリズムは、強い微分プライバシー(DP)と最適化の保証を一度に達成しない。
クリッピング,重球運動量,誤差フィードバックを組み合わせたClip21-SGD2Mを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:16:21 GMT)
MT-RAIG: Novel Benchmark and Evaluation Framework for Retrieval-Augmented Insight Generation over Multiple Tables [11.3] MT-RAIG Benchは、マルチテーブル上での検索型インサイト生成システムを評価するように設計されている。
そこで本研究では,人体品質判定の精度向上を目的とした,詳細な評価フレームワークMT-RAIG Evalを紹介した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:21:13 GMT)
Sparse Autoencoder Features for Classifications and Transferability [11.2] 大規模言語モデル(LLM)からの特徴抽出のためのスパースオートエンコーダ(SAE)の解析
本フレームワークは,(1)モデル層選択とスケーリング特性,(2)幅とプール戦略を含むSAEアーキテクチャ構成,(3)連続SAE活性化のバイナライズ効果を評価する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:30:45 GMT)
Enhancing Offline Model-Based RL via Active Model Selection: A Bayesian Optimization Perspective [11.2] オフラインモデルベース強化学習(MBRL)は、事前収集データのみから、適切なパフォーマンスのポリシを学習するための競争フレームワークとして機能する。
我々は,オンラインインタラクション予算の少ないオフラインMBRLにおけるモデル選択を強化する,アクティブモデル選択フレームワークBOMSを提案する。
BOMSは、オフライントレーニングデータのわずか1%-2.5%に匹敵する少額のオンラインインタラクションによって、ベースラインメソッドよりも改善されていることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:34:58 GMT)
DifCluE: Generating Counterfactual Explanations with Diffusion Autoencoders and modal clustering [11.2] 我々は拡散オートエンコーダのパワーを利用して、複数の異なる対実的説明を生成する。
潜在空間をクラスタリングすることで、クラス内の異なるモードに対応する方向を明らかにする。
我々はこれらのモードを一貫して識別し、より信頼性の高い対実的説明を生成する新しい方法論であるDifCluEを紹介する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:17:37 GMT)
Data Valuation using Neural Networks for Efficient Instruction Fine-Tuning [11.2] 影響関数はモデルトレーニングに重要な洞察を与える。
既存の手法は計算コストが大きく、一般化が限られている。
本稿では、ニューラルネットワークを用いて影響値を推定し、最大99%のコスト削減を実現する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:26:47 GMT)
LLM Embeddings for Deep Learning on Tabular Data [11.0] タブラル深層学習法では, 数値的およびカテゴリー的な入力特徴を高次元空間に埋め込む必要がある。
既存の手法では、異なる型固有のエンコーディングアプローチを用いることで、この異種データの性質を扱う。
本稿では,まず表形式データをテキストに変換し,LLMから事前学習した表現を活用してそのデータを符号化し,プラグアンドプレイのソリューションを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:28:51 GMT)
Debiasing Guidance for Discrete Diffusion with Sequential Monte Carlo [10.9] 本稿では,ターゲット分布から不均一に生成するSequential Monte Carloアルゴリズムを提案する。
我々は、低次元分布、制御された画像、テキスト生成に対するアプローチを検証する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:44:24 GMT)
Promoting the Responsible Development of Speech Datasets for Mental Health and Neurological Disorders Research [10.9] 我々は、メンタルヘルスや神経疾患のための音声データセットの展望をグラフ化する。
我々は、より責任ある研究を促進するために、倫理的な懸念に焦点を当てた実行可能なチェックリストにそれを蒸留する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:44:01 GMT)
Culture is Not Trivia: Sociocultural Theory for Cultural NLP [10.8] これらの方法論的限界は理論的ギャップのシンプトマティックなものであると論じる。
我々は、このギャップを埋めるために、社会文化的言語学から発達した文化の理論を描いている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:25:11 GMT)
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.7] SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:24:47 GMT)
CMQCIC-Bench: A Chinese Benchmark for Evaluating Large Language Models in Medical Quality Control Indicator Calculation [10.6] 医用品質管理指標計算(MQCIC)のためのオープンソースの中国の電子カルテ(EMR)ベースのデータセット(CMQCIC-Bench)を提案する。
本稿では,臨床事実検証と推論規則推論の動作を阻害する,ルール表現を強化する半自動法と臨床ファクトベース推論規則(CF-IR)法を提案する。
その結果,CF-IRはMQCICタスクにおいてChain-of-Thoughtメソッドよりも優れていることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:40:48 GMT)
"Nuclear Deployed!": Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents [10.6] 大規模言語モデル(LLM)は、自律的な意思決定者へと進化し、ハイステークシナリオにおける破滅的なリスクに対する懸念を高めている。
このようなリスクは,エージェントのHelpful,Harmlessness,Hoest(HHH)目標間のトレードオフから生じる可能性があるという知見に基づいて,新しい3段階評価フレームワークを構築した。
14,400個のエージェントシミュレーションを12個の先進LDMで行い、広範囲な実験と分析を行った。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:11:17 GMT)
Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.5] 本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:39:43 GMT)
Graph Learning Across Data Silos [10.4] 本稿では,スムーズなグラフ信号からグラフトポロジを推定する問題を考える。
データは分散クライアントにあり、プライバシー上の懸念などの要因により、ローカルクライアントを去ることは禁じられている。
本稿では,各ローカルクライアントに対してパーソナライズされたグラフと,全クライアントに対して単一のコンセンサスグラフを共同で学習する,自動重み付き多重グラフ学習モデルを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:08:30 GMT)
Bag of Tricks for Inference-time Computation of LLM Reasoning [10.4] 複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。
我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。
我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:54:05 GMT)
LLMs can Perform Multi-Dimensional Analytic Writing Assessments: A Case Study of L2 Graduate-Level Academic English Writing [10.2] 我々は,L2大学院生による文献レビューのコーパスを用いて,9つの分析基準に対して,人間専門家による評価を行った。
フィードバックコメントの品質を評価するために,新しいフィードバックコメント品質評価フレームワークを適用した。
LLMは、合理的に良好で信頼性の高い多次元解析アセスメントを生成することができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:31:56 GMT)
Scalable Vision Language Model Training via High Quality Data Curation [10.1] 本稿では,2Bパラメータと8BパラメータでSOTA(State-of-the-art)性能を実現するための,オープンソースのビジョン言語モデル(VLM)シリーズを紹介する。
以下の3つの重要な改善は、SAILVLの主要なパフォーマンスに貢献している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:04:53 GMT)
Detecting and Filtering Unsafe Training Data via Data Attribution [10.1] 大規模言語モデル(LLM)は、安全でないトレーニングデータに対して脆弱である。
安全でないトレーニングデータの検出とフィルタリングにデータ属性を活用するDABUFを提案する。
我々は、ジェイルブレイク訓練データのフィルタリングと、性別バイアスの識別と緩和の2つの異なるタスクのパフォーマンスを評価する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:50:58 GMT)
DINeuro: Distilling Knowledge from 2D Natural Images via Deformable Tubular Transferring Strategy for 3D Neuron Reconstruction [10.1] 3D光顕微鏡画像データからニューロンの形態を再構築することは、神経科学者が脳ネットワークや神経解剖学を分析するのを助けるために重要である。
本稿では, 潜伏埋め込み空間における神経構造固有の管状特性に, 事前学習した2次元自然知識を適応させる変形可能な管状伝達戦略を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:08:04 GMT)
Range and Bird's Eye View Fused Cross-Modal Visual Place Recognition [10.1] VPR(Image-to-point cloud cross-modal Visual Place Recognition)は、クエリがRGBイメージであり、データベースサンプルがLiDARポイントクラウドである、難しいタスクである。
本稿では,範囲(またはRGB)画像とBird's Eye View(BEV)画像からの情報を効果的に組み合わせた,革新的な初期検索と再ランク手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:29:26 GMT)
ILIAS: Instance-Level Image retrieval At Scale [10.0] ILIASはインスタンスレベルイメージ検索のための新しいテストデータセットである。
それは、現在および将来の基礎モデルと、特定のオブジェクトを認識するための検索技術を評価するために設計されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:42:38 GMT)
On Temperature Scaling and Conformal Prediction of Deep Classifiers [10.0] コンフォーマル予測(CP)は、ユーザが特定した確率で真のラベルを含む候補ラベルの予測セットを生成する。
実際には、どちらの種類の表示も望ましいが、今のところ両者の相互作用は研究されていない。
温度スケーリング(TS)キャリブレーションは適応CP法のクラス条件カバレッジを改善するが、驚くべきことに予測セットサイズに悪影響を及ぼす。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:45:28 GMT)
Uncertainty-Aware Critic Augmentation for Hierarchical Multi-Agent EV Charging Control [10.0] ビルとEVの両方のエネルギー需要を規制する新しいリアルタイム充電制御であるHUCAを提案する。
HUCAは階層的なアクタークリティカルネットワークを使用して、動的価格シナリオにおけるEV充電の必要性を考慮して、建物の電力コストを動的に削減する。
実世界の電気データセットのシミュレーションと不確実な離脱シナリオによる実験により、HUCAは総電力コストにおいてベースラインを上回っていることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:19:13 GMT)
Large Language Models Are Active Critics in NLG Evaluation [9.9] Active-Criticは、大きな言語モデル(LLM)を「アクティブな批評家」に変換する新しい評価器である
実験の結果,Active-Criticは文脈認識評価基準を生成できることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:07:26 GMT)
The Worse The Better: Content-Aware Viewpoint Generation Network for Projection-related Point Cloud Quality Assessment [9.8] 本稿では,コンテンツ認識型視点生成ネットワーク(CAVGN)を提案する。
提案したCAVGNをトレーニングするために,最低品質の投影画像で視点を選択する自己監督型視点ネットワーク(SSVRN)を提案する。
実験結果から,提案したCAVGNの視点を用いて,プロジェクション関連PCQA法により高い性能が得られることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:50:42 GMT)
No-reference geometry quality assessment for colorless point clouds via list-wise rank learning [9.8] 本稿では,リストワイド・ランク・ラーニングに基づく非参照幾何のみの品質評価手法を提案する。
提案したLRL-GQAは、非参照GQAをリストワイドランク問題として定式化する。
実験結果から,提案手法の非参照型LRL-GQA法の性能は,既存の全参照型GQA法と比較して優れていることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:11:56 GMT)
On Creating a Causally Grounded Usable Rating Method for Assessing the Robustness of Foundation Models Supporting Time Series [9.8] 本稿では,時系列の基本モデルが持つロバスト性を研究するための,因果的基盤評価フレームワークを提案する。
我々は、三つの産業にまたがる6つの著名な株式の6つの最先端(幾らかのマルチモーダル)FMTSを評価した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:26:16 GMT)
MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression [9.7] MedVQAのための新しいデータセットであるMMXUを導入する。
シングルイメージの質問に主に対処する以前のデータセットとは異なり、MMXUは現在の患者データと歴史的な患者データの両方を取り入れたマルチイメージの質問を可能にする。
実験の結果,過去の記録の統合は診断精度を少なくとも20%向上させ,現在のLVLMと人的専門家のパフォーマンスのギャップを埋めることを示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:43:38 GMT)
User-Centric Data Management in Decentralized Internet of Behaviors System [9.7] Internet of Behaviors (IoB) は、デバイスを利用して人間の行動を収集し、インテリジェントなサービスを提供する新しい概念である。
本稿では,行動データの生成,アップロード,利用の異なる段階におけるセキュリティとプライバシのリスクを分析する。
ブロックチェーンベースの分散IoBデータストレージと共有フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:59:25 GMT)
Does Knowledge About Perceptual Uncertainty Help an Agent in Automated Driving? [9.7] エージェントの行動が不確実な知覚にどのように影響されるかを検討する。
我々は、与えられたエージェントの知覚を摂動させることにより、観測空間における不確実性を導入する。
本実験は, 摂動知覚によってモデル化された信頼性の低い観測空間が, エージェントの防御駆動行動を引き起こすことを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:56:25 GMT)
Revealing Bias Formation in Deep Neural Networks Through the Geometric Mechanisms of Human Visual Decoupling [9.6] ディープニューラルネットワーク(DNN)はしばしば、オブジェクト認識中に特定のカテゴリに対するバイアスを示す。
本稿では,クラス固有の知覚多様体の幾何学的複雑さをモデルバイアスにリンクする幾何学的解析フレームワークを提案する。
本稿では,知覚多様体の幾何学的性質を計算するために設計された知覚多様体幾何学ライブラリを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:54:02 GMT)
Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning [9.6] そこで本稿では,MAsked latenT Prediction and Classification (MATPAC) という2つのプレテキストタスクを併用して学習する手法を提案する。
MATPACは、OpenMIC、GTZAN、ESC-50、US8Kなどの参照オーディオ分類データセット上で、最先端の自己教師付き学習結果に達する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:02:26 GMT)
Diversity-Oriented Data Augmentation with Large Language Models [9.5] 我々はtextbfunderline Di-textbfunderline 指向データ textbfunderlineAugmentation framework (textbfDoAug) を提案する。
具体的には、多様性指向の微調整手法を用いて、多彩なパラフレーズを生成することでテキストデータセットを増強できる多彩なパラフレーズとしてLLMを訓練する。
その結果, ラベルの整合性を維持しつつ, 微調整LDMオーグメンタにより多様性が向上し, 下流タスクの堅牢性と性能が向上することがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:00:40 GMT)
CONSTRUCTA: Automating Commercial Construction Schedules in Fabrication Facilities with Large Language Models [9.4] 本稿では,半導体製造などの複雑なプロジェクトにおいて,LCMを活用して構築スケジュールを最適化する新しいフレームワークを提案する。
ConSTRUCTAは,(1)静的なRAGを通して構築固有の知識を統合すること,(2)アーキテクチャの専門知識にインスパイアされたコンテキストサンプリング技術を用いて関連するインプットを提供すること,(3)スケジュールを専門家の好みに合わせるために構築DPOを配置すること,といった課題に対処する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:35:42 GMT)
ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.4] 本研究は、AI生成レビューのための総合的な評価フレームワークを紹介する。
人間の評価との整合性を測定し、事実の正確性を検証し、分析的な深さを評価し、実行可能な洞察を識別する。
我々のフレームワークは、AIベースのレビューシステムを評価するための標準化されたメトリクスを確立する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:22:11 GMT)
CoDiff: Conditional Diffusion Model for Collaborative 3D Object Detection [9.3] 協調型3次元物体検出は、自律運転の分野において重要な役割を担っている。
推定誤差と時間遅延のため、エージェント間の情報の融合はしばしば空間的および時間的ノイズを伴う特徴表現をもたらす。
我々は,より包括的で明確な特徴表現を生成するために拡散モデルの可能性を活用する,新しいロバストな協調認識フレームワークであるCoDiffを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:20:52 GMT)
An Efficient Row-Based Sparse Fine-Tuning [9.2] ニューラルネットワークプルーニングのアイデアに基づく新しいSFTフレームワークを開発した。
本研究では,SFTのメモリ効率をトレーニング時間の複雑さを増大させることなく向上させることが実証された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:54:42 GMT)
FaMTEB: Massive Text Embedding Benchmark in Persian Language [9.2] 本稿では,Massive Text Embedding Benchmark (MTEB)上に構築されたペルシア語(Farsi)テキスト埋め込みの総合ベンチマークを提案する。
私たちのベンチマークには、7つの異なるタスクにまたがる63のデータセットが含まれています。
ペルシャ語および多言語埋め込みモデルの性能を様々なタスクで評価する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:05:21 GMT)
From Isolates to Families: Using Neural Networks for Automated Language Affiliation [9.2] 歴史的言語学では、言語を共通の言語族に関連付けることは、伝統的に複雑なワークフローを用いて行われる。
多言語ワードリストと文法言語構造の大規模に標準化されたコレクションは、これを改善し、自動言語アフィリエイトを開発するための新たな道を開くのに役立つだろう。
本研究では,1000言語以上の言語から得られた語彙データと文法データを用いて,個々の言語を家族に分類するニューラルネットワークモデルを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:25:32 GMT)
Duo Streamers: A Streaming Gesture Recognition Framework [9.1] Duo Streamersは、リソース制約のあるデバイスのためのストリーミングジェスチャー認識フレームワークである。
3段階のスパース認識機構、外部隠蔽状態のRNN-liteモデル、特別なトレーニングと後処理パイプラインを通じて、高精度で低レイテンシを実現する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:13:43 GMT)
Designing Role Vectors to Improve LLM Inference Behaviour [9.0] 大規模言語モデル(LLM)に対するペルソナの影響は広く研究されているが、そのパフォーマンスに対する直接的な影響はいまだ不明である。
この研究は、ペルソナに基づくプロンプトの代替であるロールベクトルを通してLLMの振る舞いを導く新しいアプローチを探求する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:24:37 GMT)
I-CTRL: Imitation to Control Humanoid Robots Through Constrained Reinforcement Learning [9.0] 有界残留強化学習(I-CTRL)によるヒューマノイドロボットの制御フレームワークの開発
I-CTRLは5つのロボットにまたがるシンプルでユニークな報酬で、動きの模倣に優れています。
本フレームワークでは,大規模動作データセットを管理するための自動優先度スケジューラを導入している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:32:21 GMT)
Federated Multi-Armed Bandits Under Byzantine Attacks [9.0] FMAB(Federated Multi-armed Bandits)は、学習者がMABゲームをし、集約されたフィードバックをサーバに伝達し、グローバルな最適なアームを学ぶための新興フレームワークである。
本研究では,学習プロセスを脅かす偽モデル更新を送信できるビザンティンクライアントの存在下でのFMAB問題について検討する。
我々は,ビザンティンの顧客に対応するために,中央値平均オンラインアルゴリズムであるFed-MoM-UCBを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:31:17 GMT)
HARBOR: Exploring Persona Dynamics in Multi-Agent Competition [9.0] 競合するマルチエージェント環境におけるLLMエージェントの成功に寄与する要因について検討する。
私たちの仕事は、複数のエージェントが家に入札する現実的な環境を作ることによって、古典的なオークションシナリオを拡張します。
私たちのテストベッドであるHARBORは、競争環境におけるマルチエージェントの理解を深めるための貴重なプラットフォームを提供します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:58:36 GMT)
BaxBench: Can LLMs Generate Correct and Secure Backends? [8.9] 大規模言語モデル(LLM)は、関数レベルで効率的にコードを生成し、コード編集を行い、アルゴリズムによるコーディングタスクを解決する。
完全な自動化を実現するためには、LLMは製品品質の自己完結型アプリケーションモジュールを生成する必要がある。
バックエンドアプリケーション生成のための392タスクからなる新しい評価ベンチマークであるBaxBenchを紹介する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:37:47 GMT)
GeoDANO: Geometric VLM with Domain Agnostic Vision Encoder [8.9] 平面幾何学問題を解くために,ドメインに依存しない視覚エンコーダを備えた幾何学的視覚言語モデル(VLM)であるGeoDANOを紹介する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:18:33 GMT)
PreAdaptFWI: Pretrained-Based Adaptive Residual Learning for Full-Waveform Inversion Without Dataset Dependency [8.7] フルウェーブフォーム・インバージョン(Full-waveform Inversion、FWI)は、地震データを用いて地下媒体の物理パラメータを反転させる手法である。
異常な性質のため、FWIは局所的なミニマに閉じ込められやすい。
ニューラルネットワークとFWIを組み合わせることで、インバージョンプロセスの安定化が試みられている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:30:17 GMT)
3D Whole-body Grasp Synthesis with Directional Controllability [8.7] 物体をリアルに把握する3次元体全体を合成するCWGraspを提案する。
CWGraspは「遅すぎる」ではなく「早期オン」という幾何学に基づく推論を行い、推論のためのリッチな「制御」信号を提供する。
GRABおよびReplicaGraspデータセットの評価を行った。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:59:56 GMT)
MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction [8.5] ビデオマスク再構成を具現化した一般化可能な世界モデルであるMaskGWMを提案する。
本モデルには,長期水平予測に着目したMaskGWM-longと,マルチビュー生成専用のMaskGWM-mviewの2種類が含まれている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:53:56 GMT)
When Wyner and Ziv Met Bayes in Quantum-Classical Realm [8.5] 後方(後)チャネルに基づく新しい定式化を導入し、単一文字の歪みを1文字の後方チャネルに置き換えて再構成誤差を捉える。
そこで我々は,レートチャネル圧縮プロトコルが,特定の歪み測定値とレベルに対して最適なレート歪み関数を達成することを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:49:19 GMT)
Developmentally-plausible Working Memory Shapes a Critical Period for Language Acquisition [8.4] 大きな言語モデルは一般的な言語能力を持っているが、人間よりも効率が低い。
本研究では,臨界期における作業記憶の発達特性を統合する手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:55:26 GMT)
Large Language Models are Contrastive Reasoners [8.4] コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショット CoT と少数ショット CoT を超越する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:40:44 GMT)
DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors [8.4] 本稿では,Diffusion Transformer (DiT) ベースのTSモデルであるDiTTo-TTSを導入し,LDMベースのTSがドメイン固有の要因を伴わずに最先端の性能を達成できるかどうかを検討する。
最小修正のDiTは、U-Netよりも優れており、音声長予測器による可変長モデリング、音声潜在表現のセマンティックアライメントなどの条件は、さらなる拡張の鍵となる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:34:45 GMT)
On Feasible Rewards in Multi-Agent Inverse Reinforcement Learning [8.3] 逆強化学習(IRL)は、専門家の行動を分析してユーティリティを明らかにする。
本稿では,マルチエージェントIRLにおいて実現可能な報酬セットを厳密に分析する。
エントロピー規則化されたゲームを導入し、平衡一意性を確保し、解釈可能性を高める。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:20:06 GMT)
Robust High-Dimensional Mean Estimation With Low Data Size, an Empirical Study [8.2] 最も重要な統計は平均であり、近年は、崩壊したデータに対する高次元の平均を効率的に推定する理論上の進歩が急増している。
ほぼ最適誤差を達成するアルゴリズムがいくつか提案されているが、これらはすべて次元の関数として大きなデータサイズ要求に依存している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 00:21:34 GMT)
Personality Structured Interview for Large Language Model Simulation in Personality Research [8.2] 人格研究における人間の反応をシミュレートするためのツールとして,理論インフォームド・パーソナリティ構造化インタビューの可能性を探る。
対象サンプルから,32質問に対する個人の回答を含む357件の構造化面接書を作成した。
3つの実験の結果、LLMシミュレーションされた人格データにおいて、よく設計されたインタビューが人間のような不均一性を改善できることを示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:31:57 GMT)
Formalizing Complex Mathematical Statements with LLMs: A Study on Mathematical Definitions [8.1] 我々は、ウィキペディア(Def_Wiki)とarXiv論文(Def_ArXiv)から定義を収集する、自動形式化のための2つの新しいリソースを紹介する。
我々は、Isabelle/HOLに定義を形式化する能力を解析し、LLMの範囲を評価した。
以上の結果から, miniF2Fのような既存のベンチマークと比較して, 定義がより困難であることが判明した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:34:48 GMT)
Nonreciprocal entanglement in cavity magnomechanics exploiting chiral cavity-magnon coupling [8.1] 本研究では,空洞磁気力学系における非相互量子絡み合いを実現するための新しい機構を提案する。
この研究は、ノイズ耐性量子処理、チャネル多重量子テレポーテーション、カイラルマグノン量子ネットワークにおいて有望な応用を見出すことができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:54:38 GMT)
Improved Online Confidence Bounds for Multinomial Logistic Bandits [8.1] 本稿では,MNLモデルに対するオンライン信頼度の向上を提案する。
この結果をMNLブレイビットに適用し,変分依存性の最適後悔を実現する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:48:42 GMT)
A Comparison of Human and Machine Learning Errors in Face Recognition [8.1] 我々は顔認識の分野で実験を行い、2つの自動顔認識システムと人間のアノテータを比較した。
我々の研究は、機械学習の誤りとヒューマンエラーが互いに異なる重要な方法を明らかにするとともに、人間と機械の協調によって顔認識の精度が向上する可能性を示唆している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:27:35 GMT)
Exploiting Task Relationships for Continual Learning Using Transferability-Aware Task Embeddings [8.0] 連続学習(CL)は、ディープニューラルネットワークの現代的応用において重要なトピックである。
本稿では,H-embedding(H-embedding)という名前の伝達可能性を考慮したタスク埋め込みを提案し,その指導の下でハイパーネットをトレーニングし,CLタスクのタスク条件付きモデル重みを学習する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:52:19 GMT)
Syllables to Scenes: Literary-Guided Free-Viewpoint 3D Scene Synthesis from Japanese Haiku [8.0] 本研究では,詩の抽象概念を空間表現に変換する新しいフレームワークであるHaikuVerseを紹介する。
本稿では,従来の詩の分析を先進的な生成技術と相乗化するための文芸指導的アプローチを提案する。
本研究の枠組みは,(1)構造的意味分解による明示的イメージと暗黙的感情共鳴を捉える階層的言語批判理論(H-LCTGP)と,(2)詩的要素を体系的に一貫性のある3Dシーンに変換する多段的次元合成(PDS)である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:18:06 GMT)
Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning [8.0] Step Guidied Reasoningは、数ショット法よりも安定で一般化可能である。
最先端言語モデルにおける数学的性能向上におけるステップガイド推論の意義を実証する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:39:16 GMT)
Open Ko-LLM Leaderboard2: Bridging Foundational and Practical Evaluation for Korean LLMs [7.9] 我々は、以前のOpen Ko-LLM Leaderboardの改良版であるOpen Ko-LLM Leaderboard2を提案する。
オリジナルのベンチマークは、現実の能力とより密に整合した新しいタスクに完全に置き換えられている。
韓国語の特徴をよりよく反映するために、4つの新しい韓国語ベンチマークが導入されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:26:00 GMT)
Ranking Unraveled: Recipes for LLM Rankings in Head-to-Head AI Combat [7.9] 大規模言語モデル(LLM)に対する人間の嗜好を評価する新しい方法として、ペアワイズランキングが登場した。
LLMの前後比較におけるランキングシステムの有効性について検討する。
我々の分析は、ランキングの精度と効率に影響を与える要因について重要な洞察を見出している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:21:10 GMT)
Scalable Discrete Diffusion Samplers: Combinatorial Optimization and Statistical Physics [7.9] 離散拡散サンプリングのための2つの新しいトレーニング手法を提案する。
これらの手法は、メモリ効率のトレーニングを行い、教師なし最適化の最先端結果を達成する。
SN-NISとニューラルチェインモンテカルロの適応を導入し,離散拡散モデルの適用を初めて可能とした。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:41:58 GMT)
IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model [7.8] IRSRMambaはマルチスケール適応のためのウェーブレット変換特徴変調を統合する新しいフレームワークである。
IRSRMambaはPSNR、SSIM、知覚品質において最先端の手法より優れている。
この研究は、高忠実度赤外線画像強調のための有望な方向として、Mambaベースのアーキテクチャを確立する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:24:21 GMT)
Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated Open World [7.8] 我々は、予期せぬ現象、すなわちテクストノベルティが環境中に現れるときに生じる課題に対処する。
環境への新規性の導入は、プランナーの内部モデルに不正確な結果をもたらす可能性がある。
本稿では,同時動作と外部スケジューリングをサポートするための汎用AIエージェントフレームワークを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:49:11 GMT)
Reconfigurable Intelligent Surfaces-Assisted Integrated Access and Backhaul [7.8] 本稿では,再構成可能なインテリジェントサーフェス(RIS)がIABネットワークのカバレッジ拡張に与える影響について検討する。
我々の研究は、さまざまな設計アーキテクチャとデプロイメントのレンズを通して、RISを補助する広域IABに焦点を当てている。
シミュレーションの結果,IABにおけるRIS導入の機会と課題が明らかになった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:46:15 GMT)
Planning of Heuristics: Strategic Planning on Large Language Models with Monte Carlo Tree Search for Automating Heuristic Optimization [7.8] ヒューリスティックス計画(英: Planning of Heuristics、PoH)は、LCMの自己反射とモンテカルロ木探索(MCTS)を統合する最適化手法である。
PoHは、そのパフォーマンスを評価し、即効的な提案を提供することによって、生成された計画を反復的に洗練します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:35:01 GMT)
One for All: A General Framework of LLMs-based Multi-Criteria Decision Making on Human Expert Level [7.8] 本稿では,一般の複雑なMCDM問題に自動的に対処する評価フレームワークを提案する。
フレームワーク内では、ClaudeやChatGPTといった商用モデルと同様に、様々な典型的なオープンソースモデルの性能を評価する。
実験の結果,異なるアプリケーションの精度は95%程度に向上し,異なるモデル間の性能差は自明であることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:47:20 GMT)
GPU-accelerated Multi-relational Parallel Graph Retrieval for Web-scale Recommendations [7.7] 本稿では,GPUによるマルチリレーショナル並列グラフ検索(GMP-GR)フレームワークを提案する。
Baiduで20以上のアプリケーションにデプロイされたGMP-GRは、数億のユーザに対して、毎秒1億リクエストを超えるスループットを提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:49:34 GMT)
Classifying the Stoichiometry of Virus-like Particles with Interpretable Machine Learning [7.7] 本稿では,タンパク質の化学量論クラスを分類するための解釈可能なデータ駆動パイプラインを提案する。
また、機能符号化がモデルの性能と解釈可能性に与える影響についても検討する。
本研究のパイプライン評価は, タンパク質の特徴を明らかにしながら, 便秘を分類できることを実証した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:16:42 GMT)
A Unified Modeling Framework for Automated Penetration Testing [7.7] 自動貫入テスト(AutoPT)への人工知能の統合は、インテリジェントエージェントのトレーニングのためのシミュレーションモデルの必要性を強調している。
シミュレーションモデリングのための統一フレームワークが利用可能であることには、認識されているギャップがある。
本稿では,文献の目的,ネットワークシミュレーションの複雑さ,技術的および戦術的操作の依存性,シナリオフィードバックと変動に基づく研究を分類するためにMDCPMを紹介する。
政策自動化に基づく新しいモデリングフレームワークであるAutoPT-Simを紹介し,すべての部分次元の組み合わせを包含する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:21:53 GMT)
SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.7] 現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
これらの結果は、既存のモデルにおいて重要な盲点を明らかにし、より高度な空間推論技術の必要性を浮き彫りにしている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:28:00 GMT)
Efficient Domain Augmentation for Autonomous Driving Testing Using Diffusion Models [7.6] 本稿では,ADS(Autonomous Driving Systems)システムレベルのテストを強化するために,生成人工知能技術と物理ベースシミュレータの統合について検討する。
本研究では拡散モデルに基づく3つの生成戦略の有効性と計算オーバーヘッドを評価する。
セマンティックセグメンテーションに基づく不適切な入力に対して,ニューラル生成画像のセマンティックな保存とリアリズムを確保するために,新しい自動検出手法を採用した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:48:30 GMT)
Enhancing Recommendation Explanations through User-Centric Refinement [7.6] 本稿では、既存の説明可能なレコメンデータモデルによって生成された最初の説明を洗練する新しいパラダイムを提案する。
具体的には,大規模言語モデルに基づくマルチエージェント協調改良フレームワークを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:08:18 GMT)
Minimal Ranks, Maximum Confidence: Parameter-efficient Uncertainty Quantification for LoRA [7.6] Low-Rank Adaptation (LoRA)は、重み更新を低ランク行列に分解することで、大きな言語モデルのパラメータ効率の良い微調整を可能にする。
超低次元パラメータ空間において有効な不確実性定量化が達成可能であることを示す新しいパラメータ効率のベイズロラを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:46:29 GMT)
CLEAR: Character Unlearning in Textual and Visual Modalities [7.6] マルチモーダル・アンラーニング(MMU)は、クロスモーダルデータの除去を評価するためのオープンなベンチマークが欠如しているため、まだ探索されていない。
CLEARには200人の架空の人物と3700枚の画像が関連付けられている。
4つの評価セットにまたがる11種類のMU手法を包括的に分析し、両モードを共同学習することで単一モダリティのアプローチよりも優れることを示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:08:17 GMT)
An Iterative Algorithm for Rescaled Hyperbolic Functions Regression [7.6] 大規模言語モデル(LLM)は、様々な領域にまたがる多数の実環境アプリケーションを持つ。
LLMは自然言語処理(NLP)の分野に革命をもたらす可能性がある
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:12:27 GMT)
SynthSOD: Developing an Heterogeneous Dataset for Orchestra Music Source Separation [7.4] そこで本研究では,シミュレーション手法を用いて現実的なトレーニングセットを作成する,SynthSODと呼ばれる新しいマルチトラックデータセットを提案する。
合成データセットw.r.tをトレーニングしたベースライン音楽分離モデルのよく知られたEnsembleSetへの適用を実演する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:49:15 GMT)
Enhancing Transparent Object Pose Estimation: A Fusion of GDR-Net and Edge Detection [7.4] 本稿では,オブジェクト検出とオブジェクトポーズ推定のタスクに対して,エッジ検出を前処理ステップに組み込んだ新しいアプローチを提案する。
透明物体に対するエッジ検出器の効果を調べる実験を行った。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:59:37 GMT)
Identifying the Best Transition Law [7.4] 本稿では,各腕の報酬が既知の支持を持つ多項分布から引き出されるバンドイット問題におけるベストアーム識別について検討する。
LUCBを含む戦略によって達成されたパフォーマンスと、この知識を使用せずに比較する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:23:52 GMT)
PrivilegedDreamer: Explicit Imagination of Privileged Information for Rapid Adaptation of Learned Policies [7.4] モデルに基づく強化学習フレームワークであるPrivlegedDreamerを紹介する。
5つのHIP-MDPタスクに関する実証分析により、PrivlegedDreamerは最先端のモデルベース、モデルフリー、do-main適応学習アルゴリズムより優れていることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:46:02 GMT)
CLASS: Enhancing Cross-Modal Text-Molecule Retrieval Performance and Training Efficiency [7.2] クロスモーダルテキスト-分子検索タスクは、分子構造と自然言語記述を橋渡しする。
既存の手法は主にテキストのモダリティと分子のモダリティの整合に重点を置いているが、異なる訓練段階における学習状態を適応的に調整しているのを見落としている。
本稿では,CLASS(Curriculum Learning-bAsed croSS-modal text-molecule training framework)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:24:07 GMT)
CCoE: A Compact and Efficient LLM Framework with Multi-Expert Collaboration for Resource-Limited Settings [7.2] 大規模言語モデル(LLM)は、大規模なデータセットのトレーニングを通じて、さまざまなドメインで例外的なパフォーマンスを実現している。
CCoEアーキテクチャは、ドメイン固有の専門家をシームレスに統合したLLMに統合するモジュラーフレームワークである。
CCoEは最先端のパフォーマンスを実現し、マルチエキスパートデプロイメントのリソース要件を大幅に削減する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:19:48 GMT)
GiFT: Gibbs Fine-Tuning for Code Generation [7.2] Gibbs Fine-Tuning (GiFT)は、Gibbsサンプリングにインスパイアされた新しい自己学習手法である。
GiFTは、ジョイント空間の限界分布から自己生成データを描画することを可能にする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:52:44 GMT)
Efficient Finetuning for Dimensional Speech Emotion Recognition in the Age of Transformers [7.1] Wav2Vec 2.0のような大規模で事前訓練されたトランスフォーマーモデルは、かなりの計算資源を必要とする。
本稿では, フル微調整, 変圧器層の部分微調整, 混合精度のファイン微調整, キャッシングによる部分微調整, ローランク適応 (LoRA) など, 様々なファイン微調整技術を提案する。
その結果, 完全微調整に匹敵する性能は71%, トレーニング速度は67%向上した。
我々は、性能とトレーニング効率のバランスをとるために、最後の3つの変圧器層を混合精度で微調整し、最小性能のトレードオフで最適な速度に中間表現キャッシングを追加することを推奨する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:34:08 GMT)
Optimized detection of cyber-attacks on IoT networks via hybrid deep learning models [7.1] モノのインターネット(IoT)デバイスの急速な拡張は、サイバー攻撃のリスクを高めている。
本研究は,自己組織マップ(SOMs),ディープリーフネットワーク(DBNs),およびオートエンコーダを組み合わせた新たなアプローチを導入し,既知の,あるいはこれまで目に見えない攻撃パターンを検出する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:01:06 GMT)
Fast and Efficient Matching Algorithm with Deadline Instances [7.0] まず、$mathrmdeadline$の市場モデルを紹介します。
最適化された2つのアルゴリズム(textscFastGreedy と textscFastPostponedGreedy)を提示する。
同時に、我々のアルゴリズムは元の2つのアルゴリズムよりも高速に動作します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:15:05 GMT)
Reliability Function of Classical-Quantum Channels [7.0] 一般古典量子チャネルの信頼性関数について検討する。
我々は、信頼性関数に対するペッツ形式における量子レニー情報の観点から、低い境界を証明した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:04:54 GMT)
Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.9] 本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:25:50 GMT)
Approximation of Permutation Invariant Polynomials by Transformers: Efficient Construction in Column-Size [6.9] トランスフォーマー(Transformer)は、様々な領域で顕著なパフォーマンスを示すニューラルネットワークの一種である。
本研究では,変圧器の柱対称近似能力について検討した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:56:11 GMT)
Achieving Upper Bound Accuracy of Joint Training in Continual Learning [6.9] 主な課題は破滅的な忘れ(CF)であり、ほとんどの研究はこの問題の緩和に向けられている。
最先端の連続学習アルゴリズムによって達成される精度と、全てのタスクを一緒に訓練することで達成される理想的あるいは上限的精度との間には、大きなギャップが残っている。
本稿は、この成果につながる主要な研究を調査し、直感的にも神経科学的にもアプローチを正当化し、得られた知見について考察する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:54:43 GMT)
Data-Efficient Limited-Angle CT Using Deep Priors and Regularization [6.8] 本稿では,Randon変換から元の画像を高度に角度の制限下で再構成する,非常に低データな手法を提案する。
逆問題として,Total Variation, sinogram filter, Deep Image Prior, パッチレベルのオートエンコーダなど,複数の正規化手法を組み合わせる。
本手法はヘルシンキ・トモグラフィー・チャレンジ2022(Helsinki Tomography Challenge 2022)のデータセットを用いて評価され,その目的は2値円盤をその限定角度のシングラムから再構成することである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:01:08 GMT)
AffinityFlow: Guided Flows for Antibody Affinity Maturation [6.7] 抗体は治療薬として広く用いられているが、その発達には結合親和性を高めるために親和性成熟が必要である。
最近、AlphaFlowはAlphaFoldをフローマッチングにラップし、様々なタンパク質構造を生成する。
本稿では,(1)構造に基づく親和性予測器を用いて構造生成を高結合親和性へ導くために,(1)規則を修正し,(2)規則に基づく親和性予測器によって改良された配列変異を生成するための逆フォールディングを適用する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:45:52 GMT)
Blessing of Multilinguality: A Systematic Analysis of Multilingual In-Context Learning [6.7] 混合HRLのデモンストレーションは、英語のみのデモよりも一貫して優れていることを示す。
意外なことに、我々のアブレーション研究は、そのプロンプトに無関係な非英語文が存在することが、測定可能な利益をもたらすことを示している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:27:35 GMT)
Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery [6.7] Time Series Motif Discovery (TSMD) は時系列データの繰り返しパターンを特定するが、その教師なしの性質はユーザーにとって面白くないモチーフをもたらす可能性がある。
アプリケーションドメインにおける所望のモチーフの性質に応じて制約を簡単に定義できるフレームワークを提案する。
また,このフレームワークの効率的な実装であるLoCoMotif-DoKアルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:44:12 GMT)
Splitting criteria for ordinal decision trees: an experimental study [6.6] 正規分類 (OC) は、ラベルが自然な順序を示す分類タスクに対処する機械学習分野である。
OCは順序関係を考慮に入れ、より正確で関連する結果を生み出す。
この研究は、順序関係を捉えるために設計された木に基づく方法論の実験的研究を行う。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:53:15 GMT)
ReVeil: Unconstrained Concealed Backdoor Attack on Deep Neural Networks using Machine Unlearning [6.5] ディープニューラルネットワーク(DNN)に隠れた機能を埋め込んだバックドア攻撃
本稿では,DNNトレーニングパイプラインのデータ収集フェーズを対象とした,隠れたバックドア攻撃であるReVeilを紹介する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:25:28 GMT)
Learning Interpretable Hierarchical Dynamical Systems Models from Time Series Data [6.3] 単一ドメイン特性を維持しつつグループレベル(複数ドメイン)情報を収集できる階層型フレームワークを提案する。
全ての動的状態の忠実な再構築に加えて、我々の教師なし方法論は共通の低次元特徴空間を発見する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:53:28 GMT)
SynCo: Synthetic Hard Negatives for Contrastive Visual Representation Learning [6.2] 本稿では,表現空間上で合成強陰性を生成することによってモデル性能を向上させる新しい手法であるSynCoを紹介する。
MoCoフレームワーク上に構築されたSynCoは,計算オーバーヘッドを最小限に抑えた,さまざまな合成ハードネガをオンザフライで生成するための6つの戦略を導入している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:37:09 GMT)
Generation and Detection of Sign Language Deepfakes - A Linguistic and Visual Analysis [6.2] 本研究は,Deaf and Hard of Hearing (DHoH) コミュニティにおいて,上半身生成のためのディープフェイク技術の肯定的な応用について検討する。
我々は、コンピュータビジョンと自然言語処理モデルを用いて、信頼性の高いディープフェイクデータセットを構築し、その技術的および視覚的信頼性を評価する。
このデータセットは、目に見えない個人と見えない個人の両方を対象とする1200以上のビデオで構成されており、脆弱な個人をターゲットにしたディープフェイクビデオの検出にも使用されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:22:03 GMT)
Multimodal semantic retrieval for product search [6.2] 商品の純粋テキスト表現とは対照的に,eコマース検索における商品項目のマルチモーダル表現を構築した。
商品のマルチモーダル表現スキームは,セマンティック検索における購入リコールや関連精度の向上を示すことができることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:40:10 GMT)
Lyapunov Neural ODE State-Feedback Control Policies [6.2] 本稿では,連続時間最適制御問題(OCP)に対するNODEアプローチを提案する。
アプローチは、Lyapunov-NODE Control (L-NODEC)と呼ばれ、新しいLyapunov損失の定式化を使用しており、これは、状態フィードバックのニューラルコントロールポリシーを学ぶために指数的安定化制御Lyapunov関数を含む。
L-NODECの性能はプラズマ医学における線量伝達問題を含む2つの問題で説明される。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:28:12 GMT)
Understanding RowHammer Under Reduced Refresh Latency: Experimental Analysis of Real DRAM Chips and Implications on Future Solutions [6.2] RowHammerはDRAMの読み出し障害機構で、DRAMセルの行(DRAM行)に繰り返しアクセスすると、物理的に近くのDRAM行(victim row)でビットフリップが誘導される。
より新しいDRAMチップ世代では、これらのメカニズムはより積極的に予防リフレッシュを行い、より大きなパフォーマンス、エネルギ、または面積オーバーヘッドを引き起こす。
実DRAMチップにおけるリフレッシュレイテンシとRowHammer特性の相互作用に関する厳密な実験を行った。
以上の結果から, 攻撃性緩和のための部分電荷復元(PaCRAM)は, 5つの最先端RowHammer緩和機構によって引き起こされる性能とエネルギーオーバーヘッドを低減することが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:39:03 GMT)
JotlasNet: Joint Tensor Low-Rank and Attention-based Sparse Unrolling Network for Accelerating Dynamic MRI [6.1] 動的MRI再構成のための新しいディープアンローリングネットワークJotlasNetを提案する。
ダイナミックMRIでは,低ランク・スパースアンローリングネットワークが優れた性能を示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:43:04 GMT)
Machine Learning for Detecting Steering in Qutrit-Pair States [6.1] 準定値プログラミングを用いて、キュートリット量子系におけるステアビリティ検出のためのデータセットを構築する。
応用として、等方性状態と部分的に絡み合った状態のステアビリティ境界を調べ、新しいステアビリティ状態を求める。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:28:05 GMT)
An Actor-Critic Algorithm with Function Approximation for Risk Sensitive Cost Markov Decision Processes [5.9] 我々はマルコフ決定プロセスの指数的コストを伴うリスク感受性コスト基準を考察し、この設定でモデルフリーポリシーアルゴリズムを開発する。
本稿では,最近の論文における他のアルゴリズムよりもアルゴリズムの性能が優れていることを示す数値実験の結果を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:44:23 GMT)
IMTS-Mixer: Mixer-Networks for Irregular Multivariate Time Series Forecasting [5.9] IMTS専用に設計された新しい予測アーキテクチャであるIMTS-Mixerを紹介する。
提案手法は,IMTSを固定サイズ行列表現に変換する革新的な手法を導入しながら,TSミキサーモデルの中核となる原理を保っている。
この結果から,IMTS-Mixerは予測精度を向上し,計算効率も向上することを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:06:36 GMT)
SAT-LDM: Provably Generalizable Image Watermarking for Latent Diffusion Models with Self-Augmented Training [5.8] 本稿では,遅延拡散モデルのための新しい一般化可能な画像透かし手法を提案する。
提案手法は, 学習段階と試験段階を自由生成分布で整列し, 透かしモジュールの一般化能力を向上する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:13:59 GMT)
Reliable Simulation of Quantum Channels: the Error Exponent [5.8] 指数収束の最適速度を特徴付ける量子チャネルシミュレーションの誤差指数について検討する。
有限ブロック長設定における量子チャネルシミュレーションの達成可能性を得る。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:07:45 GMT)
Towards Environment-Sensitive Molecular Inference via Mixed Integer Linear Programming [5.8] 複数分子と実験条件の組み合わせが特性値に与える影響を捉えることができる新しいQSAR/QSPRフレームワークを提案する。
複数の分子と環境の情報を統合する特徴関数を設計する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:07:12 GMT)
Fusion of ECG Foundation Model Embeddings to Improve Early Detection of Acute Coronary Syndromes [5.7] 本研究では,心電図基礎モデル,特にST-MEMとECG-FMを用いて心電図リスク評価を行う。
我々はこれらのモデルの性能を個別に評価し、融合アプローチによりそれらの埋め込みを組み合わせ、予測の精度を高める。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:50:56 GMT)
Continual Quantization-Aware Pre-Training: When to transition from 16-bit to 1.58-bit pre-training for BitNet language models? [5.7] 大規模言語モデル(LLM)は、トレーニングと推論に膨大なリソースを必要とする。
近年の研究では、重量パラメータ1本あたり1.58ビットのLSMをスクラッチからトレーニングすることは、モデルの精度を維持することができることが示唆されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:21:11 GMT)
Using the Path of Least Resistance to Explain Deep Networks [5.6] Integrated Gradients (IG) は、広く使われている公理経路に基づく属性法である。
直進経路が原因で属性に欠陥があることが示されます。
代替として測地統合勾配(GIG)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:29:24 GMT)
LLMs can Realize Combinatorial Creativity: Generating Creative Ideas via LLMs for Scientific Research [5.6] 本稿では,Large Language Models (LLM) を用いた創造性理論を明示的に実装するフレームワークを提案する。
このフレームワークは、クロスドメイン知識発見のための一般化レベル検索システムと、アイデア生成のための構造化プロセスを備えている。
OAG-Benchデータセットの実験は、我々のフレームワークの有効性を実証し、実際の研究成果と整合したアイデアを生成するためのベースラインアプローチを一貫して上回っている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:31:41 GMT)
ConsistentDreamer: View-Consistent Meshes Through Balanced Multi-View Gaussian Optimization [5.6] 我々はConsistentDreamerを紹介し、まず、固定された複数ビュー前の画像とそれらの間のランダムなビューの集合を生成する。
これにより、SDSの損失によって導かれるビュー間の相違を抑え、一貫した粗い形状を確保する。
各イテレーションでは、生成した複数ビュー前の画像も詳細再構築に使用しています。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:37:49 GMT)
sEMG-Driven Physics-Informed Gated Recurrent Networks for Modeling Upper Limb Multi-Joint Movement Dynamics [5.5] 外骨格とリハビリテーションシステムは、適応的なヒューマン・マシン・インタフェースを用いて、人間の強さと回復を改善する可能性がある。
本稿では,SEMGデータから多関節運動のダイナミクスを予測する新しいモデルPiGRNを提案する。
PiGRN は Gated Recurrent Unit (GRU) を使用して時系列のsEMG入力を処理し、マルチジョイントキネマティクスと外部負荷を推定し、トレーニング中に物理ベースの制約を取り入れながら関節トルクを予測する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:20:46 GMT)
Assessing the impacts of tradable credit schemes through agent-based simulation [5.5] トレーダブル・クレジット・スキーム(TCS)は、渋滞価格に代わる魅力的な代替手段として、交通研究コミュニティから関心を集めている。
我々は,TCSをモデリングするための統合シミュレーションフレームワークを提案し,それを最先端のオープンソース都市シミュレーションプラットフォームSimMobility内に実装する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:15:24 GMT)
Data and Decision Traceability for SDA TAP Lab's Prototype Battle Management System [5.5] 意思決定のトレーサビリティのコア目標は、WAシステム内の透明性、説明責任、整合性を保証することです。
これは、システムの入力から最終決定まで、明確で監査可能なパスを提供することによって達成されます。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:34:43 GMT)
RA-MTR: A Retrieval Augmented Multi-Task Reader based Approach for Inspirational Quote Extraction from Long Documents [5.4] 本稿では,長いテキストから最も関連性の高い引用を抽出することを目的とした,文脈に基づく新しい引用抽出システムを提案する。
まず、ベクトルストアベースの検索器を用いて、この引用抽出を開領域質問応答問題として定式化する。
本稿では,BoW F1スコアの最大5.08%向上を実現し,最先端性能を向上する新しいマルチタスクフレームワークRA-MTRを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:46:46 GMT)
From Risk to Uncertainty: Generating Predictive Uncertainty Measures via Bayesian Estimation [5.4] 私たちは、異なる予測の不確実性対策を作成できるフレームワークを構築します。
本手法は,分布外および誤分類インスタンスの検出において,その性能を評価することにより,画像データセット上での検証を行う。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:31:30 GMT)
LLMs as a synthesis between symbolic and continuous approaches to language [5.3] 私は、言語のためのディープラーニングモデルは2つの伝統の合成を表していると論じます。
LLMにおけるモルフォシンタクティック知識のかなりの部分が、ほぼ離散的な方法でコード化されていることを示す機械的解釈可能性に関する最近の研究をレビューする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:48:18 GMT)
Dictionary-Learning-Based Data Pruning for System Identification [5.3] 本稿では,サンプルの冗長性を低減するために,(ミニバッチ)FastCanと呼ばれる新しいデータプルーニング手法を提案する。
時系列データは、辞書学習を通じて原子と呼ばれるいくつかの代表的なサンプルによって表現される。
その結果,提案手法はランダムプルーニング法よりも有意に優れていることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:38:43 GMT)
STEMS: Spatial-Temporal Mapping Tool For Spiking Neural Networks [5.1] スパイキングニューラルネットワーク(SNN)は、バイオインスパイアされた第3世代のニューラルネットワークを約束する。
最近の研究は、ニューラルネットワーク(ANN)と同等の精度で深部SNNモデルを訓練している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:36:38 GMT)
Inverse Flow and Consistency Models [5.1] Inverse Flow (IF) は、逆生成問題に生成モデルを使用することを可能にする新しいフレームワークである。
IFはほとんどの連続的なノイズ分布に柔軟に適用でき、複雑な依存関係を可能にする。
我々は,IFの合成および実データに対する効果を実証し,先行手法より優れていることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:11:42 GMT)
Examining Identity Drift in Conversations of LLM Agents [5.1] 本研究では,9つの大言語モデル(LLM)におけるアイデンティティの整合性について検討する。
実験は、質的、定量的な方法で分析された、個人的なテーマに関するマルチターン会話を含む。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:11:38 GMT)
Rotate, Clip, and Partition: Towards W2A4KV4 Quantization by Integrating Rotation and Learnable Non-uniform Quantizer [5.1] Rotate, Clip, and Partition (RCP)は量子化対応トレーニング(QAT)アプローチである。
RCPは最近の回転法と新しい一様質量量化器の設計を統合している。
RCPがLLaMA-2-7BをW2A4KV4に圧縮できることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:12:34 GMT)
Stonefish: Supporting Machine Learning Research in Marine Robotics [5.0] 本稿では,海洋ロボティクスソリューションの開発とテストを支援するオープンソースプラットフォームであるStonefishシミュレータの最近の拡張を強調した。
主なアップデートには、視覚光通信、テザリング操作のサポート、スラスタモデリングの改善、より柔軟な流体力学、ソナー精度の向上などが含まれる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:13:41 GMT)
Artificial Intelligence-Driven Clinical Decision Support Systems [5.0] この章は、医療で信頼できるAIシステムを作るには、公平さ、説明可能性、プライバシーを慎重に考慮する必要があることを強調している。
AIによる公平な医療提供を保証するという課題は強調され、臨床予測モデルのバイアスを特定し緩和する方法が議論されている。
この議論は、ディープラーニングモデルのデータ漏洩からモデル説明に対する高度な攻撃に至るまで、医療AIシステムのプライバシ脆弱性の分析に進展している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:09:42 GMT)
A Systematic Review of Echo Chamber Research: Comparative Analysis of Conceptualizations, Operationalizations, and Varying Outcomes [5.0] この体系的なレビューは、反感の原因を探るため、エコーチャンバーとフィルターバブルの研究を合成する。
概念化と運用の分類を提供し、測定アプローチと文脈要因が結果にどのように影響するかを分析する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:27:17 GMT)
On the kernel learning problem [4.9] カーネルリッジ回帰問題は、入力データである$Xin mathbbRd$の関数として出力$Y$に最適なものを見つけることを目的としている。
我々は、余剰行列パラメータ$U$を導入することにより、カーネルリッジ回帰問題の一般化を考える。
これは自然に$U$の選択を最適化する非線形変分問題につながる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:54:01 GMT)
Simultaneous estimations of quantum state and detector through multiple quantum processes [4.8] 複数の量子プロセスを用いて、量子状態と検出器を同時に識別するフレームワークを2つの異なるベースで導入する。
平均二乗誤差 (MSE) が QST と QDT の両方に対して$O(1/N) であることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:02:36 GMT)
Bridging the Data Gap in AI Reliability Research and Establishing DR-AIR, a Comprehensive Data Repository for AI Reliability [4.8] AI信頼性の研究における大きな課題は、特に学界の人々にとって、利用可能なAI信頼性データが不足していることである。
本稿では、利用可能なAI信頼性データの総合的なレビューを行い、AI信頼性データのためのデータレポジトリであるDR-AIRを確立する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:50:36 GMT)
A Survey on Bridging EEG Signals and Generative AI: From Image and Text to Beyond [4.7] Brain-Computer Interfaces (BCI) とGenerative Artificial Intelligence (GenAI) の統合により、脳信号復号における新たなフロンティアが開かれた。
近年、GAN(Generative Adversarial Networks)やLLM(Transformer-based Large Language Models)といったディープラーニングの進歩により、脳波による画像、テキスト、音声の生成が大幅に改善されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:16:41 GMT)
On shallow planning under partial observability [4.7] Reinforcement Learningフレームワークで現実の問題を定式化するには、非自明な設計選択が必要となる。
本研究は,マルコフ決定過程の構造パラメータの偏差トレードオフに対する割引係数の影響について検討する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:14:34 GMT)
Transfer Learning of CATE with Kernel Ridge Regression [4.6] カーネルリッジ回帰(KRR)を用いた条件平均処理効果(CATE)の重畳適応変換学習法を提案する。
我々は, 弱い重なり合いとCATE関数の複雑さの両方に対する適応性を強調した, 急激な非漸近的MSE境界による手法の理論的正当性を提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:07:45 GMT)
TabuLa: Harnessing Language Models for Tabular Data Synthesis [4.5] Tabulaは、大きな言語モデル(LLM)の構造を利用する表形式のデータシンセサイザーである。
State-of-the-art (SOTA) の LLM とは異なり、Tabula は元々自然言語処理用に設計されたトレーニング済みのウェイトを捨てている。
実験により,Tabulaは現在のSOTA法と比較して優れた合成データユーティリティを実現していることが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:39:05 GMT)
Influence Operations in Social Networks [4.5] オンライン活動の重要な部分は、現在グローバルな脅威と見なされている世論や行動を制御することを目的としている。
本稿では,ソーシャル・メディア・インフルエンス・オペレーションにおける7つのオンライン戦略を特定し,概念化する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:23:41 GMT)
EDiT: A Local-SGD-Based Efficient Distributed Training Method for Large Language Models [4.5] 本研究では,局所SGD手法をモデルシャーディング手法と組み合わせ,大規模トレーニング効率を向上させる革新的な分散トレーニング手法であるEDiTを提案する。
また、異種クラスタに対応するEDiTの完全非同期版であるA-EDiTについても紹介する。
実験により, EDiT/A-EDiTの優れた性能を示し, 分散LLMトレーニングのための堅牢なソリューションとして確立した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:57:12 GMT)
LMFCA-Net: A Lightweight Model for Multi-Channel Speech Enhancement with Efficient Narrow-Band and Cross-Band Attention [4.5] 本稿では,完全連結注意(LMFCA-Net)を分離した軽量マルチチャネル音声強調ネットワークを提案する。
提案するLMFCA-Netは、時間軸切り離し完全連結注意(T-FCA)と周波数軸切り離し完全連結注意(F-FCA)機構を導入し、長距離狭帯域およびクロスバンド情報を繰り返しユニットなしで効果的に捕捉する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:42:03 GMT)
Proactive Depot Discovery: A Generative Framework for Flexible Location-Routing [4.5] 位置情報ルーティング問題(LRP)のデポを積極的に生成するデータ駆動型DRLフレームワークを提案する。
我々のフレームワークは、ルーティングコストの低い優れたソリューションルートにつながるデポを積極的に生成することができる。
我々の枠組みは、特に救急医療救助や災害救助の物流において、現実世界の応用にまで拡大する可能性がある。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:00:28 GMT)
Which Retain Set Matters for LLM Unlearning? A Case Study on Entity Unlearning [4.4] 大規模言語モデル(LLM)は、トレーニングデータから無許可または機密情報を保持するリスクがあり、プライバシー上の懸念を引き起こす。
LLMは、モデル全体のパフォーマンスを維持しながら、指定されたデータを選択的に削除することで、これらのリスクを軽減することを目指している。
我々は、類似した構文構造と削除を目的としたデータを共有するクエリ群であるSyntactically similar Neighbor Setを紹介する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:55:02 GMT)
Exploring Persona Sentiment Sensitivity in Personalized Dialogue Generation [4.4] 偏極化ユーザプロファイルを用いてダイアログを大規模に解析する。
否定的な偏極性を持つユーザを含む対話はペルソナ属性を過度に強調する傾向にあり,それによってエンエンテイメントや矛盾する事例が増加することが判明した。
本稿では,旋回型生成戦略とプロファイル順序付け機構を組み合わせた対話生成手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:36:53 GMT)
Fishing For Cheap And Efficient Pruners At Initialization [4.4] Pruningは、大規模ディープニューラルネットワーク(DNN)のデプロイに伴うコストと環境への影響を軽減する、有望なソリューションを提供する。
本稿では,Fisher-Taylor Sensitivity (FTS)について紹介する。これは,経験的Fisher Information Matrix (FIM) 対角線に基づく,安価で効率的なプルーニング基準である。
提案手法は, 極端間隔条件下であっても, ワンショットPSTの最先端技術に対する競合性能を実現する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:22:23 GMT)
Competing LLM Agents in a Non-Cooperative Game of Opinion Polarisation [4.4] 我々は、意見の形成と抵抗を分析するために、新しい非協調ゲームを導入する。
我々のシミュレーションでは、人口に影響を与えるために競合するLarge Language Model (LLM) エージェントが特徴的である。
このフレームワークは、リソースの最適化をエージェントの意思決定プロセスに統合する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:41:55 GMT)
REVERSUM: A Multi-staged Retrieval-Augmented Generation Method to Enhance Wikipedia Tail Biographies through Personal Narratives [4.4] 本研究は,ウィキペディアのBとCカテゴリの伝記記事を強化するための新しいアプローチを提案する。
複数段階の検索拡張生成手法を用いて、より知られていない記事の情報内容の充実を図る。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:53:42 GMT)
System Message Generation for User Preferences using Open-Source Models [4.4] システムメッセージは、大規模言語モデル(LLM)との相互作用において重要な役割を果たす
このような汎用性にもかかわらず、公開データはしばしばシステムメッセージが欠落している。
当社の作業では,より整合したアシスタント応答を備えたシステムメッセージを生成するパイプラインであるSysGenを導入しています。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:05:31 GMT)
Causal Models in Requirement Specifications for Machine Learning: A vision [4.3] 本稿では,要求工学(RE)活動としての因果モデリングについて考察する。
本稿では,低レベルの事前知識から低レベルのモデルとデータ要求を抽出するワークフローを提案する。
この手法は産業用故障検出システムで実証されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:20:17 GMT)
Lightweight Deepfake Detection Based on Multi-Feature Fusion [4.3] Deepfakeの技術は、ディープラーニングベースの顔操作技術を利用して、非常にリアルだが人工的に生成されたコンテンツを作るビデオの顔にシームレスに置き換える。
本研究では,限られた計算資源を持つデバイスに適したディープフェイク画像と映像を効率よく,かつ軽量に検出する手法を提案する。
HOG LBPとKAZEの併用により,FaceForensics++では92%,Celeb-DFv2では96%の精度が向上した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:55:41 GMT)
InfoQuest: Evaluating Multi-Turn Dialogue Agents for Open-Ended Conversations with Hidden Context [4.3] オープンエンドのユーザリクエストにおいて、対話エージェントが隠れコンテキストをどのように扱うかを評価するために設計されたベンチマークであるInfoQuestを紹介する。
我々の評価では、プロプライエタリなモデルの方が一般的に優れているが、現在のアシスタントはすべて、重要な情報を効果的に収集するのに苦労している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:01:10 GMT)
SAFE-SQL: Self-Augmented In-Context Learning with Fine-grained Example Selection for Text-to-SQL [4.3] 骨格メイク選択のような従来のアプローチは、大きな言語モデル(LLM)をガイドするために類似したトレーニング例を取得することで、関連性を示している。
テキスト・トゥ・コンテクスト・フィルタリング(SAFE--)のためのきめ細かい例選択による学習における自己拡張を提案する。
SAFEの生成したサンプルは、以前の強力なパフォーマンスと、より高い実行精度を達成するために、テキストからテキストへのほとんどショットのフレームワークを上回っている。
特に、我々のアプローチは、従来のメソッドがしばしば失敗する、余分な困難で目に見えないシナリオにおいて、さらなるパフォーマンス向上を提供します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:52:24 GMT)
Ansatz-free Hamiltonian learning with Heisenberg-limited scaling [4.2] 構造制約なしに任意のスパースハミルトニアンを学習するための量子アルゴリズムを提案する。
我々は、進化の総時間と任意の相互作用の学習の制御の基本的なトレードオフを確立する。
これらの結果は、複素量子系におけるハイゼンベルク制限ハミルトニアン学習のさらなる探索の道を開く。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:23:59 GMT)
Natural Language-Based Synthetic Data Generation for Cluster Analysis [4.1] クラスタ分析は、異なるアルゴリズムの評価と比較に有効なベンチマークに依存している。
本研究では,高レベルシナリオの直接仕様に基づく合成データ生成を提案する。
私たちのオープンソースのPythonパッケージは、このワークフローを実装しています。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:52:54 GMT)
Personalized Ranking on Cascading Behavior Graphs for Accurate Multi-Behavior Recommendation [4.1] マルチビヘイビア・レコメンデーションは、視聴、カートの追加、購入などの多様な振る舞いを分析して、ユーザが購入できるアイテムを予測する。
既存の手法は、表現学習とグラフランキングの2つのカテゴリに分類される。
マルチビヘイビア・レコメンデーションのためのグラフランキング手法であるCascadingRankを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:13:45 GMT)
Measuring Catastrophic Forgetting in Cross-Lingual Transfer Paradigms: Exploring Tuning Strategies [4.1] 言語間移動は、少ないリソースの言語でタスクを解くための有望なテクニックである。
大規模言語モデルに対する2つの微調整アプローチとゼロショットおよびフルショット学習アプローチを比較した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:17:35 GMT)
What Are They Filtering Out? A Survey of Filtering Strategies for Harm Reduction in Pretraining Datasets [4.0] データフィルタリング戦略は、安全な大言語モデル(LLM)を開発する上で重要な要素である
これらの戦略が差別に対する脆弱なグループに与える影響について、研究の欠如がある。
文献から有害な内容を減らす戦略が与えるポジティブな影響は、データセットの識別に対する脆弱な集団の過小評価を増大させる副作用であることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:10:57 GMT)
Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? [3.9] この研究は、多言語設定におけるCLIPScore変種の評価に関連する、いくつかの戦略と広範な実験を提示する。
機械翻訳データを用いたテストでは、多言語CLIPScoreモデルは、異なる言語にわたる人間の判断と高い相関を維持することができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:22:32 GMT)
Evaluating Step-by-step Reasoning Traces: A Survey [3.9] 評価基準を4つのトップレベルカテゴリ(基底性、妥当性、コヒーレンス、有用性)で分類することを提案する。
次に、それらの実装に基づいてメトリクスを分類し、それぞれの基準を評価するために使用されるメトリクスを調査し、評価モデルが異なる基準をまたいで転送できるかどうかを調査する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:58:31 GMT)
Quantum Policy Gradient in Reproducing Kernel Hilbert Space [3.9] パラメトリッド量子回路は、機械学習のための表現力とデータ効率の表現を提供する。
量子カーネルにおける量子回路の表現は量子教師あり学習において広く研究されている。
本稿では、量子環境における量子カーネルポリシーを用いたパラメトリックおよび非パラメトリックポリシー勾配とアクタークリティカルアルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:11:43 GMT)
Relational Norms for Human-AI Cooperation [3.9] 社会的人工知能とどのように相互作用するかは、AIがエミュレートや占有を意図している社会関係の役割に依存する。
我々の分析は、意識的な経験の欠如や疲労に対する免疫など、AIシステムと人間の違いが、関係固有の機能を満たすAIの能力にどのように影響するかを考察する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:23:29 GMT)
IMLE Policy: Fast and Sample Efficient Visuomotor Policy Learning via Implicit Maximum Likelihood Estimation [3.8] IMLEポリシーは、Implicit Maximum Likelihood Estimation (IMLE)に基づく新しい行動クローニング手法である
複雑なマルチモーダルな振る舞いを学ぶ上で、ベースラインメソッドのパフォーマンスに合わせるために、最小限のデモから効果的に学習し、平均で38%のデータを必要とします。
シミュレーションおよび実環境における多様な操作タスクに対するアプローチを検証し、データ制約下で複雑な振る舞いをキャプチャする能力を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:22:49 GMT)
If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is the Plausible Memory Representation? [3.8] 本研究では,トランスフォーマー文法(TG)の注意機構が,人間の記憶検索の認知モデルとして機能するかどうかを検討する。
実験により,TGの注意力は,バニラ変圧器と比較して,セルフペースト読影時間において優れた予測力を発揮することが示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:58:25 GMT)
Towards Reasoning Ability of Small Language Models [3.7] 我々は,小言語モデル (SLM) が競争力のある推論性能を実現できることを示す。
14の推論ベンチマークで6つのモデルファミリーから72のSLMを体系的に調査し、ベンチマークし、分析した。
我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:59:16 GMT)
Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning [3.7] Table-Criticは、協調的な批判と推論プロセスの反復的な洗練を促進する、新しいマルチエージェントフレームワークである。
枠組みは, エラー識別審査員, 包括的批判批判者, プロセス改善の精錬者, パターン蒸留のキュレーターの4つの特殊エージェントから構成される。
計算効率と解分解率の低下を保ちながら、テーブル・クライトは精度と誤差補正率に優れることを示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:42:12 GMT)
Language Models Struggle to Achieve a Consistent Temporal Representation of Facts [3.7] 我々は2003年、Wikidataで最も人気のある時間的事実のうち、521K文からなる新しいデータセットTimeStressを紹介した。
各ステートメントは、3つの精度(日、月、年)で正確で不正な日付で事実を文脈化します。
生成確率に基づいて,正しい時間文と不正確な時間文を識別するLMの能力を評価する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:20:37 GMT)
Story Grammar Semantic Matching for Literary Study [3.7] ストーリー構造とその関連要素を利用した,より透過的なアプローチを提案する。
文章と叙事詩をストーリー要素ラベルでラベル付けし、これらのラベルを特徴としてのみ考慮して意味マッチングを行う。
この新たな手法であるストーリー・グラマー・セマンティック・マッチング(Story Grammar Semantic Matching)は、文学者に対して、パターンや文学的技法を特徴づける方法で、テキスト間での論証やその他の意味的類似性を導くものである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:20:39 GMT)
Early Risk Prediction of Pediatric Cardiac Arrest from Electronic Health Records via Multimodal Fused Transformer [3.7] 小児心停止の早期予測は,高リスク集中治療における時間的介入に重要である。
PedCA-FT(PedCA-FT)は、EHRの表層ビューとEHRのテキストビューを融合するトランスフォーマーベースの新しいフレームワークである。
PedCA-FTは、各モードビューに専用のトランスフォーマーモジュールを用いることで、複雑な時間的および文脈的パターンをキャプチャし、堅牢なCAリスク推定を生成する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:07:18 GMT)
Integrating Expert Knowledge into Logical Programs via LLMs [3.6] ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。
この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:18:23 GMT)
Personality Editing for Language Models through Relevant Knowledge Editing [3.6] 大きな言語モデル(LLM)は会話エージェントやコンテンツ生成といったアプリケーションにおいて重要な役割を果たす。
本稿では,知識編集によるパーソナリティ制御を向上する新しいPALETTEを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:28:14 GMT)
CAMEL: Continuous Action Masking Enabled by Large Language Models for Reinforcement Learning [3.6] 連続行動空間における強化学習(RL)は、非効率な探索や準最適解への収束のような永続的な課題に遭遇する。
我々は,LLM生成した準最適ポリシーをRLトレーニングパイプラインに統合する新しいフレームワークであるCAMELを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:22:19 GMT)
Understanding LLM Development Through Longitudinal Study: Insights from the Open Ko-LLM Leaderboard [3.6] 本稿では,Open Ko-LLM Leaderboardにおける先行研究の限界に対処するため,11ヶ月にわたる縦断的研究を行う。
分析期間を延長することで,韓国の大規模言語モデル(LLM)の発展過程をより包括的に理解することを目指す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:10:41 GMT)
How does ion temperature gradient turbulence depend on magnetic geometry? Insights from data and machine learning [3.5] 磁気幾何学は核融合プラズマにおける乱流輸送のレベルに大きな影響を及ぼす。
我々は、複数の機械学習手法と200,000以上の非線形シミュレーションのデータセットを用いて、この依存を分析した。
畳み込みニューラルネットワーク(CNN)や決定木を含む複数の回帰モデルは、熱流束に対して合理的な予測力を得ることができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:48:26 GMT)
Dagger Behind Smile: Fool LLMs with a Happy Ending Story [3.5] Happy Ending Attack (HEA)は、主に$textithappy end$を通じて形成された肯定的なプロンプトを含むシナリオテンプレートで悪意のあるリクエストをラップする。
我々のHEAは、GPT-4o、Llama3-70b、Gemini-proを含む最先端のLLMのジェイルブレイクに成功し、平均して88.79%の攻撃成功率を達成した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:23:21 GMT)
IOVS4NeRF:Incremental Optimal View Selection for Large-Scale NeRFs [3.5] IOVS4NeRFは、様々なNeRF実装に対して不確実性誘導によるインクリメンタルな最適ビュー選択戦略を採用するフレームワークである。
実験により,IOVS4NeRFは最小の計算資源で高忠実度NeRF再構成を実現することを示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:15:19 GMT)
Impactful Bit-Flip Search on Full-precision Models [3.4] Impactful Bit-Flip Search (IBS) は、完全精度ネットワークにおけるクリティカルビットのピンポイントとフリップを効率的に行う新しい手法である。
本稿では,フロート値を元の分布内に保持する手法として,モデルのパラメータを戦略的に修正するウェイト・ステース手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:50:54 GMT)
On the Computation of the Fisher Information in Continual Learning [3.4] しかし、フィッシャー・インフォメーションの正確な計算方法はほとんど説明されず、複数の異なる実装がオンラインで見られる。
これは、現在報告されているEWCの結果の多くが、Fisher Informationの計算方法を変更することで改善される可能性があることを強調している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:52:10 GMT)
Learning Smooth and Expressive Interatomic Potentials for Physical Property Prediction [3.4] 本稿では,分子動力学シミュレーションにおけるエネルギー保存の実践的能力に基づいて,機械学習の原子間ポテンシャルをテストすることを提案する。
我々は、このテストに失敗したモデルにつながる可能性のある選択を特定し、これらの観察を使用して高表現率モデルを改善する。
結果のモデルであるeSENは、様々な物理的特性予測タスクに関する最先端の結果を提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:57:32 GMT)
Enhancing Out-of-Distribution Detection in Medical Imaging with Normalizing Flows [3.4] 本研究は,事前学習モデルとシームレスに統合したポストホック正規化フローベースアプローチを提案する。
正規化フローを活用することにより、事前訓練されたモデルから抽出された特徴ベクトルの確率を推定する。
MedMNISTベンチマークと新たにキュレートされたMedOODデータセットを用いて評価した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:31:24 GMT)
On the Expressive Power of Sparse Geometric MPNNs [3.4] 幾何学グラフに対するメッセージパッシングニューラルネットワークの表現力について検討する。
非同型幾何グラフの一般的なペアは、メッセージパッシングネットワークによって分離可能であることを示す。
理論的保証を達成し,代替アーキテクチャと良好に比較可能な,シンプルなアーキテクチャであるEGENNETを導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:36:37 GMT)
Chaotic Map based Compression Approach to Classification [3.4] 現代の機械学習アプローチは、複雑さ、計算要求、解釈可能性の低下といったコストでパフォーマンスを優先している。
本稿では,情報理論の観点から学習を再解釈することで,この傾向に挑戦する新しい枠組みを提案する。
複雑なモデルにデータを適合させる従来の手法に従わず、動的システムにおける初期状態の間隔にデータをマッピングする基本的異なる手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:22:49 GMT)
DiSCo: Device-Server Collaborative LLM-Based Text Streaming Services [3.3] テキストストリーミングサービスにおける大規模言語モデルの急速な普及は、大きなコストとQuality of Experienceの課題をもたらしている。
リクエストを適応的にルーティングすることでユーザのQoEを最適化するデバイスサーバ協調型スケジューラの紹介を行う。
モデルデバイス構成の異なるTTFT(11-52%)とTTFT(6-78%)を減らし,QoEを向上できることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:15:45 GMT)
Rethinking Text-Promptable Surgical Instrument Segmentation with Robust Framework [3.3] 手術器具のセグメンテーションはコンピュータによる手術に不可欠である。
現在のメソッドでは、テキストで記述されたオブジェクトが存在すると仮定し、オブジェクトが存在しない場合でも、常に関連するマスクを生成します。
我々はテキストプロンプタブルSISを再考し、テキストプロンプタブルSIS(R-SIS)として頑健な条件下で再定義する。
RoSISは、マルチモーダル・フュージョン・ブロック(MMFB)と選択ゲート・ブロック(SGB)を備えたエンコーダ・デコーダアーキテクチャを使用して、視覚と言語機能のバランスよく統合している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:10:00 GMT)
Energy-Conscious LLM Decoding: Impact of Text Generation Strategies on GPU Energy Consumption [3.3] 復号化戦略は、大言語モデル(LLM)における生成されたテキストの品質と多様性に影響を与える
本稿では,テキスト生成復号法とエネルギー効率の関係について検討し,生成品質とGPUエネルギー消費のトレードオフに着目した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:10:25 GMT)
Programmable photonic waveguide arrays: opportunities and challenges [3.3] フォトニック導波路アレイ(WA)は、常にオンのハミルトニアンを実装し、自由空間光学において直接アナログを持たないため、統合フォトニクスにおいてユニークな位置を占める。
近年,プログラム可能な導波路アレイ (PWA) が静的WAの限界を克服するための有望なソリューションとして登場している。
我々はPWAの発展史を概観し、シミュレーション、通信、センシング、古典的および量子情報処理などの分野におけるその可能性について概説する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:46:24 GMT)
Can LLM Agents Maintain a Persona in Discourse? [3.3] 大規模言語モデル(LLM)は、教育、法律、医学など、様々な分野でその能力を利用する会話エージェントとして広く利用されている。
LLMは、しばしばコンテキストシフトの振る舞いを受け、一貫性と解釈可能なパーソナリティ整合性の相互作用が欠如する。
LLMはパーソナライズされた対話へと導くことができるが、その性格特性を維持する能力はモデルと談話設定の組み合わせによって大きく異なる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:36:39 GMT)
Detecting Systematic Weaknesses in Vision Models along Predefined Human-Understandable Dimensions [3.3] スライス発見法(SDM)は、そのような体系的な弱点を見つけるための顕著なアルゴリズム的手法である。
本稿では,現代基盤モデルと検索アルゴリズムを組み合わせた完全なワークフローを提案する。
我々は,4つのコンピュータビジョンデータセットに対するアプローチを評価した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:50:45 GMT)
Multi-dimensional Test Design [3.2] 我々は、プリンシパルが複数のテストを使って多次元型エージェントをスクリーニングしなければならないモデルを分析する。
難しいテストの設定と難しいテスト手順の使用の間には、新たなトレードオフがある。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:03:39 GMT)
$Δ$-PINNs: physics-informed neural networks on complex geometries [3.2] 物理インフォームドニューラルネットワーク(PINN)は偏微分方程式を含む前方および逆問題の解法において有望であることを示す。
現在までに、問題が解決されている領域のトポロジについて、PINNに知らせる明確な方法はない。
本稿では,Laplace-Beltrami演算子の固有関数に基づくPINNの新たな位置符号化機構を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:01:17 GMT)
Clifford circuit based heuristic optimization of fermion-to-qubit mappings [3.2] 相互作用するフェルミオンハミルトニアンのシミュレーションは、量子コンピュータの最も有望な応用の1つである。
フェルミオンからクビットへの写像は局所クビット自由度における非局所フェルミオン自由度を符号化する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:44:23 GMT)
Code-Vision: Evaluating Multimodal LLMs Logic Understanding and Code Generation Capabilities [3.2] 本稿では,MLLM(Multimodal Large Language Models)の論理的理解とコード生成能力を評価するためのベンチマークであるCode-Visionを紹介する。
MLLMに対して、所定のフローチャートに基づいて、特定の機能要件を満たす正しいプログラムを生成するよう要求する。
実験の結果,プロプライエタリモデルとオープンソースモデルには大きな性能差があることが示されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:25:45 GMT)
Stability-based Generalization Bounds for Variational Inference [3.1] 変分推論(VI)はベイズ機械学習における近似推論に広く用いられている。
本稿では、近似ベイズアルゴリズムのクラスに対する安定性に基づく一般化境界を開発する。
新しいアプローチはPAC-Bayes分析を補完し、場合によってはより厳密な境界を提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:40:26 GMT)
Structure-preserving contrastive learning for spatial time series [3.1] 本研究では,空間時系列のコントラスト学習に2つの構造保存正規化器を組み込んだ。
対照的な学習と構造保存のバランスをとるために,トレードオフを適応的に重み付けし,トレーニングを安定化する動的メカニズムを提案する。
提案手法は任意のエンコーダに適用可能であり,空間的特徴や地理的特徴を持つ時系列に対して特に有用である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:09:02 GMT)
Membership Inference Attacks for Face Images Against Fine-Tuned Latent Diffusion Models [3.1] 本稿では,Latent Diffusion Model (LDM) の微調整に一組の顔画像を用いた場合の推測の可能性について検討する。
攻撃モデルのトレーニングに生成された補助データを使用することで、パフォーマンスが大幅に向上する。
提案したMIAは、顔画像に微調整されたLCDに対して現実的なブラックボックス設定で実現可能である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:01:24 GMT)
Event-based Solutions for Human-centered Applications: A Comprehensive Review [3.1] イベントカメラは光強度の変化を非同期に捉え、例外的な時間分解能とエネルギー効率を提供する。
関心の高まりにもかかわらず、イベントカメラの人間中心の応用に関する研究はいまだに散在している。
この調査は、これらのドメインを最初に統合することで、そのギャップを埋める。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:15:19 GMT)
Suboptimal Shapley Value Explanations [3.1] ディープニューラルネットワーク(DNN)は、幅広いアプリケーションをサポートする上で強力な能力を示している。
共有価値は、DNNの推論プロセスを理解するのに役立つ機能の重要性を分析する重要なツールとして登場した。
本稿では,計算処理を高速化する簡易な不確実性に基づく再重み付け機構を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:17:12 GMT)
Generating Text from Uniform Meaning Representation [3.0] Uniform Meaning Representation (UMR) はグラフベースの意味表現である。
UMR技術エコシステムの開発に向けた努力が必要である。
マルチリンガルなUMRグラフからテキストを生成するための最初のアプローチについて検討する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:20:22 GMT)
StructTransform: A Scalable Attack Surface for Safety-Aligned Large Language Models [3.0] 我々はLLMアライメントに対する一連の構造変換攻撃を行い、多様な構文空間を用いて自然言語の意図を符号化する。
我々の最も単純な攻撃は、厳格なLSMでも90%近い成功率を達成することができる。
ベンチマークを作成し、既存の安全アライメント対策の評価を行い、そのほとんどは100%のASRで失敗していることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:46:38 GMT)
Revisiting Multi-Permutation Equivariance through the Lens of Irreducible Representations [3.0] 非シーム層は、グラフ異常検出、重み空間アライメント、ワッサーシュタイン距離の学習といったタスクのパフォーマンスを向上させることができることを示す。
また、これらの追加の非シーム層は、グラフ異常の検出、重み空間のアライメント、ワッサーシュタイン距離の学習といったタスクのパフォーマンスを向上させることを実証的に示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:34:29 GMT)
Cognitive-Aligned Document Selection for Retrieval-augmented Generation [2.9] 本稿では,クエリを動的に更新し,高品質で信頼性の高い検索文書をフィルタリングするGGatrievalを提案する。
ユーザクエリを構文コンポーネントにパースし、検索したドキュメントときめ細かいグラウンドアライメントを実行する。
提案手法では,検索した文書をフィルタリングするための新しい基準を導入し,ターゲット情報を取得するための人的戦略を密にエミュレートする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:00:15 GMT)
A measurement-device-independent quantum key distribution network using optical frequency comb [2.9] 量子鍵分配(QKD)は、2つのリモートパーティ間のセキュアな鍵交換を約束する。
本稿では、波長多重化計測デバイス非依存(MDI)QKDプロトコルに基づく、完全接続型マルチユーザQKDネットワークを実験的に提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:52:22 GMT)
Generalization capabilities and robustness of hybrid models grounded in physics compared to purely deep learning models [2.9] 本研究では,流体力学応用における物理原理に基づく純粋深層学習モデルとハイブリッドモデルの一般化能力と堅牢性について検討する。
3つの自己回帰モデルを比較した: 適切な分解(POD)と長期記憶(LSTM)層を組み合わせたハイブリッドモデル(POD-DL)、畳み込みLSTM層を組み合わせた畳み込みオートエンコーダ(VAE)とConvLSTM層を組み合わせた変分オートエンコーダ(VAE)。
VAEモデルとConvLSTMモデルが正確に層流を予測する一方で、ハイブリッドPOD-DLモデルは他のモデルよりも優れていた。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:37:58 GMT)
PHLP: Sole Persistent Homology for Link Prediction - Interpretable Feature Extraction [2.8] リンク予測 (LP) はグラフデータにおいて重要な研究領域であり、リンクはノード間の関係に関する重要な情報を表す。
グラフニューラルネットワーク(GNN)ベースのモデルはLPでは高いパフォーマンスを実現しているが、多くの場合は複雑なニューラルネットワークで構成されているため、うまく機能する理由を理解することは難しい。
対象リンクの有無が全体トポロジにどのように影響するかに着目し,PHLP(PHLP)を用いた新しい手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:09:37 GMT)
High ground state overlap via quantum embedding methods [2.8] 量子コンピュータは位相推定を用いて基底状態エネルギーを計算することができる。
これは、真の基底状態と大きな重複を持つ誘導状態を必要とする。
大きな分子や拡張材料では、良い基底状態が重なり合う誘導状態を見つけるのが難しくなる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:04:49 GMT)
Positional Encoding in Transformer-Based Time Series Models: A Survey [2.8] 位置符号化により、トランスフォーマーは時系列データの固有のシーケンシャルな性質をキャプチャできる。
本研究は,変圧器を用いた時系列モデルにおいて,既存の位置符号化手法を体系的に検討する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:21:42 GMT)
Text Classification in the LLM Era - Where do we stand? [2.8] 大規模言語モデルはNLPに革命をもたらし、いくつかのタスクで劇的なパフォーマンス向上を示した。
テキスト分類におけるそのような言語モデルの役割と,他の手法との比較について検討した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:25:54 GMT)
Agent Skill Acquisition for Large Language Models via CycleQD [2.7] CycleQDはアルゴリズムの循環的適応を通じて品質多様性フレームワークを活用する新しいアプローチである。
各タスクのパフォーマンス指標は品質指標として交換され、他のタスクは行動特性として機能する。
CycleQD を LLAMA3-8B-INSTRUCT ベースのモデルに適用することで、コーディング、オペレーティングシステム、データベースタスクにおける従来の微調整手法を超越するだけでなく、GPT-3.5-TURBO と同等のパフォーマンスを達成できる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:26:58 GMT)
From Gaming to Research: GTA V for Synthetic Data Generation for Robotics and Navigations [2.7] ビデオゲームGrand Theft Auto V(GTA V)の仮想環境を利用した合成データセットを提案する。
我々は,GTA Vから得られた合成データが実世界のデータと質的に比較できることを示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:22:52 GMT)
Without Paired Labeled Data: An End-to-End Self-Supervised Paradigm for UAV-View Geo-Localization [2.7] UAV-View Geo-Localizationは、GPSタグ付き衛星画像を取得することで、UAVの正確な位置を確認することを目的としている。
既存の手法は、トレーニングのためにアノテーション付きペアデータを必要とする教師付き学習パラダイムに依存している。
本稿では,UAVビューのジオローカライゼーションのための軽量なエンドツーエンドの自己組織化フレームワークであるDynamic Memory-Driven and Neighborhood Information Learning Networkを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:53:08 GMT)
Enhancing Frame Detection with Retrieval Augmented Generation [2.6] RCIF(Retrieve Candidates and Identify Frames)と呼ばれるフレーム検出のためのRAGに基づく最初のアプローチを提案する。
その結果,検索空間を狭めることで,検索要素がタスクの複雑さを著しく低減できることが示唆された。
提案手法はFrameNet 1.5 と 1.7 の最先端性能を実現し,原文のみを提供するシナリオにおいて,その堅牢性を実証する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:34:02 GMT)
LLM Agents Making Agent Tools [2.6] ツールの使用は、大規模言語モデル(LLM)を、複雑なマルチステップタスクを実行できる強力なエージェントに変えた。
論文をコードで自律的にLLM互換のツールに変換する新しいエージェントフレームワークであるToolMakerを提案する。
タスク記述とリポジトリURLが短いので、ToolMakerは必要な依存関係を自律的にインストールし、タスクを実行するコードを生成する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:44:11 GMT)
Deep Subspace Learning for Surface Anomaly Classification Based on 3D Point Cloud Data [2.6] 本稿では,深層空間学習に基づく3次元異常分類モデルを提案する。
具体的には,各クラスをクラス内の変動を考慮したサブ空間としてモデル化し,クラス間の類似性に対処するために異なるクラスの異なるサブ空間を促進させる。
本手法は,ベンチマーク手法よりも優れた異常分類結果を実現し,新しいタイプの異常を効果的に識別する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:57:53 GMT)
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation [2.5] Retrieval-Augmented Generation (RAG) は、外部の動的情報を統合することで問題を緩和する。
クロスモーダルアライメントと推論はMultimodal RAGに固有の課題をもたらし、従来の単調なRAGと区別する。
この調査は、より有能で信頼性の高いAIシステムを開発するための基盤となる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:26:44 GMT)
Alignment and Adversarial Robustness: Are More Human-Like Models More Secure? [2.5] 本研究では,大規模な実験分析を行い,表現的アライメントと対向的ロバスト性の関係について検討する。
その結果, 平均アライメントとロバストネスの相関は弱いが, 特定のアライメントベンチマークは, 対角ロバストネスの強い予測因子となることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:30:50 GMT)
Rethinking Benign Overfitting in Two-Layer Neural Networks [2.5] 我々は、クラス依存の異種ノイズを取り入れて特徴雑音データモデルを洗練し、ニューラルネットワークにおける過剰適合現象を再検討する。
ニューラルネットワークは、以前は有害と考えられていた「データノイズ」を利用して、長い尾を持つデータの分類精度を向上させる暗黙的な特徴を学習できることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:20:04 GMT)
A Framework for Learning Scoring Rules in Autonomous Driving Planning Systems [2.5] FLoRAは、時間論理で表される解釈可能なスコアリングルールを学ぶフレームワークである。
本手法は,学習データに肯定的な例しか含まれていないにもかかわらず,運転行動の評価を効果的に学習する。
クローズドループ計画シミュレーションの評価は、学習したスコアリングルールが既存の手法より優れていることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:06:57 GMT)
Large Language Models Can Help Mitigate Barren Plateaus [2.4] 量子ニューラルネットワーク(QNN)は様々な応用に期待できるアプローチとして登場したが、そのトレーニングはバレンプラトー(BP)によって妨げられていることが多い。
我々は,QNNの最適初期パラメータを反復的に探索し,勾配分散を最大化し,BPを緩和する新しいLarge Language Model (LLM) 型検索フレームワークであるAdaInitを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:57:15 GMT)
Cross-domain Recommender Systems via Multimodal Domain Adaptation [2.3] コラボレーティブ・フィルタリング(CF)は、レコメンダ・システムを構築するための最も顕著な実装戦略の1つです。
クロスドメインCFは、複数のドメインにまたがる共通のエンティティ(ユーザまたはアイテム)を見つけることで、データ疎結合の問題を軽減する。
本稿では,ドメイン間のエンティティの埋め込みを整合させるドメイン適応手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:44:49 GMT)
Demystifying Spectral Bias on Real-World Data [2.3] カーネルリッジ回帰(KRR)とガウス過程(GP)は統計学と機械学習の基本的なツールである。
我々は、データセット間の学習可能性について検討し、複雑なデータセットのスペクトルバイアスを明らかにするために、高度に理想化されたデータ尺度に関連する固有値と固有関数を用いることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:04:31 GMT)
Differentially private fine-tuned NF-Net to predict GI cancer type [2.3] 消化器癌(GI)をマイクロサテライト不安定(MSI)とマイクロサテライト安定(MSS)に分類することは重要である。
ディープラーニング(DL)モデルは、メンバシップ推論攻撃、モデル抽出攻撃など、さまざまな脅威に影響を受けやすい。
本稿では,機密データのプライバシを保ちながら,GIがんの状態を予測することを目的とする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:04:47 GMT)
False Discovery Rate Control via Frequentist-assisted Horseshoe [2.3] ホースシュー先行は、ベイズ推論や機械学習に先立つ、例外的にデフォルトのグローバルローカル縮小である。
定常的に有限サンプルFDR制御が可能であることを示す。
より複雑なモデルとグローバル局所縮小前ファミリの両方に対して、FDR制御を実現するための潜在的な一般化を指摘する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:36:55 GMT)
Towards a Trustworthy Anomaly Detection for Critical Applications through Approximated Partial AUC Loss [2.1] 2値分類器は、偽陽性率(FPR)を最小化しつつ、真陽性率(TPR)が100%に達するのを防ぐAUC ROC曲線の特定の範囲を最適化するために訓練される。
その結果、TPRは6つのデータセットで平均20.43%のFPRで92.52%向上し、他の最先端の方法と比較して12.2%のFPRコストで4.3%改善した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:59:59 GMT)
VAQUUM: Are Vague Quantifiers Grounded in Visual Data? [2.1] 視覚的文脈における曖昧な量化器の生成や判断において、視覚・言語モデル(VLM)が人間とどの程度互換性があるかを評価する。
我々は、合計1089枚の画像に対して、定量化されたステートメントに関する20300人の評価を含む新しいデータセットVAQUUMをリリースした。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:02:09 GMT)
AI Guide Dog: Egocentric Path Prediction on Smartphone [2.1] AIGDは、方向コマンドを予測するために、視覚のみのマルチラベル分類アプローチを採用している。
我々はGPS信号の統合によるゴールベース屋外ナビゲーションの新しい手法を提案する。
我々は、補助ナビゲーションシステムにおけるさらなる革新を促進するために、方法、データセット、評価、デプロイメントの洞察を提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 00:40:03 GMT)
Are DeepSeek R1 And Other Reasoning Models More Faithful? [2.0] 我々は,Qwen-2.5,Gemini-2,DeepSeek-V3-Baseの3つの推論モデルを評価する。
MMLU質問に対する解答に、その解答がどう影響するかをモデルで記述できるかどうかを検証する。
推論モデルは、テストされたすべての非推論モデルよりもはるかに確実にそれらに影響を与えるキューを記述する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:46:58 GMT)
Exploring Singularities in point clouds with the graph Laplacian: An explicit approach [2.0] グラフラプラシアンを用いて、基礎となるデータセットの多様体の幾何学を解析する理論と手法を開発する。
我々の理論は、基礎多様体の特異点に近く定義された函数に作用するとき、グラフラプラシアンの函数形式に関する理論的な保証と明示的な境界を与える。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:57:41 GMT)
Manifold Learning with Sparse Regularised Optimal Transport [1.9] 実世界のデータセットはノイズの多い観測とサンプリングを受けており、基礎となる多様体に関する情報を蒸留することが大きな課題である。
本稿では,2次正規化を用いた最適輸送の対称版を利用する多様体学習法を提案する。
得られたカーネルは連続的な極限においてLaplace型演算子と整合性を証明し、ヘテロスケダスティックノイズに対する堅牢性を確立し、これらの結果を数値実験で示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:24:09 GMT)
Feature Engineering Approach to Building Load Prediction: A Case Study for Commercial Building Chiller Plant Optimization in Tropical Weather [1.9] 本研究では,ニューラルネットワークとK-meansクラスタリングを組み合わせた冷却負荷予測モデルを提案する。
シンガポールの中央ビジネス地区の商業超高層ビルの現実世界のデータに応用され、予測精度は46.5%向上した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:22:43 GMT)
Sharp-PINNs: staggered hard-constrained physics-informed neural networks for phase field modelling of corrosion [1.9] 複素位相場腐食問題に対処する新しいシャープ-PINNフレームワークを提案する。
シャープ-PINNは、すべてのPDE残量を同時に最小化する代わりに、停滞したトレーニングスキームを導入している。
三次元の場合、従来の有限要素法よりも5~10倍高速である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:56:07 GMT)
Hypercone Assisted Contour Generation for Out-of-Distribution Detection [1.9] HAC$_k$-OODは,データの分布を仮定せずに自動的にその分布に適応する新しいOOD検出法である。
実験結果から,CIFAR-100ベンチマークによるFPR@95およびAUROCの近OOD検出およびFar-OOD検出における性能が示された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:55:38 GMT)
Matrix Low-dimensional Qubit Casting Based Quantum Electromagnetic Transient Network Simulation Program [1.8] 現代の電力システムでは、コンバータインタフェース世代の統合は、電磁過渡ネットワークシミュレーションプログラム(EMTP)の開発を必要とする。
パワーシステムがスケールするにつれて、EMTPの計算複雑性は指数関数的に増加し、その実用性を阻害する次元の呪いにつながる。
量子コンピューティングは指数加速度を達成するための有望なアプローチを提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:13:20 GMT)
Electronic Health Records: Towards Digital Twins in Healthcare [1.7] 本章では、医療情報システムの進化と重要性について論じる。
英国と米国における EHR の実施に関する調査から始まる。
国際疾病分類(ICD)システムの概要を概観し、ICD-9からICD-10までの発展を辿る。
この議論の中心はMIMIC-IIIデータベースであり、これは医療データ共有における目覚ましい業績であり、世界中の研究者が自由に利用できる最も包括的なクリティカルケアデータベースである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:59:04 GMT)
Learning to Reason at the Frontier of Learnability [1.7] 現在、強化学習は大規模言語モデルトレーニングの最終段階として広く採用されている。
私たちは、多くの質問が、すべての試み(つまり、既に学習されている)によって解決されるか、まったく解決されないかを示す。
そこで本研究では,LLM学習の強化学習段階において,強化学習文献(学習可能性のためのサンプリング)から手法を適用した。
我々のカリキュラムは、高い成功のばらつき、すなわちエージェントが成功することもあるが、必ずしも成功しない質問を優先している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:16:37 GMT)
Factual Inconsistency in Data-to-Text Generation Scales Exponentially with LLM Size: A Statistical Validation [1.7] 本稿では,大規模言語モデル(LLM)のサイズがデータ・テキスト生成(D2T)における現実的矛盾に与える影響を考察する。
本稿では,予測性能評価,適合性評価,比較分析の3つの主要な段階からなる統計的検証フレームワークを用いる。
総合的な実証研究として,5つのD2Tデータセットにまたがる3つのLLMファミリーを分析し,4つの最先端整合性指標を用いて,事実整合性を測定した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:24:00 GMT)
Deterministic Single-Photon Adder and Subtractor [1.7] 単一光子の加算と減算は量子情報処理の基本的な操作である。
伝統的に、単光子加算器(SPA)と単光子減算器(SPS)の挙動は、それぞれ生成演算子と消滅演算子を用いて理論的に記述されている。
我々はKraus演算子に基づく理論フレームワークを開発し、コヒーレントかつ非コヒーレントなSPAとSPSの両方に適用する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:45:22 GMT)
Predicting Next-Day Wildfire Spread with Time Series and Attention [1.6] 翌日の山火事予測のために,SwinUnetと呼ばれる変圧器モデルについて検討した。
WildfireSpreadTSの現在の最先端モデルに対して、Swinベースのモデルをベンチマークする。
適切な修正によって、SwinUnetは1日と複数日の両方のシナリオに対して、翌日の予測において最先端の精度を達成する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:41:46 GMT)
Entropy Collapse in Mobile Sensors: The Hidden Risks of Sensor-Based Security [1.6] 複数のアプリケーションコンテキストにまたがる4つの多様なデータセットにわたるモバイルセンサデータのエントロピーを系統的に分析する。
シャノンエントロピーは複数の倍数であるにもかかわらず, 単一センサの平均ミンエントロピー値は3.408-4.483ビット (S.D.=1.018-1.574) である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:41:20 GMT)
Large Language Models and Mathematical Reasoning Failures [1.6] 本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:07:32 GMT)
Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance [1.6] 本稿では,言語複雑性測定タスクにおける大規模言語モデル(LLM)の性能について検討する。
スウェーデンの高校と大学レベルのエッセイを用いて,LIXスコアを計算し,依存関係解析を行うモデルの能力を評価する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:09:58 GMT)
Time-series attribution maps with regularized contrastive learning [1.6] 勾配に基づく帰属法は、ディープラーニングモデルの決定を説明することを目的としているが、これまでは識別可能性の保証が欠如している。
本稿では,時系列データに基づく正規化コントラスト学習アルゴリズムを開発することにより,属性マップを識別可能性保証付きで生成する手法を提案する。
理論的には、xCEBRAはデータ生成過程のヤコビ行列を特定するのに好ましい性質を持っている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:34:25 GMT)
Two-Photon Interference of Photons from Remote Tin-Vacancy Centers in Diamond [1.5] ダイヤモンド中のスズ原子空孔は長寿命のクビットとして出現している。
リモートノードを接続するには、区別できない光子の量子干渉が必要である。
遠隔量子レジスタ間のロバストな光リンクを確立するため,ダイヤモンド中のスズ空孔中心の可能性を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:51:06 GMT)
Application-level Benchmarking of Quantum Computers using Nonlocal Game Strategies [1.5] 非ローカルゲームでは、2人のプレーヤーが、ゲームのルールに違反しない戦略を持っていることを審判に納得させるために協力する。
非局所ゲームの規則をハミルトニアンに符号化することにより、非局所ゲームに対する量子戦略を計算する変分量子アルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:27:14 GMT)
Investigating Role of Personal Factors in Shaping Responses to Active Shooter Incident using Machine Learning [1.5] 本研究は、アクティブシューティングの状況において、個人的要因が被曝者の反応に及ぼす影響についての知識ギャップを橋渡しするものである。
個人的要因は、訓練方法、事前訓練経験、方向感覚、性別である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:10:56 GMT)
That is Unacceptable: the Moral Foundations of Canceling [1.4] 本研究は,アノテータのモラルがキャンセルの知覚に与える影響を考察し,この現象の相違を説明する上で,モラルが独立した軸であることを示す。
このことは、ソーシャルメディアにおける有害行為をより深く理解するために、イベント中心のデータセットを開発する必要があることを示している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:01:06 GMT)
Border Ranks of Positive and Invariant Tensor Decompositions: Applications to Correlations [1.4] マルチパートの正および不変なテンソル分解がランクと境界ランクのギャップを示すことを証明した。
また、ある多部確率分布の集合における正の分解とメンバシップの対応性も証明する。
全体として、この研究は階級の不安定性と二部類系のユニークな振る舞いに光を当てている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:19:51 GMT)
Learning Surrogate Potential Mean Field Games via Gaussian Processes: A Data-Driven Approach to Ill-Posed Inverse Problems [1.4] 平均場ゲーム(MFG)は相互作用するエージェントの集団行動を記述する。
我々は、エージェントの人口、運動量、環境設定を回復することを目的として、潜在的なMFGの逆問題に取り組む。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:14:30 GMT)
InTec: integrated things-edge computing: a framework for distributing machine learning pipelines in edge AI systems [1.4] この記事では、IoTアーキテクチャにおける画期的なイノベーションであるInTec(Integrated Things Edge Computing)フレームワークを紹介します。
既存の方法とは異なり、InTecは、モノ、エッジ、クラウドの各レイヤにMLタスクを戦略的に分散することで、3層アーキテクチャの可能性を完全に活用する。
この包括的なアプローチは、データ生成時点でのリアルタイムデータ処理を可能にし、レイテンシを大幅に削減し、ネットワークトラフィックを最適化し、システムの信頼性を向上させる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:38:00 GMT)
A GNN-based Spectral Filtering Mechanism for Imbalance Classification in Network Digital Twin [1.4] 5Gネットワークのディジタルツインは、障害タイプを特定する主要な方法としてグラフ分類を採用することが多い。
故障発生のスキュード分布は、グラフデータマイニングを効果的に防ぐ主要なクラス不均衡問題である。
我々は,クラス指向のスペクトルフィルタリング機構を導入し,精度の高い分類を実現することを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:12:39 GMT)
Machine Learning for Equitable Load Shedding: Real-time Solution via Learning Binding Constraints [1.3] 最適化に基づく負荷層問題に対するミリ秒単位の計算を可能にする効率的な機械学習アルゴリズムを提案する。
3バス玩具の例と現実的なRTS-GMLCシステムの両方に関する数値的研究により,提案アルゴリズムの有効性と有効性を示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:19:41 GMT)
Learning Generalizable Prompt for CLIP with Class Similarity Knowledge [1.3] 本稿では,手作りプロンプトによって獲得されたクラス間の意味的関係を維持するために,SAR(Simisity Alignment Regularization)を提案する。
まず、ChatGPT-4oを使ってベースクラスに関連する新しいクラスを取得し、プロンプトチューニング中に潜在的に見つからないクラスとして利用する。
そして,基本クラスと新規クラスの両方を対象とすることにより,学習可能なプロンプトによって生成されたテキスト埋め込み間の類似性関係を手作りプロンプトの類似性関係と整合させる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:18:07 GMT)
Effect of Correlated Errors on Quantum Memory [1.3] 本稿では、よく知られた隠れ乱体を一般化した相関モデルを提案する。
より広い種類の非マルコフおよび(おそらく)非定常誤差分布に対して、量子タナー符号は指数的保持時間を保証することを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:00:27 GMT)
ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition [1.2] 和音認識は、音楽分析における和音の記述的性質により、音楽情報検索において重要な課題となる。
この研究は、大きな語彙に対する構造的コード認識(トリアード、ベース、セブンズなど)に取り組むために設計された、新しいコンバータベースのアーキテクチャであるChordFormerを提案する。
ChordFormerは最先端モデルより優れており、フレームワイドの精度が2%向上し、大語彙のコードデータセットではクラスワイドの精度が6%向上している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:35:16 GMT)
Improving Acoustic Side-Channel Attacks on Keyboards Using Transformers and Large Language Models [1.2] 本研究では,アコースティックサイドチャネルアタック(ASCA)の有効性と適用性を高めるための深層学習手法について検討する。
我々は、CoAtNetモデルを用いて、先行研究よりも大幅に改善し、最先端の性能を実現した。
重要な進歩は、現実のシナリオに対するノイズ緩和手法の導入である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:42:31 GMT)
Design and Implementation of Flutter based Multi-platform Docker Controller App [1.1] 本稿では,Dockerリソースを遠隔操作するFlutterアプリケーションの開発に焦点を当てる。
アプリケーションはSSHプロトコルを使用してサーバとのセキュアな接続を確立し、コマンドを実行する。
HTTPを使用してアプリケーションをDockerエンジンに接続する、別のアプローチも検討されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:48:02 GMT)
Monogamy and polygamy for multi-qudit generalized $W$-class states based on concurrence of assistance and Tsallis-$q$ entanglement of assistance [1.1] 我々は、$alpha$-th(alphageqgamma,gammageq2$)のパワーで満たされる新しい分析的モノガミー不等式を示す。
また,複数の高次元状態に対しても有効であることを示す,新たな一夫一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦一婦という関係を樹立する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:56:06 GMT)
MQG4AI Towards Responsible High-risk AI - Illustrated for Transparency Focusing on Explainability Techniques [1.1] 本稿では,一般的なガイドラインとユースケース固有の要件とのギャップを埋める,AIライフサイクル計画のためのアプローチを提案する。
我々の研究は、Responsible AI(RAI)を実装するための実用的なツールの開発に貢献することを目的としている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:14:52 GMT)
TE-NeXt: A LiDAR-Based 3D Sparse Convolutional Network for Traversability Estimation [1.1] 本稿では,疎LiDAR点雲からのトラバーサビリティ推定(TE)のための新規かつ効率的なアーキテクチャであるTE-NeXtを提案する。
TE-NeXtブロックは、注意機構や3次元スパース畳み込みといった現在のトレンドの概念を融合させる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:24:49 GMT)
Contrastive Language Prompting to Ease False Positives in Medical Anomaly Detection [1.1] 事前学習された視覚言語モデル、コントラスト言語画像事前学習(CLIP)は、テキストプロンプトで様々な下流タスクを遂行する。
CLIPの強力なマルチモーダルデータ機能にもかかわらず、医療アプリケーションのような特殊な環境に限られている。
正と負の両方のテキストプロンプトを利用するCLAP(Contrastive LAnguage Prompting)手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:41:01 GMT)
Investigating the importance of social vulnerability in opioid-related mortality across the United States [1.1] 本研究は,オピオイド関連死亡率とSVI(Social Vulnerability Index)の13項目の相関について検討した。
以上の結果から,オピオイド関連死亡と強く相関する社会的要因が示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:54:24 GMT)
Exact Upper and Lower Bounds for the Output Distribution of Neural Networks with Random Inputs [1.0] 我々は、ニューラルネットワークの出力の累積分布関数(cdf)の正確な境界を、そのサポート全体にわたって導き出す。
本手法は, 連続単調片方向微分可能活性化関数を用いて, 任意のフィードフォワードNNに適用する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:01:03 GMT)
Revisiting the Equivalence of Bayesian Neural Networks and Gaussian Processes: On the Importance of Learning Activations [1.0] トレーニング可能なアクティベーションは、広範囲なBNNに対するGP前の効果的なマッピングに不可欠であることを示す。
また、設計によるグローバルな定常性を確保するためのトレーニング可能な周期的アクティベーションも導入する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:11:46 GMT)
Bi-invariant Geodesic Regression with Data from the Osteoarthritis Initiative [1.0] 我々はアフィン接続設定を用いた非計量推定器を開発した。
その計算のために,簡単な微分式を必要とする効率的な固定点アルゴリズムを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:20:54 GMT)
Waveguide QED Analysis of Quantum-Coherent Links for Modular Quantum Computing [1.0] Waveguidesは、モジュラーフレームワーク内で量子プロセッサを相互接続するための効果的な媒体を提供する可能性がある。
2つの量子ビットが共有導波路に接続された量子通信シナリオを解析する。
本稿では,状態伝達の忠実度を向上し,遅延を低減させるシステム設計要件を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:20:00 GMT)
Multi-Agent Actor-Critic Generative AI for Query Resolution and Analysis [1.0] 本稿では,アクタ批判モデルに基づく問合せ解決のための変換フレームワークであるMASQRADを紹介する。
MASQRADは不正確または曖昧なユーザからの問い合わせを正確で行動可能な要求に翻訳するのに優れている。
MASQRAD は高度なマルチエージェントシステムとして機能するが、単一のAIエンティティとしてユーザに対して "masquerad" を提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:03:15 GMT)
On the Computational Tractability of the (Many) Shapley Values [1.0] 最近の研究では、様々なモデルと分布にわたるShapley加法的説明(SHAPとも呼ばれる)の計算複雑性について検討している。
これらの研究は主に条件付きSHAPと呼ばれる特定の変種に焦点を当てたが、他の多くの変種が存在し、異なる制限に対処する。
本研究では,Conditional,Interventional,Baseline SHAPなど,より広い範囲での計算の複雑さを分析する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:08:03 GMT)
Parametric PerceptNet: A bio-inspired deep-net trained for Image Quality Assessment [1.0] パラメトリックニューラルネットワークアーキテクチャを用いて,両世界の長所を組み合わせた視覚モデルを提案する。
パラメトリックモデルは、トレーニング中により良く振る舞うことを示し、視覚モデルとして解釈しやすいことを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:53:44 GMT)
"I'm not for sale" -- Perceptions and limited awareness of privacy risks by digital natives about location data [1.0] 我々は,スマートフォン利用者の位置情報データ共有に対する意識,認識,自己報告行動の定量的,質的な分析を行う。
参加者の約54%は、データへのアクセスを許可したモバイルアプリケーションの数を過小評価している。
被験者の半数以上(57%)が、潜在的に推測される情報の範囲に驚いている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:49:23 GMT)
GINopic: Topic Modeling with Graph Isomorphism Network [0.9] 本稿では,グラフ同型ネットワークに基づく話題モデリングフレームワークGINopicを紹介し,単語間の相関関係を捉える。
本稿では,既存のトピックモデルと比較してGINopicの有効性を実証し,トピックモデリングの進歩の可能性を明らかにする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:23:38 GMT)
Spectral structure learning for clinical time series [0.9] 臨床時系列の構造化学習アルゴリズムを開発し,評価する。
臨床時系列は、複数の患者で観察され、不規則にサンプリングされた多変量時系列である。
本稿では,異なる時系列規則性に柔軟に対応する時系列依存モデルを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:13:39 GMT)
Software Process as a Service: Towards A Software Process Ecosystem [0.9] ソフトウェアプロセスがWebベースのサービスとして提供されるプロセスエコシステムを提示する。
本稿では,大規模なソフトウェアプロセスラインに基づく概念実証ケースを用いて,概念の実現について説明する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:30:19 GMT)
Adversarial Debiasing for Unbiased Parameter Recovery [0.9] 機械学習モデルからの予測誤差が回帰係数の推定に偏りをもたらすことを示す。
本稿では, バイアス検出テストを提案し, 予測を非バイアス化するために, 逆方向の機械学習アルゴリズムを用いることを実証する。
アフリカにおける森林被覆に関する地上の真実と衛星データを用いたシミュレーションおよび実証演習を行った。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:54:56 GMT)
WRT-SAM: Foundation Model-Driven Segmentation for Generalized Weld Radiographic Testing [0.8] この研究は、一般的な溶接試験画像にSAMベースのセグメンテーションを導入した最初のものである。
WRT-SAMは,特殊なプロンプトジェネレータアーキテクチャとアダプタベースの統合によりSAMを利用する新しい溶接欠陥セグメンテーションモデルである。
WRT-SAMのリコールは78.87%、精度は84.04%、AUCは0.9746で、新しい最先端(SOTA)ベンチマークが設定されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:31:36 GMT)
Information Sharing Among Countries: A Perspective from Country-Specific Websites in Global Brands [0.8] 国内の複数の公用語と、他の国と共通する言語は、情報共有中に共有言語と共有言語の両方でコンテンツ一貫性を要求する。
コンテンツ共有の対立と、国間の言語で伝播しないコンテンツ更新が原因で、矛盾が問題となる。
本研究では,グローバルブランド内における情報共有の特質を,国別ウェブサイトで共有されているコンテンツによって定性的に検討した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:32:30 GMT)
zScore: A Universal Decentralised Reputation System for the Blockchain Economy [0.8] zScoreという名の堅牢なフレームワークを提供しています。これはウォレットのオンチェーン動作に由来する評価のためのコアプリミティブです。
貸し出しプロトコルの遡及的データで行った最初の結果は、良いzScoreと健全な借り入れ行動と返済行動との間に強い相関関係を確立した。
第5節では,本システムの適用可能性のリストを提示し,実際の価値創造に報いるための実用性を確立する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:19:04 GMT)
Logic.py: Bridging the Gap between LLMs and Constraint Solvers [0.8] 本稿では,大規模言語モデルを用いた探索に基づく問題の定式化と解法について述べる。
論理パズルベンチマークZebraLogicBenchにおいて,本手法の有効性を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 00:36:54 GMT)
A limited technical background is sufficient for attack-defense tree acceptability [0.8] アタック・ディフェンス・ツリー(ADT)は、セキュリティ関連の情報を分析・伝達するために非常に推奨される、グラフィカルな脅威モデリング手法である。
既存の攻撃木の実証研究は、高度に技術的(コンピュータ科学)なバックグラウンドを持つユーザに対してのみ、その受容性を確立している。
本研究は,ADTの受容性に対するユーザの技術的背景の影響を実証的研究で検証することによって,このギャップに対処する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:33:07 GMT)
Enhanced Anomaly Detection in IoMT Networks using Ensemble AI Models on the CICIoMT2024 Dataset [0.8] 医療におけるインターネット・オブ・メディカル・モノ(IoMT)デバイスの急速な普及は、ユニークなサイバーセキュリティの課題をもたらした。
本研究の目的は、IoMTネットワークトラフィックに適した高度なリアルタイム異常検出フレームワークを開発することである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:46:58 GMT)
ORI: O Routing Intelligence [0.7] 単一大規模言語モデル(LLM)は、成長を続けるタスクの範囲に直面すると、しばしば不足する。
我々は,一組のLLMを利用する動的フレームワークであるORI(O Routing Intelligence)を提案する。
クエリをインテリジェントにルーティングすることで、ORIはMMLUで最大2.7ポイント、MuSRで1.8ポイントという最強の個別モデルを上回っている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:30:22 GMT)
Zero-shot generation of synthetic neurosurgical data with large language models [0.7] 本研究の目的は,大言語モデル(LLM, GPT-4o)を用いた人工神経外科データのゼロショット生成能力を評価することである。
GPT-4oで合成されたデータは、小さなサンプルサイズで臨床データを効果的に増強し、神経外科的結果を予測するためのMLモデルを訓練することができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:04:06 GMT)
Enhancing operational wind downscaling capabilities over Canada: Application of a Conditional Wasserstein GAN methodology [0.7] 風下スケーリングは天気予報の空間分解能を改善するために不可欠である。
本研究は,DownGANフレームワークの拡張による風下スケーリングを推し進める。
風下スケール精度の大幅な向上を実現し,本手法の運用スケーラビリティを実証する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:21:13 GMT)
iFormer: Integrating ConvNet and Transformer for Mobile Application [0.7] iFormerは、畳み込みの高速局所表現能力と、自己意図の効率的なグローバルモデリング能力を統合する。
我々は、iFormerが様々なタスクで既存の軽量ネットワークより優れていることを示す包括的な実験を行う。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:09:31 GMT)
A Pathwise Coordinate Descent Algorithm for LASSO Penalized Quantile Regression [0.6] 我々は,高次元データに対する正確なペナル化量子レグレッション推定を計算するために,高速でパスワイズな座標降下アルゴリズムを開発した。
本アルゴリズムは, 近似CDと線形プログラムに基づいて, 既存の代替手段よりも大幅に高速に動作する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:57:41 GMT)
PrototypeFormer: Learning to Explore Prototype Relationships for Few-shot Image Classification [0.6] 本稿では,プロトタイプフォーマー (PrototypeFormer) と呼ばれる新しい手法を提案する。
その単純さにもかかわらず、ベルや笛を使わずに、我々の手法は驚くほどよく機能する。
本手法は, 精度0.57%, 精度6.84%の最先端結果を上回った。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:13:15 GMT)
A statistical theory of overfitting for imbalanced classification [0.6] 我々は高次元不均衡分類の統計理論を開発する。
次元性はロジット分布にトランケーションやスキューイング効果を誘導することがわかった。
この現象は、少数民族が過度な適合によってより深刻な影響を受けている理由を説明する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 00:21:33 GMT)
All-Optical Photoluminescence Spectra of Nitrogen-Vacancy Ensembles in Diamond at Low Magnetic Fields [0.6] ダイヤモンド中の窒素空孔(NV)中心を用いた全光学(AO)非マイクロ波磁気測定は、広い試料との互換性と実験の複雑さの低減により魅力的である。
pm濃度のNVアンサンブルダイヤモンドを用いた低磁場下での室温AOフォトルミネッセンス(PL)について検討した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:56:21 GMT)
Theoretical Barriers in Bellman-Based Reinforcement Learning [0.6] 強化学習アルゴリズムは、しばしばサンプル化された状態の部分集合にベルマン方程式を強制する。
このアプローチが利用できないような単純な構造で逆例問題を構築する。
我々は、この否定的な結果を、文献からの別のアプローチに拡張する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:18:00 GMT)
Online calibration scheme for training restricted Boltzmann machines with quantum annealing [0.6] 本稿では,制限ボルツマンマシン (RBM) をトレーニングするためのよく近似されたサンプルを得るために,量子アニールの内部パラメータを校正する手法を提案する。
以上の結果から,本手法はギブスサンプリングと同等の性能を示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:00:32 GMT)
AI-generated Text Detection with a GLTR-based Approach [0.6] Giant Language Model Test Roomは、GPT-2に基づく機械生成テキストの検出を支援するビジュアルツールである。
GLTRの制限の一つは、それが返される結果が曖昧になり、混乱を招くことがあることである。
本研究の目的は、IberLef-AuTexTification 2023共有タスクのコンテキスト内で、AI生成テキストを検出するGLTRの有効性を改善するための様々な方法を検討することである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:32:55 GMT)
Building A Proof-Oriented Programmer That Is 64% Better Than GPT-4o Under Data Scarsity [0.5] 本稿では,プロジェクトレベルの証明指向プログラミングのための合成データ拡張について,生成と修復の両面について紹介する。
本手法は,その言語の習熟度に関する基礎的証明指向プログラミング問題を合成することにより,データの不足に対処する。
我々は,プロジェクトレベルでの証明指向プログラミングにおいて,GPT-4oよりも優れた性能を示すモデルとして,細調整した14BパラメータモデルPoPilotを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:24:11 GMT)
Symmetric Rank-One Quasi-Newton Methods for Deep Learning Using Cubic Regularization [0.5] アダムやアダグラッドのような一階降下や他の一階変種は、ディープラーニングの分野で一般的に使われている。
しかし、これらの手法は曲率情報を活用しない。
準ニュートン法は、以前計算された低ヘッセン近似を再利用する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:20:11 GMT)
MultiFlow: A unified deep learning framework for multi-vessel classification, segmentation and clustering of phase-contrast MRI validated on a multi-site single ventricle patient cohort [0.5] MultiFlowSeg は Fontan 手術患者の FORCE 登録に応用された。
大動脈, SVC, IVCの100%分類精度, LPA, RPAの94%を達成した。
自動パイプラインはレジストリデータを処理し、画像品質の低下やデキストロカルディアといった課題にもかかわらず、高いセグメンテーション成功を実現した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:33:59 GMT)
Efficient Alignment of Large Language Models via Data Sampling [0.5] 本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:14:08 GMT)
Entanglement theory with limited computational resources [0.3] 計算エンタングルメント尺度は情報理論とは大きく異なることを示す。
フォン・ノイマンエントロピーは純粋状態変換の情報理論速度を捉えるが、計算的制約の下では、ミンエントロピーが最適エンタングルメント蒸留を支配していることを示す。
この結果から,$tildeOmega(n)$と$o(1)$の差分を計算量と情報理論的絡み合い尺度で決定する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:43:59 GMT)
Real-time Neural Rendering of LiDAR Point Clouds [0.3] 1x1ピクセルを用いた出力ビューへの点雲の単純投影は高速であり、利用可能な詳細を保持するが、背景点が前景画素間に漏れるにつれて、認識不能なレンダリングをもたらす。
U-Netの形での深い畳み込みモデルを用いて、これらの射影を現実的な結果に変換する。
また,不完全整合な地上真実画像を扱うための合成訓練データを生成する手法についても述べる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:01:13 GMT)
Identifying Gender Stereotypes and Biases in Automated Translation from English to Italian using Similarity Networks [0.3] 本論文は,自動翻訳システムにおけるステレオタイプとバイアスを評価するために,言語学,法学,計算機科学の協力的な取り組みである。
ジェンダーインクルージョンを促進し,機械翻訳の客観性を向上させる手段として,ジェンダーニュートラル翻訳を提唱する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:55:32 GMT)
Accuracy Assessment of OpenAlex and Clarivate Scholar ID with an LLM-Assisted Benchmark [0.2] Web of Science (WOS) 誌の上位四国誌 (Q1) の著者は、国、規律、および対応する著者論文の数に基づいている。
各グループについて,100人の学者を選抜し,検索強化大言語モデルを用いて各論文に注意深い注記を行った。
これらのアノテーションを用いて、OpenAlexとClarivateで対応するIDを特定し、関連するすべての論文を抽出し、Q1 WOSジャーナルにフィルタリングし、アノテーション付きデータセットと比較して精度とリコールを算出した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:54:46 GMT)
Dynamic Continuous Variable Quantum Key Distribution for Securing a Future Global Quantum Network [0.2] 連続可変量子鍵分布(CVQKD)は、将来の量子ネットワークにおける情報交換をセキュアにするための開発手法である。
既存のQKDネットワークの構造は分析され、一般的な3層QKDネットワークアーキテクチャに適合する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:39:12 GMT)
Biases in Edge Language Models: Detection, Analysis, and Mitigation [0.2] 本稿では,エッジ,クラウド,デスクトップ環境における言語モデル展開におけるテキストベースのバイアスの比較分析を行う。
Raspberry Pi 4で動作するLlama-2は43.23%で、デスクトップやクラウドベースの環境で動作するモデルと比較して、時間とともにバイアスが生じる傾向にある。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:57:31 GMT)
Conversation Routines: A Prompt Engineering Framework for Task-Oriented Dialog Systems [0.2] 本研究では,Large Language Models (LLMs) を用いたタスク指向対話システムの開発のための,構造化されたプロンプトエンジニアリングフレームワークである Conversation Routines (CR) を紹介する。
提案したCRフレームワークは,自然言語仕様による会話エージェントシステム(CAS)の開発を可能にする。
このフレームワークの有効性を,Train Booking SystemとInteractive Ticket Copilotという2つの概念実証実装を通じて実証する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:55:47 GMT)
Controlling complex dynamics with synthetic magnetism in optomechanical systems: A route to enhanced sensor performance [0.2] 系の半古典力学方程式は、光学的ハミルトニアンから導かれる。
本稿では、新しい動的動作の出現と、新しいデバイスの開発におけるその意義を示す。
これらの知見は, 感光性, カオスベース通信, 調整可能な音波回路の応用に重要な意味を持つ。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:45:44 GMT)
Hidden multi-dimensional modulation side channels in quantum protocols [0.2] 比較的意外なことに、隠れた多次元変調は実用的な装置によって実行されることが多い。
これは量子プロトコルの次元的仮定に反し、サイドチャネルとセキュリティの抜け穴を作る。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:59:07 GMT)
Revisiting Financial Sentiment Analysis: A Language Model Approach [0.2] 本稿では,短期的価格トレンドに基づく市場からのラベリング手法を提案する。
ドメイン固有言語モデルはこれらのラベルに基づいて微調整され、短期トレンド予測精度が最大11%向上した。
以上の結果から,言語モデルが短期市場予測に有効であることが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 21:35:18 GMT)
Frequency-Aware Masked Autoencoders for Human Activity Recognition using Accelerometers [0.1] 機械学習とディープラーニングのアルゴリズムは、長年、生の加速度データから有意義な活動情報を抽出するために用いられてきた。
本稿では,人間行動認識のためのログスケール平均等級(LMM)損失という,スペクトルに基づく新しい損失関数を提案する。
以上の結果から,LMMの損失は,HARの加速度計データに基づくMAEモデルを事前学習するための頑健かつ効果的な方法であることが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:57:51 GMT)
Towards Scalable Insect Monitoring: Ultra-Lightweight CNNs as On-Device Triggers for Insect Camera Traps [0.1] カメラトラップは、自動化されたスケーラブルな生物多様性監視を実現する手段として登場した。
カメラトラップをトリガーする受動赤外線(PIR)センサーは、昆虫のような小型で素早く動く外惑星を検出するには適していない。
本研究は、低消費電力ハードウェア上で動作する超軽量畳み込みニューラルネットワークであるPIRトリガの代替を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:21:20 GMT)
AI Mimicry and Human Dignity: Chatbot Use as a Violation of Self-Respect [0.0] この方法でチャットボットと対話することは、ユーザの尊厳とは相容れない、と私たちは主張する。
第二の個人的敬意は、第二の個人的権威の相互認識に前提づけられているため、第二の個人的敬意を伝える方法において、チャットボットに向かって行動することが誤認される。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:02:12 GMT)
pySLAM: An Open-Source, Modular, and Extensible Framework for SLAM [0.0] pySLAMは、Visual SLAMのためのオープンソースのPythonフレームワークである。
モノクロ、ステレオ、RGB-Dカメラに対応している。
pySLAMはコミュニティのコントリビューションを促進し、Visual SLAMの分野での共同開発を促進する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:05:31 GMT)
Web Phishing Net (WPN): A scalable machine learning approach for real-time phishing campaign detection [0.0] 現在、フィッシングはサイバー攻撃の最も一般的なタイプであり、データ漏洩の主な原因と認識されている。
本稿では,高速かつスケーラブルな教師なし学習手法を提案する。
ユーザのプライバシを保護しながら、高い検出率でキャンペーン全体を検出することができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:06:56 GMT)
Variational Quantum Algorithms for Many-Body Systems [0.0] 変分量子アルゴリズム(VQA)は、ハイブリッド量子古典計算を取り入れている。
3つの主要なVQAが提示され、それぞれが多体物理学の異なる面に取り組む。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:25:34 GMT)
VIC: Evasive Video Game Cheating via Virtual Machine Introspection [0.0] ビデオゲームの不正行為は、一部のプレイヤーに不公平なアドバンテージを与えるためにビデオゲームの振る舞いを変更します。
これはオンラインゲーム体験を破壊し、ゲーム開発者にとって経済的損失をもたらす可能性がある。
我々は、仮想マシンを利用してステルスゲームチートを実行する新しいタイプのゲームチート、Virtual Machine Introspection Cheat(VIC)を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:54:56 GMT)
Unitality Conditions on Subsystems in Quantum Dynamics [0.0] システムに作用するノイズが単体(非単体)であれば、環境に作用するノイズも単体(非単体)でなければならないことを示す。
我々の結果は量子情報に関心があり、様々な文脈で有用であると期待している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:05:55 GMT)
Two stages domain invariant representation learners solve the large co-variate shift in unsupervised domain adaptation with two dimensional data domains [0.0] 教師なし領域適応(UDA)の最近の発展により、対象データに対する教師なし機械学習(ML)予測が可能になった。
本稿では,ソースとターゲットのギャップをセマンティック中間データで埋める手法を提案する。
また、トレーニングされたモデルと教師なしのターゲットラベリングルールのギャップを測定するための定理を導出する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:12:40 GMT)
TrustZero - open, verifiable and scalable zero-trust [0.0] この論文では、ユニバーサルな"トラストトークン"を中心に構築されたゼロトラストセキュリティのスケーラブルなレイヤであるTrustZeroを紹介します。
ZTAの原則と暗号を統合することで、TrustZeroはレガシーシステムや組織間通信に適応可能なセキュアなWeb-of-trustフレームワークを確立する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:21:11 GMT)
Transformer Dynamics: A neuroscientific approach to interpretability of large language models [0.0] 我々はトランスモデルにおける残留ストリーム(RS)に注目し、層をまたいで進化する動的システムとして概念化する。
個々のRSユニットの活性化は、RSが非特権ベースであるにもかかわらず、層間において強い連続性を示す。
縮小次元空間において、RS は下層に誘引子のようなダイナミクスを持つ曲線軌道に従う。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:49:40 GMT)
Topological zero modes and bounded modes at smooth domain walls: Exact solutions and dualities [0.0] トポロジーは、トポロジカル絶縁体と超伝導体のトポロジ的非等価相の間の領域壁におけるソリトニックゼロエネルギーモードの存在を規定している。
ここでは、滑らかで指数関数的に定義されたドメインウォールを仮定して、これらの零モードの分析解を求める。
我々は、ゼロモードのバルク励起ギャップ、崩壊速度、振動運動量の間の普遍的な関係を確立する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:31:22 GMT)
Time crystal optomechanics [0.0] 我々は、磁気準粒子、マグノンからなる時間結晶を、近くの液体表面の重力波モードである機械共振器に接続する。
その結果, 時間結晶の自然的コヒーレンスを最適条件で利用し, 時間結晶と凝縮物質の他の相との実験的障壁を取り除く方法が得られた。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:14:21 GMT)
Thermodynamic limits of the Mpemba effect: A unified resource theory analysis [0.0] ムペンバ効果(英語: Mpemba effect)は、温水系が冷たいものよりも速く冷却する反直感的な熱力学現象である。
異常緩和行動の駆動における古典的および量子的相関の役割について検討する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:10:12 GMT)
The geometry of BERT [0.0] 変換器からの双方向表現(BERT)は、分類、テキスト要約、質問応答など、様々なタスクで顕著なパフォーマンスを示している。
本稿では,BERTの内部機構を理論的観点から考察する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:03:12 GMT)
The Role of AI, Blockchain, Cloud, and Data (ABCD) in Enhancing Learning Assessments of College Students [0.0] 本研究では,ABCD技術が高等教育における学習評価を改善する方法を検討する。
目的は、学生が物事をどのように認識し、行動計画し、ABCD技術が個人の学習、学術的完全性、共同学習、評価に対する信頼にどのように影響するかを研究することである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:11:44 GMT)
The Quantum Ratio [0.0] 量子比の概念は、質量の中心が量子力学的に、または古典的に量子的に振舞う場合、単純だが普遍的な基準を見つける努力から生まれた。
この比は、純状態CM波動関数の空間拡張である量子ゆらぎ範囲と、物体の線形サイズとの比として定義される。
量子比の導入による重要な概念は、素粒子(電子と光子)が量子力学的であるということである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:15:36 GMT)
The Eigenstate Thermalization Hypothesis in a Quantum Point Contact Geometry [0.0] 自由フェルミオン系に現れる長距離量子絡み合いは、小さなサブ系を「熱化」するのに十分であることが知られている。
少数の量子点接触によって接続されたサブシステムの絡み合いエントロピーは、サブシステムの線形サイズとして、サブエクステンシブであることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:05:16 GMT)
Tensor-network toolbox for probing dynamics of non-Abelian gauge theories [0.0] ループストリング-ハドロンの定式化を用いたSU(2)格子ゲージ理論のための行列積-積-状態アンサッツを開発・ベンチマークする。
SU(2) と SU(3) のゲージ群、周期的および開境界条件、および 1+1 以上の次元に適用できる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:11:23 GMT)
Temporal Coarse Graining for Classical Stochastic Noise in Quantum Systems [0.0] 本稿では,時間的粗粒化を行うハミルトン古典雑音のシミュレーション手法を提案する。
雑音がオルンシュタイン-ウレンベック過程の和として表現できる場合に焦点を当てる。
オルンシュタイン-ウレンベック過程では、決定論的成分は粗い実現へのすべての依存を捉えている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:09:18 GMT)
TEMPO: A Python Package for Time Evolution of Pulse Sequences in QuTiP [0.0] TEMPOはPythonのパルスシーケンスのアクセス可能で効率的なシミュレーションを提供する。
パルスシーケンス構造を簡単に定義できる。
これは、幅広い研究応用に直ちに関係している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:10:51 GMT)
TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement [0.0] スロートマイクは、そのノイズ抑制特性を解決し、音声を録音する際のノイズを低減する。
音波が皮膚や組織を通過すると、高周波情報が減衰し、音声の明瞭度が低下する。
近年の深層学習アプローチでは喉頭マイクロホン記録の強化が期待されているが,標準化されたデータセットの欠如によりさらなる進歩が制限されている。
喉頭と音響のペア音声データセット (TAPS) を導入し, 喉頭と音響マイクロホンを用いた60人の韓国語話者からのペア音声の収集を行った。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:29:11 GMT)
Structure, Positivity and Classical Simulability of Kirkwood-Dirac Distributions [0.0] カークウッド・ディラック準確率分布の進化について検討した。
互いに偏りのない基底上で定義された分布における純KD正の状態の境界を同定する。
フーリエ基底の四重項上のKD分布の離散フーリエ変換は自己相似性制約に従うことを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:20:10 GMT)
Stochastic Schrödinger equation for homodyne measurements of strongly correlated systems [0.0] 強く相互作用する原子系のホモダイン測定記録を記述するシュリンガー方程式を導出する。
次に、適切な極限におけるこの設定の導出方程式は、ガウス量子連続測定を行いながら得られるものと同じであることを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:26:39 GMT)
Speeding up Quantum Annealing with Engineered Dephasing [0.0] 提案手法により, 制御量子力学の断熱性を高めることができることを示す。
本稿では,プロトコルの実験的実現可能性について論じ,忠実性と実装性の間のトレードオフについて考察する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:32:12 GMT)
SpeechT: Findings of the First Mentorship in Speech Translation [0.0] 本研究は、音声翻訳における最初のメンターシップの詳細と発見について述べる(SpeechT)。
メンターシップの要件を満たすため、参加者はデータ準備、モデリング、高度な研究を含む重要な活動に従事した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:18:39 GMT)
Southern Newswire Corpus: A Large-Scale Dataset of Mid-Century Wire Articles Beyond the Front Page [0.0] 1960-1975年のアメリカ南部新聞から、新しい大規模なワイヤー記事のデータセットを紹介します。
フロントページのコンテンツに焦点を当てた以前の作業とは異なり、このデータセットは新聞全体の記事をキャプチャし、中世紀の南部に関する広範な洞察を提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:57:47 GMT)
Soft Robotics for Search and Rescue: Advancements, Challenges, and Future Directions [0.0] 本稿では,SAR(Search and Rescue)応用に適したソフトロボティクス技術の進歩を批判的に考察する。
バイオインスパイアされたデザイン、フレキシブルな材料、高度な移動機構を活用することで、ソフトロボットは災害シナリオにおける異常なポテンシャルを実証する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:24:18 GMT)
SmartLLM: Smart Contract Auditing using Custom Generative AI [0.0] 本稿では,LLaMA 3.1モデルにレトリーバル拡張生成(RAG)を応用した新しいアプローチであるSmartLLMを紹介する。
ERC標準からドメイン固有の知識を統合することで、SmartLLMはMythrilやSlitherのような静的解析ツールよりも優れたパフォーマンスを実現している。
実験の結果、100%の完全なリコールと70%の精度スコアが示され、脆弱性の特定におけるモデルの堅牢性を強調した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 06:22:05 GMT)
Single and Multi-Objective Optimization Benchmark Problems Focusing on Human-Powered Aircraft Design [0.0] 単目的・多目的最適化のための人力航空機の設計に焦点を当てたベンチマークテストスイートを提案する。
3つの難易度に60の問題があり、複雑さと寸法をスケールするための翼分割パラメータがある。
数値実験は、適度な多目的性の存在を示し、多目的問題は様々な正面形状を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:53:15 GMT)
Simulating Hawking radiation in quantum many-body systems: deviations from the thermal spectrum [0.0] 最近提案された2次元曲面時空と量子多体系の量子場理論の1対1対応について検討する。
熱スペクトルからの偏差は、よく知られたトンネル法によって予測されるように、多体シミュレーションで観察できることが示されている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:29:23 GMT)
Secure Software/Hardware Hybrid In-Field Testing for System-on-Chip [0.0] Modern Systems-on-Chips (SoCs) は組み込みセルフテスト (BIST) モジュールをデバイスの知的財産権 (IP) ブロックに深く組み込んでいる。
BISTの結果は、テスト中のデバイスの内部構造と状態を明らかにし、そのため攻撃ベクトルを開放する可能性がある。
いわゆる結果のコンパクト化は、BISTチェーン構造を隠すことでこの脆弱性を克服できるが、エイリアス化や無効なシグネチャの問題を提起する。
上述した制限を克服する、低オーバーヘッドのソフトウェア/ハードウェアハイブリッドアプローチを導入します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:20:15 GMT)
SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering? [0.0] SWE-LancerはUpworkの1,400以上のフリーランスソフトウェアエンジニアリングタスクのベンチマークである。
独立したタスクは、経験豊富なソフトウェアエンジニアによって三度検証されたエンドツーエンドのテストによって評価される。
モデル性能を評価し、フロンティアモデルが依然としてほとんどのタスクを解決できないことを発見した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:41:16 GMT)
Robust Partial-Label Learning by Leveraging Class Activation Values [0.0] 例えば、人間のアノテータは同じインスタンスに競合するクラスラベルを割り当てる。
本稿では、ニューラルネットワークのクラスアクティベーション値の大きさを利用して、不確かさを明確に表現する主観論理に基づく新しい手法を提案する。
提案手法は,高騒音下での予測性能において,より堅牢な予測を行うことを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 12:30:05 GMT)
Rigorous Test for Quantum Integrability and Nonintegrability [0.0] 有限範囲相互作用を持つ量子スピン系の可積分性と非可積分性に関する厳密な証明可能な試験を導入する。
本手法は,非可積分性研究における従来の工芸方法を超えて,新たなパラダイムを確立するものである。
これは、可積分性は小さな支持を持つ局所保存量の有無によって支配されるという長年の予想を部分的に解決する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:28:57 GMT)
Ricci flow-guided autoencoders in learning time-dependent dynamics [0.0] 本稿では、時間、特に偏微分方程式(PDE)を学習するための多様体ベースのオートエンコーダ法を提案する。
これは、潜在多様体のステージをパラメタライズし、その後、物理学的インフォームド・セッティングでリッチフローをシミュレートすることで達成できる。
本稿では,各PDEデータに対して,分布外データの学習や対角的ロバスト性などの特質をRicciフローが促進することを示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:05:44 GMT)
Reduction of Magnetic-Field-Induced Shift in Quantum Frequency Standards Based on Coherent Population Trapping [0.0] マイクロ波量子周波数標準(原子時計)におけるクロック「0-0」遷移の磁場誘起周波数シフト(MFS)について,コヒーレント集団トラップ(CPT)を8,7$Rb蒸気で観測した。
Pound-Drever-Hall 法を用いることで、MFS のクロック遷移への影響を$approx,$3.2$$$,times,$10-13$delta B2$mG$-2$に抑えることができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:21:23 GMT)
Qubit-Based Framework for Quantum Machine Learning: Bridging Classical Data and Quantum Algorithms [0.0] 本稿では、量子コンピューティングのエキサイティングで急速に成長する分野について述べる。
それは、その中核となるアイデア、現在の進歩、そして、複雑な問題を解決する方法にどのように革命をもたらすかを説明します。
この記事では、量子コンピューティングの強みが人工知能の世界と合致する量子機械学習(QML)に焦点を当てる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:04:04 GMT)
Quantum geometric tensor and wavepacket dynamics in two-dimensional non-Hermitian systems [0.0] 非ハーミティティーがQGTの定義にどのように影響するかを明らかにするために、2バンド非エルミティアン系におけるウェーブ・パケットのダイナミクスについて検討する。
この結果から, 右固有状態のみを用いて定義されたQGTと左固有状態と右固有状態の両方を用いて定義されたQGTの2つの異なる一般化が, 波束力学において重要な役割を担っていることが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 04:46:06 GMT)
Quantum decision trees with information entropy [0.0] 本稿では,決定木法に着想を得た量子状態の分類アルゴリズムを提案する。
未知の量子状態で撮影された各測定値に対して、アルゴリズムは最も期待される情報ゲインで観測可能なものを選択し、収束するまで続く。
回路ベースの量子ニューラルネットワークには依存していないが、このアルゴリズムはいまだに不毛の高原問題に似た課題に直面している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:51:40 GMT)
Pseudospectral method for solving PDEs using Matrix Product States [0.0] 本研究では,行列積状態(MPS)を用いた時間依存偏微分方程式(PDE)の解くことに焦点を当てる。
本稿では,Hermite Distributed Approximating Functions(HDAF)をMPSに拡張する手法を提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:46:07 GMT)
Prompt Stability Scoring for Text Annotation with Large Language Models [0.0] 研究者たちは、テキストアノテーションに言語モデル(LM)をますます利用している。
これらのアプローチは、一連の命令に従って与えられた出力を返すようモデルに指示するプロンプトにのみ依存する。
LM出力の診断は、にもかかわらず、プロンプト設計の小さな変更に対して脆弱である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:05:40 GMT)
Practicality of training a quantum-classical machine in the NISQ era [0.0] 本研究では、イオントラッププラットフォーム上で、教師付きトレーニングプロトコルを用いた実実験量子古典ハイブリッドシステムの訓練限界について検討する。
イオントラップを結合した古典的プロセッサに関連する課題に対処し、NISQデバイスのノイズチャネルをナビゲートする古典的手法として、遺伝的アルゴリズムの$robustness$が強調される。
これらの知見は、量子古典ハイブリッドシステムの性能に関する洞察に寄与し、実用的な量子機械学習アプリケーションにおける効率的なトレーニング戦略とハードウェア考慮の重要性を強調している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:47:09 GMT)
Physics-Informed Gaussian Process Classification for Constraint-Aware Alloy Design [0.0] 物理インフォームドな事前平均関数を用いて、実現可能な設計空間の境界をモデル化する。
3つのケーススタディにおいて、連続的および分類的特性の制約を扱うための情報的先行性の有用性を強調した。
いずれの場合も、分類フレームワークに物理に基づく洞察を統合することにより、モデルの性能が大幅に向上した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:33:07 GMT)
Per-channel autoregressive linear prediction padding in tiled CNN processing of 2D spatial data [0.0] 自己回帰線形モデルは、最小二乗の意味での雑音項を最小化することにより、パッド入力に適合する。
我々は,衛星画像データを用いて,畳み込みRVSR超解像モデルをスクラッチから訓練した。
線形予測パディングは、ゼロと複製パディングと比較して平均2乗超解誤差をわずかに低減し、時間コストは適度に増加した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:21:33 GMT)
On the robustness of ChatGPT in teaching Korean Mathematics [0.0] ChatGPTは66.72%の精度で、586問中391問を正確に答えている。
以上の結果から,ChatGPTの評価は教育理論やテストテッカーの視点と一致していることがわかった。
今後の研究は言語バイアスに対処し、多言語にわたって精度を高めるべきである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:31:27 GMT)
On the Logic Elements Associated with Round-Off Errors and Gaussian Blur in Image Registration: A Simple Case of Commingling [0.0] 空間的に制限された1次元定数関数の超解像と離散像の登録について検討する。
ぼかしの少ない体制に焦点をあて、ぼかし、サンプリング、量子化の操作は、コンピュータプログラムの操作と似ていないことを示唆する。
我々は、信号振幅の正しい回復をもたらすことが多い同じ信号の2組のサンプルを推論する方法を述べる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:33:33 GMT)
On the Learnability of Knot Invariants: Representation, Predictability, and Neural Similarity [0.0] 異なる結び目表現が不変量の予測に与える影響について検討し、編み目表現が一般に最も有効であることを示す。
第二に、結び目不変量(knot invariants)は、双曲幾何学や結び目図形(knot diagrams)から派生した不変量(invariants)を学習しやすくする。
第3に,勾配分布ベクトルに基づくコサイン類似度スコアと,関連するトポロジ的不変量を予測するために訓練されたニューラルネットワークの類似度を明らかにするための共同誤分類スコアを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:00:02 GMT)
Observable and computable entanglement in time [0.0] 本稿では,時間分割サブシステムのための新しい絡み合い対策のファミリーを提案する。
相対論的場の量子論において、我々の定義は空間のような領域から時間のような分離領域への解析的連続性と一致する。
我々は,イジングスピン鎖,自由フェルミオン,(1+1)次元共形場理論,ホログラフィック理論の明示的な計算を行う。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:00:01 GMT)
OCT Data is All You Need: How Vision Transformers with and without Pre-training Benefit Imaging [0.0] 我々は,イメージネットを用いた事前学習がOCT画像分類における視覚変換器(ViT)の性能に与える影響について検討した。
結果として、事前トレーニングは収束を加速し、より小さなデータセットでより良いパフォーマンスを提供する可能性があるが、十分なOCTデータが利用可能であれば、スクラッチからのトレーニングは同等またはそれ以上の精度を達成する可能性があることが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:31:57 GMT)
Nonlinearity of transparent SNS weak links decreases sharply with length [0.0] 弱リンクの有限長は、その零長極限と比較して非線形性を強く抑制することを示す。
我々は、非相互作用ジョセフソン接合に対して、非調和性はゼロと最大負の値の間に有界であると予想する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:56:36 GMT)
Neural Chaos: A Spectral Stochastic Neural Operator [0.0] PCE(Polynomial Chaos Expansion)は、侵入的および非侵入的両方の方法で様々なソリューションを構築するためのTo-goメソッドとして広く認識されている。
ニューラルネットワーク(NN)基底関数を純粋にデータ駆動方式で同定するアルゴリズムを提案する。
提案手法の有効性をいくつかの数値例で示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:30:46 GMT)
Model-free system identification of surface ships in waves via Hankel dynamic mode decomposition with control [0.0] 本研究は,ハンケル動的モード分解と制御(ハンケル-DMDc)を紹介し,比較する。
提案手法は,システム状態と入射波の上昇履歴から得られた限られたデータを用いて,低次モデルを生成する。
その結果,提案手法は解析の力学系を効果的に同定できることが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:11:14 GMT)
Merging Language and Domain Specific Models: The Impact on Technical Vocabulary Acquisition [0.0] 汎用言語特化モデルとドメイン特化モデルを組み合わせた場合の知識伝達機構について検討する。
本実験は, この統合プロセスが, 専門用語処理における対象モデルの習熟度に及ぼす影響を解析した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:39:28 GMT)
Materials and spin characteristics of amino-terminated nanodiamonds embedded with nitrogen-vacancy color centers [0.0] 蛍光ナノダイヤモンド(FND)の適切な機能化は、化学および生物学的プロセスにおけるプローブとしての利用に必要である。
FNDの表面を変更することは、キュービットセンサーの特性に影響を与える可能性がある。
組込み窒素空洞(NV)カラーセンターの基本特性をFNDサイズと表面終端の関数として検討した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:17:32 GMT)
Many-body theory and Gaussian-basis implementation of positron annihilation $γ$-ray spectra on polyatomic molecules [0.0] 分子上の陽電子消滅のためのドップラーブロードした$gamma$-rayスペクトルを多体理論を用いて計算した。
陽電子-分子結合状態からの消滅については、個々の分子軌道からの$gamma$スペクトルへの部分的な寄与の大きさは、軌道エネルギーだけでなく分子対称性にも依存する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:58:31 GMT)
Locally-Deployed Chain-of-Thought (CoT) Reasoning Model in Chemical Engineering: Starting from 30 Experimental Data [0.0] 本稿では,化学工学におけるChain-of-Thought(CoT)推論モデルの適用について検討する。
2つのCoT構築手法、Large Language Model-Chain of Thought (LLM-CoT)とMachine Learning-Large Language Model-Chain of Thought (ML-LLM-CoT)について検討した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:43:48 GMT)
Learning in a Multifield Coherent Ising Machine [0.0] システムのハミルトニアンにおける学習規則を符号化する自己学習のための物理モデルを導入する。
本稿では,長期メモリIsingマシンと短期メモリ補助フィールドとの適切な非線形相互作用の存在下で,実例から自律的に学習できることを数値的に示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:54:54 GMT)
Language Writ Large: LLMs, ChatGPT, Grounding, Meaning and Understanding [0.0] 私は、ChatGPTが予想よりずっと良いことをしてくれるかもしれない良心的な偏見について、いくつかの悩みを提起します。
これらのバイアスはLLMスケールで言語自体の性質に固有のものであり、ChatGPTが欠如していることと密接に関連している。
これらの収束バイアスは、(1)直接感触的接地に基づく間接的言語接地(indirect verbal grounding)の寄生、(2)言語定義の円形性、(3)言語生成と理解のミラー化、(4)LLMスケールでの命題における象徴性、(5)ニューラルネットによるカテゴリー学習における人間のカテゴリー認識の計算的相違、および(6)a)
論文参考訳(メタデータ) (Mon, 17 Feb 2025 11:09:58 GMT)
Interpretable Machine Learning for Kronecker Coefficients [0.0] 解釈可能な機械学習モデルを用いて、対称群のクロネッカー係数がゼロかどうかを予測する。
我々は,約83%の精度を達成し,b-loading の観点から決定関数の明示的な式を導出する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:07:37 GMT)
Interplay of Quantum Coherence and Nonequilibrium Quantum Transport: An Exact Density Matrix Formulation in the Heisenberg Framework [0.0] フェルミオン貯水池と相互作用する量子二重ドット(QDD)系における量子コヒーレンス、量子相関、非平衡量子輸送のギャップを橋渡しする。
フェルミオン貯水池に直列結合したQDD系における量子コヒーレンスと輸送電流の接続を確立する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:27:14 GMT)
Interaction-driven losses for atoms in a dark-state lattice [0.0] フェルミの黄金律を用いて、損失率はレーザーの全体的な強度に影響されることが分かる。
全体として、予測される損失率は低く、暗黒状態ポテンシャルの構築に超低温ボソンを使用することができる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:42:01 GMT)
Increasing the distance of topological codes with time vortex defects [0.0] 時間渦という時空欠陥を組み込んだ量子誤り訂正符号の修正を提案する。
コードを定義する周期的な測定シーケンスに空間的に異なる遅延を加えることにより、時間渦を挿入する。
最小のVortexコード($30$ qubits)は、Vortexフリーコードを42$ qubitsで上回っていることを実証する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:00:01 GMT)
Impact of Annealing and Nanostructuring on Properties of NV Centers Created by Different Techniques [0.0] ダイヤモンド中の窒素空孔中心は、量子技術における様々な応用のための研究の中心である。
イオン注入および化学蒸着デルタドーピングにより生成するNVの光学特性とスピン特性の比較研究を行った。
ナノピラーは電子ビームリソグラフィーと反応性イオンエッチングで製造され、光子収集効率が向上する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:46:36 GMT)
IMPACTX: Improving Model Performance by Appropriately predicting CorrecT eXplanations [0.0] IMPACTXは、完全に自動化された注意機構としてXAIを活用する新しいアプローチである。
外部XAIメソッドに頼ることなく、モデルの判断に適切な機能属性マップを提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:15:20 GMT)
Hybrid Machine Learning Models for Intrusion Detection in IoT: Leveraging a Real-World IoT Dataset [0.0] これらの脅威を緩和するためには、侵入検知システム(IDS)が不可欠である。
機械学習(ML)の最近の進歩は、改善のための有望な道を提供する。
本研究は、いくつかのスタンドアロンMLモデルを組み合わせたハイブリッドアプローチを探求する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:41:10 GMT)
Human-LLM Coevolution: Evidence from Academic Writing [0.0] We report a marked drop in the frequency of several words before previously identifieded by ChatGPT, such as "delve"。
ChatGPTで好まれる「重要な」単語の頻度は増加し続けている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:48:26 GMT)
High-Harmonic Generation in a Crystal Driven by Quantum Light [0.0] 量子光駆動結晶中のバンド内高調波発生(HHG)について検討した。
駆動場の量子光学特性が高調波スペクトルに及ぼす影響について検討する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:48:14 GMT)
Healthcare cost prediction for heterogeneous patient profiles using deep learning models with administrative claims data [0.0] 本研究は,技術システムと人文主義的成果との相互作用を強調する社会技術的考察を基礎にしている。
本稿では,ACデータを別のチャネルに分割することで,データの均一性を緩和するチャネルワイドディープラーニングフレームワークを提案する。
提案されたチャネルワイドモデルは、単一チャネルモデルと比較して予測誤差を23%削減し、16.4%と19.3%の過払いと低給の削減につながった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:20:41 GMT)
GLoT: A Novel Gated-Logarithmic Transformer for Efficient Sign Language Translation [0.0] 本稿では,Gated-Logarithmic Transformer (GLoT) を提案する。
我々の結果は、GLoTがすべてのメトリクスで他のモデルより一貫して優れています。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:31:00 GMT)
FOCUS on Contamination: A Geospatial Deep Learning Framework with a Noise-Aware Loss for Surface Water PFAS Prediction [0.0] FOCUSは,大規模水域におけるPFAS汚染を予測するためのラベル付きノイズ認識損失関数を備えた深層学習フレームワークである。
我々は、予測精度を向上させるために、水文フローデータ、土地被覆情報、および既知のPFASソースに近いものを統合する。
結果は、スケーラブルなPFASモニタリングのためのフレームワークの可能性を強調します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:57:10 GMT)
Extracting the topological spins from bulk multipartite entanglement [0.0] 任意の$r geq 2$に対して、不変量 $sum_a d_a2theta_ar$ を抽出するバルク多部エンタングルメント測度について述べる。
これらの不変量は、波動関数の2r$レプリカ間の置換作用素の期待値として得られる。
提案手法は,従来の絡み合い対策以上の情報を収集し,位相位相を識別するための改良されたツールを提供する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:02:19 GMT)
Exploring Quantum Control Landscape and Solution Space Complexity through Dimensionality Reduction & Optimization Algorithms [0.0] 様々な制御戦略を用いて、単一2レベル量子システム(量子ビット)の量子制御ランドスケープ(QCL)を解析する。
その結果,PCAのような次元減少技術は,高次元における量子制御の複雑な性質を理解する上で重要な役割を担っていることが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 15:26:15 GMT)
Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions [0.0] 本稿では,スペイン語の自動連続唇読解法における顕著な進歩について述べる。
異なる性質の2つのコーパスで実験を行い、最先端の結果を得た。
厳密な誤り解析を行い、自動システムの学習に影響を与える様々な要因について検討した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:44:05 GMT)
Error analysis of quantum operators written as a linear combination of permutations [0.0] 我々は、置換の線形結合として与えられる行列を考慮し、固有値の摂動に対するビットと位相の反転の影響を分析する。
線形結合の係数が正のとき、得られた行列の固有値が量子ビットフリップ誤差に耐性があることを観察する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:45:12 GMT)
Energy spectrum of the long-range Lennard-Jones potential [0.0] V(r;alpha,beta,n)=-alpha/r2+beta/rn$ with $n>2$。
この結果は、偏光分子の物理学、複合高分子の物理学、およびボゾン粒子の量子相互作用を記述する物理モデルにおいて実際に重要である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:15:56 GMT)
Driven transitions between megastable quantized orbits [0.0] 量子化された準円軌道の巨大安定スペクトルの準線形振幅が増加することを示す。
我々はこの効果を位相空間の異なる極限周期の盆地に基づいて合理化する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 18:20:11 GMT)
Distributional autoencoders know the score [0.0] エンコーダのレベルセットは、データ分布のスコアに対して正確に向き付けされていることを示す。
スコア自体が物理的意味を持つ設定では,科学的に重要な量を回収できることを示す。
スコアを学習しているという事実は、生成モデルとして期待できることを意味します。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 09:16:25 GMT)
DiffuRNN: Harnessing Diffusion Processes for Global Interactions [0.0] 逐次データ処理を統一拡散プロセスとして再解釈する新しいアーキテクチャであるDiffuRNNを提案する。
本モデルでは,適応拡散モジュールと局所的な非線形更新と拡散に着想を得た注意機構を統合した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:40:27 GMT)
Development of a bipolar 50 V output digital-to-analog converter system for ion-shuttling operations [0.0] フィールドプログラマブルゲートアレイ (FPGA) を用いたデジタルアナログ変換器 (DAC) システムを開発した。
16チャンネルのアナログ出力、最大更新レートは毎秒16メガ更新(MUPS)、スルーレートは20V/us、帯域幅は200kHzである。
我々は,このDACシステムは,出力範囲が+/-10 Vに制限された場合,2倍以上の世俗周波数を達成可能であることを実験的に確認した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 08:23:35 GMT)
Deep Neural Networks for Accurate Depth Estimation with Latent Space Features [0.0] 本研究では,深部畳み込みニューラルネットワークにおける潜時空間特徴を利用した新しい深度推定フレームワークを提案する。
提案モデルでは,2つのエンコーダ・デコーダアーキテクチャを特徴とし,色から深度への変換と深度への変換が可能である。
フレームワークはNYU Depth V2データセットを使用して徹底的にテストされている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 13:11:35 GMT)
Deep Learning and Hybrid Approaches for Dynamic Scene Analysis, Object Detection and Motion Tracking [0.0] 本研究の目的は,活動の検出に基づいて映像を小さなクリップに分割する,堅牢な映像監視システムを開発することである。
例えば、CCTVの映像を使って、人や泥棒の外観のような主要なイベントのみを記録し、ストレージを最適化し、デジタル検索がより簡単になる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:54:20 GMT)
Compress image to patches for Vision Transformer [0.0] 本稿では、CI2P-ViTというCNNとVision Transformerに基づくハイブリッドモデルを提案する。
このモデルにはCI2Pと呼ばれるモジュールが組み込まれており、CompressAIエンコーダを使って画像を圧縮し、一連の畳み込みを通じてパッチのシーケンスを生成する。
アニマルズ-10データセットの地上訓練で、CI2P-ViTは92.37%の精度を達成し、ViT-B/16ベースラインよりも3.3%改善した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:35:28 GMT)
Classifiers of Data Sharing Statements in Clinical Trial Records [0.0] 臨床試験から利用可能なデジタル個人データ(IPD)を識別するには,大規模データベースにおけるテキストデータ共有ステートメント(DSS)の解釈が必要である。
近年の計算言語学の進歩には、効果的な分類器の実装を簡素化することを約束する事前訓練された言語モデルが含まれる。
ClinicalTrials.govの5000のテキストDSSのサブセットで、ドメイン固有の事前学習言語モデルに基づく分類器が、元のアベイラビリティーカテゴリをいかにうまく再現するかを評価する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 22:56:56 GMT)
Classification of Operational Records in Aviation Using Deep Learning Approaches [0.0] 本研究では,商業・軍事・民間の分類課題におけるDP(深層学習)の4つのモデルの性能評価を行った。
モデルのうち、BLSTMは72%の最高精度を達成し、安定性とバランスの取れた分類において優れた性能を示した。
CNNとsRNNは67%と69%の低い精度を示し、プライベートクラスでは大きな誤分類があった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:49:58 GMT)
Circuit Partitioning and Full Circuit Execution: A Comparative Study of GPU-Based Quantum Circuit Simulation [0.0] 大規模な量子回路の実行は、現在利用可能なNISQ(ノイズの中規模量子)デバイスでは不可能である。
本研究では,分散メモリを用いた回路分割と全回路実行の2つのシミュレーション手法の比較解析を行った。
その結果,単一ノード上でのシミュレーションにおいて,全回路実行は回路分割よりも高速であることが示唆された。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 03:04:43 GMT)
Certification of quantum correlations and DIQKD at arbitrary distances through routed Bell tests [0.0] 本稿では,最近提案されたルート付きベル実験のコンセプトについて検討する。
ルーティングされたベル試験は、絡み合った量子ビットのみを用いて、チャネルを遠方のデバイスに任意の損失を与える量子相関を証明できることを証明した。
本稿では,任意の距離で操作可能なDIQKDプロトコルを提案する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:00:01 GMT)
BoxMAC -- A Boxing Dataset for Multi-label Action Classification [0.0] BoxMACは15のプロボクサーと13のアクションラベルを備えた現実世界のボクシングデータセットである。
本稿では,画像とビデオの両方において,複数の動作を共同認識するための新しいアーキテクチャを提案する。
BoxMACはスポーツとしてのボクシングの発展のための貴重な資源として機能する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:01:36 GMT)
Benchmarking Hebbian learning rules for associative memory [0.0] 連想記憶は認知と計算の脳科学における重要な概念である。
ストレージ容量とプロトタイプ抽出に関する6つの異なる学習ルールをベンチマークする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 23:41:50 GMT)
Attention-Based Reconstruction of Full-Field Tsunami Waves from Sparse Tsunameter Networks [0.0] 本研究では,津波予報の文脈において,スパースセンシングタスクを行うための,センセイバーとして知られる注目型ニューラルネットワークアーキテクチャの可能性について検討する。
我々はこのモデルを用いて、トレーニングセットにエピセンタが含まれていない、信じられないほどスパースな観測から高分解能津波を発生させた。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 01:11:23 GMT)
Asymmetry Amplification by a Nonadiabatic Passage through a Critical Point [0.0] 我々は、Painleve'-2方程式のハミルトン力学を、多くの自由度を持つケースに一般化する。
この進化は最終的に、ハミルトニアンの対称性の破れパラメータがどれほど弱いとしても、高度に非対称状態をもたらす。
このことは、ほぼ同じ性質を持つ準粒子の生成における強い非対称性のポテンシャル機構を示唆している。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 02:17:19 GMT)
Assessing Pedagogical Readiness for Digital Innovation: A Mixed-Methods Study [0.0] 本研究は,デジタル技術を教育実践に活用するインストラクターの準備について評価する。
その結果、多くの教育者がデジタルツールの利点を認めつつも、プロフェッショナル開発や変革回避といった問題が残っていることがわかった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:29:24 GMT)
Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0] LLM生成符号の正確性のプロキシとして不確実性推定を検討する。
我々は、自然言語生成から最先端の2つの技術を適用した。
我々は,不確実性が高い場合にモデルを予測できないようにするための禁忌ポリシーを開発する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:03:01 GMT)
An ultra-compact deterministic source of maximally entangled photon pairs [0.0] 最大絡み合ったオンデマンド光子対の超コンパクト光源を提案する。
結果は、モノリシックマイクロレンズに埋め込まれた単一GaAs量子ドットと単一モードファイバーとのカップリングに基づいている。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:07:54 GMT)
Advancing the heralded photon number-state characterization by understanding the interplay of experimental imperfections [0.0] 単モード双対ビームから生成される最大3個の光子を含む有理数状態の特性を理論的に探索する。
我々は、与えられた状態 $(g(2)_h)$ に対して、光子数の忠実度、正規化された2階分解モーメント、および光子数のパリティをメリットの数値として用いる。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:20:39 GMT)
Adiabatic Gauge Potential as a Tool for Detecting Chaos in Classical Systems [0.0] 量子状態の変形をハミルトニアンの断熱変化下で記述する物体である断熱ゲージポテンシャル(AGP)について検討する。
軌道上のAGPの時間的分散は、一般的な可観測物の長時間の相関を探索する。
強いカオス状態と弱いカオス状態は,それぞれ正常な拡散と異常な拡散に対応することを示した。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:13:38 GMT)
Addressing Moral Uncertainty using Large Language Models for Ethical Decision-Making [0.0] 本稿では,タスクに依存しない倫理的レイヤを用いて,事前学習された強化学習(RL)モデルを洗練する倫理的意思決定フレームワークを提案する。
倫理的階層は、Jensen-Shannon Divergence と Dempster-Shafer Theory を用いて複数の道徳的観点から信念のスコアを集約する。
この統合学習フレームワークは、複雑な環境においてRLエージェントが道徳的不確実性をナビゲートし、様々なタスクにおいて道徳的に健全な決定を可能にする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 19:05:55 GMT)
Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation [0.0] 本研究では,大動フレームに対して映像間モデルを適用するために設計された条件付きエンコーダを提案する。
性能向上のために,デュアルブランチ特徴抽出器を統合し,クロスフレームアテンション機構を提案する。
提案手法は,他の最先端手法と比較して,Fr'teche Video Distance測定において優れた性能を示す。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:13:09 GMT)
Accelerated Gradient-based Design Optimization Via Differentiable Physics-Informed Neural Operator: A Composites Autoclave Processing Case Study [0.0] 本稿では,複雑な工学系の非線形挙動を効果的にモデル化する物理インフォームドディープONet(PIDON)アーキテクチャを提案する。
3倍の高速化を実現した航空宇宙グレード複合材料硬化プロセスの最適化における本フレームワークの有効性を実証する。
提案モデルには,高度工学およびディジタルツインシステムにおける幅広い応用のための,スケーラブルで効率的な最適化ツールとして使用される可能性がある。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 07:11:46 GMT)
Ab-Initio Approach to Many-Body Quantum Spin Dynamics [0.0] マルチレイヤ・マルチコンフィグレーション・タイム依存のHartreeフレームワークを用いて,Heisenbergモデルの多体スピンダイナミクスをシミュレートする。
解析的および正確な数値的アプローチによるベンチマークでは、ML-MCTDHは1体と2体の観測値の時間進化を正確に捉えている。
対応する絡み合い力学の挙動を解析し、量子状態の複雑さを明らかにする。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 14:21:15 GMT)
A two-dimensional 10-qubit array in germanium with robust and localised qubit control [0.0] 量子コンピュータは、高い忠実度を持つ量子ビットの体系的な操作を必要とする。
ゲルマニウムのホールでは、スピン軌道相互作用により、電気的高速かつ高忠実なクビットゲートをテクスチンシチューで結ぶことができる。
ここでは, 材料成長, デバイス製造, キュービット制御の進歩を活用して, 二次元10スピンキュービットアレイを実現する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:29:53 GMT)
A survey about perceptions of mobility to inform an agent-based simulator of subjective modal choice [0.0] これはJFSMA-JFMS 2024 "Un simulateur multi-agent de choix modal subjectif"でフランス語で公開されたデモペーパーの拡張版である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 17:25:18 GMT)
A new framework for prognostics in decentralized industries: Enhancing fairness, security, and transparency through Blockchain and Federated Learning [0.0] この章では、FLを活用して、複数のサイトをまたいだローカライズされたモデルトレーニングを可能にし、BCを利用して、ネットワーク全体の信頼性の透明性とデータの整合性を保証する。
プライバシーとセキュリティの維持、透明性と公正性の確保、分散ネットワークへの参加のインセンティブなど、重要な課題に対処する。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 20:28:40 GMT)
A Zero-Knowledge Proof for the Syndrome Decoding Problem in the Lee Metric [0.0] ベクトル間の距離は、より一般的なハミング計量ではなく、リー計量に関して測定される。
本稿の目的は、この問題のこの変種に対するゼロ知識証明を記述することである。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:35:18 GMT)
A Conceptual Framework for Integrating Awareness into Relational Quantum Dynamics (RQD) [0.0] 量子ダイナミクス(RQD)に意識を組み込む概念的枠組みを提案する。
我々は、統合情報理論(IIT)による統合情報メートル法(Phi$)のような測度で定式化された量子事象の実現としての認識を運用する。
情報交換更新の観点で、単純なオブザーバシステムを再キャストし、インタラクションがどのように認識更新をもたらすかを説明する玩具モデルが提示される。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 16:51:06 GMT)
3D Reconstruction of Shoes for Augmented Reality [0.0] 本稿では3DモデリングとAR(Augmented Reality)によるオンライン靴ショッピングを強化するモバイルベースのソリューションを提案する。
このフレームワークは2次元画像からリアルな3Dシューズモデルを生成し,平均ピーク信号雑音比(PSNR)を32。
3120枚の画像からなるカスタム・シューズ・セグメンテーション・データセットが作成され、最高性能のセグメンテーション・モデルでは、IoU(Intersection over Union)スコアが0.95である。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 05:11:30 GMT)
"I'm 73, you can't expect me to have multiple passwords": Password Management Concerns and Solutions of Irish Older Adults [0.0] 本研究の目的は,アイルランドの高齢者のパスワード管理に対する認識,実践,課題に基づいて適切なアドバイスをまとめることであった。
参加者は59歳から86歳の年齢で、アイルランドの様々な郡、田園部と都市部から来ていた。
その結果、複数のパスワードを管理することがフラストレーションの重大な原因であることが判明し、一部の参加者はそれらを保存するための新規で非公式な戦略を採用するようになった。
論文参考訳(メタデータ) (Mon, 17 Feb 2025 10:42:13 GMT)