GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation [68.7] GraphMLPは3次元ポーズ推定のためのグローバル-ローカル-グラフィック統合アーキテクチャである。
人体のグラフ構造をモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たす。
複雑な時間力学を単純な方法でモデル化するために拡張することができ、列長の計算コストは無視できる。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 10:51:34 GMT)
Apollo: A Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People [68.6] 我々は6つの最も広く話されている言語にまたがる医療用LLMの開発を目指しており、世界人口は610億人である。
この取り組みは、ApolloCorpora多言語医療データセットとXMedBenchベンチマークの作成で頂点に達した。
トレーニングコーパス、コード、モデルの重み付け、評価ベンチマークをオープンソースにします。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:48:58 GMT)
Uncertainty in Language Models: Assessment through Rank-Calibration [65.1] 言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 02:42:04 GMT)
OPUS: Occupancy Prediction Using a Sparse Set [64.6] 学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:44:22 GMT)
IW-Bench: Evaluating Large Multimodal Models for Converting Image-to-Web [62.0] 我々は、画像と対応するWebコード(IW-Bench)のベンチマークをキュレートし、調整した。
本稿では、文書オブジェクトモデル(DOM)ツリーを解析することにより、要素の完全性をテストする要素精度を提案する。
また、性能向上のために5ホップのマルチモーダル・チェーン・オブ・ソート・プロンプティングも設計しています。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:38:26 GMT)
PuzzleAvatar: Assembling 3D Avatars from Personal Albums [54.8] 我々は,OOTDアルバムから忠実な3Dアバターを生成する新しいモデルであるPuzzleAvatarを開発した。
学習したトークンを“パズルピース”として利用して,忠実でパーソナライズされた3Dアバターを組み立てます。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 19:08:50 GMT)
ESPnet-EZ: Python-only ESPnet for Easy Fine-tuning and Integration [54.5] ESPnet-EZはオープンソースの音声処理ツールキットであるESPnetの拡張である。
音声モデルの開発を迅速かつ容易に行うことを目的としている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 19:03:53 GMT)
Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection [52.7] 最先端の3Dオブジェクト検出器は、しばしば大量のラベル付きデータセットで訓練される。
近年の研究では、ラベル付きデータによる自己教師付き事前学習が、ラベル付きラベルによる検出精度を向上させることが示されている。
組合わせRGBとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ制御手法を提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 00:38:27 GMT)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.5] MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 20:24:21 GMT)
Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.8] 本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:30:59 GMT)
StyleTalk++: A Unified Framework for Controlling the Speaking Styles of Talking Heads [46.7] 既存のワンショット音声ヘッド方式では、最終ビデオで様々な話し方を生成することができない。
本稿では,参照ビデオから発話スタイルを得ることができるワンショットスタイル制御可能な話し顔生成法を提案する。
本手法は,1つのポートレート画像と1つの音声クリップから,多様な話し方で視覚的に発話するヘッドビデオを生成する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 03:49:38 GMT)
Infrared and Visible Image Fusion with Hierarchical Human Perception [45.6] 画像融合法として階層型パーセプションフュージョン(HPFusion)を導入する。
画像ペアを見る際に人間が注目する複数の質問を提案し,その回答は画像に応じてLarge Vision-Language Modelを介して生成される。
解答のテキストは融合ネットワークにエンコードされ、最適化はまた、解答された画像の人間の意味的分布を、ソース画像とよりよく似たものに導くことを目的としている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 03:47:26 GMT)
Optimal Control of Spin Qudits Subject to Decoherence Using Amplitude-and-Frequency-Constrained Pulses [45.0] 信号の最大振幅と周波数を拘束できる定式化を導入する。
得られるパルスは、シュル・オーディンガーの方程式で達成されたパルスと比較して、連続的に操作忠実度を向上する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 18:32:02 GMT)
What Is Wrong with My Model? Identifying Systematic Problems with Semantic Data Slicing [44.4] セマンティックデータスライシングをサポートするフレームワークであるSemSlicerを提案する。
SemSlicerは低コストで正確なスライスを生成し、性能の低いデータスライスを確実に識別し、実践者が体系的な問題を反映した有用なデータスライスを特定するのに役立つことを示す。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 02:15:50 GMT)
HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR [43.4] 我々は,Human-centered Interactionと4D Scene Capture法であるHiSC4Dを紹介する。
ボディマウントのIMUとヘッドマウントのLiDARを利用することで、HiSC4Dは非拘束空間における自我中心の人間の動きを捉えることができる。
4つの大きなシーン(200〜5000ドル)に8つのシーケンスを含むデータセットを提示し、正確な4次元動作の36kフレームを提供する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 15:48:40 GMT)
Multimodal Power Outage Prediction for Rapid Disaster Response and Resource Allocation [43.0] 最も影響を受けやすい 過小評価のコミュニティが インフラの整備を受けています
本稿では,夜間照明(LNT)の重症度,停電,大ハリケーン前後の位置を予測するための新しい視覚的時間的枠組みを提案する。
我々の研究は、将来の太陽光発電(PV)の展開など、エネルギーインフラの強化を緊急に必要とする場合、未表示領域に認識をもたらします。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 21:35:29 GMT)
NovAScore: A New Automated Metric for Evaluating Document Level Novelty [38.7] NovAScoreは文書レベルのノベルティを評価するための自動メトリクスである。
実験の結果,NovAScoreは人間のノベルティ判断と強く相関していることがわかった。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 01:21:56 GMT)
Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation [38.6] マルチスタイル音声生成のための音イベント強調プロンプトアダプタ
最先端のFr'echet Distanceは26.94、KL Divergenceは1.82で、Tango、AudioLDM、AudioGenを上回っている。
デモ、コード、データセットが公開されている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 09:16:38 GMT)
InfMAE: A Foundation Model in the Infrared Modality [38.2] 本稿では,赤外線モダリティの基礎モデルであるInfMAEを提案する。
Inf30と呼ばれる赤外線データセットをリリースし、自己教師付き学習のための大規模データ不足の問題に対処する。
また、赤外線画像に適した情報認識マスキング戦略を設計する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 14:58:26 GMT)
Synergistic Simulations: Multi-Agent Problem Solving with Large Language Models [36.6] 大規模言語モデル(LLM)は,マルチエージェントシステムの開発を容易にする能力の実証がますます進んでいる。
本稿では,エージェントとワールドインタラクションをひとつのシミュレーションに統合し,複数のエージェントが協調して問題解決を行う方法を提案する。
我々は,2人のルームメイトとエージェントが協調してプログラミング作業を行う物理スタジオアパートの2つのシミュレーションを実装した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 21:53:35 GMT)
Language Models "Grok" to Copy [36.5] 本稿では,先行する文脈からテキストをコピーする能力に着目し,言語モデルの事前学習のダイナミクスについて検討する。
本稿では,トランスフォーマーをベースとした言語モデルが,グルーキングと同様の模倣能力を発達させる,という新たな視点を提案する。
グラッキングとコンテキストコピーの関連性は、より効果的な言語モデルトレーニングに有用な洞察をもたらすと我々は主張する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 03:11:00 GMT)
SAM-Med3D: Towards General-purpose Segmentation Models for Volumetric Medical Images [35.8] ボリューム医療画像の汎用セグメンテーションのためのSAM-Med3Dを提案する。
SAM-Med3Dは様々な解剖学的構造と病変を正確に分類することができる。
提案手法は,医療資源を多用した汎用医療AIの開発に活用できることを実証するものである。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:30:41 GMT)
Real-world Adversarial Defense against Patch Attacks based on Diffusion Model [34.9] 本稿では,DIFfusionをベースとした新しいDeFenderフレームワークであるDIFFenderを紹介する。
我々のアプローチの核心は、AAP(Adversarial Anomaly Perception)現象の発見である。
DIFFenderは、統一拡散モデルフレームワークにパッチのローカライゼーションと復元のタスクをシームレスに統合する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 10:38:35 GMT)
Matrix Profile for Anomaly Detection on Multidimensional Time Series [34.5] マトリックスプロファイル(MP)は時系列異常検出(TSAD)に有効であることが示されている
本稿では,多次元時系列における異常検出の問題について述べる。
119個の多次元TSADデータセット上で,多次元MPを19個のベースライン法と比較した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 04:22:45 GMT)
PCKRF: Point Cloud Completion and Keypoint Refinement With Fusion Data for 6D Pose Estimation [33.2] そこで本研究では,6次元ポーズ推定のための新しいポーズ改善パイプラインであるPoint Cloud Completion and Keypoint Refinement with Fusion Data (PCKRF)を提案する。
PCKRFパイプラインは、フルフロー双方向融合ネットワークのような、既存の一般的な6Dポーズ推定手法と統合することができる。
提案手法は,初期ポーズを比較的高精度に最適化する場合に,既存手法と比較して優れた安定性を示す。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 16:16:43 GMT)
An Exploratory Study on Using Large Language Models for Mutation Testing [32.9] LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。
本稿では, LLMのユーザビリティ, 障害検出可能性, および実際のバグとの関係について, 効果的な突然変異生成における性能について検討する。
既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする、より多様な突然変異を生成する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 12:56:09 GMT)
Unveiling Entity-Level Unlearning for Large Language Models: A Comprehensive Analysis [32.5] 大規模言語モデルのアンラーニングは、セキュリティとプライバシの懸念に対処する可能性から、注目を集めている。
この研究の多くは、機密コンテンツを含む事前定義されたインスタンスの削除を対象とする、インスタンスレベルの未学習に集中している。
本稿では,対象モデルからエンティティ関連知識を完全に消去することを目的とした,エンティティレベルのアンラーニングという新しいタスクを提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:29:00 GMT)
Towards Diverse and Efficient Audio Captioning via Diffusion Models [31.1] Diffusion-based Audio Captioning (DAC) は、多種多様な効率的なオーディオキャプションに適した非自己回帰拡散モデルである。
我々のフレームワークは、キャプションにおけるその本質性と包括的文脈モデリングに起因した独特なアドバンテージを提供する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 10:23:35 GMT)
A Statistical Viewpoint on Differential Privacy: Hypothesis Testing, Representation and Blackwell's Theorem [30.4] 我々は、差分プライバシーはテクストプア統計概念とみなすことができると論じる。
我々の焦点は、差分プライバシーの定義が仮説テストの観点から正式に動機付けられることを実証することである。
この洞察は、表現定理を通じて他の微分プライバシー定義を拡張する$f$-differential privacyの定義につながる。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 23:47:22 GMT)
Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling [30.1] 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、社会的コミュニケーション、反復行動、感覚処理における課題を特徴とする神経発達状態である。
ASDにおける重要な研究領域は、治療中の子供の行動変化を評価することである。
これらの相互作用における子どもの行動を理解する基本的な側面は、自動音声理解である。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:03:08 GMT)
Autoregressive + Chain of Thought (CoT) $\simeq$ Recurrent: Recurrence's Role in Language Models and a Revist of Recurrent Transformer [30.0] 言語モデルにおける繰り返し構造が推論能力に与える影響について検討する。
線形変換器やRWKVのようなモデルにおける重要な理論的限界を同定する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 00:30:57 GMT)
Detecting Looted Archaeological Sites from Satellite Image Time Series [29.9] このデータセットは、アフガニスタンの675の遺跡で8年以上にわたって月55,480枚の画像が収集された多時期リモートセンシングデータセットである。
トレーニングサンプルの数が限られていること、クラス不均衡、弱いバイナリアノテーションが時系列のレベルでのみ利用できるため、特にデータセットネームは難しいです。
ベースラインの集合を多数評価し,基礎モデルを用いることによる実質的なメリットを概説し,単一の画像ではなく,完全な時系列を用いて提供できる追加の強化を示す。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 13:13:33 GMT)
VOMTC: Vision Objects for Millimeter and Terahertz Communications [29.7] ミリ・テラヘルツ通信(VOMTC)のための視覚オブジェクトと呼ばれる大規模視覚データセットを提案する。
VOMTCデータセットは、ベースステーション(BS)に取り付けられたカメラから得られた20,232対のRGBと奥行き画像からなる。
VOMTC訓練対象検出器を用いたビームフォーミング技術は,従来のビームフォーミング技術より優れていることを示す。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 06:18:51 GMT)
Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition [29.4] 音声-視覚音声認識は、音声とビデオの両方のモダリティを用いて人間の音声を転写することを目的としている。
本研究では,映像データ中の3つの時間的ダイナミクスを学習することにより,映像特徴の強化を図る。
LRS2 と LRS3 の AVSR ベンチマークにおいて,ノイズ優越性設定のための最先端性能を実現する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:05:22 GMT)
POINTS: Improving Your Vision-language Model with Affordable Strategies [28.6] 視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 12:41:35 GMT)
The T05 System for The VoiceMOS Challenge 2024: Transfer Learning from Deep Image Classifier to Naturalness MOS Prediction of High-Quality Synthetic Speech [28.2] 本稿では,VoiceMOS Challenge (VMC) 2024のためのシステム(T05)を提案する。
提案システムは,高品質な合成音声に対する自然度平均評価スコア(MOS)の正確な予測に焦点を当てたVMC 2024トラック1のために設計されている。
VMC 2024 Track 1では、私たちのT05システムは、評価指標16点中7点、残りの9点中2点を達成しました。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:03:18 GMT)
On-Device Language Models: A Comprehensive Review [26.8] 資源制約のあるデバイスに計算コストの高い大規模言語モデルをデプロイする際の課題について検討する。
論文は、デバイス上での言語モデル、その効率的なアーキテクチャ、および最先端の圧縮技術について考察する。
主要モバイルメーカーによるオンデバイス言語モデルのケーススタディは、実世界の応用と潜在的な利益を実証している。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 04:01:09 GMT)
Realization of cold atom gyroscope in space [26.5] 冷間原子ジャイロスコープは、中国宇宙ステーション(CSS)に設置された原子干渉計によってペイロードとして実証された。
単発では50*10-6 rad/s、平均32では17*10-6 rad/sとなる。
本研究は、宇宙空間における高精度冷間原子ジャイロスコープの開発方法を明らかにする。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:00:09 GMT)
The Midas Touch: Triggering the Capability of LLMs for RM-API Misuse Detection [26.3] ChatDetectorは、RM-API誤用検出のためのドキュメント理解を完全に自動化する。
ChatDetectorは、最先端のAPI検出器と比較して、98.21%の精度で165組のRM-APIを識別する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 09:11:18 GMT)
Generating API Parameter Security Rules with LLM for API Misuse Detection [26.3] LLMを用いたAPIソースコード解析により,APSRの自動生成のためのGPTAidという新しいフレームワークを提案する。
セキュリティクリティカルなAPIの誤用がAPSR違反によってしばしば引き起こされるという観察に基づく,実行時のフィードバックチェック手法を提案する。
GPTAidは92.3%の精度を達成し、最先端検出器の6倍のAPSRを生成する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 03:34:43 GMT)
Autonomous Goal Detection and Cessation in Reinforcement Learning: A Case Study on Source Term Estimation [25.0] 強化学習は動的環境における意思決定プロセスに革命をもたらした。
正確な環境情報がないため、明確なフィードバック信号の提供は困難である。
本研究では,タスク完了時の自律目標検出と停止のための自己フィードバック機構を開発する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 21:42:17 GMT)
Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models [22.4] 本稿では,タスク関連Q値モデルを用いて行動選択を導出する手法を提案する。
その結果,Q値モデルの性能は大幅に向上した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:32:49 GMT)
Rethinking the Influence of Source Code on Test Case Generation [22.2] 大規模言語モデル(LLM)は、コンテキストとして提供されるテスト対象のソースコードでテスト生成を支援するために広く応用されている。
テスト中のソースコードが間違っていれば、LLMはテストの生成時に誤用されるだろうか?
評価結果から, 誤りコードは, 正しい, 高いカバレッジ, バグ修正テストを生成する際に, LLMを著しく誤解させる可能性が示唆された。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 15:17:34 GMT)
A First Running Time Analysis of the Strength Pareto Evolutionary Algorithm 2 (SPEA2) [22.1] 本研究では, 強度進化アルゴリズム2 (SPEA2) の動作時間解析を行った。
具体的には、一般的に使用される3つの多目的問題、すなわち$m$OneMinMax、$m$LeadingOnesZeroes、$m$-OneZeroJumpを解決するためのSPEA2の実行時間が期待されていることを証明します。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:43:50 GMT)
Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model [22.1] 本稿では,クエストと略されるクエリ中心のデータ合成手法を提案する。
我々は、複数の長文ベンチマークデータセットにおいて、コンテキスト長128kまでの長文データセットを合成し、他のデータ合成方法よりも大幅に優れています。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 11:57:54 GMT)
AI-Driven Virtual Teacher for Enhanced Educational Efficiency: Leveraging Large Pretrain Models for Autonomous Error Analysis and Correction [21.2] 本稿では,学生用textbfErrors (VATE) を自律的に解析し,修正するための革新的 textbfVirtual textbfAI textbfTeacher システムを提案する。
このシステムは、小学校数学教育のためのSquirrel AI学習プラットフォーム上に展開され、78.3%の精度でエラー解析を行っている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 10:27:36 GMT)
Registration between Point Cloud Streams and Sequential Bounding Boxes via Gradient Descent [21.1] 本稿では,ポイントクラウドストリームを用いた逐次バウンディングボックスの登録アルゴリズムを提案する。
提案手法は,IoUの40%改善とともに極めて良好な性能を示した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:16:34 GMT)
Comparing Retrieval-Augmentation and Parameter-Efficient Fine-Tuning for Privacy-Preserving Personalization of Large Language Models [21.1] 本稿では,パーソナライズタスクにおける2つのアプローチの体系的比較を行った。
RAGに基づくパーソナライズ法とPEFTに基づくパーソナライズ法は, 平均収率14.92%と, 非パーソナライズ LLM に対する1.07%の改善が認められた。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 19:18:26 GMT)
MHAD: Multimodal Home Activity Dataset with Multi-Angle Videos and Synchronized Physiological Signals [20.1] ビデオに基づく生理学は、ビデオ記録の微妙な変化を分析して生理的信号を抽出する。
現在、受動的ホームモニタリング用に特別に設計されたデータセットは存在しない。
MHADデータセットは、40人の被験者から1,440本のビデオで構成され、実家環境の3つの角度から6つの典型的なアクティビティをキャプチャする。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:42:39 GMT)
Collaborative Automatic Modulation Classification via Deep Edge Inference for Hierarchical Cognitive Radio Networks [19.3] 階層的認知無線ネットワークでは、エッジまたはクラウドサーバは、エッジデバイスが収集したデータを変調分類に利用する。
本稿では、エッジデバイスとインテリジェントな共推論のためのエッジサーバを共同で動員するエッジ学習(EL)ベースのフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 15:49:09 GMT)
Self-Prompting Polyp Segmentation in Colonoscopy using Hybrid Yolo-SAM 2 Model [18.6] 本稿では,Segment Anything Model(SAM2)とYOLOv8モデルを統合することで,ポリプセグメンテーションの新たなアプローチを提案する。
本手法では,YOLOv8のバウンディングボックス予測を利用してSAM 2の入力プロンプトを自動生成することで,手動アノテーションの必要性を軽減している。
われわれは,5つのベンチマーク大腸内視鏡画像データセットと2つの大腸内視鏡ビデオデータセットの徹底的な試験を行い,この手法が画像分割タスクおよびビデオ分割タスクの最先端モデルを上回ることを示した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 17:11:37 GMT)
A Compressive Memory-based Retrieval Approach for Event Argument Extraction [18.5] イベントアグラメント抽出(EAE)のための圧縮メモリベース検索(CMR)機構を提案する。
提案手法は,3つの公開データセット上での最先端性能を実現する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:51:50 GMT)
Decision Theoretic Foundations for Experiments Evaluating Human Decisions [18.3] 我々は、人間のパフォーマンスの損失をバイアスの形で評価するためには、合理的なエージェントが実用性を最大化する決定を識別する必要があるという情報を参加者に提供する必要があると論じる。
実演として,AIによる意思決定に関する文献からの意思決定の評価が,これらの基準をどの程度達成したかを評価する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 17:21:51 GMT)
Combining Fine-Tuning and LLM-based Agents for Intuitive Smart Contract Auditing with Justifications [18.1] iAuditは、正当化を伴う直感的なスマートコントラクト監査のためのフレームワークである。
263の実際のスマートコントラクトの脆弱性のデータセットでは、iAuditはF1スコアが91.21%、精度が91.11%に達する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:18:14 GMT)
ETAGE: Enhanced Test Time Adaptation with Integrated Entropy and Gradient Norms for Robust Model Performance [18.1] テスト時間適応(TTA)は、トレーニング分布から逸脱した未確認のテストデータを扱うために、ディープラーニングモデルを備えている。
本稿では,エントロピー最小化と勾配ノルム,PLPDを統合した改良TTA手法ETAGEを紹介する。
提案手法は,高エントロピーと高勾配ノルムを適応から組み合わせることで,不安定を生じにくいサンプルを優先する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 01:25:52 GMT)
Turbo your multi-modal classification with contrastive learning [18.0] 本稿では,マルチモーダル理解を促進するために,$Turbo$と呼ばれる新しいコントラスト学習戦略を提案する。
具体的には、マルチモーダルデータペアは、異なる隠されたドロップアウトマスクでフォワードパスを2回送って、各モダリティに対して2つの異なる表現を得る。
これらの表現により、トレーニングのための複数のインモーダルおよびクロスモーダルのコントラスト目的が得られる。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 03:15:34 GMT)
Joint Semantic Knowledge Distillation and Masked Acoustic Modeling for Full-band Speech Restoration with Improved Intelligibility [15.5] 音声の復元は、様々な歪みのセットを考慮して、高品質で知性の高い全帯域音声を復元することを目的としている。
MaskSRは、最近提案されたこのタスクのための生成モデルである。
提案モデルであるMaskSR2は,同一のMaskSRモデルキャパシティと推定時間を用いて,単語の誤り率を大幅に低減することを示した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:09:55 GMT)
Learning Keypoints for Multi-Agent Behavior Analysis using Self-Supervision [15.3] B-KinD-multiは、事前訓練されたビデオセグメンテーションモデルを利用して、マルチエージェントシナリオにおけるキーポイント発見をガイドする新しいアプローチである。
大規模な評価では、ハエ、マウス、ラットのビデオにおけるキーポイント回帰と下流行動分類が改善された。
我々の方法は、アリ、ミツバチ、人間を含む他の種によく一般化する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 14:46:44 GMT)
ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models [15.2] 本稿では,大規模言語モデル(MLLM)におけるオブジェクト存在幻覚を評価するためのオープンセット動的プロトコルODEを紹介する。
本フレームワークでは,実単語概念間の関連をモデル化し,汎用シナリオとドメイン固有シナリオの両方に新たなサンプルを生成する。
実験の結果, MLLMはODE生成試料よりも高い幻覚率を示し, データ汚染を効果的に回避できることがわかった。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:31:29 GMT)
PeriGuru: A Peripheral Robotic Mobile App Operation Assistant based on GUI Image Understanding and Prompting with LLM [14.9] PeriGuruは、GUIイメージ理解とLarge Language Model (LLM)によるプロンプトに基づく周辺ロボットモバイルアプリ操作アシスタントである。
PeriGuruはテストタスクセットで81.94%の成功率を達成した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:54:25 GMT)
Dual Advancement of Representation Learning and Clustering for Sparse and Noisy Images [14.8] SNI(Sparse and Noisy Image)は、効果的な表現学習とクラスタリングに重要な課題を提起する。
本稿では、マスク画像モデリングから得られた表現を強化するために、DARLC(Dual Advancement of Representation Learning and Clustering)を提案する。
我々のフレームワークは、局所的な認識性、特異性、関係意味論の理解を高めることによって、表現の学習を改善する包括的なアプローチを提供する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 06:40:06 GMT)
Distributed Clustering based on Distributional Kernel [14.8] 本稿では分散クラスタリング(Distributed Clustering)と呼ばれる分散ネットワークにおける分散カーネル(K)またはKDCに基づくクラスタリングのための新しいフレームワークを提案する。
KDCは、すべてのサイトから統合されたクラスタリング結果が、すべてのサイトから統合されたデータセットから中央集権的なクラスタリング結果と等価であることを保証している。
分散クラスタリングは、既存の分散クラスタリング方法よりもはるかに優れたクラスタリング結果をもたらす。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 11:40:54 GMT)
KAN-HyperpointNet for Point Cloud Sequence-Based 3D Human Action Recognition [14.7] D-Hyperpointは、a-Hyperpointdingモジュールによって生成される新しいデータ型である。
D-Hyperpointは、局所運動とグローバル静置姿勢の両方をカプセル化し、各瞬間における単位人の行動を効果的に要約する。
また、D-Hyperpointsのネストしたグループ化に応用して情報識別を学習するD-Hyperpoint KanMixerモジュールを提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 14:11:45 GMT)
Frequency-dependent squeezing via Einstein-Podolsky-Rosen entanglement based on silicon nitride microring resonators [14.3] 周波数依存性のスクイージング技術は、光学力測定における標準量子限界を克服した。
集積フォトニクスの開発は、Kerr量子周波数コムの出現の道を開いた。
オンチップ窒化ケイ素マイクロリング共振器を用いてEPR絡み合った量子周波数コムを設計するためのプラットフォームが確立されている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 06:50:32 GMT)
LACOSTE: Exploiting stereo and temporal contexts for surgical instrument segmentation [14.2] ステレオ画像とテンポラル画像の位置情報を併用した新しいLACOSTEモデルを提案し,手術器具のセグメンテーションを改善した。
我々は3つの公開手術ビデオデータセットに対するアプローチを広範囲に検証した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:17:56 GMT)
Exploring Accessibility Trends and Challenges in Mobile App Development: A Study of Stack Overflow Questions [14.0] そこで本研究では,Stack Overflow上でのアクセシビリティに関する議論を大規模に分析し,AndroidとiOS開発者が直面するトレンドと課題を明らかにする。
この結果から,スクリーンリーダなどの補助技術の統合,アクセス可能なUI設計の確保,言語間のテキスト合成のサポート,アクセシビリティテストの実行など,いくつかの課題が明らかになった。
開発者プラクティス,研究方向,ツールサポート,教育リソースの改善を促進する上で,私たちの発見を期待する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:48:57 GMT)
One missing piece in Vision and Language: A Survey on Comics Understanding [13.8] この調査は、コミックインテリジェンスのためのタスク指向フレームワークを提案する最初のものである。
データ可用性とタスク定義における重要なギャップに対処することで、将来の研究を導くことを目的としている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 18:26:26 GMT)
PreCurious: How Innocent Pre-Trained Language Models Turn into Privacy Traps [13.5] 我々は,攻撃者が事前訓練したモデルをリリースする新たな攻撃面を明らかにするために,PreCuriousフレームワークを提案する。
PreCuriousは、メンバーシップ推論とデータ抽出の両方の一般的なプライバシーリスクを微調整データセット上でエスカレートすることを目的としている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 22:43:29 GMT)
Hybrid Attention-based Encoder-decoder Model for Efficient Language Model Adaptation [13.2] 本稿では,新しい注目型エンコーダデコーダ(HAED)音声認識モデルを提案する。
本モデルでは,アコースティックモデルと言語モデルとを分離し,従来のテキストベース言語モデル適応技術の利用を可能にする。
提案したHAEDモデルは,言語モデル適応にドメイン外テキストデータを使用する場合,相対的単語誤り率(WER)が23%向上することが実証された。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 22:31:37 GMT)
A foundation model enpowered by a multi-modal prompt engine for universal seismic geobody interpretation across surveys [13.2] 本研究では, 地震探査における地盤構造を解析するための基礎モデルを提案する。
このモデルは、事前訓練されたビジョンファウンデーションモデル(VFM)と洗練されたマルチモーダルプロンプトエンジンを統合している。
提案手法は地学データ解釈のための新しいパラダイムを確立し,他のタスクへの転送の可能性も広い。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 01:19:13 GMT)
On the limits of agency in agent-based models [13.1] エージェント・ベース・モデリング(ABM)は、環境の中で動作し相互作用するエージェントの集合をシミュレートすることで、複雑なシステムの振る舞いを理解しようとする。
大規模言語モデル(LLM)の最近の進歩は、ABMを強化する機会を与える。
我々は,AMMを数百万のエージェントに拡張するフレームワークであるAgentTorchを紹介する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 04:17:24 GMT)
Energy based diffusion generator for efficient sampling of Boltzmann distributions [11.9] エネルギーベース拡散発生器(EDG)は、変分オートエンコーダと拡散モデルからアイデアを統合する新しいアプローチである。
EDGはシミュレーションなしで、訓練中に通常の方程式や微分方程式を解く必要がなくなる。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 06:47:02 GMT)
Towards Human-Centered Construction Robotics: A Reinforcement Learning-Driven Companion Robot for Contextually Assisting Carpentry Workers [11.8] 本稿では,既存の作業における作業者の支援を目的とした「作業支援ローバー」による人間中心型アプローチを提案する。
我々は,ロボットシステムを大工のフォームワークに導入するための詳細な研究を行い,移動性,安全性,快適な作業ロボットのコラボレーションを重視したプロトタイプを紹介した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 13:58:53 GMT)
Tensor-Based Synchronization and the Low-Rankness of the Block Trifocal Tensor [11.6] 同期問題は ブロック三焦点テンソルから カメラのポーズを復元する
このランク制約は、ノイズレスケースにおけるカメラのリカバリに十分な情報を提供することを示す。
実データセット上での最先端のグローバル同期手法との比較実験により,位置推定精度を大幅に向上させるアルゴリズムの可能性を示した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:17:04 GMT)
ClarQ-LLM: A Benchmark for Models Clarifying and Requesting Information in Task-Oriented Dialog [11.6] ClarQ-LLMは、バイリンガルな英語と中国語の会話タスク、会話エージェント、評価指標からなる評価フレームワークである。
ベンチマークには31の異なるタスクタイプが含まれており、それぞれに情報検索者とプロバイダエージェント間の10のユニークな対話シナリオがある。
固定された対話コンテンツに基づいてエージェントを評価する従来のベンチマークとは異なり、ClarQ-LLMには、元のヒューマンプロバイダを複製するプロバイダ対話エージェントが含まれている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 20:55:13 GMT)
ChildPlay-Hand: A Dataset of Hand Manipulations in the Wild [11.3] ChildPlay-Handは、人とオブジェクトのバウンディングボックスと操作アクションを含む、新しいデータセットである。
操作アクションは、把握、保持、操作、および異なるタイプのリリースなど、HOIサイクルのメインステージをカバーする。
我々は,様々な時間的・分節ネットワークをベンチマークし,身体と手領域の情報を探索し,ポーズとRGBのモダリティを比較した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:35:46 GMT)
Robust Training of Neural Networks at Arbitrary Precision and Sparsity [11.2] 量子化とスパーシフィケーションに固有の不連続な操作は、バックプロパゲーションに障害をもたらす。
これは、超低精度とスパースレジームでディープニューラルネットワークをトレーニングする場合、特に困難である。
我々は、新しい、頑健で普遍的な解、すなわちデノージングアフィン変換を提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 00:57:32 GMT)
Multi-Microphone and Multi-Modal Emotion Recognition in Reverbrant Enviroment [11.1] 本稿では,難聴時の感情認識精度を高めるために,マルチモーダル感情認識(MER)システムを提案する。
提案手法は,マルチチャンネル音声処理のための階層型音声変換器(HTS-AT)とビデオ解析のためのR(2+1)D畳み込みニューラルネットワーク(CNN)モデルを組み合わせたものである。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 21:58:39 GMT)
WeatherReal: A Benchmark Based on In-Situ Observations for Evaluating Weather Models [11.0] 我々は,地球近傍の地表面観測から得られた気象予報のための新しいベンチマークデータセットであるWeatherRealを紹介する。
本稿では,データセットの基盤となる情報源と処理手法を詳述するとともに,超局地的・極端な気象観測におけるその場観測の利点について述べる。
私たちの研究は、AIベースの天気予報研究を、よりアプリケーション中心で運用対応のアプローチへと進めることを目的としています。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:53:46 GMT)
Seeing Like an AI: How LLMs Apply (and Misapply) Wikipedia Neutrality Norms [11.0] 大規模言語モデル(LLM)は広義のコーパスで訓練され、特殊な規範を持つコミュニティで使用される。
我々は,ウィキペディアのニュートラル・ポイント・オブ・ビュー(NPOV)ポリシーに従って,バイアス付きウィキペディア編集の検出と修正能力を評価する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 21:28:20 GMT)
MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving [10.7] 視覚言語モデル(VLM)は、自律運転における汎用的なエンドツーエンドモデルとして機能する。
既存のほとんどの手法は計算コストのかかるビジュアルエンコーダと大言語モデル(LLM)に依存している。
提案するFE-MoE(Feature Engineering Mixture of Experts)モジュールとDI-Adapter(Dynamic Instruction Adapter)を組み込んだMiniDriveという新しいフレームワークを提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 09:18:44 GMT)
Estimating Neural Orientation Distribution Fields on High Resolution Diffusion MRI Scans [10.6] HashEncは、配向分布関数(ODF)フィールドのグリッドハッシュに基づく推定である。
本稿では,HashEncが画像品質を10%向上すると同時に,現在の手法よりも3倍少ない計算資源を必要とすることを示す。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 09:36:23 GMT)
Protecting Copyright of Medical Pre-trained Language Models: Training-Free Backdoor Watermarking [10.5] 医療用事前学習言語モデル(Med-PLMs)のためのトレーニング不要なバックドア透かし手法を提案する。
本手法では,下流タスクのパフォーマンスに影響を与えないトリガーワードとして,稀な特殊シンボルを用いる。
提案手法は,透かしを効果的に抽出しながら高い忠実度が得られることを示す。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:08:55 GMT)
Mobile App Security Trends and Topics: An Examination of Questions From Stack Overflow [10.3] モバイルアプリのセキュリティに関する質問にはStack Overflowを使っています。
調査結果から,Stack Overflowはモバイルアプリのセキュリティ,特にAndroidアプリの支援を求める開発者にとって,主要なリソースであることが明らかになった。
この調査から得られた洞察は、リサーチとベンダーコミュニティによるツール、テクニック、リソースの開発に役立てることができる。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:43:56 GMT)
DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment [10.3] DoReMiは、計画と実行間のミスアライメントの検出とリカバリを可能にする。
パイプラインは、低レベルの実行を監視し、特定の計画実行ミスアライメントが発生した場合、タイムリなリカバリを可能にします。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 12:11:08 GMT)
Models Are Codes: Towards Measuring Malicious Code Poisoning Attacks on Pre-trained Model Hubs [10.3] 本稿では,Hugging Faceプラットフォームに着目した,事前訓練されたモデルハブに対する悪意のあるコード中毒攻撃に関する最初の系統的研究について述べる。
我々は、データセット読み込みスクリプト抽出、モデルデシリアライズ、パターンマッチングを組み合わせたHugging Face用に設計されたエンドツーエンドパイプラインであるMalHugを提案する。
MalHugは705Kモデルと176Kデータセットを監視し、91の悪意のあるモデルと9の悪意のあるデータセット読み込みスクリプトを発見した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:47:22 GMT)
Symbolic Regression with a Learned Concept Library [9.4] 本稿では,データセットを最もよく説明できる,コンパクトなプログラム仮説を探索する手法を提案する。
我々のアルゴリズムはLaSRと呼ばれ、ゼロショットクエリを大規模言語モデルに使用して概念を発見し、進化させます。
LaSRは、ディープラーニングと進化的アルゴリズムに基づいて、最先端のSRアプローチを大幅に上回っている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:17:30 GMT)
Privacy-Preserving SAM Quantization for Efficient Edge Intelligence in Healthcare [9.4] Segment Anything Model (SAM) はインテリジェントなイメージセグメンテーションに優れている。
SAMはリソース制限されたエッジデバイスにデプロイする上で大きな課題となる。
本研究では,原データなしで量子化パラメータを学習・校正する DFQ-SAM という,SAM のためのデータフリー量子化フレームワークを提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 10:43:35 GMT)
Towards Robust Detection of Open Source Software Supply Chain Poisoning Attacks in Industry Environments [9.3] 我々は,NPMおよびPyPIエコシステムのための動的コード中毒検出パイプラインOSCARを提案する。
OSCARはサンドボックス環境でパッケージを完全に実行し、エクスポートされた関数やクラスに対してファズテストを採用し、アスペクトベースの振る舞い監視を実装している。
我々は、現実世界の悪質で良質なパッケージの包括的なベンチマークデータセットを用いて、OSCARを既存の6つのツールと比較した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:01:43 GMT)
VSFormer: Mining Correlations in Flexible View Set for Multi-view 3D Shape Understanding [9.0] 本稿では,複数の視点に対するフレキシブルな組織と明示的な相関学習について検討する。
我々は,集合内のすべての要素の対関係と高次相関を明示的に捉えるために,emphVSFormerというニブルトランスフォーマーモデルを考案した。
ModelNet40、ScanObjectNN、RGBDなど、さまざまな3D認識データセットの最先端結果に到達している。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 01:48:54 GMT)
Efficient Detection of Toxic Prompts in Large Language Models [8.8] 大型言語モデル(LLM)は、有害または非倫理的な反応を誘発する有害なプロンプトを作る悪意のある個人によって利用することができる。
LLMの有害なプロンプトを効率的に検出する軽量グレーボックスであるToxicDetectorを提案する。
ToxicDetectorの精度は96.39%、偽陽性率は2.00%であり、最先端の手法よりも優れている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 02:04:15 GMT)
Quantum optical coherence theory based on Feynman's path integral [8.7] Feynmanrqsパス積分に基づく量子光コヒーレンス理論は、光コヒーレンスを研究するための新しいツールを提供する。
Feynmanrqs経路積分に基づく量子光コヒーレンス理論は光のコヒーレンス特性を理解するのに有用である。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 16:00:00 GMT)
Analyzing Correlations Between Intrinsic and Extrinsic Bias Metrics of Static Word Embeddings With Their Measuring Biases Aligned [8.7] 本研究では,自然言語処理(NLP)システムがバイアス行動を示すかどうかを予測するために,静的単語埋め込みの固有バイアス指標の有用性について検討する。
単語埋め込みは、実際のベクトルを通して単語の意味を表現する基本的なNLP技術の1つであり、問題として、ステレオタイプのような社会的バイアスも学習する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 02:13:56 GMT)
Tran-GCN: A Transformer-Enhanced Graph Convolutional Network for Person Re-Identification in Monitoring Videos [8.6] Person Re-Identification (Re-ID) はコンピュータビジョンで人気を博し、クロスカメラの歩行者認識を可能にしている。
監視ビデオにおける人物識別性能を向上させるために,トランスフォーマー強化グラフ畳み込みネットワーク(Tran-GCN)モデルを提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 09:42:48 GMT)
Hyperedge Representations with Hypergraph Wavelets: Applications to Spatial Transcriptomics [8.5] ハイパーグラフ拡散ウェーブレットを導入し,そのスペクトル特性と空間特性について述べる。
本手法をアルツハイマー病の病原性ニッチの表現に適用することにより, 空間的に解決された転写学におけるバイオメディカル発見の有用性を実証する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 15:33:37 GMT)
On the Generalizability of Foundation Models for Crop Type Mapping [8.3] 自己教師付きおよび弱教師付き学習を用いて事前訓練された基礎モデルは、強力な伝達学習能力を示している。
本研究は,農業領域におけるEOファンデーションモデルによる新しい地域への移転能力について考察する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 14:43:57 GMT)
Prevailing Research Areas for Music AI in the Era of Foundation Models [8.1] 過去数年間、生成的音楽AIアプリケーションが急増している。
音楽データセットの現状とその限界について論じる。
複数のモダリティへの拡張とアーティストのワークフローとの統合に向けて,これらの生成モデルの応用を強調した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 09:06:43 GMT)
Investigation of Hierarchical Spectral Vision Transformer Architecture for Classification of Hyperspectral Imagery [7.8] 視覚変換器の理論的正当性は、HSI分類においてCNNアーキテクチャよりも優れている。
HSI分類に適した統合階層型スペクトルビジョン変換器アーキテクチャについて検討した。
視覚変換器の独特な強さは、その網羅的なアーキテクチャに起因すると結論付けている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 00:53:13 GMT)
StressPrompt: Does Stress Impact Large Language Models and Human Performance Similarly? [7.6] 本研究では,Large Language Models (LLMs) がヒトに類似したストレス応答を示すかを検討する。
我々はストレスプロンプトと呼ばれる新しいプロンプトを開発し、様々なレベルのストレスを誘発するように設計された。
この結果は、LLMが人間と同様に、Yerkes-Dodson法則と一致して、適度なストレスの下で最適に機能することを示唆している。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:32:31 GMT)
LAMBDA: A Large Model Based Data Agent [7.2] 本稿では,LArge Model Based Data Agent (LAMBDA)を紹介する。
LAMBDAは、複雑なデータ駆動アプリケーションにおけるデータ分析の課題に対処するように設計されている。
それは、人間と人工知能をシームレスに統合することで、データ分析パラダイムを強化する可能性がある。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:03:43 GMT)
Image anomaly detection and prediction scheme based on SSA optimized ResNet50-BiGRU model [7.0] 本稿では,Residual Network(ResNet)とBidirectional Gated Recurrent Unit(BiGRU)を組み合わせたネットワークを提案する。
ビデオ画像から筋肉や骨のポーズの変化を分析して、潜在的な損傷のタイプを予測し、早期警告を提供する。
4つのデータセットで行った実験により、我々のモデルは他のモデルと比較して画像異常検出において最小の誤差を持つことが示された。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 06:09:54 GMT)
Decentralised Gradient-based Variational Inference for Multi-sensor Fusion and Tracking in Clutter [6.9] 本稿では,時間変化のある分散マルチセンサネットワーク下でのクラッタ内の複数物体の追跡作業について検討する。
提案手法は, 局所処理と近接センサのみとの通信により, 最適分散融合を実現する。
提案手法は, 追従精度の集中核融合と実証的に等価であり, 比較コストで準最適核融合技術を超え, コンセンサスに基づく多対象トラッカーよりもはるかに低い通信オーバヘッドを実現する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:59:29 GMT)
Using Synthetic Data to Mitigate Unfairness and Preserve Privacy through Single-Shot Federated Learning [6.5] 本稿では,クライアントとサーバ間で情報を渡すことなく,クライアント間の公正な予測を促進する戦略を提案する。
次に、各クライアントの合成データセットをサーバに渡します。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 21:04:11 GMT)
Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever [6.2] ColBERTの遅延相互作用評価は、クロスエンコーダに見られる共同クエリ文書の注意を近似する。
我々の新しいモデルであるJina-ColBERT-v2は、英語および多言語検索タスクで高い性能を示す。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:41:06 GMT)
GridPE: Unifying Positional Encoding in Transformers with a Grid Cell-Inspired Framework [6.2] 本稿では,フーリエ解析にインスパイアされた新しい位置符号化手法とグリッドセルに関する計算神経科学の最新知見を紹介する。
生物効率の原理に基づく空間多次元空間に対する最適グリッドスケール比を導出する。
我々の理論解析は、GridPEが任意の高次元空間における位置符号化のための統一的なフレームワークを提供することを示している。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 11:35:50 GMT)
Enhancing EEG Signal Generation through a Hybrid Approach Integrating Reinforcement Learning and Diffusion Models [6.1] 本研究では、拡散モデルと強化学習を統合することにより、脳波(EEG)信号の合成に革新的なアプローチを導入する。
提案手法は, 時間的・スペクトル的特徴の詳細な脳波信号の生成を促進させ, 合成データセットの信頼性と多様性を向上する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:22:31 GMT)
Neumann Series-based Neural Operator for Solving Inverse Medium Problem [6.0] 本研究ではニューマン級数構造をニューラルネットワークフレームワークに組み込むことにより,新しいアプローチを提案する。
実験により,提案手法は計算を高速化するだけでなく,一般化性能を大幅に向上させることが示された。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 16:54:30 GMT)
Constructive Approach to Bidirectional Causation between Qualia Structure and Language Emergence [5.9] 本稿では,言語出現と主観的経験の関連構造との双方向因果関係について考察する。
我々は、個人間の内部表現を整合させる過程を通じて、たとえば構文・意味構造のような分布意味を持つ言語が出現したかもしれないと仮定する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 11:03:12 GMT)
An Audit on the Perspectives and Challenges of Hallucinations in NLP [5.9] 我々は,大規模言語モデル (LLM) における幻覚がピアレビュー文学においてどのように特徴づけられるかを評価する。
NLPおよびAI分野の実践者171名を対象に,幻覚に関するさまざまな視点を捉えた調査を行った。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 03:14:09 GMT)
Evaluating General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks [5.9] DINOv2はオープンソースのファンデーションモデルで、1億4200万のキュレートされた自然画像に対する自己教師付き学習を事前訓練している。
本研究は放射線学におけるDINOv2の性能を総合的に評価する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 03:35:04 GMT)
Scabbard: An Exploratory Study on Hardware Aware Design Choices of Learning with Rounding-based Key Encapsulation Mechanisms [4.8] 格子ベースの暗号は、根底にある問題の幅広いバリエーションを可能にする。
本稿では,丸め問題を用いた学習に基づく鍵カプセル化機構を提案する。
その結果,Floreteはソフトウェアやハードウェアプラットフォーム上での最先端のKEMよりも高速であることがわかった。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 17:00:05 GMT)
ASR Error Correction using Large Language Models [4.8] 誤り訂正(EC)モデルは、自動音声認識(ASR)転写の精製において重要な役割を果たす。
本研究は,多種多様なシナリオにおける誤り訂正のための大規模言語モデル (LLM) の使用について検討する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 23:33:38 GMT)
Wave-U-Mamba: An End-To-End Framework For High-Quality And Efficient Speech Super Resolution [4.5] SSR(Speech Super-Resolution)は、高周波数成分の欠如を回復させることにより低分解能音声信号を強化するタスクである。
従来の手法では、通常、対数メルの特徴を再構成し、次いで波形領域で高分解能な音声を生成するボコーダが続く。
本稿では,SSRを時間領域で直接実行するWave-U-Mambaという手法を提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 06:52:00 GMT)
Multi-Agent 3D Map Reconstruction and Change Detection in Microgravity with Free-Flying Robots [4.4] 本研究は,宇宙基地のロボット保守を実現するための多エージェント協調マッピングと変更検出のためのフレームワークを提案する。
1つのエージェントは、画像のシーケンスと対応する深度情報から環境の3Dモデルを再構成するために使用される。
別のエージェントは、定期的に環境を3Dモデルに対して不整合としてスキャンするために使用される。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 14:46:11 GMT)
An empirical evaluation of using ChatGPT to summarize disputes for recommending similar labor and employment cases in Chinese [4.2] 同様の労働・雇用訴訟を推奨するハイブリッドメカニズムを提案する。
我々は、紛争をクラスタ化し、紛争間のコサイン類似性を計算し、その結果を分類タスクの特徴として利用する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 03:08:10 GMT)
ShadowNav: Autonomous Global Localization for Lunar Navigation in Darkness [4.2] 私たちはシャドウナブ(ShadowNav)を紹介します。これは、暗闇や夜間の運転に焦点を当てた、月上のグローバルなローカライゼーションのための自律的なアプローチです。
我々のアプローチでは、ルナークレーターの先端をランドマークとして使用し、検出されたクレーターと検出されたクレーターをオフボードマップ上の既知のクレーターに関連付けるために粒子フィルタリング手法を用いています。
アリゾナ州シンダーレイクスにおけるフィールドテストにおいて,Lunarシミュレーション環境とデータ収集における提案手法の有効性を実証した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 00:27:16 GMT)
Graph Expansions of Deep Neural Networks and their Universal Scaling Limits [3.8] ニューラルネットワークのスケーリング限界を得るための統一的なアプローチを提案する。
ランダム行列理論の属拡大手法を用いる。
我々はジャコビアンの極限特異値分布のモーメントの公式を求める。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 10:57:39 GMT)
Discovery of Small Ultra-short-period Planets Orbiting KG Dwarfs in Kepler Survey Using GPU Phase Folding and Deep Learning Detection System [3.8] 我々は、ケプラー測光データに、畳み込みニューラルネットワークと組み合わせた新しいGPU位相FoldingアルゴリズムであるGPFC法を用いる。
現在までに、我々は5つの新しい超短周期惑星(USP)を特定している。
Kepler-158d、Kepler-963c、Kepler-879c、Kepler-1489c、KOI-4978.02は、主星に最も近い最小の惑星である。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:18:34 GMT)
A Survey on the Robustness of Computer Vision Models against Common Corruptions [3.6] コンピュータビジョンモデルは、センサーエラーや極端な撮像環境に起因する入力画像の変化に影響を受けやすい。
これらの破損は、現実のシナリオにデプロイする際のモデルの信頼性を著しく損なう可能性がある。
本稿では,コンピュータビジョンモデルの汎用汚職に対する堅牢性を改善する手法について概観する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 21:47:21 GMT)
Efficient Fine-Tuning of Large Language Models for Automated Medical Documentation [3.6] 本研究は,医学的対話から医療報告を自動生成することを目的とした,微調整型大規模言語モデル(LLM)であるMediGenを紹介する。
オープンソース事前訓練モデルの微調整に最先端の方法論を活用することで、MediGenは臨床相互作用の転写および要約において高い精度を達成する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 06:02:17 GMT)
A Dataset of the Operating Station Heat Rate for 806 Indian Coal Plant Units using Machine Learning [3.6] インドは2070年までに純ゼロ排出量を達成することを目指しており、2030年までに再生可能発電容量500GWという野心的な目標を設定している。
石炭工場は現在、2022年のインドの発電の60%以上に貢献している。
このデータセットは、インドが再生可能エネルギー目標に向かって移行するにつれて、インドの石炭発電のエネルギー・環境政策を通知する可能性がある。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 19:12:57 GMT)
QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems [3.5] 本稿では,VQAシステムにおける様々な質問タイプの重要性と,その性能への影響について考察する。
本稿では,QTG-VQAを提案する。QTG-VQAは,質問型誘導型注意と適応学習機構を組み込んだ新しいアーキテクチャである。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:42:41 GMT)
COMFORT: A Continual Fine-Tuning Framework for Foundation Models Targeted at Consumer Healthcare [3.1] COMFORTはTransformerベースの基盤モデルとWMSベースの疾患検出のギャップを埋めることを目的としている。
本稿では,トランスフォーマーに基づく基礎モデルを生理的信号の大規模データセット上で事前学習するための新しいアプローチを提案する。
次に、低ランク適応(LoRA)とその変種など、パラメータ効率のよい各種細調整法(PEFT)を用いて、モデルを微調整し、下流の様々な疾患検出タスクに適応させる。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 22:24:52 GMT)
Computer Vision Intelligence Test Modeling and Generation: A Case Study on Smart OCR [3.1] まず、AIソフトウェアテストプロセスの重要な側面を網羅した、これまでの研究に関する包括的な文献レビューを紹介する。
次に,画像に基づくテキスト抽出AI関数を体系的に評価する3次元分類モデルを提案する。
提案したAIソフトウェアの品質テストの性能を評価するために,異なる側面をカバーするための4つの評価指標を提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 23:33:28 GMT)
A Dynamic Weighting Strategy to Mitigate Worker Node Failure in Distributed Deep Learning [3.0] 本稿では分散ディープラーニングにおける様々な最適化手法について検討する。
本稿では,障害によるトラグラーノードの問題を軽減するための動的重み付け手法を提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 00:46:51 GMT)
Quantum resource theory of coding for error correction [3.0] スーパーチャネルの量子資源理論に基づく様々な符号化モデルを記述するためのフレームワークを開発する。
コーディングをスーパーチャネルとして扱うことで、絡み合いや無支援の設定、およびそれらのローカルバージョンを含むコーディングモデルの階層を確立することができる。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 11:15:19 GMT)
A New Era in Computational Pathology: A Survey on Foundation and Vision-Language Models [2.8] ディープラーニングの最近の進歩は、計算病理学(CPath)の領域を変えている。
ファンデーションモデル(FM)とビジョン言語モデル(VLM)は、病理学者の評価と意思決定プロセスに統合されている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 23:27:14 GMT)
Linear quantum systems: poles, zeros, invertibility and sensitivity [2.8] 量子力学の非可換性は、系の力学に基本的な制約を課す。
本稿では線形量子系の零点と極について検討する。
2種類の安定な入力オブザーバが不安定な線形量子系のために構築されている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 14:03:48 GMT)
Chain of Empathy: Enhancing Empathetic Response of Large Language Models Based on Psychotherapy Models [2.7] 本稿では,心理療法の知見を活かして,大規模言語モデル(LLM)を誘導し,人間の感情状態を理解する新しい方法である「共感の連鎖(CoE)」を提案する。
この方法は認知行動療法(CBT)、弁証的行動療法(DBT)、人中心療法(PCT)、現実療法(RT)など様々な心理療法のアプローチにインスパイアされている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 04:49:08 GMT)
Bound states and atomic interaction in giant atom waveguide QED with dispersive coupling [2.6] 導波路の伝播帯から巨大原子の周波数が遠ざかる分散結合方式を考察する。
このスキームでは、原子間相互作用はギャップ内の境界状態間の重なりによって引き起こされる。
重ね合わせ状態の転移忠実度は0.999$に近づくことができる。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 08:54:44 GMT)
Simultaneous Tri-Modal Medical Image Fusion and Super-Resolution using Conditional Diffusion Model [2.5] トリモーダル・メディカル・イメージ・フュージョン(英語版)は、病気の形状、位置、生物学的活動をより包括的に見ることができる。
画像装置の限界や患者の安全への配慮により、医療画像の品質は制限されることが多い。
画像の解像度を向上し、マルチモーダル情報を統合できる技術が緊急に必要である。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 02:26:01 GMT)
Cross-Entropy Optimization for Hyperparameter Optimization in Stochastic Gradient-based Approaches to Train Deep Neural Networks [2.1] 学習アルゴリズムのハイパーパラメータ最適化のためのクロスエントロピー最適化法を提案する。
提案手法は,ディープラーニングにおける他の最適化問題にも適用可能である。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 00:39:37 GMT)
Puzzle Solving using Reasoning of Large Language Models: A Survey [2.0] 本稿では,Large Language Models (LLMs) のパズル解法における能力について検討する。
以上の結果から,LLM能力と人為的推論の相違が明らかとなった。
この調査は、LLMのパズル解決能力を向上させるために、新しい戦略とよりリッチなデータセットの必要性を浮き彫りにした。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 06:12:36 GMT)
Keypoints-Integrated Instruction-Following Data Generation for Enhanced Human Pose Understanding in Multimodal Models [2.0] 本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する新しい手法を提案する。
提案手法は,人間中心の活動に優れる微調整モデルのために設計されたデータセットを生成する。
実験の結果、LLaVA-7Bモデルと比較して21.18%の改善が見られた。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:07:57 GMT)
Number of bits returned by a quantum estimation [2.0] 任意の量子推定戦略において、相互情報に2つの上限を与える。
ノイズの存在下での量子位相推定アルゴリズムを特徴付けることにより,これらの境界の有用性を示す。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 14:25:17 GMT)
Nutmeg and SPICE: Models and Data for Biomolecular Machine Learning [1.7] SPICEデータセットは、機械学習ポテンシャルをトレーニングするための量子化学計算の集合である。
我々は、その上にNutmegと呼ばれるポテンシャルエネルギー関数のセットを訓練する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 03:54:46 GMT)
Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [1.6] オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。
RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 06:35:02 GMT)
LLM-Powered Ensemble Learning for Paper Source Tracing: A GPU-Free Approach [1.4] 我々は,KDD CUP 2024紙ソース追跡コンテストに参加し,第3位を獲得した。
このコンペティションは参加者に対して、与えられた学術論文の参考資料(ref-sources)を特定するよう指示した。
トレーニング済みのニューラルネットワークモデルを微調整することでこの問題に対処しているほとんどのチームとは異なり、私たちの主要なアプローチはクローズドソースの大規模言語モデルを使用していました。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 09:21:46 GMT)
Koopman-based Deep Learning for Nonlinear System Estimation [1.4] 複素非線形系の有意な有限次元表現を抽出するために、クープマン作用素理論に基づく新しいデータ駆動線形推定器を提案する。
我々の推定器は推定された非線形系の微分同相変換にも適応しており、再学習せずに最適な状態推定を計算できる。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 21:57:26 GMT)
Evaluating Cultural Awareness of LLMs for Yoruba, Malayalam, and English [1.3] マラヤラム(インド・ケララ州)とヨルバ(西アフリカ)の2つの地域言語の文化的側面を理解するための様々なLLMの能力について検討する。
LLMは英語に高い文化的類似性を示すが、マラヤラムとヨルバの6つの指標にまたがる文化的ニュアンスを捉えられなかった。
このことは、チャットベースのLLMのユーザエクスペリエンスの向上や、大規模LLMエージェントベースの市場調査の妥当性向上に大きく影響する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 02:21:17 GMT)
Improved Robustness and Hyperparameter Selection in the Dense Associative Memory [1.2] Dense Associative Memoryは、よりシャープな相互作用関数を可能にすることでホップフィールドネットワークを一般化する。
しかし、ネットワークの実装は、メモリベクトルとプローブベクトルのドット積に大きな指数を適用することに依存している。
計算問題を詳細に記述し、元のネットワーク記述を変更して問題を緩和し、その修正がネットワークのダイナミクスを変えないことを示す。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 04:59:03 GMT)
Improving the Adaptive Moment Estimation (ADAM) stochastic optimizer through an Implicit-Explicit (IMEX) time-stepping approach [1.2] 古典的アダムアルゴリズムは、基礎となるODEの1次暗黙的明示的(IMEX)離散化である。
我々は、高階IMEX法を用いてODEを解くAdamスキームの新たな拡張を提案する。
いくつかの回帰問題と分類問題において,従来のAdamよりも優れた性能を示すニューラルネットワークトレーニングのための新しい最適化アルゴリズムを導出する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 01:44:31 GMT)
Quantum data encoding as a distinct abstraction layer in the design of quantum circuits [1.2] 我々は量子データ符号化の概念、すなわち量子状態を通して設定されたデータセットの表現を提供する形式を定式化する。
主要な量子アルゴリズムが、データの読み込みに関して、いかに自然な解釈を見出すかを示す。
新しい概念的枠組みは、量子ベースのモンテカルロシミュレーションへの応用を考えることで実証されている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:00:58 GMT)
From FDG to PSMA: A Hitchhiker's Guide to Multitracer, Multicenter Lesion Segmentation in PET/CT Imaging [0.9] 我々は,マルチトラサー,マルチセンターの一般化をターゲットとしたAutoPET IIIチャレンジの解決策を提案する。
主なテクニックは、CT、MR、PETデータセット間での誤調整データ拡張とマルチモーダル事前トレーニングである。
デフォルトのnnU-Netと比較して、Diceスコアが68.40であり、偽陽性(FPvol: 7.82)と偽陰性(FNvol: 10.35)が減少している。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 16:39:17 GMT)
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types [0.9] ユーザエクスペリエンスを支援するために、VQA(Visual Question-Answering)がいくつかのアプリケーションにおいて重要なユースケースとなっている。
本稿では,タスクタイプ,アプリケーションドメイン,知識タイプを付加した,確立されたVQAベンチマークから得られた新しいデータセットを提案する。
また、GPT-4oを用いて開発されたマルチモーダル評価指標であるGoEvalを導入し、人間の判断と56.71%の相関係数を達成した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 02:29:36 GMT)
An Augmentation-based Model Re-adaptation Framework for Robust Image Segmentation [0.8] セグメント化モデルの一般化を促進するための拡張型モデル再適応フレームワーク(AMRF)を提案する。
従来のモデル(FCNとU-Net)と事前訓練されたSAMモデルからセグメント化マスクを観察することにより、トレーニング効率とモデル性能を最適にバランスさせる最小拡張セットを決定する。
その結果,細調整したFCNは収穫精度が3.29%,収穫精度が3.02%,時間連続データセットが5.27%,分類精度が4.04%を超えることがわかった。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 21:01:49 GMT)
Course-Skill Atlas: A national longitudinal dataset of skills taught in U.S. higher education curricula [0.7] コーススキル・アトラス(Course-Skill Atlas)は、300万人以上の高等教育機関で教えられた300万以上のコースシラビから推定されるスキルの時系列データセットである。
我々のデータセットは、学生の労働市場への準備における大学教育の役割を大規模に表している。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 21:24:09 GMT)
Evaluating probabilistic and data-driven inference models for fiber-coupled NV-diamond temperature sensors [0.7] 連続波光磁気共鳴(ODMR)測定による温度推定における推定モデルが不確実性に与える影響について検討した。
このモデルでは、スピンハミルトンパラメータの温度依存性を利用して、ODMRデータのスペクトル特徴から温度を推定する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 17:23:20 GMT)
Thinking Before Speaking: A Role-playing Model with Mindset [0.6] 大規模言語モデル(LLM)は人間の振る舞いをシミュレートする能力を持っている。
これらのモデルは、想定される役割が持たないという知識に直面すると、パフォーマンスが悪くなります。
本稿では,TBS(Thinking Before Talk)モデルを提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 02:41:48 GMT)
Deep Learning Under Siege: Identifying Security Vulnerabilities and Risk Mitigation Strategies [0.5] 我々は、本番環境にデプロイされた現在のディープラーニングモデルに関連するセキュリティ上の課題を提示し、将来のDL技術の課題を予想する。
本稿では,これらの課題を抑制するためのリスク軽減手法を提案し,これらの指標の有効性を測定するための計量評価を行う。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 19:54:12 GMT)
LawDNet: Enhanced Audio-Driven Lip Synthesis via Local Affine Warping Deformation [0.5] LawDNetは、ローカルアフィンウォーピング変形機構を通じて唇合成を強化する新しいディープラーニングアーキテクチャである。
LawDNetはフレーム間連続性を改善するためのデュアルストリーム判別器を内蔵し、ポーズやシーンのバリエーションを扱うために顔正規化技術を採用している。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 06:04:21 GMT)
TX-Gen: Multi-Objective Optimization for Sparse Counterfactual Explanations for Time-Series Classification [0.4] 非支配的ソーティング遺伝的アルゴリズム(NSGA-II)に基づく反実的説明を生成する新しいアルゴリズムであるTX-Genを導入する。
フレキシブルな参照誘導機構を組み込むことにより,事前定義された仮定に頼ることなく,その妥当性と解釈性を向上させる。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 15:13:28 GMT)
AI-driven Java Performance Testing: Balancing Result Quality with Testing Time [0.4] 我々は,実行時のウォームアップイテレーションを動的に停止するAIベースのフレームワークを提案し,研究する。
本フレームワークは,最先端および最先端手法によるウォームアップ推定の精度を大幅に向上させる。
我々の研究は、ウォームアップフェーズの終了を動的に推定するためにAIを統合することで、Javaのパフォーマンステストのコスト効率が向上することを示した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 11:26:31 GMT)
Geometric phase assisted detection of Lorentz-invariance violation from modified dispersion at high energies [0.4] 量子重力の多くの理論は、$omega_|mathbfk|=|mathbfk|f(|mathbfk|/M_star)$という形のローレンツに反する分散関係を提唱している。
ローレンツ場理論の場合、GPは検出器の速度に依存する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 01:58:56 GMT)
Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval [0.4] コンテンツベースの医用画像検索(CBMIR)は、色、テクスチャ、形状、空間的特徴などの画像の特徴に依存している。
8種類の医用画像を含むMedMNIST V2データセットのサブセットにおけるCBMIR性能について検討した。
以上の結果から,2次元データセットでは,基礎モデルの方がCNNよりも優れた性能が得られることがわかった。
以上の結果から,より大きな画像サイズ(特に2次元データセット)を使用すると性能がわずかに向上する一方,競合性のあるCBMIR性能は小さい場合でも達成可能であることが確認された。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 13:07:30 GMT)
Close the Gates: How we can keep the future human by choosing not to develop superhuman general-purpose artificial intelligence [0.2] 今後数年で、人類は汎用AIを作成することによって、不可逆的にしきい値を越えるかもしれない。
これは、人間の社会の中核的な側面を上回り、多くの前例のないリスクを生じさせ、いくつかの意味で制御不能になる可能性がある。
まず、ニューラルネットワークのトレーニングと実行に使用できる計算に厳しい制限を課すことから始めます。
こうした制限がある中で、AIの研究と産業は、人間が理解し制御できる狭義の汎用AIと、そこから大きな利益を享受することのできる汎用AIの両方に焦点を絞ることができる。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 14:59:47 GMT)
LabellessFace: Fair Metric Learning for Face Recognition without Attribute Labels [0.1] 本稿では,グループラベリングを必要とせず,顔認識における階層バイアスを改善するフレームワークであるLabellessFace'を紹介する。
本稿では,特定のクラスに対する好意度を評価するための,クラス好意度と呼ばれる新しいフェアネス向上尺度を提案する。
本手法は,クラス嗜好レベルに基づいて学習パラメータを動的に調整し,属性間の公平性を促進させる。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 02:56:07 GMT)
What does it take to get state of the art in simultaneous speech-to-speech translation? [0.0] 本研究では,同時音声合成モデルの性能評価において観測される遅延特性について検討する。
本稿では,レイテンシのスパイクを最小限に抑え,全体的な性能を向上させる手法を提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 04:16:43 GMT)
Weather Prediction Using CNN-LSTM for Time Series Analysis: A Case Study on Delhi Temperature Data [0.0] 本研究では,デリー地域の温度予測精度を高めるために,ハイブリッドCNN-LSTMモデルを提案する。
モデルの構築とトレーニングには,包括的データ前処理や探索分析など,直接的および間接的手法を併用した。
実験結果から,CNN-LSTMモデルが従来の予測手法よりも精度と安定性の両面で優れていたことが示唆された。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 11:06:07 GMT)
Uddessho: An Extensive Benchmark Dataset for Multimodal Author Intent Classification in Low-Resource Bangla Language [0.0] 本稿では,バングラ語における意図分類の革新的アプローチを紹介し,ソーシャルメディアの投稿に注目した。
提案手法は,著者識別に特に重点を置いたマルチモーダルデータを利用する。
我々の知る限り、これはマルチモーダルベースの著者意図分類に関する最初の研究であり、低リソースのバングラ語ソーシャルメディア投稿のためのものである。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 18:37:27 GMT)
Twisted electron impact elastic cross sections of polyatomic molecules: All active electron multicentered approach [0.0] ターゲット分子は、相関整合4重ゼータ基底 cc-pVQZ を持つ多重中心波動関数を用いてモデル化される。
電子密度は空間座標の関数として取得され、弾性形状係数を計算するために使用される。
実験条件を模倣するために, 差動断面の配向平均化を行う。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 06:58:03 GMT)
Towards Resilient and Efficient LLMs: A Comparative Study of Efficiency, Performance, and Adversarial Robustness [0.0] 大規模言語モデル (LLM) の効率性, 性能, 対向ロバスト性の間のトレードオフについて検討する。
我々は,Transformer++, Gated Linear Attention (GLA) Transformer, MatMul-Free LM という,複雑さと効率の異なる3つの顕著なモデルについて実験を行った。
その結果,GLA Transformer と MatMul-Free LM は GLUE タスクではわずかに精度が低いが,高い効率性を示し,AdvGLUE タスクではより優れているか、比較的堅牢であることがわかった。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 03:19:10 GMT)
Topological Tensor Eigenvalue Theorems in Data Fusion [0.0] 本稿では,マルチモーダルデータ融合におけるテンソル固有値解析のための新しいフレームワークを提案する。
固有値とトポロジカルな特徴を結びつける新しい定理を確立することにより、提案フレームワークはデータの潜在構造に関する深い洞察を提供する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 09:46:15 GMT)
Symmetry operations and Critical Behaviour in Classical to Quantum Stochastic Processes [0.0] 演算による自己包含量子拡張の大規模なクラスを生成する。
異なる量子展開に対する緩和過程が異なることを示し、コヒーレンスの測定によって支持されることを示す。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 03:01:54 GMT)
Real-Time Stochastic Terrain Mapping and Processing for Autonomous Safe Landing [0.0] 本稿では,新しいリアルタイムな惑星地形マッピングアルゴリズムを開発した。
サンプル点間の地形的不確実性や、スパース3次元測定による不確かさを考慮に入れている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 05:12:14 GMT)
Persistent pseudopod splitting is an effective chemotaxis strategy in shallow gradients [0.0] ケモティックアモエボイド細胞の方向性決定は,刺激依存性のアクチンリクルートコンテストとしてモデル化される。
本研究は, 細胞制御が最小限に抑えられたケモタキシー性能の機械知能を実証するものである。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:04:32 GMT)
Overcoming linguistic barriers in code assistants: creating a QLoRA adapter to improve support for Russian-language code writing instructions [0.0] アダプタは、ロシア語のプログラミングと理解に関わるタスクにおいて、ベースモデルの性能を向上させるために開発された。
提案したアダプタは,プログラムに関連する質問応答ペアや,ロシア語のコード関連テキストなど,多種多様なデータセットを用いてトレーニングされた。
結果,Pythonのコード記述やロシア語処理のタスクにおいて,提案したアダプタの有効性を確認し,大幅な改善が得られた。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 07:49:29 GMT)
Operational Wind Speed Forecasts for Chile's Electric Power Sector Using a Hybrid ML Model [0.0] チリの火力発電所における風と太陽からの断続的な発電の増加の影響を定量化する。
本稿では,チリの2つのカスタムMLモデルを組み合わせたハイブリッド風速予測手法を提案する。
提案手法は,短期予測では4~21%,中期予測では5~23%,最も正確な運用決定システムより優れている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 02:16:02 GMT)
Macroscopic thermalization by unitary time-evolution in the weakly perturbed two-dimensional Ising model --- An application of the Roos-Teufel-Tumulka-Vogel theorem [0.0] 低温相における2次元イジングモデルの熱化について検討した。
ランダム摂動のほとんどの選択において、単位時間進化 $e-i(hatH_L+lambdahatV)t$ が初期状態を熱平衡に導くことが証明されている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 10:07:01 GMT)
MCDFN: Supply Chain Demand Forecasting via an Explainable Multi-Channel Data Fusion Network Model Integrating CNN, LSTM, and GRU [0.0] CNN,Long Short-Term Memory Network (LSTM), Gated Recurrent Units (GRU)を統合したハイブリッドアーキテクチャであるMulti-Channel Data Fusion Network (MCDFN)を紹介する。
我々の比較ベンチマークは、MCDFNが他の7つのディープラーニングモデルより優れていることを示している。
本研究は,需要予測手法を進歩させ,MCDFNをサプライチェーンシステムに統合するための実践的ガイドラインを提供する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 14:10:52 GMT)
Label Convergence: Defining an Upper Performance Bound in Object Recognition through Contradictory Annotations [0.0] 矛盾するテストアノテーションの制約の下で達成可能な最高性能を記述するために,「ラベル収束」の概念を導入する。
ラベル収束は LVIS の場合 62.63-67.52 mAP@[0.5:0.95:0.05] であり、95% の信頼度を持つ。
LVISデータセットのラベル収束間隔の上端にある現在の最先端(SOTA)モデルでは、モデルキャパシティが現在のオブジェクト検出問題を解決するのに十分である、と結論付けている。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 10:59:25 GMT)
Keeping Humans in the Loop: Human-Centered Automated Annotation with Generative AI [0.0] 我々は、GPT-4を使用して、パスワードで保護された11のデータセットに27のアノテーションタスクを複製する。
各タスクについて,人間の注釈付き接地木ラベルに対するGPT-4アノテーションと,人為的ラベルに微調整された教師付き分類モデルからのアノテーションを比較した。
本研究は,人間中心のワークフローと注意深い評価基準の重要性を裏付けるものである。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 15:27:43 GMT)
Interaction-induced multiparticle bound states in the continuum [0.0] 連続体(BIC)における境界状態は、放射線連続体に属する局所的なモードである。
相互作用変調Bose-Hubbardモデルにおける新しい種類の多粒子状態を予測する。
準BICのThoulessポンプは、空間と時間におけるオンサイト相互作用を変調することで実現可能であることを示す。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 12:15:29 GMT)
Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification [0.0] メジャー・うつ病(Major Depressive Disorder、MDD)は、世界中の3億人に影響を及ぼす広汎な精神疾患である。
本研究は, 臨床面接記録からのうつ病のバイナリ分類のための, BiLSTM に基づくトリモーダルモデルレベルの融合アーキテクチャを提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 16:19:07 GMT)
Increasing the Value of Information During Planning in Uncertain Environments [0.0] 我々は,情報収集行動の価値をよりよく反映して,最先端のオンライン計画を改善する新しいアルゴリズムを開発した。
結果,新しいアルゴリズムはPOMCPよりも高い性能を示した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 22:04:34 GMT)
Heat current and fluctuations between a dissipative qubit and a monitor under continuous measurement and feedback [0.0] 連続的な量子測定とフィードバックは、定常状態であっても、キュービットとモニターの間の熱交換を誘導する。
これらのプロセスによって誘導されるクビット冷却を実証する。
この結果は,連続測定とフィードバックによって制御される量子冷凍機の開発に潜在的な応用をもたらす。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 14:44:35 GMT)
Evaluating authenticity and quality of image captions via sentiment and semantic analyses [0.0] ディープラーニングは、自然言語処理やコンピュータビジョンといったタスクのための大量のラベル付きデータに大きく依存している。
画像からテキストへのパイプラインや画像へのパイプラインでは、意見(知覚)は人為的な画像キャプションからモデルによって不注意に学習される。
本研究では,感情と意味的豊かさに着目した評価手法を提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 23:50:23 GMT)
Enhancing LLM Problem Solving with REAP: Reflection, Explicit Problem Deconstruction, and Advanced Prompting [0.0] 大規模言語モデル (LLM) は自然言語処理を変革してきたが、その問題解決能力は引き続き改善されている。
本稿では、動的コンテキスト生成フレームワークにおける革新的なアプローチであるREAP法を紹介する。
OpenAIのo1-preview、o1-mini、GPT-4o、GPT-4o-mini、GoogleのGemini 1.5 Pro、Claude 3.5 Sonnetの6つの最先端モデルでREAPを評価した。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 11:12:07 GMT)
Dynamics of the Non-equilibrium spin Boson Model: A Benchmark of master equations and their validity [0.0] 非マルコフ的だが完全に正の進化を、過剰なドリュー・ローレンツスペクトル密度と任意の結合を持つスピン・ボソンモデルとして考える。
有効であると考えられる弱い結合状態において、累積体はより良い記述であることが分かっています。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 13:27:20 GMT)
Dressed atom revisited: Hamiltonian-independent treatment of the radiative cascade [0.0] 定常放射線カスケードの一般的な特徴は, 着衣原子と伝播放射モードとの相互作用によってどのように影響を受けるかを示す。
本研究は, 着衣状態間の遷移における放射性カスケードの記述が自己整合である, 一般的な条件を明らかにするものである。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 14:46:27 GMT)
Dissipative dynamics of an open quantum battery in the BTZ spacetime [0.0] 量子電池の充電性能は、量子場の真空揺らぎの存在によってどのように影響されるかを考える。
量子場の異なる境界条件は、異なる充電性能をもたらす可能性がある。
本研究は,曲面時空における緩和効果を解明するための一般的な枠組みを提案する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 02:06:28 GMT)
Deep Fast Machine Learning Utils: A Python Library for Streamlined Machine Learning Prototyping [0.0] Deep Fast Machine Learning Utils (DFMLU)ライブラリは、機械学習プロセスのアスペクトを自動化および拡張するために設計されたツールを提供する。
DFMLUはモデル開発とデータ処理をサポートする機能を提供します。
この原稿はDFMLUの機能の概要を示し、各ツールにPythonの例を提供している。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 21:39:17 GMT)
Complexity of Quantum Harmonic Oscillator in External Magnetic Field [0.0] 熱場二重状態の複雑性を時間・温度・外部磁場の関数として決定する。
複雑性の速度がロイド境界に従うことを確認する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 20:41:59 GMT)
CoLaNET -- A Spiking Neural Network with Columnar Layered Architecture for Classification [0.0] 本稿では、幅広い教師付き学習分類タスクに使用できるスパイキングニューラルネットワーク(SNN)アーキテクチャについて述べる。
全ての参加信号(分類対象記述、正しいクラスラベル、SNN決定)がスパイクの性質を持つと仮定する。
モデルに基づく強化学習に関わる課題に対して,私のネットワークの性能について解説する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 09:34:24 GMT)
Bipartite representations and many-body entanglement of pure states of $N$ indistinguishable particles [0.0] 我々は、ボソンとフェルミオンの両方に有効である$N$不定形粒子の任意の純状態の一般的なバイパルタイト様表現を解析する。
正確な$(M,N-M)$ Schmidt-like expansions of the state for any $MN$, and direct related to the isospectral reduced $rho(M)$ and $rho(N-M)$。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 15:42:27 GMT)
Approximation by non-symmetric networks for cross-domain learning [0.0] 非対称カーネルを用いたカーネルネットワークの近似能力について検討する。
我々は、$r$が必ずしも整数ではないとき、ReLU$r$ネットワークにより、ソボレフクラスの関数の均一近似の精度の推定値を得る。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 11:42:38 GMT)
Accurately Classifying Out-Of-Distribution Data in Facial Recognition [0.0] 現実のシナリオは通常、トレーニングディストリビューションのデータとは異なる、目に見えないデータを特徴付けます。
この問題は、未表現のグループからのデータが、トレーニングデータの均等な割合を表現せずにテストデータに現れるという社会正義の問題で最も多い。
ニューラルネットワークの性能は、分布外データの複数のデータセットで同時にトレーニングされたときに、分布外データの顔画像を改善することができるか?
論文参考訳(メタデータ) (Sat, 14 Sep 2024 15:37:34 GMT)
AMBER -- Advanced SegFormer for Multi-Band Image Segmentation: an application to Hyperspectral Imaging [0.0] 本稿では,マルチバンド画像セグメンテーション用に設計された高度なSegFormerであるAMBERを紹介する。
AMBERは、ハイパースペクトルデータを処理するために3次元の畳み込みを組み込むことで、オリジナルのSegFormerを強化する。
インドパインズ、パヴィア大学、PRISMAのデータセットを用いて行った実験により、AMBERは、全体的な精度、カッパ係数、平均精度で従来のCNNベースの手法より優れていることが示された。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 09:34:05 GMT)
AI in Food Marketing from Personalized Recommendations to Predictive Analytics: Comparing Traditional Advertising Techniques with AI-Driven Strategies [0.0] 人工知能(AI)は、パーソナライズされたレコメンデーション、消費者行動予測、キャンペーン最適化のための高度な技術を提供することで、食品マーケティングに革命をもたらした。
伝統的なアプローチはブランドの認知を高めることに成功していたが、現代の消費者が求めるパーソナライゼーションのレベルに欠けていた。
本稿では,従来のAI駆動食品マーケティング技術の長所と短所を比較検討する。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 17:53:32 GMT)
A class of exactly solvable Convection-Diffusion-Reaction equations in similarity form with intrinsic supersymmetry [0.0] 我々は、真に解ける対流拡散反応方程式のクラスを本質的な超対称性と類似した形で生成する可能性を指摘したい。
方程式の解と拡散係数は、それらの類似性スケーリング形式を通して超対称的に関連している。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 18:32:56 GMT)
A Survey on State-of-the-art Deep Learning Applications and Challenges [0.0] ディープラーニングモデルの構築は、アルゴリズムの複雑さと現実世界の問題の動的な性質のため、難しい。
本研究の目的は,コンピュータビジョン,自然言語処理,時系列解析,広範コンピューティングにおける最先端のディープラーニングモデルを網羅的にレビューすることである。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 01:58:17 GMT)
A Graph Theoretic Approach to Analyze the Developing Metaverse [0.0] 発達するメタバースは、現在の状態から、おそらくは高度なメタバースへの遷移周期として定義することができる。
本稿は, グラフィカルな観点から, 現在のメタバースの構造や, 一つの傘の下で発達・発展するメタバースの鍵となるものなどをモデル化することを目的とする。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 17:30:50 GMT)
"IT FROM BIT": How does information shape the structures in the universe? [0.0] 平衡から離れた環境によって支持される準静的情報状態の量子化に関する新しい一般規則を導入する。
この理論的な手順は、非平衡熱力学における情報と複雑性の量子論のさらなる研究のための新しい道を開く必要がある。
論文参考訳(メタデータ) (Sat, 14 Sep 2024 10:33:58 GMT)