このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240921となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# DQNは学ぶか?
Does DQN Learn? ( http://arxiv.org/abs/2205.13617v4 ) ライセンス: Link先を確認 | Aditya Gopalan, Gugan Thoppe, | (参考訳) 強化学習法が有用であるためには、その限界で見積もるポリシーは、少なくとも平均的には、初期推定よりも優れている必要がある。
本研究では,全ての可能な状態や動作を無限に見ることができても,広く使用されている深層Q-Network (DQN) が,この基本的な基準を満たさないことを示す(この条件により,表型Q-ラーニングの最適Q-値への収束が保証される)。
私たちの作品のハイライトは以下のとおりです。
第一に、DQNは一般的に、初期よりも悪い政策を生み出す非自明な確率を持つことを示す。
第二に、線形DQNの文脈でこの振る舞いを理論的に説明し、ニューラルネットワークを線形関数近似に置き換えるが、DQNの他の重要な概念、例えば経験的リプレイ、ターゲットネットワーク、および$\epsilon$-greedy探索を保持する。
我々の主な結果は、線形DQNの尾の挙動は、決定論的微分包含の不変集合、つまり微分方程式の集合値一般化によって支配されることである。
特に、これらの不変集合は局所的最適ポリシーと整合する必要はないことを示し、DQNの準最適ポリシーへの収束や政策振動といった病理学的挙動を説明する。
また、制限ポリシーが常に最悪であるシナリオも提供します。
我々の研究は、関数近似と$\epsilon$-greedyの探索によるQ-ラーニングの振る舞いの理解における長年のギャップに対処する。
For a reinforcement learning method to be useful, the policy it estimates in the limit must be superior to the initial guess, at least on average. In this work, we show that the widely used Deep Q-Network (DQN) fails to meet even this basic criterion, even when it gets to see all possible states and actions infinitely often (a condition that ensures tabular Q-learning's convergence to the optimal Q-value). Our work's key highlights are as follows. First, we numerically show that DQN generally has a non-trivial probability of producing a policy worse than the initial one. Second, we give a theoretical explanation for this behavior in the context of linear DQN, wherein we replace the neural network with a linear function approximation but retain DQN's other key ideas, such as experience replay, target network, and $\epsilon$-greedy exploration. Our main result is that the tail behaviors of linear DQN are governed by invariant sets of a deterministic differential inclusion, a set-valued generalization of a differential equation. Notably, we show that these invariant sets need not align with locally optimal policies, thus explaining DQN's pathological behaviors, such as convergence to sub-optimal policies and policy oscillation. We also provide a scenario where the limiting policy is always the worst. Our work addresses a longstanding gap in understanding the behaviors of Q-learning with function approximation and $\epsilon$-greedy exploration. | 翻訳日:2024-11-09 15:46:48 公開日:2024-09-21 |
# GraphMLP: 3Dヒューマンポース推定のためのグラフMLPライクなアーキテクチャ
GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation ( http://arxiv.org/abs/2206.06420v5 ) ライセンス: Link先を確認 | Wenhao Li, Mengyuan Liu, Hong Liu, Tianyu Guo, Ti Wang, Hao Tang, Nicu Sebe, | (参考訳) 現代の多層パーセプトロン(MLP)モデルは、自己注意なしで視覚表現を学習する際の競合的な結果を示している。
しかし、既存のMLPモデルは、局所的な詳細を捉えるのが得意ではなく、人体構成に関する事前の知識が欠けているため、骨格表現学習のモデリング能力は制限されている。
これらの課題に対処するため,我々は,3次元ポーズ推定のためのグローバル・ローカル・グラフィック統一アーキテクチャにおいて,MPPとGCNを組み合わせたグラフ強化型MLPアーキテクチャーGraphMLPを提案する。
GraphMLPは、人体のグラフ構造をMLPモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たすとともに、局所的およびグローバルな空間的相互作用を可能にする。
さらに,GraphMLPをビデオ領域に柔軟かつ効率的に拡張し,複雑な時間的ダイナミクスを,列長が無視できる計算コストゲインの簡単な方法で効果的にモデル化できることを提案する。
我々の知る限りでは、これは単一のフレームとビデオシーケンスで3次元のポーズ推定を行う最初のMLPライクなアーキテクチャである。
大規模な実験により、提案したGraphMLPは、Human3.6MとMPI-INF-3DHPの2つのデータセットで最先端のパフォーマンスを達成することが示された。
コードとモデルはhttps://github.com/Vegetebird/GraphMLP.comで公開されている。
Modern multi-layer perceptron (MLP) models have shown competitive results in learning visual representations without self-attention. However, existing MLP models are not good at capturing local details and lack prior knowledge of human body configurations, which limits their modeling power for skeletal representation learning. To address these issues, we propose a simple yet effective graph-reinforced MLP-Like architecture, named GraphMLP, that combines MLPs and graph convolutional networks (GCNs) in a global-local-graphical unified architecture for 3D human pose estimation. GraphMLP incorporates the graph structure of human bodies into an MLP model to meet the domain-specific demand of the 3D human pose, while allowing for both local and global spatial interactions. Furthermore, we propose to flexibly and efficiently extend the GraphMLP to the video domain and show that complex temporal dynamics can be effectively modeled in a simple way with negligible computational cost gains in the sequence length. To the best of our knowledge, this is the first MLP-Like architecture for 3D human pose estimation in a single frame and a video sequence. Extensive experiments show that the proposed GraphMLP achieves state-of-the-art performance on two datasets, i.e., Human3.6M and MPI-INF-3DHP. Code and models are available at https://github.com/Vegetebird/GraphMLP. | 翻訳日:2024-11-09 15:46:48 公開日:2024-09-21 |
# トークンによる支払いシステム
Token-Based Payment Systems ( http://arxiv.org/abs/2207.07530v2 ) ライセンス: Link先を確認 | Geoffrey Goodell, | (参考訳) 本稿では,デジタル決済システムにおけるトークンと分散台帳の役割について考察する。
本稿では,トークンを用いたデジタル決済システムの簡単な分類法を提案し,分散台帳技術がデジタル決済システム全般をサポートする方法の異なるモデルに対処する。
我々は、消費者プライバシ、トークン発行、システムオペレーターに対する説明責任の観点から理解したデジタル決済システムの健全な機能に関するガイダンスを提供する。
In this article, we consider the roles of tokens and distributed ledgers in digital payment systems. We present a brief taxonomy of digital payment systems that use tokens, and we address the different models for how distributed ledger technology can support digital payment systems in general. We offer guidance on the salient features of digital payment systems, which we comprehend in terms of consumer privacy, token issuance, and accountability for system operators. | 翻訳日:2024-11-09 15:46:48 公開日:2024-09-21 |
# テンソル分解によるグラフニューラルネットワークの効率的な関係認識近傍集約
Efficient Relation-aware Neighborhood Aggregation in Graph Neural Networks via Tensor Decomposition ( http://arxiv.org/abs/2212.05581v4 ) ライセンス: Link先を確認 | Peyman Baghershahi, Reshad Hosseini, Hadi Moradi, | (参考訳) 知識グラフ埋め込み(KGE)の課題に取り組むために,多数のグラフニューラルネットワーク(GNN)が開発された。
しかし、これらのアプローチの多くは、関係情報の重要な役割を見落とし、エンティティ情報と不十分に統合し、表現力は低下する。
本稿では,リレーショナルグラフ畳み込みネットワーク(R-GCN)の集約関数にテンソル分解を組み込んだ新しい知識グラフエンコーダを提案する。
我々のモデルは、関係型によって定義される低ランクテンソルの射影行列を用いて、隣り合う実体の表現を強化する。
このアプローチはマルチタスク学習を容易にし、関係認識表現を生成する。
さらに、CP分解によるコアテンソルの低ランク推定手法を導入し、モデルを効果的に圧縮・正規化する。
コントラスト学習にインスパイアされたトレーニング戦略を採用し,グラフ処理に固有の1-N法のトレーニング制限を緩和する。
私たちはFB15k-237とWN18RRという2つの一般的なベンチマークデータセットにおいて、エンティティとリレーションのために低次元の埋め込みを使用しながら、競合のすべてを上回っました。
Numerous Graph Neural Networks (GNNs) have been developed to tackle the challenge of Knowledge Graph Embedding (KGE). However, many of these approaches overlook the crucial role of relation information and inadequately integrate it with entity information, resulting in diminished expressive power. In this paper, we propose a novel knowledge graph encoder that incorporates tensor decomposition within the aggregation function of Relational Graph Convolutional Network (R-GCN). Our model enhances the representation of neighboring entities by employing projection matrices of a low-rank tensor defined by relation types. This approach facilitates multi-task learning, thereby generating relation-aware representations. Furthermore, we introduce a low-rank estimation technique for the core tensor through CP decomposition, which effectively compresses and regularizes our model. We adopt a training strategy inspired by contrastive learning, which relieves the training limitation of the 1-N method inherent in handling vast graphs. We outperformed all our competitors on two common benchmark datasets, FB15k-237 and WN18RR, while using low-dimensional embeddings for entities and relations. | 翻訳日:2024-11-09 15:35:37 公開日:2024-09-21 |
# 大規模言語モデルにおけるグラフ学習とその発展
Graph Learning and Its Advancements on Large Language Models: A Holistic Survey ( http://arxiv.org/abs/2212.08966v5 ) ライセンス: Link先を確認 | Shaopeng Wei, Jun Wang, Yu Zhao, Xingyan Chen, Qing Li, Fuzhen Zhuang, Ji Liu, Fuji Ren, Gang Kou, | (参考訳) グラフ学習は、ノード間の複雑な関係とグラフのトポロジ的構造を学習する試みである。
長年にわたり、グラフ学習はグラフ理論からグラフデータマイニングへと移行してきた。
表現学習の出現により、多様なシナリオにおいて顕著なパフォーマンスを達成した。
幅広い応用の見通しから、グラフ学習には注意が集まっている。
一部の研究者はグラフ学習に関する見事な調査を達成しているが、関連する目的や方法、アプリケーションをより一貫性のある方法で結びつけることに失敗した。
その結果、グラフ学習の急速な拡大により、現在の十分なシナリオや課題は含まれなかった。
特に、大規模言語モデルは近年、人間の生活に破壊的な影響を与えてきたが、構造化シナリオの相対的な弱点も示している。
グラフ学習でこれらのモデルをいかに強力にするかという問題は、まだ未解決のままだ。
我々の調査は、グラフ学習と事前訓練された言語モデルの統合における最新の進歩に焦点を当て、特に大規模言語モデルの領域におけるそれらの応用を強調した。
グラフ学習に関するこれまでの調査とは違って、グラフ構造の観点から現在の研究を分析し、グラフ学習における最新のアプリケーション、トレンド、課題について論じる総合的なレビューを提供する。
具体的には、分類学を提案し、それからグラフ学習の手法を要約する。
次に、メインストリームアプリケーションの詳細な解明を提供します。
最後に,今後の方向性を提案する。
Graph learning is a prevalent domain that endeavors to learn the intricate relationships among nodes and the topological structure of graphs. Over the years, graph learning has transcended from graph theory to graph data mining. With the advent of representation learning, it has attained remarkable performance in diverse scenarios. Owing to its extensive application prospects, graph learning attracts copious attention. While some researchers have accomplished impressive surveys on graph learning, they failed to connect related objectives, methods, and applications in a more coherent way. As a result, they did not encompass current ample scenarios and challenging problems due to the rapid expansion of graph learning. Particularly, large language models have recently had a disruptive effect on human life, but they also show relative weakness in structured scenarios. The question of how to make these models more powerful with graph learning remains open. Our survey focuses on the most recent advancements in integrating graph learning with pre-trained language models, specifically emphasizing their application within the domain of large language models. Different from previous surveys on graph learning, we provide a holistic review that analyzes current works from the perspective of graph structure, and discusses the latest applications, trends, and challenges in graph learning. Specifically, we commence by proposing a taxonomy and then summarize the methods employed in graph learning. We then provide a detailed elucidation of mainstream applications. Finally, we propose future directions. | 翻訳日:2024-11-09 15:35:37 公開日:2024-09-21 |
# 単軌道分布ロバスト強化学習
Single-Trajectory Distributionally Robust Reinforcement Learning ( http://arxiv.org/abs/2301.11721v2 ) ライセンス: Link先を確認 | Zhipeng Liang, Xiaoteng Ma, Jose Blanchet, Jiheng Zhang, Zhengyuan Zhou, | (参考訳) 古典的強化学習(RL)フレームワークが同一のトレーニング環境とテスト環境に大きく依存する限界を軽減するため、分散ロバストRL(DRRL)は、おそらく未知のテスト環境を含む様々な環境のパフォーマンスを高めるために提案されている。
ロバスト性ゲインの価格として、DRRLは一連の分布を最適化するが、これは本質的に非ロバストな場合の固定分布を最適化するよりも難しい。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
本稿では,分散ロバストなQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
本研究では,各サンプルを段階的に活用するマルチタイム・フレームワークを微妙に設計し,環境をモデル化せずに最適な分散ロバストなポリシーを直接学習する。
アルゴリズムの複雑さにもかかわらず、古典確率近似ツールを一般化することにより漸近収束を保証する。
総合的な実験結果から,提案アルゴリズムの頑健性やサンプルの複雑さは,非ロバストな手法や他のロバストなRLアルゴリズムと比較して優れていることが示された。
To mitigate the limitation that the classical reinforcement learning (RL) framework heavily relies on identical training and test environments, Distributionally Robust RL (DRRL) has been proposed to enhance performance across a range of environments, possibly including unknown test environments. As a price for robustness gain, DRRL involves optimizing over a set of distributions, which is inherently more challenging than optimizing over a fixed distribution in the non-robust case. Existing DRRL algorithms are either model-based or fail to learn from a single sample trajectory. In this paper, we design a first fully model-free DRRL algorithm, called distributionally robust Q-learning with single trajectory (DRQ). We delicately design a multi-timescale framework to fully utilize each incrementally arriving sample and directly learn the optimal distributionally robust policy without modelling the environment, thus the algorithm can be trained along a single trajectory in a model-free fashion. Despite the algorithm's complexity, we provide asymptotic convergence guarantees by generalizing classical stochastic approximation tools. Comprehensive experimental results demonstrate the superior robustness and sample complexity of our proposed algorithm, compared to non-robust methods and other robust RL algorithms. | 翻訳日:2024-11-09 15:24:36 公開日:2024-09-21 |
# 分割共形予測における経験的カバレッジの普遍的分布
Universal distribution of the empirical coverage in split conformal prediction ( http://arxiv.org/abs/2303.02770v2 ) ライセンス: Link先を確認 | Paulo C. Marques F, | (参考訳) スプリット共形予測が交換可能なデータでバッチモードで動作する場合、将来の観測可能量の有限バッチに対して生成された予測セットの実験的カバレッジの正確な分布と、バッチサイズが無限大になるときにそのほぼ確実な限界の正確な分布を決定する。
どちらの分布も普遍的であり、名前付きミスカバーレベルとキャリブレーションサンプルサイズのみによって決定されるため、アプリケーションで必要最小限のキャリブレーションサンプルサイズを選択するための基準が確立される。
When split conformal prediction operates in batch mode with exchangeable data, we determine the exact distribution of the empirical coverage of prediction sets produced for a finite batch of future observables, as well as the exact distribution of its almost sure limit when the batch size goes to infinity. Both distributions are universal, being determined solely by the nominal miscoverage level and the calibration sample size, thereby establishing a criterion for choosing the minimum required calibration sample size in applications. | 翻訳日:2024-11-09 15:24:36 公開日:2024-09-21 |
# データセットアーチタイプを用いた高レベル合成データ生成
High-Level Synthetic Data Generation with Data Set Archetypes ( http://arxiv.org/abs/2303.14301v3 ) ライセンス: Link先を確認 | Michael J. Zellinger, Peter Bühlmann, | (参考訳) クラスタ分析は、異なるアルゴリズムの評価と比較に有効なベンチマークに依存している。
クラスタ間の重なり合いやクラスタ形状の変化など,データセットの重要な特徴を効果的に変化させることができるため,合成データのシミュレーション研究が一般的である。
残念ながら、評価シナリオのキュレートは、"全く異なる形状のクラスタ"のような高レベルのシナリオ記述と一致するように、実践者は(クラスタ共分散行列のような)低レベルの幾何学的パラメータを見つけなければならないため、しばしば困難である。
ベンチマークをより便利かつ有益なものにするために,データセットのアーカイタイプに基づく合成データ生成を提案する。
このパラダイムでは、ユーザは高いレベルの評価シナリオを記述し、ソフトウェアは所望の特性を持つデータセットを自動的に生成する。
このようなデータセットのアーチタイプと大きな言語モデル(LLM)を組み合わせることで、評価シナリオの言語記述からベンチマークを純粋に設定することができる。
このワークフローを実装したオープンソースのPythonパッケージであるreliclustを提供しています。
音声入力からのデータ生成のデモはhttps://demo.repliclust.orgで公開されている。
Cluster analysis relies on effective benchmarks for evaluating and comparing different algorithms. Simulation studies on synthetic data are popular because important features of the data sets, such as the overlap between clusters, or the variation in cluster shapes, can be effectively varied. Unfortunately, curating evaluation scenarios is often laborious, as practitioners must find lower-level geometric parameters (like cluster covariance matrices) to match a higher-level scenario description like "clusters with very different shapes." To make benchmarks more convenient and informative, we propose synthetic data generation based on data set archetypes. In this paradigm, the user describes an evaluation scenario in a high-level manner, and the software automatically generates data sets with the desired characteristics. Combining such data set archetypes with large language models (LLMs), it is possible to set up benchmarks purely from verbal descriptions of the evaluation scenarios. We provide an open-source Python package, repliclust, that implements this workflow. A demo of data generation from verbal inputs is available at https://demo.repliclust.org. | 翻訳日:2024-11-09 15:24:36 公開日:2024-09-21 |
# CKBP v2: Commonsense Knowledge Base Populationのためのアノテーションと推論の改善
CKBP v2: Better Annotation and Reasoning for Commonsense Knowledge Base Population ( http://arxiv.org/abs/2304.10392v2 ) ライセンス: Link先を確認 | Tianqing Fang, Quyet V. Do, Zihao Zheng, Weiqi Wang, Sehyun Choi, Zhaowei Wang, Yangqiu Song, | (参考訳) Commonsense Knowledge Bases (CSKB) Populationは、CSKBの知識を外部リソースで自動的に拡張することを目的としており、NLPにおいて重要なタスクである。
Fang et al (2021a) は CKBP v1 の評価セットを持つ CSKB Population (CKBP) フレームワークを提案した。
しかし、CKBP v1は、かなりの数の誤った回答に苦しむクラウドソースアノテーションに依存しており、評価セットはランダムサンプリングによる外部知識ソースとの整合性に欠ける。
本稿では,上記の2つの問題に,ドメインエキスパートをアノテータとして採用し,多種多様な反対サンプルを取り入れて,評価データをより代表的なものにすることで対処する,高品質なCSKB集団評価セットであるCKBP v2を紹介する。
CKBP v2 は CSKB Population タスクの挑戦的,代表的評価データセットとして機能し,その開発セットは,下流コモンセンス推論の知識獲得に寄与する集団モデルの選択を支援する。
より良い人口モデルは、生成的コモンセンス推論とゼロショットコモンセンス質問応答の両方の監視信号として、より情報的なコモンセンス知識を得るのに役立つ。
具体的には、DeBERTa-v3-large(He et al , 2023b)に基づく質問応答モデルは、ChatGPTやGPT-3.5など、ゼロショット設定で強力な大規模言語モデルよりも優れている。
Commonsense Knowledge Bases (CSKB) Population, which aims at automatically expanding knowledge in CSKBs with external resources, is an important yet hard task in NLP. Fang et al. (2021a) proposed a CSKB Population (CKBP) framework with an evaluation set CKBP v1. However, CKBP v1 relies on crowdsourced annotations that suffer from a considerable number of mislabeled answers, and the evaluationset lacks alignment with the external knowledge source due to random sampling. In this paper, we introduce CKBP v2, a new high-quality CSKB Population evaluation set that addresses the two aforementioned issues by employing domain experts as annotators and incorporating diversified adversarial samples to make the evaluation data more representative. We show that CKBP v2 serves as a challenging and representative evaluation dataset for the CSKB Population task, while its development set aids in selecting a population model that leads to improved knowledge acquisition for downstream commonsense reasoning. A better population model can also help acquire more informative commonsense knowledge as additional supervision signals for both generative commonsense inference and zero-shot commonsense question answering. Specifically, the question-answering model based on DeBERTa-v3-large (He et al., 2023b) even outperforms powerful large language models in a zero-shot setting, including ChatGPT and GPT-3.5. | 翻訳日:2024-11-09 15:13:22 公開日:2024-09-21 |
# 高次元過度線形回帰における最小ノルムリスクのバッチ安定化
Batches Stabilize the Minimum Norm Risk in High Dimensional Overparameterized Linear Regression ( http://arxiv.org/abs/2306.08432v3 ) ライセンス: Link先を確認 | Shahar Stein Ioushua, Inbar Hasidim, Ofer Shayevitz, Meir Feder, | (参考訳) データをバッチに分割する学習アルゴリズムは、多くの機械学習アプリケーションで一般的であり、典型的には計算効率と性能のトレードオフを提供する。
本稿では,等方的ガウス特徴を持つ最小ノルム過パラメータ線形回帰モデルのレンズによるバッチ分割の利点について検討する。
最小ノルム推定器の自然な小バッチ版を提案し、その二次リスクを導出する。
次に、最適なバッチサイズを特徴付け、ノイズレベルと過度パラメータ比に逆比例することを示す。
最小ノルムとは対照的に,我々の推定器は過パラメトリゼーション比で単調に増加する安定なリスク挙動を認め,補間点での爆発と二重発振現象の両方を除去する。
さらに、Weiner係数に等しい係数によるバッチ最小ノルム推定器の縮小がさらに安定化し、全ての設定において2次リスクを低くすることを示した。
興味深いことに、バッチパーティションによって提供される暗黙の正規化は、バッチ間の機能の重複によって部分的に説明される。
我々の境界は、新しい手法の組み合わせ、特にランダム部分空間上の雑音射影のワッサーシュタイン計量の正規近似によって導かれる。
Learning algorithms that divide the data into batches are prevalent in many machine-learning applications, typically offering useful trade-offs between computational efficiency and performance. In this paper, we examine the benefits of batch-partitioning through the lens of a minimum-norm overparametrized linear regression model with isotropic Gaussian features. We suggest a natural small-batch version of the minimum-norm estimator and derive bounds on its quadratic risk. We then characterize the optimal batch size and show it is inversely proportional to the noise level, as well as to the overparametrization ratio. In contrast to minimum-norm, our estimator admits a stable risk behavior that is monotonically increasing in the overparametrization ratio, eliminating both the blowup at the interpolation point and the double-descent phenomenon. We further show that shrinking the batch minimum-norm estimator by a factor equal to the Weiner coefficient further stabilizes it and results in lower quadratic risk in all settings. Interestingly, we observe that the implicit regularization offered by the batch partition is partially explained by feature overlap between the batches. Our bound is derived via a novel combination of techniques, in particular normal approximation in the Wasserstein metric of noisy projections over random subspaces. | 翻訳日:2024-11-09 15:02:22 公開日:2024-09-21 |
# 拡散モデルによる色調の定式化と色移動
Dequantization and Color Transfer with Diffusion Models ( http://arxiv.org/abs/2307.02698v4 ) ライセンス: Link先を確認 | Vaibhav Vavilala, Faaris Shaik, David Forsyth, | (参考訳) 自然画像の新規な画像編集を可能にする拡散モデルを提案する。
パッチベースの編集やパレット転送を簡単に抽象化できるため,量子化画像の操作を提案する。
特に,カラーパレットが拡散モデルの出力を制御し,解釈しやすくすることを示す。
まず,JPEGノイズ低減モデルなど,既存の画像復元手法では不十分であることが確認された。
次に、我々のモデルが、ユーザが要求したカラーパレットを尊重する自然な画像を生成できることを実証する。
パレット転送のために,重み付き二分節マッチングに基づく手法を提案する。
そこで本モデルでは, 極端なパレット転送後であっても, ユーザクエリを尊重して, 可視画像を生成することを示す。
本手法は、画像の一部または全部のソーステクスチャを任意に条件付けすることができる。
これにより、入力と異なる輝度で色を生成できない既存の画像カラー化手法において、一般的な問題を克服する。
テクスチャコンディショニングや,輝度,画像勾配,しきい値勾配など,テクスチャコンディショニングとトレードオフの可能性を評価し,テクスチャコンディショニングとカラーコントロールの両立に最善を尽くした。
本手法は,画像のテクスチャを尊重しながら,画像のパッチを塗り替えることによって,別の実用的な編集に拡張することができる。
我々の手順は、いくつかの質的、定量的な評価によって支えられている。
We demonstrate an image dequantizing diffusion model that enables novel image edits on natural images. We propose operating on quantized images because they offer easy abstraction for patch-based edits and palette transfer. In particular, we show that color palettes can make the output of the diffusion model easier to control and interpret. We first establish that existing image restoration methods are not sufficient, such as JPEG noise reduction models. We then demonstrate that our model can generate natural images that respect the color palette the user asked for. For palette transfer, we propose a method based on weighted bipartite matching. We then show that our model generates plausible images even after extreme palette transfers, respecting user query. Our method can optionally condition on the source texture in part or all of the image. In doing so, we overcome a common problem in existing image colorization methods that are unable to produce colors with a different luminance than the input. We evaluate several possibilities for texture conditioning and their trade-offs, including luminance, image gradients, and thresholded gradients, the latter of which performed best in maintaining texture and color control simultaneously. Our method can be usefully extended to another practical edit: recoloring patches of an image while respecting the source texture. Our procedure is supported by several qualitative and quantitative evaluations. | 翻訳日:2024-11-09 14:51:04 公開日:2024-09-21 |
# ChatEDA:EDAのための大規模言語モデル駆動自律エージェント
ChatEDA: A Large Language Model Powered Autonomous Agent for EDA ( http://arxiv.org/abs/2308.10204v4 ) ライセンス: Link先を確認 | Zhuolun He, Haoyuan Wu, Xinyun Zhang, Xufeng Yao, Su Zheng, Haisheng Zheng, Bei Yu, | (参考訳) 相互運用性を高めるための複雑な電子設計自動化(EDA)ツールの統合は、回路設計者にとって重要な関心事である。
大規模言語モデル(LLM)の最近の進歩は、自然言語処理と理解において、EDAツールと対面する新しいアプローチを提供する、優れた能力を示した。
本稿では,LEM,AutoMageによって権限を付与されたEDAの自律エージェントであるChatEDAを紹介し,執行役としてのEDAツールを補完する。
ChatEDAは、タスク分解、スクリプト生成、タスク実行を効果的に管理することで、登録-転送レベル(RTL)からグラフデータシステムバージョンII(GDSII)への設計フローを合理化する。
総合的な実験評価を通じて,ChatEDAは多様な要求に対処する能力を示し,我々の微調整オートマージモデルはGPT-4や他のLLMと比較して優れた性能を示した。
The integration of a complex set of Electronic Design Automation (EDA) tools to enhance interoperability is a critical concern for circuit designers. Recent advancements in large language models (LLMs) have showcased their exceptional capabilities in natural language processing and comprehension, offering a novel approach to interfacing with EDA tools. This research paper introduces ChatEDA, an autonomous agent for EDA empowered by an LLM, AutoMage, complemented by EDA tools serving as executors. ChatEDA streamlines the design flow from the Register-Transfer Level (RTL) to the Graphic Data System Version II (GDSII) by effectively managing task decomposition, script generation, and task execution. Through comprehensive experimental evaluations, ChatEDA has demonstrated its proficiency in handling diverse requirements, and our fine-tuned AutoMage model has exhibited superior performance compared to GPT-4 and other similar LLMs. | 翻訳日:2024-11-09 14:40:04 公開日:2024-09-21 |
# 大規模言語モデルにおけるRe-Readingの改善
Re-Reading Improves Reasoning in Large Language Models ( http://arxiv.org/abs/2309.06275v3 ) ライセンス: Link先を確認 | Xiaohan Xu, Chongyang Tao, Tao Shen, Can Xu, Hongbo Xu, Guodong Long, Jian-guang Lou, Shuai Ma, | (参考訳) 既成のLarge Language Models (LLMs) の推論能力を高めるために, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
出力の推論プロセスを引き出すことを目的としたChain-of-Thought (CoT) のような、ほとんどの思考上の促進方法とは異なり、Re2 は質問を2回処理することで、入力に焦点を移し、理解プロセスを強化する。
その結果、Re2 は CoT を含むほとんどの思考依存的プロンプト手法との強い一般化と互換性を示す。
重要なことに、Re2は、第1パスが第2パスのグローバル情報を提供するため、一方向デコーダのみのLLMで"双方向"エンコーディングを容易にする。
まず、Re2の基礎となる予備的な実証研究から始め、その「双方向」注意機構の実現の可能性を示す。
その後、14のデータセットにわたる広範囲な推論ベンチマークでRe2を評価し、112の実験にまたがって、その有効性と汎用性を検証する。
以上の結果から,バニラChatGPTではいくつかのシナリオを除いて,Re2は単純な再読解戦略によってLCMの推論性能を一貫して向上させることがわかった。
さらなる分析により、Re2の適応性を明らかにし、異なるLLMと効果的に統合する方法、思考の緩和、アンサンブル戦略を示す。
私たちのコードは \url{https://github.com/Tebmer/reading-LLM-Reasoning/} で利用可能です。
To enhance the reasoning capabilities of off-the-shelf Large Language Models (LLMs), we introduce a simple, yet general and effective prompting method, Re2, i.e., \textbf{Re}-\textbf{Re}ading the question as input. Unlike most thought-eliciting prompting methods, such as Chain-of-Thought (CoT), which aim to elicit the reasoning process in the output, Re2 shifts the focus to the input by processing questions twice, thereby enhancing the understanding process. Consequently, Re2 demonstrates strong generality and compatibility with most thought-eliciting prompting methods, including CoT. Crucially, Re2 facilitates a "bidirectional" encoding in unidirectional decoder-only LLMs because the first pass could provide global information for the second pass. We begin with a preliminary empirical study as the foundation of Re2, illustrating its potential to enable "bidirectional" attention mechanisms. We then evaluate Re2 on extensive reasoning benchmarks across 14 datasets, spanning 112 experiments, to validate its effectiveness and generality. Our findings indicate that, with the exception of a few scenarios on vanilla ChatGPT, Re2 consistently enhances the reasoning performance of LLMs through a simple re-reading strategy. Further analyses reveal Re2's adaptability, showing how it can be effectively integrated with different LLMs, thought-eliciting prompting, and ensemble strategies. Our code is available at \url{https://github.com/Tebmer/Rereading-LLM-Reasoning/} | 翻訳日:2024-11-09 14:28:50 公開日:2024-09-21 |
# 自己回帰拡散モデルのための判別器誘導
Discriminator Guidance for Autoregressive Diffusion Models ( http://arxiv.org/abs/2310.15817v2 ) ライセンス: Link先を確認 | Filip Ekström Kelvinius, Fredrik Lindsten, | (参考訳) 本稿では,自己回帰拡散モデルの設定において差別的ガイダンスを導入する。
拡散過程の導出における判別器の使用は, 従来, 連続拡散モデルにおいて用いられてきた。
まず、最適判別器を用いて事前学習したモデルを補正し、基礎となるデータ分布から正確なサンプリングを可能にすることを示す。
第2に、準最適判別器を使用する現実的なシナリオを考慮し、生成過程において、判別器からの予測を反復的に考慮したシーケンシャルなモンテカルロアルゴリズムを導出する。
本研究では, 分子グラフ生成の課題に対してこれらの手法を試行し, 事前学習モデルのみを用いて, 判別器が生成性能を向上させる方法を示す。
We introduce discriminator guidance in the setting of Autoregressive Diffusion Models. The use of a discriminator to guide a diffusion process has previously been used for continuous diffusion models, and in this work we derive ways of using a discriminator together with a pretrained generative model in the discrete case. First, we show that using an optimal discriminator will correct the pretrained model and enable exact sampling from the underlying data distribution. Second, to account for the realistic scenario of using a sub-optimal discriminator, we derive a sequential Monte Carlo algorithm which iteratively takes the predictions from the discriminator into account during the generation process. We test these approaches on the task of generating molecular graphs and show how the discriminator improves the generative performance over using only the pretrained model. | 翻訳日:2024-11-09 10:01:09 公開日:2024-09-21 |
# Herd: 知的作曲家によるプロプライエタリで大規模なLLMのパフォーマンスに匹敵する、複数の小さなLLMの使用
Herd: Using multiple, smaller LLMs to match the performances of proprietary, large LLMs via an intelligent composer ( http://arxiv.org/abs/2310.19902v2 ) ライセンス: Link先を確認 | Surya Narayanan Hari, Rex Liu, Matt Thomson, | (参考訳) 現在、多目的で、Q&A、テキスト要約、コンテンツ生成など、現実世界のタスクを実行できるLLMは1000以上存在する。
しかしながら、フリーモデルのアクセシビリティ、スケール、信頼性は、日々のユースケースで広くデプロイされるのを防ぐ。
アクセスとスケールの最初の2つの問題に対処するため、HuggingFaceのような組織は、モデルの重み付けと異なるパラダイムを使ってトレーニングされたモデルの定量バージョンをアップロードしたモデルリポジトリと、トレーニングプロセスを記述するモデルカードを作成している。
一般的に使用されているベンチマークのパフォーマンスを報告しているモデルもあるが、全てではない。
ここでは、オープンソースのモデル群が、インテリジェントルータを介して、プロプライエタリなモデルのパフォーマンスに適合または超えることを示す。
本稿では,ChatGPTの精度が2.5倍小さいモデルで構成されているにもかかわらず,オープンソースモデル群がChatGPTの精度と一致することを示す。
GPTがクエリに答えられない場合、Herdは少なくとも40%の確率でモデルを特定することができる。
Currently, over a thousand LLMs exist that are multi-purpose and are capable of performing real world tasks, including Q&A, text summarization, content generation, etc. However, accessibility, scale and reliability of free models prevents them from being widely deployed in everyday use cases. To address the first two issues of access and scale, organisations such as HuggingFace have created model repositories where users have uploaded model weights and quantized versions of models trained using different paradigms, as well as model cards describing their training process. While some models report performance on commonly used benchmarks, not all do, and interpreting the real world impact of trading off performance on a benchmark for model deployment cost, is unclear. Here, we show that a herd of open source models can match or exceed the performance of proprietary models via an intelligent router. We show that a Herd of open source models is able to match the accuracy of ChatGPT, despite being composed of models that are effectively 2.5x smaller. We show that in cases where GPT is not able to answer the query, Herd is able to identify a model that can, at least 40% of the time. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-21 |
# 文書のテンポラルシークエンシング
Temporal Sequencing of Documents ( http://arxiv.org/abs/2311.02578v3 ) ライセンス: Link先を確認 | Michael Gervers, Gelila Tilahun, | (参考訳) 我々は、中世イングランドの資産譲渡文書のコーパスである「アメリカ連邦演説」と「DEEDS」という、歴史的文書の集合を時間順に並べる、教師なしの方法の概要を述べる。
本手法は,非パラメトリック一般化線形モデル(Fan, Heckman, Wand, 1995)の帯域幅推定により,単語使用量の漸進的変化を効果的に把握することに依存する。
帯域幅に関連するコスト関数を検索するために必要なランクオーダーの数は、ドキュメントの小さなセットであっても、非常に大きい。
シミュレート・アニーリング(Simulated Annealing)アルゴリズムを用いた組合せ最適化の問題に対処し、最適文書時間順序を求める。
ランク順序付け法は, ランダムに配列されたベースラインと比較して, 両コーパスの時間的シークエンシングを著しく改善した。
この教師なしのアプローチは、未処理のドキュメントセットの時間的順序付けを可能にするべきである。
We outline an unsupervised method for temporal rank ordering of sets of historical documents, namely American State of the Union Addresses and DEEDS, a corpus of medieval English property transfer documents. Our method relies upon effectively capturing the gradual change in word usage via a bandwidth estimate for the non-parametric Generalized Linear Models (Fan, Heckman, and Wand, 1995). The number of possible rank orders needed to search through for cost functions related to the bandwidth can be quite large, even for a small set of documents. We tackle this problem of combinatorial optimization using the Simulated Annealing algorithm, which allows us to obtain the optimal document temporal orders. Our rank ordering method significantly improved the temporal sequencing of both corpora compared to a randomly sequenced baseline. This unsupervised approach should enable the temporal ordering of undated document sets. | 翻訳日:2024-11-09 09:50:02 公開日:2024-09-21 |
# LogicNet: 論理的一貫性を組み込んだ顔属性学習ネットワーク
LogicNet: A Logical Consistency Embedded Face Attribute Learning Network ( http://arxiv.org/abs/2311.11208v2 ) ライセンス: Link先を確認 | Haiyu Wu, Sicong Tian, Huayu Li, Kevin W. Bowyer, | (参考訳) 予測における論理的一貫性の確保は、多属性分類において決定的だが見落とされた側面である。
この監視の潜在的な理由を探求し、この分野に2つの押し付け課題を紹介します。
1) 論理的整合性をチェックするためにデータでトレーニングされたモデルが、論理的に整合性のある予測をどうやって得るか。
2) 論理的整合性チェックを受けていないデータで、どうやって同じことを達成できますか?
手作業の最小化は、自動化の強化にも不可欠である。
これらの課題に対処するために、FH41KとCelebA-logicという2つのデータセットを導入し、属性間の論理的関係を学習する対角的なトレーニングフレームワークLogicNetを提案する。
LogicNetの精度は、FH37K、FH41K、CelebA-logicでそれぞれ23.05%、9.96%、そして1.71%という、次のベストアプローチよりも高い。
実世界の事例分析では,本手法は他の手法と比較して平均失敗件数の50%以上削減できる。
Ensuring logical consistency in predictions is a crucial yet overlooked aspect in multi-attribute classification. We explore the potential reasons for this oversight and introduce two pressing challenges to the field: 1) How can we ensure that a model, when trained with data checked for logical consistency, yields predictions that are logically consistent? 2) How can we achieve the same with data that hasn't undergone logical consistency checks? Minimizing manual effort is also essential for enhancing automation. To address these challenges, we introduce two datasets, FH41K and CelebA-logic, and propose LogicNet, an adversarial training framework that learns the logical relationships between attributes. Accuracy of LogicNet surpasses that of the next-best approach by 23.05%, 9.96%, and 1.71% on FH37K, FH41K, and CelebA-logic, respectively. In real-world case analysis, our approach can achieve a reduction of more than 50% in the average number of failed cases compared to other methods. | 翻訳日:2024-11-09 09:38:58 公開日:2024-09-21 |
# SAR ATRの自己監督型学習と統合組込み予測アーキテクチャ
Predicting Gradient is Better: Exploring Self-Supervised Learning for SAR ATR with a Joint-Embedding Predictive Architecture ( http://arxiv.org/abs/2311.15153v6 ) ライセンス: Link先を確認 | Weijie Li, Yang Wei, Tianpeng Liu, Yuenan Hou, Yuxuan Li, Zhen Liu, Yongxiang Liu, Li Liu, | (参考訳) 成長するSAR(Synthetic Aperture Radar)データには,SAR自動ターゲット認識(ATR)タスクを大規模未ラベルデータで事前学習し,小さなラベル付きサンプルで微調整することで,自己監視学習(SSL)手法による基礎モデル構築の可能性がある。
SSLはデータから直接監視信号を構築することを目的としており、これは高価な専門家アノテーションの必要性を最小限に抑え、基礎的なモデルのために拡張データプールの使用を最大化する。
本研究では,SAR ATRの基盤モデル構築に有効なSSL方式について検討した。
SAR ATRのSSLで直面する主な障害は、SSLアプローチと信号に対応する、SAR画像のリモートセンシングとスペックルノイズの小さなターゲットである。
これらの課題を克服するために,SAR ATR (SAR-JEPA) のための新しい統合埋め込み予測アーキテクチャを提案する。
SAR-JEPAのキーとなる側面は、SARドメイン機能を統合して、高品質な自己監視シグナルをターゲットとして確保することだ。
さらに、リモートセンシングにおいて、様々な小さなターゲットに対応するために、ローカルマスクとマルチスケール特徴を用いる。
3つの目標認識データセット(車両、船舶、航空機)のフレームワークを事前トレーニングとして微調整し、評価することにより、他のSSLメソッドよりも優れた性能を示し、SARデータの増加による有効性を示す。
この研究は、さまざまなターゲット、シーン、センサーにわたるSARターゲット認識のためのSSLの可能性を示し、我々のコードと重みは \url{https://github.com/waterdisappear/SAR-JEPAで利用可能である。
The growing Synthetic Aperture Radar (SAR) data has the potential to build a foundation model through Self-Supervised Learning (SSL) methods, which can achieve various SAR Automatic Target Recognition (ATR) tasks with pre-training in large-scale unlabeled data and fine-tuning in small labeled samples. SSL aims to construct supervision signals directly from the data, which minimizes the need for expensive expert annotation and maximizes the use of the expanding data pool for a foundational model. This study investigates an effective SSL method for SAR ATR, which can pave the way for a foundation model in SAR ATR. The primary obstacles faced in SSL for SAR ATR are the small targets in remote sensing and speckle noise in SAR images, corresponding to the SSL approach and signals. To overcome these challenges, we present a novel Joint-Embedding Predictive Architecture for SAR ATR (SAR-JEPA), which leverages local masked patches to predict the multi-scale SAR gradient representations of unseen context. The key aspect of SAR-JEPA is integrating SAR domain features to ensure high-quality self-supervised signals as target features. Besides, we employ local masks and multi-scale features to accommodate the various small targets in remote sensing. By fine-tuning and evaluating our framework on three target recognition datasets (vehicle, ship, and aircraft) with four other datasets as pre-training, we demonstrate its outperformance over other SSL methods and its effectiveness with increasing SAR data. This study showcases the potential of SSL for SAR target recognition across diverse targets, scenes, and sensors.Our codes and weights are available in \url{https://github.com/waterdisappear/SAR-JEPA. | 翻訳日:2024-11-09 09:38:57 公開日:2024-09-21 |
# Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning
Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning ( http://arxiv.org/abs/2311.15161v5 ) ライセンス: Link先を確認 | Jiaqi Li, Yuanhao Lai, Rui Wang, Changjian Shui, Sabyasachi Sahoo, Charles X. Ling, Shichun Yang, Boyu Wang, Christian Gagné, Fan Zhou, | (参考訳) 連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本研究では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
重み行列変換を用いて逐次タスクに沿ったパラメータ遷移をモデル化することにより、ニューラルネットワークの各層におけるタスク適応パラメータに低ランク近似を適用することを提案する。
具体的には,ヘッセン近似と提案した低ランク近似の量的関係を理論的に実証する。
近似ランクは、層比勾配と低ランク近似誤差によって推定される経験的損失の限界増加に従って、全世界的に決定される。
さらに,パラメータ成長を抑えるために,重要度を低くすることでモデル容量を制御する。
大規模タスクのデータセットを含む様々なベンチマークで広範な実験を行い、提案手法の有効性と拡張性を示す最新手法と比較する。
実験の結果,提案手法は様々なベンチマークにおいて,特にタスク順序の堅牢性を達成し,忘れる問題に対処する上で,優れた性能を示すことがわかった。
ソースコードはhttps://github.com/lijiaqi/HALRPにある。
Continual learning aims to learn a series of tasks sequentially without forgetting the knowledge acquired from the previous ones. In this work, we propose the Hessian Aware Low-Rank Perturbation algorithm for continual learning. By modeling the parameter transitions along the sequential tasks with the weight matrix transformation, we propose to apply the low-rank approximation on the task-adaptive parameters in each layer of the neural networks. Specifically, we theoretically demonstrate the quantitative relationship between the Hessian and the proposed low-rank approximation. The approximation ranks are then globally determined according to the marginal increment of the empirical loss estimated by the layer-specific gradient and low-rank approximation error. Furthermore, we control the model capacity by pruning less important parameters to diminish the parameter growth. We conduct extensive experiments on various benchmarks, including a dataset with large-scale tasks, and compare our method against some recent state-of-the-art methods to demonstrate the effectiveness and scalability of our proposed method. Empirical results show that our method performs better on different benchmarks, especially in achieving task order robustness and handling the forgetting issue. The source code is at https://github.com/lijiaqi/HALRP. | 翻訳日:2024-11-09 09:38:57 公開日:2024-09-21 |
# シンフォニー:3次元分子生成のための対称性-等変点中心球高調波
Symphony: Symmetry-Equivariant Point-Centered Spherical Harmonics for 3D Molecule Generation ( http://arxiv.org/abs/2311.16199v3 ) ライセンス: Link先を確認 | Ameya Daigavane, Song Kim, Mario Geiger, Tess Smidt, | (参考訳) 分子断片から分子を反復的に生成する3次元分子ジオメトリーのための,$E(3)$-equivariantの自己回帰生成モデルであるSymphonyを提案する。
分子に対するG-SchNetやG-SphereNetのような既存の自己回帰モデルでは、分子の3次元対称性を尊重するために回転不変の特徴を利用する。
対照的に、Symphonyは高次の$E(3)$-equivariant機能を持つメッセージパッシングを使用する。
これにより、球面調和信号による確率分布の新たな表現が可能となり、分子の3次元幾何学を効率的にモデル化することができる。
我々は,SymphonyがQM9データセットから精度よく小さな分子を生成できることを示し,既存の自己回帰モデルより優れ,拡散モデルの性能に近づいていることを示す。
We present Symphony, an $E(3)$-equivariant autoregressive generative model for 3D molecular geometries that iteratively builds a molecule from molecular fragments. Existing autoregressive models such as G-SchNet and G-SphereNet for molecules utilize rotationally invariant features to respect the 3D symmetries of molecules. In contrast, Symphony uses message-passing with higher-degree $E(3)$-equivariant features. This allows a novel representation of probability distributions via spherical harmonic signals to efficiently model the 3D geometry of molecules. We show that Symphony is able to accurately generate small molecules from the QM9 dataset, outperforming existing autoregressive models and approaching the performance of diffusion models. | 翻訳日:2024-11-09 09:38:57 公開日:2024-09-21 |
# VITATECS:ビデオ言語モデルの時間的概念理解のための診断データセット
VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models ( http://arxiv.org/abs/2311.17404v2 ) ライセンス: Link先を確認 | Shicheng Li, Lei Li, Shuhuai Ren, Yuanxin Liu, Yi Liu, Rundong Gao, Xu Sun, Lu Hou, | (参考訳) 時間とともにオブジェクトがどのように変化するかを認識する能力は、人間の知性にとって重要な要素である。
しかし、現在のベンチマークでは静的な視覚的ショートカットが存在するため、ビデオ言語モデル(VidLM)の時間的理解能力を忠実に反映することはできない。
この問題を解決するために、VITATECSという診断用VIdeo-Text dAtasetが提案される。
具体的には、まず、異なる時間的側面を理解するためのVidLMの能力を診断するために、自然言語における時間的概念のきめ細かい分類法を導入する。
さらに,静的な情報と時間的情報の相関関係を解消するために,特定の時間的側面においてのみオリジナルと異なる反実的な映像記述を生成する。
我々は,大規模言語モデルとHuman-in-the-loopアノテーションを用いた半自動データ収集フレームワークを用いて,高品質な偽物記述を効率的に取得する。
代表的なビデオ言語理解モデルの評価は、時間的理解の欠如を確認し、ビデオ言語研究における時間的要素をより強調する必要性を明らかにしている。
The ability to perceive how objects change over time is a crucial ingredient in human intelligence. However, current benchmarks cannot faithfully reflect the temporal understanding abilities of video-language models (VidLMs) due to the existence of static visual shortcuts. To remedy this issue, we present VITATECS, a diagnostic VIdeo-Text dAtaset for the evaluation of TEmporal Concept underStanding. Specifically, we first introduce a fine-grained taxonomy of temporal concepts in natural language in order to diagnose the capability of VidLMs to comprehend different temporal aspects. Furthermore, to disentangle the correlation between static and temporal information, we generate counterfactual video descriptions that differ from the original one only in the specified temporal aspect. We employ a semi-automatic data collection framework using large language models and human-in-the-loop annotation to obtain high-quality counterfactual descriptions efficiently. Evaluation of representative video-language understanding models confirms their deficiency in temporal understanding, revealing the need for greater emphasis on the temporal elements in video-language research. | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-21 |
# Diffence: メンバーシップのプライバシを拡散モデルで表現する
Diffence: Fencing Membership Privacy With Diffusion Models ( http://arxiv.org/abs/2312.04692v2 ) ライセンス: Link先を確認 | Yuefeng Peng, Ali Naseh, Amir Houmansadr, | (参考訳) ディープラーニングモデルは、優れたパフォーマンスを達成する一方で、メンバシップ推論攻撃(MIA)に対して脆弱である。
様々な防衛策が提案されているが、プライバシ・ユーティリティ・トレードオフの改善の余地は依然として残っている。
本研究では, 生成モデルを利用したMIAに対する新たな防御フレームワークを提案する。
防衛における重要な直感は、MIAによって活用されるメンバーと非メンバーの入力の差を、ターゲットモデルに供給する前に入力サンプルを再生成することで除去することである。
したがって、DIFFENCEと呼ばれる我々の防衛は事前推論を行うが、これは訓練時間または後推論時間である以前の防衛とは違っている。
DIFFENCEのユニークな特徴は、ターゲットモデルのトレーニングや推論フェーズを変更することなく、入力サンプルのみで動作することである。
したがって、実験を通じて示すように、他の防御機構とカスケードすることができる。
DIFFENCEはサンプル毎にモデルの予測ラベルを保持するように設計されており、精度に影響を与えない。
さらに,信頼性ベクトルの有用性を低下させるものではないことを実証的に実証した。
広汎な実験により、DIFFENCEは、モデルユーティリティを犠牲にすることなく、メンバーシッププライバシを向上し、堅牢なUSB-n-play防衛機構として機能することを示します。
例えば、DIFFENCEは、未定義のモデルに対するMIAの精度を15.8\%削減し、3つのデータセットの平均でAUCを14.0\%攻撃する。
DIFFENCEを事前の防御と統合することにより、プライバシユーティリティのトレードオフにおいて、最先端の新たなパフォーマンスを実現することができる。
例えば、最先端のSELENAディフェンスと組み合わせると、攻撃精度は9.3\%減少し、AUCは10.0\%低下する。
DIFFENCEは、無視可能な計算オーバーヘッドを課し、平均的に処理されたサンプル当たりの推論時間に57msしか追加しない。
Deep learning models, while achieving remarkable performances, are vulnerable to membership inference attacks (MIAs). Although various defenses have been proposed, there is still substantial room for improvement in the privacy-utility trade-off. In this work, we introduce a novel defense framework against MIAs by leveraging generative models. The key intuition of our defense is to remove the differences between member and non-member inputs, which is exploited by MIAs, by re-generating input samples before feeding them to the target model. Therefore, our defense, called DIFFENCE, works pre inference, which is unlike prior defenses that are either training-time or post-inference time. A unique feature of DIFFENCE is that it works on input samples only, without modifying the training or inference phase of the target model. Therefore, it can be cascaded with other defense mechanisms as we demonstrate through experiments. DIFFENCE is designed to preserve the model's prediction labels for each sample, thereby not affecting accuracy. Furthermore, we have empirically demonstrated it does not reduce the usefulness of confidence vectors. Through extensive experimentation, we show that DIFFENCE can serve as a robust plug-n-play defense mechanism, enhancing membership privacy without compromising model utility. For instance, DIFFENCE reduces MIA accuracy against an undefended model by 15.8\% and attack AUC by 14.0\% on average across three datasets, all without impacting model utility. By integrating DIFFENCE with prior defenses, we can achieve new state-of-the-art performances in the privacy-utility trade-off. For example, when combined with the state-of-the-art SELENA defense it reduces attack accuracy by 9.3\%, and attack AUC by 10.0\%. DIFFENCE achieves this by imposing a negligible computation overhead, adding only 57ms to the inference time per sample processed on average. | 翻訳日:2024-11-09 09:27:53 公開日:2024-09-21 |
# 自己申告型技術的負債検出手法:10年次システムレビュー
Self-Admitted Technical Debt Detection Approaches: A Decade Systematic Review ( http://arxiv.org/abs/2312.15020v3 ) ライセンス: Link先を確認 | Edi Sutoyo, Andrea Capiluppi, | (参考訳) 技術的負債(Technical debt, TD)とは、ソフトウェア開発において、短期的なデリバリ目標を達成するために行われる、最適な設計やコード決定に関連する長期的なコストのことである。
Self-Admitted Technical Debt (SATD) は、開発者がコードベースで、通常コメントやアノテーションを通じて、これらのトレードオフを明確に認めるときに発生する。
SATDの自動検出は、特に自然言語処理(NLP)、機械学習(ML)、SATD検出の合理化を目的としたディープラーニング(DL)技術の台頭により、ますます重要な研究領域となっている。
この体系的な文献レビューは、2014年から2024年にかけて発行されたSATD検出アプローチを包括的に分析し、NLPベースのモデルからより高度なML、DL、BERTのようなトランスフォーマーベースのモデルへの進化に焦点を当てている。
このレビューでは、SATD検出手法とツールの主なトレンドを特定し、精度、リコール、F1スコアといったメトリクスを用いて異なるアプローチの有効性を評価し、データセットの不均一性、モデルの一般化可能性、モデルの説明可能性など、この分野における主要な課題を強調している。
その結果,早期のNLP法はSATD検出の基礎となったが,近年のDLモデルとTransformersモデルの進歩により検出精度が大幅に向上したことが示唆された。
しかし、これらのモデルを幅広い産業用途に拡張することは依然として課題である。
このSLRは、現在の研究ギャップに関する洞察を提供し、SATD検出ツールの堅牢性と実用性を改善することを目的として、今後の研究の方向性を提供する。
Technical debt (TD) represents the long-term costs associated with suboptimal design or code decisions in software development, often made to meet short-term delivery goals. Self-Admitted Technical Debt (SATD) occurs when developers explicitly acknowledge these trade-offs in the codebase, typically through comments or annotations. Automated detection of SATD has become an increasingly important research area, particularly with the rise of natural language processing (NLP), machine learning (ML), and deep learning (DL) techniques that aim to streamline SATD detection. This systematic literature review provides a comprehensive analysis of SATD detection approaches published between 2014 and 2024, focusing on the evolution of techniques from NLP-based models to more advanced ML, DL, and Transformers-based models such as BERT. The review identifies key trends in SATD detection methodologies and tools, evaluates the effectiveness of different approaches using metrics like precision, recall, and F1-score, and highlights the primary challenges in this domain, including dataset heterogeneity, model generalizability, and the explainability of models. The findings suggest that while early NLP methods laid the foundation for SATD detection, more recent advancements in DL and Transformers models have significantly improved detection accuracy. However, challenges remain in scaling these models for broader industrial use. This SLR offers insights into current research gaps and provides directions for future work, aiming to improve the robustness and practicality of SATD detection tools. | 翻訳日:2024-11-09 09:05:28 公開日:2024-09-21 |
# RoTBench: ツール学習における大規模言語モデルのロバスト性を評価するためのマルチレベルベンチマーク
RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning ( http://arxiv.org/abs/2401.08326v3 ) ライセンス: Link先を確認 | Junjie Ye, Yilong Wu, Songyang Gao, Caishuang Huang, Sixian Li, Guanyu Li, Xiaoran Fan, Qi Zhang, Tao Gui, Xuanjing Huang, | (参考訳) ツール学習は、大規模言語モデル(LLM)と物理世界との相互作用の重要な手段として、広く関心を集めている。
現在の研究は、LLMが環境が整った環境でツールを利用する能力を強調しつつ、現実の必然的な騒音に直面した際の安定性を見落としている。
このギャップを埋めるために,ツール学習におけるLLMの堅牢性を評価するマルチレベルベンチマークであるRoTBenchを導入する。
具体的には、さまざまなレベルのノイズ(クリーン、ライト、ミディアム、ヘビー、ユニオン)を特徴とする5つの外部環境を構築し、ツール選択、パラメータ識別、コンテンツ充足という3つの重要なフェーズにわたるモデルのレジリエンスを詳細に分析する。
広く使われている6つのモデルを含む実験は、ツール学習におけるLLMの堅牢性を高めるための緊急の必要性を浮き彫りにした。
例えば、GPT-4の性能は80.00から58.10に大幅に低下する。
さらに驚くべきことに、GPTファミリー固有のノイズ補正機能は、軽度のノイズに直面した場合の適応性をパラドックス的に阻害する。
これらの知見を踏まえて,ツール学習におけるLDMの堅牢性を高めるために,学習環境の多様性を高める戦略であるRoTTuningを提案する。
コードとデータはhttps://github.com/Junjie-Ye/RoTBench.comで公開されている。
Tool learning has generated widespread interest as a vital means of interaction between Large Language Models (LLMs) and the physical world. Current research predominantly emphasizes LLMs' capacity to utilize tools in well-structured environments while overlooking their stability when confronted with the inevitable noise of the real world. To bridge this gap, we introduce RoTBench, a multi-level benchmark for evaluating the robustness of LLMs in tool learning. Specifically, we establish five external environments, each featuring varying levels of noise (i.e., Clean, Slight, Medium, Heavy, and Union), providing an in-depth analysis of the model's resilience across three critical phases: tool selection, parameter identification, and content filling. Experiments involving six widely-used models underscore the urgent necessity for enhancing the robustness of LLMs in tool learning. For instance, the performance of GPT-4 even drops significantly from 80.00 to 58.10 when there is no substantial change in manual accuracy. More surprisingly, the noise correction capability inherent in the GPT family paradoxically impedes its adaptability in the face of mild noise. In light of these findings, we propose RoTTuning, a strategy that enriches the diversity of training environments to bolster the robustness of LLMs in tool learning. The code and data are available at https://github.com/Junjie-Ye/RoTBench. | 翻訳日:2024-11-09 05:17:12 公開日:2024-09-21 |
# 効率性と等価性のための混雑価格:サンフランシスコ湾地域における理論と応用
Congestion Pricing for Efficiency and Equity: Theory and Applications to the San Francisco Bay Area ( http://arxiv.org/abs/2401.16844v2 ) ライセンス: Link先を確認 | Chinmay Maheshwari, Kshitij Kulkarni, Druv Pai, Jiarui Yang, Manxi Wu, Shankar Sastry, | (参考訳) 渋滞料金は、交通渋滞を軽減するために多くの都市で採用されているが、低所得旅行者への不均衡な影響により、社会経済的格差の拡大への懸念が高まっている。
この懸念に対処するために、総旅行時間を最小限に抑えるだけでなく、収益の異なる人口間の旅行コストの相対的変化の格差を減らし、公平な目標も取り入れた、新たな渋滞価格体系を提案する。
本分析は,異質な旅行者数を持つ混雑ゲームモデルに基づく。
例えば、様々な旅行者に対して差別化された料金を課金する機能や、ネットワーク内のエッジのすべてまたは一部だけを課金するオプションなどである。
サンフランシスコ・ベイエリアの校正高速道路網における料金体系について検討した。
提案した渋滞価格体系は,現在の価格体系と比較して,旅行時間と株式目標の両方を改善できることを実証する。
以上の結果から,旅行者に対する価格の差による価格の変動が旅行コストの均質化に寄与していることが示唆された。
Congestion pricing, while adopted by many cities to alleviate traffic congestion, raises concerns about widening socioeconomic disparities due to its disproportionate impact on low-income travelers. We address this concern by proposing a new class of congestion pricing schemes that not only minimize total travel time, but also incorporate an equity objective, reducing disparities in the relative change in travel costs across populations with different incomes, following the implementation of tolls. Our analysis builds on a congestion game model with heterogeneous traveler populations. We present four pricing schemes that account for practical considerations, such as the ability to charge differentiated tolls to various traveler populations and the option to toll all or only a subset of edges in the network. We evaluate our pricing schemes in the calibrated freeway network of the San Francisco Bay Area. We demonstrate that the proposed congestion pricing schemes improve both the total travel time and the equity objective compared to the current pricing scheme. Our results further show that pricing schemes charging differentiated prices to traveler populations with varying value-of-time lead to a more equitable distribution of travel costs compared to those that charge a homogeneous price to all. | 翻訳日:2024-11-09 05:06:11 公開日:2024-09-21 |
# OV-NeRF:3次元意味理解のための視覚モデルと言語基礎モデルを用いたオープンボキャブラリニューラルラジアンス場
OV-NeRF: Open-vocabulary Neural Radiance Fields with Vision and Language Foundation Models for 3D Semantic Understanding ( http://arxiv.org/abs/2402.04648v2 ) ライセンス: Link先を確認 | Guibiao Liao, Kaichen Zhou, Zhenyu Bao, Kanglin Liu, Qing Li, | (参考訳) ニューラル・レージアンス・フィールド(NeRF)の開発は、3Dシーンの幾何学的特徴と外観特性をカプセル化するための強力な表現を提供する。
オープンな3次元意味認識タスクにおけるNeRFの能力向上は近年注目されている。
しかし、CLIPが提供するノイズやビュー一貫性のないセマンティックスにより、セマンティックフィールド学習の難しさに対処するために、Contrastive Language-Image Pretraining(CLIP)から直接セマンティクスを抽出する現在の手法が提案されている。
これらの制約に対処するため,我々は,事前学習された視覚と言語基盤モデルの可能性を生かして,単一視点とクロスビュー戦略によるセマンティックフィールド学習を強化するOV-NeRFを提案する。
まず,Segment Anything (SAM) から派生した2次元マスクの提案を活用して,各学習視点の雑音的セマンティックスを補正し,正確なセマンティック・フィールド・ラーニングを容易にすることで,地域セマンティック・ランキング(RSR)正則化を導入する。
第2に,クロスビューの観点から,ビュー・一貫性のないセマンティクスによって提起された課題に対処する,クロスビュー・セルフエンハンスメント(CSE)戦略を提案する。
CLIPからの2Dの一貫性のないセマンティクスを必ず活用するのではなく、CSEは、よく訓練されたセマンティクスフィールド自体から生成された3D一貫性のあるセマンティクスを、セマンティクスのトレーニングに活用する。
大規模な実験により、我々のOV-NeRFは現在の最先端手法よりも優れており、それぞれReplicaとScanNetのmIoU測定値において20.31%と18.42%の大幅な改善が達成されている。
さらに, 各種CLIP構成に対して一貫した優れた結果を示し, その堅牢性を検証した。
プロジェクトページ:https://github.com/pcl3dv/OV-NeRF。
The development of Neural Radiance Fields (NeRFs) has provided a potent representation for encapsulating the geometric and appearance characteristics of 3D scenes. Enhancing the capabilities of NeRFs in open-vocabulary 3D semantic perception tasks has been a recent focus. However, current methods that extract semantics directly from Contrastive Language-Image Pretraining (CLIP) for semantic field learning encounter difficulties due to noisy and view-inconsistent semantics provided by CLIP. To tackle these limitations, we propose OV-NeRF, which exploits the potential of pre-trained vision and language foundation models to enhance semantic field learning through proposed single-view and cross-view strategies. First, from the single-view perspective, we introduce Region Semantic Ranking (RSR) regularization by leveraging 2D mask proposals derived from Segment Anything (SAM) to rectify the noisy semantics of each training view, facilitating accurate semantic field learning. Second, from the cross-view perspective, we propose a Cross-view Self-enhancement (CSE) strategy to address the challenge raised by view-inconsistent semantics. Rather than invariably utilizing the 2D inconsistent semantics from CLIP, CSE leverages the 3D consistent semantics generated from the well-trained semantic field itself for semantic field training, aiming to reduce ambiguity and enhance overall semantic consistency across different views. Extensive experiments validate our OV-NeRF outperforms current state-of-the-art methods, achieving a significant improvement of 20.31% and 18.42% in mIoU metric on Replica and ScanNet, respectively. Furthermore, our approach exhibits consistent superior results across various CLIP configurations, further verifying its robustness. Project page: https://github.com/pcl3dv/OV-NeRF. | 翻訳日:2024-11-09 04:54:55 公開日:2024-09-21 |
# ForestColl: 異種ネットワークファブリック上での効率的な集合的コミュニケーション
ForestColl: Efficient Collective Communications on Heterogeneous Network Fabrics ( http://arxiv.org/abs/2402.06787v2 ) ライセンス: Link先を確認 | Liangyu Zhao, Saeed Maleki, Aashaka Shah, Ziyue Yang, Hossein Pourreza, Arvind Krishnamurthy, | (参考訳) 現代のDNNモデルがさらに大きくなるにつれて、アクセラレータ(Allreduceなど)間の集団通信が重要なパフォーマンスボトルネックとして現れます。
今日の高度に多様性があり異質なネットワークファブリックを考えると、効率的な通信スケジュールの設計は困難である。
本稿では,ネットワークトポロジの動作スケジュールを生成するツールであるフォレストコールについて述べる。
ForestCollは、木にまたがるブロードキャスト/アグリゲーションを通信スケジュールとして構築し、理論的に最適なスループットを達成する。
そのスケジュール生成は強い多項式時間で実行され、非常にスケーラブルである。
ForestCollは、スイッチングファブリックとダイレクト接続の両方を含む、ネットワークファブリックをサポートする。
マルチボックスAMD MI250およびNVIDIA DGX A100プラットフォーム上でのフォレストコールの評価を行った。
ForestCollのスケジュールは、ベンダーの最適化された通信ライブラリであるRCCLとNCCLと比べて最大130%高いパフォーマンスを提供し、LLMトレーニングでは20%のスピードアップを達成した。
ForestCollは、他の最先端のスケジュール生成技術よりも、最大で61%効率良く生成されたスケジュールと、桁違いに高速なスケジュール生成速度を達成している。
As modern DNN models grow ever larger, collective communications between the accelerators (allreduce, etc.) emerge as a significant performance bottleneck. Designing efficient communication schedules is challenging, given today's highly diverse and heterogeneous network fabrics. In this paper, we present ForestColl, a tool that generates performant schedules for any network topology. ForestColl constructs broadcast/aggregation spanning trees as the communication schedule, achieving theoretically optimal throughput. Its schedule generation runs in strongly polynomial time and is highly scalable. ForestColl supports any network fabric, including both switching fabrics and direct connections. We evaluated ForestColl on multi-box AMD MI250 and NVIDIA DGX A100 platforms. ForestColl's schedules delivered up to 130% higher performance compared to the vendors' own optimized communication libraries, RCCL and NCCL, and achieved a 20% speedup in LLM training. ForestColl also outperforms other state-of-the-art schedule generation techniques with both up to 61% more efficient generated schedules and orders of magnitude faster schedule generation speed. | 翻訳日:2024-11-09 04:54:55 公開日:2024-09-21 |
# RAMP:Universal Robustnessに対する複数の$l_p$摂動に対する対向ロバスト性を高める
RAMP: Boosting Adversarial Robustness Against Multiple $l_p$ Perturbations for Universal Robustness ( http://arxiv.org/abs/2402.06827v2 ) ライセンス: Link先を確認 | Enyi Jiang, Gagandeep Singh, | (参考訳) 既存のほとんどの研究は、敵の攻撃に対する堅牢性の改善に重点を置いており、敵の訓練(AT)を用いて1ドル=l_p$ノルムで縛られている。
しかし、これらのATモデルの多重ノルムロバスト性(ユニオン精度)は依然として低く、現実世界では、敵が必ずしも単一のノルムに縛られるとは限らないため、非常に重要である。
複数の$l_p$摂動に対するロバスト性と精度/ロバスト性の間のトレードオフは、良好な結合とクリーンな精度を得ることを困難にしている。
分配シフトのレンズからのトレードオフを分析することにより、結合精度を向上させるためにロジットペアリング損失を設計する。
我々は、NTからATに有用な情報を組み込むために、勾配投影を介して自然訓練(NT)とATを結びつける。
本稿では,複数の$l_p$摂動に対するロバスト性を高めるために,新しいトレーニングフレームワーク \textbf{RAMP} を提案する。
textbf{RAMP} は、頑健で完全なATに容易に適応できる。
堅牢な微調整のために、 \textbf{RAMP}は、CIFAR-10で最大53.3\%、ImageNetで最大29.1\%のユニオン精度を得る。
スクラッチからトレーニングするために、 \textbf{RAMP} は44.6\%$の結合精度と、CIFAR-10 の AutoAttack に対して ResNet-18 で81.2\%$のクリーン精度を達成している。
マルチノームロバストネス \textbf{RAMP}-トレーニングされたモデルは、より優れた \textit{universal robustness} を達成する。
Most existing works focus on improving robustness against adversarial attacks bounded by a single $l_p$ norm using adversarial training (AT). However, these AT models' multiple-norm robustness (union accuracy) is still low, which is crucial since in the real-world an adversary is not necessarily bounded by a single norm. The tradeoffs among robustness against multiple $l_p$ perturbations and accuracy/robustness make obtaining good union and clean accuracy challenging. We design a logit pairing loss to improve the union accuracy by analyzing the tradeoffs from the lens of distribution shifts. We connect natural training (NT) with AT via gradient projection, to incorporate useful information from NT into AT, where we empirically and theoretically show it moderates the accuracy/robustness tradeoff. We propose a novel training framework \textbf{RAMP}, to boost the robustness against multiple $l_p$ perturbations. \textbf{RAMP} can be easily adapted for robust fine-tuning and full AT. For robust fine-tuning, \textbf{RAMP} obtains a union accuracy up to $53.3\%$ on CIFAR-10, and $29.1\%$ on ImageNet. For training from scratch, \textbf{RAMP} achieves a union accuracy of $44.6\%$ and good clean accuracy of $81.2\%$ on ResNet-18 against AutoAttack on CIFAR-10. Beyond multi-norm robustness \textbf{RAMP}-trained models achieve superior \textit{universal robustness}, effectively generalizing against a range of unseen adversaries and natural corruptions. | 翻訳日:2024-11-09 04:54:55 公開日:2024-09-21 |
# Adaptive Conjecturesを用いたオンライン学習によるセキュリティ応答の自動生成
Automated Security Response through Online Learning with Adaptive Conjectures ( http://arxiv.org/abs/2402.12499v3 ) ライセンス: Link先を確認 | Kim Hammar, Tao Li, Rolf Stadler, Quanyan Zhu, | (参考訳) 筆者らは,ITインフラの自動セキュリティ対応について検討し,攻撃者と守備者のインタラクションを部分的に観察された非静止ゲームとして定式化する。
ゲームモデルが正しく指定されているという標準的な仮定を緩和し、各プレイヤーがモデルに関する確率的予想を持っていることを考慮し、真のモデルが確率 0 を持つという意味では誤特定されるかもしれない。
この定式化によって、インフラストラクチャやプレーヤの意図に関する不確実性と誤解を捉えることができます。
オンラインゲーム戦略を効果的に学習するために,プレイヤーがベイズ学習を用いて予想を反復的に適応し,ロールアウトを通じて戦略を更新する新しい手法であるConjectural Online Learning (COL)を設計する。
我々は、予想が最適に収まることを証明し、予想モデルでロールアウトが許容する性能改善の限界を提供する。
ゲームの定常状態を特徴づけるために,バーク・ナッシュ均衡の変種を提案する。
我々は、先進的な持続的脅威ユースケースを通してCOLを提示する。
テストベッド評価は、COLが変化する環境に適応する効果的なセキュリティ戦略を生成することを示している。
また、COLは現在の強化学習技術よりも高速な収束を可能にする。
We study automated security response for an IT infrastructure and formulate the interaction between an attacker and a defender as a partially observed, non-stationary game. We relax the standard assumption that the game model is correctly specified and consider that each player has a probabilistic conjecture about the model, which may be misspecified in the sense that the true model has probability 0. This formulation allows us to capture uncertainty and misconception about the infrastructure and the intents of the players. To learn effective game strategies online, we design Conjectural Online Learning (COL), a novel method where a player iteratively adapts its conjecture using Bayesian learning and updates its strategy through rollout. We prove that the conjectures converge to best fits, and we provide a bound on the performance improvement that rollout enables with a conjectured model. To characterize the steady state of the game, we propose a variant of the Berk-Nash equilibrium. We present COL through an advanced persistent threat use case. Testbed evaluations show that COL produces effective security strategies that adapt to a changing environment. We also find that COL enables faster convergence than current reinforcement learning techniques. | 翻訳日:2024-11-09 04:43:41 公開日:2024-09-21 |
# 思考の連鎖が変圧器に根源的なシリアル問題を解く力を与える
Chain of Thought Empowers Transformers to Solve Inherently Serial Problems ( http://arxiv.org/abs/2402.12875v4 ) ライセンス: Link先を確認 | Zhiyuan Li, Hong Liu, Denny Zhou, Tengyu Ma, | (参考訳) モデルに中間段階、すなわち思考の連鎖(CoT)を生成するように指示することは、算術やシンボリック推論タスクにおいて大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
しかし、CoTの背後にあるメカニズムは未だに不明である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
概念的には、CoTはモデルに本質的にシリアルな計算を実行する能力を持たせる。
入力長$n$が与えられたとき、以前の研究は有限精度$\mathsf{poly}(n)$埋め込みサイズを持つ定数深度変換器は、CoTのない$\mathsf{TC}^0$でしか解決できないことを示した。
まず、定数ビット精度を持つ定数深度変換器に対して、より厳密な表現性上限を示す。これは、$ \mathsf{TC}^0$ の固有部分集合である $\mathsf{AC}^0$ の問題を解くことしかできない。
しかし、CoTの$T$ステップでは、定数ビット精度と$O(\log n)$埋め込みサイズを使った定数深度変換器は、サイズ$T$のブール回路で解けるあらゆる問題を解くことができる。
経験的に、CoTを有効にすることで、特に低深度トランスフォーマーにおいて、置換群、反復スクアリング、回路値問題などの並列計算に苦しむタスクの精度が劇的に向上する。
Instructing the model to generate a sequence of intermediate steps, a.k.a., a chain of thought (CoT), is a highly effective method to improve the accuracy of large language models (LLMs) on arithmetics and symbolic reasoning tasks. However, the mechanism behind CoT remains unclear. This work provides a theoretical understanding of the power of CoT for decoder-only transformers through the lens of expressiveness. Conceptually, CoT empowers the model with the ability to perform inherently serial computation, which is otherwise lacking in transformers, especially when depth is low. Given input length $n$, previous works have shown that constant-depth transformers with finite precision $\mathsf{poly}(n)$ embedding size can only solve problems in $\mathsf{TC}^0$ without CoT. We first show an even tighter expressiveness upper bound for constant-depth transformers with constant-bit precision, which can only solve problems in $\mathsf{AC}^0$, a proper subset of $ \mathsf{TC}^0$. However, with $T$ steps of CoT, constant-depth transformers using constant-bit precision and $O(\log n)$ embedding size can solve any problem solvable by boolean circuits of size $T$. Empirically, enabling CoT dramatically improves the accuracy for tasks that are hard for parallel computation, including the composition of permutation groups, iterated squaring, and circuit value problems, especially for low-depth transformers. | 翻訳日:2024-11-09 04:32:42 公開日:2024-09-21 |
# 合成関係推論における大規模言語モデルの限界を探る
Exploring the Limitations of Large Language Models in Compositional Relation Reasoning ( http://arxiv.org/abs/2403.02615v2 ) ライセンス: Link先を確認 | Jinman Zhao, Xueyan Zhang, | (参考訳) 本稿では, 大規模言語モデル (LLM) の合成関係を, 位置, 比較, 個人, 数学的, アイデンティティ, その他の6つの異なる種類の合成関係をカバーするために設計した, 1500の試験事例を含むベンチマークを用いて, 構成関係を推論する能力の総合評価を行う。
多言語能力の重要性を認め,これらの症例の中国語,日本語,フランス語,韓国語への翻訳を含むように評価を拡大した。
我々のMCR(Multilingual composition Relation)ベンチマークは,多言語文脈における構成関係推論におけるLLMの堅牢性と適応性について検討することを目的としている。
We present a comprehensive evaluation of large language models(LLMs)' ability to reason about composition relations through a benchmark encompassing 1,500 test cases in English, designed to cover six distinct types of composition relations: Positional, Comparative, Personal, Mathematical, Identity, and Other. Acknowledging the significance of multilingual capabilities, we expanded our assessment to include translations of these cases into Chinese, Japanese, French, and Korean. Our Multilingual Composition Relation (MCR) benchmark aims at investigating the robustness and adaptability of LLMs in handling composition relation reasoning across diverse linguistic contexts. | 翻訳日:2024-11-09 04:21:34 公開日:2024-09-21 |
# AgentsCourt: 裁判所論争シミュレーションと法的知識強化による司法判断エージェントの構築
AgentsCourt: Building Judicial Decision-Making Agents with Court Debate Simulation and Legal Knowledge Augmentation ( http://arxiv.org/abs/2403.02959v3 ) ライセンス: Link先を確認 | Zhitao He, Pengfei Cao, Chenhao Wang, Zhuoran Jin, Yubo Chen, Jiexin Xu, Huaijun Li, Xiaojian Jiang, Kang Liu, Jun Zhao, | (参考訳) ディープラーニングの発展に伴い、自然言語処理技術は伝統的な司法産業の様々な面の効率を効果的に改善した。
しかし、現在のほとんどの取り組みは、個々の司法段階におけるタスクに焦点を当てており、複数の段階にまたがる複雑なタスクを扱うのは困難である。
大きな言語モデルを利用した自律型エージェントがますます賢くなり、現実世界の設定で複雑な決定を下すようになり、司法情報に新たな洞察を与えている。
本稿では, 司法判断のための新しいマルチエージェントフレームワーク, AgentsCourtを提案する。
我々の枠組みは、裁判所の審理シミュレーション、法的資源の検索、および審査員の判断をシミュレートする意思決定改善からなる古典的な審理プロセスに従う。
2)420の中国判決文書を包含する司法基準であるSimuCourtを導入する。
さらに,この課題を支援するために,複数リソースの法知識を持つ大規模法知識基盤である法定KBを構築した。
以上の結果から,本フレームワークは,特に法律項目の生成において,第1および第2のインスタンス設定において,それぞれ8.6%,第9.1%のF1スコアの大幅な改善を達成している。
With the development of deep learning, natural language processing technology has effectively improved the efficiency of various aspects of the traditional judicial industry. However, most current efforts focus on tasks within individual judicial stages, making it difficult to handle complex tasks that span multiple stages. As the autonomous agents powered by large language models are becoming increasingly smart and able to make complex decisions in real-world settings, offering new insights for judicial intelligence. In this paper, (1) we propose a novel multi-agent framework, AgentsCourt, for judicial decision-making. Our framework follows the classic court trial process, consisting of court debate simulation, legal resources retrieval and decision-making refinement to simulate the decision-making of judge. (2) we introduce SimuCourt, a judicial benchmark that encompasses 420 Chinese judgment documents, spanning the three most common types of judicial cases. Furthermore, to support this task, we construct a large-scale legal knowledge base, Legal-KB, with multi-resource legal knowledge. (3) Extensive experiments show that our framework outperforms the existing advanced methods in various aspects, especially in generating legal articles, where our model achieves significant improvements of 8.6% and 9.1% F1 score in the first and second instance settings, respectively. | 翻訳日:2024-11-09 04:21:34 公開日:2024-09-21 |
# カベロの高次元多元系に対する非局所性論証とその実験的検討
Cabello's nonlocality argument for multisetting high-dimensional systems and its experimental test ( http://arxiv.org/abs/2403.07417v2 ) ライセンス: Link先を確認 | M. Yang, D. Zhang, L. Chen, | (参考訳) 近年の進歩により、ハーディの非局所性議論は量子相関性を高めるために多重集合系や多次元系へと拡張された。
ハーディの非局所的議論と比較すると、カベロの非局所的議論(CNA)は非局所的特徴を説明できる優れた選択肢として現れる。
オープンな質問は、任意の (k, d) シナリオへの CNA の潜在的な拡張に関して持続する。
ここでは、理論と実験の両方においてこの疑問に答える。
理論的には、整合性グラフを利用することで、k と d の設定による最大成功確率の増加を示す、多重集合と多次元 CNA のための新しい論理的枠組みを構築する。
実験的に、制御可能なフォトニック軌道角運動量エンタングルメントを用いて、実験的に記録された (2, 4) シナリオで 20.29%、 (6, 2) シナリオで 28.72% の非局所性を示す。
我々の研究は、量子力学と古典理論の矛盾を鮮明に示しており、原版で制限された限界を超えている。
Recent advancements have expanded Hardy's nonlocality arguments into multisetting and multidimensional systems to enhance quantum correlations. In comparison with Hardy's nonlocal argument, Cabello's nonlocal argument (CNA) emerges as a superior choice for illustrating nonlocal features. An open question persists regarding the potential extension of CNA to arbitrary (k, d) scenarios. Here, we answer this question both in theory and experiment. Theoretically, by utilizing compatibility graphs, we construct a new logical framework for multisetting and multidimensional CNA, demonstrating an increase in the maximum successful probability with setting k and dimension d. Experimentally, by employing controllable photonic orbital angular momentum entanglement, we exhibit nonlocality with an experimentally recorded probability of 20.29% in the (2, 4) scenario and 28.72% in the (6, 2) scenario. Our work showcases a sharper contradiction between quantum mechanics and classical theory, surpassing the bound limited by the original version. | 翻訳日:2024-11-09 04:10:35 公開日:2024-09-21 |
# 糖尿病ネット:糖尿病診断のためのディープラーニングアプローチ
DiabetesNet: A Deep Learning Approach to Diabetes Diagnosis ( http://arxiv.org/abs/2403.07483v2 ) ライセンス: Link先を確認 | Zeyu Zhang, Khandaker Asif Ahmed, Md Rakibul Hasan, Tom Gedeon, Md Zakir Hossain, | (参考訳) 糖尿病はインスリンの生産や利用が不十分なため、体に大きな損傷を与える。
既存の診断手法は、しばしば侵襲的であり、コスト制約のような欠点が伴う。
Classwise k Nearest Neighbor(CkNN)やGeneral Regression Neural Network(GRNN)のような機械学習モデルもあるが、不均衡なデータに悩まされ、パフォーマンスが低くなる。
センサ技術と機械学習の進歩を生かして,バッチ正規化を備えたバックプロパゲーションニューラルネットワーク(BPNN)を用いた非侵襲的糖尿病診断を提案する。
本手法は,従来の機械学習に係わる性能の制限など,既存の課題に対処する。
3つのデータセットの実験結果は、従来の手法と比較して、全体的な精度、感度、特異性を大幅に改善したことを示している。
特に、ピマ糖尿病データセットは89.81%、CDC BRFSS2015データセットは75.49%、Mesra Diabetesデータセットは95.28%である。
このことは、堅牢な糖尿病診断のためのディープラーニングモデルの可能性を示している。
プロジェクト https://steve-zeyu-zhang.github.io/Diabetes Diagnosis/
Diabetes, resulting from inadequate insulin production or utilization, causes extensive harm to the body. Existing diagnostic methods are often invasive and come with drawbacks, such as cost constraints. Although there are machine learning models like Classwise k Nearest Neighbor (CkNN) and General Regression Neural Network (GRNN), they struggle with imbalanced data and result in under-performance. Leveraging advancements in sensor technology and machine learning, we propose a non-invasive diabetes diagnosis using a Back Propagation Neural Network (BPNN) with batch normalization, incorporating data re-sampling and normalization for class balancing. Our method addresses existing challenges such as limited performance associated with traditional machine learning. Experimental results on three datasets show significant improvements in overall accuracy, sensitivity, and specificity compared to traditional methods. Notably, we achieve accuracies of 89.81% in Pima diabetes dataset, 75.49% in CDC BRFSS2015 dataset, and 95.28% in Mesra Diabetes dataset. This underscores the potential of deep learning models for robust diabetes diagnosis. See project website https://steve-zeyu-zhang.github.io/DiabetesDiagnosis/ | 翻訳日:2024-11-09 04:10:35 公開日:2024-09-21 |
# P2LHAP:Patch-to-Label Seq2Seq Transformerによるセンサによる人間の活動認識・セグメンテーション・予測
P2LHAP:Wearable sensor-based human activity recognition, segmentation and forecast through Patch-to-Label Seq2Seq Transformer ( http://arxiv.org/abs/2403.08214v3 ) ライセンス: Link先を確認 | Shuangjian Li, Tao Zhu, Mingxing Nie, Huansheng Ning, Zhenyu Liu, Liming Chen, | (参考訳) 従来のディープラーニング手法は、センサーデータから人間の活動のセグメンテーション、認識、予測を同時に行うのに苦労する。
これにより、医療や生活支援など多くの分野において、継続的な活動や今後の活動のリアルタイム理解が不可欠である。
本稿ではP2LHAPについて紹介する。これはPatch-to-Label Seq2Seqフレームワークで、効率的な単一タスクモデルで3つのタスクすべてに取り組む。
P2LHAPはセンサデータストリームを"パッチ"のシーケンスに分割し、入力トークンとして機能し、予測される将来のアクティビティを含むパッチレベルのアクティビティラベルのシーケンスを出力する。
周囲のパッチラベルに基づく一意な平滑化手法を提案し, 活動境界を正確に同定する。
さらに、P2LHAPは、センサ信号に依存しないトランスフォーマーエンコーダとデコーダによるパッチレベルの表現を学習する。
すべてのチャンネルは、すべてのシーケンスで埋め込みとトランスフォーマーの重みを共有する。
3つの公開データセットに基づいて評価され、P2LHAPは3つのタスクすべてにおいて最先端を著しく上回り、実世界のアプリケーションの有効性と可能性を示している。
Traditional deep learning methods struggle to simultaneously segment, recognize, and forecast human activities from sensor data. This limits their usefulness in many fields such as healthcare and assisted living, where real-time understanding of ongoing and upcoming activities is crucial. This paper introduces P2LHAP, a novel Patch-to-Label Seq2Seq framework that tackles all three tasks in a efficient single-task model. P2LHAP divides sensor data streams into a sequence of "patches", served as input tokens, and outputs a sequence of patch-level activity labels including the predicted future activities. A unique smoothing technique based on surrounding patch labels, is proposed to identify activity boundaries accurately. Additionally, P2LHAP learns patch-level representation by sensor signal channel-independent Transformer encoders and decoders. All channels share embedding and Transformer weights across all sequences. Evaluated on three public datasets, P2LHAP significantly outperforms the state-of-the-art in all three tasks, demonstrating its effectiveness and potential for real-world applications. | 翻訳日:2024-11-09 04:10:35 公開日:2024-09-21 |
# ClaimVer: 説明可能なクレームレベル検証と知識グラフによるテキストのエビデンス属性
ClaimVer: Explainable Claim-Level Verification and Evidence Attribution of Text Through Knowledge Graphs ( http://arxiv.org/abs/2403.09724v4 ) ライセンス: Link先を確認 | Preetam Prabhu Srikar Dammu, Himanshu Naidu, Mouly Dewan, YoungMin Kim, Tanya Roosta, Aman Chadha, Chirag Shah, | (参考訳) ソーシャルメディアによる偽情報や偽情報の拡散やAI生成テキストの普及が進む中で、人々が遭遇した情報を検証し、信頼することはますます困難になっている。
多くのファクトチェック手法やツールが開発されているが、様々な文脈で役立つ適切な説明性や粒度の欠如がしばしばある。
使いやすく、アクセスしやすく、きめ細かいエビデンスを達成できるテキスト検証方法が重要になっている。
さらに重要なことは、このような方法でユーザ信頼を構築するには、自動システムに対する人々の信念に多大な影響を及ぼす研究結果として、各予測の背後にある根拠を提示する必要があることである。
ユーザの注意を特定の問題コンテンツにローカライズし、もたらすことも重要であり、単純なブランケットラベルを提供する。
本稿では,リッチアノテーションの生成と認知負荷の低減により,ユーザの情報・検証ニーズを満たすことに適した,人間中心のフレームワークであるClaymVerを提案する。
テキストの包括的な評価を提供するために設計され、各クレームをハイライトし、信頼された知識グラフ(KG)に対して検証し、証拠を提示し、各クレーム予測に対して簡潔で明確な説明を提供する。
最後に、我々のフレームワークは属性スコアを導入し、幅広い下流タスクに適用性を高めます。
In the midst of widespread misinformation and disinformation through social media and the proliferation of AI-generated texts, it has become increasingly difficult for people to validate and trust information they encounter. Many fact-checking approaches and tools have been developed, but they often lack appropriate explainability or granularity to be useful in various contexts. A text validation method that is easy to use, accessible, and can perform fine-grained evidence attribution has become crucial. More importantly, building user trust in such a method requires presenting the rationale behind each prediction, as research shows this significantly influences people's belief in automated systems. Localizing and bringing users' attention to the specific problematic content is also paramount, instead of providing simple blanket labels. In this paper, we present ClaimVer, a human-centric framework tailored to meet users' informational and verification needs by generating rich annotations and thereby reducing cognitive load. Designed to deliver comprehensive evaluations of texts, it highlights each claim, verifies it against a trusted knowledge graph (KG), presents the evidence, and provides succinct, clear explanations for each claim prediction. Finally, our framework introduces an attribution score, enhancing applicability across a wide range of downstream tasks. | 翻訳日:2024-11-09 04:10:35 公開日:2024-09-21 |
# DRAGIN:大規模言語モデルの情報要求に基づく動的検索拡張生成
DRAGIN: Dynamic Retrieval Augmented Generation based on the Information Needs of Large Language Models ( http://arxiv.org/abs/2403.10081v3 ) ライセンス: Link先を確認 | Weihang Su, Yichen Tang, Qingyao Ai, Zhijing Wu, Yiqun Liu, | (参考訳) 動的検索拡張生成(RAG)パラダイムは,Large Language Models(LLMs)のテキスト生成プロセスにおいて,いつ,何を検索するかを積極的に決定する。
このパラダイムには2つの重要な要素がある: 検索モジュールをアクティベートする最適なモーメントを識別する(検索するタイミングを決定する)ことと、検索が起動したら適切なクエリを作成する(検索する項目を決定する)ことである。
しかし、現在の動的RAGメソッドはどちらの面においても不足している。
まず、いつ取得するかを決める戦略は、しばしば静的なルールに依存します。
さらに、何を取得するかを決める戦略は、通常、LLMの最新の文や最後のいくつかのトークンに制限されるが、LLMのリアルタイム情報要求は、コンテキスト全体にまたがる可能性がある。
これらの制約を克服するために,LLMのリアルタイム情報要求に基づく動的検索拡張生成(DRAGIN)という新しいフレームワークを導入する。
本フレームワークは,テキスト生成プロセスにおいて,LLMのリアルタイム情報要求に基づいて,いつ,何を取得するかを決定するように設計されている。
DRAGINと既存の4つの知識集約型生成データセットを包括的に比較した。
実験の結果,DRAGINは全タスクにおいて優れた性能を示し,本手法の有効性を実証した。
https://github.com/oneal2000/DRAGIN/tree/main
Dynamic retrieval augmented generation (RAG) paradigm actively decides when and what to retrieve during the text generation process of Large Language Models (LLMs). There are two key elements of this paradigm: identifying the optimal moment to activate the retrieval module (deciding when to retrieve) and crafting the appropriate query once retrieval is triggered (determining what to retrieve). However, current dynamic RAG methods fall short in both aspects. Firstly, the strategies for deciding when to retrieve often rely on static rules. Moreover, the strategies for deciding what to retrieve typically limit themselves to the LLM's most recent sentence or the last few tokens, while the LLM's real-time information needs may span across the entire context. To overcome these limitations, we introduce a new framework, DRAGIN, i.e., Dynamic Retrieval Augmented Generation based on the real-time Information Needs of LLMs. Our framework is specifically designed to make decisions on when and what to retrieve based on the LLM's real-time information needs during the text generation process. We evaluate DRAGIN along with existing methods comprehensively over 4 knowledge-intensive generation datasets. Experimental results show that DRAGIN achieves superior performance on all tasks, demonstrating the effectiveness of our method. We have open-sourced all the code, data, and models in GitHub: https://github.com/oneal2000/DRAGIN/tree/main | 翻訳日:2024-11-09 03:59:25 公開日:2024-09-21 |
# LLMを用いたプログラムの実行時動作の推論: どれくらいの時間か?
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? ( http://arxiv.org/abs/2403.16437v3 ) ライセンス: Link先を確認 | Junkai Chen, Zhiyuan Pan, Xing Hu, Zhenhao Li, Ge Li, Xin Xia, | (参考訳) コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コードLLMの性能を様々な面で評価するために、多くのベンチマーク(HumanEvalやClassEvalなど)が提案されている。
コード推論は、コードLLMの最も重要な能力の1つであるが、コード推論のための既存のベンチマークでは不十分である。
通常、プログラムの実行中の中間動作の評価を無視して、プログラムの入力と出力を予測することに重点を置いており、論理的一貫性(例えば、実行経路の予測が間違っている場合は、モデルが正しい出力を与えるべきではない)を推論する。
本稿では,コード推論能力とプログラム実行によるLLMの整合性を評価するためのフレームワークであるRevalを提案する。
既存のコードベンチマークを利用して、フレームワーク内の新しいベンチマークに適応しています。
大規模な実証実験を行い、ほとんどのLCMは実行時行動推論(平均精度44.4%)とインクリメンタル一貫性評価(平均ICスコア10.3)の両方で満足できない性能を示す。
現在のコードLLMの評価結果は、コードLLMのコード推論能力を強化するために、コミュニティが緊急に必要なことを反映している。
私たちのコード、データ、および新しい名前のリーダーボードはhttps://r-eval.github.io.comで入手できる。
Large language models for code (i.e., code LLMs) have shown strong code understanding and generation capabilities. To evaluate the capabilities of code LLMs in various aspects, many benchmarks have been proposed (e.g., HumanEval and ClassEval). Code reasoning is one of the most essential abilities of code LLMs, but existing benchmarks for code reasoning are not sufficient. Typically, they focus on predicting the input and output of a program, ignoring the evaluation of the intermediate behavior during program execution, as well as the logical consistency (e.g., the model should not give the correct output if the prediction of execution path is wrong) when performing the reasoning. To address these problems, in this paper, we propose a framework, namely REval, for evaluating code reasoning abilities and consistency of code LLMs with program execution. We utilize existing code benchmarks and adapt them to new benchmarks within our framework. A large-scale empirical study is conducted and most LLMs show unsatisfactory performance on both Runtime Behavior Reasoning (i.e., an average accuracy of 44.4%) and Incremental Consistency Evaluation (i.e., an average IC score of 10.3). Evaluation results of current code LLMs reflect the urgent need for the community to strengthen the code reasoning capability of code LLMs. Our code, data, and \newname leaderboard are available at https://r-eval.github.io. | 翻訳日:2024-11-09 03:48:22 公開日:2024-09-21 |
# MUTE-SLAM:複数平面ハッシュ表現を用いたリアルタイムニューラルネットワークSLAM
MUTE-SLAM: Real-Time Neural SLAM with Multiple Tri-Plane Hash Representations ( http://arxiv.org/abs/2403.17765v3 ) ライセンス: Link先を確認 | Yifan Yan, Ruomin He, Zhenghua Liu, | (参考訳) 本稿では,複数平面のハッシュエンコーディングを用いたリアルタイムニューラルネットワークRGB-D SLAMシステムMUTE-SLAMについて紹介する。
MUTE-SLAMは、カメラの位置を効果的に追跡し、小型および大型の屋内環境のためのスケーラブルなマルチマップ表現を漸進的に構築する。
MUTE-SLAMは事前に定義されたシーン境界を必要とすることが多いため、新たに観測されたローカル領域のサブマップを動的に割り当て、事前のシーン情報なしで制約のないマッピングを可能にする。
従来の格子法とは異なり、3つの直交軸整列平面をハッシュ符号化シーン特性に用いて、ハッシュ衝突とトレーニング可能なパラメータの数を大幅に削減する。
このハイブリッドアプローチは、リアルタイム性能を保証するだけでなく、表面再構成の忠実性を高める。
さらに、我々の最適化戦略は、現在のカメラフラストラムと交わる全てのサブマップを同時に最適化し、グローバルな一貫性を確保する。
実世界のデータセットと合成データセットの大規模なテストにより、MUTE-SLAMは様々な屋内環境において、最先端の表面再構成品質と競合追跡性能を提供することが示された。
コードはhttps://github.com/lumennYan/MUTE_SLAM.comで公開されている。
We introduce MUTE-SLAM, a real-time neural RGB-D SLAM system employing multiple tri-plane hash-encodings for efficient scene representation. MUTE-SLAM effectively tracks camera positions and incrementally builds a scalable multi-map representation for both small and large indoor environments. As previous methods often require pre-defined scene boundaries, MUTE-SLAM dynamically allocates sub-maps for newly observed local regions, enabling constraint-free mapping without prior scene information. Unlike traditional grid-based methods, we use three orthogonal axis-aligned planes for hash-encoding scene properties, significantly reducing hash collisions and the number of trainable parameters. This hybrid approach not only ensures real-time performance but also enhances the fidelity of surface reconstruction. Furthermore, our optimization strategy concurrently optimizes all sub-maps intersecting with the current camera frustum, ensuring global consistency. Extensive testing on both real-world and synthetic datasets has shown that MUTE-SLAM delivers state-of-the-art surface reconstruction quality and competitive tracking performance across diverse indoor settings. The code is available at https://github.com/lumennYan/MUTE_SLAM. | 翻訳日:2024-11-09 03:48:22 公開日:2024-09-21 |
# WavLLM:ロバストで適応的な音声大言語モデルを目指して
WavLLM: Towards Robust and Adaptive Speech Large Language Model ( http://arxiv.org/abs/2404.00656v3 ) ライセンス: Link先を確認 | Shujie Hu, Long Zhou, Shujie Liu, Sanyuan Chen, Lingwei Meng, Hongkun Hao, Jing Pan, Xunying Liu, Jinyu Li, Sunit Sivasankaran, Linquan Liu, Furu Wei, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語処理の分野に革命をもたらし、その範囲をマルチモーダルな知覚と生成へと徐々に広げている。
しかし, 聴取能力をLLMに効果的に統合することは, 様々なコンテキストをまたいだ一般化や複雑な聴覚タスクの実行において, 重要な課題となる。
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,2段階のカリキュラム学習アプローチによって最適化されたプロンプト対応のLoRA重み付けアダプタを紹介する。
デュアルエンコーダを利用することで、Whisperエンコーダを用いて音声のセマンティックな内容を処理し、WavLMエンコーダを用いて話者のアイデンティティのユニークな特徴を捉え、異なるタイプの音声情報を分離する。
カリキュラム学習フレームワークの中で、WavLLMは、まず、混合基本単一タスクを最適化し、続いて、基本タスクの組み合わせのようなより複雑なタスクに関する高度なマルチタスクトレーニングによって基礎的能力を構築する。
異なるタスクや命令に対する柔軟性と順応性を高めるため、第2の高度なマルチタスク訓練段階において、プロンプト対応のLoRA重み付けアダプタが導入された。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
実験により,提案モデルが同一のモデルサイズでの音声タスクにまたがる最先端性能を実現し,CoTアプローチによる複雑なタスクの実行において,堅牢な一般化能力を示すことが示された。
さらに,本モデルでは,専門訓練を伴わずにガオカオのタスクを完了させることに成功した。
コード、モデル、オーディオ、ガオカオの評価セットは \url{aka.ms/wavllm} でアクセスすることができる。
The recent advancements in large language models (LLMs) have revolutionized the field of natural language processing, progressively broadening their scope to multimodal perception and generation. However, effectively integrating listening capabilities into LLMs poses significant challenges, particularly with respect to generalizing across varied contexts and executing complex auditory tasks. In this work, we introduce WavLLM, a robust and adaptive speech large language model with dual encoders, and a prompt-aware LoRA weight adapter, optimized by a two-stage curriculum learning approach. Leveraging dual encoders, we decouple different types of speech information, utilizing a Whisper encoder to process the semantic content of speech, and a WavLM encoder to capture the unique characteristics of the speaker's identity. Within the curriculum learning framework, WavLLM first builds its foundational capabilities by optimizing on mixed elementary single tasks, followed by advanced multi-task training on more complex tasks such as combinations of the elementary tasks. To enhance the flexibility and adherence to different tasks and instructions, a prompt-aware LoRA weight adapter is introduced in the second advanced multi-task training stage. We validate the proposed model on universal speech benchmarks including tasks such as ASR, ST, SV, ER, and also apply it to specialized datasets like Gaokao English listening comprehension set for SQA, and speech Chain-of-Thought (CoT) evaluation set. Experiments demonstrate that the proposed model achieves state-of-the-art performance across a range of speech tasks on the same model size, exhibiting robust generalization capabilities in executing complex tasks using CoT approach. Furthermore, our model successfully completes Gaokao tasks without specialized training. The codes, models, audio, and Gaokao evaluation set can be accessed at \url{aka.ms/wavllm}. | 翻訳日:2024-11-09 03:37:09 公開日:2024-09-21 |
# スタック化されたオートエンコーダとクラスタリングによる地質マッピングのためのリモートセンシングフレームワーク
Remote sensing framework for geological mapping via stacked autoencoders and clustering ( http://arxiv.org/abs/2404.02180v4 ) ライセンス: Link先を確認 | Sandeep Nagar, Ehsan Farahbakhsh, Joseph Awange, Rohitash Chandra, | (参考訳) ディメンタリティの低減やクラスタリングといった教師なし学習によって対処できる、正確にラベル付けされたトレーニングデータの不足による、リモートセンシング顔制限による地質図作成のための機械学習手法を改良した。
次元性低減法は、地質地図の精度向上に重要な役割を果たす可能性がある。
従来の次元減少法は非線形データと競合することがあるが、オートエンコーダのような教師なしのディープラーニングモデルは非線形関係をモデル化することができる。
スタックされたオートエンコーダは複数の相互接続層を備え、リモートセンシングデータに有用な階層データ表現をキャプチャする。
本稿では,地形単位のマッピングのための次元縮小とk平均クラスタリングのためのスタック付きオートエンコーダを用いた遠隔センシングデータ処理のための教師なし機械学習ベースのフレームワークを提案する。
我々は,オーストラリア・ニューサウスウェールズ州西部のムタウィンチ地域の地質マッピングの枠組みを評価するために,ランドサット8,ASTER,Sentinel-2のデータセットを用いている。
また、スタック化されたオートエンコーダと主成分分析(PCA)と標準オートエンコーダを比較した。
本研究により, 岩盤単位を効率的に識別し, 高精度かつ解釈可能な地質図を作成できることが判明した。
その結果,積み重ね型オートエンコーダとSentinel-2データの組み合わせは,他の組み合わせと比較して最高の性能の精度が得られることがわかった。
重畳されたオートエンコーダは、標準オートエンコーダやPCAと比較して、入力データの複雑で階層的な表現をよりよく抽出できることがわかった。
また, 生成した地図は, 地質構造に関する新たな知見を提供しながら, それまでの地質学的知識と一致していることがわかった。
Supervised machine learning methods for geological mapping via remote sensing face limitations due to the scarcity of accurately labelled training data that can be addressed by unsupervised learning, such as dimensionality reduction and clustering. Dimensionality reduction methods have the potential to play a crucial role in improving the accuracy of geological maps. Although conventional dimensionality reduction methods may struggle with nonlinear data, unsupervised deep learning models such as autoencoders can model non-linear relationships. Stacked autoencoders feature multiple interconnected layers to capture hierarchical data representations useful for remote sensing data. We present an unsupervised machine learning-based framework for processing remote sensing data using stacked autoencoders for dimensionality reduction and k-means clustering for mapping geological units. We use Landsat 8, ASTER, and Sentinel-2 datasets to evaluate the framework for geological mapping of the Mutawintji region in Western New South Wales, Australia. We also compare stacked autoencoders with principal component analysis (PCA) and canonical autoencoders. Our results reveal that the framework produces accurate and interpretable geological maps, efficiently discriminating rock units. The results reveal that the combination of stacked autoencoders with Sentinel-2 data yields the best performance accuracy when compared to other combinations. We find that stacked autoencoders enable better extraction of complex and hierarchical representations of the input data when compared to canonical autoencoders and PCA. We also find that the generated maps align with prior geological knowledge of the study area while providing novel insights into geological structures. | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-21 |
# データのバイアス:男性は自然に正しい、女性がリードを追いかける役割である
Data Bias According to Bipol: Men are Naturally Right and It is the Role of Women to Follow Their Lead ( http://arxiv.org/abs/2404.04838v2 ) ライセンス: Link先を確認 | Irene Pagliai, Goya van Boven, Tosin Adewumi, Lama Alkhaled, Namrata Gurung, Isabella Södergren, Elisa Barney, | (参考訳) 3つの言語におけるバイアスに関する新しい大きなラベル付きデータセットを導入し、イングランドのGLUE/SuperGLUEリーダーボードのベンチマークデータセットを含む、評価された5つの言語の10つのデータセットすべてにバイアスが存在することを示す。
3つの新しい言語は、合計600万のラベル付きサンプルを与え、SotAの多言語事前トレーニングモデルであるmT5とmBERTを使ってこれらのデータセットをベンチマークします。
偏見に基づく社会的偏見の課題は、最近のAIと大規模言語モデル(LLM)による出来事が示すように、ユビキタスである。
この課題に触発された私たちは、複数のデータセットでバイアスを推定することにしました。
我々は、最近のバイアス測定値を比較し、測定値に説明可能性を持つbipolを使用します。
また, 信頼度95%, エラーマージン7%を用いて, 有毒なデータセット群からランダムに200のサンプルをサンプリングすることにより, 有毒なコメントにバイアスが存在するという不確定な仮定も確認した。
アノテーションの品質を確保するために、30個の金サンプルが200個のサンプルにランダムに分散された。
以上の結果から,多くのデータセットが男性バイアス(女性に対する偏見)を持つことが明らかとなった。
新しいデータセット、レキシカ、モデル、コードを公開しています。
We introduce new large labeled datasets on bias in 3 languages and show in experiments that bias exists in all 10 datasets of 5 languages evaluated, including benchmark datasets on the English GLUE/SuperGLUE leaderboards. The 3 new languages give a total of almost 6 million labeled samples and we benchmark on these datasets using SotA multilingual pretrained models: mT5 and mBERT. The challenge of social bias, based on prejudice, is ubiquitous, as recent events with AI and large language models (LLMs) have shown. Motivated by this challenge, we set out to estimate bias in multiple datasets. We compare some recent bias metrics and use bipol, which has explainability in the metric. We also confirm the unverified assumption that bias exists in toxic comments by randomly sampling 200 samples from a toxic dataset population using the confidence level of 95% and error margin of 7%. Thirty gold samples were randomly distributed in the 200 samples to secure the quality of the annotation. Our findings confirm that many of the datasets have male bias (prejudice against women), besides other types of bias. We publicly release our new datasets, lexica, models, and codes. | 翻訳日:2024-11-09 03:26:10 公開日:2024-09-21 |
# アメリカ先住民言語における音声認識の高度化
Automatic Speech Recognition Advancements for Indigenous Languages of the Americas ( http://arxiv.org/abs/2404.08368v3 ) ライセンス: Link先を確認 | Monica Romero, Sandra Gomez, Ivan G. Torre, | (参考訳) 先住民族言語は、アメリカの地域社会のユニークなアイデンティティと文化を具現化した、人間のコミュニケーションの発展における基本的遺産である。
The Second AmericasNLP (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語のための自動音声認識(ASR)システムの訓練タスクを提案した。
本稿では,各対象言語に対する最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65hを用いて述べる。
我々はベイズ探索を用いて,300Mと1Bのパラメータの変種Wav2vec2.0 XLS-R(Cross-Lingual Speech Representations)に対する異なるパラメータの影響を系統的に検討した。
以上の結果から,データと詳細なハイパーパラメータチューニングがASRの精度に大きく影響することが示唆された。
ケチュアモデルが最も低い文字誤り率 (CER) (12.14) を達成したのに対し、コティリアモデルは微調整段階で最も広範囲なデータセットを持つにもかかわらず、最も高いCER (36.59) を示した。
逆に、最小のデータセットでは、グアラニモデルは15.59のCERを獲得し、ブリブリとワシカナはそれぞれ34.70と35.23のCERを得た。
さらに、Sobolの感度分析は、微調整更新とドロップアウト率を凍結する重要な役割を強調した。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
この研究は、少数民族言語保存におけるASR技術の発展に向けた今後の研究の道を開く。
Indigenous languages are a fundamental legacy in the development of human communication, embodying the unique identity and culture of local communities in America. The Second AmericasNLP (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022 proposed the task of training automatic speech recognition (ASR) systems for five Indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa'ikhana. In this paper, we describe the fine-tuning of a state-of-the-art ASR model for each target language, using approximately 36.65 h of transcribed speech data from diverse sources enriched with data augmentation methods. We systematically investigate, using a Bayesian search, the impact of the different hyperparameters on the Wav2vec2.0 XLS-R (Cross-Lingual Speech Representations) variants of 300 M and 1 B parameters. Our findings indicate that data and detailed hyperparameter tuning significantly affect ASR accuracy, but language complexity determines the final result. The Quechua model achieved the lowest character error rate (CER) (12.14), while the Kotiria model, despite having the most extensive dataset during the fine-tuning phase, showed the highest CER (36.59). Conversely, with the smallest dataset, the Guarani model achieved a CER of 15.59, while Bribri and Wa'ikhana obtained, respectively, CERs of 34.70 and 35.23. Additionally, Sobol' sensitivity analysis highlighted the crucial roles of freeze fine-tuning updates and dropout rates. We release our best models for each language, marking the first open ASR models for Wa'ikhana and Kotiria. This work opens avenues for future research to advance ASR techniques in preserving minority Indigenous languages | 翻訳日:2024-11-09 03:14:34 公開日:2024-09-21 |
# 衛星の深部拡散モデルを用いた4時間雷雨流
Four-hour thunderstorm nowcasting using deep diffusion models of satellite ( http://arxiv.org/abs/2404.10512v2 ) ライセンス: Link先を確認 | Kuai Dai, Xutao Li, Junying Fang, Yunming Ye, Demin Yu, Di Xian, Danyu Qin, Jingsong Wang, | (参考訳) 対流(雷雨)は数時間で急速に発展し、非常に破壊的であり、流し込みにとって大きな挑戦となり、自然と社会に重大な損失をもたらす。
人工知能(AI)ベースの手法の出現後、対流流速報は急速に進歩し、物理学に基づく数値天気予報やその他の従来の手法よりも性能が優れている。
しかし、そのリードタイムとカバー範囲は依然として多くを望んでおらず、災害緊急対応の必要性をほとんど満たさないままである。
本稿では,衛星(DDMS)の深部拡散モデルを用いて,AIによる対流流速報知システムの構築を行う。
一方、拡散過程を用いて、対流雲の複雑な時空間進化パターンを効果的にシミュレートし、予測リード時間を大幅に改善する。
一方、静止衛星の明るさ温度データを利用して、惑星規模の予測を行う。
FengYun-4A衛星を用いた長期試験および客観的検証において,本システムは,最大4時間,広範囲(約20,000,000km2),顕著な精度,高分解能(約15分4km)の有効対流を初めて達成した。
その性能は、既存のモデルと比較して、対流キャスティングの新たな高さに達した。
適用面では,本システムは効率よく動作する(4時間の対流を8分で予測)。
さらに,この結果から,対流雲予測における拡散モデルの顕著な機能と,AI技術によって強化された静止衛星データの価値を強調した。
Convection (thunderstorm) develops rapidly within hours and is highly destructive, posing a significant challenge for nowcasting and resulting in substantial losses to nature and society. After the emergence of artificial intelligence (AI)-based methods, convection nowcasting has experienced rapid advancements, with its performance surpassing that of physics-based numerical weather prediction and other conventional approaches. However, the lead time and coverage of it still leave much to be desired and hardly meet the needs of disaster emergency response. Here, we propose deep diffusion models of satellite (DDMS) to establish an AI-based convection nowcasting system. On one hand, it employs diffusion processes to effectively simulate complicated spatiotemporal evolution patterns of convective clouds, significantly improving the forecast lead time. On the other hand, it utilizes geostationary satellite brightness temperature data, thereby achieving planetary-scale forecast coverage. During long-term tests and objective validation based on the FengYun-4A satellite, our system achieves, for the first time, effective convection nowcasting up to 4 hours, with broad coverage (about 20,000,000 km2), remarkable accuracy, and high resolution (15 minutes; 4 km). Its performance reaches a new height in convection nowcasting compared to the existing models. In terms of application, our system operates efficiently (forecasting 4 hours of convection in 8 minutes), and is highly transferable with the potential to collaborate with multiple satellites for global convection nowcasting. Furthermore, our results highlight the remarkable capabilities of diffusion models in convective clouds forecasting, as well as the significant value of geostationary satellite data when empowered by AI technologies. | 翻訳日:2024-11-09 03:14:33 公開日:2024-09-21 |
# 変形性股関節症術後の難治性治癒の予測モデルの開発
Predictive Model Development to Identify Failed Healing in Patients after Non-Union Fracture Surgery ( http://arxiv.org/abs/2404.11760v2 ) ライセンス: Link先を確認 | Cedric Donié, Marie K. Reumann, Tony Hartung, Benedikt J. Braun, Tina Histing, Satoshi Endo, Sandra Hirche, | (参考訳) 骨偽関節は外傷手術に最も重篤な合併症の1つであり、長い骨折後の10~30%の症例で発生する。
非関節の治療には、高いレベルの外科的専門知識が必要で、しばしば複数の再手術を伴い、時には切断に至ることもある。
したがって、より正確な予後は患者の健康に不可欠である。
機械学習(ML)の最近の進歩は、小さなデータセットで作業しても、非統一的治癒を予測するモデルを開発することを約束している。
臨床データセットであるTRUFFLEに3つのMLモデル(論理回帰,サポートベクターマシン,XGBoost)を適用し,このMLの有効性を検証した。
モデルでは, 70%の感度, 66% (XGBoost), 49% (サポートベクターマシン), 43% (ロジスティックレグレッション) の予測結果が得られた。
これらの所見は,初期外科的治療プロトコルの後に治癒不全のリスクがある患者を早期に同定できるので,臨床的に有用である。
Bone non-union is among the most severe complications associated with trauma surgery, occurring in 10-30% of cases after long bone fractures. Treating non-unions requires a high level of surgical expertise and often involves multiple revision surgeries, sometimes even leading to amputation. Thus, more accurate prognosis is crucial for patient well-being. Recent advances in machine learning (ML) hold promise for developing models to predict non-union healing, even when working with smaller datasets, a commonly encountered challenge in clinical domains. To demonstrate the effectiveness of ML in identifying candidates at risk of failed non-union healing, we applied three ML models (logistic regression, support vector machine, and XGBoost) to the clinical dataset TRUFFLE, which includes 797 patients with long bone non-union. The models provided prediction results with 70% sensitivity, and the specificities of 66% (XGBoost), 49% (support vector machine), and 43% (logistic regression). These findings offer valuable clinical insights because they enable early identification of patients at risk of failed non-union healing after the initial surgical revision treatment protocol. | 翻訳日:2024-11-09 03:14:33 公開日:2024-09-21 |
# COBRA -- 形状回帰分析に基づく単一画像からのオブジェクトポーズ推定の方法に依存しない品質評価
COBRA -- COnfidence score Based on shape Regression Analysis for method-independent quality assessment of object pose estimation from single images ( http://arxiv.org/abs/2404.16471v4 ) ライセンス: Link先を確認 | Panagiotis Sapoutzoglou, George Giapitzakis, George Terzakis, Maria Pateraki, | (参考訳) 本稿では,単一画像意味解析に依存するポーズ推定手法の一般的なアルゴリズムを提案する。
このアルゴリズムは、複数のガウス過程を組み合わせた軽量な配置形状表現を用いる。
それぞれのガウス過程(GP)は、オブジェクトの座標系内の複数の基準点からその表面への距離正規分布を生成し、予測されたポーズを評価するための幾何学的評価フレームワークを提供する。
我々の信頼度尺度は、形状テンプレートへの画素バックプロジェクションの平均混合確率からなる。
本報告実験では,物体のGPベース表現の精度と実際の幾何モデルとの比較を行い,セグメンテーションとポーズ推定を併用した固有測度と対照的に,アウトレーヤの影響を捉えることができることを示す。
We present a generic algorithm for scoring pose estimation methods that rely on single image semantic analysis. The algorithm employs a lightweight putative shape representation using a combination of multiple Gaussian Processes. Each Gaussian Process (GP) yields distance normal distributions from multiple reference points in the object's coordinate system to its surface, thus providing a geometric evaluation framework for scoring predicted poses. Our confidence measure comprises the average mixture probability of pixel back-projections onto the shape template. In the reported experiments, we compare the accuracy of our GP based representation of objects versus the actual geometric models and demonstrate the ability of our method to capture the influence of outliers as opposed to the corresponding intrinsic measures that ship with the segmentation and pose estimation methods. | 翻訳日:2024-11-09 03:03:34 公開日:2024-09-21 |
# ピアノ楽譜におけるエンド・ツー・エンドフルページ光音楽認識
End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music ( http://arxiv.org/abs/2405.12105v3 ) ライセンス: Link先を確認 | Antonio Ríos-Vila, Jorge Calvo-Zaragoza, David Rizo, Thierry Paquet, | (参考訳) 光音楽認識(OMR)は、音楽の楽譜をデジタル形式に正確に書き起こすことができる様々なアプローチによって、開始以来大きな進歩を遂げてきた。
これらの進歩にもかかわらず、いわゆる‘emph{end-to-end} OMRアプローチは依然として、全ページのスコア画像の書き起こしにマルチステージ処理パイプラインに依存しており、フィールドの完全なポテンシャルを妨げるいくつかの制限が導入されている。
本稿では,ページレベルのOMRに対して,真にエンドツーエンドなアプローチを提案する。
本システムでは,畳み込み層と自己回帰変換器を組み合わせることで,楽譜ページ全体を処理し,完全書き起こしを符号化形式で出力する。
これは、漸進的な合成データ生成によるカリキュラム学習を利用するアーキテクチャとトレーニング手順の両方によって実現されている。
ピアノ形コーパスを用いたシステムの評価を行った。
この評価は、まず、合成データを用いて制御されたシナリオで行われ、その後、異なる条件の2つの実世界のコーパスに対して行われる。
私たちのアプローチは、主要な商用OMRソフトウェアと比較されます。
その結果,本システムは,全ページの楽譜の書き起こしに成功しているだけでなく,ゼロショット設定およびターゲットドメインとの微調整後の商業ツールよりも優れており,OMRの分野への重要な貢献を示していることがわかった。
Optical Music Recognition (OMR) has made significant progress since its inception, with various approaches now capable of accurately transcribing music scores into digital formats. Despite these advancements, most so-called \emph{end-to-end} OMR approaches still rely on multi-stage processing pipelines for transcribing full-page score images, which introduces several limitations that hinder the full potential of the field. In this paper, we present the first truly end-to-end approach for page-level OMR. Our system, which combines convolutional layers with autoregressive Transformers, processes an entire music score page and outputs a complete transcription in a music encoding format. This is made possible by both the architecture and the training procedure, which utilizes curriculum learning through incremental synthetic data generation. We evaluate the proposed system using pianoform corpora. This evaluation is conducted first in a controlled scenario with synthetic data, and subsequently against two real-world corpora of varying conditions. Our approach is compared with leading commercial OMR software. The results demonstrate that our system not only successfully transcribes full-page music scores but also outperforms the commercial tool in both zero-shot settings and after fine-tuning with the target domain, representing a significant contribution to the field of OMR. | 翻訳日:2024-11-09 02:30:11 公開日:2024-09-21 |
# 交通シナリオ論理:都市交通シナリオのモデル化と推論のための空間的時間論理
Traffic Scenario Logic: A Spatial-Temporal Logic for Modeling and Reasoning of Urban Traffic Scenarios ( http://arxiv.org/abs/2405.13715v2 ) ライセンス: Link先を確認 | Ruolin Wang, Yuejiao Xu, Jianmin Ji, | (参考訳) 交通シナリオの形式的表現は、自律運転の安全性検証のためのテストケースを生成するために使用することができる。
しかし、既存の手法のほとんどは、交通シナリオの複雑さと多様性のため、ハイウェイまたは高度に単純化された交差点シナリオに限られている。
そこで我々は,都市交通シナリオのモデル化と推論を目的とした時空間論理であるTraffic Scenario Logic (TSL)を提案する。
TSLは、都市道路網の形式的な表現を提供し、これはOpenDRIVE、すなわち、自律運転のための高解像度マップのデファクト業界標準から導出することができ、離散化近似なしで幅広い交通シナリオを表現できる。
我々は,テリンゴを用いたTSLの推論,すなわちAnswer Set Programmingに基づく時間的プログラムの解法を実装し,異なる都市道路レイアウトでテストした。
デモでは、テストシナリオ生成におけるTLLの有効性と、自動走行の意思決定や制御検証といった分野における潜在的な価値が示されている。
TSL推論のコードはオープンされている。
Formal representations of traffic scenarios can be used to generate test cases for the safety verification of autonomous driving. However, most existing methods are limited to highway or highly simplified intersection scenarios due to the intricacy and diversity of traffic scenarios. In response, we propose Traffic Scenario Logic (TSL), which is a spatial-temporal logic designed for modeling and reasoning of urban pedestrian-free traffic scenarios. TSL provides a formal representation of the urban road network that can be derived from OpenDRIVE, i.e., the de facto industry standard of high-definition maps for autonomous driving, enabling the representation of a broad range of traffic scenarios without discretization approximations. We implemented the reasoning of TSL using Telingo, i.e., a solver for temporal programs based on the Answer Set Programming, and tested it on different urban road layouts. Demonstrations show the effectiveness of TSL in test scenario generation and its potential value in areas like decision-making and control verification of autonomous driving. The code for TSL reasoning is opened. | 翻訳日:2024-11-09 02:18:45 公開日:2024-09-21 |
# 自律運転のための2次元オープン語彙セグメントモデルの蒸留による3次元教師なし学習
3D Unsupervised Learning by Distilling 2D Open-Vocabulary Segmentation Models for Autonomous Driving ( http://arxiv.org/abs/2405.15286v2 ) ライセンス: Link先を確認 | Boyi Sun, Yuhang Liu, Xingxia Wang, Bin Tian, Long Chen, Fei-Yue Wang, | (参考訳) ポイントクラウドデータラベリングは、自律運転における時間とコストのかかるタスクであると考えられており、教師なし学習は、注釈のないデータからポイントクラウド表現を学習することでそれを避けることができる。
本稿では,2次元オープンボキャブラリセグメンテーションモデルを用いた新しい3次元アン教師付きフレームワークUOVを提案する。
第一段階では、2次元オープン語彙モデルの高品質なテキストと画像の特徴を革新的に統合し、TMP(Tri-Modal contrastive Pre-training)を提案する。
第2段階では、点雲と画像の間の空間マッピングを利用して擬似ラベルを生成し、クロスモーダルな知識蒸留を可能にする。
さらに,アライメント中のノイズやラベルの混乱に対処するため,AFI(Adroximate Flat Interaction)を導入する。
UOVの優位性を検証するために、複数の関連するデータセットに対して広範な実験を行った。
我々は,nuScenesにおけるアノテーションフリーのクラウドセグメンテーションタスクにおいて,47.73%のmIoUを記録破りに達成し,従来最高の10.70%のmIoUを上回りました。
一方、nuScenesとSemanticKITTIの1%のデータによる微調整のパフォーマンスは、51.75% mIoUと48.14% mIoUに到達し、以前のすべての事前訓練モデルを上回った。
Point cloud data labeling is considered a time-consuming and expensive task in autonomous driving, whereas unsupervised learning can avoid it by learning point cloud representations from unannotated data. In this paper, we propose UOV, a novel 3D Unsupervised framework assisted by 2D Open-Vocabulary segmentation models. It consists of two stages: In the first stage, we innovatively integrate high-quality textual and image features of 2D open-vocabulary models and propose the Tri-Modal contrastive Pre-training (TMP). In the second stage, spatial mapping between point clouds and images is utilized to generate pseudo-labels, enabling cross-modal knowledge distillation. Besides, we introduce the Approximate Flat Interaction (AFI) to address the noise during alignment and label confusion. To validate the superiority of UOV, extensive experiments are conducted on multiple related datasets. We achieved a record-breaking 47.73% mIoU on the annotation-free point cloud segmentation task in nuScenes, surpassing the previous best model by 10.70% mIoU. Meanwhile, the performance of fine-tuning with 1% data on nuScenes and SemanticKITTI reached a remarkable 51.75% mIoU and 48.14% mIoU, outperforming all previous pre-trained models. | 翻訳日:2024-11-09 02:18:45 公開日:2024-09-21 |
# Mini-Netによる医用画像分割の促進:医用画像の効率的な分別を目的とした軽量化
Advancing Medical Image Segmentation with Mini-Net: A Lightweight Solution Tailored for Efficient Segmentation of Medical Images ( http://arxiv.org/abs/2405.17520v4 ) ライセンス: Link先を確認 | Syed Javed, Tariq M. Khan, Abdul Qayyum, Hamid Alinejad-Rokny, Arcot Sowmya, Imran Razzak, | (参考訳) 医用画像における解剖学的構造と異常の正確なセグメンテーションは,コンピュータによる診断・解析に不可欠である。
このタスクではディープラーニングの技術が優れていますが、その計算要求は課題を引き起こします。
また, 一般的な物体分割には有効であるが, 医用画像には最適でない部分分割法もある。
これらの課題に対処するために,医用画像に特化して設計された軽量セグメンテーションネットワークであるMini-Netを提案する。
パラメータが38,000未満のMini-Netは、高周波数と低周波数の両方の機能を効率的にキャプチャし、様々な医療画像シナリオにおけるリアルタイムのアプリケーションを可能にする。
DRIVE, STARE, ISIC-2016, ISIC-2018, MoNuSegなどの各種データセット上でMini-Netを評価し, 最先端手法と比較して, その堅牢性と優れた性能を示す。
Accurate segmentation of anatomical structures and abnormalities in medical images is crucial for computer-aided diagnosis and analysis. While deep learning techniques excel at this task, their computational demands pose challenges. Additionally, some cutting-edge segmentation methods, though effective for general object segmentation, may not be optimised for medical images. To address these issues, we propose Mini-Net, a lightweight segmentation network specifically designed for medical images. With fewer than 38,000 parameters, Mini-Net efficiently captures both high- and low-frequency features, enabling real-time applications in various medical imaging scenarios. We evaluate Mini-Net on various datasets, including DRIVE, STARE, ISIC-2016, ISIC-2018, and MoNuSeg, demonstrating its robustness and good performance compared to state-of-the-art methods. | 翻訳日:2024-11-09 02:07:29 公開日:2024-09-21 |
# SilentCipher:ディープオーディオによる透かし
SilentCipher: Deep Audio Watermarking ( http://arxiv.org/abs/2406.03822v2 ) ライセンス: Link先を確認 | Mayank Kumar Singh, Naoya Takahashi, Weihsiang Liao, Yuki Mitsufuji, | (参考訳) 音声透かしの分野では、メッセージのキャパシティとロバスト性を高めながら、受信不能なメッセージを同時にエンコードすることは困難である。
近年のディープラーニングベースの手法の進歩により、従来の手法よりもメッセージのキャパシティとロバスト性が向上しているが、符号化されたメッセージには、プロフェッショナルな設定での使用を制限する可聴アーチファクトが導入されている。
本研究では,3つの重要なイノベーションを紹介する。
第一に、私たちの研究は、心理音響モデルに基づくしきい値を統合して、知覚不能な透かしを達成するための、初めてのディープラーニングベースのモデルです。
次に,psuedo-differentiable compression layerを導入し,透かしアルゴリズムの堅牢性を向上させる。
最後に, 知覚的損失を排除し, 頑健さと知覚不能な透かしの両面においてSOTAを実現する方法を提案する。
SilentCipherは、44.1kHzでサンプリングされた音声信号にメッセージをエンコードできるモデルです。
In the realm of audio watermarking, it is challenging to simultaneously encode imperceptible messages while enhancing the message capacity and robustness. Although recent advancements in deep learning-based methods bolster the message capacity and robustness over traditional methods, the encoded messages introduce audible artefacts that restricts their usage in professional settings. In this study, we introduce three key innovations. Firstly, our work is the first deep learning-based model to integrate psychoacoustic model based thresholding to achieve imperceptible watermarks. Secondly, we introduce psuedo-differentiable compression layers, enhancing the robustness of our watermarking algorithm. Lastly, we introduce a method to eliminate the need for perceptual losses, enabling us to achieve SOTA in both robustness as well as imperceptible watermarking. Our contributions lead us to SilentCipher, a model enabling users to encode messages within audio signals sampled at 44.1kHz. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-21 |
# Set-CLIP:分散ビューによる低アライメントマルチモーダルデータからのアライメントセマンティック探索
Set-CLIP: Exploring Aligned Semantic From Low-Alignment Multimodal Data Through A Distribution View ( http://arxiv.org/abs/2406.05766v2 ) ライセンス: Link先を確認 | Zijia Song, Zelin Zang, Yelin Wang, Guozheng Yang, Kaicheng yu, Wanyu Chen, Miaoyu Wang, Stan Z. Li, | (参考訳) マルチモーダル融合は様々なモダリティの境界を突破し、既に顕著な性能を達成している。
しかし、多くの専門分野において、トレーニングに十分なアライメントデータを得るのに苦労しており、これは以前に有効であったモデルの使用を著しく制限している。
したがって、半教師付き学習アプローチは、マッチングペアが少ない低アライメントデータから学習することで、マルチモーダルアライメントを促進するために試みられているが、擬似ラベルのような従来の手法は、ラベル不足のシナリオで問題が発生する可能性がある。
これらの課題に対処するため,我々は,半教師付きマルチモーダルアライメントを多様体マッチング問題として再設計し,CLIPに基づく新しい手法であるSet-CLIPを提案する。
具体的には、新しい意味密度分布の損失を設計することにより、潜在表現分布を細粒度で制限し、未対応のマルチモーダルデータから暗黙的な意味的アライメントを抽出し、厳密に整合した多くのペアへの依存を減らす。
さらに,モーダル空間間のギャップを狭くし,表現分布の安定性を向上させるために,粗粒度適応と一様自己指導法を適用した。
タンパク質分析,リモートセンシング,一般視覚言語分野など,様々な分野において広範囲にわたる実験を行い,Set-CLIP法の有効性を検証した。
特に教師付きトレーニングのためのペアデータがないため、Set-CLIPは依然として優れており、CLIPよりも144.83%改善されている。
Multimodal fusion breaks through the boundaries between diverse modalities and has already achieved notable performances. However, in many specialized fields, it is struggling to obtain sufficient alignment data for training, which seriously limits the use of previously effective models. Therefore, semi-supervised learning approaches are attempted to facilitate multimodal alignment by learning from low-alignment data with fewer matched pairs, but traditional techniques like pseudo-labeling may run into troubles in the label-deficient scenarios. To tackle these challenges, we reframe semi-supervised multimodal alignment as a manifold matching issue and propose a new methodology based on CLIP, termed Set-CLIP. Specifically, by designing a novel semantic density distribution loss, we constrain the latent representation distribution with fine granularity and extract implicit semantic alignment from unpaired multimodal data, thereby reducing the reliance on numerous strictly matched pairs. Furthermore, we apply coarse-grained modality adaptation and unimodal self-supervised guidance to narrow the gaps between modality spaces and improve the stability of representation distributions. Extensive experiments conducted on a range of tasks in various fields, including protein analysis, remote sensing, and the general vision-language field, validate the efficacy of our proposed Set-CLIP method. Especially with no paired data for supervised training, Set-CLIP is still outstanding, which brings an improvement of 144.83% over CLIP. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-21 |
# LLM-dCache: GPT駆動のローカライズデータキャッシュによるツール拡張LDMの改善
LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching ( http://arxiv.org/abs/2406.06799v2 ) ライセンス: Link先を確認 | Simranjit Singh, Michael Fore, Andreas Karatzas, Chaehong Lee, Yanan Jian, Longfei Shangguan, Fuxun Yu, Iraklis Anagnostopoulos, Dimitrios Stamoulis, | (参考訳) 大規模言語モデル(LLM)が数千のAPIコールを管理する能力を拡大するにつれ、基盤となるシステムに重大なオーバーヘッドを伴って、巨大なデータセットにわたる複雑なデータ操作に直面している。
本研究では,ツール拡張エージェントが公開する呼び出し可能なAPI関数としてキャッシュ操作を扱い,データアクセスを最適化するLLM-dCacheを提案する。
LLMには、既存の関数呼び出し機構とシームレスに統合することで、キャッシュ決定を管理する自律性を提供します。
数百のGPTエンドポイントとテラバイトのイメージにまたがる,産業規模の大規模並列プラットフォーム上でテストされた本手法は,さまざまなLSMに対して平均1.24倍のCopilot時間を短縮し,高速化する。
As Large Language Models (LLMs) broaden their capabilities to manage thousands of API calls, they are confronted with complex data operations across vast datasets with significant overhead to the underlying system. In this work, we introduce LLM-dCache to optimize data accesses by treating cache operations as callable API functions exposed to the tool-augmented agent. We grant LLMs the autonomy to manage cache decisions via prompting, seamlessly integrating with existing function-calling mechanisms. Tested on an industry-scale massively parallel platform that spans hundreds of GPT endpoints and terabytes of imagery, our method improves Copilot times by an average of 1.24x across various LLMs and prompting techniques. | 翻訳日:2024-11-09 01:44:51 公開日:2024-09-21 |
# PhyBench: テキストから画像へのモデル評価のための物理コモンセンスベンチマーク
PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models ( http://arxiv.org/abs/2406.11802v3 ) ライセンス: Link先を確認 | Fanqing Meng, Wenqi Shao, Lixin Luo, Yahong Wang, Yiran Chen, Quanfeng Lu, Yue Yang, Tianshuo Yang, Kaipeng Zhang, Yu Qiao, Ping Luo, | (参考訳) テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトから画像を生成するのに大きく進歩している。
しかし、彼らはしばしば、世界シミュレーションや日々のタスクにおけるアプリケーションにとって重要な機能である物理コモンセンスと整合したイメージを作成することに失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当てており、モデルの内部知識、特に物理コモンセンスの評価を無視している。
この問題に対処するために、機械、光学、熱力学、材料特性の4つの主要なカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介し、31の異なる物理シナリオを包含する。
プロプライエタリなモデルDALLE3やGeminiを含む6つの著名なT2Iモデルを評価し、物理原理をプロンプトに組み込むことで、物理的に正確な画像を生成する能力を向上させることを実証する。
その結果,(1)光学以外の様々な物理的シナリオにおいて,高度なモデルであっても頻繁に現れること,(2)GPT-4oはアイテム固有のスコアリング命令とともに,人間の評価と密接に一致して,物理的コモンセンスの理解を効果的に評価すること,(3)現在のT2Iモデルはテキストから画像への翻訳に重点を置いており,物理的コモンセンスに関する深い推論が欠如していること,などが判明した。
我々は、単なる画像生成ツールとしての有用性を超えて、T2Iモデル内の本質的な知識に注意を向けることを提唱する。
もうすぐデータが手に入る。
Text-to-image (T2I) models have made substantial progress in generating images from textual prompts. However, they frequently fail to produce images consistent with physical commonsense, a vital capability for applications in world simulation and everyday tasks. Current T2I evaluation benchmarks focus on metrics such as accuracy, bias, and safety, neglecting the evaluation of models' internal knowledge, particularly physical commonsense. To address this issue, we introduce PhyBench, a comprehensive T2I evaluation dataset comprising 700 prompts across 4 primary categories: mechanics, optics, thermodynamics, and material properties, encompassing 31 distinct physical scenarios. We assess 6 prominent T2I models, including proprietary models DALLE3 and Gemini, and demonstrate that incorporating physical principles into prompts enhances the models' ability to generate physically accurate images. Our findings reveal that: (1) even advanced models frequently err in various physical scenarios, except for optics; (2) GPT-4o, with item-specific scoring instructions, effectively evaluates the models' understanding of physical commonsense, closely aligning with human assessments; and (3) current T2I models are primarily focused on text-to-image translation, lacking profound reasoning regarding physical commonsense. We advocate for increased attention to the inherent knowledge within T2I models, beyond their utility as mere image generation tools. The data will be available soon. | 翻訳日:2024-11-09 01:22:29 公開日:2024-09-21 |
# 注意誘導特徴強調によるテキスト・画像拡散モデルにおける破滅的偏差の修復
Repairing Catastrophic-Neglect in Text-to-Image Diffusion Models via Attention-Guided Feature Enhancement ( http://arxiv.org/abs/2406.16272v2 ) ライセンス: Link先を確認 | Zhiyuan Chang, Mingyang Li, Junjie Wang, Yi Liu, Qing Wang, Yang Liu, | (参考訳) テキストから画像への拡散モデル(T2I DM)は、テキスト記述から高品質な画像を生成する能力において、大きな注目を集めている。
しかし、これらのモデルはしばしば入力プロンプトと完全に一致しないイメージを生成し、意味的な矛盾をもたらす。
これらの意味的不整合の中で最も顕著な問題は破滅的直視であり、そこではT2I DMによって生成された画像がプロンプトで言及されたキーオブジェクトを見逃す。
まず, この問題について実証的研究を行い, 破滅的ネグレクトの有病率, 機能強化を伴う潜在的な緩和戦略, 得られた知見について考察した。
本研究は,T2I DMにおける破滅性ネグレクトに対処するため,Pacher という自動修復法を提案する。
特に、パッチャーは最初に、そのプロンプトに無視された物体があるかどうかを判断し、その後、これら無視された物体に注意誘導された特徴強化を適用し、修正されたプロンプトを導いた。
3種類の安定拡散実験の結果、パッチャーは破滅性ネグレクトの問題を効果的に修復し、10.1%-16.3%の補正率を達成した。
Text-to-Image Diffusion Models (T2I DMs) have garnered significant attention for their ability to generate high-quality images from textual descriptions. However, these models often produce images that do not fully align with the input prompts, resulting in semantic inconsistencies. The most prominent issue among these semantic inconsistencies is catastrophic-neglect, where the images generated by T2I DMs miss key objects mentioned in the prompt. We first conduct an empirical study on this issue, exploring the prevalence of catastrophic-neglect, potential mitigation strategies with feature enhancement, and the insights gained. Guided by the empirical findings, we propose an automated repair approach named Patcher to address catastrophic-neglect in T2I DMs. Specifically, Patcher first determines whether there are any neglected objects in the prompt, and then applies attention-guided feature enhancement to these neglected objects, resulting in a repaired prompt. Experimental results on three versions of Stable Diffusion demonstrate that Patcher effectively repairs the issue of catastrophic-neglect, achieving 10.1%-16.3% higher Correct Rate in image generation compared to baselines. | 翻訳日:2024-11-09 01:10:29 公開日:2024-09-21 |
# ウェーブレットに基づく時間的注意を用いた交通流の時空間予測
Spatiotemporal Forecasting of Traffic Flow using Wavelet-based Temporal Attention ( http://arxiv.org/abs/2407.04440v2 ) ライセンス: Link先を確認 | Yash Jakhmola, Madhurima Panja, Nitish Kumar Mishra, Kripabandhu Ghosh, Uttam Kumar, Tanujit Chakraborty, | (参考訳) 交通フローデータの時空間予測は、機械学習の分野で典型的な問題であり、都市交通管理システムに影響を及ぼす。
一般に、時空間予測問題には、時空間次元と時空間次元の相互関係性に起因する複雑な相互作用、非線形性、長距離依存性が含まれる。
このため、従来の統計的および機械学習手法は、これらの複雑なトラフィックフローデータセットにおける時間的および空間的依存関係を適切に扱えない。
この分野における一般的なアプローチは、時空間処理のためのグラフ畳み込みネットワークとマルチヘッドアテンション機構を組み合わせることである。
本稿では,ウェーブレットに基づく動的時空間対応グラフニューラルネットワーク(W-DSTAGNN)を提案する。
ウェーブレット分解は、シグナルを独立して分析できるコンポーネントに分解し、非定常性の影響を減らし、トラフィックフローデータセットの長距離依存性を処理するのに役立つ。
3つの一般的な統計指標を用いたベンチマーク実験により,提案手法は時空間相関を効率的に把握し,3つの公開トラヒックデータセット上で10の最先端モデル(時空間ベンチマークと時空間ベンチマークを含む)より優れていることを確認した。
提案手法は,動的時間的および空間的依存関係をよりよく処理し,信頼性の高い長期予測を行う。
提案モデルでは,点予測に加えて,トラフィックデータセットの確率予測を大幅に向上する間隔予測を生成することができる。
Spatiotemporal forecasting of traffic flow data represents a typical problem in the field of machine learning, impacting urban traffic management systems. In general, spatiotemporal forecasting problems involve complex interactions, nonlinearities, and long-range dependencies due to the interwoven nature of the temporal and spatial dimensions. Due to this, traditional statistical and machine learning methods cannot adequately handle the temporal and spatial dependencies in these complex traffic flow datasets. A prevalent approach in the field combines graph convolutional networks and multi-head attention mechanisms for spatiotemporal processing. This paper proposes a wavelet-based temporal attention model, namely a wavelet-based dynamic spatiotemporal aware graph neural network (W-DSTAGNN), for tackling the traffic forecasting problem. Wavelet decomposition can help by decomposing the signal into components that can be analyzed independently, reducing the impact of non-stationarity and handling long-range dependencies of traffic flow datasets. Benchmark experiments using three popularly used statistical metrics confirm that our proposal efficiently captures spatiotemporal correlations and outperforms ten state-of-the-art models (including both temporal and spatiotemporal benchmarks) on three publicly available traffic datasets. Our proposed ensemble method can better handle dynamic temporal and spatial dependencies and make reliable long-term forecasts. In addition to point forecasts, our proposed model can generate interval forecasts that significantly enhance probabilistic forecasting for traffic datasets. | 翻訳日:2024-11-08 23:46:45 公開日:2024-09-21 |
# 課題評価としての大規模言語モデル:1000以上の学生コースにおける洞察,フィードバック,課題
Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course ( http://arxiv.org/abs/2407.05216v2 ) ライセンス: Link先を確認 | Cheng-Han Chiang, Wei-Chih Chen, Chun-Yi Kuan, Chienchou Yang, Hung-yi Lee, | (参考訳) 大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
しかし,これらのLCMを用いた評価が実世界の教室で学生の課題評価に応用できるかどうかは不明である。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
学生の反応から,LLMに基づく割当て評価は,学生がこれらのLCMベースの評価器に自由にアクセスできる場合,一般的に学生に受け入れられることがわかった。
しかし、学生はLLMが評価命令に従わないことがあることも指摘した。
さらに,LLMに基づく評価器を学生が容易に操作して特定の文字列を出力し,代入ルーリックを満たさずに高いスコアを得られることを観察した。
学生のフィードバックと経験に基づいて,今後の教室にLCMを用いた評価器を組み込むことを推奨する。
また,LLMに基づく評価器の改良に向けた潜在的方向性を強調し,ハッキングの迅速化のための命令フォロー機能や脆弱性についても検討した。
Using large language models (LLMs) for automatic evaluation has become an important evaluation method in NLP research. However, it is unclear whether these LLM-based evaluators can be applied in real-world classrooms to assess student assignments. This empirical report shares how we use GPT-4 as an automatic assignment evaluator in a university course with 1,028 students. Based on student responses, we find that LLM-based assignment evaluators are generally acceptable to students when students have free access to these LLM-based evaluators. However, students also noted that the LLM sometimes fails to adhere to the evaluation instructions. Additionally, we observe that students can easily manipulate the LLM-based evaluator to output specific strings, allowing them to achieve high scores without meeting the assignment rubric. Based on student feedback and our experience, we provide several recommendations for integrating LLM-based evaluators into future classrooms. Our observation also highlights potential directions for improving LLM-based evaluators, including their instruction-following ability and vulnerability to prompt hacking. | 翻訳日:2024-11-08 23:35:45 公開日:2024-09-21 |
# ディラトンブラックホールの背景におけるN粒子状態のボゾン及びフェルミオンコヒーレンス
Bosonic and fermionic coherence of N-partite states in the background of a dilaton black hole ( http://arxiv.org/abs/2407.07688v2 ) ライセンス: Link先を確認 | Wen-Mei Li, Shu-Min Wu, | (参考訳) 我々は,ガーフィンクル・ホロウィッツ・ストロミンジャー(GHS)ディラトンブラックホールの事象地平線付近にN個の観測者が浮かぶとき,自由ボソニック場とフェルミオン場に対するGHZおよびW状態のN粒子コヒーレンスについて検討した。
我々は、ディラトンブラックホールの文脈において、物理的にアクセス可能かつ到達不能なコヒーレンスの両方を含む、N粒子コヒーレンスに関するより一般的な解析式を導出する。
ボーソニック場のコヒーレンスはフェルミオン場のコヒーレンスよりも大きく、フェルミオン場の絡み合いはディラトン時空のボソニック場のコヒーレンスよりも大きいことが判明した。
さらに、W状態のコヒーレンスはGHZ状態のコヒーレンスよりも大きいが、GHZ状態の絡み合いは曲線時空のW状態のコヒーレンスよりも大きい。
これらの結果は、相対論的量子情報処理には、適切な量子資源と異なる種類の粒子を用いるべきであることを示唆している。
We study the N-partite coherences of GHZ and W states for free bosonic and fermionic fields when any n observers hover near the event horizon of a Garfinkle-Horowitz-Strominger (GHS) dilaton black hole. We derive the more general analytical expressions for N-partite coherence, encompassing both physically accessible and inaccessible coherences in the context of the dilaton black hole. It has been found that the coherence of the bosonic field is greater than that of the fermionic field, while the entanglement of the fermionic field is greater than that of the bosonic field in dilaton spacetime. Additionally, the coherence of the W state is greater than that of the GHZ state, whereas the entanglement of the GHZ state is greater than that of the W state in curved spacetime. These results suggest that we should utilize suitable quantum resources and different types of particles for relativistic quantum information tasks. | 翻訳日:2024-11-08 22:40:08 公開日:2024-09-21 |
# 密度連想記憶におけるロバスト性の改善とハイパーパラメータ選択
Improved Robustness and Hyperparameter Selection in the Dense Associative Memory ( http://arxiv.org/abs/2407.08742v4 ) ライセンス: Link先を確認 | Hayden McAlister, Anthony Robins, Lech Szymanski, | (参考訳) Dense Associative Memoryは、よりシャープな相互作用関数を可能にすることでホップフィールドネットワークを一般化する。
これにより、近くの学習されたアトラクションが互いに干渉しないため、自己連想記憶としてのネットワークの容量が増大する。
しかし、ネットワークの実装は、メモリベクトルとプローブベクトルのドット積に大きな指数を適用することに依存している。
データの次元が大きければ、計算は非常に大きくなり、実用的な実装で浮動小数点数を使用する場合、不正確さやオーバーフローが発生する。
計算問題を詳細に記述し、元のネットワーク記述を変更して問題を緩和し、更新やトレーニング中にネットワークのダイナミクスを変更しないことを示す。
我々はまた、Dense Associative Memoryのハイパーパラメータ選択を大幅に改善し、相互作用頂点への依存をなくし、元のネットワークのように相互作用頂点に大きく変化しない最適なハイパーパラメータ領域が得られることを示した。
The Dense Associative Memory generalizes the Hopfield network by allowing for sharper interaction functions. This increases the capacity of the network as an autoassociative memory as nearby learned attractors will not interfere with one another. However, the implementation of the network relies on applying large exponents to the dot product of memory vectors and probe vectors. If the dimension of the data is large the calculation can be very large and result in imprecisions and overflow when using floating point numbers in a practical implementation. We describe the computational issues in detail, modify the original network description to mitigate the problem, and show the modification will not alter the networks' dynamics during update or training. We also show our modification greatly improves hyperparameter selection for the Dense Associative Memory, removing dependence on the interaction vertex and resulting in an optimal region of hyperparameters that does not significantly change with the interaction vertex as it does in the original network. | 翻訳日:2024-11-08 22:17:54 公開日:2024-09-21 |
# 量子位相空間を用いた理想フェルミガスと理想ボースガスの改良モデル
Improved models for ideal Fermi gas and ideal Bose gas using quantum phase space ( http://arxiv.org/abs/2407.09998v3 ) ライセンス: Link先を確認 | Rivo Herivola Manjakamanana Ravelonjato, Ravo Tokiniaina Ranaivoson, Raoelina Andriambololona, Roland Raboanary, Naivo Rabesiranana, Solofoarisina Wilfrid Chrysante, | (参考訳) 本研究は,不確実性原理に関連する相空間の量子的性質を考慮に入れた理想フェルミと理想気体の現行モデルに改良を導入することができることを示した。
改良されたモデルの構築は、最近導入された量子力学と量子位相空間の位相空間表現の概念を用いている。
気体粒子とその固有状態のハミルトン作用素が第一に決定され、量子統計力学の使用により理想気体自体の熱力学的性質が導かれる。
大標準ポテンシャル、熱力学粒子数、内部エネルギー、フォン・ノイマンエントロピー、圧力などの熱力学量の明示的な表現と、改良されたモデルに対応する状態方程式は、ボソンとフェルミオンの両方に対して確立される。
これらの式によって導入された補正は、低温および閉じ込められた体積において特に重要であると期待されている。
特に、量子形状とサイズ効果の存在を強調することを許している。
また、熱力学関数と変数は、モータ量子統計分散に直接関係していることが示されている。
古典的理想気体モデルに対応するよく知られた関係は、高温および大体積の漸近限界として改良されたモデルから得ることができる。
In this work, it is shown that the improvements can be introduced into the current models of ideal Fermi and ideal gas to take into account the quantum nature of phase space related to the uncertainty principle. The construction of the improved models is based on the use of the concepts of phase space representation of quantum mechanics and quantum phase space that were introduced and developed recently. Hamiltonian operator of a gas particle and its eigenstates are firstly determined and the use of quantum statistical mechanics leads to the deduction of the thermodynamics properties of the ideal gas itself. The explicit expressions of thermodynamic quantities such as the grand canonical potential, the thermodynamic particles number, the internal energy, the Von Neumann entropy and the pressure as well as the state equations, corresponding to the improved models, are established for both bosons and fermions. The corrections introduced by these expressions are expected to be particularly significant at low temperature and for confined volume. They permit in particular to highlight the existence of quantum shape and size effects. It is also shown that the thermodynamics functions and variables are directly related to the momenta quantum statistical variances. Well-known relations corresponding to classical ideal gas model can be retrieved from the improved models as asymptotic limits at high temperature and for large volume. | 翻訳日:2024-11-08 21:43:45 公開日:2024-09-21 |
# 医療技術評価のためのジェネレーティブAI : 機会,課題,政策的考察
Generative AI for Health Technology Assessment: Opportunities, Challenges, and Policy Considerations ( http://arxiv.org/abs/2407.11054v3 ) ライセンス: Link先を確認 | Rachael Fleurence, Jiang Bian, Xiaoyan Wang, Hua Xu, Dalia Dawoud, Mitch Higashi, Jagpreet Chhatwal, | (参考訳) 本稿では,医療技術評価(HTA)のための生成人工知能(AI)と,大規模言語モデル(LLM)を含む基礎モデルについて紹介する。
1)エビデンス・シンセサイザー、エビデンス・ジェネレーション、臨床試験、経済モデリングの応用を探る:(1)エビデンス・シンセサイザー: 生成AIは、文献レビューとメタアナリシスの自動化を支援する能力を持ち、検索用語の提案、要約のスクリーニング、顕著な精度でデータの抽出を行う。(2)エビデンス・ジェネレーション: これらのモデルにより、プロセスの自動化と、非構造化された臨床ノートや画像を含む利用可能な膨大な実世界のデータ(RWD)の収集、実世界のエビデンス(RWE)生成のスピードと品質の向上、(3)臨床試験: 生成AIは、治験設計を最適化し、患者マッチングを改善し、治験データをより効率的に管理するために使用できる;(4)エビデンス・モデリング: 経済モデルの開発にも役立つ。
約束にもかかわらず、これらの技術は急速に改善されているものの、まだ初期段階にあり、HTAへの適用には慎重な評価が引き続き必要である。
責任ある使用と実施を保証するため、これらのツールを取り入れた研究の開発者と利用者は、科学的妥当性、偏見のリスク、公平性や倫理的含意など、現在の制限に精通するべきである。
我々はまた、現在の政策状況を調査し、HTAエージェンシーに対して、生成AIを彼らのワークフローに責任を持って統合することを提案し、人間の監視の重要性とこれらのツールの急速な進化の性質を強調した。
This review introduces the transformative potential of generative Artificial Intelligence (AI) and foundation models, including large language models (LLMs), for health technology assessment (HTA). We explore their applications in four critical areas, evidence synthesis, evidence generation, clinical trials and economic modeling: (1) Evidence synthesis: Generative AI has the potential to assist in automating literature reviews and meta-analyses by proposing search terms, screening abstracts, and extracting data with notable accuracy; (2) Evidence generation: These models can potentially facilitate automating the process and analyze the increasingly available large collections of real-world data (RWD), including unstructured clinical notes and imaging, enhancing the speed and quality of real-world evidence (RWE) generation; (3) Clinical trials: Generative AI can be used to optimize trial design, improve patient matching, and manage trial data more efficiently; and (4) Economic modeling: Generative AI can also aid in the development of health economic models, from conceptualization to validation, thus streamlining the overall HTA process. Despite their promise, these technologies, while rapidly improving, are still nascent and continued careful evaluation in their applications to HTA is required. To ensure their responsible use and implementation, both developers and users of research incorporating these tools, should familiarize themselves with their current limitations, including the issues related to scientific validity, risk of bias, and consider equity and ethical implications. We also surveyed the current policy landscape and provide suggestions for HTA agencies on responsibly integrating generative AI into their workflows, emphasizing the importance of human oversight and the fast-evolving nature of these tools. | 翻訳日:2024-11-08 21:21:36 公開日:2024-09-21 |
# 連続時間線形-量子強化学習問題のサブ線形レグレット
Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems ( http://arxiv.org/abs/2407.17226v2 ) ライセンス: Link先を確認 | Yilie Huang, Yanwei Jia, Xun Yu Zhou, | (参考訳) 拡散に対する連続時間線形四元数(LQ)制御問題のクラスに対する強化学習(RL)について検討し、状態はスカラー値であり、制御報酬は存在しないが状態過程の揮発性は状態変数と制御変数の両方に依存することを示した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
本研究の主な貢献は,探索スケジュールの導入と提案アルゴリズムの後悔の解析である。
最適パラメータに対するポリシーパラメータの収束率を示し、このアルゴリズムが学習エピソード数である対数係数の$O(N^{\frac{3}{4}})$の後悔境界を達成することを証明した。
本研究は,提案アルゴリズムの有効性と信頼性を検証し,理論的結果を検証するためのシミュレーション研究である。
また,本手法と最近のモデルに基づく確率的LQ RL研究の数値比較を行った。
We study reinforcement learning (RL) for a class of continuous-time linear-quadratic (LQ) control problems for diffusions, where states are scalar-valued and running control rewards are absent but volatilities of the state processes depend on both state and control variables. We apply a model-free approach that relies neither on knowledge of model parameters nor on their estimations, and devise an actor-critic algorithm to learn the optimal policy parameter directly. Our main contributions include the introduction of an exploration schedule and a regret analysis of the proposed algorithm. We provide the convergence rate of the policy parameter to the optimal one, and prove that the algorithm achieves a regret bound of $O(N^{\frac{3}{4}})$ up to a logarithmic factor, where $N$ is the number of learning episodes. We conduct a simulation study to validate the theoretical results and demonstrate the effectiveness and reliability of the proposed algorithm. We also perform numerical comparisons between our method and those of the recent model-based stochastic LQ RL studies adapted to the state- and control-dependent volatility setting, demonstrating a better performance of the former in terms of regret bounds. | 翻訳日:2024-11-08 15:23:20 公開日:2024-09-21 |
# AIが金融(StockAgent)と出会う - 実環境を模擬した大規模言語モデルに基づくストックトレーディング
When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments ( http://arxiv.org/abs/2407.18957v4 ) ライセンス: Link先を確認 | Chong Zhang, Xinyi Liu, Zhongmou Zhang, Mingyu Jin, Lingyao Li, Zhenting Wang, Wenyue Hua, Dong Shu, Suiyuan Zhu, Xiaobo Jin, Sujian Li, Mengnan Du, Yongfeng Zhang, | (参考訳) AIエージェントは、現実世界のトレーディング環境をシミュレートして、外的要因が株式トレーディング活動(例えば、マクロ経済学、政策変更、企業基本、グローバルイベント)に与える影響を調査できますか?
これらの要因は、しばしば取引行動に影響を与えるが、投資家の利益を最大化するための探求において重要な要素である。
我々の研究は、大規模言語モデルに基づくエージェントによってこの問題を解決しようと試みている。
LLMによって駆動されるマルチエージェントAIシステムであるStockAgentを開発した。
StockAgentを使えば、ユーザーはさまざまな外部要因が投資家の取引に与える影響を評価し、取引行動や収益性への影響を分析することができる。
さらに、StockAgentはAIエージェントに基づいた既存のトレーディングシミュレーションシステムに存在するテストセットのリーク問題を回避する。
具体的には、モデルがテストデータに関して取得した可能性のある事前知識を活用するのを防ぐ。
実環境によく似たストックトレーディング環境で,StockAgentの枠組みの下で異なるLCMを評価した。
実験結果は、取引行動や株価変動ルールを含む外的要因が株式市場取引に与える影響を実証した。
本研究は,市場データに関する事前知識がない文脈において,エージェントの自由貿易ギャップについて検討する。
StockAgentシミュレーションで特定されたパターンは、LLMベースの投資アドバイスと株式レコメンデーションに貴重な洞察を与える。
コードはhttps://github.com/MingyuJ666/Stockagent.comで公開されている。
Can AI Agents simulate real-world trading environments to investigate the impact of external factors on stock trading activities (e.g., macroeconomics, policy changes, company fundamentals, and global events)? These factors, which frequently influence trading behaviors, are critical elements in the quest for maximizing investors' profits. Our work attempts to solve this problem through large language model based agents. We have developed a multi-agent AI system called StockAgent, driven by LLMs, designed to simulate investors' trading behaviors in response to the real stock market. The StockAgent allows users to evaluate the impact of different external factors on investor trading and to analyze trading behavior and profitability effects. Additionally, StockAgent avoids the test set leakage issue present in existing trading simulation systems based on AI Agents. Specifically, it prevents the model from leveraging prior knowledge it may have acquired related to the test data. We evaluate different LLMs under the framework of StockAgent in a stock trading environment that closely resembles real-world conditions. The experimental results demonstrate the impact of key external factors on stock market trading, including trading behavior and stock price fluctuation rules. This research explores the study of agents' free trading gaps in the context of no prior knowledge related to market data. The patterns identified through StockAgent simulations provide valuable insights for LLM-based investment advice and stock recommendation. The code is available at https://github.com/MingyuJ666/Stockagent. | 翻訳日:2024-11-08 14:38:53 公開日:2024-09-21 |
# 網膜血管セグメンテーションのための領域誘導注意ネットワーク
Region Guided Attention Network for Retinal Vessel Segmentation ( http://arxiv.org/abs/2407.18970v3 ) ライセンス: Link先を確認 | Syed Javed, Tariq M. Khan, Abdul Qayyum, Arcot Sowmya, Imran Razzak, | (参考訳) 網膜イメージングは、網膜のユニークな構造を利用して、この課題に対処する有望な方法として登場した。
網膜は中枢神経系の胚性拡張であり、神経学的健康への直接のインビボの窓を提供する。
近年の研究では、網膜血管の特定の構造変化が、様々な疾患の早期の指標となるだけでなく、疾患の進行を理解するのに役立つことが示されている。
本研究では,領域誘導型アテンションを用いたエンコーダデコーダ機構に基づく軽量網膜血管セグメンテーションネットワークを提案する。
我々は,前景領域に着目し,関心領域のセグメンテーションを改善するために,地域を誘導した逆付加注意ブロックを導入する。
網膜血管セグメンテーションにおけるモデルの性能をさらに向上させるために,重み付きサイスロスを用いる。
この選択は網膜血管セグメンテーションタスクで頻繁に発生するクラス不均衡の問題に対処するのに特に有効である。
Dice Losは偽陽性と偽陰性を等しく解析し、改善されたオブジェクト境界線と縮小されたフラグメンテーションでより正確なセグメンテーションを生成するようモデルに促す。
ベンチマークデータセットの大規模な実験では、最先端の手法と比較して、パフォーマンス(0.8285, 0.8098, 0.9677, 0.8166リコール、精度、精度、F1スコア)が向上した。
Retinal imaging has emerged as a promising method of addressing this challenge, taking advantage of the unique structure of the retina. The retina is an embryonic extension of the central nervous system, providing a direct in vivo window into neurological health. Recent studies have shown that specific structural changes in retinal vessels can not only serve as early indicators of various diseases but also help to understand disease progression. In this work, we present a lightweight retinal vessel segmentation network based on the encoder-decoder mechanism with region-guided attention. We introduce inverse addition attention blocks with region guided attention to focus on the foreground regions and improve the segmentation of regions of interest. To further boost the model's performance on retinal vessel segmentation, we employ a weighted dice loss. This choice is particularly effective in addressing the class imbalance issues frequently encountered in retinal vessel segmentation tasks. Dice loss penalises false positives and false negatives equally, encouraging the model to generate more accurate segmentation with improved object boundary delineation and reduced fragmentation. Extensive experiments on a benchmark dataset show better performance (0.8285, 0.8098, 0.9677, and 0.8166 recall, precision, accuracy and F1 score respectively) compared to state-of-the-art methods. | 翻訳日:2024-11-08 14:38:53 公開日:2024-09-21 |
# 境界の定義: ドメイン仕様が機械翻訳におけるクロスランゲージとクロスドメイン転送に与える影響
Defining Boundaries: The Impact of Domain Specification on Cross-Language and Cross-Domain Transfer in Machine Translation ( http://arxiv.org/abs/2408.11926v2 ) ライセンス: Link先を確認 | Lia Shahnazaryan, Meriem Beloucif, | (参考訳) ニューラルマシン翻訳(NMT)の最近の進歩はこの分野に革命をもたらしたが、大規模な並列コーパスへの依存は低リソース言語やドメインの進歩を制限する。
言語間変換学習は、高ソース言語からのデータを活用することで有望なソリューションを提供するが、しばしばドメイン内のNMTと競合する。
本稿では,NMTにおけるゼロショット言語間ドメイン適応について検討し,ドメイン仕様と言語要因が伝達効率に与える影響に着目した。
ポルトガル語,イタリア語,フランス語,チェコ語,ポーランド語,ギリシャ語など,複数のターゲット言語について,英語をソース言語とし,スペイン語を微調整に用いた。
言語固有の要因とドメイン固有の要因の両方が転送効率に影響を与え、ドメイン特性がドメイン間転送電位を決定する上で重要な役割を担っていることを実証する。
また、ゼロショットのクロスランガルなドメイン間転送の実現可能性についても検討し、どのドメインが転送に対してより応答性があり、なぜなのかを洞察する。
この結果から,ドメイン間移動学習実験における領域境界の明確化と透過性の重要性が示唆された。
Recent advancements in neural machine translation (NMT) have revolutionized the field, yet the dependency on extensive parallel corpora limits progress for low-resource languages and domains. Cross-lingual transfer learning offers a promising solution by utilizing data from high-resource languages but often struggles with in-domain NMT. This paper investigates zero-shot cross-lingual domain adaptation for NMT, focusing on the impact of domain specification and linguistic factors on transfer effectiveness. Using English as the source language and Spanish for fine-tuning, we evaluate multiple target languages, including Portuguese, Italian, French, Czech, Polish, and Greek. We demonstrate that both language-specific and domain-specific factors influence transfer effectiveness, with domain characteristics playing a crucial role in determining cross-domain transfer potential. We also explore the feasibility of zero-shot cross-lingual cross-domain transfer, providing insights into which domains are more responsive to transfer and why. Our results show the importance of well-defined domain boundaries and transparency in experimental setups for in-domain transfer learning. | 翻訳日:2024-11-08 06:00:03 公開日:2024-09-21 |
# 線形近似とリプシッツ最適化によるニューラルネットワークの幾何学的ロバスト性の検証
Verification of Geometric Robustness of Neural Networks via Piecewise Linear Approximation and Lipschitz Optimisation ( http://arxiv.org/abs/2408.13140v3 ) ライセンス: Link先を確認 | Ben Batten, Yang Zheng, Alessandro De Palma, Panagiotis Kouvaros, Alessio Lomuscio, | (参考訳) 我々は、回転、スケーリング、せん断、翻訳を含む入力画像の幾何学的変換に対するニューラルネットワークの検証の問題に対処する。
提案手法は, 分枝・分枝リプシッツ最適化と組み合わせたサンプリングおよび線形近似を用いて, 画素値に対する高音域線形制約を求める。
本発明の方法は、現在の最先端技術よりも、摂動領域の過近似を確実に厳格に求める。
MNISTとCIFAR10の総合的な検証ベンチマーク実験の結果を報告する。
提案手法では,既存の手法よりも最大32%の検証ケースが解決されている。
We address the problem of verifying neural networks against geometric transformations of the input image, including rotation, scaling, shearing, and translation. The proposed method computes provably sound piecewise linear constraints for the pixel values by using sampling and linear approximations in combination with branch-and-bound Lipschitz optimisation. The method obtains provably tighter over-approximations of the perturbation region than the present state-of-the-art. We report results from experiments on a comprehensive set of verification benchmarks on MNIST and CIFAR10. We show that our proposed implementation resolves up to 32% more verification cases than present approaches. | 翻訳日:2024-11-08 05:26:28 公開日:2024-09-21 |
# アバターのコンセプトスライダ:細かいコントロールで人間のアバターのコンセプトを操る
Avatar Concept Slider: Manipulate Concepts In Your Human Avatar With Fine-grained Control ( http://arxiv.org/abs/2408.13995v2 ) ライセンス: Link先を確認 | Yixuan He, Lin Geng Foo, Ajmal Saeed Mian, Hossein Rahmani, Jun Liu, | (参考訳) 言語に基づく人間の3次元アバターのユーザの要求に正確に適合する編集は、自然言語の本質的曖昧さと限定的な表現性のために困難である。
そこで本研究では,Avatar Concept Slider (ACS) を提案する。Avatar Concept Slider (ACS) は,人間のアバターにおけるセマンティックな概念を,スライダー・トラックに沿ってノブを移動させるような2つの概念の中間点に対して正確に操作できる3次元アバター編集手法である。
これを実現するために、ACSには3つの設計があります。
1) 線形判別分析に基づくコンセプトスライディング損失から, 正確な編集を行うための概念固有の軸を特定できる。
2 主成分分析に基づく属性保存損益は、編集中のアバター識別の保存を改善するものである。
3) 目的概念に最も敏感なプリミティブのみを更新する概念感度に基づく3次元ガウススプラッティングプリミティブ選択機構により効率を向上する。
その結果, ACSはアバターの品質を損なわず, アバターの識別特性を損なうことなく, 高精度な3次元アバター編集が可能であった。
Language based editing of 3D human avatars to precisely match user requirements is challenging due to the inherent ambiguity and limited expressiveness of natural language. To overcome this, we propose the Avatar Concept Slider (ACS), a 3D avatar editing method that allows precise manipulation of semantic concepts in human avatars towards a specified intermediate point between two extremes of concepts, akin to moving a knob along a slider track. To achieve this, our ACS has three designs. 1) A Concept Sliding Loss based on Linear Discriminant Analysis to pinpoint the concept-specific axis for precise editing. 2) An Attribute Preserving Loss based on Principal Component Analysis for improved preservation of avatar identity during editing. 3) A 3D Gaussian Splatting primitive selection mechanism based on concept-sensitivity, which updates only the primitives that are the most sensitive to our target concept, to improve efficiency. Results demonstrate that our ACS enables fine-grained 3D avatar editing with efficient feedback, without harming the avatar quality or compromising the avatar's identifying attributes. | 翻訳日:2024-11-08 05:15:13 公開日:2024-09-21 |
# GSIFN:マルチモーダル感性解析のためのグラフ構造化・介在型マルチモーダルトランスベースフュージョンネットワーク
GSIFN: A Graph-Structured and Interlaced-Masked Multimodal Transformer-based Fusion Network for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2408.14809v3 ) ライセンス: Link先を確認 | Yijie Jin, | (参考訳) マルチモーダルセンチメント分析(MSA)は、複数のデータモーダルを利用して人間の感情を分析する。
既存のMSAモデルでは、MSA能力を促進するために、最先端のマルチモーダル融合と表現学習に基づく手法が一般的である。
しかし、主な課題は2つある。
(i) 既存の多モード核融合法において、モーダル結合と膨大なパラメータ冗長性の分離は、核融合性能と効率を低下させる。
(II) 単一特徴抽出器とエンコーダにおける表現能力と計算オーバーヘッドとの間には、困難なトレードオフが存在する。
提案するGSIFNには2つの主成分が組み込まれている。
(i)グラフ構造化・インターレース化マルチモーダルトランス。
これはInterlaced Maskメカニズムを採用し、堅牢なマルチモーダルグラフ埋め込みを構築し、オールモーダルインワントランスフォーマーベースの融合を実現し、計算オーバーヘッドを大幅に削減する。
(II) 計算オーバーヘッドの少ない自己教師あり学習フレームワークで, 並列化LSTMと行列メモリを併用し, ラベル生成のための非言語的モーダル特性を向上する。
MSAデータセットであるCMU-MOSI、CMU-MOSEI、CH-SIMSに基づいて評価した結果、GSIFNは従来の最先端モデルに比べて計算オーバーヘッドが大幅に低い性能を示した。
Multimodal Sentiment Analysis (MSA) leverages multiple data modals to analyze human sentiment. Existing MSA models generally employ cutting-edge multimodal fusion and representation learning-based methods to promote MSA capability. However, there are two key challenges: (i) in existing multimodal fusion methods, the decoupling of modal combinations and tremendous parameter redundancy, lead to insufficient fusion performance and efficiency; (ii) a challenging trade-off exists between representation capability and computational overhead in unimodal feature extractors and encoders. Our proposed GSIFN incorporates two main components to solve these problems: (i) a graph-structured and interlaced-masked multimodal Transformer. It adopts the Interlaced Mask mechanism to construct robust multimodal graph embedding, achieve all-modal-in-one Transformer-based fusion, and greatly reduce the computational overhead; (ii) a self-supervised learning framework with low computational overhead and high performance, which utilizes a parallelized LSTM with matrix memory to enhance non-verbal modal features for unimodal label generation. Evaluated on the MSA datasets CMU-MOSI, CMU-MOSEI, and CH-SIMS, GSIFN demonstrates superior performance with significantly lower computational overhead compared with previous state-of-the-art models. | 翻訳日:2024-11-08 04:52:58 公開日:2024-09-21 |
# カモフラージュ物体検出のための動的トークンクラスタリングを用いた階層グラフ相互作用変換器
Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection ( http://arxiv.org/abs/2408.15020v2 ) ライセンス: Link先を確認 | Siyuan Yao, Hao Sun, Tian-Zhu Xiang, Xiao Wang, Xiaochun Cao, | (参考訳) カモフラージュされた物体検出(COD)は、周囲の背景にシームレスに溶け込む物体を特定することを目的としている。
カモフラージュされた物体と背景領域との固有の類似性のため、既存のアプローチでカモフラーグされた物体を正確に識別することは極めて困難である。
本稿では,HGINetと呼ばれる階層型グラフ相互作用ネットワークを提案する。
具体的には、まず、局所的に識別可能なトークンを発掘するために、動的トークンクラスタリングによる領域認識型トークンフォーカスアテンション(RTFA)を設計する。
その後,階層型グラフ相互作用変換器 (HGIT) が提案され,視覚的セマンティクス強化のための潜在相互作用空間における階層的特徴間の双方向な通信を構築する。
さらに,信頼集約型特徴融合(CAFF)モジュールを用いたデコーダネットワークを提案する。
一般的なデータセットであるCOD10K、CAMO、NC4K、CHAMELEONで実施された大規模な実験は、既存の最先端手法と比較して、HGINetの優れた性能を示している。
私たちのコードはhttps://github.com/Garyson1204/HGINetで利用可能です。
Camouflaged object detection (COD) aims to identify the objects that seamlessly blend into the surrounding backgrounds. Due to the intrinsic similarity between the camouflaged objects and the background region, it is extremely challenging to precisely distinguish the camouflaged objects by existing approaches. In this paper, we propose a hierarchical graph interaction network termed HGINet for camouflaged object detection, which is capable of discovering imperceptible objects via effective graph interaction among the hierarchical tokenized features. Specifically, we first design a region-aware token focusing attention (RTFA) with dynamic token clustering to excavate the potentially distinguishable tokens in the local region. Afterwards, a hierarchical graph interaction transformer (HGIT) is proposed to construct bi-directional aligned communication between hierarchical features in the latent interaction space for visual semantics enhancement. Furthermore, we propose a decoder network with confidence aggregated feature fusion (CAFF) modules, which progressively fuses the hierarchical interacted features to refine the local detail in ambiguous regions. Extensive experiments conducted on the prevalent datasets, i.e. COD10K, CAMO, NC4K and CHAMELEON demonstrate the superior performance of HGINet compared to existing state-of-the-art methods. Our code is available at https://github.com/Garyson1204/HGINet. | 翻訳日:2024-11-08 04:52:58 公開日:2024-09-21 |
# Vec2Face: 制約の少ないベクトルによる顔データセット生成のスケーリング
Vec2Face: Scaling Face Dataset Generation with Loosely Constrained Vectors ( http://arxiv.org/abs/2409.02979v3 ) ライセンス: Link先を確認 | Haiyu Wu, Jaskirat Singh, Sicong Tian, Liang Zheng, Kevin W. Bowyer, | (参考訳) 本稿では,既存の人物の顔画像を合成し,顔認識モデル(FR)を効果的に訓練するデータセットを作成する方法について検討する。
2つの重要なゴールは、(1) 多数の異なるアイデンティティ(クラス間分離)を生成し、(2) 個々のアイデンティティ(クラス内変異)の外観が広範囲に変化する能力である。
しかし、現存する作品
1)は通常、よく区切られたアイデンティティをいくつ生成できるかに制限される。
2) 属性拡張のために別個の編集モデルを無視するか、使用します。
本稿では,サンプルベクトルのみを入力とし,顔画像とその属性を柔軟に生成・制御できる総合モデルであるVec2Faceを提案する。
機能マスク付きオートエンコーダとデコーダで構成されたVec2Faceは、顔画像再構成によって監視され、推論に便利に使用できる。
Vec2Faceは、それらの間の類似性が低いベクトルを入力として使用し、よく分離されたIDを生成する。
入力IDベクトルを小さな範囲内でランダムに摂動することで、Vec2Faceは顔属性の頑健な変化で同一のIDの顔を生成することができる。
また、勾配降下法を用いてベクトル値を調整することにより、指定された属性を持つ画像を生成することもできる。
Vec2Faceは、1500万枚の画像を持つ300万枚のIDを効率よく合成している。
10kから300kまでのHSFaceデータセットでトレーニングされたFRモデルは、5つの実世界のテストセットで、最先端の精度を92%から93.52%に向上させる。
合成トレーニングセットを用いて作成したモデルは,実顔画像の同スケールトレーニングセット(CALFWテストセット)を用いて作成したモデルよりも高い精度を実現した。
This paper studies how to synthesize face images of non-existent persons, to create a dataset that allows effective training of face recognition (FR) models. Two important goals are (1) the ability to generate a large number of distinct identities (inter-class separation) with (2) a wide variation in appearance of each identity (intra-class variation). However, existing works 1) are typically limited in how many well-separated identities can be generated and 2) either neglect or use a separate editing model for attribute augmentation. We propose Vec2Face, a holistic model that uses only a sampled vector as input and can flexibly generate and control face images and their attributes. Composed of a feature masked autoencoder and a decoder, Vec2Face is supervised by face image reconstruction and can be conveniently used in inference. Using vectors with low similarity among themselves as inputs, Vec2Face generates well-separated identities. Randomly perturbing an input identity vector within a small range allows Vec2Face to generate faces of the same identity with robust variation in face attributes. It is also possible to generate images with designated attributes by adjusting vector values with a gradient descent method. Vec2Face has efficiently synthesized as many as 300K identities with 15 million total images, whereas 60K is the largest number of identities created in the previous works. FR models trained with the generated HSFace datasets, from 10k to 300k identities, achieve state-of-the-art accuracy, from 92% to 93.52%, on five real-world test sets. For the first time, our model created using a synthetic training set achieves higher accuracy than the model created using a same-scale training set of real face images (on the CALFW test set). | 翻訳日:2024-11-07 23:34:03 公開日:2024-09-21 |
# CubicML: ML性能予測を併用した大規模MLシステムのための自動ML
CubicML: Automated ML for Large ML Systems Co-design with ML Prediction of Performance ( http://arxiv.org/abs/2409.04585v2 ) ライセンス: Link先を確認 | Wei Wen, Quanyu Zhu, Weiwei Chu, Wen-Yen Chen, Jiyan Yang, | (参考訳) ディープラーニングモデルのスケールアップは、特に産業レコメンデーションモデルや大規模言語モデルにおいて、マシンラーニング(ML)モデルのインテリジェンスを改善するために有効であることが証明されている。
大規模な分散MLシステムとアルゴリズム(トレーニングパフォーマンスを最大化する)の共同設計は、その成功に重要な役割を果たす。
スケールするにつれて、共同設計のハイパーパラメータの数が急速に増加し、システムパフォーマンスの最大化に最適な設定を見つけることが困難になる。
本稿では,大規模分散MLシステムのトレーニング性能を自動最適化するCuicMLを提案する。
CubicMLでは、機械学習モデルをプロキシとして使用し、探索効率と性能モデリングの柔軟性のトレーニング性能を予測する。
我々は,CubicMLが,Metaにおいて,73億のパラメータと最大4050億のパラメータを持つ社内広告推薦モデルのトレーニング速度を効果的に最適化できることを実証した。
Scaling up deep learning models has been proven effective to improve intelligence of machine learning (ML) models, especially for industry recommendation models and large language models. The co-design of large distributed ML systems and algorithms (to maximize training performance) plays a pivotal role for its success. As it scales, the number of co-design hyper-parameters grows rapidly which brings challenges to feasibly find the optimal setup for system performance maximization. In this paper, we propose CubicML which uses ML to automatically optimize training performance of large distributed ML systems. In CubicML, we use an ML model as a proxy to predict the training performance for search efficiency and performance modeling flexibility. We proved that CubicML can effectively optimize training speed of in-house ads recommendation models with 73 billion parameters and large language models up to 405 billion parameters at Meta. | 翻訳日:2024-11-07 23:00:54 公開日:2024-09-21 |
# 最適輸送による世界貿易のモデル化
Modelling Global Trade with Optimal Transport ( http://arxiv.org/abs/2409.06554v2 ) ライセンス: Link先を確認 | Thomas Gaskin, Marie-Therese Wolfram, Andrew Duncan, Guven Demirel, | (参考訳) グローバル貿易は、輸送コストや関税のような具体的な変数を含む供給と需要を超えた複雑な要素が混ざり合っており、政治的・経済的関係のような定量的な影響は少ない。
伝統的に、経済学者は重力モデルを使って貿易をモデル化し、これは明示的な共変量に依存するが、貿易の微妙な要因を捉えるのに苦労することが多い。
本研究では,データから時間依存のコスト関数を学習するために,最適なトランスポートとディープニューラルネットワークを用いる。
このアプローチは、自然な不確実性定量化を提供しながら、伝統的な重力モデルを精度で一貫して上回る。
我が国の枠組みをグローバルな食料・農業貿易に適用すると、世界の南部は、ウクライナの小麦市場への影響で戦争から不釣り合いに苦しんだことが分かる。
我々はまた、自由貿易協定と中国との貿易紛争の影響、およびブレグジットがヨーロッパとのイギリス貿易に与える影響を分析し、貿易量だけでは明らかにできない隠されたパターンを明らかにする。
Global trade is shaped by a complex mix of factors beyond supply and demand, including tangible variables like transport costs and tariffs, as well as less quantifiable influences such as political and economic relations. Traditionally, economists model trade using gravity models, which rely on explicit covariates but often struggle to capture these subtler drivers of trade. In this work, we employ optimal transport and a deep neural network to learn a time-dependent cost function from data, without imposing a specific functional form. This approach consistently outperforms traditional gravity models in accuracy while providing natural uncertainty quantification. Applying our framework to global food and agricultural trade, we show that the global South suffered disproportionately from the war in Ukraine's impact on wheat markets. We also analyze the effects of free-trade agreements and trade disputes with China, as well as Brexit's impact on British trade with Europe, uncovering hidden patterns that trade volumes alone cannot reveal. | 翻訳日:2024-11-07 22:16:23 公開日:2024-09-21 |
# 逆制約強化学習に関する包括的調査:定義・進歩・課題
A Comprehensive Survey on Inverse Constrained Reinforcement Learning: Definitions, Progress and Challenges ( http://arxiv.org/abs/2409.07569v2 ) ライセンス: Link先を確認 | Guiliang Liu, Sheng Xu, Shicheng Liu, Ashish Gaurav, Sriram Ganapathi Subramanian, Pascal Poupart, | (参考訳) 逆制約強化学習(英: Inverse Constrained Reinforcement Learning, ICRL)は、暗黙の制約を推論し、その実証データから専門家エージェントが続くタスクである。
ICRLは近年,新たな研究トピックとして注目されている。
本論では, ICRLの最近の進歩について分類学的に考察する。
ICRLの定義、進歩、重要な課題を理解しようとする初心者だけでなく、機械学習の研究者や実践者にとっても包括的な参照として機能する。
まず、問題を正式に定義し、様々なシナリオにまたがる制約推論を容易にするアルゴリズムフレームワークの概要を説明します。
これには決定論的または確率的環境、限られたデモのある環境、複数のエージェントが含まれる。
それぞれの文脈について、批判的な課題を説明し、これらの問題に取り組むための基本的な方法を紹介します。
この調査は、ICRLエージェントを評価するための離散的で仮想的で現実的な環境を含む。
また、自律運転、ロボット制御、スポーツ分析など、ICRLの最も重要な応用についても調べる。
本研究は, 理論的理解と産業応用の橋渡しを効果的に促進できる ICRL の重要な未解決問題について, 調査を締めくくった。
Inverse Constrained Reinforcement Learning (ICRL) is the task of inferring the implicit constraints followed by expert agents from their demonstration data. As an emerging research topic, ICRL has received considerable attention in recent years. This article presents a categorical survey of the latest advances in ICRL. It serves as a comprehensive reference for machine learning researchers and practitioners, as well as starters seeking to comprehend the definitions, advancements, and important challenges in ICRL. We begin by formally defining the problem and outlining the algorithmic framework that facilitates constraint inference across various scenarios. These include deterministic or stochastic environments, environments with limited demonstrations, and multiple agents. For each context, we illustrate the critical challenges and introduce a series of fundamental methods to tackle these issues. This survey encompasses discrete, virtual, and realistic environments for evaluating ICRL agents. We also delve into the most pertinent applications of ICRL, such as autonomous driving, robot control, and sports analytics. To stimulate continuing research, we conclude the survey with a discussion of key unresolved questions in ICRL that can effectively foster a bridge between theoretical understanding and practical industrial applications. | 翻訳日:2024-11-07 21:42:46 公開日:2024-09-21 |
# LOCKEY: モデル認証とディープフェイク追跡の新しいアプローチ
LOCKEY: A Novel Approach to Model Authentication and Deepfake Tracking ( http://arxiv.org/abs/2409.07743v2 ) ライセンス: Link先を確認 | Mayank Kumar Singh, Naoya Takahashi, Wei-Hsiang Liao, Yuki Mitsufuji, | (参考訳) 本稿では、キーベースモデル認証と透かし技術を統合することにより、ユーザがモデルパラメータにフルアクセスした場合でも、不正なディープフェイクを検知し、生成モデルにおけるユーザ追跡を可能にする新しいアプローチを提案する。
本手法では,ユーザ固有のキーを伴って,モデルパラメータをユーザに提供する。
推論中、モデルは標準入力と共にキーに条件付けされる。
有効なキーは期待された出力となり、一方、無効なキーは劣化した出力をトリガーし、キーベースのモデル認証を強制する。
ユーザ追跡では、生成したコンテンツにユーザのユニークなキーを透かしとして埋め込み、ユーザのIDの識別を容易にする。
我々は,SilentCipher透かし方式を用いて,音声コーデックとボコーダの2種類のモデルに対するアプローチの有効性を実証した。
さらに,組込み透かしの様々な歪みに対する堅牢性を評価し,その信頼性を様々なシナリオで検証する。
This paper presents a novel approach to deter unauthorized deepfakes and enable user tracking in generative models, even when the user has full access to the model parameters, by integrating key-based model authentication with watermarking techniques. Our method involves providing users with model parameters accompanied by a unique, user-specific key. During inference, the model is conditioned upon the key along with the standard input. A valid key results in the expected output, while an invalid key triggers a degraded output, thereby enforcing key-based model authentication. For user tracking, the model embeds the user's unique key as a watermark within the generated content, facilitating the identification of the user's ID. We demonstrate the effectiveness of our approach on two types of models, audio codecs and vocoders, utilizing the SilentCipher watermarking method. Additionally, we assess the robustness of the embedded watermarks against various distortions, validating their reliability in various scenarios. | 翻訳日:2024-11-07 21:42:46 公開日:2024-09-21 |
# CompressedMediQ:高次元ニューロイメージングデータのためのハイブリッド量子機械学習パイプライン
CompressedMediQ: Hybrid Quantum Machine Learning Pipeline for High-Dimensional Neuroimaging Data ( http://arxiv.org/abs/2409.08584v3 ) ライセンス: Link先を確認 | Kuan-Cheng Chen, Yi-Tien Li, Tai-Yu Li, Chen-Yu Liu, Po-Heng Li, Cheng-Yu Chen, | (参考訳) 本稿では,高次元マルチクラスニューロイメージングデータ解析に関連する計算課題に対処するために開発された,新しいハイブリッド量子古典型機械学習パイプラインであるCompressedMediQを紹介する。
アルツハイマー病神経画像イニシアチブ(英語版)(ADNI)の大規模なMRIデータや、前頭側頭型認知症(英語版)(NIFD)におけるニューロイメージングなどの標準的な神経画像データセットは、その大きさと複雑さのために大きなハードルを呈している。
CompressedMediQは、高度なMRI前処理のための古典的ハイパフォーマンスコンピューティング(HPC)ノードと、CNN(Convolutional Neural Network)ベースの特徴抽出と削減を統合し、NISQ(Noisy Intermediate-Scale Quantum)時代の量子データ符号化の限定量子可用性に対処する。
次にQuantum Support Vector Machine (QSVM) という分類が続く。
量子カーネルの手法を利用することで、パイプラインは特徴マッピングと分類を最適化し、データの分離性を高め、従来のニューロイメージング分析技術より優れた性能を発揮する。
実験的結果は、認知症のステージングにおけるパイプラインの優れた精度を強調し、臨床診断における量子機械学習の実践的利用を検証する。
NISQデバイスの限界にもかかわらず、この概念実証は量子化学習の変革の可能性を示し、医療や信号処理におけるスケーラブルで正確な診断ツールの道を開いた。
This paper introduces CompressedMediQ, a novel hybrid quantum-classical machine learning pipeline specifically developed to address the computational challenges associated with high-dimensional multi-class neuroimaging data analysis. Standard neuroimaging datasets, such as large-scale MRI data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) and Neuroimaging in Frontotemporal Dementia (NIFD), present significant hurdles due to their vast size and complexity. CompressedMediQ integrates classical high-performance computing (HPC) nodes for advanced MRI pre-processing and Convolutional Neural Network (CNN)-PCA-based feature extraction and reduction, addressing the limited-qubit availability for quantum data encoding in the NISQ (Noisy Intermediate-Scale Quantum) era. This is followed by Quantum Support Vector Machine (QSVM) classification. By utilizing quantum kernel methods, the pipeline optimizes feature mapping and classification, enhancing data separability and outperforming traditional neuroimaging analysis techniques. Experimental results highlight the pipeline's superior accuracy in dementia staging, validating the practical use of quantum machine learning in clinical diagnostics. Despite the limitations of NISQ devices, this proof-of-concept demonstrates the transformative potential of quantum-enhanced learning, paving the way for scalable and precise diagnostic tools in healthcare and signal processing. | 翻訳日:2024-11-07 21:20:36 公開日:2024-09-21 |
# オーバージェネレーション・アンド・ランクによる大規模言語モデルを用いた自動キーワードMnemonics生成の探索
Exploring Automated Keyword Mnemonics Generation with Large Language Models via Overgenerate-and-Rank ( http://arxiv.org/abs/2409.13952v1 ) ライセンス: Link先を確認 | Jaewook Lee, Hunter McNichols, Andrew Lan, | (参考訳) 本稿では,言語と語彙学習の未探索領域であるキーワード・メネモニクス(キーワード・メネモニクス)について検討する。
通常、動詞の手がかりを作成するには、広範囲の人的努力が必要で、非常に時間がかかり、よりスケーラブルな自動化メソッドが必要になります。
そこで本稿では,大規模言語モデル(LLM)に言語的手がかりを生成させ,それをパイロットユーザスタディから得られた心理言語学的尺度やテイクアウトに基づいてランク付けすることで,新たなオーバージェネレーション・アンド・ランク手法を提案する。
クエの質を評価するため,教師や学習者による人的評価だけでなく,画像の可視性とコヒーレンスの自動評価も行う。
以上の結果から,LLM生成は画像性,コヒーレンス,知覚的有用性において人間に匹敵するが,言語学習者の背景や嗜好の多様性により,改善の余地は十分にあることがわかった。
In this paper, we study an under-explored area of language and vocabulary learning: keyword mnemonics, a technique for memorizing vocabulary through memorable associations with a target word via a verbal cue. Typically, creating verbal cues requires extensive human effort and is quite time-consuming, necessitating an automated method that is more scalable. We propose a novel overgenerate-and-rank method via prompting large language models (LLMs) to generate verbal cues and then ranking them according to psycholinguistic measures and takeaways from a pilot user study. To assess cue quality, we conduct both an automated evaluation of imageability and coherence, as well as a human evaluation involving English teachers and learners. Results show that LLM-generated mnemonics are comparable to human-generated ones in terms of imageability, coherence, and perceived usefulness, but there remains plenty of room for improvement due to the diversity in background and preference among language learners. | 翻訳日:2024-11-07 04:28:44 公開日:2024-09-21 |
# 差分プライバシーによる大規模ASRエンコーダの訓練
Training Large ASR Encoders with Differential Privacy ( http://arxiv.org/abs/2409.13953v1 ) ライセンス: Link先を確認 | Geeticka Chauhan, Steve Chien, Om Thakkar, Abhradeep Thakurta, Arun Narayanan, | (参考訳) 大規模音声モデルのための自己教師付き学習(SSL)手法は、ASRにおいて非常に効果的であることが証明されている。
大規模な事前学習モデルの公開展開に関心があるため、意図しない記憶と、トレーニングデータからの機密データポイントの漏洩に対する懸念が高まっている。
本稿では,SOTA Conformer ベースのエンコーダに差分プライベート(DP)事前学習を適用し,微調整データを公開していると仮定した下流 ASR タスクの性能について検討する。
本稿では,BEST-RQ事前学習方式のDP雑音耐性について検討し,ASRのSSLにDPを適用した最初の例である。
特に、我々は、プライバシ・ユーティリティー・コンピュートトレードオフを強力に改善するグラデーション・ベース・レイヤ・フリーズと呼ばれる新しいモデル・プルーニングを導入する。
提案手法は,低データセットスケールに対する外挿に10$,1e^-9)-DP,高スケールに対する外挿に2.81/589(10,7.9e^-11)-DP,3.78/841(%)のLibriSpeechテストクリーン/その他のWERを生成する。
Self-supervised learning (SSL) methods for large speech models have proven to be highly effective at ASR. With the interest in public deployment of large pre-trained models, there is a rising concern for unintended memorization and leakage of sensitive data points from the training data. In this paper, we apply differentially private (DP) pre-training to a SOTA Conformer-based encoder, and study its performance on a downstream ASR task assuming the fine-tuning data is public. This paper is the first to apply DP to SSL for ASR, investigating the DP noise tolerance of the BEST-RQ pre-training method. Notably, we introduce a novel variant of model pruning called gradient-based layer freezing that provides strong improvements in privacy-utility-compute trade-offs. Our approach yields a LibriSpeech test-clean/other WER (%) of 3.78/ 8.41 with ($10$, 1e^-9)-DP for extrapolation towards low dataset scales, and 2.81/ 5.89 with (10, 7.9e^-11)-DP for extrapolation towards high scales. | 翻訳日:2024-11-07 04:28:44 公開日:2024-09-21 |
# 一つのモデル,任意の共役クエリ:知識グラフ上で複雑なクエリを答えるグラフニューラルネットワーク
One Model, Any Conjunctive Query: Graph Neural Networks for Answering Complex Queries over Knowledge Graphs ( http://arxiv.org/abs/2409.13959v1 ) ライセンス: Link先を確認 | Krzysztof Olejniczak, Xingyue Huang, İsmail İlkan Ceylan, Mikhail Galkin, | (参考訳) 知識グラフ(あるいはリレーショナルデータ)に対する従来のクエリ応答は、データ管理における最も基本的な問題のひとつです。
知識グラフの不完全性によって動機づけられたクエリ応答のための新しいセットアップが出現し、そのゴールは知識グラフに必ずしも現れるのではなく、その完成に存在している答えを予測することである。
本研究では,任意の知識グラフ上の共役的な問合せに対して,学習後に回答を分類できるグラフニューラルネットワークモデルであるAnyCQを提案する。
私たちのフレームワークのコアには、Booleanクエリに応答するために強化学習目標を使用してトレーニングされたグラフニューラルネットワークモデルがあります。
提案手法と課題設定は,複数次元の既存の問合せ応答研究とは異なる。
まず、問合せ回答の分類の問題に焦点をあて、問合せと可能な解の集合を与えられた場合、これらの提案を完全な知識グラフに対して真または偽のものとして分類する。
第2に,問合せ回答検索の問題について検討し,問合せを与えられた場合,その問合せに対する完全知識グラフに対する回答を検索するか,正しい解が存在しないかを判断する。
単純で小さなインスタンスでトレーニングされたAnyCQは、任意の構造の大規模なクエリに一般化することができ、既存のアプローチが失敗するサンプルの回答を確実に分類し、検索することができる。
さらに、我々のAnyCQモデルは、関連するリンク予測器を備えた場合、分散知識グラフに効果的に移行し、クエリ応答の汎用エンジンとして機能する可能性を強調します。
Traditional query answering over knowledge graphs -- or broadly over relational data -- is one of the most fundamental problems in data management. Motivated by the incompleteness of modern knowledge graphs, a new setup for query answering has emerged, where the goal is to predict answers that do not necessarily appear in the knowledge graph, but are present in its completion. In this work, we propose AnyCQ, a graph neural network model that can classify answers to any conjunctive query on any knowledge graph, following training. At the core of our framework lies a graph neural network model trained using a reinforcement learning objective to answer Boolean queries. Our approach and problem setup differ from existing query answering studies in multiple dimensions. First, we focus on the problem of query answer classification: given a query and a set of possible answers, classify these proposals as true or false relative to the complete knowledge graph. Second, we study the problem of query answer retrieval: given a query, retrieve an answer to the query relative to the complete knowledge graph or decide that no correct solutions exist. Trained on simple, small instances, AnyCQ can generalize to large queries of arbitrary structure, reliably classifying and retrieving answers to samples where existing approaches fail, which is empirically validated on new and challenging benchmarks. Furthermore, we demonstrate that our AnyCQ models effectively transfer to out-of-distribution knowledge graphs, when equipped with a relevant link predictor, highlighting their potential to serve as a general engine for query answering. | 翻訳日:2024-11-07 04:28:44 公開日:2024-09-21 |
# 共振器と導波路の間のガルバニック接続型可変カプラ
Galvanically connected tunable coupler between a cavity and a waveguide ( http://arxiv.org/abs/2409.13970v1 ) ライセンス: Link先を確認 | Kazuki Koshino, | (参考訳) 最近の量子デバイスにおける重要な技術の一つは、量子ビット、キャビティ、導波路などの量子要素間のチューナブルカップリングである。
本研究では,可変スタブを備えた半無限導波路において,優れたオンオフ比を有する共振器-導波管共振器を提案する。
本装置の動作原理は、スタブ端における可変境界条件により誘導されるキャビティモードのノード位置のシフトである。
ノード位置が導波路の分岐点に調整されると、キャビティモードは原則として導波路モードから切り離される。
同時に、ガルバニック接続により、空洞崩壊速度が空洞共鳴周波数に匹敵する超強空洞導波路結合が容易に達成される。
One of the key technologies in recent quantum devices is the tunable coupling among quantum elements such as qubits, cavities, and waveguides. In this work, we propose a cavity-waveguide tunable coupler with an excellent on-off ratio, which is realized in a semi-infinite waveguide equipped with a tunable stub. The working principle of the present device is the shift of the node position of the cavity mode induced by the tunable boundary condition at the stub end. When the node position is adjusted to the branch point of the waveguide, the cavity mode becomes decoupled from the waveguide modes in principle. At the same time, owing to the galvanic connection, the present device readily achieves an ultrastrong cavity-waveguide coupling, where the cavity decay rate is comparable to the cavity resonance frequency. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# 適応減衰型時間表面と極性認識トラッキングを用いた単眼イベント慣性オドメトリー
Monocular Event-Inertial Odometry with Adaptive decay-based Time Surface and Polarity-aware Tracking ( http://arxiv.org/abs/2409.13971v1 ) ライセンス: Link先を確認 | Kai Tang, Xiaolei Lang, Yukai Ma, Yuehao Huang, Laijian Li, Yong Liu, Jiajun Lv, | (参考訳) イベントカメラは、消費電力が低く、ダイナミックレンジが高く、動きがぼやけていない従来のカメラよりも利点があるため、かなりの注目を集めている。
本稿では,極性認識トラッキングを備えた適応型減衰カーネルベース時間面を応用した単分子イベント慣性オドメトリーを提案する。
適応的減衰に基づく時間表面を用いて,非同期イベントからテクスチャ情報を抽出し,イベントストリームの動的特性に適応し,環境テクスチャの表現を向上させる。
しかし、極性重み付き時間表面は、運動方向の変化中に事象の極性シフトに悩まされる。
特徴追跡に対する悪影響を軽減するため,極性反転時間面を付加することにより特徴追跡を最適化し,ロバスト性を高める。
視覚・慣性・事象・慣性オドメトリー法との比較分析により,本手法は最先端技術よりも優れ,各種データセットの競合性も高いことがわかった。
Event cameras have garnered considerable attention due to their advantages over traditional cameras in low power consumption, high dynamic range, and no motion blur. This paper proposes a monocular event-inertial odometry incorporating an adaptive decay kernel-based time surface with polarity-aware tracking. We utilize an adaptive decay-based Time Surface to extract texture information from asynchronous events, which adapts to the dynamic characteristics of the event stream and enhances the representation of environmental textures. However, polarity-weighted time surfaces suffer from event polarity shifts during changes in motion direction. To mitigate its adverse effects on feature tracking, we optimize the feature tracking by incorporating an additional polarity-inverted time surface to enhance the robustness. Comparative analysis with visual-inertial and event-inertial odometry methods shows that our approach outperforms state-of-the-art techniques, with competitive results across various datasets. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# 単語意味論をチャットボットとして理解できる言語モデル : 言語モデルの内部ミスマッチに関する実証的研究
Can Language Model Understand Word Semantics as A Chatbot? An Empirical Study of Language Model Internal External Mismatch ( http://arxiv.org/abs/2409.13972v1 ) ライセンス: Link先を確認 | Jinman Zhao, Xueyan Zhang, Xingyu Yue, Weizhe Chen, Zifan Qian, Ruiyu Wang, | (参考訳) 現在の言語モデルとの共通の相互作用は、完全な推論を通じてである。
このアプローチは必ずしもモデルの内部知識と一致しないかもしれない。
研究は、プロンプトと内部表現の相違を示す。
主に文理解に重点を置いている。
本研究では,Encoder-only,Decoder-only,Encoder-Decoder事前学習言語モデルの内外ミスマッチにおける単語意味理解の相違について検討する。
Current common interactions with language models is through full inference. This approach may not necessarily align with the model's internal knowledge. Studies show discrepancies between prompts and internal representations. Most focus on sentence understanding. We study the discrepancy of word semantics understanding in internal and external mismatch across Encoder-only, Decoder-only, and Encoder-Decoder pre-trained language models. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# ProTEA:FPGA上でのプログラマブルトランスフォーマーエンコーダ高速化
ProTEA: Programmable Transformer Encoder Acceleration on FPGA ( http://arxiv.org/abs/2409.13975v1 ) ライセンス: Link先を確認 | Ehsan Kabir, Jason D. Bakos, David Andrews, Miaoqing Huang, | (参考訳) トランスフォーマーニューラルネットワーク(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、様々な用途で広く利用されている。
彼らの普及は、主にシーケンシャルデータから重要な特徴を抽出するために使用されるマルチヘッド自己注意ブロックの例外的なパフォーマンスによって引き起こされている。
マルチヘッド自己注意ブロックに続いて、フィードフォワードニューラルネットワークが、複雑なパターンの学習においてモデルを支援するために非線形性を導入する上で重要な役割を果たす。
TNNの人気にもかかわらず、これら2つの重要なブロックをターゲットにしたハードウェアアクセラレータは限られている。
以前の作業のほとんどは、一般的なTNNのバリエーションには柔軟性のないスパースアーキテクチャに集中していた。
本稿では,ほとんどの最先端変換器エンコーダの高密度計算に適した実行時プログラマブルアクセラレータである「textit{ProTEA}」を紹介する。
\textit{ProTEA} は並列性を最大化することでレイテンシを低減するように設計されている。
FPGA内の様々なハードウェアコンポーネント間でメモリと計算資源を分散できる大規模な行列の効率的なタイリングを導入する。
我々は, Xilinx Alveo U55C 高性能データセンターアクセラレータカード上での \textit{ProTEA} の実行時間評価を行う。
実験結果から,U55C 上に 8 個の並列アテンションヘッド,12 層,埋め込み寸法 768 を配置した場合に,多頭部自己注意ブロックにおいて 64 個のタイルサイズで,フィードフォワードネットワークブロックにおいて 6 個のタイルサイズで,幅広い人気トランスフォーマーネットワークをホストし,ほぼ最適な性能が得られることが示された。
比較結果は、NVIDIA Titan XP GPUよりも2.5$\times$高速であることを示している。
また、現在の最先端のカスタム設計FPGAアクセラレータと比べて1.3-2.8$\times$スピードアップを達成した。
Transformer neural networks (TNN) have been widely utilized on a diverse range of applications, including natural language processing (NLP), machine translation, and computer vision (CV). Their widespread adoption has been primarily driven by the exceptional performance of their multi-head self-attention block used to extract key features from sequential data. The multi-head self-attention block is followed by feedforward neural networks, which play a crucial role in introducing non-linearity to assist the model in learning complex patterns. Despite the popularity of TNNs, there has been limited numbers of hardware accelerators targeting these two critical blocks. Most prior works have concentrated on sparse architectures that are not flexible for popular TNN variants. This paper introduces \textit{ProTEA}, a runtime programmable accelerator tailored for the dense computations of most of state-of-the-art transformer encoders. \textit{ProTEA} is designed to reduce latency by maximizing parallelism. We introduce an efficient tiling of large matrices that can distribute memory and computing resources across different hardware components within the FPGA. We provide run time evaluations of \textit{ProTEA} on a Xilinx Alveo U55C high-performance data center accelerator card. Experimental results demonstrate that \textit{ProTEA} can host a wide range of popular transformer networks and achieve near optimal performance with a tile size of 64 in the multi-head self-attention block and 6 in the feedforward networks block when configured with 8 parallel attention heads, 12 layers, and an embedding dimension of 768 on the U55C. Comparative results are provided showing \textit{ProTEA} is 2.5$\times$ faster than an NVIDIA Titan XP GPU. Results also show that it achieves 1.3 -- 2.8$\times$ speed up compared with current state-of-the-art custom designed FPGA accelerators. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# 周波数領域洞察による塗装映像の検出
Detecting Inpainted Video with Frequency Domain Insights ( http://arxiv.org/abs/2409.13976v1 ) ライセンス: Link先を確認 | Quanhui Tang, Jingtao Cao, | (参考訳) ビデオの塗り絵は、フレーム内のシームレスなコンテンツ削除と置換を可能にし、誤用された場合に倫理的および法的リスクを生じさせる。
これらのリスクを軽減するために、塗布されたビデオの操作された領域を検出することが重要である。
従来の検出方法は、空間的および時間的次元から派生した特性にのみ焦点をあてることが多く、異なる塗装アルゴリズムのユニークな周波数特性を見渡すことで、その効果を制限している。
本稿では、周波数領域からの洞察を取り入れて検出精度を大幅に向上する周波数領域インサイトネットワーク(FDIN)を提案する。
我々のネットワークは、様々な塗装技術に特有の周波数特性を識別するための適応帯域選択応答モジュールと、塗装領域の周期的アーティファクトを特定するための高速フーリエ畳み込みに基づくアテンションモジュールを備えている。
時空間解析に3D ResBlocksを用いることで、FDINは広範囲な評価から詳細なローカライゼーションまで、検出精度を段階的に改善する。
公開データセットに対する実験的評価は、FDINが最先端のパフォーマンスを達成し、ビデオインペイント検出に新たなベンチマークを設定することを示す。
Video inpainting enables seamless content removal and replacement within frames, posing ethical and legal risks when misused. To mitigate these risks, detecting manipulated regions in inpainted videos is critical. Previous detection methods often focus solely on the characteristics derived from spatial and temporal dimensions, which limits their effectiveness by overlooking the unique frequency characteristics of different inpainting algorithms. In this paper, we propose the Frequency Domain Insights Network (FDIN), which significantly enhances detection accuracy by incorporating insights from the frequency domain. Our network features an Adaptive Band Selective Response module to discern frequency characteristics specific to various inpainting techniques and a Fast Fourier Convolution-based Attention module for identifying periodic artifacts in inpainted regions. Utilizing 3D ResBlocks for spatiotemporal analysis, FDIN progressively refines detection precision from broad assessments to detailed localization. Experimental evaluations on public datasets demonstrate that FDIN achieves state-of-the-art performance, setting a new benchmark in video inpainting detection. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# 非競合データを利用した3次元半教師あり学習の改善
Improving 3D Semi-supervised Learning by Effectively Utilizing All Unlabelled Data ( http://arxiv.org/abs/2409.13977v1 ) ライセンス: Link先を確認 | Sneha Paul, Zachary Patterson, Nizar Bouguila, | (参考訳) 半教師付き学習(SSL)は,少数のラベル付きデータから有効な3次元表現を学習する上で有効であることを示す。
従来の半教師付きアプローチは、重複しないデータに対して擬似ラベルを予測し、学習プロセスにそれらを組み込むという基本的な概念に依存している。
しかし,既存の手法では,全ての未ラベルサンプルを十分に活用できないため,潜在的な性能が制限されている。
この問題を解決するために、SSLベースの新しい3D分類フレームワークであるAllMatchを提案する。
AllMatch は,(1) 高信頼度未学習サンプルに対して低損失値で相対的に硬度強化を施した適応型ハード増進モジュール,(2) 学習すべきでないものを学習することで非ラベルデータの利用をさらに改善する逆学習モジュール,(3) 教師付きおよび教師なし両方の設定において,全てのサンプルから学習を確実にするコントラスト学習モジュールの3つのモジュールから構成される。
2つの人気のある3Dデータセットに関する総合的な実験は、1%のラベル付きデータで最大11.2%のパフォーマンス向上を示し、SOTAをかなりの差で上回っている。
さらに、AllMatchは、ラベル付きデータの10%だけが、ラベル付きデータで完全に教師付き学習されるのとほぼ同じパフォーマンスに達するという事実によって実証された、すべてのラベル付きデータを効果的に活用する効率を示している。
私たちの作業のコードは、https://github.com/snehaputul/AllMatch.comで公開されています。
Semi-supervised learning (SSL) has shown its effectiveness in learning effective 3D representation from a small amount of labelled data while utilizing large unlabelled data. Traditional semi-supervised approaches rely on the fundamental concept of predicting pseudo-labels for unlabelled data and incorporating them into the learning process. However, we identify that the existing methods do not fully utilize all the unlabelled samples and consequently limit their potential performance. To address this issue, we propose AllMatch, a novel SSL-based 3D classification framework that effectively utilizes all the unlabelled samples. AllMatch comprises three modules: (1) an adaptive hard augmentation module that applies relatively hard augmentations to the high-confident unlabelled samples with lower loss values, thereby enhancing the contribution of such samples, (2) an inverse learning module that further improves the utilization of unlabelled data by learning what not to learn, and (3) a contrastive learning module that ensures learning from all the samples in both supervised and unsupervised settings. Comprehensive experiments on two popular 3D datasets demonstrate a performance improvement of up to 11.2% with 1% labelled data, surpassing the SOTA by a significant margin. Furthermore, AllMatch exhibits its efficiency in effectively leveraging all the unlabelled data, demonstrated by the fact that only 10% of labelled data reaches nearly the same performance as fully-supervised learning with all labelled data. The code of our work is available at: https://github.com/snehaputul/AllMatch. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# ロールプレイ推論におけるバイアスと毒性
Bias and Toxicity in Role-Play Reasoning ( http://arxiv.org/abs/2409.13979v1 ) ライセンス: Link先を確認 | Jinman Zhao, Zifan Qian, Linbo Cao, Yining Wang, Yitian Ding, | (参考訳) LLM(Large Language Model)におけるロールプレイ(Role-play)は、モデルが特定の視点を適用できるようにし、文脈的に関連性があり正確な応答を生成する能力を向上する重要なテクニックである。
さまざまな役割をシミュレートすることで、theisアプローチはさまざまなNLPベンチマークにおける推論能力を改善し、モデルの出力をさまざまなシナリオに適合させる。
しかし、本研究では、ロールプレイが潜在的リスクをもたらすことも示している。
言語モデルに異なる役割を採用するよう依頼し、ステレオタイプおよび有害な質問を含む複数のベンチマークでテストすることで、ロールプレイの影響を体系的に評価する。
ベンチマーク結果の変動は異なるが、ロールプレイを適用することで、ステレオタイプや有害な出力を生成する全体的な可能性を高めることがしばしばある。
Role-play in the Large Language Model (LLM) is a crucial technique that enables models to adopt specific perspectives, enhancing their ability to generate contextually relevant and accurate responses. By simulating different roles, theis approach improves reasoning capabilities across various NLP benchmarks, making the model's output more aligned with diverse scenarios. However, in this work, we demonstrate that role-play also carries potential risks. We systematically evaluate the impact of role-play by asking the language model to adopt different roles and testing it on multiple benchmarks that contain stereotypical and harmful questions. Despite the significant fluctuations in the benchmark results in different experiments, we find that applying role-play often increases the overall likelihood of generating stereotypical and harmful outputs. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# 大規模言語モデルの高度なビジュアル推論能力の強化
Enhancing Advanced Visual Reasoning Ability of Large Language Models ( http://arxiv.org/abs/2409.13980v1 ) ライセンス: Link先を確認 | Zhiyuan Li, Dongnan Liu, Chaoyi Zhang, Heng Wang, Tengfei Xue, Weidong Cai, | (参考訳) VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論、挑戦モデルの高度な推論能力のための新しいベンチマークを引き起こした。
従来の視覚言語モデル(VLM)は、複雑な推論シナリオで苦労しながら、視覚知覚タスクでうまく機能する。
逆に、Large Language Models (LLM) は、堅牢なテキスト推論能力を示しているが、視力に欠ける。
このギャップを埋めるために,VLMの視覚知覚能力とLLMの広範囲な推論能力を活かした複合視覚推論大言語モデル(CVR-LLM)を提案する。
プロジェクション層を必要とする近年のマルチモーダル大言語モデル(MLLM)とは異なり,本手法では,反復的自己修正ループを用いて画像の詳細なコンテキスト認識記述に変換し,LLMのテキスト知識を余分なトレーニングなしで正確な予測に活用する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
さらに,予測の様々な側面を対比するステップ・バイ・ステップ比較手法であるChain-of-Comparison (CoC)を導入する。
我々のCVR-LLMは、様々な複雑な視覚的推論タスクにまたがる、初めての総合的な研究であり、その中からSOTAのパフォーマンスを達成している。
Recent advancements in Vision-Language (VL) research have sparked new benchmarks for complex visual reasoning, challenging models' advanced reasoning ability. Traditional Vision-Language Models (VLMs) perform well in visual perception tasks while struggling with complex reasoning scenarios. Conversely, Large Language Models (LLMs) demonstrate robust text reasoning capabilities; however, they lack visual acuity. To bridge this gap, we propose Complex Visual Reasoning Large Language Models (CVR-LLM), capitalizing on VLMs' visual perception proficiency and LLMs' extensive reasoning capability. Unlike recent multimodal large language models (MLLMs) that require a projection layer, our approach transforms images into detailed, context-aware descriptions using an iterative self-refinement loop and leverages LLMs' text knowledge for accurate predictions without extra training. We also introduce a novel multi-modal in-context learning (ICL) methodology to enhance LLMs' contextual understanding and reasoning. Additionally, we introduce Chain-of-Comparison (CoC), a step-by-step comparison technique enabling contrasting various aspects of predictions. Our CVR-LLM presents the first comprehensive study across a wide array of complex visual reasoning tasks and achieves SOTA performance among all. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# 断熱急速通過による量子情報のロバスト単一光子生成
Robust Single-Photon Generation for Quantum Information Enabled by Stimulated Adiabatic Rapid Passage ( http://arxiv.org/abs/2409.13981v1 ) ライセンス: Link先を確認 | Yusuf Karli, René Schwarz, Florian Kappe, Daniel A. Vajner, Ria G. Krämer, Thomas K. Bracht, Saimon F. Covre da Silva, Daniel Richter, Stefan Nolte, Armando Rastelli, Doris E. Reiter, Gregor Weihs, Tobias Heindel, Vikas Remesh, | (参考訳) 固体量子エミッタを用いた単一光子の生成は、特に量子通信においてフォトニック量子技術の進歩に重要である。
フィールドが実用事例や遮蔽された実験室環境を超えて連続的に進行するにつれて、運用中の量子光源の堅牢性に特別な要求が課される。
この文脈では、本質的および外生的効果に対する量子光発生過程の堅牢性は大きな課題である。
本稿では、半導体量子ドットの3レベルシステムを用いて、非常に低い光子数コヒーレンス(PNC)を持つ、識別不能な単一光子状態のコヒーレント生成のためのロバストなスキームを提案する。
本研究のアプローチは, 断熱的急速通過(ARP)と2光子励起(sTPE)の利点を組み合わせたものである。
発光光状態の素量子光学的品質を維持しつつ、ロバストな量子光発生を実証する。
さらに,様々な量子暗号プロトコルの実装における直接的な利点を強調した。
The generation of single photons using solid-state quantum emitters is pivotal for advancing photonic quantum technologies, particularly in quantum communication. As the field continuously advances towards practical use cases and beyond shielded laboratory environments, specific demands are placed on the robustness of quantum light sources during operation. In this context, the robustness of the quantum light generation process against intrinsic and extrinsic effects is a major challenge. Here, we present a robust scheme for the coherent generation of indistinguishable single-photon states with very low photon number coherence (PNC) using a three-level system in a semiconductor quantum dot. Our novel approach combines the advantages of adiabatic rapid passage (ARP) and stimulated two-photon excitation (sTPE). We demonstrate robust quantum light generation while maintaining the prime quantum-optical quality of the emitted light state. Moreover, we highlight the immediate advantages for the implementation of various quantum cryptographic protocols. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# CUS3D :CLIPに基づくオブジェクトレベルのデノイズによる教師なし3次元セグメンテーション
CUS3D :CLIP-based Unsupervised 3D Segmentation via Object-level Denoise ( http://arxiv.org/abs/2409.13982v1 ) ライセンス: Link先を確認 | Fuyang Yu, Runze Tian, Zhen Wang, Xiaochuan Wang, Xiaohui Liang, | (参考訳) 3Dデータにおけるアノテーションラベルの取得の難しさを解消するために、一般的な方法は2D CLIPのセマンティック知識を活用する、教師なしでオープンなセマンティックセマンティックセマンティックセマンティクスを使用することである。
本稿では,2次元から3次元への特徴投影中に生じる「ノイズ」を無視する従来の研究とは異なり,CUS3Dという新しい蒸留学習フレームワークを提案する。
このアプローチでは、オブジェクトレベルのデノシングプロジェクションモジュールが ``noise'' をスクリーニングし、より正確な3D機能を保証するように設計されています。
得られた特徴に基づき, マルチモーダル蒸留学習モジュールは, 高度な教師なしセマンティックセマンティックセマンティクスを実現するために, 3次元特徴とCLIPセマンティクス特徴空間をオブジェクト中心の制約に整合させるように設計されている。
本研究では, 教師なしセグメンテーションとオープンボキャブラリセグメンテーションの両方において総合的な実験を行い, より高度な教師なしセグメンテーションの達成におけるモデルの優位性と, オープンボキャブラリセグメンテーションの有効性を一貫して示す。
To ease the difficulty of acquiring annotation labels in 3D data, a common method is using unsupervised and open-vocabulary semantic segmentation, which leverage 2D CLIP semantic knowledge. In this paper, unlike previous research that ignores the ``noise'' raised during feature projection from 2D to 3D, we propose a novel distillation learning framework named CUS3D. In our approach, an object-level denosing projection module is designed to screen out the ``noise'' and ensure more accurate 3D feature. Based on the obtained features, a multimodal distillation learning module is designed to align the 3D feature with CLIP semantic feature space with object-centered constrains to achieve advanced unsupervised semantic segmentation. We conduct comprehensive experiments in both unsupervised and open-vocabulary segmentation, and the results consistently showcase the superiority of our model in achieving advanced unsupervised segmentation results and its effectiveness in open-vocabulary segmentation. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# 大規模・不均衡点雲に対するセマンティックセグメンテーションの強化
Enhanced Semantic Segmentation for Large-Scale and Imbalanced Point Clouds ( http://arxiv.org/abs/2409.13983v1 ) ライセンス: Link先を確認 | Haoran Gong, Haodong Wang, Di Wang, | (参考訳) 大規模点雲のセマンティックセグメンテーションは、環境認識とシーン理解において重要な意味を持つ。
しかしながら、現実世界の環境から収集された点雲は、通常不均衡であり、小さな物体は、出現頻度が低いため、アンダーサンプリングされるか、または誤分類される傾向があるため、セマンティックセグメンテーションの全体的な精度が低下する。
本研究では,大規模かつサンプル不均衡なクラウドシーンを対象としたマルチラテラルカスケーディングネットワーク(MCNet)を提案する。
小型オブジェクトの頻度を高めるため,収集したデータ群に確率パラメータを組み込んだ意味重み付きサンプリングモジュールを導入する。
特徴学習を容易にするために,多側カスケーディング操作とアテンション機構を通じて複雑な局所的特徴を学習するMCAEモジュールを提案する。
機能融合を促進するため,グローバル機能とローカル機能を組み合わせたポイントクロスステージ部分(P-CSP)モジュールを提案する。
最後に、出力層で結果を統合するために、近隣投票モジュールを導入します。
提案手法は,mIoUスコアが74.0\%,82.9\%,64.5\%のS3DIS,Tronto3D,SensatUrbanの3つの広く知られているベンチマークデータセットに対して,最先端のアプローチと比較して,競合的あるいは優れた性能を示す。
特に,本研究は,アンダーサンプルのセマンティックカテゴリに対して一貫した最適結果を得たため,小型オブジェクトの認識において,例外的な性能を示した。
Semantic segmentation of large-scale point clouds is of significant importance in environment perception and scene understanding. However, point clouds collected from real-world environments are usually imbalanced and small-sized objects are prone to be under-sampled or misclassified due to their low occurrence frequency, thereby reducing the overall accuracy of semantic segmentation. In this study, we propose the Multilateral Cascading Network (MCNet) for large-scale and sample-imbalanced point cloud scenes. To increase the frequency of small-sized objects, we introduce the semantic-weighted sampling module, which incorporates a probability parameter into the collected data group. To facilitate feature learning, we propose a Multilateral Cascading Attention Enhancement (MCAE) module to learn complex local features through multilateral cascading operations and attention mechanisms. To promote feature fusion, we propose a Point Cross Stage Partial (P-CSP) module to combine global and local features, optimizing the integration of valuable feature information across multiple scales. Finally, we introduce the neighborhood voting module to integrate results at the output layer. Our proposed method demonstrates either competitive or superior performance relative to state-of-the-art approaches across three widely recognized benchmark datasets: S3DIS, Toronto3D, and SensatUrban with mIoU scores of 74.0\%, 82.9\% and 64.5\%, respectively. Notably, our work yielded consistent optimal results on the under-sampled semantic categories, thereby demonstrating exceptional performance in the recognition of small-sized objects. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# 視覚プロンプティングに基づくワンショット欠陥分割のためのサイクル一貫性不確かさ推定
Cycle-Consistency Uncertainty Estimation for Visual Prompting based One-Shot Defect Segmentation ( http://arxiv.org/abs/2409.13984v1 ) ライセンス: Link先を確認 | Geonuk Kim, | (参考訳) 産業的欠陥検出は伝統的に、既知の欠陥型の固定データセットに基づいて訓練された教師付き学習モデルに依存している。
クローズドなセットでは有効だが、これらのモデルは新しい、目に見えない欠陥に悩まされ、頻繁に再ラベルと再トレーニングが必要になる。
視覚的プロンプトの最近の進歩は、提供された視覚的手がかりに基づいて、モデルが新しいカテゴリを適応的に推論できるようにすることによってソリューションを提供する。
しかし、これらの手法の大きな問題は、モデルが未知のオブジェクトを高い確実性で未知のオブジェクトと誤分類できるという過信問題である。
適応性に関する基本的な懸念に対処するため,サイクル整合性による視覚刺激過程の不確かさを推定する手法を提案する。
予測から元のプロンプトを正確に復元できるかどうかを確認するために設計されました。
これを定量化するために、復元されたプロンプトマスクと、当初提供されたプロンプトマスクとの間の平均的インターセクション(mIoU)を測定する。
複数のネットワークで複雑な設計やアンサンブル手法を使わずに、VISION24のワンショット産業チャレンジで0.9175の収率を達成した。
Industrial defect detection traditionally relies on supervised learning models trained on fixed datasets of known defect types. While effective within a closed set, these models struggle with new, unseen defects, necessitating frequent re-labeling and re-training. Recent advances in visual prompting offer a solution by allowing models to adaptively infer novel categories based on provided visual cues. However, a prevalent issue in these methods is the over-confdence problem, where models can mis-classify unknown objects as known objects with high certainty. To addresssing the fundamental concerns about the adaptability, we propose a solution to estimate uncertainty of the visual prompting process by cycle-consistency. We designed to check whether it can accurately restore the original prompt from its predictions. To quantify this, we measure the mean Intersection over Union (mIoU) between the restored prompt mask and the originally provided prompt mask. Without using complex designs or ensemble methods with multiple networks, our approach achieved a yield rate of 0.9175 in the VISION24 one-shot industrial challenge. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# 骨盤細胞検出の全体的および歴史的事例比較
Holistic and Historical Instance Comparison for Cervical Cell Detection ( http://arxiv.org/abs/2409.13987v1 ) ライセンス: Link先を確認 | Hao Jiang, Runsheng Liu, Yanning Zhou, Huangjing Lin, Hao Chen, | (参考訳) Papanicolaou (Pap) smears の細胞診は、頸部がんの予防的臨床管理のための一般的な、効果的なツールであり、スライド画像全体からの異常な細胞検出が、頚部細胞診の報告の基礎となる。
しかし、頸部細胞検出は依然として困難である。
1) 動的癌化過程による微妙な形態的相違、すなわち細胞クラスのあいまいさ、および微妙な形態的相違を有するハズーリ定義細胞型(例:ASC-US)
2) 臨床データの非バランスなクラス分布は, 発見の欠落を招きかねない。
そこで本研究では,頚部細胞検出のための総合的,歴史的事例比較手法を提案する。
具体的には、まず、RoIレベルとクラスレベルの細胞識別を併用した総合的な事例比較スキームを開発する。
この粗い細胞間比較は、モデルが前景の区別可能なクラスワイド表現を学習することを奨励する。
そこで我々は,従来の埋め込みと過去の埋め込みを比較して,より優れたセルインスタンス識別を行う,信頼性の高いサンプル選択ベースメモリバンクを用いた履歴インスタンス比較手法を提案する。
42,592と114,513の頸部細胞を含む2つの大規模細胞診データセットの大規模な実験と解析により,本法の有効性が示された。
コードはhttps://github.com/hjiangaz/HEROで公開されている。
Cytology screening from Papanicolaou (Pap) smears is a common and effective tool for the preventive clinical management of cervical cancer, where abnormal cell detection from whole slide images serves as the foundation for reporting cervical cytology. However, cervical cell detection remains challenging due to 1) hazily-defined cell types (e.g., ASC-US) with subtle morphological discrepancies caused by the dynamic cancerization process, i.e., cell class ambiguity, and 2) imbalanced class distributions of clinical data may cause missed detection, especially for minor categories, i.e., cell class imbalance. To this end, we propose a holistic and historical instance comparison approach for cervical cell detection. Specifically, we first develop a holistic instance comparison scheme enforcing both RoI-level and class-level cell discrimination. This coarse-to-fine cell comparison encourages the model to learn foreground-distinguishable and class-wise representations. To emphatically improve the distinguishability of minor classes, we then introduce a historical instance comparison scheme with a confident sample selection-based memory bank, which involves comparing current embeddings with historical embeddings for better cell instance discrimination. Extensive experiments and analysis on two large-scale cytology datasets including 42,592 and 114,513 cervical cells demonstrate the effectiveness of our method. The code is available at https://github.com/hjiangaz/HERO. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# GAInS: ゆるやかな異常を意識したバイオメディカルインスタンスセグメンテーション
GAInS: Gradient Anomaly-aware Biomedical Instance Segmentation ( http://arxiv.org/abs/2409.13988v1 ) ライセンス: Link先を確認 | Runsheng Liu, Hao Jiang, Yanning Zhou, Huangjing Lin, Liansheng Wang, Hao Chen, | (参考訳) サンプルセグメンテーションは、組織や細胞などの生物医学的な実体の形態的定量化において重要な役割を担い、異なる構造の正確な同定とデライン化を可能にしている。
現在の手法は、個々のモデリングを通してインスタンスに触れたり、重なり合ったり、横断するという課題に対処する一方で、これらの条件間の本質的な相互関係を無視することが多い。
本研究では, 局所勾配異常領域の知覚にインスタンス勾配情報を活用する, インスタンス間の空間的関係をモデル化し, 局所領域のセグメンテーションを精査する, GAInS(Gradient Anomaly-Aware Biomedical Instance Segmentation approach)を提案する。
具体的には、GAInSは、まず、GAMM(Gradient Anomaly Mapping Module)上に構築され、ウィンドウスライディングを通してインスタンスのラジアルフィールドを符号化し、インスタンス勾配の異常マップを取得する。
そこで我々は,勾配異常認識機能を有する適応局所閉じ込めモジュール (ALRM) を提案する。
3つのバイオメディカルシナリオにおける大規模比較実験とアブレーション実験により,提案したGAInSは他のSOTAインスタンスセグメンテーション法よりも優れた性能を示した。
コードはhttps://github.com/DeepGAInS/GAInSで入手できる。
Instance segmentation plays a vital role in the morphological quantification of biomedical entities such as tissues and cells, enabling precise identification and delineation of different structures. Current methods often address the challenges of touching, overlapping or crossing instances through individual modeling, while neglecting the intrinsic interrelation between these conditions. In this work, we propose a Gradient Anomaly-aware Biomedical Instance Segmentation approach (GAInS), which leverages instance gradient information to perceive local gradient anomaly regions, thus modeling the spatial relationship between instances and refining local region segmentation. Specifically, GAInS is firstly built on a Gradient Anomaly Mapping Module (GAMM), which encodes the radial fields of instances through window sliding to obtain instance gradient anomaly maps. To efficiently refine boundaries and regions with gradient anomaly attention, we propose an Adaptive Local Refinement Module (ALRM) with a gradient anomaly-aware loss function. Extensive comparisons and ablation experiments in three biomedical scenarios demonstrate that our proposed GAInS outperforms other state-of-the-art (SOTA) instance segmentation methods. The code is available at https://github.com/DeepGAInS/GAInS. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# ChemEval: 大規模言語モデルの総合的マルチレベル化学評価
ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models ( http://arxiv.org/abs/2409.13989v1 ) ライセンス: Link先を確認 | Yuqing Huang, Rongyang Zhang, Xuesong He, Xuyang Zhi, Hao Wang, Xin Li, Feiyang Xu, Deguang Liu, Huadong Liang, Yi Li, Jian Cui, Zimu Liu, Shijin Wang, Guoping Hu, Guiquan Liu, Qi Liu, Defu Lian, Enhong Chen, | (参考訳) LLMが化学において果たす役割への関心が高まっており、タイプや複雑さの異なる化学タスクのスペクトルにわたってLLMの性能を評価するために、化学ドメインに適したLCMベンチマークの開発に焦点が当てられている。
しかし、この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
この目的のために, 幅広い化学領域のタスクにおいて LLM の能力を包括的に評価する \textbf{\textit{ChemEval}} を提案する。
具体的には、ChemEvalは4つの重要な化学の進歩レベルを特定し、42の異なる化学タスクにまたがる12次元のLCMを、オープンソースデータと、化学の専門家が慎重に構築したデータで評価し、それらのタスクが実用的価値を持ち、LLMの能力を評価することを確実にした。
実験では,ChemEval上の12のメインストリームLCMをゼロショットおよび少数ショットの学習コンテキスト下で評価し,慎重に選択された実演例と慎重に設計されたプロンプトを含む。
その結果, GPT-4 や Claude-3.5 のような一般 LLM は文献の理解と指導に優れるが, 高度な化学知識を必要とするタスクでは不足していることがわかった。
逆に、特殊なLDMは、文学的理解を減らしたにもかかわらず、化学能力の強化を示す。
このことは、LSMは化学の分野における高度なタスクに取り組む際に、大きな可能性を持っていることを示唆している。
我々は、我々の研究が化学の進歩を促進する可能性の探索を促進すると信じている。
私たちのベンチマークと分析は、 {\color{blue} \url{https://github.com/USTC-StarTeam/ChemEval}}で公開されます。
There is a growing interest in the role that LLMs play in chemistry which lead to an increased focus on the development of LLMs benchmarks tailored to chemical domains to assess the performance of LLMs across a spectrum of chemical tasks varying in type and complexity. However, existing benchmarks in this domain fail to adequately meet the specific requirements of chemical research professionals. To this end, we propose \textbf{\textit{ChemEval}}, which provides a comprehensive assessment of the capabilities of LLMs across a wide range of chemical domain tasks. Specifically, ChemEval identified 4 crucial progressive levels in chemistry, assessing 12 dimensions of LLMs across 42 distinct chemical tasks which are informed by open-source data and the data meticulously crafted by chemical experts, ensuring that the tasks have practical value and can effectively evaluate the capabilities of LLMs. In the experiment, we evaluate 12 mainstream LLMs on ChemEval under zero-shot and few-shot learning contexts, which included carefully selected demonstration examples and carefully designed prompts. The results show that while general LLMs like GPT-4 and Claude-3.5 excel in literature understanding and instruction following, they fall short in tasks demanding advanced chemical knowledge. Conversely, specialized LLMs exhibit enhanced chemical competencies, albeit with reduced literary comprehension. This suggests that LLMs have significant potential for enhancement when tackling sophisticated tasks in the field of chemistry. We believe our work will facilitate the exploration of their potential to drive progress in chemistry. Our benchmark and analysis will be available at {\color{blue} \url{https://github.com/USTC-StarTeam/ChemEval}}. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# SMART-RAG: Augmented Retrievalのための行列行列を用いた選択
SMART-RAG: Selection using Determinantal Matrices for Augmented Retrieval ( http://arxiv.org/abs/2409.13992v1 ) ライセンス: Link先を確認 | Jiatao Li, Xinyu Hu, Xiaojun Wan, | (参考訳) Retrieval-Augmented Generation (RAG) は、外部情報の統合によって正確で文脈に根ざした応答を生成することで、大きな言語モデル(LLM)を大幅に改善した。
しかし、従来のRAGアプローチでは、クエリコンテキストの関連性のみに基づく上位文書の優先順位付けが行われ、冗長性や矛盾する情報が導入されることが多い。
この問題は、これらの問題を効果的に緩和するメカニズムがなく、最適でない文脈選択につながる、教師なしの検索設定において特に顕著である。
そこで本稿では,RAGにおける文脈選択の最適化を目的とした,教師なしかつトレーニング不要なフレームワークであるSMART(Mathrices for Augmented Retrieval)を提案する。
SMARTは、DPP(Determinantal Point Processs)を利用して、関連性、多様性、競合を同時にモデル化し、潜在的に高品質なコンテキストの選択を保証する。
複数のデータセットにまたがる実験結果から、SMARTはQA性能を大幅に向上し、以前の教師なしコンテキスト選択手法を上回り、RAGにとって有望な戦略を示す。
Retrieval-Augmented Generation (RAG) has greatly improved large language models (LLMs) by enabling them to generate accurate, contextually grounded responses through the integration of external information. However, conventional RAG approaches, which prioritize top-ranked documents based solely on query-context relevance, often introduce redundancy and conflicting information. This issue is particularly evident in unsupervised retrieval settings, where there are no mechanisms to effectively mitigate these problems, leading to suboptimal context selection. To address this, we propose Selection using Matrices for Augmented Retrieval (SMART) in question answering tasks, a fully unsupervised and training-free framework designed to optimize context selection in RAG. SMART leverages Determinantal Point Processes (DPPs) to simultaneously model relevance, diversity and conflict, ensuring the selection of potentially high-quality contexts. Experimental results across multiple datasets demonstrate that SMART significantly enhances QA performance and surpasses previous unsupervised context selection methods, showing a promising strategy for RAG. | 翻訳日:2024-11-07 04:17:38 公開日:2024-09-21 |
# Drift (複数形 Drifts)
Drift to Remember ( http://arxiv.org/abs/2409.13997v1 ) ライセンス: Link先を確認 | Jin Du, Xinhe Zhang, Hao Shen, Xun Xian, Ganghua Wang, Jiawei Zhang, Yuhong Yang, Na Li, Jia Liu, Jie Ding, | (参考訳) 人工知能(AI)における生涯学習は、生物学的脳が継続的に学習し、知識を保持する能力を模倣することを目的としている。
最近の神経科学研究は、生物学的システムの神経活動が表現的ドリフト(英語版)を実行し、神経反応は時間の経過とともに進化し、一貫した入力やタスクでも起こることを示唆している。
我々は、表現の漂流は、新しいタスク獲得中にAIの破滅的な忘れを軽減できると仮定する。
これをテストするためにDriftNetを紹介した。DriftNetは、ロスランドスケープにおける様々なローカルなミニマを常に探索し、関連するタスクを動的に検索するように設計されたネットワークである。
このアプローチは、新しい情報の効率的な統合を保証し、既存の知識を保存する。
画像分類と自然言語処理の実験研究により、DriftNetは生涯学習において既存のモデルよりも優れていることが示された。
重要な点として、DriftNetは1つのNvidia A100 GPU上で数十億のパラメータを持つ大規模言語モデル(LLM)を使用して、感情分析や質問応答などの一連のタスクを処理するためにスケーラブルである。
DriftNetは、新しいデータのみを使用してLLMを効率的に更新する。
GPT-2とRoBERTaでテストされたDriftNetは、LLMにおける生涯学習のための堅牢で費用対効果の高いソリューションである。
この研究は、生物学的学習をエミュレートするためにAIシステムを前進させるだけでなく、生物学的ニューラルネットワークの適応メカニズムに関する洞察を与え、自然界における生涯学習の理解を深める。
Lifelong learning in artificial intelligence (AI) aims to mimic the biological brain's ability to continuously learn and retain knowledge, yet it faces challenges such as catastrophic forgetting. Recent neuroscience research suggests that neural activity in biological systems undergoes representational drift, where neural responses evolve over time, even with consistent inputs and tasks. We hypothesize that representational drift can alleviate catastrophic forgetting in AI during new task acquisition. To test this, we introduce DriftNet, a network designed to constantly explore various local minima in the loss landscape while dynamically retrieving relevant tasks. This approach ensures efficient integration of new information and preserves existing knowledge. Experimental studies in image classification and natural language processing demonstrate that DriftNet outperforms existing models in lifelong learning. Importantly, DriftNet is scalable in handling a sequence of tasks such as sentiment analysis and question answering using large language models (LLMs) with billions of parameters on a single Nvidia A100 GPU. DriftNet efficiently updates LLMs using only new data, avoiding the need for full dataset retraining. Tested on GPT-2 and RoBERTa, DriftNet is a robust, cost-effective solution for lifelong learning in LLMs. This study not only advances AI systems to emulate biological learning, but also provides insights into the adaptive mechanisms of biological neural systems, deepening our understanding of lifelong learning in nature. | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# 安全で効率的なロボット協調のための関連性駆動型意思決定
Relevance-driven Decision Making for Safer and More Efficient Human Robot Collaboration ( http://arxiv.org/abs/2409.13998v1 ) ライセンス: Link先を確認 | Xiaotong Zhang, Dingcheng Huang, Kamal Youcef-Toumi, | (参考訳) 人間の知性は、知覚、学習、推論、意思決定を強化する重要な環境要素に効果的に集中する能力を持っている。
この認知メカニズムに触発されて,人間ロボットコラボレーション(HRC)の関連性(relevance for Human-Robot Collaboration)という新しい概念を導入した。
関連性は、人間の目的や他の要因に対する対象の適用性と関係性に基づく対象の重要性として定義される。
本稿では,リアルタイム処理と非同期処理を統合した新しい2ループフレームワークを開発し,その妥当性を定量化し,より安全で効率的なHRCに適用する。
非同期ループは、LLMからの世界知識を活用して関連性を定量化し、リアルタイムループは関連性に基づいてシーン理解、人間の意図予測、意思決定を実行する。
意思決定において,人間軌道の予測を考慮した人間ロボットタスク割当手法と新たな動き生成・衝突回避手法を提案し,提案手法を開発した。
シミュレーションと実験により,我々の妥当性定量化手法は,人間の目的と妥当性を正確に正確に予測でき,平均精度は客観予測で0.90,関連予測で0.96と推定された。
さらに,動作生成手法により衝突事故を63.76%減らし,衝突フレームを44.74%減らした。
我々のフレームワークと方法論は、人間に最適な支援方法と、より安全で効率的なHRC行動を生成する方法をロボットに案内する。
Human intelligence possesses the ability to effectively focus on important environmental components, which enhances perception, learning, reasoning, and decision-making. Inspired by this cognitive mechanism, we introduced a novel concept termed relevance for Human-Robot Collaboration (HRC). Relevance is defined as the importance of the objects based on the applicability and pertinence of the objects for the human objective or other factors. In this paper, we further developed a novel two-loop framework integrating real-time and asynchronous processing to quantify relevance and apply relevance for safer and more efficient HRC. The asynchronous loop leverages the world knowledge from an LLM and quantifies relevance, and the real-time loop executes scene understanding, human intent prediction, and decision-making based on relevance. In decision making, we proposed and developed a human robot task allocation method based on relevance and a novel motion generation and collision avoidance methodology considering the prediction of human trajectory. Simulations and experiments show that our methodology for relevance quantification can accurately and robustly predict the human objective and relevance, with an average accuracy of up to 0.90 for objective prediction and up to 0.96 for relevance prediction. Moreover, our motion generation methodology reduces collision cases by 63.76% and collision frames by 44.74% when compared with a state-of-the-art (SOTA) collision avoidance method. Our framework and methodologies, with relevance, guide the robot on how to best assist humans and generate safer and more efficient actions for HRC. | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# マルチエクイットチューニング:視覚変換器の推論効率向上に向けて
Multiple-Exit Tuning: Towards Inference-Efficient Adaptation for Vision Transformer ( http://arxiv.org/abs/2409.13999v1 ) ライセンス: Link先を確認 | Zheng Liu, Jinchao Zhu, Nannan Li, Gao Huang, | (参考訳) パラメータ効率変換学習(PETL)は、大規模データセットで事前訓練された視覚変換器(ViT)を様々な下流タスクに適応させる大きな可能性を示している。
既存の研究は主に学習可能なパラメータの数を最小化することに焦点を当てている。
これらの手法はストレージ効率が高いが、過剰な計算資源を簡単なサンプルに割り当て、非効率な推論をもたらす。
この問題に対処するために,Multiple-Exit tuning (MET) と呼ばれる推論効率の高いチューニング手法を提案する。
METは、トレーニング済みのViTバックボーンに複数の出口を統合する。
ViTの予測は線形分類器によって行われるので、各出口には線形予測ヘッドが設けられる。
推論段階では、簡単なサンプルは早期の出口で終了し、十分なサンプルだけが最後の出口に流れるので、簡単なサンプルの計算コストを節約できる。
METは、出口固有のアダプタ(Eアダプタ)とグラフ正規化から構成される。
E-adapterは、異なる出口に対する適切な表現を抽出するように設計されている。
パラメータ効率を確保するために、すべてのEアダプタは同じダウンプロジェクションとアッププロジェクション行列を共有します。
線形分類器の性能はサンプル間の関係に影響されるため、初期出口における分類器に供給される表現を改善するためにグラフ正規化を用いる。
最後に,METの性能を検証するための広範囲な実験を行った。
実験の結果,METは精度と推論効率の両方の観点から,最先端手法に対して明らかな優位性を示した。
Parameter-efficient transfer learning (PETL) has shown great potential in adapting a vision transformer (ViT) pre-trained on large-scale datasets to various downstream tasks. Existing studies primarily focus on minimizing the number of learnable parameters. Although these methods are storage-efficient, they allocate excessive computational resources to easy samples, leading to inefficient inference. To address this issue, we introduce an inference-efficient tuning method termed multiple-exit tuning (MET). MET integrates multiple exits into the pre-trained ViT backbone. Since the predictions in ViT are made by a linear classifier, each exit is equipped with a linear prediction head. In inference stage, easy samples will exit at early exits and only hard enough samples will flow to the last exit, thus saving the computational cost for easy samples. MET consists of exit-specific adapters (E-adapters) and graph regularization. E-adapters are designed to extract suitable representations for different exits. To ensure parameter efficiency, all E-adapters share the same down-projection and up-projection matrices. As the performances of linear classifiers are influenced by the relationship among samples, we employ graph regularization to improve the representations fed into the classifiers at early exits. Finally, we conduct extensive experiments to verify the performance of MET. Experimental results show that MET has an obvious advantage over the state-of-the-art methods in terms of both accuracy and inference efficiency. | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# 構文特徴を用いた知覚分析のためのグラフニューラルネットワークフレームワーク
Graph Neural Network Framework for Sentiment Analysis Using Syntactic Feature ( http://arxiv.org/abs/2409.14000v1 ) ライセンス: Link先を確認 | Linxiao Wu, Yuanshuai Luo, Binrong Zhu, Guiran Liu, Rui Wang, Qian Yu, | (参考訳) ソーシャルメディアプラットフォームとeコマースエコシステムの急速な進化の中で、意見マイニングの領域は自然言語処理における探索の重要な領域として急増している。
この分野の特殊セグメントは、テキストコンテキスト内の特定の要素に結びついているニュアンス評価の抽出に焦点を当てている。
本研究は,話題記述者の位置的手がかりに適合する複合的枠組みを推し進める。
提案システムでは,合成構造を行列形式に変換し,グラフ内の畳み込みと注意機構を利用して塩分特性を抽出する。
語彙項目に対する記述子の位置関係を組み込むことで、入力のシーケンシャルな整合性を高める。
試行では、この統合グラフ中心のスキームが評価的分類の有効性を著しく高め、優位性を示すことを実証している。
Amidst the swift evolution of social media platforms and e-commerce ecosystems, the domain of opinion mining has surged as a pivotal area of exploration within natural language processing. A specialized segment within this field focuses on extracting nuanced evaluations tied to particular elements within textual contexts. This research advances a composite framework that amalgamates the positional cues of topical descriptors. The proposed system converts syntactic structures into a matrix format, leveraging convolutions and attention mechanisms within a graph to distill salient characteristics. Incorporating the positional relevance of descriptors relative to lexical items enhances the sequential integrity of the input. Trials have substantiated that this integrated graph-centric scheme markedly elevates the efficacy of evaluative categorization, showcasing preeminence. | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# ブール積グラフニューラルネットワーク
Boolean Product Graph Neural Networks ( http://arxiv.org/abs/2409.14001v1 ) ライセンス: Link先を確認 | Ziyan Wang, Bin Liu, Ling Xiang, | (参考訳) グラフニューラルネットワーク(GNN)は最近、近隣ノードからの情報の集約を含む重要な操作によって、大きな成功を収めている。
現状の研究者は、主に観測された隣接行列に基づいて、アグリゲーションの隣人を定義することに重点を置いている。
しかし、多くのシナリオでは、明示的に与えられたグラフにはノイズが含まれており、メッセージパッシングプロセス中に増幅することができる。
そのため、多くの研究者は、特にパラメトリックグラフを学習する潜在グラフ推論に注意を向けている。
本稿では,潜時グラフ構造学習における変動を緩和するために,GNNにおける新しいブール積ベースグラフ残差接続を提案し,潜時グラフと原グラフをリンクする。
遅延グラフと各レイヤの元のグラフの間のブール積を計算し、学習プロセスを修正する。
2つの隣接行列の間のブール積は三角形検出と等価である。
したがって、提案したブール積グラフニューラルネットワークは、元のグラフと潜在グラフから三角形の傾きを発見するものとして解釈することができる。
提案手法をベンチマークデータセットで検証し,GNNの性能とロバスト性を向上させる能力を示す。
Graph Neural Networks (GNNs) have recently achieved significant success, with a key operation involving the aggregation of information from neighboring nodes. Substantial researchers have focused on defining neighbors for aggregation, predominantly based on observed adjacency matrices. However, in many scenarios, the explicitly given graphs contain noise, which can be amplified during the messages-passing process. Therefore, many researchers have turned their attention to latent graph inference, specifically learning a parametric graph. To mitigate fluctuations in latent graph structure learning, this paper proposes a novel Boolean product-based graph residual connection in GNNs to link the latent graph and the original graph. It computes the Boolean product between the latent graph and the original graph at each layer to correct the learning process. The Boolean product between two adjacency matrices is equivalent to triangle detection. Accordingly, the proposed Boolean product graph neural networks can be interpreted as discovering triangular cliques from the original and the latent graph. We validate the proposed method in benchmark datasets and demonstrate its ability to enhance the performance and robustness of GNNs. | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# 学習型物理優先画像を用いた一般化型非視線イメージング
Generalizable Non-Line-of-Sight Imaging with Learnable Physical Priors ( http://arxiv.org/abs/2409.14011v1 ) ライセンス: Link先を確認 | Shida Sun, Yue Li, Yueyi Zhang, Zhiwei Xiong, | (参考訳) 間接反射から隠れた体積を回収する非視線イメージング(NLOS)は、その潜在的な応用により注目されている。
有望な結果にもかかわらず、既存のNLOS再構成アプローチは、例えば単一固定経路補償のような経験的物理的前提に依存して制約される。
さらに、これらの手法は、特に低信号対雑音比(SNR)でシーンを扱う場合に、限定的な一般化能力を有する。
以上の問題を解決するために,Learningable Path Compensation (LPC) とAdaptive Phasor Field (APF) の2つの主要な設計を含む,新しい学習ベースソリューションを提案する。
LPCは、シーン内の異なる物体に適応するために、調整された経路補償係数を適用し、特に遠方の領域において、光の減衰を効果的に低減する。
一方、APFは、過渡測定の関連するスペクトル帯域を動的に選択し、ファサーフィールドの照明機能の正確なガウス窓を学習する。
実験により, 提案手法は合成データのみを訓練し, 異なる画像システムで捉えた様々な実世界のデータセットをシームレスに一般化し, 低いSNRで特徴付けられることを示した。
Non-line-of-sight (NLOS) imaging, recovering the hidden volume from indirect reflections, has attracted increasing attention due to its potential applications. Despite promising results, existing NLOS reconstruction approaches are constrained by the reliance on empirical physical priors, e.g., single fixed path compensation. Moreover, these approaches still possess limited generalization ability, particularly when dealing with scenes at a low signal-to-noise ratio (SNR). To overcome the above problems, we introduce a novel learning-based solution, comprising two key designs: Learnable Path Compensation (LPC) and Adaptive Phasor Field (APF). The LPC applies tailored path compensation coefficients to adapt to different objects in the scene, effectively reducing light wave attenuation, especially in distant regions. Meanwhile, the APF learns the precise Gaussian window of the illumination function for the phasor field, dynamically selecting the relevant spectrum band of the transient measurement. Experimental validations demonstrate that our proposed approach, only trained on synthetic data, exhibits the capability to seamlessly generalize across various real-world datasets captured by different imaging systems and characterized by low SNRs. | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# ChronoGAN:時系列生成のための監視と組込み型生成対向ネットワーク
ChronoGAN: Supervised and Embedded Generative Adversarial Networks for Time Series Generation ( http://arxiv.org/abs/2409.14013v1 ) ライセンス: Link先を確認 | MohammadReza EskandariNasab, Shah Muhammad Hamdi, Soukaina Filali Boubrahimi, | (参考訳) Generative Adversarial Networks (GANs) を用いた時系列データの生成は、収束の遅い、埋め込み空間における情報損失、不安定性、シリーズの長さによる性能変動など、いくつかの主要な課題を提示する。
これらの障害に対処するために、これらの問題に効果的に対処し緩和することを目的とした堅牢なフレームワークを導入する。
この高度なフレームワークは、Autoencoderの生成した埋め込みスペースの利点と、GANの対角的トレーニングダイナミクスを統合する。
このフレームワークは、時系列に基づく損失関数と、データの段階的条件分布を効果的にキャプチャする監視ネットワークの監視の恩恵を受ける。
ジェネレータは潜在空間内で機能し、識別器は特徴空間に基づいて本質的なフィードバックを提供する。
さらに、我々は、安定性を高め、短命連続と短命連続の両方で効果的な一般化を保証するために、初期生成アルゴリズムと改良されたニューラルネットワークアーキテクチャを導入する。
共同トレーニングを通じて、我々のフレームワークは既存のベンチマークを一貫して上回り、多様な特徴を持つ実データや合成データセットの範囲で高品質な時系列データを生成する。
Generating time series data using Generative Adversarial Networks (GANs) presents several prevalent challenges, such as slow convergence, information loss in embedding spaces, instability, and performance variability depending on the series length. To tackle these obstacles, we introduce a robust framework aimed at addressing and mitigating these issues effectively. This advanced framework integrates the benefits of an Autoencoder-generated embedding space with the adversarial training dynamics of GANs. This framework benefits from a time series-based loss function and oversight from a supervisory network, both of which capture the stepwise conditional distributions of the data effectively. The generator functions within the latent space, while the discriminator offers essential feedback based on the feature space. Moreover, we introduce an early generation algorithm and an improved neural network architecture to enhance stability and ensure effective generalization across both short and long time series. Through joint training, our framework consistently outperforms existing benchmarks, generating high-quality time series data across a range of real and synthetic datasets with diverse characteristics. | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# 分子コンフォーメーション生成における露光バイアスの緩和
Mitigating Exposure Bias in Score-Based Generation of Molecular Conformations ( http://arxiv.org/abs/2409.14014v1 ) ライセンス: Link先を確認 | Sijia Wang, Chen Wang, Zhenhao Zhao, Jiqiang Zhang, Weiran Cai, | (参考訳) 分子配座生成は、計算化学の分野において重要な課題である。
近年, 拡散確率モデル (DPM) とスコアベース生成モデル (SGM) は, 従来の物理学的アプローチをはるかに超越した正確なコンフォメーションを生成する能力により, 効果的に利用されている。
しかし、トレーニングと推論の相違は、露光バイアスとして知られる重要な問題を引き起こす。
この問題はDPMにおいて広く研究されているが、SGMにおける露出バイアスの存在とその有効測定は未解決のままであり、ConfGFやTrusional DiffusionなどのSGMに対する補償手法の使用を妨げている。
本研究ではまず,分子配座生成に使用されるSGMの露出バイアスを測定する手法を提案する。
我々は,DPMのみ用に設計された手法から適応した新しい補償アルゴリズム Input Perturbation (IP) を設計する。
実験結果から,IPの導入により,SGMに基づく分子配座モデルにより,生成した配座の精度と多様性が著しく向上することが示唆された。
特に,IP-enhanced Torsional Diffusionモデルを用いることで,GEOM-Drugsデータセット上での新たな最先端性能を実現し,GEOM-QM9と同等となる。
コードをhttps://github.com/jia-975/torsionalDiff-ipで公開しています。
Molecular conformation generation poses a significant challenge in the field of computational chemistry. Recently, Diffusion Probabilistic Models (DPMs) and Score-Based Generative Models (SGMs) are effectively used due to their capacity for generating accurate conformations far beyond conventional physics-based approaches. However, the discrepancy between training and inference rises a critical problem known as the exposure bias. While this issue has been extensively investigated in DPMs, the existence of exposure bias in SGMs and its effective measurement remain unsolved, which hinders the use of compensation methods for SGMs, including ConfGF and Torsional Diffusion as the representatives. In this work, we first propose a method for measuring exposure bias in SGMs used for molecular conformation generation, which confirms the significant existence of exposure bias in these models and measures its value. We design a new compensation algorithm Input Perturbation (IP), which is adapted from a method originally designed for DPMs only. Experimental results show that by introducing IP, SGM-based molecular conformation models can significantly improve both the accuracy and diversity of the generated conformations. Especially by using the IP-enhanced Torsional Diffusion model, we achieve new state-of-the-art performance on the GEOM-Drugs dataset and are on par on GEOM-QM9. We provide the code publicly at https://github.com/jia-975/torsionalDiff-ip. | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# 多面前処理とコントラスト学習による多変量時系列太陽フレア予測の強化
Enhancing Multivariate Time Series-based Solar Flare Prediction with Multifaceted Preprocessing and Contrastive Learning ( http://arxiv.org/abs/2409.14016v1 ) ライセンス: Link先を確認 | MohammadReza EskandariNasab, Shah Muhammad Hamdi, Soukaina Filali Boubrahimi, | (参考訳) 正確な太陽フレア予測は、宇宙飛行士、宇宙機器、衛星通信システムに強い太陽フレアがもたらす重大なリスクのために重要である。
本研究は、光球磁場パラメータの多変量時系列に基づくデータセット上での高度なデータ前処理と分類手法を利用して、太陽フレア予測を強化する。
まず,予測精度を著しく向上させるために,新しい前処理パイプラインを用いて,値計算の欠如,正規化,サンプリングの均衡化,境界近傍のサンプル除去,特徴の選択を行った。
第2に,比較学習をGRU回帰モデルと統合し,二元学習手法を用いた新しい分類器 ContReg を開発し,予測性能をさらに向上させる。
予備処理パイプラインの有効性を検証するため,各ステップの性能向上を比較し,ContReg分類器の有効性を示すため,その性能をシーケンスベースディープラーニングアーキテクチャ,機械学習モデル,過去の研究結果と比較した。
本研究は,従来の手法を超越し,時系列に基づく太陽フレア予測における高精度データ前処理と分類器開発の重要な役割を浮き彫りにした,異例のTrue Skill Statistic (TSS) スコアを示す。
Accurate solar flare prediction is crucial due to the significant risks that intense solar flares pose to astronauts, space equipment, and satellite communication systems. Our research enhances solar flare prediction by utilizing advanced data preprocessing and classification methods on a multivariate time series-based dataset of photospheric magnetic field parameters. First, our study employs a novel preprocessing pipeline that includes missing value imputation, normalization, balanced sampling, near decision boundary sample removal, and feature selection to significantly boost prediction accuracy. Second, we integrate contrastive learning with a GRU regression model to develop a novel classifier, termed ContReg, which employs dual learning methodologies, thereby further enhancing prediction performance. To validate the effectiveness of our preprocessing pipeline, we compare and demonstrate the performance gain of each step, and to demonstrate the efficacy of the ContReg classifier, we compare its performance to that of sequence-based deep learning architectures, machine learning models, and findings from previous studies. Our results illustrate exceptional True Skill Statistic (TSS) scores, surpassing previous methods and highlighting the critical role of precise data preprocessing and classifier development in time series-based solar flare prediction. | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# MOSE: NeRF-Lifted Noisy Priors を用いた単眼意味再構成
MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors ( http://arxiv.org/abs/2409.14019v1 ) ライセンス: Link先を確認 | Zhenhua Du, Binbin Xu, Haoyu Zhang, Kai Huo, Shuaifeng Zhi, | (参考訳) 単分子画像から密で意味論的に注釈付けされた3Dメッシュを正確に再構築することは、幾何学的ガイダンスの欠如と不完全なビュー依存の2D先行が原因で、依然として難しい課題である。
多視点画像からのみ正確な2Dレンダリングを可能にする暗黙的なニューラルシーン表現の最近の進歩を目撃しているが、単眼で3Dシーンを理解できる研究はほとんどない。
本稿では、3次元空間と2次元空間の両方において正確な意味論と幾何を生成するため、推定画像レベルのノイズを3次元に引き上げるニューラルネットワークセマンティック再構成手法MOSEを提案する。
本手法の鍵となる動機は,学習中のセマンティクスの局所的な整合性を促進するためのガイダンスとして,ジェネリッククラスに依存しないセマンティクスマスクを活用することである。
セマンティクスの助けを借りて、テクスチャのない領域にスムーズな正規化を適用することで、幾何とセマンティクスの相互利益を実現する。
ScanNetデータセットの実験により、MOSEは3Dセマンティックセグメンテーション、2Dセマンティックセグメンテーション、および3D表面再構成といったタスクにおいて、すべてのメトリクスにおいて、関連するベースラインよりも優れています。
Accurately reconstructing dense and semantically annotated 3D meshes from monocular images remains a challenging task due to the lack of geometry guidance and imperfect view-dependent 2D priors. Though we have witnessed recent advancements in implicit neural scene representations enabling precise 2D rendering simply from multi-view images, there have been few works addressing 3D scene understanding with monocular priors alone. In this paper, we propose MOSE, a neural field semantic reconstruction approach to lift inferred image-level noisy priors to 3D, producing accurate semantics and geometry in both 3D and 2D space. The key motivation for our method is to leverage generic class-agnostic segment masks as guidance to promote local consistency of rendered semantics during training. With the help of semantics, we further apply a smoothness regularization to texture-less regions for better geometric quality, thus achieving mutual benefits of geometry and semantics. Experiments on the ScanNet dataset show that our MOSE outperforms relevant baselines across all metrics on tasks of 3D semantic segmentation, 2D semantic segmentation and 3D surface reconstruction. | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# BrainDreamer:言語誘導による脳波からの共鳴コヒーレントで制御可能な画像生成
BrainDreamer: Reasoning-Coherent and Controllable Image Generation from EEG Brain Signals via Language Guidance ( http://arxiv.org/abs/2409.14021v1 ) ライセンス: Link先を確認 | Ling Wang, Chen Wu, Lin Wang, | (参考訳) 私たちの脳で想像するものと、記述したものを直接視覚化できますか?
人間の知覚の本質は、私たちの身体が言語記述を結合し、私たちの脳に鮮明な絵を作ることができるということを示しています。
直感的には、生成モデルはそのような汎用性を持つべきである。
本稿では、人間の推論を模倣し、脳波(EEG)脳信号から高品質な画像を生成する、新しいエンドツーエンド言語誘導フレームワークであるBrainDreamerを紹介する。
本手法は,非侵襲的な脳波データ取得によるノイズを除去する能力に優れ,一方,脳波と画像のモダリティのより正確なマッピングを実現し,より優れた画像を生成することができる。
具体的には、BrainDreamerは2つの重要な学習段階から構成される。
1)モダリティアライメントとアライメント
2)画像生成。
アライメント段階において,脳波,テキスト,画像の埋め込みを効果的に調整し,統一表現を学習する,新しいマスクベースの3つのコントラスト学習戦略を提案する。
生成段階では、学習可能なEEGアダプタを設計して、学習済みの安定拡散モデルにEEG埋め込みを注入し、高品質な推論コヒーレントな画像を生成する。
さらに、BrainDreamerは、テキスト記述(例えば、色、位置など)を受け入れて、制御可能な画像生成を実現する。
大規模な実験により,本手法は,品質と量的性能の点で,先行技術よりも有意に優れていたことが判明した。
Can we directly visualize what we imagine in our brain together with what we describe? The inherent nature of human perception reveals that, when we think, our body can combine language description and build a vivid picture in our brain. Intuitively, generative models should also hold such versatility. In this paper, we introduce BrainDreamer, a novel end-to-end language-guided generative framework that can mimic human reasoning and generate high-quality images from electroencephalogram (EEG) brain signals. Our method is superior in its capacity to eliminate the noise introduced by non-invasive EEG data acquisition and meanwhile achieve a more precise mapping between the EEG and image modality, thus leading to significantly better-generated images. Specifically, BrainDreamer consists of two key learning stages: 1) modality alignment and 2) image generation. In the alignment stage, we propose a novel mask-based triple contrastive learning strategy to effectively align EEG, text, and image embeddings to learn a unified representation. In the generation stage, we inject the EEG embeddings into the pre-trained Stable Diffusion model by designing a learnable EEG adapter to generate high-quality reasoning-coherent images. Moreover, BrainDreamer can accept textual descriptions (e.g., color, position, etc.) to achieve controllable image generation. Extensive experiments show that our method significantly outperforms prior arts in terms of generating quality and quantitative performance. | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# 言語モデルにおける思考ベクトルの潜在鎖の発見
Uncovering Latent Chain of Thought Vectors in Language Models ( http://arxiv.org/abs/2409.14026v1 ) ライセンス: Link先を確認 | Jason Zhang, Scott Viteri, | (参考訳) 言語モデルが我々の社会に影響力を持ち、信頼されていくにつれ、好ましい行動に向けてそれらを確実に操る能力は、ますます重要になってきています。
そこで本研究では,特定のタスクから派生した「ステアリングベクトル」を用いて,言語モデルの前方通過をバイアスする,ステアリングベクトルの手法について検討する。
自然言語を介さずに思考の連鎖(CoT)推論を行うための言語モデルに適用する。
この手法をLlama3 8bとMistral 7b v0.2で実証し、一連の推論ベンチマーク(GSM8k, MMLU, AGI Eval, ARC AI2)におけるCoTが提案した性能と比較し、定性的な結果を得た。
このアプローチはCoT応答に対して一貫した操舵を行い、CoTへの微調整モデルの従来の方法よりも計算量が少なくなる。
As language models grow more influential and trusted in our society, our ability to reliably steer them toward favorable behaviors becomes increasingly paramount. For this, we investigate the technique of steering vectors: biasing the forward pass of language models using a "steering vector" derived from a specific task. We apply them to steer language models toward performing Chain of Thought (CoT) Reasoning without the need to prompt through natural language. We demonstrate this approach on Llama3 8b and Mistral 7b v0.2, and obtain competitive results compared to CoT-prompted performances on a series of reasoning benchmarks (GSM8k, MMLU, AGI Eval, ARC AI2) and qualitative examples. We find this approach yields consistent steering towards CoT responses and takes less compute than traditional methods of fine-tuning models towards CoT. | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# MSDet: 肺結節の知覚野増強によるマルチスケール検出
MSDet: Receptive Field Enhanced Multiscale Detection for Tiny Pulmonary Nodule ( http://arxiv.org/abs/2409.14028v1 ) ライセンス: Link先を確認 | Guohui Cai, Ying Cai, Zeyu Zhang, Daji Ergu, Yuanzhouhan Cao, Binbin Hu, Zhibin Liao, Yang Zhao, | (参考訳) 肺結節は早期肺癌の診断にとって重要な指標であり、その発見はタイムリーな治療に不可欠である。
しかし, 従来のCT画像診断では, 煩雑な処置, 低検出率, ローカライゼーション精度の低下に悩まされていた。
複雑な肺CT像における肺結節と周囲組織との微妙な相違は,特徴抽出ネットワークにおける繰り返しのダウンサンプリングと相まって,小結節の誤検出や誤検出に繋がることが多い。
FPNのような既存の手法は、固定された特徴融合と限定的な受容場を持ち、これらの問題を効果的に克服するのに苦労している。
これらの課題に対処するため,我々は,肺小結節を検出するためのマルチスケールアテンションおよび受容野ネットワークであるMSDetを提案した。
次に,よりリッチな文脈情報を捕捉し,結節閉塞による偽陽性を低減するための拡張受容ドメイン(ERD)戦略を提案した。
また,特徴学習の最適化とマルチスケール検出誤差の低減を目的とした位置チャネルアテンション機構 (PCAM) を提案し,微小物体検出ブロック (TODB) を設計した。
最後に, LUNA16データセットの詳細な実験を行い, 従来手法のYOLOv8よりも8.8%改善し, 最先端性能を実現した。
これらの進歩により、検出精度と信頼性が著しく向上し、早期肺癌の診断に有効な解決策となった。
コードはhttps://github.com/CaiGuoHui123/MSDetで入手できる。
Pulmonary nodules are critical indicators for the early diagnosis of lung cancer, making their detection essential for timely treatment. However, traditional CT imaging methods suffered from cumbersome procedures, low detection rates, and poor localization accuracy. The subtle differences between pulmonary nodules and surrounding tissues in complex lung CT images, combined with repeated downsampling in feature extraction networks, often lead to missed or false detections of small nodules. Existing methods such as FPN, with its fixed feature fusion and limited receptive field, struggle to effectively overcome these issues. To address these challenges, our paper proposed three key contributions: Firstly, we proposed MSDet, a multiscale attention and receptive field network for detecting tiny pulmonary nodules. Secondly, we proposed the extended receptive domain (ERD) strategy to capture richer contextual information and reduce false positives caused by nodule occlusion. We also proposed the position channel attention mechanism (PCAM) to optimize feature learning and reduce multiscale detection errors, and designed the tiny object detection block (TODB) to enhance the detection of tiny nodules. Lastly, we conducted thorough experiments on the public LUNA16 dataset, achieving state-of-the-art performance, with an mAP improvement of 8.8% over the previous state-of-the-art method YOLOv8. These advancements significantly boosted detection accuracy and reliability, providing a more effective solution for early lung cancer diagnosis. The code will be available at https://github.com/CaiGuoHui123/MSDet | 翻訳日:2024-11-07 04:06:38 公開日:2024-09-21 |
# 超音波の音速推定のための入射ニューラル表現
Implicit Neural Representations for Speed-of-Sound Estimation in Ultrasound ( http://arxiv.org/abs/2409.14035v1 ) ライセンス: Link先を確認 | Michal Byra, Piotr Jarosik, Piotr Karwat, Ziemowit Klimonda, Marcin Lewandowski, | (参考訳) 超音波(US)画像再構成技術や組織評価において,音速(SoS)の正確な推定が重要である。
SoSの計算には、CUTEのようなトモグラフィにインスパイアされたアルゴリズムから畳み込みネットワークまで、様々なアプローチが提案されている。
本研究では,アメリカにおけるSoS推定に暗黙的ニューラル表現(INR)を用いる。
INRは、ニューラルネットワークアーキテクチャの一種で、画像や物理量などの連続的な機能を、ネットワークの重みによってエンコードする。
インプリシットネットワークは、組織の非適応性と過度に単純化された物理的モデルを使用することによって主に生じる、SoS推定技術の現在の限界を克服することができる。
さらに、シミュレーションデータを用いてトレーニングされるSoS推定のための畳み込みネットワークは、アウト・オブ・ディストリビューションとデータシフトの問題により、実際の組織に適用されると失敗することが多い。
対照的に、暗黙ネットワークは個々のデータケースに最適化されているため、広範なトレーニングデータセットを必要としない。
この適応性は、様々な組織から収集され、異なるイメージングプロトコルを通して収集された米国データの処理に適している。
4つの円筒状包有物を含む組織模倣ファントムから収集したデータを用いて,INRを用いたSoS推定法を評価し,1480m/sから1600m/sの範囲でSoSの値を評価した。
インクルージョンは、SoS値が1540 m/sの材料に浸漬された。
実験では,提案手法は高い性能を達成し,定量的な米国応用のための暗黙的ネットワークの有用性を明らかにした。
Accurate estimation of the speed-of-sound (SoS) is important for ultrasound (US) image reconstruction techniques and tissue characterization. Various approaches have been proposed to calculate SoS, ranging from tomography-inspired algorithms like CUTE to convolutional networks, and more recently, physics-informed optimization frameworks based on differentiable beamforming. In this work, we utilize implicit neural representations (INRs) for SoS estimation in US. INRs are a type of neural network architecture that encodes continuous functions, such as images or physical quantities, through the weights of a network. Implicit networks may overcome the current limitations of SoS estimation techniques, which mainly arise from the use of non-adaptable and oversimplified physical models of tissue. Moreover, convolutional networks for SoS estimation, usually trained using simulated data, often fail when applied to real tissues due to out-of-distribution and data-shift issues. In contrast, implicit networks do not require extensive training datasets since each implicit network is optimized for an individual data case. This adaptability makes them suitable for processing US data collected from varied tissues and across different imaging protocols. We evaluated the proposed SoS estimation method based on INRs using data collected from a tissue-mimicking phantom containing four cylindrical inclusions, with SoS values ranging from 1480 m/s to 1600 m/s. The inclusions were immersed in a material with an SoS value of 1540 m/s. In experiments, the proposed method achieved strong performance, clearly demonstrating the usefulness of implicit networks for quantitative US applications. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# LLMはNeil deGrasse Tysonに取って代わることができるか? : 科学コミュニケータとしてのLCMの信頼性の評価
Can LLMs replace Neil deGrasse Tyson? Evaluating the Reliability of LLMs as Science Communicators ( http://arxiv.org/abs/2409.14037v1 ) ライセンス: Link先を確認 | Prasoon Bajpai, Niladri Chatterjee, Subhabrata Dutta, Tanmoy Chakraborty, | (参考訳) これらのモデルによって駆動されるLarge Language Models(LLMs)とAIアシスタントは、専門家およびアマチュアユーザの両方で、使用量の指数関数的な増加を経験している。
本研究では,現在のLLMの信頼性を科学コミュニケータとして評価することに焦点を当てる。
既存のベンチマークと異なり、我々のアプローチでは、これらのモデルに対して、微妙な理解と応答可能性の認識を必要とする科学的質問応答タスクの評価に重点を置いている。
SCiPS-QAという新しいデータセットを導入し、複雑な科学概念に埋め込まれた742 Yes/Noクエリと、様々な基準におけるLCMの正しさと整合性を評価するベンチマークスイートについて紹介する。
我々は,OpenAI GPTファミリとMeta Llama-2,Llama-3,MistralファミリのオープンアクセスLLMの3つのプロプライエタリLLMをベンチマークした。
ほとんどのオープンアクセスモデルはGPT-4Turboに比べて著しく性能が劣るが、実験ではLlama-3-70Bを強力な競合相手とみなし、様々な評価面でGPT-4Turboを上回っている。
また, GPT モデルでさえ, LLM 応答の信頼性を検証できないことが判明した。
また, GPT-4 Turbo からの誤応答により, 人間の評価者が騙されるという警告傾向が観察された。
Large Language Models (LLMs) and AI assistants driven by these models are experiencing exponential growth in usage among both expert and amateur users. In this work, we focus on evaluating the reliability of current LLMs as science communicators. Unlike existing benchmarks, our approach emphasizes assessing these models on scientific questionanswering tasks that require a nuanced understanding and awareness of answerability. We introduce a novel dataset, SCiPS-QA, comprising 742 Yes/No queries embedded in complex scientific concepts, along with a benchmarking suite that evaluates LLMs for correctness and consistency across various criteria. We benchmark three proprietary LLMs from the OpenAI GPT family and 13 open-access LLMs from the Meta Llama-2, Llama-3, and Mistral families. While most open-access models significantly underperform compared to GPT-4 Turbo, our experiments identify Llama-3-70B as a strong competitor, often surpassing GPT-4 Turbo in various evaluation aspects. We also find that even the GPT models exhibit a general incompetence in reliably verifying LLM responses. Moreover, we observe an alarming trend where human evaluators are deceived by incorrect responses from GPT-4 Turbo. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# ドライバレスタクシーのデジタル鑑定における軽量・プライバシ保護データ提供に向けて
Towards Lightweight and Privacy-preserving Data Provision in Digital Forensics for Driverless Taxi ( http://arxiv.org/abs/2409.14039v1 ) ライセンス: Link先を確認 | Yanwei Gong, Xiaolin Chang, Jelena Mišić, Vojislav B. Mišić, Junchao Fan, Kaiwen Wang, | (参考訳) データ提供(Data provision)は、データアップロードとデータアクセスを参照し、車載デジタル法医学における重要なフェーズの1つである。
Driverless Taxi(DT)のユニークな特徴はこのフェーズに新しい問題をもたらします。
1) 多様なデータプロバイダ(DP)がデータをアップロードする際のデータの整合性の効率的な検証
2) データアップロード中のDPのプライバシー保護
3)データにアクセスする場合,複雑なデータ所有の下で,IN(Investigator)とIN(Investigator)の両方のプライバシー保護を行う。
そこで本研究では,3つのメカニズムからなるLPDP(Lightweight and Privacy-Preserving Data Provision)アプローチを提案する。
1)楕円曲線暗号に基づくPBVm(Privacy-Friend Batch Verification Mechanism)
2)暗号文型属性ベースの暗号化に基づくデータアクセス制御機構(DACm)
3)秘密共有に基づくDIWIm(Dicentralized IN Warrant Issuance Mechanism)
データ提供のプライバシー保護が達成される。
1) PBVmによるデータアップロード要求の場所プライバシー及び非リンク性の観点から、DPプライバシ保護を確保すること。
2)DACmとDIWImによるデータのプライバシー保護の確保
3) トレーサビリティを犠牲にすることなく、匿名性およびデータアクセス要求のアンリンク性の観点からINのIDプライバシを確保する。
データ提供の軽量化は以下の通りである。
1)PBVmによるデータ完全性のスケーラブルな検証の確保
2)DIWImに関する低オーバーヘッド令状更新を確保する。
LPDPのセキュリティおよび性能特性を検証するために,セキュリティ解析と性能評価を行った。
Data provision, referring to the data upload and data access, is one key phase in vehicular digital forensics. The unique features of Driverless Taxi (DT) bring new issues to this phase: 1) efficient verification of data integrity when diverse Data Providers (DPs) upload data; 2) DP privacy preservation during data upload; and 3) privacy preservation of both data and INvestigator (IN) under complex data ownership when accessing data. To this end, we propose a novel Lightweight and Privacy-preserving Data Provision (LPDP) approach consisting of three mechanisms: 1) the Privacy-friendly Batch Verification Mechanism (PBVm) based on elliptic curve cryptography, 2) Data Access Control Mechanism (DACm) based on ciphertext-policy attribute-based encryption, and 3) Decentralized IN Warrant Issuance Mechanism (DIWIm) based on secret sharing. Privacy preservation of data provision is achieved through: 1) ensuring the DP privacy preservation in terms of the location privacy and unlinkability of data upload requests by PBVm, 2) ensuring data privacy preservation by DACm and DIWIm, and 3) ensuring the identity privacy of IN in terms of the anonymity and unlinkability of data access requests without sacrificing the traceability. Lightweight of data provision is achieved through: 1) ensuring scalable verification of data integrity by PBVm, and 2) ensuring low-overhead warrant update with respect to DIWIm. Security analysis and performance evaluation are conducted to validate the security and performance features of LPDP. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# PepINVENT:天然アミノ酸を超える生成ペプチド設計
PepINVENT: Generative peptide design beyond the natural amino acids ( http://arxiv.org/abs/2409.14040v1 ) ライセンス: Link先を確認 | Gökçe Geylan, Jon Paul Janet, Alessandro Tibo, Jiazhen He, Atanas Patronov, Mikhail Kabeshov, Florian David, Werngard Czechtizky, Ola Engkvist, Leonardo De Maria, | (参考訳) ペプチドは薬物の設計や発見において重要な役割を担っている。
非天然アミノ酸(NNAA)は、結合親和性、プラズマ安定性、透過性からペプチド特性を高めるために用いられる。
新しいNNAAを組み込むことで、より効果的なペプチドの設計が促進され、特性が向上する。
この分野で使用される生成モデルは、ペプチド配列空間をナビゲートすることに焦点を当てている。
配列空間は、予め定義されたアミノ酸の集合の組み合わせによって形成される。
しかし、この列挙された空間を超えてペプチドの景観を探索し、新しいアミノ酸のデノボ設計を効果的に取り入れるツールが必要である。
ペプチドの理論化学的空間を徹底的に探求するため, 分子設計プラットフォームであるREINVENTの拡張として, 新規な生成AIベースのツールであるPepINVENTを提示する。
PepINVENTは、自然および非自然アミノ酸の広大な空間をナビゲートし、有効で新規で多様なペプチドの設計を提案する。
生成モデルは、特定の性質やトポロジーを持つペプチドについて訓練されていないため、ペプチド関連タスクの中枢ツールとして機能する。
前者はペプチドの粒度を理解し、ペプチド内のマスクされた位置を埋めるためのアミノ酸を設計するよう訓練された。
PepINVENTと強化学習を組み合わせることで、その化学インフォームド生成能力を用いてペプチドの目標指向設計が可能になる。
本研究は,PepINVENTが特異かつ新規な設計でペプチド空間を探索する能力と,治療関連ペプチドの文脈における特性最適化能力を示す。
本ツールは, ペプチドドメイン内の多パラメータ学習, ペプチドミメティクス, 鉛最適化, その他のタスクに利用できる。
Peptides play a crucial role in the drug design and discovery whether as a therapeutic modality or a delivery agent. Non-natural amino acids (NNAAs) have been used to enhance the peptide properties from binding affinity, plasma stability to permeability. Incorporating novel NNAAs facilitates the design of more effective peptides with improved properties. The generative models used in the field, have focused on navigating the peptide sequence space. The sequence space is formed by combinations of a predefined set of amino acids. However, there is still a need for a tool to explore the peptide landscape beyond this enumerated space to unlock and effectively incorporate de novo design of new amino acids. To thoroughly explore the theoretical chemical space of the peptides, we present PepINVENT, a novel generative AI-based tool as an extension to the small molecule molecular design platform, REINVENT. PepINVENT navigates the vast space of natural and non-natural amino acids to propose valid, novel, and diverse peptide designs. The generative model can serve as a central tool for peptide-related tasks, as it was not trained on peptides with specific properties or topologies. The prior was trained to understand the granularity of peptides and to design amino acids for filling the masked positions within a peptide. PepINVENT coupled with reinforcement learning enables the goal-oriented design of peptides using its chemistry-informed generative capabilities. This study demonstrates PepINVENT's ability to explore the peptide space with unique and novel designs, and its capacity for property optimization in the context of therapeutically relevant peptides. Our tool can be employed for multi-parameter learning objectives, peptidomimetics, lead optimization, and variety of other tasks within the peptide domain. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# ECHO:階層型オントロジー誘導半教師付き学習による環境音の分類
ECHO: Environmental Sound Classification with Hierarchical Ontology-guided Semi-Supervised Learning ( http://arxiv.org/abs/2409.14043v1 ) ライセンス: Link先を確認 | Pranav Gupta, Raunak Sharma, Rashmi Kumari, Sri Krishna Aditya, Shwetank Choudhary, Sumit Kumar, Kanchana M, Thilagavathy R, | (参考訳) 環境音の分類は信号処理の分野でよく研究されてきた問題であり、これまでは完全に教師付きアプローチに重点を置いてきた。
近年、ラベルのないデータの利用に集中する半教師付き手法や、テキストタスクやコントラスト学習を通じて中間表現を学習する自己教師型手法に注目が集まっている。
しかし、どちらの手法も性能を向上させるために大量の非競合データを必要とする。
本研究では,ラベルオントロジーに基づく階層構造を利用した環境音分類手法である環境音分類法(ECHO)を提案する。
プレテキストタスクでは,大言語モデル(LLM)が定義する粗いラベルを,基底真理ラベルオントロジーに基づいて予測しようとする。
トレーニングされたモデルは、実際のタスクを予測する教師付き方法でさらに微調整される。
提案する半教師付きフレームワークは,UrbanSound8K,ESC-10,ESC-50という3つのデータセットにまたがるベースラインシステムの1\%から8\%の精度向上を実現する。
Environment Sound Classification has been a well-studied research problem in the field of signal processing and up till now more focus has been laid on fully supervised approaches. Over the last few years, focus has moved towards semi-supervised methods which concentrate on the utilization of unlabeled data, and self-supervised methods which learn the intermediate representation through pretext task or contrastive learning. However, both approaches require a vast amount of unlabelled data to improve performance. In this work, we propose a novel framework called Environmental Sound Classification with Hierarchical Ontology-guided semi-supervised Learning (ECHO) that utilizes label ontology-based hierarchy to learn semantic representation by defining a novel pretext task. In the pretext task, the model tries to predict coarse labels defined by the Large Language Model (LLM) based on ground truth label ontology. The trained model is further fine-tuned in a supervised way to predict the actual task. Our proposed novel semi-supervised framework achieves an accuracy improvement in the range of 1\% to 8\% over baseline systems across three datasets namely UrbanSound8K, ESC-10, and ESC-50. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# 3点臨界における超ハイゼンベルクスケーリング
Super-Heisenberg scaling in a triple point criticality ( http://arxiv.org/abs/2409.14048v1 ) ライセンス: Link先を確認 | Jia-Ming Cheng, Yong-Chang Zhang, Xiang-Fa Zhou, Zheng-Wei Zhou, | (参考訳) 我々は三点臨界度における量子エンハンスド・メトロジーを調査し、量子臨界度が必ずしも測定精度を向上できないことを発見した。
我々は,三点付近の最終点に接近して励起を効果的に抑制する適切な断熱的進化プロトコルを開発し,断熱的進化を加速し,指数関数的な超ハイゼンベルクスケーリングを実現する。
このスケーリング挙動は、コヒーレンス時間に制限された実験を推定する実用的なパラメーターにおいて非常に有用である。
超ハイゼンベルクスケーリングは、断熱パラメータ変調が励起を減少させ、減速効果を弱めることができない場合、サブハイゼンベルクスケーリングに分解される。
さらに、予想される指数関数的超ハイゼンベルクスケーリングを達成するために、実現可能な実験スキームも提案されている。
以上の結果から, 臨界強度メロジは, 従来の超ハイゼンベルクスケーリングとその応用の探索に有効である3点と有効パラメータ変調を組み合わせた場合, 超ハイゼンベルクスケーリングに対する測定精度を著しく向上させることができることが示唆された。
We investigate quantum-enhanced metrology in a triple point criticality and discover that quantum criticality can not always enhance measuring precision. We have developed suitable adiabatic evolution protocols approaching a final point around the triple point to effectively restrain excitations, which could accelerate the adiabatic evolutions and lead to an exponential super-Heisenberg scaling. This scaling behavior is quite valuable in practical parameter estimating experiments with limited coherence time. The super-Heisenberg scaling will degrade into a sub-Heisenberg scaling if the adiabatic parameter modulations adopted can not reduce excitations and weaken the slowing down effect. Additionally, a feasible experimental scheme is also suggested to achieve the anticipated exponential super-Heisenberg scaling. Our findings strongly indicate that criticality-enhanced metrology can indeed significantly enhance measuring precision to a super-Heisenberg scaling when combining a triple point and beneficial parameter modulations in the adiabatic evolution, which will be conducive to the exploration of other super-Heisenberg scaling and their applications. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# GPT-4oとその他の大規模言語モデルを用いた対人コミュニケーションスキル測定のための自己評価尺度の改良と設計
The use of GPT-4o and Other Large Language Models for the Improvement and Design of Self-Assessment Scales for Measurement of Interpersonal Communication Skills ( http://arxiv.org/abs/2409.14050v1 ) ライセンス: Link先を確認 | Goran Bubaš, | (参考訳) OpenAIのChatGPT(GPT-4とGPT-4o)およびMicrosoftのCopilot、GoogleのGemini 1.5 Pro、AntrophicのClaude 3.5 Sonnetのようなその他のLarge Language Model(LLM)は、科学的研究の様々なフェーズで効果的に利用できる。
多様な言語タスクや推論におけるそれらのパフォーマンスは、平均的な人間レベルに近いかそれ以上であり、急速に増加し、それらのモデルが比較的高い心の理論に類似した能力を提供する。
人間の心理学やコミュニケーションに関する情報を処理するLLMの現在の能力は、パーソナリティ心理学や対人コミュニケーションスキルの分野での科学的利用の機会を生み出している。
本稿では, GPT-4o や他の先進 LLM を用いて, 対人コミュニケーションスキル測定のための自己評価尺度を設計し, スケール項目の選択と改善, スケールのコンテンツ妥当性の評価を行う。
自動アイテム生成とアプリケーションの可能性も説明されている。
ケーススタディの例は、これらの目的に有用なLSMのプロンプトを伴っている。
最後に、対人コミュニケーションスキルの自己評価尺度の評価、設計、改善にLLMを使うことの潜在的な利点について概説する。
OpenAI's ChatGPT (GPT-4 and GPT-4o) and other Large Language Models (LLMs) like Microsoft's Copilot, Google's Gemini 1.5 Pro, and Antrophic's Claude 3.5 Sonnet can be effectively used in various phases of scientific research. Their performance in diverse verbal tasks and reasoning is close to or above the average human level and rapidly increasing, providing those models with a capacity that resembles a relatively high level of theory of mind. The current ability of LLMs to process information about human psychology and communication creates an opportunity for their scientific use in the fields of personality psychology and interpersonal communication skills. This article illustrates the possible uses of GPT-4o and other advanced LLMs for typical tasks in designing self-assessment scales for interpersonal communication skills measurement like the selection and improvement of scale items and evaluation of content validity of scales. The potential for automated item generation and application is illustrated as well. The case study examples are accompanied by prompts for LLMs that can be useful for these purposes. Finally, a summary is provided of the potential benefits of using LLMs in the process of evaluation, design, and improvement of interpersonal communication skills self-assessment scales. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# GroupDebate: グループディスカッションによるマルチエージェント議論の効率向上
GroupDebate: Enhancing the Efficiency of Multi-Agent Debate Using Group Discussion ( http://arxiv.org/abs/2409.14051v1 ) ライセンス: Link先を確認 | Tongxuan Liu, Xingyu Wang, Weizhe Huang, Wenjiang Xu, Yuting Zeng, Lei Jiang, Hailong Yang, Jing Li, | (参考訳) 近年,Large Language Models (LLM) は多種多様なNLPタスクにまたがる顕著な機能を示した。
大規模な研究は、Chain-of-Thought、Chain-of-Thought with Self-Consistency、Tree-Of-Thoughts、マルチエージェントの議論など、論理的推論能力を高める方法を模索してきた。
マルチエージェントの議論の文脈では、エージェントの増加と議論ラウンドによって、大幅なパフォーマンス向上が達成される。
しかし、エージェントの数の増加と議論ラウンドにより、議論のトークンコストが大幅に上昇し、マルチエージェントの議論手法のスケーラビリティが制限される。
論理的推論タスクにおけるマルチエージェント論争の利点をより有効活用するために,マルチエージェント討論におけるトークンコストを大幅に削減する手法を提案する。
このアプローチでは、すべてのエージェントを複数の議論グループに分割し、各グループ内で議論に従事し、グループ間で暫定的な議論結果を共有する。
複数のデータセットの比較実験により、この手法は議論の間、トークン全体の合計を51.7%まで削減し、最大25%の精度で精度を向上できることを示した。
本手法は,マルチエージェント討論におけるインタラクションの性能と効率を大幅に向上させる。
In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse NLP tasks. Extensive research has explored how to enhance the logical reasoning abilities such as Chain-of-Thought, Chain-of-Thought with Self-Consistency, Tree-Of-Thoughts, and multi-agent debates. In the context of multi-agent debates, significant performance improvements can be achieved with an increasing number of agents and debate rounds. However, the escalation in the number of agents and debate rounds can drastically raise the tokens cost of debates, thereby limiting the scalability of the multi-agent debate technique. To better harness the advantages of multi-agent debates in logical reasoning tasks, this paper proposes a method to significantly reduce token cost in multi-agent debates. This approach involves dividing all agents into multiple debate groups, with agents engaging in debates within their respective groups and sharing interim debate results between groups. Comparative experiments across multiple datasets have demonstrated that this method can reduce the total tokens by up to 51.7% during debates and while potentially enhancing accuracy by as much as 25%. Our method significantly enhances the performance and efficiency of interactions in the multi-agent debate. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# 2つの線形ディオファンチン方程式を解く平均ケース効率アルゴリズム
An average case efficient algorithm for solving two variable linear diophantine equations ( http://arxiv.org/abs/2409.14052v1 ) ライセンス: Link先を確認 | Mayank Deora, Pinakpani Pal, | (参考訳) 2つの可変線形ディオファンチン方程式を解くことは、RSAや楕円曲線暗号などの多くの暗号プロトコルに応用できる。
拡張ユークリッドのアルゴリズムは、これらの方程式を解くのに最も広く使われているアルゴリズムである。
2つの線形ディオファンチン方程式を解くために2つのアルゴリズムを再検討する。
そのうちの1つでは、再帰呼び出し数を詳細に分析し、再帰呼び出しの数を表す周期関数を求める。
我々はこの周期を見つけ、そのアルゴリズムで得られた再帰呼び出しの平均数に対して正確な閉形式式を導出する。
この導出の過程では、アルゴリズムの実行中に観測される中間値に依存する再帰呼び出しの平均値に上限が与えられる。
本稿では,アルゴリズムの反復バージョンを提案する。
アルゴリズムの実装中に、2つのランダム整数の確率が相反する確率に関する数論からよく知られた結果を検証する。
その結果,アルゴリズムは約40%の制約を課すことができた。
これらの制約された入力のほとんどすべて、すなわち約100%の入力に対して、アルゴリズムは2つの既存のアルゴリズムより優れている。
Solving two variable linear diophantine equations has applications in many cryptographic protocols such as RSA and Elliptic curve cryptography. Extended euclid's algorithm is the most widely used algorithm to solve these equations. We revisit two algorithms to solve two variable linear diophantine equations. For one of them, we do fine-grained analysis of the number of recursive calls and find a periodic function, which represents the number of recursive calls. We find the period and use it to derive an accurate closed form expression for the average number of recursive calls incurred by that algorithm. In the process of this derivation we get an upper bound on the average number of recursive calls, which depends on the intermediate values observed during the execution of algorithm. We propose an iterative version of the algorithm. While implementation of our algorithm, we verify a well known result from number theory about the probability of two random integers being coprime. Due to that result, our algorithm encounters an additional constraint for approximately 40% times. On almost all of these constrained inputs i.e. on nearly 100 % of them the algorithm outperforms two existing algorithms. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# 共起は言語モデルにおけるファクチュアル・アソシエーションではない
Co-occurrence is not Factual Association in Language Models ( http://arxiv.org/abs/2409.14057v1 ) ライセンス: Link先を確認 | Xiao Zhang, Miao Li, Ji Wu, | (参考訳) 事前訓練された言語モデルは、大量の知識をエンコードし、様々な推論タスクに利用することができるが、限られたテキストのデモンストレーションを微調整することで、新しい事実知識を効果的に学習することは困難である。
本研究は, 言語モデルが真の事実関連性ではなく, 単語共起統計学に偏りがあることを示唆する。
共起統計の形式での知識はトランスフォーマーモデルの中間層に符号化され、単純な質問応答以上の推論シナリオにうまく一般化せず、真の事実関連は下層に符号化され、様々な推論タスクで自由に利用することができる。
これらの観測に基づいて,言語モデルにおける事実関連性の学習を改善するための2つの戦略を提案する。
我々は,暗黙的な事実関連よりも暗黙的なテキストによる学習が,共起統計よりも事実関連を学習させ,新たに学習した知識の一般化を著しく向上させることを示した。
また、学習した共起統計を積極的に忘れる簡単な学習法を提案し、これは、平易な物語テキストによる学習において、事実関係の学習をブロックし、強化する。
合成コーパスと実世界のコーパスでは, 微調整時に学んだ知識を, 間接質問応答やマルチホップ質問応答などの推論シナリオに一般化する手法が提案されている。
Pretrained language models can encode a large amount of knowledge and utilize it for various reasoning tasks, yet they can still struggle to learn novel factual knowledge effectively from finetuning on limited textual demonstrations. In this work, we show that the reason for this deficiency is that language models are biased to learn word co-occurrence statistics instead of true factual associations. We identify the differences between two forms of knowledge representation in language models: knowledge in the form of co-occurrence statistics is encoded in the middle layers of the transformer model and does not generalize well to reasoning scenarios beyond simple question answering, while true factual associations are encoded in the lower layers and can be freely utilized in various reasoning tasks. Based on these observations, we propose two strategies to improve the learning of factual associations in language models. We show that training on text with implicit rather than explicit factual associations can force the model to learn factual associations instead of co-occurrence statistics, significantly improving the generalization of newly learned knowledge. We also propose a simple training method to actively forget the learned co-occurrence statistics, which unblocks and enhances the learning of factual associations when training on plain narrative text. On both synthetic and real-world corpora, the two proposed strategies improve the generalization of the knowledge learned during finetuning to reasoning scenarios such as indirect and multi-hop question answering. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# LLMによる協調的脆弱性修復プロセスの実践--チームベースのアプローチ
Practically implementing an LLM-supported collaborative vulnerability remediation process: a team-based approach ( http://arxiv.org/abs/2409.14058v1 ) ライセンス: Link先を確認 | Xiaoqing Wang, Yuanjing Tian, Keman Huang, Bin Liang, | (参考訳) LLMをサイバーセキュリティオペレーションに組み込むことは、典型的な現実世界のハイテイクタスクである。
サイバーセキュリティを研究の文脈として利用し,脆弱性修復プロセスにLLMを効果的に組み込むための3段階の混合手法の研究を行う。
具体的には、既存のプロセスにおけるユーザ満足度不足を分解する(研究1)。
これにより、フィールドスタディを通じてLLMが支援する協調的脆弱性修復プロセスを設計し、実装し、実証的に検証することができる(研究2)。
LLMの多様な貢献を踏まえ、修復報告やフォローアップインタビューの分析を通じて、LLMの二重エッジの役割をさらに調査する(第3報)。
基本的に、我々の貢献は、効率的なLLM支援による協調的脆弱性修復プロセスを促進することである。
これらの実世界的な証拠は、LCMを実践的なプロセスに組み込むことによって、すべての利害関係者の協力を促進し、タスクの複雑さに応じてLSMの役割を再構築すると同時に、LCMが合理的な考え方で推進するユーザエンゲージメントの改善による短期的な副作用にアプローチすることを示唆している。
Incorporating LLM into cybersecurity operations, a typical real-world high-stakes task, is critical but non-trivial in practice. Using cybersecurity as the study context, we conduct a three-step mix-method study to incorporate LLM into the vulnerability remediation process effectively. Specifically, we deconstruct the deficiencies in user satisfaction within the existing process (Study 1). This inspires us to design, implement, and empirically validate an LLM-supported collaborative vulnerability remediation process through a field study (Study 2). Given LLM's diverse contributions, we further investigate LLM's double-edge roles through the analysis of remediation reports and follow-up interviews (Study 3). In essence, our contribution lies in promoting an efficient LLM-supported collaborative vulnerability remediation process. These first-hand, real-world pieces of evidence suggest that when incorporating LLMs into practical processes, facilitating the collaborations among all associated stakeholders, reshaping LLMs' roles according to task complexity, as well as approaching the short-term side effects of improved user engagement facilitated by LLMs with a rational mindset. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# ソフトセグメンテッドランダム化:合成対測定のためのSAR-ATRにおける領域一般化の促進
Soft Segmented Randomization: Enhancing Domain Generalization in SAR-ATR for Synthetic-to-Measured ( http://arxiv.org/abs/2409.14060v1 ) ライセンス: Link先を確認 | Minjun Kim, Ohtae Jang, Haekang Song, Heesub Shin, Jaewoo Ok, Minyoung Back, Jaehyuk Youn, Sungho Kim, | (参考訳) 合成開口レーダ技術は,様々な条件下での高分解能撮像には不可欠であるが,高コストとデータ可用性の問題から,ディープラーニングに基づく自動目標認識のための実世界の合成開口レーダデータの取得は依然として困難である。
これらの課題を克服するために、シミュレーションによって生成された合成データが採用されているが、合成データと実際のデータの相違はモデル性能を劣化させる可能性がある。
本研究では,合成開口レーダ自動目標認識モデルにおいて,領域差の低減と一般化能力の向上を目的とした,ソフトセグメンテッドランダム化手法を提案する。
ソフトセグメント化ランダム化フレームワークは、ガウス混合モデルを用いてターゲット領域とクラッタ領域をソフトに分割し、合成データの統計特性を実世界のデータとより密に整合させるランダム化変動を導入する。
実験結果から,提案手法は,計測された合成開口レーダデータに対するモデル性能を著しく向上させ,測定データへのアクセスが制限あるいは不要なシナリオにおいて,ロバストな自動目標認識を実現する上で有望なアプローチであることが示された。
Synthetic aperture radar technology is crucial for high-resolution imaging under various conditions; however, the acquisition of real-world synthetic aperture radar data for deep learning-based automatic target recognition remains challenging due to high costs and data availability issues. To overcome these challenges, synthetic data generated through simulations have been employed, although discrepancies between synthetic and real data can degrade model performance. In this study, we introduce a novel framework, soft segmented randomization, designed to reduce domain discrepancy and improve the generalize ability of synthetic aperture radar automatic target recognition models. The soft segmented randomization framework applies a Gaussian mixture model to segment target and clutter regions softly, introducing randomized variations that align the synthetic data's statistical properties more closely with those of real-world data. Experimental results demonstrate that the proposed soft segmented randomization framework significantly enhances model performance on measured synthetic aperture radar data, making it a promising approach for robust automatic target recognition in scenarios with limited or no access to measured data. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# フェデレートラーニングにおける局所的なグローバルデータ分布の復元
Recovering Global Data Distribution Locally in Federated Learning ( http://arxiv.org/abs/2409.14063v1 ) ライセンス: Link先を確認 | Ziyu Yao, | (参考訳) Federated Learning(FL)は、複数のクライアント間のコラボレーションで、生データを共有せずに共有モデルをトレーニングできる分散機械学習パラダイムである。
しかし、FLにおける大きな課題はラベルの不均衡であり、クライアントは少数派と欠落したクラスを多く持っている一方で、特定のクラスを独占する可能性がある。
これまでの作業では、ローカル更新やグローバルアグリゲーションの最適化に重点を置いていたが、クライアント間のアンバランスなラベルの分布は無視されている。
本稿では,この課題に対処する新たなアプローチであるReGLを提案し,その鍵となる考え方はグローバルなデータ分布を局所的に検索することである。
具体的には、各クライアントは生成モデルを使用して、少数派と欠落したクラスを補完するイメージを合成し、ラベルの不均衡を軽減する。
さらに、局所的な実データを用いて画像生成過程を適応的に微調整することで、合成画像がグローバルな分布とより密に一致できるようにする。
重要なのは、データプライバシをリークすることなく、クライアント側で生成プロセスと微調整プロセスの両方を実行することだ。
様々な画像分類データセットに関する総合的な実験を通じて、FLにおけるラベルの不均衡を根本的に解決する上で、既存の最先端技術よりも、我々のアプローチが顕著に優れていることを示す。
Federated Learning (FL) is a distributed machine learning paradigm that enables collaboration among multiple clients to train a shared model without sharing raw data. However, a major challenge in FL is the label imbalance, where clients may exclusively possess certain classes while having numerous minority and missing classes. Previous works focus on optimizing local updates or global aggregation but ignore the underlying imbalanced label distribution across clients. In this paper, we propose a novel approach ReGL to address this challenge, whose key idea is to Recover the Global data distribution Locally. Specifically, each client uses generative models to synthesize images that complement the minority and missing classes, thereby alleviating label imbalance. Moreover, we adaptively fine-tune the image generation process using local real data, which makes the synthetic images align more closely with the global distribution. Importantly, both the generation and fine-tuning processes are conducted at the client-side without leaking data privacy. Through comprehensive experiments on various image classification datasets, we demonstrate the remarkable superiority of our approach over existing state-of-the-art works in fundamentally tackling label imbalance in FL. | 翻訳日:2024-11-07 03:55:36 公開日:2024-09-21 |
# KALIE:ロボットデータのないオープンワールドマニピュレーションのための微調整ビジョンランゲージモデル
KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data ( http://arxiv.org/abs/2409.14066v1 ) ライセンス: Link先を確認 | Grace Tang, Swetha Rajkumar, Yifei Zhou, Homer Rich Walke, Sergey Levine, Kuan Fang, | (参考訳) 汎用ロボットシステムの構築には、オープンワールド環境で新しい物体を扱う能力を持つロボットを効果的に支援することが含まれる。
大規模な事前学習モデルの進歩に触発されて,ロボット制御のための事前学習型視覚言語モデル(VLM)をスケーラブルな方法で適用する,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。
モーターコマンドを直接生成する代わりに、KALIEは、自然言語の指示とシーンの視覚的な観察に基づいて、ポイントベースのアベイランス表現を予測することによってロボットを制御する。
VLMは人間のラベルを付けた2D画像で訓練されており、ロボットシステムで収集されたトレーニングデータの必要性を回避している。
KALIEは、手動で収集した限られたサンプルデータに基づいて、手頃なデータ合成パイプラインを通じて、大量の高品質なトレーニングデータを自動的に生成する。
我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
トレーニング済みのVLMを用いたベースラインと比較して,本手法は優れた性能を実現している。
Building generalist robotic systems involves effectively endowing robots with the capabilities to handle novel objects in an open-world setting. Inspired by the advances of large pre-trained models, we propose Keypoint Affordance Learning from Imagined Environments (KALIE), which adapts pre-trained Vision Language Models (VLMs) for robotic control in a scalable manner. Instead of directly producing motor commands, KALIE controls the robot by predicting point-based affordance representations based on natural language instructions and visual observations of the scene. The VLM is trained on 2D images with affordances labeled by humans, bypassing the need for training data collected on robotic systems. Through an affordance-aware data synthesis pipeline, KALIE automatically creates massive high-quality training data based on limited example data manually collected by humans. We demonstrate that KALIE can learn to robustly solve new manipulation tasks with unseen objects given only 50 example data points. Compared to baselines using pre-trained VLMs, our approach consistently achieves superior performance. | 翻訳日:2024-11-07 03:44:25 公開日:2024-09-21 |
# SplatLoc:拡張現実のための3次元ガウスプラッティングに基づく視覚的位置決め
SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality ( http://arxiv.org/abs/2409.14067v1 ) ライセンス: Link先を確認 | Hongjia Zhai, Xiyu Zhang, Boming Zhao, Hai Li, Yijia He, Zhaopeng Cui, Hujun Bao, Guofeng Zhang, | (参考訳) ビジュアルローカライゼーションは、AR(Augmented Reality)の適用において重要な役割を果たす。ARデバイスは、実際のシーンで仮想コンテンツをレンダリングするために、プレビルドマップで6-DoFのポーズを取得することができる。
しかし、既存のほとんどのアプローチは、新しいビューレンダリングを実行することができず、地図に大規模なストレージ容量を必要とする。
これらの制限を克服するために,より少ないパラメータで高品質なレンダリングが可能な効率的な視覚的ローカライズ手法を提案する。
具体的には,3次元ガウスプリミティブをシーン表現として活用する。
ポーズ推定のための正確な2D-3D対応を確保するため,構成された特徴量から抽出したガウスプリミティブのための非バイアスの3Dシーン固有記述子デコーダを開発した。
さらに,ローカライズのためのサリエンシスコアに基づいて,適切なプリミティブサブセットを選択するために,サリエンシな3Dランドマーク選択アルゴリズムを導入する。
さらに、キーガウスプリミティブを正規化して異方性効果を防止し、ローカライゼーション性能も向上する。
広範に使われている2つのデータセットに対する大規模な実験により、我々の手法は、最先端の暗黙的な視覚的ローカライゼーションアプローチに優れたレンダリングとローカライゼーション性能を達成できることを示した。
プロジェクトページ: \href{https://zju3dv.github.io/splatloc}{https://zju3dv.github.io/splatloc}
Visual localization plays an important role in the applications of Augmented Reality (AR), which enable AR devices to obtain their 6-DoF pose in the pre-build map in order to render virtual content in real scenes. However, most existing approaches can not perform novel view rendering and require large storage capacities for maps. To overcome these limitations, we propose an efficient visual localization method capable of high-quality rendering with fewer parameters. Specifically, our approach leverages 3D Gaussian primitives as the scene representation. To ensure precise 2D-3D correspondences for pose estimation, we develop an unbiased 3D scene-specific descriptor decoder for Gaussian primitives, distilled from a constructed feature volume. Additionally, we introduce a salient 3D landmark selection algorithm that selects a suitable primitive subset based on the saliency score for localization. We further regularize key Gaussian primitives to prevent anisotropic effects, which also improves localization performance. Extensive experiments on two widely used datasets demonstrate that our method achieves superior or comparable rendering and localization performance to state-of-the-art implicit-based visual localization approaches. Project page: \href{https://zju3dv.github.io/splatloc}{https://zju3dv.github.io/splatloc}. | 翻訳日:2024-11-07 03:44:25 公開日:2024-09-21 |
# 動的2次元ガウス:動的対象に対する幾何学的精度の高い放射場
Dynamic 2D Gaussians: Geometrically accurate radiance fields for dynamic objects ( http://arxiv.org/abs/2409.14072v1 ) ライセンス: Link先を確認 | Shuai Zhang, Guanjun Wu, Xinggang Wang, Bin Feng, Wenyu Liu, | (参考訳) オブジェクトの再構築と高品質な表面の抽出は、現実世界において重要な役割を果たす。
現在の4D表現は、動的オブジェクトに対して高品質な新しいビューを描画する能力を示しているが、その暗黙的あるいは幾何学的に不正確な表現のために高品質なメッシュを再構築することはできない。
本稿では,ダイナミック2Dガウス (D-2DGS) と呼ばれる,スパース画像入力から正確なメッシュを再構築できる新しい表現を提案する。
基本幾何表現には2Dガウスアンを採用し、スパース制御された点を用いて2Dガウスアンの変形を捉える。
レンダリングされた高品質の画像からオブジェクトマスクを抽出し、描画された深度マップをマスキングすることにより、オブジェクトの高品質なダイナミックメッシュシーケンスを抽出することができる。
我々のD-2DGSはスパース入力から高品質メッシュを再構築するのに優れていることを示す実験である。
さらなるデモとコードはhttps://github.com/hustvl/Dynamic-2DGSで公開されている。
Reconstructing objects and extracting high-quality surfaces play a vital role in the real world. Current 4D representations show the ability to render high-quality novel views for dynamic objects but cannot reconstruct high-quality meshes due to their implicit or geometrically inaccurate representations. In this paper, we propose a novel representation that can reconstruct accurate meshes from sparse image input, named Dynamic 2D Gaussians (D-2DGS). We adopt 2D Gaussians for basic geometry representation and use sparse-controlled points to capture 2D Gaussian's deformation. By extracting the object mask from the rendered high-quality image and masking the rendered depth map, a high-quality dynamic mesh sequence of the object can be extracted. Experiments demonstrate that our D-2DGS is outstanding in reconstructing high-quality meshes from sparse input. More demos and code are available at https://github.com/hustvl/Dynamic-2DGS. | 翻訳日:2024-11-07 03:44:25 公開日:2024-09-21 |
# ポストクッキーの世界におけるデジタル広告:GoogleのトピックAPIの影響をグラフ化
Digital Advertising in a Post-Cookie World: Charting the Impact of Google's Topics API ( http://arxiv.org/abs/2409.14073v1 ) ライセンス: Link先を確認 | Jesús Romero, Ángel Cuevas, Rubén Cuevas, | (参考訳) GoogleのTopics APIをデジタル広告エコシステムに統合することは、プライバシを重視した広告プラクティスへの大きなシフトである。
本稿では、競合のダイナミクスと広告空間のアクセシビリティに焦点をあて、広告ネットワークにトピックAPIを実装することの意味を分析する。
広告ネットワークのユーザ行動とマーケットシェアデータを収集する広範囲なデータセットに基づくシミュレーションにより、広告配置適性、低競争率、ソロ競合などの指標を評価する。
その結果、広告ネットワークに大きなプレイヤーが支配力を高め、広告スペースの確保と競争を効果的に行うことの難しさに直面していることが明らかとなった。
さらに、この研究では、Googleの行動が環境に与える影響について検討し、公正な競争とプライバシー保護を確保するために、ポリシーと規制措置を慎重に検討する必要があることを強調した。
全体として、この研究はデジタル広告の進化するダイナミクスに関する貴重な洞察に寄与し、オンライン広告の世界において、プライバシと競争とイノベーションのバランスをとることの重要性を強調している。
Integrating Google's Topics API into the digital advertising ecosystem represents a significant shift toward privacy-conscious advertising practices. This article analyses the implications of implementing Topics API on ad networks, focusing on competition dynamics and ad space accessibility. Through simulations based on extensive datasets capturing user behavior and market share data for ad networks, we evaluate metrics such as Ad Placement Eligibility, Low Competition Rate, and solo competitor. The findings reveal a noticeable impact on ad networks, with larger players strengthening their dominance and smaller networks facing challenges securing ad spaces and competing effectively. Moreover, the study explores the potential environmental implications of Google's actions, highlighting the need to carefully consider policy and regulatory measures to ensure fair competition and privacy protection. Overall, this research contributes valuable insights into the evolving dynamics of digital advertising and highlights the importance of balancing privacy with competition and innovation in the online advertising landscape. | 翻訳日:2024-11-07 03:44:25 公開日:2024-09-21 |
# MultiMed: Attention Encoder Decoderによる多言語医療音声認識
MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder ( http://arxiv.org/abs/2409.14074v1 ) ライセンス: Link先を確認 | Khai Le-Duc, Phuc Phan, Tan-Hanh Pham, Bach Phan Tat, Minh-Huong Ngo, Truong-Son Hy, | (参考訳) 医療領域における多言語自動音声認識(ASR)は、音声翻訳、音声言語理解、音声アクティベートアシスタントなど、様々な下流アプリケーションのための基礎的なタスクとして機能する。
この技術は、言語障壁間の効率的なコミュニケーションを可能にし、特別な労働力不足を緩和し、特にパンデミック時の診断と治療の改善を促進することで、患者のケアを強化する。
本研究では,ベトナム語,英語,ドイツ語,フランス語,中国語の5つの言語にまたがる医療領域を対象とした,小規模から大規模のASRモデルのコレクションであるMultiMedと,それに対応する実世界のASRデータセットを紹介する。
私たちの知る限り、MultiMedは、総期間、話者数、疾患の多様性、記録条件、話者の役割、ユニークな医療用語、アクセント、ICD-10コードにおいて、最大かつ最初の多言語医療ASRデータセットである。
第2に、経験的ベースラインを確立し、医学的ASRにおける多言語性の最初の再現可能な研究を提示し、エンドツーエンドのASRトレーニングのためのレイヤーワイド・アブレーション研究を行い、多言語医学的ASRのための最初の言語学的分析を提供する。
すべてのコード、データ、モデルはオンラインで利用可能である。
Multilingual automatic speech recognition (ASR) in the medical domain serves as a foundational task for various downstream applications such as speech translation, spoken language understanding, and voice-activated assistants. This technology enhances patient care by enabling efficient communication across language barriers, alleviating specialized workforce shortages, and facilitating improved diagnosis and treatment, particularly during pandemics. In this work, we introduce MultiMed, a collection of small-to-large end-to-end ASR models for the medical domain, spanning five languages: Vietnamese, English, German, French, and Mandarin Chinese, together with the corresponding real-world ASR dataset. To our best knowledge, MultiMed stands as the largest and the first multilingual medical ASR dataset, in terms of total duration, number of speakers, diversity of diseases, recording conditions, speaker roles, unique medical terms, accents, and ICD-10 codes. Secondly, we establish the empirical baselines, present the first reproducible study of multilinguality in medical ASR, conduct a layer-wise ablation study for end-to-end ASR training, and provide the first linguistic analysis for multilingual medical ASR. All code, data, and models are available online https://github.com/leduckhai/MultiMed/tree/master/MultiMed | 翻訳日:2024-11-07 03:44:25 公開日:2024-09-21 |
# 量子コンピューティングのためのインプシットテストオラクル
Implicit Test Oracles for Quantum Computing ( http://arxiv.org/abs/2409.14076v1 ) ライセンス: Link先を確認 | William B. Langdon, | (参考訳) テストはソフトウェアの品質保証の鍵となる。
自動検証はスループットを高め、人間の誤り率を減少させる。
テストスクリプトは入力を供給し、プログラムを実行し、テストオラクルを使用して出力を機械的にチェックする。
ソフトウェアエンジニアリングでは、暗黙のオラクルは、テストクラッシュ中のソフトウェアのような、普遍的に望ましくない振る舞いを自動的にチェックします。
我々は、全ての量子コンピューティングが持つべき4つの特性(確率分布、固定量子ビット幅、可逆性、エントロピー保存)を提案し、量子回路と量子プログラムのシミュレータの自動、ランダム、ファズテストのための暗黙のテストオラクルである可能性を示唆する。
Testing can be key to software quality assurance. Automated verification may increase throughput and reduce human fallibility errors. Test scripts supply inputs, run programs and check their outputs mechanically using test oracles. In software engineering implicit oracles automatically check for universally undesirable behaviour, such as the software under test crashing. We propose 4 properties (probability distributions, fixed qubit width, reversibility and entropy conservation) which all quantum computing must have and suggest they could be implicit test oracles for automatic, random, or fuzz testing of quantum circuits and simulators of quantum programs. | 翻訳日:2024-11-07 03:44:25 公開日:2024-09-21 |
# PTD-SQL: テキストからSQLへの LLM の分割とターゲット化
PTD-SQL: Partitioning and Targeted Drilling with LLMs in Text-to-SQL ( http://arxiv.org/abs/2409.14082v1 ) ライセンス: Link先を確認 | Ruilin Luo, Liyuan Wang, Binghuai Lin, Zicheng Lin, Yujiu Yang, | (参考訳) 大規模言語モデル(LLM)は、テキストからSQLタスクのための強力なツールとして登場し、驚くべき推論能力を示している。
数学用語の問題や常識推論のようなタスクとは異なり、SQLソリューションは比較的固定されたパターンを持っている。
このことは、LLMがカテゴリー的思考の恩恵を受けられるかどうかを調査し、匹敵する例に基づいて帰納的推論を通じて人間が知識を得る方法を反映している。
本研究では,クエリグループ分割を用いることで,LLMが単一問題に特有の思考過程を学習することに集中し,様々な難易度や問題カテゴリにまたがる推論能力を向上させることを提案する。
実験の結果,PTD-SQLを組み込んだ複数の高度なLCMが,スパイダーおよびBIRDデータセット上の従来の最先端(SOTA)手法に匹敵するか,あるいは一致することが判明した。
興味深いことに、初期性能の異なるモデルでは、主に目標掘削後の能力の境界で大幅な改善がなされており、人間の進歩と平行していることが示唆されている。
コードはhttps://github.com/lrlbbzl/PTD-SQLで入手できる。
Large Language Models (LLMs) have emerged as powerful tools for Text-to-SQL tasks, exhibiting remarkable reasoning capabilities. Different from tasks such as math word problems and commonsense reasoning, SQL solutions have a relatively fixed pattern. This facilitates the investigation of whether LLMs can benefit from categorical thinking, mirroring how humans acquire knowledge through inductive reasoning based on comparable examples. In this study, we propose that employing query group partitioning allows LLMs to focus on learning the thought processes specific to a single problem type, consequently enhancing their reasoning abilities across diverse difficulty levels and problem categories. Our experiments reveal that multiple advanced LLMs, when equipped with PTD-SQL, can either surpass or match previous state-of-the-art (SOTA) methods on the Spider and BIRD datasets. Intriguingly, models with varying initial performances have exhibited significant improvements, mainly at the boundary of their capabilities after targeted drilling, suggesting a parallel with human progress. Code is available at https://github.com/lrlbbzl/PTD-SQL. | 翻訳日:2024-11-07 03:44:25 公開日:2024-09-21 |
# SURf: 検索情報を選択的に活用する大規模視覚言語モデル
SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information ( http://arxiv.org/abs/2409.14083v1 ) ライセンス: Link先を確認 | Jiashuo Sun, Jihai Zhang, Yucheng Zhou, Zhaochen Su, Xiaoye Qu, Yu Cheng, | (参考訳) LVLM(Large Vision-Language Models)は、コンピュータビジョンと自然言語処理の共通点において重要な存在である。
しかし、LVLMのRetrieval-Augmented Generation(RAG)能力の潜在能力は未利用のままである。
既存の作品は、テキストのモダリティのみに焦点を当てるか、特定のタスクに限定されている。
さらに、ほとんどのLVLMは、検索した情報を選択的に活用するのに苦労し、無関係または誤解を招く参照に敏感である。
これらの課題に対処するため、我々はLVLMに検索情報(SURf)を選択的に活用するための自己補充フレームワークを提案する。
特に、LVLMのバックボーンによって誤って答えられた質問が与えられた場合、回答(正の参照)と正の参照(負の参照)を補正する参照を得る。
次に、これらの正と負の基準の組み合わせを用いて、LVLMバックボーンを微調整する。
3つのタスクと7つのデータセットにまたがる実験により、我々のフレームワークは、検索したマルチモーダル参照を効果的に活用するLVLMの能力を大幅に向上し、無関係または誤解を招く情報に対するロバスト性を向上することを示した。
ソースコードはhttps://github.com/GasolSun36/SURf.comで入手できる。
Large Vision-Language Models (LVLMs) have become pivotal at the intersection of computer vision and natural language processing. However, the full potential of LVLMs Retrieval-Augmented Generation (RAG) capabilities remains underutilized. Existing works either focus solely on the text modality or are limited to specific tasks. Moreover, most LVLMs struggle to selectively utilize retrieved information and are sensitive to irrelevant or misleading references. To address these challenges, we propose a self-refinement framework designed to teach LVLMs to Selectively Utilize Retrieved Information (SURf). Specifically, when given questions that are incorrectly answered by the LVLM backbone, we obtain references that help correct the answers (positive references) and those that do not (negative references). We then fine-tune the LVLM backbone using a combination of these positive and negative references. Our experiments across three tasks and seven datasets demonstrate that our framework significantly enhances LVLMs ability to effectively utilize retrieved multimodal references and improves their robustness against irrelevant or misleading information. The source code is available at https://github.com/GasolSun36/SURf. | 翻訳日:2024-11-07 03:44:25 公開日:2024-09-21 |
# AMT-APC:自動音楽転写モデルによるピアノカバーの自動調整
AMT-APC: Automatic Piano Cover by Fine-Tuning an Automatic Music Transcription Model ( http://arxiv.org/abs/2409.14086v1 ) ライセンス: Link先を確認 | Kazuma Komiya, Yoshihisa Fukuhara, | (参考訳) ピアノカバーの自動生成に関する研究がいくつか行われており、近年のディープラーニングの進歩により、より洗練されたカバーの創出が可能になった。
しかし、既存の自動ピアノカバーモデルは、オリジナルの表現力と忠実さの観点から改善の余地がある。
これらの問題に対処するために,自動楽譜生成モデルの能力を活用したAMT-APCという学習アルゴリズムを提案する。
確立された自動楽譜生成モデルの強度を利用して,ピアノカバー生成の精度を向上させることを目的とする。
実験により, AMT-APCモデルは既存のどのモデルよりも正確なトラックを再現できることを示した。
There have been several studies on automatically generating piano covers, and recent advancements in deep learning have enabled the creation of more sophisticated covers. However, existing automatic piano cover models still have room for improvement in terms of expressiveness and fidelity to the original. To address these issues, we propose a learning algorithm called AMT-APC, which leverages the capabilities of automatic music transcription models. By utilizing the strengths of well-established automatic music transcription models, we aim to improve the accuracy of piano cover generation. Our experiments demonstrate that the AMT-APC model reproduces original tracks more accurately than any existing models. | 翻訳日:2024-11-07 03:44:25 公開日:2024-09-21 |
# CADリバースエンジニアリングのためのブレーキ境界と接合検出
BRep Boundary and Junction Detection for CAD Reverse Engineering ( http://arxiv.org/abs/2409.14087v1 ) ライセンス: Link先を確認 | Sk Aziz Ali, Mohammad Sadil Khan, Didier Stricker, | (参考訳) メカニカルシステムにおける3次元リバースエンジニアリングは、3次元スキャンからパラメトリックCADモデルを得るための積分的かつ非常に重要かつ時間を要するステップである。
したがって、ディープラーニングに基づくScan-to-CADモデリングは、CADモデルを迅速に修正するための膨大な編集可能性を提供し、その構造的構成や設計手順をすべて解析することができる。
本稿では,CC3DおよびABCデータセットの3次元スキャンから,教師付き境界表現(BRep)検出ネットワークBRepDetNetを提案する。
我々は、BRepデータ構造の幾何学的プリミティブ(境界、ジャンクション、ループ、面)間の適切なトポロジ的関係(例えば、次、メイト、前)を持つ両方のデータセットの50Kと45Kスキャンを慎重に注釈付けした。
提案手法はScan-to-CAD問題をScan-to-BRepで分解し,機能ベースモデリングへの正しい一歩を確実にし,既存のBRep-to-CADモデリング手法を活用する。
提案するScan-to-BRepニューラルネットワークは,トレーニング中の焦点損失と非最大抑制(NMS)を最小限に抑えて,BRep境界とジャンクションを検出することを学習する。
実験結果から,NMS-Lossを用いたBRepDetNetは優れた結果が得られた。
In machining process, 3D reverse engineering of the mechanical system is an integral, highly important, and yet time consuming step to obtain parametric CAD models from 3D scans. Therefore, deep learning-based Scan-to-CAD modeling can offer designers enormous editability to quickly modify CAD model, being able to parse all its structural compositions and design steps. In this paper, we propose a supervised boundary representation (BRep) detection network BRepDetNet from 3D scans of CC3D and ABC dataset. We have carefully annotated the 50K and 45K scans of both the datasets with appropriate topological relations (e.g., next, mate, previous) between the geometrical primitives (i.e., boundaries, junctions, loops, faces) of their BRep data structures. The proposed solution decomposes the Scan-to-CAD problem in Scan-to-BRep ensuring the right step towards feature-based modeling, and therefore, leveraging other existing BRep-to-CAD modeling methods. Our proposed Scan-to-BRep neural network learns to detect BRep boundaries and junctions by minimizing focal-loss and non-maximal suppression (NMS) during training time. Experimental results show that our BRepDetNet with NMS-Loss achieves impressive results. | 翻訳日:2024-11-07 03:44:25 公開日:2024-09-21 |
# 乳がんの量子高度成層化--実オミクスデータの量子表現性を探る
Quantum enhanced stratification of Breast Cancer: exploring quantum expressivity for real omics data ( http://arxiv.org/abs/2409.14089v1 ) ライセンス: Link先を確認 | Valeria Repetto, Elia Giuseppe Ceroni, Giuseppe Buonaiuto, Romina D'Aurizio, | (参考訳) 量子機械学習(QML)は、ノイズ中間スケール量子(NISQ)時代の量子コンピューティングの最も有望な応用の1つと考えられている。
有望な理論的な仮定はあるものの、QMLが医学と生物学の分野で新しい発見を育む方法の探求はまだ初期段階であり、例は少ない。
本研究の目的は,分子特性に基づいて,QK(Quantum Kernels)が乳癌(BC)患者のサブタイプを効果的に分類できるかどうかを評価することである。
カーネルの表現率と性能のトレードオフを決定するために,異なる絡み合いレベルを持つエンコーディング構成のヒューリスティックな探索を行った。
以上の結果から,QKは従来の手法と同等のクラスタリング結果が得られるが,データポイントは少なく,クラスタ数も高いことがわかった。
さらに,QPU(Quantum Processing Unit)実験を行い,ノイズが結果に与える影響について検討した。
その結果,NISQデバイス上で計算パイプラインを確実に実装できることが示唆された。
以上の結果から,QK法は特にデータセットのサイズが制限され,複雑な分子データの粒度の非自明な成層化が古典的に達成できない場合において,精度オンコロジーの応用が期待できることを示す。
Quantum Machine Learning (QML) is considered one of the most promising applications of Quantum Computing in the Noisy Intermediate Scale Quantum (NISQ) era for the impact it is thought to have in the near future. Although promising theoretical assumptions, the exploration of how QML could foster new discoveries in Medicine and Biology fields is still in its infancy with few examples. In this study, we aimed to assess whether Quantum Kernels (QK) could effectively classify subtypes of Breast Cancer (BC) patients on the basis of molecular characteristics. We performed an heuristic exploration of encoding configurations with different entanglement levels to determine a trade-off between kernel expressivity and performances. Our results show that QKs yield comparable clustering results with classical methods while using fewer data points, and are able to fit the data with a higher number of clusters. Additionally, we conducted the experiments on the Quantum Processing Unit (QPU) to evaluate the effect of noise on the outcome. We found that less expressive encodings showed a higher resilience to noise, indicating that the computational pipeline can be reliably implemented on the NISQ devices. Our findings suggest that QK methods show promises for application in Precision Oncology, especially in scenarios where the dataset is limited in size and a granular non-trivial stratification of complex molecular data cannot be achieved classically. | 翻訳日:2024-11-07 03:44:25 公開日:2024-09-21 |
# Elzaki 変換と Lorenz Chaotic System Lorenz Chaotic System を用いた音声信号の暗号化
Encryption of Audio Signals Using the Elzaki Transformation and the Lorenz Chaotic System Lorenz Chaotic System ( http://arxiv.org/abs/2409.14092v1 ) ライセンス: Link先を確認 | Shadman R. Kareem, | (参考訳) 保存および送信中の画像プライバシーの保存は、医療、軍事、安全なコミュニケーション、ビデオ会議など、いくつかの分野で重要視されている。
データプライバシ保護は、堅牢な画像暗号化技術の使用を要求する。
デジタル画像のプライバシーを確保するために、いくつかの暗号技術が特に設計されている。
本研究ではカオス理論と特殊変換を用いたカラー画像の暗号化手法を提案する。
この提案されたアプローチは、まずLorenzカオス理論を用いてオーディオファイルをスクランブルする。
次に, ハイパーボリック関数のマクロリン級展開とElzaki変換を用いて音声を暗号化する手法を提案する。
その後、逆エルザキ変換を適用して復号する。
変換から得られた係数の鍵はモジュラー算術法を用いて作成される。
両手法の比較は,エントロピー解析,スペクトルプロット,相関係数など,数多くの性能指標に基づいて行われる。
理論的解析とシミュレーションは,提案手法の有効性を示し,本手法が実際の音声暗号化に適していることを確認する。
さらに、セキュリティ調査は、提供された音声暗号化アプローチにより、追加のセキュリティ層が提供されることを示す。
The preservation of image privacy during storage and transmission is of paramount importance in several areas including healthcare, military, safe communication, and video conferencing. Protecting data privacy demands the use of robust image encryption techniques. Several cryptographic techniques have been particularly designed to ensure the privacy of digital images. This study presents a novel method for encrypting color images utilizing chaos theory and a special transformation. This indicated approach first employs the Lorenz chaos theory to scramble the audio files. Following that, we utilize a technique that involves using the Maclaurin series expansion of hyperbolic functions and the Elzaki transform to encrypt the audio. Subsequently, we decode it by applying the inverse Elzaki transform. The key for the coefficients obtained from the transformation is created using modular arithmetic methods. Comparisons between the techniques are conducted based on a number of performance measures, including entropy analysis, spectrogram plotting, and correlation coefficients. Theoretical analysis and simulation indicate the efficacy of the proposed approach and confirm that this method is suitable for actual audio encryption. Moreover, the security inquiry indicates that an extra layer of security is provided by the provided audio encryption approach | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-21 |
# 自動走行におけるアモーダルビデオインスタンスセグメンテーションの基礎モデル
Foundation Models for Amodal Video Instance Segmentation in Automated Driving ( http://arxiv.org/abs/2409.14095v1 ) ライセンス: Link先を確認 | Jasmin Breitenstein, Franz Jünger, Andreas Bär, Tim Fingscheidt, | (参考訳) 本研究では,自動走行のためのアモーダルビデオインスタンスセグメンテーションについて検討する。
従来の作業は、標準のビデオインスタンスセグメンテーションから借用した手法で、完全にラベル付けされたビデオデータに基づいて、アモーダルなビデオインスタンスセグメンテーションを実行する。
このようなアモーダルなラベル付きビデオデータは入手が困難でコストがかかり、結果として得られる手法は、インスタンスのセグメンテーションと追跡性能のトレードオフに悩まされる。
この問題を大幅に解決するため,本課題に対する基礎モデルの適用について検討する。
より正確には、Segment Anything Model(SAM)の広範な知識を活用しながら、それをアモーダルなインスタンスセグメンテーションタスクに微調整する。
初期ビデオインスタンスのセグメンテーションが与えられたら、目に見えるマスクから点をサンプリングして、アモーダルSAMを誘導します。
私たちはポイントメモリを使ってポイントを保存します。
先行観測されたインスタンスが次のフレームで予測されない場合、ポイントメモリから最新のポイントを取得し、そのポイントを現在のフレームに追従するポイントトラッキング手法と、対応する最後のアモーダル・インスタンスマスクを使用する。
このように、アモーダルなインスタンスセグメンテーションにメソッドを基盤付けながら、ビデオレベルのアモーダルなインスタンスセグメンテーション結果を得る。
得られたS-AModal法は,アモーダルビデオベースラベルの必要性を解消しつつ,アモーダルビデオインスタンスセグメンテーションの最先端化を実現する。
S-AModalのコードはhttps://github.com/ifnspaml/S-AModalで公開されている。
In this work, we study amodal video instance segmentation for automated driving. Previous works perform amodal video instance segmentation relying on methods trained on entirely labeled video data with techniques borrowed from standard video instance segmentation. Such amodally labeled video data is difficult and expensive to obtain and the resulting methods suffer from a trade-off between instance segmentation and tracking performance. To largely solve this issue, we propose to study the application of foundation models for this task. More precisely, we exploit the extensive knowledge of the Segment Anything Model (SAM), while fine-tuning it to the amodal instance segmentation task. Given an initial video instance segmentation, we sample points from the visible masks to prompt our amodal SAM. We use a point memory to store those points. If a previously observed instance is not predicted in a following frame, we retrieve its most recent points from the point memory and use a point tracking method to follow those points to the current frame, together with the corresponding last amodal instance mask. This way, while basing our method on an amodal instance segmentation, we nevertheless obtain video-level amodal instance segmentation results. Our resulting S-AModal method achieves state-of-the-art results in amodal video instance segmentation while resolving the need for amodal video-based labels. Code for S-AModal is available at https://github.com/ifnspaml/S-AModal. | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-21 |
# 事前学習型言語モデルサブ階層における多文単語の文脈局所化の提案
Probing Context Localization of Polysemous Words in Pre-trained Language Model Sub-Layers ( http://arxiv.org/abs/2409.14097v1 ) ライセンス: Link先を確認 | Soniya Vijayakumar, Josef van Genabith, Simon Ostermann, | (参考訳) ハイパフォーマンスな大規模言語モデルの時代、研究者は、文脈的単語表現が下流タスクで最高のパフォーマンスを達成する上での鍵となる要因の一つであると広く認識している。
本研究では, 線形プローブを用いた実験実験により, プレトレーニング言語モデル(PLM)の細粒度部分層表現に符号化された文脈化の程度について検討する。
これまでの研究とは異なり、我々はPLMサブレイヤ表現(セルフアテンション、フィードフォワードアクティベーション、アウトプットサブレイヤ)におけるコンテキスト化の強みを特定することに特に関心がある。
文脈化へのサブレイヤの主な貢献を識別するために,まず,最小限の文対における多文単語のサブレイヤ表現を抽出し,これらの表現がPLMネットワークの前方通過を通してどのように変化するかを比較する。
第二に、感覚識別分類タスクを探索することにより、これらのサブレイヤ表現に符号化された文脈化情報の強みを実証的にローカライズする。
これらの探索実験により、文脈長と文脈豊かさが文脈化の度合いに与える影響をよりよく理解することを試みる。
BERTは、質問中の単語が短い文脈ウィンドウを持つ文の特定の位置にある場合、上位サブレイヤで高い文脈化を示すが、これは異なる単語の位置と文脈サイズを体系的に一般化しない。
In the era of high performing Large Language Models, researchers have widely acknowledged that contextual word representations are one of the key drivers in achieving top performances in downstream tasks. In this work, we investigate the degree of contextualization encoded in the fine-grained sub-layer representations of a Pre-trained Language Model (PLM) by empirical experiments using linear probes. Unlike previous work, we are particularly interested in identifying the strength of contextualization across PLM sub-layer representations (i.e. Self-Attention, Feed-Forward Activation and Output sub-layers). To identify the main contributions of sub-layers to contextualisation, we first extract the sub-layer representations of polysemous words in minimally different sentence pairs, and compare how these representations change through the forward pass of the PLM network. Second, by probing on a sense identification classification task, we try to empirically localize the strength of contextualization information encoded in these sub-layer representations. With these probing experiments, we also try to gain a better understanding of the influence of context length and context richness on the degree of contextualization. Our main conclusion is cautionary: BERT demonstrates a high degree of contextualization in the top sub-layers if the word in question is in a specific position in the sentence with a shorter context window, but this does not systematically generalize across different word positions and context sizes. | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-21 |
# PoseAugment:IMUを用いたモーションキャプチャのための物理プラウザビリティを備えた生成的ヒトのPose Data Augmentation
PoseAugment: Generative Human Pose Data Augmentation with Physical Plausibility for IMU-based Motion Capture ( http://arxiv.org/abs/2409.14101v1 ) ライセンス: Link先を確認 | Zhuojun Li, Chun Yu, Chen Liang, Yuanchun Shi, | (参考訳) データ不足問題は、IMUベースの人間のモーションキャプチャーのモデル性能を損なう重要な要因である。
しかし、IMUに基づくモーションキャプチャーのための効果的なデータ拡張は、データ分布と品質を維持しながら、身体の物理的関係と制約を捉える必要があるため、困難である。
VAEベースのポーズ生成と物理最適化を取り入れた新しいパイプラインであるPoseAugmentを提案する。
ポーズシーケンスが与えられた場合、VAEモジュールはデータ分布を維持しながら、高忠実度と多様性の両方で無限のポーズを生成する。
物理的なモジュールは、最小のモーション制限で物理的な制約を満たすためにポーズを最適化する。
高品質なIMUデータは、モーションキャプチャーモデルを訓練するための強化されたポーズから合成される。
実験の結果,PoseAugmentは従来のデータ拡張よりも優れ,モーションキャプチャの精度においてポーズ生成手法が優れており,IMUベースのモーションキャプチャーと人間のポーズによって駆動される関連するタスクに対するデータ収集の負担を軽減するために,我々の手法の強い可能性を明らかにした。
The data scarcity problem is a crucial factor that hampers the model performance of IMU-based human motion capture. However, effective data augmentation for IMU-based motion capture is challenging, since it has to capture the physical relations and constraints of the human body, while maintaining the data distribution and quality. We propose PoseAugment, a novel pipeline incorporating VAE-based pose generation and physical optimization. Given a pose sequence, the VAE module generates infinite poses with both high fidelity and diversity, while keeping the data distribution. The physical module optimizes poses to satisfy physical constraints with minimal motion restrictions. High-quality IMU data are then synthesized from the augmented poses for training motion capture models. Experiments show that PoseAugment outperforms previous data augmentation and pose generation methods in terms of motion capture accuracy, revealing a strong potential of our method to alleviate the data collection burden for IMU-based motion capture and related tasks driven by human poses. | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-21 |
# ExFMan: ハイブリッドモノクルブルーのフレームとイベントで3D動的人間をレンダリングする
ExFMan: Rendering 3D Dynamic Humans with Hybrid Monocular Blurry Frames and Events ( http://arxiv.org/abs/2409.14103v1 ) ライセンス: Link先を確認 | Kanghao Chen, Zeyu Wang, Lin Wang, | (参考訳) 近年、ニューラルレンダリング技術が出現し、モノキュラービデオから動的人間の3D再構成が著しく進展しているのが観察されている。
このタスクには、バーチャルリアリティ(VR)環境用の仮想文字の作成など、幅広いアプリケーションがある。
しかし、モノクロビデオが動きのぼけ、特に急激な人間の動き(例えば、走ったり、踊ったり)によって引き起こされるとき、野生で頻繁に起こるように、明らかに人間を再構築することは依然として困難である。
これは、特に急激な動き、例えば手と足のぼやけた領域において、レンダリングされた3D人間の形状と外観の矛盾を生じさせる。
本稿では,ハイブリットフレームベースのRGBとバイオインスパイアされたイベントカメラを用いて,高品質な人間を高速動作でレンダリングする可能性を明らかにする,最初のニューラルネットワークレンダリングフレームワークであるExFManを提案する。
アウト・オブ・ザ・ボックス」の洞察は、イベントデータの高テンポラリな情報を補完的に活用し、レンダリングされた人間の速度に応じて、RGBフレームとローカル領域のイベントの両方の損失の影響を適応的に重み付けすることである。
これにより、RGBフレームにおける動きのぼやけに伴う不整合が著しく軽減される。
具体的には、まず標準空間内の3次元物体の速度場を定式化し、それを画像空間に描画し、動きのぼやけのある身体部位を識別する。
次に,2つの新たな損失,すなわち速度対応光度損失と速度関連事象損失を提案し,推定速度の誘導の下で両モードでニューラル・ヒューマンを最適化する。
さらに,新規ポーズ規則化とアルファ損失を組み込んで,連続ポーズと明確な境界を容易にする。
合成および実世界のデータセットに関する大規模な実験は、ExFManがよりシャープで高品質な人間を再構築できることを実証している。
Recent years have witnessed tremendous progress in the 3D reconstruction of dynamic humans from a monocular video with the advent of neural rendering techniques. This task has a wide range of applications, including the creation of virtual characters for virtual reality (VR) environments. However, it is still challenging to reconstruct clear humans when the monocular video is affected by motion blur, particularly caused by rapid human motion (e.g., running, dancing), as often occurs in the wild. This leads to distinct inconsistency of shape and appearance for the rendered 3D humans, especially in the blurry regions with rapid motion, e.g., hands and legs. In this paper, we propose ExFMan, the first neural rendering framework that unveils the possibility of rendering high-quality humans in rapid motion with a hybrid frame-based RGB and bio-inspired event camera. The ``out-of-the-box'' insight is to leverage the high temporal information of event data in a complementary manner and adaptively reweight the effect of losses for both RGB frames and events in the local regions, according to the velocity of the rendered human. This significantly mitigates the inconsistency associated with motion blur in the RGB frames. Specifically, we first formulate a velocity field of the 3D body in the canonical space and render it to image space to identify the body parts with motion blur. We then propose two novel losses, i.e., velocity-aware photometric loss and velocity-relative event loss, to optimize the neural human for both modalities under the guidance of the estimated velocity. In addition, we incorporate novel pose regularization and alpha losses to facilitate continuous pose and clear boundary. Extensive experiments on synthetic and real-world datasets demonstrate that ExFMan can reconstruct sharper and higher quality humans. | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-21 |
# IPF-HMGNN:メトロ旅客流の新たな統合予測フレームワーク
IPF-HMGNN: A novel integrative prediction framework for metro passenger flow ( http://arxiv.org/abs/2409.14104v1 ) ライセンス: Link先を確認 | Wenbo Lu, Yong Zhang, Hai L. Vu, Jinhua Xu, Peikun Li, | (参考訳) 都市部におけるメトロシステムの運用と管理は、将来の旅客輸送の正確な予測に依存している。
利用可能な全ての情報を利用することで、フロー予測の精度を向上させることができるが、駅の入出・入場者から収集したチケットの種類と結果の乗客フローとの階層的関係にはほとんど注意が払われていない。
そこで本研究では,階層型メッセージパッシンググラフニューラルネットワーク(IPF-HMGNN)を用いた新しい統合予測フレームワークを提案する。
提案するフレームワークは,初期予測,タスク判断,階層的協調モジュールという3つのコンポーネントから構成される。
Wuxi, China Metro Networkの例を用いて, 2つの予測手法について検討する。
一 駅における乗客の移動を直接予測する従来の予測方法、及び
二 切符の種類及び駅乗務員フローの予測を同時に行う階層予測手法(すなわち、切符ごとの予測客フローの総和が駅集合客フローの予測客フローと等しい)
その結果、従来の予測手法では、IPF-HMGNNはGNN予測モデルの平均絶対誤差(MAE)と平均平方誤差(RMSE)をそれぞれ49.56%、53.88%削減できることがわかった。
階層的予測アプローチでは、IPF-HMGNNは最大で35.32%のMAE、36.18%のRMSEを実現し、階層的制約を満たす。
The operation and management of the metro system in urban areas rely on accurate predictions of future passenger flow. While using all the available information can potentially improve on the accuracy of the flow prediction, there has been little attention to the hierarchical relationship between the type of tickets collected from the passengers entering/exiting a station and its resulting passenger flow. To this end, we propose a novel Integrative Prediction Framework with the Hierarchical Message-Passing Graph Neural Network (IPF-HMGNN). The proposed framework consists of three components: initial prediction, task judgment and hierarchical coordination modules. Using the Wuxi, China metro network as an example, we study two prediction approaches (i) traditional prediction approach where the model directly predicts passenger flow at the station, and (ii) hierarchical prediction approach where the prediction of ticket type and station passenger flow are performed simultaneously considering the hierarchical constraints (i.e., the sum of predicted passenger flow per ticket type equals the predicted station aggregated passenger flow). Experimental results indicate that in the traditional prediction approach, our IPF-HMGNN can significantly reduce the mean absolute error (MAE) and root mean square error (RMSE) of the GNN prediction model by 49.56% and 53.88%, respectively. In the hierarchical prediction approach, IPF-HMGNN can achieve a maximum reduction of 35.32% in MAE and 36.18% in RMSE, while satisfying the hierarchical constraint. | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-21 |
# ESDS: 編集されたRadius-SMOTEアルゴリズムを用いたAIによる早期スタンピング検出・監視システム
ESDS: AI-Powered Early Stunting Detection and Monitoring System using Edited Radius-SMOTE Algorithm ( http://arxiv.org/abs/2409.14105v1 ) ライセンス: Link先を確認 | A. A. Gde Yogi Pramana, Haidar Muhammad Zidan, Muhammad Fazil Maulana, Oskar Natan, | (参考訳) スタンピング検出はインドネシアの医療において重要な問題であり、認知機能低下、生産性低下、免疫の弱化、神経発達の遅れ、変性疾患を引き起こす。
スタントや福祉資源が限られている地域では、治療を必要としている子供の特定が重要である。
診断プロセスは、医療従事者の経験不足、不適合な人文計測装置、非効率な医療官僚制など、しばしば課題を提起する。
この問題に対処するため、負荷セルセンサと超音波センサを用いることで、適切な人体計測装置を提供し、スタント検出のための医療官僚主義を合理化することができる。
本稿では,センサ読み取りに基づくスタント検出に機械学習を用いる。
実験の結果,負荷セルセンサと超音波センサの感度はそれぞれ0.9919,0.9986であった。
また、機械学習テストの結果には3つの分類クラスがあり、これは正常、スタント、スタントであり、精度は98\%である。
Stunting detection is a significant issue in Indonesian healthcare, causing lower cognitive function, lower productivity, a weakened immunity, delayed neuro-development, and degenerative diseases. In regions with a high prevalence of stunting and limited welfare resources, identifying children in need of treatment is critical. The diagnostic process often raises challenges, such as the lack of experience in medical workers, incompatible anthropometric equipment, and inefficient medical bureaucracy. To counteract the issues, the use of load cell sensor and ultrasonic sensor can provide suitable anthropometric equipment and streamline the medical bureaucracy for stunting detection. This paper also employs machine learning for stunting detection based on sensor readings. The experiment results show that the sensitivity of the load cell sensor and the ultrasonic sensor is 0.9919 and 0.9986, respectively. Also, the machine learning test results have three classification classes, which are normal, stunted, and stunting with an accuracy rate of 98\%. | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-21 |
# 疎文言語モデルのルーティングがコンテキストに応答する
Routing in Sparsely-gated Language Models responds to Context ( http://arxiv.org/abs/2409.14107v1 ) ライセンス: Link先を確認 | Stefan Arnold, Marian Fietta, Dilara Yesilbas, | (参考訳) 言語モデル(LM)は、最近ルータと専門家の集合からなる専門知識の混合層を組み込んで、固定された計算予算によってパラメータ数をスケールアップした。
トークン・エキスパート・アサインがトークンのアイデンティティと位置に影響されていることを示す以前の取り組みに基づいて、類似性アノテートされたテキストペアのルーティング決定をトレースし、学習されたトークン・エキスパート・アサインのコンテキスト感度を評価する。
エンコーダ層内のルーティングは,主に(意味的)アソシエーションに依存するが,文脈的キューは付加的な改善のレイヤを提供する。
逆に、デコーダ層のルーティングはより可変であり、コンテキストに対する感度が著しく低い。
Language Models (LMs) recently incorporate mixture-of-experts layers consisting of a router and a collection of experts to scale up their parameter count given a fixed computational budget. Building on previous efforts indicating that token-expert assignments are predominantly influenced by token identities and positions, we trace routing decisions of similarity-annotated text pairs to evaluate the context sensitivity of learned token-expert assignments. We observe that routing in encoder layers mainly depends on (semantic) associations, but contextual cues provide an additional layer of refinement. Conversely, routing in decoder layers is more variable and markedly less sensitive to context. | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-21 |
# ノイズの中規模量子時代のデータ管理
Data Management in the Noisy Intermediate-Scale Quantum Era ( http://arxiv.org/abs/2409.14111v1 ) ライセンス: Link先を確認 | Rihan Hai, Shih-Han Hung, Tim Coopmans, Floris Geerts, | (参考訳) 量子コンピューティングは、コンピューティング技術のランドスケープを変革するための有望なツールとして登場した。
近年、クエリ最適化、データ統合、インデックス選択、トランザクション管理といった古典的なデータベース問題に量子技術を適用している。
本稿では,量子コンピューティングのためのデータ管理という,重要でない領域に焦点を移す。
現在我々はNISQ(Noisy Intermediate-Scale Quantum)の時代にいる。
古典的データと量子データを区別した後、NISQ時代以降の現在および将来のデータ管理パラダイムについて概説する。
我々は、短期量子コンピューティングの新たな需要から生じるデータ管理の課題に対処する。
我々のゴールは、将来の量子指向データ管理研究の明確なコースをグラフ化し、NISQ時代の量子コンピューティングの発展の基盤として確立することである。
Quantum computing has emerged as a promising tool for transforming the landscape of computing technology. Recent efforts have applied quantum techniques to classical database challenges, such as query optimization, data integration, index selection, and transaction management. In this paper, we shift focus to a critical yet underexplored area: data management for quantum computing. We are currently in the Noisy Intermediate-Scale Quantum (NISQ) era, where qubits, while promising, are fragile and still limited in scale. After differentiating quantum data from classical data, we outline current and future data management paradigms in the NISQ era and beyond. We address the data management challenges arising from the emerging demands of near-term quantum computing. Our goal is to chart a clear course for future quantum-oriented data management research, establishing it as a cornerstone for the advancement of quantum computing in the NISQ era. | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-21 |
# 周波数と空間的相互学習によるマルチコントラストMRIの高速化
Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning ( http://arxiv.org/abs/2409.14113v1 ) ライセンス: Link先を確認 | Qi Chen, Xiaohan Xing, Zhen Chen, Zhiwei Xiong, | (参考訳) 磁気共鳴(MR)イメージングを高速化するため,マルチコントラストMRリコンストラクション(MCMR)が主流となり,低サンプリングk空間測定による目標モードの高品質な再構成を支援する補助として,容易に得るモダリティを利用するようになった。
MCMRには,大域的依存度と相補的情報の探索が不可欠である。
しかし、既存の手法は、受容領域が限られているため、グローバルな依存を捉えるのに苦労するか、2次計算の複雑さに悩まされる。
このジレンマに対処するために、異なるモダリティにまたがるグローバルな依存関係を効率的に探索する新しい周波数空間相互学習ネットワーク(FSMNet)を提案する。
具体的には、周波数分岐と空間分岐を特徴とする周波数空間特徴抽出(FSFE)モジュールにより、各モードの特徴を抽出する。
フーリエ変換のグローバルな性質から、空間枝は局所的な特徴を抽出する一方、周波数枝は画像サイズの受容場によるグローバルな依存を効率的に捉えることができる。
補助モダリティからの相補的情報を活用するために,補助モダリティから周波数と空間的特徴を選択的に取り入れ,対象モダリティの対応する分岐を強化するクロスモーダル選択融合(CMS-fusion)モジュールを提案する。
そこで我々は,周波数-空間融合 (FS-fusion) モジュールを開発した。
BraTSおよび高速MRIデータセットの大規模な実験により、提案したFSMNetは、異なるアクセラレーション係数を持つMCMRタスクの最先端性能を達成することを示した。
コードは、https://github.com/qic999/FSMNet.comで入手できる。
To accelerate Magnetic Resonance (MR) imaging procedures, Multi-Contrast MR Reconstruction (MCMR) has become a prevalent trend that utilizes an easily obtainable modality as an auxiliary to support high-quality reconstruction of the target modality with under-sampled k-space measurements. The exploration of global dependency and complementary information across different modalities is essential for MCMR. However, existing methods either struggle to capture global dependency due to the limited receptive field or suffer from quadratic computational complexity. To tackle this dilemma, we propose a novel Frequency and Spatial Mutual Learning Network (FSMNet), which efficiently explores global dependencies across different modalities. Specifically, the features for each modality are extracted by the Frequency-Spatial Feature Extraction (FSFE) module, featuring a frequency branch and a spatial branch. Benefiting from the global property of the Fourier transform, the frequency branch can efficiently capture global dependency with an image-size receptive field, while the spatial branch can extract local features. To exploit complementary information from the auxiliary modality, we propose a Cross-Modal Selective fusion (CMS-fusion) module that selectively incorporate the frequency and spatial features from the auxiliary modality to enhance the corresponding branch of the target modality. To further integrate the enhanced global features from the frequency branch and the enhanced local features from the spatial branch, we develop a Frequency-Spatial fusion (FS-fusion) module, resulting in a comprehensive feature representation for the target modality. Extensive experiments on the BraTS and fastMRI datasets demonstrate that the proposed FSMNet achieves state-of-the-art performance for the MCMR task with different acceleration factors. The code is available at: https://github.com/qic999/FSMNet. | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-21 |
# CONGRA: 自動衝突解決のベンチマーク
CONGRA: Benchmarking Automatic Conflict Resolution ( http://arxiv.org/abs/2409.14121v1 ) ライセンス: Link先を確認 | Qingyu Zhang, Liangcai Su, Kai Ye, Chenxiong Qian, | (参考訳) ソフトウェアバージョンをマージすることによるコンフリクトの解決は、難しい作業です。
手動マージのオーバーヘッドを軽減するため、研究者は特定の種類の競合を解決し、適用範囲が限定されたプログラム分析ベースの様々なツールを開発した。
言語モデルの開発により、研究者はコンフリクトコードをテキストとして扱い、理論的にはほとんど全てのコンフリクトに対処することができる。
しかし、効果的な競合の難易度評価手法が存在しないことは、大きな言語モデル(LLM)の包括的な評価を妨げ、それらの制限をより深く理解することは困難である。
さらに、自動競合解決におけるLLMの性能を評価するための大規模なオープンベンチマークが欠如している。
このような問題に対処するため,Conflict-GRAdedベンチマーク方式であるConGraを導入する。
コード操作に基づいてコンフリクトを分類し,34の実世界のプロジェクトから44,948のコンフリクトに基づいて大規模評価データセットを構築するための新しいアプローチを提案する。
このデータセットを用いて、競合解決タスクにおける最先端LCMの評価を行う。
このデータセットを用いることで、複数の最先端LLMとコードLLMの性能を評価し、最終的には2つの反直感的だが洞察力に富んだ現象を明らかにする。
ConGraはhttps://github.com/HKU-System-Security-Lab/ConGraでリリースされる。
Resolving conflicts from merging different software versions is a challenging task. To reduce the overhead of manual merging, researchers develop various program analysis-based tools which only solve specific types of conflicts and have a limited scope of application. With the development of language models, researchers treat conflict code as text, which theoretically allows for addressing almost all types of conflicts. However, the absence of effective conflict difficulty grading methods hinders a comprehensive evaluation of large language models (LLMs), making it difficult to gain a deeper understanding of their limitations. Furthermore, there is a notable lack of large-scale open benchmarks for evaluating the performance of LLMs in automatic conflict resolution. To address these issues, we introduce ConGra, a CONflict-GRAded benchmarking scheme designed to evaluate the performance of software merging tools under varying complexity conflict scenarios. We propose a novel approach to classify conflicts based on code operations and use it to build a large-scale evaluation dataset based on 44,948 conflicts from 34 real-world projects. We evaluate state-of-the-art LLMs on conflict resolution tasks using this dataset. By employing the dataset, we assess the performance of multiple state-of-the-art LLMs and code LLMs, ultimately uncovering two counterintuitive yet insightful phenomena. ConGra will be released at https://github.com/HKU-System-Security-Lab/ConGra. | 翻訳日:2024-11-07 03:33:25 公開日:2024-09-21 |
# 合成画像検出器の現状と将来
Present and Future Generalization of Synthetic Image Detectors ( http://arxiv.org/abs/2409.14128v1 ) ライセンス: Link先を確認 | Pablo Bernabeu-Perez, Enrique Lopez-Cuena, Dario Garcia-Gasulla, | (参考訳) 新しいより良い画像生成モデルの継続的なリリースにより、合成画像検出器の需要が増大する。
このような動的場において、検出器は広く一般化でき、制御不能な変化に対して堅牢である必要がある。
本研究は, 検出器一般化のための時間, 画像変換, およびデータソースの役割を考える際に, この設定を動機としたものである。
これらの実験では、評価された検出器のどれも普遍的なものは見つからないが、結果はアンサンブルの可能性を示している。
ワイルドで収集されたデータに関する実験は、このタスクが大規模なデータセットによって定義されたものよりも困難であることを示し、実験と実際の実践のギャップを示している。
最後に、より良い発電機がより良い検出器に繋がる競合平衡効果を観察し、その逆も観察する。
このことは、発生器と検出器の間の永久に近接したレースへとフィールドを押し上げるという仮説を立てる。
The continued release of new and better image generation models increases the demand for synthetic image detectors. In such a dynamic field, detectors need to be able to generalize widely and be robust to uncontrolled alterations. The present work is motivated by this setting, when looking at the role of time, image transformations and data sources, for detector generalization. In these experiments, none of the evaluated detectors is found universal, but results indicate an ensemble could be. Experiments on data collected in the wild show this task to be more challenging than the one defined by large-scale datasets, pointing to a gap between experimentation and actual practice. Finally, we observe a race equilibrium effect, where better generators lead to better detectors, and vice versa. We hypothesize this pushes the field towards a perpetually close race between generators and detectors. | 翻訳日:2024-11-07 03:22:12 公開日:2024-09-21 |
# 音楽ファンデーションモデルでは音声深度検出がより優れているか?
Are Music Foundation Models Better at Singing Voice Deepfake Detection? Far-Better Fuse them with Speech Foundation Models ( http://arxiv.org/abs/2409.14131v1 ) ライセンス: Link先を確認 | Orchid Chetia Phukan, Sarthak Jain, Swarup Ranjan Behera, Arun Balaji Buduru, Rajesh Sharma, S. R Mahadeva Prasanna, | (参考訳) 本研究では,音楽基礎モデル (MFM) や音声基礎モデル (SFM) が,最近研究コミュニティで注目されている歌声深度検出 (SVDD) に有効であるかどうかを,初めて広く検討した。
そこで本研究では,言語表現学習と話者認識のために事前訓練された,最先端(SOTA) MFM(MERT変種とMusic2vec)とSFM(SFM)の総合的な比較研究を行う。
本研究では,すべての基礎モデル(FM)の中で話者認識SFM表現が最良であることを示す。
また, 改良SVDDの相補的挙動を利用するためのFMの融合についても検討し, 新たなフレームワークであるFIONAを提案する。
FIONAでは、x-vector(話者認識SFM)とMERT-v1-330M(MFM)の同期により、EERが13.74 %で、各FMとベースラインFMの融合とSOTA結果の最良の性能を報告した。
In this study, for the first time, we extensively investigate whether music foundation models (MFMs) or speech foundation models (SFMs) work better for singing voice deepfake detection (SVDD), which has recently attracted attention in the research community. For this, we perform a comprehensive comparative study of state-of-the-art (SOTA) MFMs (MERT variants and music2vec) and SFMs (pre-trained for general speech representation learning as well as speaker recognition). We show that speaker recognition SFM representations perform the best amongst all the foundation models (FMs), and this performance can be attributed to its higher efficacy in capturing the pitch, tone, intensity, etc, characteristics present in singing voices. To our end, we also explore the fusion of FMs for exploiting their complementary behavior for improved SVDD, and we propose a novel framework, FIONA for the same. With FIONA, through the synchronization of x-vector (speaker recognition SFM) and MERT-v1-330M (MFM), we report the best performance with the lowest Equal Error Rate (EER) of 13.74 %, beating all the individual FMs as well as baseline FM fusions and achieving SOTA results. | 翻訳日:2024-11-07 03:22:12 公開日:2024-09-21 |
# コヒーレントフィードバックによるマグノメカニクスにおけるワンウェイステアリングと非古典的相関の促進
Enhancing One-Way Steering and Non-Classical Correlations in Magnomechanics via Coherent Feedback ( http://arxiv.org/abs/2409.14139v1 ) ライセンス: Link先を確認 | Hamza Harraf, Noura Chabar, Mohamed Amazioug, Rachid Ahl Laamara, | (参考訳) 本研究では,コヒーレントフィードバックツールを用いたキャビティマグノンメカニカルシステムにおける量子相関階層の強化を理論的に検討する。
ガウス幾何学的不協和を用いて、2つのマグノンモード間の量子相関を定量化し、絡み目以外のモードを定常状態とする。
対数ネガティビティとガウス量子ステアリングは、それぞれ絡み合いとステアビリティを特徴づけるために用いられる。
その結果,ビームスプリッタの反射パラメータの調整により,量子相関が著しく向上し,熱雑音に対する耐性が向上することが示唆された。
さらに,コヒーレントフィードバックによって光子,マグノン,フォノン間の真の三部構造との絡み合いが向上できることを実証した。
これらの知見は、マグノン系システムの絡み合いを高め、量子情報技術の進歩に向けた有望な戦略を示す。
システムを検証し、絡みを検知する能力を示すことで結論付ける。
In this work, we propose a theoretical scheme to explore the enhancement of quantum correlation hierarchies in a cavity magnonmechanical system via the coherent feedback tool. We use Gaussian geometric discord to quantify quantum correlations between the two magnon modes, including those beyond entanglement, in the steady state. Logarithmic negativity and Gaussian quantum steering are employed to characterize entanglement and steerability, respectively. Our results show that adjusting the beam splitter's reflective parameter can significantly enhance quantum correlations and increase their resilience to thermal noise. Moreover, we demonstrate that coherent feedback can achieve enhanced genuine tripartite entanglement among the photon, magnon \(M_1\), and phonon. These findings present promising strategies for enhancing entanglement in magnon-based systems and advancing quantum information technologies. We conclude by validating the system and demonstrating its ability to detect entanglement. | 翻訳日:2024-11-07 03:22:12 公開日:2024-09-21 |
# 比較ニューロン解析による大規模言語モデルの算術的メカニズムの解釈
Interpreting Arithmetic Mechanism in Large Language Models through Comparative Neuron Analysis ( http://arxiv.org/abs/2409.14144v1 ) ライセンス: Link先を確認 | Zeping Yu, Sophia Ananiadou, | (参考訳) 演算能力は限られた数の注目ヘッド内に存在し、それぞれ異なる操作を専門とする。
そこで本研究では,入力から予測までの4つの異なる段階からなる内部論理鎖を同定するCNA法を提案する。これは,浅部FFNニューロンによる特徴伝達,浅部注目層による特徴伝達,算術的頭部による特徴予測,深部FFNニューロン間の特徴増強である。
さらに,特徴強調および特徴予測段階において,人間の解釈可能なFFNニューロンを同定した。
これらの結果からLoRAのメカニズムを解明し,予測に関連するFFNニューロンの係数スコアを増幅することにより予測確率を高めることを明らかにした。
最後に,算術的なタスクに対するモデルプルーニングと,ジェンダーバイアスを低減するためのモデル編集に本手法を適用した。
コードはhttps://github.com/zepingyu0512/arithmetic-mechanismにある。
We find arithmetic ability resides within a limited number of attention heads, with each head specializing in distinct operations. To delve into the reason, we introduce the Comparative Neuron Analysis (CNA) method, which identifies an internal logic chain consisting of four distinct stages from input to prediction: feature enhancing with shallow FFN neurons, feature transferring by shallow attention layers, feature predicting by arithmetic heads, and prediction enhancing among deep FFN neurons. Moreover, we identify the human-interpretable FFN neurons within both feature-enhancing and feature-predicting stages. These findings lead us to investigate the mechanism of LoRA, revealing that it enhances prediction probabilities by amplifying the coefficient scores of FFN neurons related to predictions. Finally, we apply our method in model pruning for arithmetic tasks and model editing for reducing gender bias. Code is on https://github.com/zepingyu0512/arithmetic-mechanism. | 翻訳日:2024-11-07 03:22:12 公開日:2024-09-21 |
# 量子電池におけるエネルギー不変触媒と非相関状態不変触媒の普遍的および完全抽出
Universal and complete extraction for energy-invariant catalysis in quantum batteries versus no uncorrelated state-invariant catalysis ( http://arxiv.org/abs/2409.14153v1 ) ライセンス: Link先を確認 | Paranjoy Chaki, Aparajita Bhattacharyya, Ujjwal Sen, | (参考訳) 量子電池からのエネルギー抽出における触媒の役割について検討する。
この点において, 触媒の基本クラスとして, エネルギー・状態不変触媒の2種類が提案されている。
さらに, 最終出力において, 触媒が電池と相関しない場合についても, 別々に検討する。
エネルギー抽出には、電池と触媒を併用するユニタリに制限する。
エネルギー不変触媒による全抽出: 電池と同じ寸法のエネルギー不変触媒が存在する場合, 電池のすべての貯蔵エネルギーを常に抽出し, 適切な結合ユニタリおよび触媒状態を用いる場合, 電池を基底状態に変換する。
さらに、エネルギー不変触媒の任意の状態を考慮して、量子電池からのエネルギー抽出に必要かつ十分な通過性条件を提供する。
状態不変触媒はエルゴトロピーよりもエネルギーを抽出できる非相関な状態不変触媒はなく、これは任意の次元の電池に有効である。
相関状態不変触媒に対して、対応するno-go結果が存在するか?
そう、シングルキュービットバッテリーの存在がわかりました。
We investigate the role of catalysts in energy extraction from quantum batteries. Two basic classes of catalysts are proposed in this regard, viz., energy- and state-invariant catalysts. Moreover, we separately consider cases when the catalysts are or are not correlated with the battery, in the final output. For energy extraction, we restrict to unitaries which jointly act on the battery and the catalyst. Total extraction via energy-invariant catalysis: We demonstrate that in presence of an energy-invariant catalyst, having the same dimension as the battery, all stored energy of the battery can always be extracted, transforming the battery into its ground state, when an appropriate joint unitary and catalyst state are employed. Additionally, we offer a necessary and sufficient condition of passivity for energy extraction from quantum batteries, considering arbitrary but fixed state of energy-invariant catalysts. Focusing on state-invariant catalysts, we first prove a no-go theorem, viz. there are no uncorrelated state-invariant catalysts that can provide more extraction of energy than ergotropy, and this is valid for an arbitrary-dimensional battery. Does there exist a corresponding no-go result for correlated state-invariant catalysts? Yes, we have found its existence for single-qubit batteries. | 翻訳日:2024-11-07 03:22:11 公開日:2024-09-21 |
# MSSDA:糖尿病性足部ニューロパチーのマルチサブソース適応
MSSDA: Multi-Sub-Source Adaptation for Diabetic Foot Neuropathy Recognition ( http://arxiv.org/abs/2409.14154v1 ) ライセンス: Link先を確認 | Yan Zhong, Zhixin Yan, Yi Xie, Shibin Wu, Huaidong Zhang, Lin Shu, Peiru Zhou, | (参考訳) 糖尿病性足部神経症 (DFN) は糖尿病性足部潰瘍の原因となる重要な因子であり, 糖尿病性足底症 (DM) の合併症の1つであり, 切断や死亡のリスクが高い。
その重要性にも拘わらず、既存のデータセットは、プランタデータから直接派生するものではなく、継続的な長期の足の特定情報が欠如している。
DFN研究を進めるために,糖尿病性足部神経障害を認識するために,連続的な足底圧データからなる新しいデータセットを収集した。
このデータセットは、DFNを伴わない94例のDM患者と、DFNを伴わない41例のDM患者からのデータを含む。
さらに、従来の手法では、データセットを個人ごとに分割し、中間ドメインデータがないため、いくつかの特徴空間において大きなドメイン不一致を引き起こす可能性がある。
本稿では,このプロペレンスに対処する効果的なドメイン適応手法を提案する。
我々は、畳み込み特徴統計に基づいてデータセットを分割し、効率を高め、負の転送を避けるために適切なサブソースドメインを選択する。
次に、各ソースとターゲットドメインペアの分布を特定の特徴空間に整列させ、ドメインギャップを最小化する。
DFN認識のための新しいデータセットと既存のデータセットの両方において,本手法の有効性を総合的に検証した。
Diabetic foot neuropathy (DFN) is a critical factor leading to diabetic foot ulcers, which is one of the most common and severe complications of diabetes mellitus (DM) and is associated with high risks of amputation and mortality. Despite its significance, existing datasets do not directly derive from plantar data and lack continuous, long-term foot-specific information. To advance DFN research, we have collected a novel dataset comprising continuous plantar pressure data to recognize diabetic foot neuropathy. This dataset includes data from 94 DM patients with DFN and 41 DM patients without DFN. Moreover, traditional methods divide datasets by individuals, potentially leading to significant domain discrepancies in some feature spaces due to the absence of mid-domain data. In this paper, we propose an effective domain adaptation method to address this proplem. We split the dataset based on convolutional feature statistics and select appropriate sub-source domains to enhance efficiency and avoid negative transfer. We then align the distributions of each source and target domain pair in specific feature spaces to minimize the domain gap. Comprehensive results validate the effectiveness of our method on both the newly proposed dataset for DFN recognition and an existing dataset. | 翻訳日:2024-11-07 03:22:11 公開日:2024-09-21 |
# 単純な重力自己脱コヒーレンスモデル
A simple gravitational self-decoherence model ( http://arxiv.org/abs/2409.14155v1 ) ライセンス: Link先を確認 | Gabriel H. S. Aguiar, George E. A. Matsas, | (参考訳) 私たちの時代の最も大きな議論の1つは、我々のマクロ世界が
i)自然に量子力学から現れるか
(二)新しい物理を必要とする。
我々は主張する
(II) 簡単な重力自己脱コヒーレンス機構を提案する。
自由量子粒子の純度損失を評価した結果, 素粒子では極めて非効率であるが, プランクスケールでは極めて有効であることがわかった。
その背景にある物理的な特徴は、コヒーレンスが十分に重い粒子から(観測不可能な)時空の量子自由度に容易に漏れることである。
One of the greatest debates of our time is whether our macroscopic world (i) naturally emerges from quantum mechanics or (ii) requires new physics. We argue for (ii) and propose a simple gravitational self-decoherence mechanism. The purity loss for a free quantum particle is evaluated and shown to be extremely inefficient for elementary particles but very effective for those at the Planck scale. The physical picture behind it is that coherence would easily leak from heavy enough particles to (non-observable) spacetime quantum degrees of freedom. | 翻訳日:2024-11-07 03:22:11 公開日:2024-09-21 |
# ディープラーニングモデルを用いたリミットオーダーブックの価格予測可能性
Price predictability in limit order book with deep learning model ( http://arxiv.org/abs/2409.14157v1 ) ライセンス: Link先を確認 | Kyungsub Lee, | (参考訳) 本研究では,ディープラーニングモデルを用いた高周波価格変化の予測について検討する。
最先端の手法はうまく機能するが、その複雑さは成功予測の理解を妨げる。
未定義の目標価格プロセスでは,過去の情報を組み込むことで予測が無意味になることが判明した。
資産価格予測における一般的に用いられる3クラス問題は通常、ボラティリティと方向性予測に分けられる。
価格プロセスのみに依存する場合、方向性予測性能はそれほど大きくない。
しかし、ボリューム不均衡は方向予測性能を向上させる。
This study explores the prediction of high-frequency price changes using deep learning models. Although state-of-the-art methods perform well, their complexity impedes the understanding of successful predictions. We found that an inadequately defined target price process may render predictions meaningless by incorporating past information. The commonly used three-class problem in asset price prediction can generally be divided into volatility and directional prediction. When relying solely on the price process, directional prediction performance is not substantial. However, volume imbalance improves directional prediction performance. | 翻訳日:2024-11-07 03:22:11 公開日:2024-09-21 |
# AIにおけるBigger-is-Better Paradigmのハイプ、サステナビリティ、価格
Hype, Sustainability, and the Price of the Bigger-is-Better Paradigm in AI ( http://arxiv.org/abs/2409.14160v1 ) ライセンス: Link先を確認 | Gaël Varoquaux, Alexandra Sasha Luccioni, Meredith Whittaker, | (参考訳) 大規模言語モデルのような最近のAIアプローチへの注目と投資の高まりにより、より大きなAIシステムがより価値があり、強力で、興味深いものであるという物語は、ますます常識として見られている。
しかし、この仮定はどのようにして価値、パワー、パフォーマンスを測るのか?
そして、このレースの余分な結果が拡大するスケールに何をもたらすのか?
ここでは、複数の軸にわたる現在のスケーリングトレンドとトレードオフを精査し、'Bigger-is-better' AIパラダイムに基づく2つの一般的な前提を反論する。
1) 性能が向上した製品は、規模が増大した製品であり、
2) AIによって対処されるすべての興味深い問題は、大規模なモデルを必要とする。
むしろ、このアプローチは科学的に脆弱なだけでなく、望ましくない結果をもたらすものだ、と私たちは主張する。
第一に、計算要求がモデルの性能よりも早く増加し、不合理な経済要求と不均等な環境フットプリントにつながるため、持続可能ではない。
第二に、健康、教育、気候などの重要な応用は別として、他人を犠牲にして特定の問題に焦点をあてることである。
最後に、いくつかのアクターの手に意思決定を集中させると同時に、AI研究と社会全体の応用の両方を形作るという文脈において、他のアクターを解き放つことを脅かす力の集中をさらに高める。
With the growing attention and investment in recent AI approaches such as large language models, the narrative that the larger the AI system the more valuable, powerful and interesting it is is increasingly seen as common sense. But what is this assumption based on, and how are we measuring value, power, and performance? And what are the collateral consequences of this race to ever-increasing scale? Here, we scrutinize the current scaling trends and trade-offs across multiple axes and refute two common assumptions underlying the 'bigger-is-better' AI paradigm: 1) that improved performance is a product of increased scale, and 2) that all interesting problems addressed by AI require large-scale models. Rather, we argue that this approach is not only fragile scientifically, but comes with undesirable consequences. First, it is not sustainable, as its compute demands increase faster than model performance, leading to unreasonable economic requirements and a disproportionate environmental footprint. Second, it implies focusing on certain problems at the expense of others, leaving aside important applications, e.g. health, education, or the climate. Finally, it exacerbates a concentration of power, which centralizes decision-making in the hands of a few actors while threatening to disempower others in the context of shaping both AI research and its applications throughout society. | 翻訳日:2024-11-07 03:22:11 公開日:2024-09-21 |
# 低資源高効率NLPにおけるプルーニングと蒸留の重要性について
On Importance of Pruning and Distillation for Efficient Low Resource NLP ( http://arxiv.org/abs/2409.14162v1 ) ライセンス: Link先を確認 | Aishwarya Mirashi, Purva Lingayat, Srushti Sonavane, Tejas Padhiyar, Raviraj Joshi, Geetanjali Kale, | (参考訳) 大きなトランスフォーマーモデルの台頭は自然言語処理に革命をもたらし、テキスト分類のようなタスクが大幅に進歩した。
しかし、この進歩にはかなりの計算資源、訓練期間のエスカレート、より大きなモデルサイズでの費用が要求される。
英語モデルの縮小と高速化(例: Distilbert、MobileBert)が試みられている。
しかし、この分野での研究は低リソース言語では不十分である。
本研究では,低リソースのインド語であるMarathiについて検討する。
マルチトピ-オール-doc-v2モデルをベースラインとして,計算時間とメモリ使用量を削減する最適化手法を実装した。
我々の焦点は、最上位の精度を維持し、計算要求を低減しつつ、マラソン変換モデルの効率を向上させることである。
L3CubeのMahaNews文書分類データセットとMarathi-topic-all-doc-v2モデルを用いて,Block Movement Pruning,Knowledge Distillation,Mixed Precision法を個別に適用し,効率を向上させる。
所望の効率向上を達成する上で,戦略的なプルーニングレベルの重要性を実証する。
さらに、効率改善と環境影響のバランスを分析し、最適化されたモデルアーキテクチャがより持続可能な計算エコシステムにどのように貢献するかを明らかにする。
これらの手法を1つのGPUシステムに実装し、最適構成が25\%のプルーニング+知識蒸留であると判定する。
このアプローチは、ベースライン精度を保ちながら計算時間の2.56倍の高速化を実現した。
The rise of large transformer models has revolutionized Natural Language Processing, leading to significant advances in tasks like text classification. However, this progress demands substantial computational resources, escalating training duration, and expenses with larger model sizes. Efforts have been made to downsize and accelerate English models (e.g., Distilbert, MobileBert). Yet, research in this area is scarce for low-resource languages. In this study, we explore the case of the low-resource Indic language Marathi. Leveraging the marathi-topic-all-doc-v2 model as our baseline, we implement optimization techniques to reduce computation time and memory usage. Our focus is on enhancing the efficiency of Marathi transformer models while maintaining top-tier accuracy and reducing computational demands. Using the MahaNews document classification dataset and the marathi-topic-all-doc-v2 model from L3Cube, we apply Block Movement Pruning, Knowledge Distillation, and Mixed Precision methods individually and in combination to boost efficiency. We demonstrate the importance of strategic pruning levels in achieving desired efficiency gains. Furthermore, we analyze the balance between efficiency improvements and environmental impact, highlighting how optimized model architectures can contribute to a more sustainable computational ecosystem. Implementing these techniques on a single GPU system, we determine that the optimal configuration is 25\% pruning + knowledge distillation. This approach yielded a 2.56x speedup in computation time while maintaining baseline accuracy levels. | 翻訳日:2024-11-07 03:22:11 公開日:2024-09-21 |
# PromptTA: ソースフリードメイン一般化のためのプロンプト駆動型テキストアダプタ
PromptTA: Prompt-driven Text Adapter for Source-free Domain Generalization ( http://arxiv.org/abs/2409.14163v1 ) ライセンス: Link先を確認 | Haoran Zhang, Shuanghao Bai, Wanqi Zhou, Jingwen Fu, Badong Chen, | (参考訳) ソースフリードメイン一般化(SFDG)は、ソースドメインデータにアクセスせずにターゲットドメインにモデルを適用するという課題に取り組む。
この課題に対処するため、SFDGの最近の進歩は、CLIPのような視覚言語モデルのテキストモダリティの活用に重点を置いている。
これらの方法は、テキストから抽出された多様なスタイルの特徴に基づいて、転送可能な線形分類器を開発し、ドメインバンクからドメイン統一されたテキスト表現を学習または導出することを含む。
しかし、スタイル機能とドメインバンクの両方が、包括的なドメイン知識の取得に制限があります。
本稿では,スタイル特徴の分布をよりよく把握し,ドメイン知識の網羅的カバレッジを確保するために再サンプリングを利用するPrompt-Driven Text Adapter(PromptTA)手法を提案する。
このリッチなドメイン情報をさらに活用するために、これらのスタイル機能から学習したテキストアダプタを導入し、ドメイン情報記憶を効率化する。
4つのベンチマークデータセットで実施された大規模な実験は、PromptTAが最先端のパフォーマンスを達成したことを示している。
コードはhttps://github.com/zhanghr2001/PromptTAで公開されている。
Source-free domain generalization (SFDG) tackles the challenge of adapting models to unseen target domains without access to source domain data. To deal with this challenging task, recent advances in SFDG have primarily focused on leveraging the text modality of vision-language models such as CLIP. These methods involve developing a transferable linear classifier based on diverse style features extracted from the text and learned prompts or deriving domain-unified text representations from domain banks. However, both style features and domain banks have limitations in capturing comprehensive domain knowledge. In this work, we propose Prompt-Driven Text Adapter (PromptTA) method, which is designed to better capture the distribution of style features and employ resampling to ensure thorough coverage of domain knowledge. To further leverage this rich domain information, we introduce a text adapter that learns from these style features for efficient domain information storage. Extensive experiments conducted on four benchmark datasets demonstrate that PromptTA achieves state-of-the-art performance. The code is available at https://github.com/zhanghr2001/PromptTA. | 翻訳日:2024-11-07 03:22:11 公開日:2024-09-21 |
# レイヤ・プルーニングを用いた効率的な文BERTモデルの構築に向けて
Towards Building Efficient Sentence BERT Models using Layer Pruning ( http://arxiv.org/abs/2409.14168v1 ) ライセンス: Link先を確認 | Anushka Shelke, Riya Savant, Raviraj Joshi, | (参考訳) 本研究では,SBERT(Sentence BERT)モデル作成におけるレイヤプルーニングの有効性について検討した。
我々のゴールは、強い埋め込み類似性を保ちながら複雑さを減らし、より小さな文埋め込みモデルを作ることです。
MahaBERT-Small や MahaBERT-Smaller といった小さなスクラッチトレーニングモデルと比較し,Muril や MahaBERT-v2 などの BERT モデルの評価を行った。
自然言語推論(NLI)とセマンティックテキスト類似性(STS)を含む2段階のSBERT微調整プロセスを通じて, 層低減が埋め込み品質に及ぼす影響を評価する。
以上の結果から, プレナードモデルでは, 層数が少ないにもかかわらず, 完全な層化バージョンと競合する結果が得られた。
さらに、プルーニングされたモデルは、同じ大きさのスクラッチトレーニングされたモデルよりも一貫して優れており、より小型で効率的な埋め込みモデルを作成するための効果的な戦略として層プルーニングを確立する。
これらの結果は、高品質な埋め込みを保ちながら計算需要を減らすための実用的なアプローチとしてレイヤープルーニングを強調し、SBERTモデルは限られた技術資源を持つ言語に対してよりアクセスしやすいようにした。
This study examines the effectiveness of layer pruning in creating efficient Sentence BERT (SBERT) models. Our goal is to create smaller sentence embedding models that reduce complexity while maintaining strong embedding similarity. We assess BERT models like Muril and MahaBERT-v2 before and after pruning, comparing them with smaller, scratch-trained models like MahaBERT-Small and MahaBERT-Smaller. Through a two-phase SBERT fine-tuning process involving Natural Language Inference (NLI) and Semantic Textual Similarity (STS), we evaluate the impact of layer reduction on embedding quality. Our findings show that pruned models, despite fewer layers, perform competitively with fully layered versions. Moreover, pruned models consistently outperform similarly sized, scratch-trained models, establishing layer pruning as an effective strategy for creating smaller, efficient embedding models. These results highlight layer pruning as a practical approach for reducing computational demand while preserving high-quality embeddings, making SBERT models more accessible for languages with limited technological resources. | 翻訳日:2024-11-07 03:22:11 公開日:2024-09-21 |
# LFP:カメラ-LiDAR融合による高効率かつ高精度レーンレベル計画
LFP: Efficient and Accurate End-to-End Lane-Level Planning via Camera-LiDAR Fusion ( http://arxiv.org/abs/2409.14170v1 ) ライセンス: Link先を確認 | Guoliang You, Xiaomeng Chu, Yifan Duan, Xingchen Li, Sha Zhang, Jianmin Ji, Yanyong Zhang, | (参考訳) マルチモーダルシステムは自律走行の性能を向上させるが、各モーダル内での非差別処理による非効率性に直面する。
さらに、各モダリティの独立した特徴学習には相互作用が欠如しており、結果として相補的な特徴を持たない特徴が抽出される。
これらの問題は、モダリティ間で冗長な情報を融合するコストを増大させる。
これらの課題に対処するために、重要な情報を保持しながらLiDAR特徴量の削減を図り、運転関連要素をターゲットにすることを提案する。
このアプローチは、画像とLiDARブランチ間のレーンレベル相互作用を強化し、それぞれの有利な特徴の抽出と融合を可能にする。
カメラ専用フレームワークPHPを基盤として,センサフュージョンの単位としてレーンを用いて効率と性能のバランスをとる,レーンレベルのカメラライダル融合計画法(LFP)を導入する。
具体的には,効率と性能を向上させるために3つのモジュールを設計する。
効率向上のために,車線に対する関心領域(ROI)を予測し,信頼性スコアを割り当て,LiDAR処理を誘導する画像誘導粗い車線先行生成モジュールを提案する。
LiDAR特徴抽出モジュールは、イメージブランチからレーン対応の事前情報を活用し、柱のガイドサンプリングを行い、必須の柱を保持する。
性能面では、レーンレベルのクロスモーダルクエリ統合と機能拡張モジュールはROIからの信頼スコアを使用して、低信頼の画像クエリとLiDARクエリを組み合わせ、補完的な深度特徴を抽出する。
これらの特徴は、深さの欠如を補い、低信頼の画像特徴を高める。
カーラベンチマーク実験により,本手法は駆動スコアと屈折スコアの両方で最先端性能を実現し,既存のアルゴリズムよりも最大15%,14%向上し,フレームレート19.27FPSを維持した。
Multi-modal systems enhance performance in autonomous driving but face inefficiencies due to indiscriminate processing within each modality. Additionally, the independent feature learning of each modality lacks interaction, which results in extracted features that do not possess the complementary characteristics. These issue increases the cost of fusing redundant information across modalities. To address these challenges, we propose targeting driving-relevant elements, which reduces the volume of LiDAR features while preserving critical information. This approach enhances lane level interaction between the image and LiDAR branches, allowing for the extraction and fusion of their respective advantageous features. Building upon the camera-only framework PHP, we introduce the Lane-level camera-LiDAR Fusion Planning (LFP) method, which balances efficiency with performance by using lanes as the unit for sensor fusion. Specifically, we design three modules to enhance efficiency and performance. For efficiency, we propose an image-guided coarse lane prior generation module that forecasts the region of interest (ROI) for lanes and assigns a confidence score, guiding LiDAR processing. The LiDAR feature extraction modules leverages lane-aware priors from the image branch to guide sampling for pillar, retaining essential pillars. For performance, the lane-level cross-modal query integration and feature enhancement module uses confidence score from ROI to combine low-confidence image queries with LiDAR queries, extracting complementary depth features. These features enhance the low-confidence image features, compensating for the lack of depth. Experiments on the Carla benchmarks show that our method achieves state-of-the-art performance in both driving score and infraction score, with maximum improvement of 15% and 14% over existing algorithms, respectively, maintaining high frame rate of 19.27 FPS. | 翻訳日:2024-11-06 23:48:26 公開日:2024-09-21 |
# 干渉のあるドローンによる車両走行問題に対する進化的アルゴリズム
An Evolutionary Algorithm For the Vehicle Routing Problem with Drones with Interceptions ( http://arxiv.org/abs/2409.14173v1 ) ライセンス: Link先を確認 | Carlos Pambo, Jacomine Grobler, | (参考訳) 最終マイルの配送課題に対処するための解決策としてトラックとドローンを使用することは、この論文で探求された新しい、有望な研究方向である。
ドローンが移動中や顧客の位置でトラックをインターセプトできるという問題の変化は、インターセプション付きドローンによる車両ルーティング問題(VRPDi)と呼ばれる最適化問題の一部である。
本稿では,VRPDiを解くための進化的アルゴリズムを提案する。
VRPDiのこのバリエーションでは、複数のトラックとドローンを予定する必要がある。
ペアは立ち去り、一緒に補給所の場所に戻り、別々に顧客ノードに配送する。
ドローンは配達後にトラックをインターセプトしたり、次の顧客場所でトラックと出会うことができる。
このアルゴリズムは、Boumanらによるドローン(TSPD)データセットによるトラベルセールスマン問題(2015年)で実行され、同じデータセットのVRPの結果に対してVRPDiの結果をベンチマークすることでアルゴリズムのパフォーマンスを比較した。
この比較では、デリバリ時間全体の39%から60%の改善が見られた。
さらに詳細な解析を行い,アルゴリズム実行時の納品時間,距離,ノードの納入スケジュール,多様性の度合いを検討した。
この分析では、アルゴリズムがVRPDiの制約をどのように扱ったかも検討した。
アルゴリズムの結果は、Dillon et al (2023) と Ernst (2024) のアルゴリズムと比較された。
後者はVRPDiに追加された最大ドローン距離制限でこの問題を解決した。
アルゴリズム解析とベンチマークにより,50ノードと100ノードの問題を妥当な時間で解き,同じ問題に対してDillon et al (2023) と Ernst (2024) のアルゴリズムよりも優れた解が得られた。
The use of trucks and drones as a solution to address last-mile delivery challenges is a new and promising research direction explored in this paper. The variation of the problem where the drone can intercept the truck while in movement or at the customer location is part of an optimisation problem called the vehicle routing problem with drones with interception (VRPDi). This paper proposes an evolutionary algorithm to solve the VRPDi. In this variation of the VRPDi, multiple pairs of trucks and drones need to be scheduled. The pairs leave and return to a depot location together or separately to make deliveries to customer nodes. The drone can intercept the truck after the delivery or meet up with the truck at the following customer location. The algorithm was executed on the travelling salesman problem with drones (TSPD) datasets by Bouman et al. (2015), and the performance of the algorithm was compared by benchmarking the results of the VRPDi against the results of the VRP of the same dataset. This comparison showed improvements in total delivery time between 39% and 60%. Further detailed analysis of the algorithm results examined the total delivery time, distance, node delivery scheduling and the degree of diversity during the algorithm execution. This analysis also considered how the algorithm handled the VRPDi constraints. The results of the algorithm were then benchmarked against algorithms in Dillon et al. (2023) and Ernst (2024). The latter solved the problem with a maximum drone distance constraint added to the VRPDi. The analysis and benchmarking of the algorithm results showed that the algorithm satisfactorily solved 50 and 100-nodes problems in a reasonable amount of time, and the solutions found were better than those found by the algorithms in Dillon et al. (2023) and Ernst (2024) for the same problems. | 翻訳日:2024-11-06 23:48:26 公開日:2024-09-21 |
# 深部ReLUネットのためのコンポーネントベーススケッチ
Component-based Sketching for Deep ReLU Nets ( http://arxiv.org/abs/2409.14174v1 ) ライセンス: Link先を確認 | Di Wang, Shao-Bo Lin, Deyu Meng, Feilong Cao, | (参考訳) ディープラーニングは、多くの現実世界のアプリケーションにおける画期的な成果と革新的なアルゴリズム設計哲学によって区別された、データマイニングとAIの領域に大きな影響を与えている。
しかし、これは最適化と一般化の不整合性の問題に悩まされ、バイアス分散トレードオフ原理によって導かれる優れた一般化を達成する一方で、勾配に基づくアルゴリズムの効果的な収束は過パラメータ化ネットワークを必要とする。
この問題に対処するため,様々なタスクのためのディープネットコンポーネントに基づく新しいスケッチ手法を開発した。
具体的には、ディープネットワークの利点を具現化したスケッチベースを構築するために、特定の有効性を持つディープネットコンポーネントを使用します。
その後、我々は、深層ネットトレーニングを構築ベースに基づく線形経験的リスク最小化問題に変換し、反復アルゴリズムの複雑な収束解析をうまく回避した。
提案手法の有効性を理論的解析と数値実験により検証した。
理論的には、提案したコンポーネントベースのスケッチは、浅いネットに対する飽和関数の近似にほぼ最適な速度を提供し、また、ほぼ最適な一般化誤差境界を実現する。
数値解析により,既存の勾配に基づくトレーニング手法と比較して,コンポーネントベースのスケッチはトレーニングコストの低減とともに,より優れた一般化性能を有することが示された。
Deep learning has made profound impacts in the domains of data mining and AI, distinguished by the groundbreaking achievements in numerous real-world applications and the innovative algorithm design philosophy. However, it suffers from the inconsistency issue between optimization and generalization, as achieving good generalization, guided by the bias-variance trade-off principle, favors under-parameterized networks, whereas ensuring effective convergence of gradient-based algorithms demands over-parameterized networks. To address this issue, we develop a novel sketching scheme based on deep net components for various tasks. Specifically, we use deep net components with specific efficacy to build a sketching basis that embodies the advantages of deep networks. Subsequently, we transform deep net training into a linear empirical risk minimization problem based on the constructed basis, successfully avoiding the complicated convergence analysis of iterative algorithms. The efficacy of the proposed component-based sketching is validated through both theoretical analysis and numerical experiments. Theoretically, we show that the proposed component-based sketching provides almost optimal rates in approximating saturated functions for shallow nets and also achieves almost optimal generalization error bounds. Numerically, we demonstrate that, compared with the existing gradient-based training methods, component-based sketching possesses superior generalization performance with reduced training costs. | 翻訳日:2024-11-06 23:48:26 公開日:2024-09-21 |
# QMOS: 質問応答損失とオプションシャッフルによる遠隔コミュニケーションのためのLCMの強化
QMOS: Enhancing LLMs for Telecommunication with Question Masked loss and Option Shuffling ( http://arxiv.org/abs/2409.14175v1 ) ライセンス: Link先を確認 | Blessed Guda, Gabrial Zencha A., Lawrence Francis, Carlee Joe-Wong, | (参考訳) 大規模言語モデル (LLM) は質問回答システム (QA) の分野で大きな進歩をもたらした。
これらのモデルは、様々な分野の複雑な問い合わせに驚くほどうまく対処する。
しかし、ドメイン固有の語彙、複雑な技術概念、およびLLMを電気通信などの専門分野に適用する正確な応答の要求により、さらなる障害が生じる。
GPT-3.5は、最近の研究で、レトリーバル拡張生成(RAG)フレームワークにおいて、通信関連質問に対して注目すべき精度を得るために使われている。
これらの発展にもかかわらず、GPT-3.5のようなモデルの使用は、プロプライエタリな性質と高いコンピューティング要求によって制限されている。
本稿では、QMOSについて述べる。QMOSは、電信分野における複数の質問に答える際のLLMの性能を高めるために、Q-Masked LosとOption Shufflingのトリックを利用する革新的な手法である。
我々の焦点は、拡張RAGフレームワーク内で、オープンソースのより小さな言語モデル(Phi-2とFalcon-7B)を使用することでした。
我々の多面的アプローチは、微調整、検索、迅速なエンジニアリング、推論のLLM-RAGパイプライン全体に対するいくつかの拡張を含む。
我々のアプローチは既存の結果よりも優れており、ファルコン7Bで24.70%から49.30%、Phi-2で42.07%から84.65%の精度向上を実現している。
Large Language models (LLMs) have brought about substantial advancements in the field of Question Answering (QA) systems. These models do remarkably well in addressing intricate inquiries in a variety of disciplines. However, because of domain-specific vocabulary, complex technological concepts, and the requirement for exact responses applying LLMs to specialized sectors like telecommunications presents additional obstacles. GPT-3.5 has been used in recent work, to obtain noteworthy accuracy for telecom-related questions in a Retrieval Augmented Generation (RAG) framework. Notwithstanding these developments, the practical use of models such as GPT-3.5 is restricted by their proprietary nature and high computing demands. This paper introduces QMOS, an innovative approach which uses a Question-Masked loss and Option Shuffling trick to enhance the performance of LLMs in answering Multiple-Choice Questions in the telecommunications domain. Our focus was on using opensource, smaller language models (Phi-2 and Falcon-7B) within an enhanced RAG framework. Our multi-faceted approach involves several enhancements to the whole LLM-RAG pipeline of finetuning, retrieval, prompt engineering and inference. Our approaches significantly outperform existing results, achieving accuracy improvements from baselines of 24.70% to 49.30% with Falcon-7B and from 42.07% to 84.65% with Phi-2. | 翻訳日:2024-11-06 23:48:26 公開日:2024-09-21 |
# Few-Shot強化学習のための非構造化データ生成のための分布認識フローマッチング
A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning ( http://arxiv.org/abs/2409.14178v1 ) ライセンス: Link先を確認 | Mohammad Pivezhandi, Abusayeed Saifullah, | (参考訳) 現実的で多様な非構造化データを生成することは、強化学習(RL)において重要な課題である。
従来のRL手法は、コストと時間を要する広範なデータセットやシミュレーションに依存していることが多い。
本稿では,DVFS(Dynamic voltage and Frequency Scaling)と呼ばれる数ショットのRLを組み込みプロセッサに適用するための,合成非構造データを生成するために設計された分散型フローマッチングを提案する。
本手法は,フローマッチングのサンプル効率を活用し,ブートストラップなどの統計的学習手法を取り入れ,その一般化と潜在空間の堅牢性を向上させる。
さらに、ランダムフォレストによる特徴重み付けを重要データ面の優先順位付けに適用し、生成した合成データの精度を向上させる。
このアプローチは、従来のモデルベースRLにおける非構造化データにおける過度な適合とデータ相関の課題を緩和するだけでなく、サンプル数が増加するにつれて、真の経験値と最適ポリシーへの収束を確保するために、大規模数の法則と整合する。
低エネルギー処理におけるDVFSの適用に関する広範な実験を通じて,本手法は最初期の第1タイムスタンプにおいて,フレームレートを30倍に高めながら,最大Q値に基づく安定収束性を提供することを示した。
Generating realistic and diverse unstructured data is a significant challenge in reinforcement learning (RL), particularly in few-shot learning scenarios where data is scarce. Traditional RL methods often rely on extensive datasets or simulations, which are costly and time-consuming. In this paper, we introduce a distribution-aware flow matching, designed to generate synthetic unstructured data tailored specifically for an application of few-shot RL called Dynamic Voltage and Frequency Scaling (DVFS) on embedded processors. This method leverages the sample efficiency of flow matching and incorporates statistical learning techniques such as bootstrapping to improve its generalization and robustness of the latent space. Additionally, we apply feature weighting through Random Forests to prioritize critical data aspects, thereby improving the precision of the generated synthetic data. This approach not only mitigates the challenges of overfitting and data correlation in unstructured data in traditional Model-Based RL but also aligns with the Law of Large Numbers, ensuring convergence to true empirical values and optimal policy as the number of samples increases. Through extensive experimentation on an application of DVFS for low energy processing, we demonstrate that our method provides an stable convergence based on max Q-value while enhancing frame rate by 30\% in the very beginning first timestamps, making this RL model efficient in resource-constrained environments. | 翻訳日:2024-11-06 23:48:26 公開日:2024-09-21 |
# 多重集合とグラフ上の語彙不変性について
On Lexical Invariance on Multisets and Graphs ( http://arxiv.org/abs/2409.14179v1 ) ライセンス: Link先を確認 | Muhan Zhang, | (参考訳) このドラフトでは、多重集合とグラフの媒質を用いて、語彙不変性と呼ばれる新しい問題を研究する。
伝統的に、NLP領域では、語彙的不変性は、入力の特定の語彙的表現や単語に基づく表現にかかわらず、文の意味的意味が変わらないことを示す。
例えば、『映画は非常に面白かった』は『映画はとても楽しい』』と同じ意味を持つ。
本稿では,入力語彙空間に適用された任意の射影変換に対して関数の出力が不変となる,より困難な設定について検討する。
例えば、multiset {1,2,3,2} が multiset {a,b,c,b} と同値であるとは、1 を a, 2 から b, 3 に写像する射影変換を指定した場合である。
多重集合とグラフ上で最も表現力のある語彙不変量(および置換不変量)関数の十分かつ必要な条件について検討し、多重集合に対して、関数は入力として元の多重集合内の一意な要素の数え上げだけを乗算する形式を持つ必要があることを証明する。
例えば、 {a,b,c,b} 上の最も表現力のある語彙不変函数は {1,1,2} 上でのみ作用する形式を持つ必要がある(つまり a,c,b に対応する 1, 1, 2 個のユニークな元が存在する)。
グラフの場合、最も表現力のある語彙不変かつ置換不変関数は、隣接行列と差分行列のみを入力とする形式でなければならないことを証明し、その差分行列の (i,j) 番目の要素は、ノード i とノード j が同じ特徴を持ち、そうでなければ 0 である。
TUデータセットの合成実験を行い、定理の検証を行う。
In this draft, we study a novel problem, called lexical invariance, using the medium of multisets and graphs. Traditionally in the NLP domain, lexical invariance indicates that the semantic meaning of a sentence should remain unchanged regardless of the specific lexical or word-based representation of the input. For example, ``The movie was extremely entertaining'' would have the same meaning as ``The film was very enjoyable''. In this paper, we study a more challenging setting, where the output of a function is invariant to any injective transformation applied to the input lexical space. For example, multiset {1,2,3,2} is equivalent to multiset {a,b,c,b} if we specify an injective transformation that maps 1 to a, 2 to b and 3 to c. We study the sufficient and necessary conditions for a most expressive lexical invariant (and permutation invariant) function on multisets and graphs, and proves that for multisets, the function must have a form that only takes the multiset of counts of the unique elements in the original multiset as input. For example, a most expressive lexical invariant function on {a,b,c,b} must have a form that only operates on {1,1,2} (meaning that there are 1, 1, 2 unique elements corresponding to a,c,b). For graphs, we prove that a most expressive lexical invariant and permutation invariant function must have a form that only takes the adjacency matrix and a difference matrix as input, where the (i,j)th element of the difference matrix is 1 if node i and node j have the same feature and 0 otherwise. We perform synthetic experiments on TU datasets to verify our theorems. | 翻訳日:2024-11-06 23:48:26 公開日:2024-09-21 |
# ラテンアメリカ・カリブ海諸国におけるパンデミック準備とグローバルガバナンスのための人工知能の民主化
Democratising Artificial Intelligence for Pandemic Preparedness and Global Governance in Latin American and Caribbean Countries ( http://arxiv.org/abs/2409.14181v1 ) ライセンス: Link先を確認 | Andre de Carvalho, Robson Bonidia, Jude Dzevela Kong, Mariana Dauhajre, Claudio Struchiner, Guilherme Goedert, Peter F. Stadler, Maria Emilia Walter, Danilo Sanches, Troy Day, Marcia Castro, John Edmunds, Manuel Colome-Hidalgo, Demian Arturo Herrera Morban, Edian F. Franco, Cesar Ugarte-Gil, Patricia Espinoza-Lopez, Gabriel Carrasco-Escobar, Ulisses Rocha, | (参考訳) 直接または間接的に伝染する感染症は、疫病やパンデミックの主要な原因の一つである。
その結果、流行の予知、変種の検出、接触の追跡、新薬の発見、誤報との闘いにおいて、いくつかのオープンな課題が存在する。
人工知能(AI)はこれらのシナリオに対処するためのツールを提供し、新型コロナウイルス(COVID-19)のパンデミックとの戦いにおける有望な結果を示す。
AIはますます社会の様々な側面に統合されつつある。
しかし、AIの利点が公平に分配され、それらが責任を持って使用されることが重要である。
複数の国がこれらの懸念に対処するための規制を作成しているが、AIの無防備な性質は、規制とガイドラインのコンセンサスを定義するためのグローバルな協力を必要としている。
これを踏まえて、パンデミック・エピデミック・プレパーネス・アンド・レスポンス・ネットワーク(AI4PEP)は、グローバル・サウスの16カ国で16のプロジェクトからなるイニシアチブを策定した。
この意見は、ラテンアメリカとカリブ海(LAC)諸国における私たちのブランチを紹介し、バイオテクノロジーの観点から、LACにおけるAIガバナンスについて議論する。
LACにおける我々のネットワークは、特に低所得国や中所得国における感染症対策に役立つ可能性が高く、彼らのコミュニティの健康と幸福を改善するためにAI技術が広く使われる機会を生み出している。
Infectious diseases, transmitted directly or indirectly, are among the leading causes of epidemics and pandemics. Consequently, several open challenges exist in predicting epidemic outbreaks, detecting variants, tracing contacts, discovering new drugs, and fighting misinformation. Artificial Intelligence (AI) can provide tools to deal with these scenarios, demonstrating promising results in the fight against the COVID-19 pandemic. AI is becoming increasingly integrated into various aspects of society. However, ensuring that AI benefits are distributed equitably and that they are used responsibly is crucial. Multiple countries are creating regulations to address these concerns, but the borderless nature of AI requires global cooperation to define regulatory and guideline consensus. Considering this, The Global South AI for Pandemic & Epidemic Preparedness & Response Network (AI4PEP) has developed an initiative comprising 16 projects across 16 countries in the Global South, seeking to strengthen equitable and responsive public health systems that leverage Southern-led responsible AI solutions to improve prevention, preparedness, and response to emerging and re-emerging infectious disease outbreaks. This opinion introduces our branches in Latin American and Caribbean (LAC) countries and discusses AI governance in LAC in the light of biotechnology. Our network in LAC has high potential to help fight infectious diseases, particularly in low- and middle-income countries, generating opportunities for the widespread use of AI techniques to improve the health and well-being of their communities. | 翻訳日:2024-11-06 23:48:26 公開日:2024-09-21 |
# 自動車用量子コンピューティング:アルゴリズムから応用まで
Quantum Computing for Automotive Applications: From Algorithms to Applications ( http://arxiv.org/abs/2409.14183v1 ) ライセンス: Link先を確認 | BMW Group Quantum Team, Johannes Klepsch, Jernej Rudi Finžgar, Florian Kiwit, Leonhard Hölscher, Marvin Erdmann, Lukas Müller, Chandan Kumar, Andre Luckow, | (参考訳) 量子コンピューティングは、サプライチェーンの最適化や製造から自動車工学まで、多くの計算上の課題を抱える自動車産業など、様々な産業に影響を与える可能性がある。
この章では、自動車のバリューチェーンにおける効率性、正確性、スケーラビリティを高めるために、最先端の量子アルゴリズムを調査します。
量子最適化、機械学習、数値および化学シミュレーションの最近の進歩を探求し、その可能性と限界を強調した。
我々は、短期および耐故障性アルゴリズムにおける鍵となる課題と、産業アプリケーションにおけるそれらの実践的利用を識別し、議論する。
量子アルゴリズムは多くのアプリケーション領域においてポテンシャルを示すが、現在のノイズの多い中間スケールの量子ハードウェアはスケールし、したがってビジネス上の利点がある。
長期的には、フォールトトレラントシステムは理論的なスピードアップを約束するが、ハードウェアとソフトウェアのさらなる進歩も必要である。
という。
エラー訂正とデータ読み込みに関連する)。
この進歩により、最終的には重要な実用的利益が生まれると期待している。
Quantum computing could impact various industries, with the automotive industry with many computational challenges, from optimizing supply chains and manufacturing to vehicle engineering, being particularly promising. This chapter investigates state-of-the-art quantum algorithms to enhance efficiency, accuracy, and scalability across the automotive value chain. We explore recent advances in quantum optimization, machine learning, and numerical and chemistry simulations, highlighting their potential and limitations. We identify and discuss key challenges in near-term and fault-tolerant algorithms and their practical use in industrial applications. While quantum algorithms show potential in many application domains, current noisy intermediate-scale quantum hardware limits scale and, thus, business benefits. In the long term, fault-tolerant systems promise theoretical speedups; however, they also require further progress in hardware and software (e.\,g., related to error correction and data loading). We expect that with this progress, significant practical benefits will emerge eventually. | 翻訳日:2024-11-06 23:48:26 公開日:2024-09-21 |
# 外界塗布によるコンテンツ認識タイル生成
Content-aware Tile Generation using Exterior Boundary Inpainting ( http://arxiv.org/abs/2409.14184v1 ) ライセンス: Link先を確認 | Sam Sartor, Pieter Peers, | (参考訳) 本稿では,タイル状画像集合を生成するための新しいフレキシブルな学習手法を提案する。
提案手法は,高度に多様性を示す相互タイル型画像の集合をサポートする,単純な自己タイル化を超越した手法である。
異質な画像からのパッチの明示的なコピーを前もって、コンテンツから構造を分離する。
代わりに、大規模な事前学習拡散モデルに埋め込まれた自然画像やテクスチャの事前知識を活用して、外界条件に制約されたタイル生成と、その内容を特定するためのテキストプロンプトを導出する。
外部境界条件を慎重に設計し,選択することにより,タイル生成過程を塗装問題として再設計し,既存の拡散型塗装モデルをカスタムトレーニングセットでモデルを再トレーニングすることなく直接使用することができる。
テキストプロンプトのみから, Wang tiles などの異なるタイリング方式におけるコンテンツ対応タイル生成手法の柔軟性と有効性を示す。
さらに,既存の Wang タイル変種よりもテクスチャの連続性と多様性を向上する新しい Dual Wang タイリング方式を提案する。
We present a novel and flexible learning-based method for generating tileable image sets. Our method goes beyond simple self-tiling, supporting sets of mutually tileable images that exhibit a high degree of diversity. To promote diversity we decouple structure from content by foregoing explicit copying of patches from an exemplar image. Instead we leverage the prior knowledge of natural images and textures embedded in large-scale pretrained diffusion models to guide tile generation constrained by exterior boundary conditions and a text prompt to specify the content. By carefully designing and selecting the exterior boundary conditions, we can reformulate the tile generation process as an inpainting problem, allowing us to directly employ existing diffusion-based inpainting models without the need to retrain a model on a custom training set. We demonstrate the flexibility and efficacy of our content-aware tile generation method on different tiling schemes, such as Wang tiles, from only a text prompt. Furthermore, we introduce a novel Dual Wang tiling scheme that provides greater texture continuity and diversity than existing Wang tile variants. | 翻訳日:2024-11-06 23:48:26 公開日:2024-09-21 |
# ヒューマン・タスク・ソルビング・トラジェクトリの対応と視認
Addressing and Visualizing Misalignments in Human Task-Solving Trajectories ( http://arxiv.org/abs/2409.14191v1 ) ライセンス: Link先を確認 | Sejin Kim, Hosung Lee, Sundong Kim, | (参考訳) AIモデルのトレーニングの有効性は、使用する軌道データの品質、特にモデルの判断と人間の意図との整合性に左右される。
しかし,人間の課題解決トラジェクトリでは,人間の意図と記録されたトラジェクトリとの重大な相違が観察され,AIモデルのトレーニングを損なう可能性がある。
本稿では, 軌跡データにおける不一致の検出・分類を目的とした可視化ツールとヒューリスティックアルゴリズムを提案することにより, これらの不一致の課題に対処する。
ヒューリスティックなアルゴリズムは、現在抽出できない機能のために、事前に定義された人間の意図を必要とするが、可視化ツールは、これらのミスアライメントの性質に関する貴重な洞察を提供する。
これらのミスアライメントを取り除くことで、AIモデルのトレーニングのための軌道データの有用性が大幅に向上することを期待しています。
また,今後の課題として,対象データから人間の意図を正確に抽出し,ユーザ行動とAI学習プロセスの整合性を高めるために,トピックモデリングなどの手法の開発に注力することを提案する。
The effectiveness of AI model training hinges on the quality of the trajectory data used, particularly in aligning the model's decision with human intentions. However, in the human task-solving trajectories, we observe significant misalignments between human intentions and the recorded trajectories, which can undermine AI model training. This paper addresses the challenges of these misalignments by proposing a visualization tool and a heuristic algorithm designed to detect and categorize discrepancies in trajectory data. Although the heuristic algorithm requires a set of predefined human intentions to function, which we currently cannot extract, the visualization tool offers valuable insights into the nature of these misalignments. We expect that eliminating these misalignments could significantly improve the utility of trajectory data for AI model training. We also propose that future work should focus on developing methods, such as Topic Modeling, to accurately extract human intentions from trajectory data, thereby enhancing the alignment between user actions and AI learning processes. | 翻訳日:2024-11-06 23:48:26 公開日:2024-09-21 |
# 南アジアの医療施設におけるギャップの評価と識別のためのデータ駆動型アプローチ
Data-Driven Approach to assess and identify gaps in healthcare set up in South Asia ( http://arxiv.org/abs/2409.14194v1 ) ライセンス: Link先を確認 | Rusham Elahi, Zia Tahseen, Tehreem Fatima, Syed Wafa Zahra, Hafiz Muhammad Abubakar, Tehreem Zafar, Aqs Younas, Muhammad Talha Quddoos, Usman Nazir, | (参考訳) プライマリヘルスケアは、普遍的な健康保険を達成するための重要な戦略である。
東南アジア諸国は、ヘルス・フィナンシング(Health Financing)、ヘルス・サービス・デリバリー(Health Service Delivery)、ヒューマン・リソース・フォー・ヘルス(Human Resource for Health)、ヘルス・インフォメーション・システム(Health Information Systems)、ガバナンス(Governance)、Essential Medicines and Technology(Essential Medicines and Technology)、クロスセクター・リンクジュ(Cross-Sectoral Linkages)の6つの柱を用いて、WHOの健康システム・フレームワークに則って設計された国固有の政策を通じて、彼らのプライマリ・ヘルスケア・システムの改善に取り組んでいる。
医療施設の現在のアクセシビリティと労働力の可利用性の測定は、発展途上国における医療水準の向上と普遍的な健康保険の達成に不可欠である。
データ駆動型監視アプローチは、迅速で信頼性があり、地理的にスケーラブルなソリューションで理解するために必要である。
a) 地域や地域が最も不平等なアクセスの危険に晒されている地域
ロ 健康アクセスの障壁が存在すること、及び
c) 個々のコミュニティが直面している特定の課題に合わせた方法で克服する方法。
我々は,地球観測(EO)技術における現在のブレークスルーを活用することを提案する。この技術は,正常および危機期には,ワクチンやその他の介入がすべての人,特に最大のニーズに届くように,適切なアクセス計画と資源配分を行うために必要な,正確で最新の,公開可能な,信頼性の高いデータを生成する能力を提供する。
これは各国が協力して、健康政策と介入を形作るための証拠に基づく解決策を特定し、地域におけるイノベーションと研究を推進する必要がある。
Primary healthcare is a crucial strategy for achieving universal health coverage. South Asian countries are working to improve their primary healthcare system through their country specific policies designed in line with WHO health system framework using the six thematic pillars: Health Financing, Health Service delivery, Human Resource for Health, Health Information Systems, Governance, Essential Medicines and Technology, and an addition area of Cross-Sectoral Linkages. Measuring the current accessibility of healthcare facilities and workforce availability is essential for improving healthcare standards and achieving universal health coverage in developing countries. Data-driven surveillance approaches are required that can provide rapid, reliable, and geographically scalable solutions to understand a) which communities and areas are most at risk of inequitable access and when, b) what barriers to health access exist, and c) how they can be overcome in ways tailored to the specific challenges faced by individual communities. We propose to harness current breakthroughs in Earth-observation (EO) technology, which provide the ability to generate accurate, up-to-date, publicly accessible, and reliable data, which is necessary for equitable access planning and resource allocation to ensure that vaccines, and other interventions reach everyone, particularly those in greatest need, during normal and crisis times. This requires collaboration among countries to identify evidence based solutions to shape health policy and interventions, and drive innovations and research in the region. | 翻訳日:2024-11-06 23:48:26 公開日:2024-09-21 |
# LLM時代の会話分析の意義:課題・技術・動向調査
The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends ( http://arxiv.org/abs/2409.14195v1 ) ライセンス: Link先を確認 | Xinghua Zhang, Haiyang Yu, Yongbin Li, Minzheng Wang, Longze Chen, Fei Huang, | (参考訳) 大規模言語モデル(LLM)の時代には、言語UIの急速な開発傾向により、大量の会話ログが蓄積される。
会話分析(CA)は、会話データから重要な情報を発見し分析し、手作業のプロセスを合理化し、ビジネスの洞察と意思決定をサポートする。
行動可能な洞察を抽出し、エンパワーメントを促進するためのCAの必要性は、ますます顕著になってきており、広く注目を集めている。
しかし、CAの明確なスコープが欠如しているため、様々な技術が分散し、ビジネスアプリケーションを強化するための体系的な技術シナジーを形成するのは難しい。
本稿では,CAタスクの徹底的なレビューとシステム化を行い,既存の業務を要約する。
具体的には、この分野における断片的・カオス的な景観に直面するCAタスクを正式に定義し、会話シーンの再構築から深い帰属分析まで、CAの4つの重要なステップを導出し、ターゲットトレーニングを行い、最終的に特定の目標を達成するためのターゲットトレーニングに基づいて会話を生成する。
さらに、関連するベンチマークを紹介し、潜在的な課題について議論し、業界と学界の両方で今後の方向性を指摘する。
近年の進歩をみると、研究とビジネスの間にかなりのギャップがある浅層会話要素の分析に依然として努力が集中していることが明らかであり、最近の研究は、高度で高レベルの因果性や戦略的タスクの研究に向けた傾向を示している。
分析されたエクスペリエンスと洞察は、会話ログをターゲットとするビジネスオペレーションにおいて、必然的に広範なアプリケーション価値を持つ。
In the era of large language models (LLMs), a vast amount of conversation logs will be accumulated thanks to the rapid development trend of language UI. Conversation Analysis (CA) strives to uncover and analyze critical information from conversation data, streamlining manual processes and supporting business insights and decision-making. The need for CA to extract actionable insights and drive empowerment is becoming increasingly prominent and attracting widespread attention. However, the lack of a clear scope for CA leads to a dispersion of various techniques, making it difficult to form a systematic technical synergy to empower business applications. In this paper, we perform a thorough review and systematize CA task to summarize the existing related work. Specifically, we formally define CA task to confront the fragmented and chaotic landscape in this field, and derive four key steps of CA from conversation scene reconstruction, to in-depth attribution analysis, and then to performing targeted training, finally generating conversations based on the targeted training for achieving the specific goals. In addition, we showcase the relevant benchmarks, discuss potential challenges and point out future directions in both industry and academia. In view of current advancements, it is evident that the majority of efforts are still concentrated on the analysis of shallow conversation elements, which presents a considerable gap between the research and business, and with the assist of LLMs, recent work has shown a trend towards research on causality and strategic tasks which are sophisticated and high-level. The analyzed experiences and insights will inevitably have broader application value in business operations that target conversation logs. | 翻訳日:2024-11-06 23:48:26 公開日:2024-09-21 |
# 合成データによる従業員行動分析の促進:組織効率向上のためのABM, GAN, 統計モデルを活用する
Advancing Employee Behavior Analysis through Synthetic Data: Leveraging ABMs, GANs, and Statistical Models for Enhanced Organizational Efficiency ( http://arxiv.org/abs/2409.14197v1 ) ライセンス: Link先を確認 | Rakshitha Jayashankar, Mahesh Balan, | (参考訳) 今日のデータ駆動型企業環境の成功は、従業員の振る舞いを深く理解する必要がある。
企業は従業員満足度の向上、アウトプットの向上、ワークフローの最適化を目指している。
この研究は、従業員のパフォーマンス、柔軟性、協力、チームのダイナミクスを包括的に理解するための強力なツールである、合成データの作成に重点を置いています。
合成データは、エージェントベースモデル(ABM)やGAN(Generative Adversarial Networks)、統計モデルといった最先端の手法によって、個人のプライバシを保護しながら、従業員の活動の詳細な画像を提供する。
複数の状況の作成を通じて、この方法は、チームワークの増加、適応性の向上、全体的な生産性の向上に関する洞察に富んだ視点を提供する。
本研究では, 専門分野から, 従業員の行動調査や管理効率の向上に欠かせない資源へと, 合成データがいかに進化してきたかを検討する。
キーワード:エージェントベースモデル、ジェネレーティブ・アドバイサル・ネットワーク、ワークフロー最適化、組織的成功
Success in todays data-driven corporate climate requires a deep understanding of employee behavior. Companies aim to improve employee satisfaction, boost output, and optimize workflow. This research study delves into creating synthetic data, a powerful tool that allows us to comprehensively understand employee performance, flexibility, cooperation, and team dynamics. Synthetic data provides a detailed and accurate picture of employee activities while protecting individual privacy thanks to cutting-edge methods like agent-based models (ABMs), Generative Adversarial Networks (GANs), and statistical models. Through the creation of multiple situations, this method offers insightful viewpoints regarding increasing teamwork, improving adaptability, and accelerating overall productivity. We examine how synthetic data has evolved from a specialized field to an essential resource for researching employee behavior and enhancing management efficiency. Keywords: Agent-Based Model, Generative Adversarial Network, workflow optimization, organizational success | 翻訳日:2024-11-06 23:48:25 公開日:2024-09-21 |
# Sinkhorn Regularized Adversarial Network for Image Guided DEM Super- resolution using Frequency Selective Hybrid Graph Transformer (特集:一般セッション)
A Sinkhorn Regularized Adversarial Network for Image Guided DEM Super-resolution using Frequency Selective Hybrid Graph Transformer ( http://arxiv.org/abs/2409.14198v1 ) ライセンス: Link先を確認 | Subhajit Paul, Ashutosh Gupta, | (参考訳) DEM(Digital Elevation Model)は、リモートセンシング(RS)ドメインにおいて、表面標高に関する様々なアプリケーションを分析するための重要な側面である。
本稿では、DMRB(Densely connected Multi-Residual Block)とM-FSGA(M-headed Frequency Selective Graph Attention)からなる新しいハイブリッドトランスフォーマモデルを導入することにより、HRマルチスペクトル(MX)衛星画像を用いた高分解能(HR)DEMの生成をガイドとして扱う。
この過程を迅速に制御するために、MXガイドの条件付注意点として識別器空間マップの概念を利用する。
さらに,Sinkhorn 距離を古典的 GAN で最適化する手法を提案する。
この点に関して、勾配問題と数値収束の両面から、より良い性能の理論的および実証的なサブストラテジを提供する。
4種類のDEMデータセットに対する実験から,利用可能なベースライン法と定性的,定量的な比較を行った結果,提案モデルの性能は,よりシャープな細部と最小限の誤差で,他のモデルよりも優れていることが示された。
Digital Elevation Model (DEM) is an essential aspect in the remote sensing (RS) domain to analyze various applications related to surface elevations. Here, we address the generation of high-resolution (HR) DEMs using HR multi-spectral (MX) satellite imagery as a guide by introducing a novel hybrid transformer model consisting of Densely connected Multi-Residual Block (DMRB) and multi-headed Frequency Selective Graph Attention (M-FSGA). To promptly regulate this process, we utilize the notion of discriminator spatial maps as the conditional attention to the MX guide. Further, we present a novel adversarial objective related to optimizing Sinkhorn distance with classical GAN. In this regard, we provide both theoretical and empirical substantiation of better performance in terms of vanishing gradient issues and numerical convergence. Based on our experiments on 4 different DEM datasets, we demonstrate both qualitative and quantitative comparisons with available baseline methods and show that the performance of our proposed model is superior to others with sharper details and minimal errors. | 翻訳日:2024-11-06 23:48:25 公開日:2024-09-21 |
# 記憶レンズを用いたデータ中心型NLPバックドアディフェンス
Data-centric NLP Backdoor Defense from the Lens of Memorization ( http://arxiv.org/abs/2409.14200v1 ) ライセンス: Link先を確認 | Zhenting Wang, Zhizhi Wang, Mingyu Jin, Mengnan Du, Juan Zhai, Shiqing Ma, | (参考訳) バックドア攻撃は、DNNベースの言語モデルの信頼性に対する深刻な脅威である。
本稿では,まず,単語,フレーズ,構造,スタイルなど,よりきめ細かな文要素から,言語モデルの暗記の定義を拡張した上で,言語モデルバックドアが要素単位の暗記の一種であることを指摘する。
さらなる分析により,このような記憶の強さはトレーニングデータセットにおける重複要素の頻度と正の相関関係があることが判明した。
結果として、バックドア攻撃を成功させるためには、重複文要素が必要である。
そこで本研究では,データ中心の防衛手法を提案する。
まず、記憶可能な要素、すなわち重複した要素を見つけることによって、トレーニングデータ中のトリガー候補を検出し、次に、候補がバックドアの動作(すなわち悪意のある要素)を活性化できるかどうかをテストすることによって実際のトリガーを確認する。
以上の結果から,NLPバックドアに対する防御において,本手法は最先端の防御よりも優れていたことが示唆された。
Backdoor attack is a severe threat to the trustworthiness of DNN-based language models. In this paper, we first extend the definition of memorization of language models from sample-wise to more fine-grained sentence element-wise (e.g., word, phrase, structure, and style), and then point out that language model backdoors are a type of element-wise memorization. Through further analysis, we find that the strength of such memorization is positively correlated to the frequency of duplicated elements in the training dataset. In conclusion, duplicated sentence elements are necessary for successful backdoor attacks. Based on this, we propose a data-centric defense. We first detect trigger candidates in training data by finding memorizable elements, i.e., duplicated elements, and then confirm real triggers by testing if the candidates can activate backdoor behaviors (i.e., malicious elements). Results show that our method outperforms state-of-the-art defenses in defending against different types of NLP backdoors. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# LATTE:反復リファインメントによるテーブルおよびフォーミュラのラテックス認識の改善
LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement ( http://arxiv.org/abs/2409.14201v1 ) ライセンス: Link先を確認 | Nan Jiang, Shanchao Liang, Chengxiao Wang, Jiannan Wang, Lin Tan, | (参考訳) Portable Document Format (PDF) ファイルは、科学研究、法的文書、税情報を保存するために主に使われている。
LaTeXはPDFドキュメントを作成するための人気のあるアプリケーションである。
LaTeXの利点はありますが、LaTeXはWYSWYGではありません。
このギャップにより、PDF画像から公式やテーブルのLaTeXソースの変更やエクスポートが難しくなり、既存の作業は制限されている。
まず、先行研究は1回の反復でLaTeXソースを生成し、複雑なLaTeX公式と競合する。
第2に、既存の研究は主に公式のLaTeXソースを認識して抽出する。
本稿では,LaTeX認識のための最初の反復改良フレームワークであるLATTEを提案する。
具体的には、抽出したLaTeXソースの1対の描画画像と予測された正しい画像との差を比較・ピンポイントするデルタビューをフィードバックとして提案する。
このようなデルタビューフィードバックにより,誤り認識の欠陥部分をより正確に局所化し,誤り抽出をより正確に修復するLaTeX精細化モデルを実現することができる。
LATTEはLaTeX式とテーブルの両方のLaTeXソース抽出精度を改善し、既存の技術とGPT-4Vの精度を少なくとも7.07%向上させ、46.08%(フォーミュラ)と25.51%(テーブル)を成功させた。
Portable Document Format (PDF) files are dominantly used for storing and disseminating scientific research, legal documents, and tax information. LaTeX is a popular application for creating PDF documents. Despite its advantages, LaTeX is not WYSWYG -- what you see is what you get, i.e., the LaTeX source and rendered PDF images look drastically different, especially for formulae and tables. This gap makes it hard to modify or export LaTeX sources for formulae and tables from PDF images, and existing work is still limited. First, prior work generates LaTeX sources in a single iteration and struggles with complex LaTeX formulae. Second, existing work mainly recognizes and extracts LaTeX sources for formulae; and is incapable or ineffective for tables. This paper proposes LATTE, the first iterative refinement framework for LaTeX recognition. Specifically, we propose delta-view as feedback, which compares and pinpoints the differences between a pair of rendered images of the extracted LaTeX source and the expected correct image. Such delta-view feedback enables our fault localization model to localize the faulty parts of the incorrect recognition more accurately and enables our LaTeX refinement model to repair the incorrect extraction more accurately. LATTE improves the LaTeX source extraction accuracy of both LaTeX formulae and tables, outperforming existing techniques as well as GPT-4V by at least 7.07% of exact match, with a success refinement rate of 46.08% (formula) and 25.51% (table). | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# マイニングの因果性:AIによる計測変数の探索
Mining Causality: AI-Assisted Search for Instrumental Variables ( http://arxiv.org/abs/2409.14202v1 ) ライセンス: Link先を確認 | Sukjin Han, | (参考訳) インストゥルメンタル変数(IVs)法は因果推論の先導的実証戦略である。
IVを見つけることはヒューリスティックで創造的なプロセスであり、その妥当性(特に排他的制限)を正当化することは、主に修辞的である。
我々は,人間の研究者が行うような物語や反実的推論を通じて,大きな言語モデル (LLM) を用いて新たなIVを探索することを提案する。
しかし、大きな違いは、LLMがこの過程を指数関数的に加速し、非常に大きな探索空間を探索できる点である。
有効なIVを探索するためのプロンプトを構築する方法を示す。
我々は、多段階のプロンプトは有用であり、ロールプレイングプロンプトは、経済エージェントの内因性決定を模倣するのに適していると主張している。
本稿では,経済学においてよく知られた3つの例,すなわち学校への復帰,生産機能,ピアエフェクトに適用する。
そして、我々の戦略を発見に拡張する
一 回帰及び差分差分における制御変数
(ii)回帰不連続設計における変数の実行。
The instrumental variables (IVs) method is a leading empirical strategy for causal inference. Finding IVs is a heuristic and creative process, and justifying its validity (especially exclusion restrictions) is largely rhetorical. We propose using large language models (LLMs) to search for new IVs through narratives and counterfactual reasoning, similar to how a human researcher would. The stark difference, however, is that LLMs can accelerate this process exponentially and explore an extremely large search space. We demonstrate how to construct prompts to search for potentially valid IVs. We argue that multi-step prompting is useful and role-playing prompts are suitable for mimicking the endogenous decisions of economic agents. We apply our method to three well-known examples in economics: returns to schooling, production functions, and peer effects. We then extend our strategy to finding (i) control variables in regression and difference-in-differences and (ii) running variables in regression discontinuity designs. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# UniMo: ネットワークリトレーニングなしの医用画像のユニバーサルモーション補正
UniMo: Universal Motion Correction For Medical Images without Network Retraining ( http://arxiv.org/abs/2409.14204v1 ) ライセンス: Link先を確認 | Jian Wang, Razieh Faghihpirayesh, Danny Joca, Polina Golland, Ali Gholipour, | (参考訳) 本稿では,深層ニューラルネットワークを利用したユニバーサルモーション補正(UniMo)フレームワークを提案する。
提案手法では,新しい画像モダリティの反復推論や再学習を必要とする現行モデルの限界を克服し,同変フィルタを用いた高度なニューラルネットワークアーキテクチャを採用する。
UniMoは単一のモダリティでのワンタイムトレーニングを可能にし、複数の未確認画像モダリティをまたいだ推論の安定性と適応性を維持している。
画像の外観変化に拘わらず、動き補正の精度を忠実に向上する、形状と画像の両方からマルチモーダル知識を統合する共同学習フレームワークを開発した。
UniMoは、オブジェクトの変形や幾何学的歪みによって生じる局所的な変形に対処することで、グローバルな動き補正の堅牢性を高める幾何学的変形増強器を備え、トレーニングプロセスを改善するために拡張データを生成する。
実験の結果,UniMoが既存の動き補正法を精度で超越していることが判明した。
運動補正のための包括的なソリューションを提供することで、UniMoは特に胎児画像のような広範囲の運動を伴う挑戦的なアプリケーションにおいて、医療画像の大幅な進歩を示す。
この作業のコードは、https://github.com/IntelligentImaging/UNIMO/.comで公開されている。
In this paper, we introduce a Universal Motion Correction (UniMo) framework, leveraging deep neural networks to tackle the challenges of motion correction across diverse imaging modalities. Our approach employs advanced neural network architectures with equivariant filters, overcoming the limitations of current models that require iterative inference or retraining for new image modalities. UniMo enables one-time training on a single modality while maintaining high stability and adaptability for inference across multiple unseen image modalities. We developed a joint learning framework that integrates multimodal knowledge from both shape and images that faithfully improve motion correction accuracy despite image appearance variations. UniMo features a geometric deformation augmenter that enhances the robustness of global motion correction by addressing any local deformations whether they are caused by object deformations or geometric distortions, and also generates augmented data to improve the training process. Our experimental results, conducted on various datasets with four different image modalities, demonstrate that UniMo surpasses existing motion correction methods in terms of accuracy. By offering a comprehensive solution to motion correction, UniMo marks a significant advancement in medical imaging, especially in challenging applications with wide ranges of motion, such as fetal imaging. The code for this work is available online, https://github.com/IntelligentImaging/UNIMO/. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# エゴセントリックゾーン認識環境における行動認識
Egocentric zone-aware action recognition across environments ( http://arxiv.org/abs/2409.14205v1 ) ライセンス: Link先を確認 | Simone Alberto Peirone, Gabriele Goletto, Mirco Planamente, Andrea Bottino, Barbara Caputo, Giuseppe Averta, | (参考訳) 人間の活動は、シンクで何かを洗うなど、行動とそれらが行われる場所の間に強い相関関係を示す。
より具体的には、日常生活環境において特定の場所(以下、活動中心のゾーン)を特定できる。
彼らの知識は、人間の活動を認識するビジョンモデルに優先する先駆者として機能する。
しかし、これらのゾーンの出現はシーン固有のものであり、この前の情報の未知の領域や領域への転送可能性を制限する。
この問題は、環境がほとんどのイメージを取り込み、アクションをコンテキストから分離することがさらに困難になる、エゴセントリックなビジョンに特に関係している。
本稿では,活動中心領域の普遍的,ドメインに依存しない表現から,活動中心領域の領域固有の出現を分離することの重要性を論じ,後者がエゴセントリック行動認識(EAR)モデルのドメイン間移動性を改善する方法を示す。
EPIC-Kitchens-100およびArgo1Mデータセット上でのソリューションの検証
Human activities exhibit a strong correlation between actions and the places where these are performed, such as washing something at a sink. More specifically, in daily living environments we may identify particular locations, hereinafter named activity-centric zones, which may afford a set of homogeneous actions. Their knowledge can serve as a prior to favor vision models to recognize human activities. However, the appearance of these zones is scene-specific, limiting the transferability of this prior information to unfamiliar areas and domains. This problem is particularly relevant in egocentric vision, where the environment takes up most of the image, making it even more difficult to separate the action from the context. In this paper, we discuss the importance of decoupling the domain-specific appearance of activity-centric zones from their universal, domain-agnostic representations, and show how the latter can improve the cross-domain transferability of Egocentric Action Recognition (EAR) models. We validate our solution on the EPIC-Kitchens-100 and Argo1M datasets | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# 宇宙飛行手順のためのAIアシスタント: 生成事前訓練されたトランスフォーマーと知識グラフの検索拡張生成と拡張現実キューの組み合わせ
AI Assistants for Spaceflight Procedures: Combining Generative Pre-Trained Transformer and Retrieval-Augmented Generation on Knowledge Graphs With Augmented Reality Cues ( http://arxiv.org/abs/2409.14206v1 ) ライセンス: Link先を確認 | Oliver Bensch, Leonie Bensch, Tommy Nilsson, Florian Saling, Bernd Bewer, Sophie Jentzsch, Tobias Hecking, J. Nathan Kutz, | (参考訳) 本稿では、国際宇宙ステーション(ISS)やルナーゲートウェイステーションなどで宇宙飛行士を支援するために設計された知的パーソナルアシスタント(IPA)CORE(Checklist Organizer for Research and Exploration)の能力と可能性について述べる。
本稿では,オフライン操作が可能な信頼性とフレキシブルなアシスタントの重要性を考察し,チェックイン情報を直感的に表示するための拡張現実要素を用いた音声視覚インタラクションの有用性を強調した。
宇宙運用におけるIPAの設計に対する現在のアプローチは、これらの基準を満たすには不十分である、と我々は主張する。
そこで,我々は,知識グラフ(KG),検索型拡張生成(RAG)をGPT(Generative Pre-Trained Transformer)とAR(Augmented Reality)要素に組み合わせたアシスタントとしてCOREを提案する。
This paper describes the capabilities and potential of the intelligent personal assistant (IPA) CORE (Checklist Organizer for Research and Exploration), designed to support astronauts during procedures onboard the International Space Station (ISS), the Lunar Gateway station, and beyond. We reflect on the importance of a reliable and flexible assistant capable of offline operation and highlight the usefulness of audiovisual interaction using augmented reality elements to intuitively display checklist information. We argue that current approaches to the design of IPAs in space operations fall short of meeting these criteria. Therefore, we propose CORE as an assistant that combines Knowledge Graphs (KGs), Retrieval-Augmented Generation (RAG) for a Generative Pre-Trained Transformer (GPT), and Augmented Reality (AR) elements to ensure an intuitive understanding of procedure steps, reliability, offline availability, and flexibility in terms of response style and procedure updates. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# @Bench: 人中心補助技術のためのビジョンランゲージモデルのベンチマーク
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology ( http://arxiv.org/abs/2409.14215v1 ) ライセンス: Link先を確認 | Xin Jiang, Junwei Zheng, Ruiping Liu, Jiahang Li, Jiaming Zhang, Sven Matthiesen, Rainer Stiefelhagen, | (参考訳) VLM(Vision-Language Models)が進むにつれ、視覚障害者を支援するための人間中心補助技術(AT)が一般化し、複数のタスクを同時に実行できるようになった。
しかし、ATのVLMのベンチマークは未定のままである。
このギャップを埋めるために、私たちはまず新しいATベンチマーク(@Bench.com)を作成します。
PVIによる事前設計のユーザスタディにより、我々のベンチマークには、Panoptic Segmentation、Depth Estimation、OCR(Optical Character Recognition)、 Image Captioning、Visual Question Answering(VQA)の5つの重要な視覚言語タスクが含まれている。
さらに、全てのタスクを同時に処理し、PVIを支援するためにより補助的な機能に拡張できる新しいATモデル(@Model)を提案する。
本フレームワークは,マルチモーダル情報を統合することで,タスク間での卓越したパフォーマンスを示し,PVIに対してより包括的な支援を提供する。
大規模な実験により、我々のフレームワークの有効性と一般化性が証明された。
As Vision-Language Models (VLMs) advance, human-centered Assistive Technologies (ATs) for helping People with Visual Impairments (PVIs) are evolving into generalists, capable of performing multiple tasks simultaneously. However, benchmarking VLMs for ATs remains under-explored. To bridge this gap, we first create a novel AT benchmark (@Bench). Guided by a pre-design user study with PVIs, our benchmark includes the five most crucial vision-language tasks: Panoptic Segmentation, Depth Estimation, Optical Character Recognition (OCR), Image Captioning, and Visual Question Answering (VQA). Besides, we propose a novel AT model (@Model) that addresses all tasks simultaneously and can be expanded to more assistive functions for helping PVIs. Our framework exhibits outstanding performance across tasks by integrating multi-modal information, and it offers PVIs a more comprehensive assistance. Extensive experiments prove the effectiveness and generalizability of our framework. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# R-AIF: アクティブ推論と世界モデルを持つ画素からスパース・リワードロボットタスクを解く
R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models ( http://arxiv.org/abs/2409.14216v1 ) ライセンス: Link先を確認 | Viet Dung Nguyen, Zhizhuo Yang, Christopher L. Buckley, Alexander Ororbia, | (参考訳) マルコフ決定プロセス(MDP)におけるアクティブ推論(AIF)の有用性を示す有望な結果が得られたが、部分的に観測可能なマルコフ決定プロセス(PMMDP)の形式をとる環境や問題においてAIFモデルを構築する作業は比較的少ない。
POMDPのシナリオでは、エージェントは、画像中のピクセルなどの生の知覚観測から、観測されていない環境状態を推測しなければならない。
加えて、POMDP中心制御の最も難しい形態である、疎い報酬信号の下での連続的な作用空間POMDPを調べる際には、より少ない作業が存在する。
本研究では、エージェントがスパース・リワード、継続的なアクション、目標に基づくロボット制御POMDP環境において、新しい優先学習手法と自己修正スケジュールを導入することでAIFモデリングパラダイムに直面する課題に対処する。
実験により,我々のエージェントは, 累積報酬, 相対安定性, 成功率の観点から, 最先端モデルよりも優れた性能を提供することを示した。
この作業をサポートするコードはhttps://github.com/NACLab/robust-active-inferenceにある。
Although research has produced promising results demonstrating the utility of active inference (AIF) in Markov decision processes (MDPs), there is relatively less work that builds AIF models in the context of environments and problems that take the form of partially observable Markov decision processes (POMDPs). In POMDP scenarios, the agent must infer the unobserved environmental state from raw sensory observations, e.g., pixels in an image. Additionally, less work exists in examining the most difficult form of POMDP-centered control: continuous action space POMDPs under sparse reward signals. In this work, we address issues facing the AIF modeling paradigm by introducing novel prior preference learning techniques and self-revision schedules to help the agent excel in sparse-reward, continuous action, goal-based robotic control POMDP environments. Empirically, we show that our agents offer improved performance over state-of-the-art models in terms of cumulative rewards, relative stability, and success rate. The code in support of this work can be found at https://github.com/NACLab/robust-active-inference. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# MEGA-PT - アジャイル導入テストのためのメタゲームフレームワーク
MEGA-PT: A Meta-Game Framework for Agile Penetration Testing ( http://arxiv.org/abs/2409.14219v1 ) ライセンス: Link先を確認 | Yunfei Ge, Quanyan Zhu, | (参考訳) 侵入テストは、サイバーセキュリティのインシデントがエスカレートする中で、積極的に防御する重要な手段である。
従来の手作業による浸透試験手法は、時間がかかり、リソースが集中的であり、人的ミスを起こしやすい。
自動浸透テストの現在の傾向は非現実的であり、次元性の呪い、スケーラビリティの問題、ネットワーク変更への適応性の欠如といった重大な課題に直面している。
これらの問題に対処するため,我々は,ノードレベルのローカルインタラクションのためのマイクロ戦術ゲームと,ネットワーク規模のアタックチェーンのためのマクロ戦略を特徴とするメタゲーム浸透テストフレームワークMEGA-PTを提案する。
マイクロおよびマクロレベルのモデリングは、分散、適応、協調、高速な浸透テストを可能にする。
MEGA-PTは、最適なローカル浸透計画、紫のチーム化ソリューション、リスクアセスメントなど、さまざまなセキュリティスキームに対するアジャイルソリューションを提供し、将来の自動浸透テストの指針となる基本原則を提供する。
本実験は,局地的およびネットワーク的両レベルでの防御戦略の改善と変化への適応性を提供することにより,我々のモデルの有効性と俊敏性を示すものである。
Penetration testing is an essential means of proactive defense in the face of escalating cybersecurity incidents. Traditional manual penetration testing methods are time-consuming, resource-intensive, and prone to human errors. Current trends in automated penetration testing are also impractical, facing significant challenges such as the curse of dimensionality, scalability issues, and lack of adaptability to network changes. To address these issues, we propose MEGA-PT, a meta-game penetration testing framework, featuring micro tactic games for node-level local interactions and a macro strategy process for network-wide attack chains. The micro- and macro-level modeling enables distributed, adaptive, collaborative, and fast penetration testing. MEGA-PT offers agile solutions for various security schemes, including optimal local penetration plans, purple teaming solutions, and risk assessment, providing fundamental principles to guide future automated penetration testing. Our experiments demonstrate the effectiveness and agility of our model by providing improved defense strategies and adaptability to changes at both local and network levels. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# 機械学習モデルを用いた冠動脈疾患の予測
Predicting Coronary Heart Disease Using a Suite of Machine Learning Models ( http://arxiv.org/abs/2409.14231v1 ) ライセンス: Link先を確認 | Jamal Al-Karaki, Philip Ilono, Sanchit Baweja, Jalal Naghiyev, Raja Singh Yadav, Muhammad Al-Zafar Khan, | (参考訳) 冠動脈疾患は世界中で何百万人もの人に影響を与えており、医療の分野としてよく研究されている。
心臓病の診断と予測には実用的かつ正確な方法が数多く存在するが、侵襲性、遅延検出、コストといった限界がある。
機械学習アルゴリズムによる教師付き学習は、早期診断の先駆けとなる、低コスト(コンピュータによる)非侵襲的なソリューションを提供する。
本研究では,いくつかのよく知られた手法を適用し,それらの性能を比較検討した。
その結果,予測変数をオーバーサンプリングしたランダムフォレストが84%の精度を示した。
Coronary Heart Disease affects millions of people worldwide and is a well-studied area of healthcare. There are many viable and accurate methods for the diagnosis and prediction of heart disease, but they have limiting points such as invasiveness, late detection, or cost. Supervised learning via machine learning algorithms presents a low-cost (computationally speaking), non-invasive solution that can be a precursor for early diagnosis. In this study, we applied several well-known methods and benchmarked their performance against each other. It was found that Random Forest with oversampling of the predictor variable produced the highest accuracy of 84%. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# ReFine: 再重み付けと微調整による極端事象の時系列予測
ReFine: Boosting Time Series Prediction of Extreme Events by Reweighting and Fine-tuning ( http://arxiv.org/abs/2409.14232v1 ) ライセンス: Link先を確認 | Jimeng Shi, Azam Shirali, Giri Narasimhan, | (参考訳) 極端に重要な出来事は、しばしば衝撃的な出来事を表すためである。
例えば、気候や天候の面では、極端な出来事は大きな嵐、洪水、極端な熱や冷たい波などである。
しかし、それらはしばしばデータ分布の尾にある。
したがって、これらの極端な事象を正確に予測することは、その希薄さと不規則さのために困難である。
以前の研究では、テストデータの分布がトレーニングで使用されるものと大きく異なる場合に発生する、アウト・オブ・ディストリビューション(OOD)問題(out-of-distriion)問題(英語版)とも言及されていた。
本研究では,この課題に取り組むために,再重み付けと微調整という2つの戦略を提案する。
再重み付け(reweighting)は、機械学習モデルに極端なイベントに集中させるための戦略であり、残りのデータと比較して、極端なサンプルの予測エラーにより大きなペナルティを割り当てる重み付き損失関数によって達成される。
データ分布の単純ヒューリスティックスに基づく従来の直感的な再重み付け手法とは異なり、メタラーニングを用いてこれらのペナルティ重みを動的に最適化する。
極端サンプルの性能をさらに高めるため、再重み付けされたモデルから始めて、稀な極端サンプルのみを用いて微調整する。
複数のデータセットに関する広範な実験を通じて、我々のメタラーニングベースの再重み付けが既存のヒューリスティックよりも優れており、微調整戦略はモデルの性能をさらに向上させることができることを実証的に検証する。
さらに重要なのは、これらの2つの戦略がモデルに依存しないことだ。
オープンソースコードは \url{https://github.com/JimengShi/ReFine} で公開されている。
Extreme events are of great importance since they often represent impactive occurrences. For instance, in terms of climate and weather, extreme events might be major storms, floods, extreme heat or cold waves, and more. However, they are often located at the tail of the data distribution. Consequently, accurately predicting these extreme events is challenging due to their rarity and irregularity. Prior studies have also referred to this as the out-of-distribution (OOD) problem, which occurs when the distribution of the test data is substantially different from that used for training. In this work, we propose two strategies, reweighting and fine-tuning, to tackle the challenge. Reweighting is a strategy used to force machine learning models to focus on extreme events, which is achieved by a weighted loss function that assigns greater penalties to the prediction errors for the extreme samples relative to those on the remainder of the data. Unlike previous intuitive reweighting methods based on simple heuristics of data distribution, we employ meta-learning to dynamically optimize these penalty weights. To further boost the performance on extreme samples, we start from the reweighted models and fine-tune them using only rare extreme samples. Through extensive experiments on multiple data sets, we empirically validate that our meta-learning-based reweighting outperforms existing heuristic ones, and the fine-tuning strategy can further increase the model performance. More importantly, these two strategies are model-agnostic, which can be implemented on any type of neural network for time series forecasting. The open-sourced code is available at \url{https://github.com/JimengShi/ReFine}. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# 相互情報による構造学習
Structure Learning via Mutual Information ( http://arxiv.org/abs/2409.14235v1 ) ライセンス: Link先を確認 | Jeremy Nixon, | (参考訳) 本稿では,情報理論,特に相互情報(MI)に基づく機械学習アルゴリズム設計への新たなアプローチを提案する。
我々はMIに基づく特徴量を用いたデータ中の機能的関係の学習と表現のためのフレームワークを提案する。
本手法は,より効率的で一般化可能な学習アルゴリズムを実現することを目的としている。
提案手法の有効性を,合成および実世界のデータセットを用いた実験により実証し,機能分類や回帰,データセット間転送といったタスクの性能向上を示す。
この研究はメタラーニングと自動機械学習の分野の発展に貢献し、アルゴリズムの設計とデータセット分析に情報理論をどのように活用するかの新しい視点を提供し、新しい相互情報理論の基礎を学習アルゴリズムに提案する。
This paper presents a novel approach to machine learning algorithm design based on information theory, specifically mutual information (MI). We propose a framework for learning and representing functional relationships in data using MI-based features. Our method aims to capture the underlying structure of information in datasets, enabling more efficient and generalizable learning algorithms. We demonstrate the efficacy of our approach through experiments on synthetic and real-world datasets, showing improved performance in tasks such as function classification, regression, and cross-dataset transfer. This work contributes to the growing field of metalearning and automated machine learning, offering a new perspective on how to leverage information theory for algorithm design and dataset analysis and proposing new mutual information theoretic foundations to learning algorithms. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# 科学論文の分類のための事例ベース+アンサンブル学習法
An Instance-based Plus Ensemble Learning Method for Classification of Scientific Papers ( http://arxiv.org/abs/2409.14237v1 ) ライセンス: Link先を確認 | Fang Zhang, Shengli Wu, | (参考訳) 近年の科学出版物の指数的成長は、効果的かつ効率的な分類において重要な課題となっている。
本稿では,科学論文を関連研究分野に分類するために,事例ベース学習とアンサンブル学習技術を組み合わせた新しいアプローチを提案する。
研究分野のグループによる分類システムを用いて、まず、複数の典型的なシード論文を手動で各分野に割り当てる。
次に、分類が必要な各紙について、各分野のすべてのシード紙と比較する。
内容と引用は別々に検討される。
次に、アンサンブルに基づく方法を用いて最終決定を行う。
本研究は,DBLPのデータセットを用いて,論文を様々な研究領域に分類する上で,提案手法が効果的かつ効果的であることを示すものである。
また,学術論文の分類において,内容と引用の特徴の両方が有用であることがわかった。
The exponential growth of scientific publications in recent years has posed a significant challenge in effective and efficient categorization. This paper introduces a novel approach that combines instance-based learning and ensemble learning techniques for classifying scientific papers into relevant research fields. Working with a classification system with a group of research fields, first a number of typical seed papers are allocated to each of the fields manually. Then for each paper that needs to be classified, we compare it with all the seed papers in every field. Contents and citations are considered separately. An ensemble-based method is then employed to make the final decision. Experimenting with the datasets from DBLP, our experimental results demonstrate that the proposed classification method is effective and efficient in categorizing papers into various research areas. We also find that both content and citation features are useful for the classification of scientific papers. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# リモートセンシング画像分類のためのクラウド適応例生成
Cloud Adversarial Example Generation for Remote Sensing Image Classification ( http://arxiv.org/abs/2409.14240v1 ) ライセンス: Link先を確認 | Fei Ma, Yuqiang Feng, Fan Zhang, Yongsheng Zhou, | (参考訳) リモートセンシング画像に対する既存の敵攻撃手法の多くは、単に敵の摂動やパッチを付加するだけで、不自然な修正をもたらす。
雲はリモートセンシング画像において一般的な大気効果である。
これらの画像上で雲を生成することは、人間の知覚とよりよく一致した敵の例を生み出すことができる。
本稿では,Perlinノイズに基づくクラウド生成攻撃手法を提案する。
一般的なPerlinノイズベースのクラウド生成はランダムで最適化不可能なプロセスであり、ターゲットモデルへの直接攻撃には使用できない。
我々は、勾配パラメータを入力として取り、異なるスケールでパーリン雑音勾配ベクトルの格子を出力するPerlin Gradient Generator Network (PGGN) を設計する。
勾配ベクトルに基づく一連の計算の後、対応するスケールの雲マスクを作成できる。
これらの雲マスクは、混合係数ベクトルとスケーリング係数によって重み付けされ、最終的な雲マスクを生成する。
勾配ベクトル、係数ベクトル、スケーリング係数を総合的に雲パラメータベクトルとして表現し、雲の発生をブラックボックス最適化問題に変換する。
差分進化(DE)アルゴリズムは、クエリベースのブラックボックス攻撃を達成し、クラウドパラメータベクトルの最適解を解くために用いられる。
詳細な実験により、この手法は強力な攻撃能力を有し、高いクエリ効率を実現することが確認された。
さらに, 敵防衛シナリオにおいて, 生成した敵の事例の転送可能性とロバスト性を解析した。
Most existing adversarial attack methods for remote sensing images merely add adversarial perturbations or patches, resulting in unnatural modifications. Clouds are common atmospheric effects in remote sensing images. Generating clouds on these images can produce adversarial examples better aligning with human perception. In this paper, we propose a Perlin noise based cloud generation attack method. Common Perlin noise based cloud generation is a random, non-optimizable process, which cannot be directly used to attack the target models. We design a Perlin Gradient Generator Network (PGGN), which takes a gradient parameter vector as input and outputs the grids of Perlin noise gradient vectors at different scales. After a series of computations based on the gradient vectors, cloud masks at corresponding scales can be produced. These cloud masks are then weighted and summed depending on a mixing coefficient vector and a scaling factor to produce the final cloud masks. The gradient vector, coefficient vector and scaling factor are collectively represented as a cloud parameter vector, transforming the cloud generation into a black-box optimization problem. The Differential Evolution (DE) algorithm is employed to solve for the optimal solution of the cloud parameter vector, achieving a query-based black-box attack. Detailed experiments confirm that this method has strong attack capabilities and achieves high query efficiency. Additionally, we analyze the transferability of the generated adversarial examples and their robustness in adversarial defense scenarios. | 翻訳日:2024-11-06 23:37:15 公開日:2024-09-21 |
# 識別可能なPnPによる端面再構成
End to End Face Reconstruction via Differentiable PnP ( http://arxiv.org/abs/2409.14249v1 ) ライセンス: Link先を確認 | Yiren Lu, Huawei Wei, | (参考訳) これはECCV 2022 WCPA Challenge, Face Reconstruction Trackのチャレンジレポートである。
このレポートでは、この課題をどのように達成するかを簡単に説明します。
我々はこの課題を達成するために2分岐ネットワークを設計し、その役割は顔再構成と顔ランドマーク検出である。
前者は標準的な3D顔座標を出力する。
後者は画素座標、すなわち頭部ポーズと遠近射影を持つ3次元座標の2次元マッピングを出力する。
さらに、微分可能なPnP(Perspective-n-Points)層を用いて、2つのブランチの出力を微調整する。
本手法はMVP-Humanデータセット上で非常に競争力のある定量的結果を実現し,その挑戦に対して$3^{rd} の賞金を獲得している。
This is a challenge report of the ECCV 2022 WCPA Challenge, Face Reconstruction Track. Inside this report is a brief explanation of how we accomplish this challenge. We design a two-branch network to accomplish this task, whose roles are Face Reconstruction and Face Landmark Detection. The former outputs canonical 3D face coordinates. The latter outputs pixel coordinates, i.e. 2D mapping of 3D coordinates with head pose and perspective projection. In addition, we utilize a differentiable PnP (Perspective-n-Points) layer to finetune the outputs of the two branch. Our method achieves very competitive quantitative results on the MVP-Human dataset and wins a $3^{rd}$ prize in the challenge. | 翻訳日:2024-11-06 23:26:16 公開日:2024-09-21 |
# 指導指導なしの指導追従
Instruction Following without Instruction Tuning ( http://arxiv.org/abs/2409.14254v1 ) ライセンス: Link先を確認 | John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning, | (参考訳) インストラクションチューニング(英語: Instruction tuning)とは、命令-応答ペアの言語モデルを微調整することを指す。
我々は、命令チューニングに比較して不十分な2種類の適応(チューニング)を発見したが、それでも命令従属は得られず、この暗黙的な命令チューニングを呼ぶ。
まず、命令応答対は必要ないことを発見し、対応する命令を使わずに応答のみを訓練することで、命令に従う。
このことは、事前訓練されたモデルは、所望の応答分布をモデルに教えることによって明らかにされる命令応答マッピングを持つことを示唆している。
詩のような狭い領域のデータに対する命令応答訓練は、レシピ生成のような幅広い指示追従行動につながる。
特に、命令が狭い微調整領域の命令と非常に異なる場合、モデルの応答は微調整領域のスタイルに従わない。
暗黙的な命令チューニングを説明するために,言語モデルの分布収差命令に対する非常に単純な変更が後続するのではないか,という仮説を立てる。
我々は、事前訓練されたモデルを用いて、エキスパート製品における指示に従うルールベースの言語モデルを手書きで支援する。
規則は、シーケンスを終了する確率を徐々に増加させ、繰り返しを罰し、15の単語の確率を均一に変化させることである。
要約すると、後続の命令を与えるように設計されない適応は暗黙的に行うことができる。
Instruction tuning commonly means finetuning a language model on instruction-response pairs. We discover two forms of adaptation (tuning) that are deficient compared to instruction tuning, yet still yield instruction following; we call this implicit instruction tuning. We first find that instruction-response pairs are not necessary: training solely on responses, without any corresponding instructions, yields instruction following. This suggests pretrained models have an instruction-response mapping which is revealed by teaching the model the desired distribution of responses. However, we then find it's not necessary to teach the desired distribution of responses: instruction-response training on narrow-domain data like poetry still leads to broad instruction-following behavior like recipe generation. In particular, when instructions are very different from those in the narrow finetuning domain, models' responses do not adhere to the style of the finetuning domain. To begin to explain implicit instruction tuning, we hypothesize that very simple changes to a language model's distribution yield instruction following. We support this by hand-writing a rule-based language model which yields instruction following in a product-of-experts with a pretrained model. The rules are to slowly increase the probability of ending the sequence, penalize repetition, and uniformly change 15 words' probabilities. In summary, adaptations made without being designed to yield instruction following can do so implicitly. | 翻訳日:2024-11-06 23:26:16 公開日:2024-09-21 |
# フェデレーション学習における完全なグラディエント・インバージョン:隠れたサブセット・サム問題からの新しいパラダイム
Perfect Gradient Inversion in Federated Learning: A New Paradigm from the Hidden Subset Sum Problem ( http://arxiv.org/abs/2409.14260v1 ) ライセンス: Link先を確認 | Qiongxiu Li, Lixia Luo, Agnese Gini, Changlong Ji, Zhanhao Hu, Xiao Li, Chengfang Fang, Jie Shi, Xiaolin Hu, | (参考訳) フェデレートラーニング(FL)は、複数の組織間で協調学習するための一般的なパラダイムとして登場した。
ローカルデータはパーソナルデバイスに残っており、グラデーションやモデル更新のような中間パラメータだけが共有されているため、プライバシフレンドリであると考えられている。
勾配インバージョンはFLの一般的な攻撃法として広く見なされているが、共有勾配から入力訓練サンプルを再構成する解析的研究は限定的であり、通常は小さなバッチサイズのような制約された設定に限られる。
本稿では,暗号的観点からこの問題に対処することで,これらの制限を克服することを目的とする。
我々は、FLで共有される勾配情報を用いて入力再構成問題を、よく知られたNP完全部分集合問題(SSP)の拡張であるHidden Subset Sum Problem (HSSP)として数学的に定式化する。
この定式化を活用することで、完全な入力再構成を実現し、ラベルの多様性への依存や、既存の経験的勾配反転攻撃を阻害する大規模なバッチサイズでのアンダーパフォーマンスといった問題を緩和できる。
さらに,実験的な入力再構成攻撃が,より大きなバッチサイズで低下する理由を考察した。
この問題をHSSPとしてモデル化することにより、バッチサイズ \(B \) が攻撃複雑性に大きく影響し、時間複雑性が \( \mathcal{O}(B^9) \) に達することを示した。
さらに、同相暗号やセキュアなマルチパーティ計算などのセキュアなデータ集約技術を適用することで、時間複雑性を( \mathcal{O}(N^9 B^9) \), \(N \) が FL のローカルクライアントの数に拡大することで、強力な防御効果が得られることを示す。
我々の知る限りでは、これらをHSSPとしてモデル化することでFLのプライバシー問題を厳格に分析し、防衛戦略のさらなる探索と開発のための具体的な分析基盤を提供する最初の試みである。
Federated Learning (FL) has emerged as a popular paradigm for collaborative learning among multiple parties. It is considered privacy-friendly because local data remains on personal devices, and only intermediate parameters -- such as gradients or model updates -- are shared. Although gradient inversion is widely viewed as a common attack method in FL, analytical research on reconstructing input training samples from shared gradients remains limited and is typically confined to constrained settings like small batch sizes. In this paper, we aim to overcome these limitations by addressing the problem from a cryptographic perspective. We mathematically formulate the input reconstruction problem using the gradient information shared in FL as the Hidden Subset Sum Problem (HSSP), an extension of the well-known NP-complete Subset Sum Problem (SSP). Leveraging this formulation allows us to achieve perfect input reconstruction, thereby mitigating issues such as dependence on label diversity and underperformance with large batch sizes that hinder existing empirical gradient inversion attacks. Moreover, our analysis provides insights into why empirical input reconstruction attacks degrade with larger batch sizes. By modeling the problem as HSSP, we demonstrate that the batch size \( B \) significantly affects attack complexity, with time complexity reaching \( \mathcal{O}(B^9) \). We further show that applying secure data aggregation techniques -- such as homomorphic encryption and secure multiparty computation -- provides a strong defense by increasing the time complexity to \( \mathcal{O}(N^9 B^9) \), where \( N \) is the number of local clients in FL. To the best of our knowledge, this is the first work to rigorously analyze privacy issues in FL by modeling them as HSSP, providing a concrete analytical foundation for further exploration and development of defense strategies. | 翻訳日:2024-11-06 23:26:16 公開日:2024-09-21 |
# 集中型・分散型学習におけるプライバシの再評価 : 情報理論と実証的研究
Re-Evaluating Privacy in Centralized and Decentralized Learning: An Information-Theoretical and Empirical Study ( http://arxiv.org/abs/2409.14261v1 ) ライセンス: Link先を確認 | Changlong Ji, Stephane Maag, Richard Heusdens, Qiongxiu Li, | (参考訳) 分散フェデレーションラーニング(DFL)は、中央フェデレーションラーニング(CFL)と比較して、堅牢性とスケーラビリティに注目が集まっている。
一般的にDFLは機密データの分散制御によるプライバシー上の優位性を提供すると考えられているが、Pasquiniらによる最近の研究はこの見解に異議を唱え、DFLが特定の仮定の下で経験的攻撃に対するプライバシーを本質的に改善しないことを示した。
この問題を完全に調査するには、正式な理論的枠組みが必要である。
本研究は,FLにおけるプライバシー漏洩の厳密な情報理論的解析を相互情報を用いて行うことにより,新たな視点を提供する。
さらに、CFLとDFLの双方において、セキュアアグリゲーション(SA)のようなプライバシー保護手法の有効性について検討する。
我々のシミュレーションと実世界の実験は、完全に信頼されたサーバが利用できない現実的なシナリオにおいて、DFLが一般的にCFLよりも強力なプライバシー保護を提供することを示している。
FLにおける情報漏洩を不適切に捉えているグラフトポロジとプライバシ攻撃に関する仮定の限界を強調することで、これまでの研究における不一致に対処する。
Decentralized Federated Learning (DFL) has garnered attention for its robustness and scalability compared to Centralized Federated Learning (CFL). While DFL is commonly believed to offer privacy advantages due to the decentralized control of sensitive data, recent work by Pasquini et, al. challenges this view, demonstrating that DFL does not inherently improve privacy against empirical attacks under certain assumptions. For investigating fully this issue, a formal theoretical framework is required. Our study offers a novel perspective by conducting a rigorous information-theoretical analysis of privacy leakage in FL using mutual information. We further investigate the effectiveness of privacy-enhancing techniques like Secure Aggregation (SA) in both CFL and DFL. Our simulations and real-world experiments show that DFL generally offers stronger privacy preservation than CFL in practical scenarios where a fully trusted server is not available. We address discrepancies in previous research by highlighting limitations in their assumptions about graph topology and privacy attacks, which inadequately capture information leakage in FL. | 翻訳日:2024-11-06 23:26:16 公開日:2024-09-21 |
# FeDETRによる冠動脈造影における狭窄検出
FeDETR: a Federated Approach for Stenosis Detection in Coronary Angiography ( http://arxiv.org/abs/2409.14268v1 ) ライセンス: Link先を確認 | Raffaele Mineo, Amelia Sorrenti, Federica Proietto Salanitri, | (参考訳) 冠動脈狭窄は心不全の原因となるため,冠動脈造影検査における狭窄の重症度を評価することが患者の健康に重要である。
冠状病変(例えば、分画流量予備(FFR)または瞬時波浪率(iFR))は、時間、コスト、侵襲性などいくつかの欠点に悩まされている。
この文脈では、FFR/iFR値の自動推定において、心臓科医を支援するための深層学習法がいくつか出現している。
これらの手法の有効性にもかかわらず、機密医療データの分散性のため、大規模なデータセットへの依存は困難である。
フェデレーション学習は、データのプライバシを保ちながら、モデルの一般化を改善するために、複数のノードからの知識を集約することで、この問題に対処する。
FFR/iFR値推定に基づく血管造影ビデオの狭窄重症度評価のためのフェデTR法を提案する。
提案手法では,各ノードがローカルデータセット上の検出変換器(DETR)をトレーニングし,中央サーバがネットワークのバックボーン部分をフェデレーションする。
提案手法は,1001の血管造影検査からなる5つの病院から収集したデータセットを用いて訓練,評価を行い,その性能を最先端のフェデレーション学習法と比較した。
Assessing the severity of stenoses in coronary angiography is critical to the patient's health, as coronary stenosis is an underlying factor in heart failure. Current practice for grading coronary lesions, i.e. fractional flow reserve (FFR) or instantaneous wave-free ratio (iFR), suffers from several drawbacks, including time, cost and invasiveness, alongside potential interobserver variability. In this context, some deep learning methods have emerged to assist cardiologists in automating the estimation of FFR/iFR values. Despite the effectiveness of these methods, their reliance on large datasets is challenging due to the distributed nature of sensitive medical data. Federated learning addresses this challenge by aggregating knowledge from multiple nodes to improve model generalization, while preserving data privacy. We propose the first federated detection transformer approach, FeDETR, to assess stenosis severity in angiography videos based on FFR/iFR values estimation. In our approach, each node trains a detection transformer (DETR) on its local dataset, with the central server federating the backbone part of the network. The proposed method is trained and evaluated on a dataset collected from five hospitals, consisting of 1001 angiographic examinations, and its performance is compared with state-of-the-art federated learning methods. | 翻訳日:2024-11-06 23:26:16 公開日:2024-09-21 |
# 視覚的ローカライゼーションのための絶対値と半一般化相対関数の組み合わせ
Combining Absolute and Semi-Generalized Relative Poses for Visual Localization ( http://arxiv.org/abs/2409.14269v1 ) ライセンス: Link先を確認 | Vojtech Panek, Torsten Sattler, Zuzana Kukelova, | (参考訳) 視覚的ローカライゼーションは、既知のシーン内で所定のクエリ画像のカメラポーズを推定する問題である。
ほとんどの最先端のローカライゼーションアプローチは、構造に基づくパラダイムに従い、クエリ画像中のピクセルとシーン内の3Dポイントの間の2D-3Dマッチングを用いて、ポーズ推定を行う。
これらのアプローチはシーンの正確な3Dモデルを想定しており、特にシーン表現を計算するのにいくつかの画像しか利用できない場合、常に利用できるとは限らない。
対照的に、構造のない手法は2D-2Dマッチングに依存しており、3Dシーンモデルを必要としない。
しかし、それらは構造に基づく手法よりも正確ではない。
構造ベースと構造レスのポーズ推定戦略を組み合わせた先行研究が提案されているが、その実用的妥当性は示されていない。
本研究では, 2D-2D と 2D-3D のマッチングから得られたポーズをどのように選択するかを探索しながら, 構造ベースと構造レスの戦略を組み合わせて分析する。
両戦略を組み合わせることで,複数の現実的なシナリオにおけるローカライズ性能が向上することを示す。
Visual localization is the problem of estimating the camera pose of a given query image within a known scene. Most state-of-the-art localization approaches follow the structure-based paradigm and use 2D-3D matches between pixels in a query image and 3D points in the scene for pose estimation. These approaches assume an accurate 3D model of the scene, which might not always be available, especially if only a few images are available to compute the scene representation. In contrast, structure-less methods rely on 2D-2D matches and do not require any 3D scene model. However, they are also less accurate than structure-based methods. Although one prior work proposed to combine structure-based and structure-less pose estimation strategies, its practical relevance has not been shown. We analyze combining structure-based and structure-less strategies while exploring how to select between poses obtained from 2D-2D and 2D-3D matches, respectively. We show that combining both strategies improves localization performance in multiple practically relevant scenarios. | 翻訳日:2024-11-06 23:26:16 公開日:2024-09-21 |
# XDCガスレス・サブネット:XDCネットワーク用ガスレス・サブネット
XDC Gasless Subnet: Gasless Subnet Staking dApp for XDC Network ( http://arxiv.org/abs/2409.17176v1 ) ライセンス: Link先を確認 | Mohuya Chakraborty, Atul Khekade, | (参考訳) XDC Networkは、XDPoS(Defered proof-of-Stake)コンセンサスメカニズムによって、パブリックブロックチェーンとプライベートブロックチェーンの強みを組み合わせて、迅速なトランザクション時間、低エネルギー消費、経済的なガス料金を提供する、企業中心のブロックチェーンプラットフォームである。
XDCは相互運用性のために設計されており、分散アプリケーション(dApps)をサポートし、金融システムとスムーズに統合する。
セキュリティとスケーラビリティに重点を置いているため、物的資産の取引資金やトークン化には最適です。
しかし、特定の高周波アプリケーションに対する広く受け入れられることとユーザビリティを阻害する重要な問題がいくつかある。
メインネットXDCを張って非暗号ネットワークと同様に機能するサブネットをスピンオフし、XDCネットワーク上で通貨手数料を受け付けるガスレスサブネットを確立するための、斬新でエンスローリングなdAppを紹介する。
これにより、ユーザーはガス料金を発生させることなくトークンを保管でき、ステイキングプロセスはより効率的でコスト効率が良く、スケーラビリティを同時に向上できる。
dAppのパフォーマンス評価は、スループット、レイテンシ、スケーラビリティ、セキュリティ、コスト効率の面で有望な結果を示している。
このアプローチのユースケースと応用、課題とその後のソリューションが含まれている。
With a delegated proof-of-stake (XDPoS) consensus mechanism, the XDC Network is an enterprise-focused blockchain platform that combines the strength of public and private blockchains to provide quick transaction times, low energy consumption, and economical gas fees. XDC is designed for interoperability and supports decentralized apps (dApps) and integrates smoothly with financial systems. It is perfect for trade financing and tokenisation of physical assets because of its emphasis on security and scalability. However, there are a few critical issues that hamper wider acceptance and usability for certain high-frequency applications. This whitepaper introduces a novel and enthralling dApp for establishing a gasless subnet in which mainnet XDC can be staked to spin off a subnet that functions similarly to a non-crypto network, accepting currency fees on the XDC network. This would allow users to stake their tokens without incurring gas fees making the staking process more efficient, cost-effective, and simultaneously enhancing scalability. Performance evaluation of the dApp shows promising results in terms of throughput, latency, scalability, security, and cost efficiency. The use cases and applications of this approach along with challenges and ensuing solutions are included. | 翻訳日:2024-11-06 16:50:22 公開日:2024-09-21 |
# マルチモーダルベンチマークに関する調査:大規模AIモデルの時代
A Survey on Multimodal Benchmarks: In the Era of Large AI Models ( http://arxiv.org/abs/2409.18142v1 ) ライセンス: Link先を確認 | Lin Li, Guikun Chen, Hanrong Shi, Jun Xiao, Long Chen, | (参考訳) MLLM(Multimodal Large Language Models)の急速な進化は、人工知能の大幅な進歩をもたらし、マルチモーダルコンテンツを理解して生成する能力を大幅に向上させた。
先行研究はモデルアーキテクチャとトレーニング方法論に大きく焦点を合わせてきたが、これらのモデルを評価するために使われるベンチマークの徹底的な分析は未定のままである。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューすることで、このギャップに対処する。
タスク設計、評価指標、データセット構築に関する詳細な分析を、多種多様なモダリティにわたって提供する。
本調査は,ベンチマークプラクティスの包括的概要と今後の作業に向けた有望な方向性を明らかにすることで,MLLM研究の進展に寄与することを期待している。
最新の論文を収集するGitHubリポジトリが公開されている。
The rapid evolution of Multimodal Large Language Models (MLLMs) has brought substantial advancements in artificial intelligence, significantly enhancing the capability to understand and generate multimodal content. While prior studies have largely concentrated on model architectures and training methodologies, a thorough analysis of the benchmarks used for evaluating these models remains underexplored. This survey addresses this gap by systematically reviewing 211 benchmarks that assess MLLMs across four core domains: understanding, reasoning, generation, and application. We provide a detailed analysis of task designs, evaluation metrics, and dataset constructions, across diverse modalities. We hope that this survey will contribute to the ongoing advancement of MLLM research by offering a comprehensive overview of benchmarking practices and identifying promising directions for future work. An associated GitHub repository collecting the latest papers is available. | 翻訳日:2024-11-06 15:51:02 公開日:2024-09-21 |
# デジタルツインとは何か? 15,000以上の科学論文から構築された環境の定義から
What is a Digital Twin Anyway? Deriving the Definition for the Built Environment from over 15,000 Scientific Publications ( http://arxiv.org/abs/2409.19005v1 ) ライセンス: Link先を確認 | Mahmoud Abdelrahman, Edgardo Macatulad, Binyu Lei, Matias Quintana, Clayton Miller, Filip Biljecki, | (参考訳) デジタル双生児の概念は様々な領域、特に構築された環境において大きな注目を集めている。
しかし、定義の量は膨大であり、用語的コンセンサスには及ばない。
普遍的に受け入れられる定義の欠如は、その概念化と実装の曖昧さを招き、研究者と実践者の両方にとって誤ったコミュニケーションを引き起こす可能性がある。
構築環境における多種多様な分野にまたがる15,000のフルテキスト記事のコーパスから,デジタルツインの定義を体系的に抽出し,解析するために自然言語処理(NLP)技術を使用した。
この研究は、52人の専門家を含む専門家による調査から得られた知見と比較した。
この研究は、様々な領域にわたる実践的な視点から「デジタルツイン」を構成する成分の一致を識別し、逸脱を識別するためにそれらと対比する。
本稿では, 製造, 建築, 都市・地理的視点など, 時間的・様々なスケールにおけるディジタル双対定義の進化について検討する。
テキスト周波数分析とN-gram解析を用いてDigital Twinsの主要成分を抽出した。
その後,文献に現れる成分を同定し,各成分の異なる領域における意義を評価するため,Chi-square testを行った。
本研究は,各分野に共通する点が多く,研究分野によって定義が異なっていることを示唆する。
デジタルツインがHPRT (High-Performance Real-Time) アプリケーションやLTDS (Long-Term Decision Support) アプリケーションに使用されたか、という点で大きな違いがある。
私たちは、各ドメインで最も代表的な定義を合成し、対比し、各コンテキストに特化された、新しいデータ駆動型定義を作り上げました。
The concept of digital twins has attracted significant attention across various domains, particularly within the built environment. However, there is a sheer volume of definitions and the terminological consensus remains out of reach. The lack of a universally accepted definition leads to ambiguities in their conceptualization and implementation, and may cause miscommunication for both researchers and practitioners. We employed Natural Language Processing (NLP) techniques to systematically extract and analyze definitions of digital twins from a corpus of 15,000 full-text articles spanning diverse disciplines in the built environment. The study compares these findings with insights from an expert survey that included 52 experts. The study identifies concurrence on the components that comprise a 'Digital Twin' from a practical perspective across various domains, contrasting them with those that do not, to identify deviations. We investigate the evolution of digital twin definitions over time and across different scales, including manufacturing, building, and urban/geospatial perspectives. We extracted the main components of Digital Twins using Text Frequency Analysis and N-gram analysis. Subsequently, we identified components that appeared in the literature and conducted a Chi-square test to assess the significance of each component in different domains. Our findings indicate that definitions differ based on the field of research in which they are conceived, but with many similarities across domains. One significant generalizable differentiation is related to whether a digital twin was used for High-Performance Real-Time (HPRT) or Long-Term Decision Support (LTDS) applications. We synthesized and contrasted the most representative definitions in each domain, culminating in a novel, data-driven definition specifically tailored for each context. | 翻訳日:2024-11-06 05:00:47 公開日:2024-09-21 |
# StateAct: 大規模言語モデルによる行動計画のための状態追跡と推論
StateAct: State Tracking and Reasoning for Acting and Planning with Large Language Models ( http://arxiv.org/abs/2410.02810v1 ) ライセンス: Link先を確認 | Nikolai Rozanov, Marek Rei, | (参考訳) 対話型環境における大規模言語モデル(LLM)を用いた「リアル」タスクの計画と実行が、AIメソッドの新たなフロンティアとなっている。
近年の進歩により、LLMはオンラインツールと対話し、ロボティクスタスクを解くことができ、さらに多くの長距離推論タスクはLLMにとって問題となっている。
この問題に対処する既存の手法は非常にリソース集約的で、追加のデータや人為的なルールを必要とするが、代わりに、LLMの計画と動作のための状態追跡による'チェーン・オブ・シント'を強化するために、少数ショットのインコンテキスト学習のみに基づく簡単な方法を提案する。
提案手法は,従来の最良数ショットのインコンテキスト学習法に比べて,コンテキスト内学習法 (\textbf{+14\%} ) のための Alfworld における新たな最先端技術を確立し,追加のトレーニングデータとコード実行のような追加ツールを使用する手法と同等に実行することを示す。
強化された 'chain-of-states' により、エージェントがより長い地平線問題を解決することができ、タスクの解決に必要なステップの数でより効率的になることを示す。
提案手法は,APIベースとオープンソースの両方で,様々な LLM にまたがって動作することを示す。
最後に、アブレーション研究を行い、'chain-of-thinkts'が状態追跡の精度を向上し、json構造が全体的なパフォーマンスを損なうことを示す。
コードとアノテーションは \url{https://github.com/ai-nikolai/StateAct} でオープンソース化しています。
Planning and acting to solve `real' tasks using large language models (LLMs) in interactive environments has become a new frontier for AI methods. While recent advances allowed LLMs to interact with online tools, solve robotics tasks and many more, long range reasoning tasks remain a problem for LLMs. Existing methods to address this issue are very resource intensive and require additional data or human crafted rules, instead, we propose a simple method based on few-shot in-context learning alone to enhance `chain-of-thought' with state-tracking for planning and acting with LLMs. We show that our method establishes the new state-of-the-art on Alfworld for in-context learning methods (\textbf{+14\%} over the previous best few-shot in-context learning method) and performs on par with methods that use additional training data and additional tools such as code-execution. We also demonstrate that our enhanced `chain-of-states' allows the agent to both solve longer horizon problems and to be more efficient in number of steps required to solve a task. We show that our method works across a variety of LLMs for both API-based and open source ones. Finally, we also conduct ablation studies and show that `chain-of-thoughts' helps state-tracking accuracy, while a json-structure harms overall performance. We open-source our code and annotations at \url{https://github.com/ai-nikolai/StateAct}. | 翻訳日:2024-11-03 05:34:38 公開日:2024-09-21 |
# 6GオーケストレータとしてのLDMエージェント:タスク指向物理層自動化のパラダイム
LLM Agents as 6G Orchestrator: A Paradigm for Task-Oriented Physical-Layer Automation ( http://arxiv.org/abs/2410.03688v1 ) ライセンス: Link先を確認 | Zhuoran Xiao, Chenhui Ye, Yunbo Hu, Honggang Yuan, Yihang Huang, Yijia Feng, Liyu Cai, Jiang Chang, | (参考訳) 生成前訓練モデルの急速な進歩は、チャットボットのような基本的なアプリケーションからより洗練されたエージェントベースシステムへの技術進歩のパラダイムシフトを推進している。
6Gシステムと大型言語モデルエージェント(LLM)とデジタルツイン(DT)を組み合わせることで、ネイティブAIサービスやセンシングといった新たな機能を備えた高度に複雑な通信システムを管理することは、大きな可能性と必要性を持つ。
6G指向のエージェントにより、基地局は様々な動的上層タスクの伝達要求を理解し、最適なシステムワークフローを自動的にオーケストレーションする。
6G DTから継続的にフィードバックを得て、エージェントは最終的に実用的なシステムの性能を高めることができる。
一般用途向けに設計された既存のLLMエージェントと違い、6G指向エージェントは、モデルトレーニングから実装まで、必然的に特定のシステム設計を必要とする、膨大な量の専門知識で、厳密で正確な計画を立てることを目的としている。
本稿では,タスク指向型6G LLMエージェント構築のための包括的アプローチを提案する。
まず,様々なアプリケーションシナリオの要件を満たすための基礎モデルと専門的モデルの多様性を構築するための,2段階の事前学習および微調整方式を提案する。
さらに,既存の通信機能を活用した意味検索に基づく新しい推論フレームワークを提案する。
物理層分解などの模範課題の実験結果から,提案手法の有効性と有効性を示す。
The rapid advancement in generative pre-training models is propelling a paradigm shift in technological progression from basic applications such as chatbots towards more sophisticated agent-based systems. It is with huge potential and necessity that the 6G system be combined with the copilot of large language model (LLM) agents and digital twins (DT) to manage the highly complicated communication system with new emerging features such as native AI service and sensing. With the 6G-oriented agent, the base station could understand the transmission requirements of various dynamic upper-layer tasks, automatically orchestrate the optimal system workflow. Through continuously get feedback from the 6G DT for reinforcement, the agents can finally raise the performance of practical system accordingly. Differing from existing LLM agents designed for general application, the 6G-oriented agent aims to make highly rigorous and precise planning with a vast amount of extra expert knowledge, which inevitably requires a specific system design from model training to implementation. This paper proposes a novel comprehensive approach for building task-oriented 6G LLM agents. We first propose a two-stage continual pre-training and fine-tuning scheme to build the field basic model and diversities of specialized expert models for meeting the requirements of various application scenarios. Further, a novel inference framework based on semantic retrieval for leveraging the existing communication-related functions is proposed. Experiment results of exemplary tasks, such as physical-layer task decomposition, show the proposed paradigm's feasibility and effectiveness. | 翻訳日:2024-11-02 20:48:16 公開日:2024-09-21 |
# ハミルトン・ヤコビ方程式とアイコン方程式からのシュロディンガー方程式の導出
Derivation of Schrodinger's equation from the Hamilton-Jacobi and the Eikonal equations ( http://arxiv.org/abs/2410.03689v1 ) ライセンス: Link先を確認 | Lachezar S. Simeonov, | (参考訳) 量子力学に関する教科書の著者の多くは、シュロディンガーの方程式の短い「ad hoc」を仮定またはスケッチしている。
本研究では、幾何学光学におけるハミルトン・ヤコビ方程式とアイコン方程式からシュロディンガー方程式の詳細な導出を行う。
光の性質に関する歴史的議論から始まり、それが粒子のビームであるのか、エーテル内の波なのかを議論する。
我々はアイコン方程式を導出し、波が粒子のビームとして振る舞うことができる条件を示す。
次に、電子銃によるいくつかの実験について論じ、単一の電子の明確な回折と干渉を示す。
次に、これらの実験を説明するために、古典力学におけるハミルトン・ヤコビ方程式と幾何学光学におけるアイコン方程式を比較してシュロディンガー方程式を導出する。
そのため、まずは、アイコン方程式から波動方程式を導出する方法を示す(逆ではない!
第二に、ハミルトン・ヤコビ方程式からシュロディンガー方程式を導出するためにこの方法を用いる。
次に、ド・ブロイの早期理解を用いてボルンの統計則を導出し、粒子と波の両方が存在することを導いた。
その後、歴史的にデ・ブログリエの考えから粒子(とそれらの軌道)を完全に取り除くことを好んだが、ボルンの支配を維持した(いわゆるコペンハーゲン解釈)。
これらの量子力学の基礎の導出は、その主題の歴史を正確には従わない。
むしろ、Schrodingerの方程式を論理的かつ順序的な方法で提示するために、初期のアイデアと実験を司法的に選択する。
我々は、黒体放射と光電効果の代わりに電子銃実験を使用する。
我々の導出は、量子力学の紛らわしい、そしてむしろ神秘的な主題について、大学生たちにより光と満足をもたらすかもしれない。
Most authors of textbooks on quantum mechanics either postulate or sketch a short `ad hoc` derivation of Schrodinger's equation. In this work we give a detailed derivation of Schrodinger's equation from the Hamilton-Jacobi equation and the Eikonal equation in geometrical optics. We start from the historical debates on the nature of light -- whether it is a beam of particles, or waves in the aether. We derive the Eikonal equation and show the conditions when a wave can behave as a beam of particles. Then we discuss several experiments with an electron gun, that show clearly diffraction and interference of a single electron. Next, in order to explain these experiments, we derive Schrodinger's equation by comparing Hamilton-Jacobi equation in classical mechanics with the Eikonal equation in geometrical optics. To do that, we first show how to derive the wave equation from the Eikonal equation (not the other way around!). Second, we use this method to derive Schrodinger's equation from the Hamilton-Jacobi equation. Next, we derive Born's statistical rule using the early understanding of de Broglie that both particles and waves exist. Afterwards, we show that historically people preferred to remove the particles (as well as their trajectories) altogether from de Broglie's ideas but retained Born's rule (the so called Copenhagen interpretation). These derivations of the foundations of quantum mechanics do not follow precisely the history of the subject. Rather we select some early ideas and experiments in a judicious manner to present Schrodinger's equation in a logical and ordered way. We use the electron gun experiments instead of black body radiation and photoelectric effect. Our derivation may bring more light and satisfaction for the undergraduate students about the confusing and rather mysterious subject of quantum mechanics. | 翻訳日:2024-11-02 20:38:13 公開日:2024-09-21 |
# 2022 パキスタンの洪水被害:農業・都市被害のリモートセンシング評価
2022 Flood Impact in Pakistan: Remote Sensing Assessment of Agricultural and Urban Damage ( http://arxiv.org/abs/2410.07126v1 ) ライセンス: Link先を確認 | Aqs Younas, Arbaz Khan, Hafiz Muhammad Abubakar, Zia Tahseen, Aqeel Arshad, Murtaza Taj, Usman Nazir, | (参考訳) パキスタンは2022年6月に世界最多の洪水に見舞われ、農業とインフラの被害を受けた。
リモートセンシング技術は、洪水影響評価のための費用対効果と効率のよい方法を提供する。
本研究は, 洪水が作物や集積地に与える影響を評価することを目的としている。
ランドサット9号の画像、欧州宇宙機関/Land Use/Land Cover (ESA-LULC) と土壌水分能動パッシブ (SMAP) のデータを用いて、洪水被害地域、作物の被害、地層破壊の程度を識別し、定量化する。
その結果、パキスタンのシンド州が最も被害を受けたことが示唆された。
この影響は、通常3月から11月にかけて栽培されるハリフの季節作物の大半を破壊した。
また,SMAP衛星データを用いて,洪水後の土壌水分量が増加し,ラビの栽培が著しく遅れたと評価した。
本研究は,洪水リスク管理と災害対応に関わる意思決定者やステークホルダーに貴重な情報を提供するものである。
Pakistan was hit by the world's deadliest flood in June 2022, causing agriculture and infrastructure damage across the country. Remote sensing technology offers a cost-effective and efficient method for flood impact assessment. This study is aimed to assess the impact of flooding on crops and built-up areas. Landsat 9 imagery, European Space Agency-Land Use/Land Cover (ESA-LULC) and Soil Moisture Active Passive (SMAP) data are used to identify and quantify the extent of flood-affected areas, crop damage, and built-up area destruction. The findings indicate that Sindh, a province in Pakistan, suffered the most. This impact destroyed most Kharif season crops, typically cultivated from March to November. Using the SMAP satellite data, it is assessed that the high amount of soil moisture after flood also caused a significant delay in the cultivation of Rabi crops. The findings of this study provide valuable information for decision-makers and stakeholders involved in flood risk management and disaster response. | 翻訳日:2024-10-31 22:06:43 公開日:2024-09-21 |
# 時間間隔解析のための多体動的進化系列支援PSO
Multi-body dynamic evolution sequence-assisted PSO for interval analysis ( http://arxiv.org/abs/2410.07127v1 ) ライセンス: Link先を確認 | Xuanlong Wu, Peng Zhong, Weihao Lin, | (参考訳) 実際の工学的な問題では入力条件の正確な確率分布が得られない場合、出力応答の上下境界を解析するために間隔解析法がしばしば用いられる。
基本的に、これは最適化アルゴリズムによって解ける最適化問題と見なすことができる。
本稿では,多体動的進化系列支援PSO(DES-PSO)と異種総合学習粒子群最適化アルゴリズム(HCLPSO)を組み合わせた新しい間隔解析手法を提案する。
乱数列の代わりに動的進化系列を導入することにより,探索空間をカバーするHCLPSOの難易度に対処し,区間解析問題に適合する。
本稿では,DES-PSO法とHCLPSO法の両方を用いて,DES-PSO法の精度と効率性を検証する。
第1のケーススタディでは,線形区間方程式系の解領域を解くために最適化アルゴリズムを用い,第2のケーススタディでは,最適化手法を用いてスマートウォッチの衝突と熱伝導を分析する。
ケーススタディの結果、DES-PSOは精度を確保しつつ間隔解析の計算速度を大幅に向上し、複雑な区間解析問題を解くための新しいアプローチを提供する。
When the exact probability distribution of input conditions cannot be obtained in practical engineering problems, interval analysis methods are often used to analyze the upper and lower bounds of output responses. Essentially, this can be regarded as an optimization problem, solvable by optimization algorithms. This paper proposes a novel interval analysis method, i.e., multi-body dynamic evolution sequence-assisted PSO (abbreviated as DES-PSO), which combines a dynamical evolutionary sequence with the heterogeneous comprehensive learning particle swarm optimization algorithm (HCLPSO). By introducing the dynamical evolutionary sequence instead of the random sequence, the proposed method addresses the difficulty HCLPSO faces in covering the search space, making it suitable for interval analysis problems. To verify the accuracy and efficiency of the proposed DES-PSO method, this paper solves two case studies using both the DES-PSO and HCLPSO methods. The first case study employs an optimization algorithm to solve the solution domain of a linear interval equation system, and the second case study analyzes the collision and heat conduction of a smartwatch using an optimization method. The results of the case studies demonstrate that DES-PSO can significantly improve the computational speed of interval analysis while ensuring accuracy, providing a new approach to solving complex interval analysis problems. | 翻訳日:2024-10-31 22:06:43 公開日:2024-09-21 |
# ヤンツェデルタにおける水路ロックサービス品質の評価--顧客とサプライヤーの視点から
Evaluation of waterway lock service quality in Yangtze Delta: from the perspectives of customer and supplier ( http://arxiv.org/abs/2410.07132v1 ) ライセンス: Link先を確認 | Wenzhang Yang, Peng Liao, Shangkun Jiang, Hao Wang, | (参考訳) 近年、中国のヤンツェデルタにある水路のロックは、交通のボトルネックとなっている。
船の係留中のロックサービスに対する乗組員の視点と主要な懸念を包括的に把握し、顧客満足度を高め、船の係留効率を向上させるためには、水路の係留サービス品質(WLSQ)を評価する必要がある。
本稿では,様々な利害関係者の視点からWLSQの評価システムを提案する。
まず, 質問紙調査と構造方程式モデルを用いて, 要因分析と合わせて, 長江デルタ地域のWLSQとその影響要因を顧客の視点から分析した。
第2に,分析階層化手法とサービスサプライヤー専用のアンケートを用いて,船体ロックサービスの性能に関する懸念について検討する。
その結果, WLSQに影響を及ぼす要因には認知バイアスがあることが示唆された。
船員は船の係留の遅れについて最大の懸念を表明し、船の係留の安全性は管理局の管理者にとって主要な懸念事項である。
さらに、水路係留の支持施設の強化は、船室係留中の乗組員の満足度を著しく向上させる可能性がある。
スタッフのスキルの向上と安全性の確保により、ロックの遅れに対する顧客の寛容性も大幅に向上する。
本研究の結果は, WLSQの改善と継続的なサービス品質評価の実施に関する政策を策定する上で, ロック管理部門, オペレータ, 政府にとって貴重な知見を提供するものである。
In recent decades, the waterway locks in the Yangtze Delta, China, have become major traffic bottlenecks. To gain a comprehensive understanding of the crew's perspectives and primary concerns regarding lock services during vessel lockage, and to enhance customer satisfaction and improve vessel lockage efficiency, it is necessary to assess the waterway lock service quality (WLSQ). This paper presents an evaluation system for WLSQ from various stakeholders' viewpoints. Firstly, by employing questionnaire surveys and the structural equation model method, in conjunction with factor analysis, the WLSQ and its influencing factors in the Yangtze River Delta region are analyzed from a customer perspective. Secondly, the Analytic Hierarchy Process method is utilized, along with a dedicated questionnaire for service suppliers, to examine their concerns regarding the performance of vessel lock services. The findings indicate that there exists a cognitive bias towards factors influencing the WLSQ. Crew members express the greatest concern over vessel lockage delays, whereas vessel lockage safety is the primary concern for management department administrators. Furthermore, enhancing the supporting facilities of waterway locks can significantly increase crew members' satisfaction during vessel lockage. Improving staff skills, and safety conditions can also greatly enhance customers' tolerance for lockage delays. The results of this study will provide valuable insights for the lock management department, operators, and the government in formulating relevant policies to improve WLSQ and implementing ongoing service quality evaluations. | 翻訳日:2024-10-31 22:06:43 公開日:2024-09-21 |
# 協調フィルタリングにおけるデータ最小化と公正性のトレードオフ
The trade-off between data minimization and fairness in collaborative filtering ( http://arxiv.org/abs/2410.07182v1 ) ライセンス: Link先を確認 | Nasim Sonboli, Sipei Li, Mehdi Elahi, Asia Biega, | (参考訳) 一般データ保護規則(GDPR)は、個人の個人情報を害から保護することを目的としている。
完全なコンプライアンスは欧州連合とカリフォルニア州プライバシー法(CPRA)で義務付けられているが、他の場所ではそうではない。
GDPRは公正性、正確性、データ最小化など、すべての原則を同時に遵守する必要がある。
しかし、その原理の潜在的な矛盾を見落としている。
意思決定システムにコンプライアンスが必要な場合、この問題はさらに複雑になります。
したがって、GDPRと機械学習の目標を同時に達成する可能性や、我々に強制される可能性のあるトレードオフの可能性を検討することが不可欠である。
本稿では,データ最小化の原理と推薦システムにおける公平性の関係について検討する。
アクティブラーニング(AL)によるデータ最小化を運用する理由は、他の多くの方法とは異なり、戦略的データ収集を可能としながら高い精度を維持することができ、したがってデータ収集量を最小化できるためである。
我々は、いくつかのアクティブな学習戦略(個人化および非個人化)を実践し、2つの公開データセットの正確性と公平性に着目した比較分析を行った。
その結果、様々なAL戦略が、ほぼ全ての戦略がフェアネスに悪影響を及ぼすようなレコメンデータシステムの精度に異なる影響を与える可能性が示された。
データ最小化と公正性のトレードオフ、データ最小化を実装するツールとしてのアクティブラーニングメソッドの長所と短所、そしてALが公正性に与える影響について、非常に限定的な作業は行われていない。
これらの重要な側面を探求することによって、GDPRに準拠したレコメンデーションシステムを開発する上で、貴重な洞察を提供する。
General Data Protection Regulations (GDPR) aim to safeguard individuals' personal information from harm. While full compliance is mandatory in the European Union and the California Privacy Rights Act (CPRA), it is not in other places. GDPR requires simultaneous compliance with all the principles such as fairness, accuracy, and data minimization. However, it overlooks the potential contradictions within its principles. This matter gets even more complex when compliance is required from decision-making systems. Therefore, it is essential to investigate the feasibility of simultaneously achieving the goals of GDPR and machine learning, and the potential tradeoffs that might be forced upon us. This paper studies the relationship between the principles of data minimization and fairness in recommender systems. We operationalize data minimization via active learning (AL) because, unlike many other methods, it can preserve a high accuracy while allowing for strategic data collection, hence minimizing the amount of data collection. We have implemented several active learning strategies (personalized and non-personalized) and conducted a comparative analysis focusing on accuracy and fairness on two publicly available datasets. The results demonstrate that different AL strategies may have different impacts on the accuracy of recommender systems with nearly all strategies negatively impacting fairness. There has been no to very limited work on the trade-off between data minimization and fairness, the pros and cons of active learning methods as tools for implementing data minimization, and the potential impacts of AL on fairness. By exploring these critical aspects, we offer valuable insights for developing recommender systems that are GDPR compliant. | 翻訳日:2024-10-31 21:46:48 公開日:2024-09-21 |
# ヒマワリ8衛星画像と深層学習モデルを用いたタイの太陽放射マップの開発
Developing a Thailand solar irradiance map using Himawari-8 satellite imageries and deep learning models ( http://arxiv.org/abs/2409.16320v1 ) ライセンス: Link先を確認 | Suwichaya Suwanwimolkul, Natanon Tongamrak, Nuttamon Thungka, Naebboon Hoonchareon, Jitkomut Songsiri, | (参考訳) 本稿では,タイの太陽放射マップを30分毎に表示するオンラインプラットフォームを提案する。
https://www.cusolarforecast.comで公開されている。
タイ全土におけるグローバル水平照度(GHI)推定手法は,ヒマワリ8衛星画像から抽出した雲指数,局所的に調整されたリンケ濁度を持つイニエチェンクリアスキーモデル,機械学習モデルに依存している。
本手法は,光GBM,LSTM,Informer,TransformerなどのGHI推定モデルの入力として,クリアスキー光,クラウドインデックス,再解析されたGHI,MERRA-2データベースからの温度データ,および日時を用いる。
これらは、2022-2023年の1.5年間で53の地上局から15分間のGHIデータを評価することで、SolCastサービスからの推定値とベンチマークされる。
その結果、4つのモデルが競争力があり、SolCastサービスを上回る性能を示した。
最も優れたモデルはLightGBMで、MAEは78.58W/sqm、RMSEは118.97W/sqmである。
タイ向けに再分析されたMERRA-2データを取得することは、経済的に配備に有効ではない。
これらの特徴を除去する際、InformerモデルはMAEで78.67W/sqmの勝利率を持つ。
得られた性能は、気候帯とデータの時間粒度を考慮して既存の文献と整合する。
更新頻度の高い93,000グリッド以上のGHIの推定値を示すため,本論文では,地図全体を表示するための計算フレームワークについても述べる。
GHI推定プロセスにおいて、ディープラーニングモデルのランタイムパフォーマンスをテストする。
This paper presents an online platform that shows Thailand's solar irradiance map every 30 minutes. It is available at https://www.cusolarforecast.com. The methodology for estimating global horizontal irradiance (GHI) across Thailand relies on cloud index extracted from Himawari-8 satellite imagery, Ineichen clear-sky model with locally-tuned Linke turbidity, and machine learning models. The methods take clear-sky irradiance, cloud index, re-analyzed GHI and temperature data from the MERRA-2 database, and date-time as inputs for GHI estimation models, including LightGBM, LSTM, Informer, and Transformer. These are benchmarked with the estimate from the SolCast service by evaluation of 15-minute ground GHI data from 53 ground stations over 1.5 years during 2022-2023. The results show that the four models have competitive performances and outperform the SolCast service. The best model is LightGBM, with an MAE of 78.58 W/sqm and RMSE of 118.97 W/sqm. Obtaining re-analyzed MERRA-2 data for Thailand is not economically feasible for deployment. When removing these features, the Informer model has a winning performance of 78.67 W/sqm in MAE. The obtained performance aligns with existing literature by taking the climate zone and time granularity of data into consideration. As the map shows an estimate of GHI over 93,000 grids with a frequent update, the paper also describes a computational framework for displaying the entire map. It tests the runtime performance of deep learning models in the GHI estimation process. | 翻訳日:2024-09-27 09:03:58 公開日:2024-09-21 |
# 気象予報システム「WeatherFormer」
WeatherFormer: Empowering Global Numerical Weather Forecasting with Space-Time Transformer ( http://arxiv.org/abs/2409.16321v1 ) ライセンス: Link先を確認 | Junchao Gong, Tao Han, Kang Chen, Lei Bai, | (参考訳) 数値気象予測システム(NWP)は,現代社会に多大な影響を与えるインフラであり,複雑な偏微分方程式を巨大な計算クラスタで解き,大量の二酸化炭素を排出する。
NWPの効率的でエコフレンドリーなソリューションの探索は、人工知能(AI)や地球科学コミュニティから関心を集めている。
この研究は、AIベースの手法と物理予測器のパフォーマンスギャップを狭めるために、複雑な時空間空気力学をモデル化し、データ駆動型NWPの能力を高めるために、WeatherFormerと呼ばれる新しいトランスフォーマーベースのNWPフレームワークを提案する。
WeatherFormerは、位置認識型適応フーリエニューラル演算子(PAFNO)が位置認識可能なトークン混合のために提案されるパラメータとメモリ消費を削減するために、時空分解トランスフォーマーブロックを革新的に導入する。
さらに、2つのデータ拡張戦略を使用して、パフォーマンスを高め、トレーニング消費を減少させる。
WeatherBenchデータセットの大規模な実験は、WeatherFormerが既存のディープラーニング手法よりも優れたパフォーマンスを達成し、さらに高度な物理モデルにアプローチしていることを示している。
Numerical Weather Prediction (NWP) system is an infrastructure that exerts considerable impacts on modern society.Traditional NWP system, however, resolves it by solving complex partial differential equations with a huge computing cluster, resulting in tons of carbon emission. Exploring efficient and eco-friendly solutions for NWP attracts interest from Artificial Intelligence (AI) and earth science communities. To narrow the performance gap between the AI-based methods and physic predictor, this work proposes a new transformer-based NWP framework, termed as WeatherFormer, to model the complex spatio-temporal atmosphere dynamics and empowering the capability of data-driven NWP. WeatherFormer innovatively introduces the space-time factorized transformer blocks to decrease the parameters and memory consumption, in which Position-aware Adaptive Fourier Neural Operator (PAFNO) is proposed for location sensible token mixing. Besides, two data augmentation strategies are utilized to boost the performance and decrease training consumption. Extensive experiments on WeatherBench dataset show WeatherFormer achieves superior performance over existing deep learning methods and further approaches the most advanced physical model. | 翻訳日:2024-09-27 09:03:58 公開日:2024-09-21 |
# 音声部分に対する敵対的攻撃--テキスト・画像生成における実証的研究
Adversarial Attacks on Parts of Speech: An Empirical Study in Text-to-Image Generation ( http://arxiv.org/abs/2409.15381v1 ) ライセンス: Link先を確認 | G M Shahariar, Jia Chen, Jiachen Li, Yue Dong, | (参考訳) 近年の研究では、テキスト・ツー・イメージ(T2I)モデルは、特にテキスト・プロンプトにおける名詞の摂動に弱いことが示されている。
本研究では,テキストプロンプト内の異なるPOSタグに対する敵対攻撃が,T2Iモデルによって生成された画像に与える影響について検討する。
我々は、現実的なPOSタグトークンスワッピングのための高品質なデータセットを作成し、T2Iモデルを誤解させる逆接接尾辞を見つけるために勾配ベースの攻撃を実行し、変更したトークンで画像を生成する。
実験の結果,攻撃成功率 (ASR) は, 名詞, 固有名詞, 形容詞など, POSタグのカテゴリーによって大きく異なることが明らかとなった。
本稿では, 逆接接尾辞の操舵効果のメカニズムを考察し, POSタグ間で臨界トークン数やコンテンツ融合の数が異なること, 接尾辞伝達性などの特徴がカテゴリ毎に一致していることを見出した。
実装は、https://github.com/shahariar-shibli/Adversarial-Attack-on-POS-Tagsで公開しました。
Recent studies show that text-to-image (T2I) models are vulnerable to adversarial attacks, especially with noun perturbations in text prompts. In this study, we investigate the impact of adversarial attacks on different POS tags within text prompts on the images generated by T2I models. We create a high-quality dataset for realistic POS tag token swapping and perform gradient-based attacks to find adversarial suffixes that mislead T2I models into generating images with altered tokens. Our empirical results show that the attack success rate (ASR) varies significantly among different POS tag categories, with nouns, proper nouns, and adjectives being the easiest to attack. We explore the mechanism behind the steering effect of adversarial suffixes, finding that the number of critical tokens and content fusion vary among POS tags, while features like suffix transferability are consistent across categories. We have made our implementation publicly available at - https://github.com/shahariar-shibli/Adversarial-Attack-on-POS-Tags. | 翻訳日:2024-09-26 13:20:55 公開日:2024-09-21 |
# 鳥の分類における一般化:移動学習法とデータセット特性の影響
Generalization in birdsong classification: impact of transfer learning methods and dataset characteristics ( http://arxiv.org/abs/2409.15383v1 ) ライセンス: Link先を確認 | Burooj Ghani, Vincent J. Kalkman, Bob Planqué, Willem-Pier Vellinga, Lisa Gill, Dan Stowell, | (参考訳) 動物の音は機械学習によって自動的に認識され、生物多様性監視において重要な役割を果たす。
しかし、生物音響学の種分類器は、ますます印象的な能力を持っているにもかかわらず、種や生息地、特に複雑な音環境において、相変わらず不均衡な性能を示す。
本研究では,CNN や Transformer など,大規模鳥音分類における伝達学習の有効性について検討した。
実験の結果, 微調整と知識蒸留はともに高い性能を示し, クロス蒸留はゼノカントデータのドメイン内性能向上に特に有効であることがわかった。
しかし,音環境への一般化においては,知識蒸留に比べて浅部微調整は優れた性能を示し,その頑丈さと制約された性質を強調している。
本研究は,複数種のラベルの活用方法についても検討する。
動物音コミュニティにおけるより包括的なラベリングの実践を提唱し、背景種を注釈し、時間的詳細を提供するとともに、頑健な鳥音分類器の訓練を強化することを提唱する。
これらの知見は, 生体音響認識の高度化に向けた事前学習モデルの最適再利用に関する知見を与えるものである。
Animal sounds can be recognised automatically by machine learning, and this has an important role to play in biodiversity monitoring. Yet despite increasingly impressive capabilities, bioacoustic species classifiers still exhibit imbalanced performance across species and habitats, especially in complex soundscapes. In this study, we explore the effectiveness of transfer learning in large-scale bird sound classification across various conditions, including single- and multi-label scenarios, and across different model architectures such as CNNs and Transformers. Our experiments demonstrate that both fine-tuning and knowledge distillation yield strong performance, with cross-distillation proving particularly effective in improving in-domain performance on Xeno-canto data. However, when generalizing to soundscapes, shallow fine-tuning exhibits superior performance compared to knowledge distillation, highlighting its robustness and constrained nature. Our study further investigates how to use multi-species labels, in cases where these are present but incomplete. We advocate for more comprehensive labeling practices within the animal sound community, including annotating background species and providing temporal details, to enhance the training of robust bird sound classifiers. These findings provide insights into the optimal reuse of pretrained models for advancing automatic bioacoustic recognition. | 翻訳日:2024-09-26 13:20:55 公開日:2024-09-21 |
# BurstM:光流を用いたフーリエ空間を用いた深部バーストマルチスケールSR
BurstM: Deep Burst Multi-scale SR using Fourier Space with Optical Flow ( http://arxiv.org/abs/2409.15384v1 ) ライセンス: Link先を確認 | EungGu Kang, Byeonghun Lee, Sunghoon Im, Kyong Hwan Jin, | (参考訳) マルチフレーム超解像(MFSR)は、MFSRが複数のフレームから豊富な情報を利用するため、単一の画像超解像(SISR)よりも高い性能を実現する。
最近のMFSRアプローチは、変形可能な畳み込みネットワーク(DCN)に適応してフレームを整列させる。
しかし、既存のMFSRは、DCNの制限のために参照フレームとソースフレームのミスアライメントに悩まされている。
これらの問題から、既存のMFSRアプローチは高周波情報を表現するのに苦労している。
そこで本研究では,Fourier Space with Optical Flow (BurstM) を用いたDeep Burst Multi-scale SRを提案する。
提案手法は, 高精度なアライメントのための光学フローオフセットを推定し, 高周波テクスチャを表現するために各フレームの連続フーリエ係数を予測する。
さらに,単一モデルで様々な超解像(SR)スケールファクタをサポートすることにより,ネットワークの柔軟性を向上した。
提案手法は既存のMFSR法よりも高い性能と柔軟性を有することを示す。
ソースコードはhttps://github.com/Egkang-Luis/burstmで公開しています。
Multi frame super-resolution(MFSR) achieves higher performance than single image super-resolution (SISR), because MFSR leverages abundant information from multiple frames. Recent MFSR approaches adapt the deformable convolution network (DCN) to align the frames. However, the existing MFSR suffers from misalignments between the reference and source frames due to the limitations of DCN, such as small receptive fields and the predefined number of kernels. From these problems, existing MFSR approaches struggle to represent high-frequency information. To this end, we propose Deep Burst Multi-scale SR using Fourier Space with Optical Flow (BurstM). The proposed method estimates the optical flow offset for accurate alignment and predicts the continuous Fourier coefficient of each frame for representing high-frequency textures. In addition, we have enhanced the network flexibility by supporting various super-resolution (SR) scale factors with the unimodel. We demonstrate that our method has the highest performance and flexibility than the existing MFSR methods. Our source code is available at https://github.com/Egkang-Luis/burstm | 翻訳日:2024-09-26 13:20:55 公開日:2024-09-21 |
# 人間をループに維持する - 生成AIによる人中心の自動アノテーション
Keeping Humans in the Loop: Human-Centered Automated Annotation with Generative AI ( http://arxiv.org/abs/2409.09467v2 ) ライセンス: Link先を確認 | Nicholas Pangakis, Samuel Wolken, | (参考訳) 自動テキストアノテーションは、ソーシャルメディア研究における生成大型言語モデル(LLM)の魅力的なユースケースである。
近年の研究では、LCMはアノテーションタスクにおいて高い性能を発揮することが示唆されているが、これらの研究は、LCMを少数のタスクで評価し、公的なベンチマークデータセットに依存するため、汚染に悩まされる可能性がある。
ここでは、自動アノテーションに使用される人工知能ツールを責任を持って評価するための、人間中心のフレームワークをテストする。
我々はGPT-4を用いて、最近発行された計算社会科学論文から11のパスワード保護データセットに27のアノテーションタスクを複製する。
各タスクについて,人間の注釈付き接地木ラベルに対するGPT-4アノテーションと,人為的ラベルに微調整された教師付き分類モデルからのアノテーションを比較した。
LLMラベルの品質は概して高いが,データセット内であっても,タスク間でのLLM性能は著しく変化している。
自動アノテーションは, アクシデントチューニングなどの最適化戦略にもかかわらず, 様々なシナリオにおいて, 人間の判断とは大きく異なる。
人間によって生成された検証ラベルに自動アノテーションを接地することは、責任ある評価に不可欠である。
Automated text annotation is a compelling use case for generative large language models (LLMs) in social media research. Recent work suggests that LLMs can achieve strong performance on annotation tasks; however, these studies evaluate LLMs on a small number of tasks and likely suffer from contamination due to a reliance on public benchmark datasets. Here, we test a human-centered framework for responsibly evaluating artificial intelligence tools used in automated annotation. We use GPT-4 to replicate 27 annotation tasks across 11 password-protected datasets from recently published computational social science articles in high-impact journals. For each task, we compare GPT-4 annotations against human-annotated ground-truth labels and against annotations from separate supervised classification models fine-tuned on human-generated labels. Although the quality of LLM labels is generally high, we find significant variation in LLM performance across tasks, even within datasets. Our findings underscore the importance of a human-centered workflow and careful evaluation standards: Automated annotations significantly diverge from human judgment in numerous scenarios, despite various optimization strategies such as prompt tuning. Grounding automated annotation in validation labels generated by humans is essential for responsible evaluation. | 翻訳日:2024-09-24 11:55:37 公開日:2024-09-21 |
# LLMに基づく対話状態追跡の信頼度推定
Confidence Estimation for LLM-Based Dialogue State Tracking ( http://arxiv.org/abs/2409.09629v2 ) ライセンス: Link先を確認 | Yi-Jyun Sun, Suvodip Dey, Dilek Hakkani-Tur, Gokhan Tur, | (参考訳) 大規模言語モデル(LLM)に基づく会話型AIシステムでは,特に幻覚の低減と過度信頼の防止のために,モデルのアウトプットに対する信頼度の推定が重要である。
本研究では,オープンおよびクローズドウェイト LLM に提案する手法を包括的に探索し,モデル不確実性を定量化し,LLM 生成応答の信頼性を向上させることを目的として,特にタスク指向対話システム(TODS)における対話状態追跡(DST)に焦点を当てた。
モデルの種類にかかわらず、不確実性に対処するためには、よく校正された信頼スコアが不可欠であり、モデル性能が向上する。
そこで我々は,ソフトマックス,生トークンスコア,言語的信頼度に基づいて信頼度を推定する4つの手法と,これらの手法を組み合わせて,曲線(AUC)測定値に基づくキャリブレーションの評価を行い,より高い校正率を示す。
また、閉モデルに対して提案する自己探索機構によりこれを拡張する。
さらに,これらの手法をDSTタスク用に微調整したオープンウェイトモデルを用いて評価し,より優れた関節ゴール精度(JGA)を実現する。
また, 微調整式オープンウェイトLLMではAUC性能が向上し, 信頼性スコアの校正精度が向上することが示唆された。
Estimation of a model's confidence on its outputs is critical for Conversational AI systems based on large language models (LLMs), especially for reducing hallucination and preventing over-reliance. In this work, we provide an exhaustive exploration of methods, including approaches proposed for open- and closed-weight LLMs, aimed at quantifying and leveraging model uncertainty to improve the reliability of LLM-generated responses, specifically focusing on dialogue state tracking (DST) in task-oriented dialogue systems (TODS). Regardless of the model type, well-calibrated confidence scores are essential to handle uncertainties, thereby improving model performance. We evaluate four methods for estimating confidence scores based on softmax, raw token scores, verbalized confidences, and a combination of these methods, using the area under the curve (AUC) metric to assess calibration, with higher AUC indicating better calibration. We also enhance these with a self-probing mechanism, proposed for closed models. Furthermore, we assess these methods using an open-weight model fine-tuned for the task of DST, achieving superior joint goal accuracy (JGA). Our findings also suggest that fine-tuning open-weight LLMs can result in enhanced AUC performance, indicating better confidence score calibration. | 翻訳日:2024-09-24 11:55:37 公開日:2024-09-21 |
# CSKV:長期シナリオにおけるKVキャッシュのための訓練効率の良いチャネルスライキング
CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios ( http://arxiv.org/abs/2409.10593v2 ) ライセンス: Link先を確認 | Luning Wang, Shiyao Li, Xuefei Ning, Zhihang Yuan, Shengen Yan, Guohao Dai, Yu Wang, | (参考訳) 大きな言語モデル(LLM)は、長いコンテキストタスクを処理するために広く採用されている。
しかしながら、キー値(KV)キャッシュの大きなメモリオーバーヘッドは、長期コンテキストシナリオにおいて大きな課題を生じさせる。
既存のトレーニング不要なKVキャッシュ圧縮手法は、圧縮限界のある量子化とトークンプルーニングに重点を置いており、過度なスパーシリティによってパフォーマンスが著しく低下する可能性がある。
他の手法はKVオーバーヘッドが少ないが、かなりのトレーニングオーバーヘッドを必要とする新しいアーキテクチャを設計する。
上記の2つの欠点に対処するため、チャネル次元の冗長性をさらに検討し、少ないトレーニングコストでアーキテクチャレベルの設計を適用する。
そこで我々は,KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング手法であるCSKVを紹介した:(1)KVキャッシュの特異値分布をまず解析し,チャネル次元に沿った大きな冗長性と圧縮ポテンシャルを明らかにする。
そこで本研究では,鍵層と値層を低階分解し,低次元特徴を記憶する手法を提案する。
2) モデル性能を維持するため,ウィンドウベースフル精度KVキャッシュと低精度圧縮KVキャッシュを含む分岐KVキャッシュを導入する。
(3) トレーニングコストを削減するため, 圧縮KVキャッシュの階層的再構成損失を最小限に抑える。
大規模な実験により、CSKVはKVキャッシュのメモリオーバーヘッドを80%削減し、モデルの長期コンテキスト能力を維持できることが示された。
さらに,本手法を量子化とシームレスに組み合わせることで,メモリオーバーヘッドをさらに低減し,最大95%の圧縮比が得られることを示す。
Large Language Models (LLMs) have been widely adopted to process long-context tasks. However, the large memory overhead of the key-value (KV) cache poses significant challenges in long-context scenarios. Existing training-free KV cache compression methods typically focus on quantization and token pruning, which have compression limits, and excessive sparsity can lead to severe performance degradation. Other methods design new architectures with less KV overhead but require significant training overhead. To address the above two drawbacks, we further explore the redundancy in the channel dimension and apply an architecture-level design with minor training costs. Therefore, we introduce CSKV, a training-efficient Channel Shrinking technique for KV cache compression: (1) We first analyze the singular value distribution of the KV cache, revealing significant redundancy and compression potential along the channel dimension. Based on this observation, we propose using low-rank decomposition for key and value layers and storing the low-dimension features. (2) To preserve model performance, we introduce a bi-branch KV cache, including a window-based full-precision KV cache and a low-precision compressed KV cache. (3) To reduce the training costs, we minimize the layer-wise reconstruction loss for the compressed KV cache instead of retraining the entire LLMs. Extensive experiments show that CSKV can reduce the memory overhead of the KV cache by 80% while maintaining the model's long-context capability. Moreover, we show that our method can be seamlessly combined with quantization to further reduce the memory overhead, achieving a compression ratio of up to 95%. | 翻訳日:2024-09-24 11:55:37 公開日:2024-09-21 |
# HGSLoc:3DGSベースのヒューリスティックカメラポス・リファインメント
HGSLoc: 3DGS-based Heuristic Camera Pose Refinement ( http://arxiv.org/abs/2409.10925v2 ) ライセンス: Link先を確認 | Zhongyan Niu, Zhen Tan, Jinpu Zhang, Xueliang Yang, Dewen Hu, | (参考訳) 視覚的ローカライゼーションは、既知のシーン表現内のカメラのポーズと方向を決定するプロセスを指す。
この課題は、照明の変化や視角の変化といった要因によってしばしば複雑になる。
本稿では,HGSLocを提案する。HGSLocは3次元再構成とヒューリスティック・リファインメント・ストラテジーを統合し,より高速なポーズ推定を実現するための軽量・プラグ・アンド・プレイ・ポーズ最適化フレームワークである。
具体的には、3D表現と高忠実度レンダリングのための明示的な幾何学的マップを導入し、高品質な合成ビューの生成が正確な視覚的ローカライゼーションをサポートする。
提案手法は,NeRFに基づくニューラルネットワークのローカライズ手法と比較して,高速なレンダリング速度とローカライズ精度を示す。
提案手法では,目標ノードの探索を高速に行うことができ,ステップレベルの最適化ステップを設定すれば,誤差の少ないシナリオにおけるポーズ精度を向上させることができる。
慎重に設計されたヒューリスティック関数により効率の良い最適化機能を提供し、大まかなローカライズ推定における誤りの迅速な低減を可能にする。
提案手法は,複雑なニューラルネットワークモデルへの依存を軽減するとともに,雑音に対する堅牢性の向上と,課題のある環境での局所化精度の向上を,ニューラルネットワーク共同最適化戦略と比較した。
本稿では,3次元再構成とヒューリスティック・リファインメント・ストラテジーの統合による視覚的ローカライゼーションの新たなアプローチを提案する。
Visual localization refers to the process of determining camera poses and orientation within a known scene representation. This task is often complicated by factors such as illumination changes and variations in viewing angles. In this paper, we propose HGSLoc, a novel lightweight, plug and-play pose optimization framework, which integrates 3D reconstruction with a heuristic refinement strategy to achieve higher pose estimation accuracy. Specifically, we introduce an explicit geometric map for 3D representation and high-fidelity rendering, allowing the generation of high-quality synthesized views to support accurate visual localization. Our method demonstrates a faster rendering speed and higher localization accuracy compared to NeRF-based neural rendering localization approaches. We introduce a heuristic refinement strategy, its efficient optimization capability can quickly locate the target node, while we set the step-level optimization step to enhance the pose accuracy in the scenarios with small errors. With carefully designed heuristic functions, it offers efficient optimization capabilities, enabling rapid error reduction in rough localization estimations. Our method mitigates the dependence on complex neural network models while demonstrating improved robustness against noise and higher localization accuracy in challenging environments, as compared to neural network joint optimization strategies. The optimization framework proposed in this paper introduces novel approaches to visual localization by integrating the advantages of 3D reconstruction and heuristic refinement strategy, which demonstrates strong performance across multiple benchmark datasets, including 7Scenes and DB dataset. | 翻訳日:2024-09-24 11:55:37 公開日:2024-09-21 |
# GReDP: グラディエント保存雑音低減型微分プライベートトレーニングのためのロバストなアプローチ
GReDP: A More Robust Approach for Differential Private Training with Gradient-Preserving Noise Reduction ( http://arxiv.org/abs/2409.11663v2 ) ライセンス: Link先を確認 | Haodi Wang, Tangyu Jiang, Yu Guo, Chengjun Cai, Cong Wang, Xiaohua Jia, | (参考訳) ディープラーニングモデルは、訓練セットや手順に大きく依存する階層的な特徴を表現する能力のため、各地域で広く採用されている。
したがって、トレーニングプロセスとディープラーニングアルゴリズムを保護することは、プライバシ保護において最重要である。
強力な暗号プリミティブとしての差分プライバシー(DP)は、ディープラーニングトレーニングで満足な結果を得たが、既存のスキームはモデルユーティリティの保存に不足している。
以上の課題に対処するため,本論文では,GReDPと呼ばれるDPトレーニングに対して,より堅牢なアプローチを提案する。
具体的には、周波数領域におけるモデル勾配を計算し、ノイズレベルを低減するための新しいアプローチを採用する。
従来の研究と異なり、GReDPはDPSGD [1]に比べてノイズ尺度の半分しか必要とせず、全ての勾配情報をそのままに保っている。
理論的にも経験的にも,本手法の詳細な解析を行う。
実験の結果,GReDPはすべてのモデルやトレーニング設定のベースラインよりも一貫して動作することがわかった。
Deep learning models have been extensively adopted in various regions due to their ability to represent hierarchical features, which highly rely on the training set and procedures. Thus, protecting the training process and deep learning algorithms is paramount in privacy preservation. Although Differential Privacy (DP) as a powerful cryptographic primitive has achieved satisfying results in deep learning training, the existing schemes still fall short in preserving model utility, i.e., they either invoke a high noise scale or inevitably harm the original gradients. To address the above issues, in this paper, we present a more robust approach for DP training called GReDP. Specifically, we compute the model gradients in the frequency domain and adopt a new approach to reduce the noise level. Unlike the previous work, our GReDP only requires half of the noise scale compared to DPSGD [1] while keeping all the gradient information intact. We present a detailed analysis of our method both theoretically and empirically. The experimental results show that our GReDP works consistently better than the baselines on all models and training settings. | 翻訳日:2024-09-24 11:55:37 公開日:2024-09-21 |
# OOD検出の最近の進歩:問題とアプローチ
Recent Advances in OOD Detection: Problems and Approaches ( http://arxiv.org/abs/2409.11884v2 ) ライセンス: Link先を確認 | Shuo Lu, Yingsheng Wang, Lijun Sheng, Aihua Zheng, Lingxiao He, Jian Liang, | (参考訳) アウト・オブ・ディストリビューション(OOD)検出は、信頼性の高い機械学習システムを構築する上で不可欠な要素であるトレーニングカテゴリ空間外のテストサンプルを検出することを目的としている。
OOD検出に関する既存のレビューは、主にメソッド分類に焦点を当て、様々なアプローチを分類して分野を調査している。
しかし、近年の多くの研究は、テスト時間適応、マルチモーダルデータソース、その他の新しいコンテキストなど、従来のOOD検出シナリオに重点を置いている。
本調査では,OOD検出の最近の進歩を,問題シナリオの観点から初めて考察した。
トレーニングプロセスが完全に制御されているかに応じて、OOD検出方法をトレーニング駆動およびトレーニング非依存に分割する。
また,事前学習モデルの開発が急速に進んでいることを考えると,事前学習モデルに基づく大規模なOOD検出も重要なカテゴリと見なされ,個別に議論される。
さらに,評価シナリオ,様々な応用,今後の研究方向性について論じる。
本調査は,新たな手法の提案と,より実践的なシナリオの拡充に寄与すると考えられる。
関連論文のキュレートされたリストはGithubリポジトリに掲載されている。
Out-of-distribution (OOD) detection aims to detect test samples outside the training category space, which is an essential component in building reliable machine learning systems. Existing reviews on OOD detection primarily focus on method taxonomy, surveying the field by categorizing various approaches. However, many recent works concentrate on non-traditional OOD detection scenarios, such as test-time adaptation, multi-modal data sources and other novel contexts. In this survey, we uniquely review recent advances in OOD detection from the problem scenario perspective for the first time. According to whether the training process is completely controlled, we divide OOD detection methods into training-driven and training-agnostic. Besides, considering the rapid development of pre-trained models, large pre-trained model-based OOD detection is also regarded as an important category and discussed separately. Furthermore, we provide a discussion of the evaluation scenarios, a variety of applications, and several future research directions. We believe this survey with new taxonomy will benefit the proposal of new methods and the expansion of more practical scenarios. A curated list of related papers is provided in the Github repository: https://github.com/shuolucs/Awesome-Out-Of-Distribution-Detection | 翻訳日:2024-09-24 11:55:37 公開日:2024-09-21 |