このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240918となっている論文です。

PDF登録状況(公開日: 20240918)

TitleAuthorsAbstract論文公表日・翻訳日
# Gut microbiota成分の多変量解析と胃癌発生率

Multivariate Analysis of Gut Microbiota Composition and Prevalence of Gastric Cancer ( http://arxiv.org/abs/2409.12209v1 )

ライセンス: Link先を確認
Aadhith Shankarnarayanan, Dheeman Gangopadhyay, Ayman Alzaatreh, (参考訳) 胃癌症例の世界的な急増は、この病気の予測マーカーとして腸内細菌の可能性を調査するきっかけとなった。 消化管の多様性の変化は、胃癌のリスクの上昇と関連していると考えられている。 本研究は, 胃全摘術および胃全摘術を施行した症例を対象に, 胃癌と腸内細菌叢の相関について検討した。 データマイニングと統計学習の手法を用いて,96名の被験者から得られた16S-RNA配列遺伝子を解析し,胃癌に関連する腸内細菌の特定の遺伝子を同定した。 この研究は、胃癌のリスクを評価するバイオマーカーとして機能する可能性のある、いくつかの著名な細菌属を明らかにした。 これらの所見は早期胃癌の診断における早期リスクアセスメントおよび予防措置の経路を提供する。 これらの腸内微生物が胃癌進行に影響を及ぼす複雑なメカニズムは、さらなる調査を保証している。 本研究は, 腸癌軸の理解の高まりと, 疾患の予知・予防への関与に大きく貢献することを目的としている。

The global surge in the cases of gastric cancer has prompted an investigation into the potential of gut microbiota as a predictive marker for the disease. The alterations in gut diversity are suspected to be associated with an elevated risk of gastric cancer. This paper delves into finding the correlation between gut microbiota and gastric cancer, focusing on patients who have undergone total and subtotal gastrectomy. Utilizing data mining and statistical learning methods, an analysis was conducted on 16S-RNA sequenced genes obtained from 96 participants with the aim of identifying specific genera of gut microbiota associated with gastric cancer. The study reveals several prominent bacterial genera that could potentially serve as biomarkers assessing the risk of gastric cancer. These findings offer a pathway for early risk assessment and precautionary measures in the diagnosis of gastric cancer. The intricate mechanisms through which these gut microbiotas influence gastric cancer progression warrant further investigation. This research significantly aims to contribute to the growing understanding of the gut-cancer axis and its implications in disease prediction and prevention.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-18
# 異なる大きさのエキスパートの混在

Mixture of Diverse Size Experts ( http://arxiv.org/abs/2409.12210v1 )

ライセンス: Link先を確認
Manxi Sun, Wei Liu, Jian Luan, Pengzhi Gao, Bin Wang, (参考訳) Sparsely-Activated Mixture-of-Experts (MoE)は、計算コストを犠牲にすることなく、大規模言語モデル(LLM)のスケールアップで人気を博している。 その成功にもかかわらず、現在の設計では、すべての専門家が同じサイズを持つという課題に直面しており、トークンが次のトークンを生成するのに最適なサイズで専門家を選択する能力を制限する。 本稿では,異なる大きさのエキスパートを持つよう設計された層を持つMoEアーキテクチャであるMixture of Diverse Size Experts (MoDSE)を提案する。 難解なトークン生成タスクの解析により,様々なサイズの専門家がより良い予測を達成でき,訓練期間後に専門家の経路が安定する傾向にあることが示された。 しかし、さまざまなサイズのエキスパートを持つことは、不均一なワークロードの分散につながる可能性がある。 この制限に対処するために、複数のGPU間でワークロードを均等に分散するエキスパートペアアロケーション戦略を導入する。 複数のベンチマークにわたる総合的な評価は、パラメータ予算を専門家に適応的に割り当て、同じパラメータサイズと専門家の数を維持しながら、既存のMoEよりも優れており、MoDSEの有効性を示している。

The Sparsely-Activated Mixture-of-Experts (MoE) has gained increasing popularity for scaling up large language models (LLMs) without exploding computational costs. Despite its success, the current design faces a challenge where all experts have the same size, limiting the ability of tokens to choose the experts with the most appropriate size for generating the next token. In this paper, we propose the Mixture of Diverse Size Experts (MoDSE), a new MoE architecture with layers designed to have experts of different sizes. Our analysis of difficult token generation tasks shows that experts of various sizes achieve better predictions, and the routing path of the experts tends to be stable after a training period. However, having experts of diverse sizes can lead to uneven workload distribution. To tackle this limitation, we introduce an expert-pair allocation strategy to evenly distribute the workload across multiple GPUs. Comprehensive evaluations across multiple benchmarks demonstrate the effectiveness of MoDSE, as it outperforms existing MoEs by allocating the parameter budget to experts adaptively while maintaining the same total parameter size and the number of experts.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-18
# SemAI: セマンティック人工知能によるインターネットのためのDNAストレージ

SemAI: Semantic Artificial Intelligence-enhanced DNA storage for Internet-of-Things ( http://arxiv.org/abs/2409.12213v1 )

ライセンス: Link先を確認
Wenfeng Wu, Luping Xiang, Qiang Liu, Kun Yang, (参考訳) IoT(Internet of Things)などのテクノロジの急速な進化に伴い、グローバルなデータランドスケープは急激な急増を経験し、現代のクラウドストレージアプリケーションのための先進的な媒体として、DNAストレージをスポットライトに突きつけている。 本稿では,Semantic Artificial Intelligence-enhanced DNA Storage(SemAI-DNA)パラダイムを紹介する。 1) 意味抽出モジュールをエンコード終端に埋め込み,ニュアンスド・セマンティクス情報の簡潔なエンコーディング及び保存を容易にする。 2) 決定的に最適化されたデコーダのアーキテクチャフレームワークと組み合わさって, システムフォールトトレランスの促進にDNA分子のマルチコピー性を活用する, 復号終端における有望なマルチリードフィルタリングモデルを構築した。 数値的な結果から,SemAI-DNAの有効性が示され,従来の深層学習手法に比べて2.61dBピーク信号-雑音比(PSNR)が向上し,構造類似度指数(SSIM)が0.13改善した。

In the wake of the swift evolution of technologies such as the Internet of Things (IoT), the global data landscape undergoes an exponential surge, propelling DNA storage into the spotlight as a prospective medium for contemporary cloud storage applications. This paper introduces a Semantic Artificial Intelligence-enhanced DNA storage (SemAI-DNA) paradigm, distinguishing itself from prevalent deep learning-based methodologies through two key modifications: 1) embedding a semantic extraction module at the encoding terminus, facilitating the meticulous encoding and storage of nuanced semantic information; 2) conceiving a forethoughtful multi-reads filtering model at the decoding terminus, leveraging the inherent multi-copy propensity of DNA molecules to bolster system fault tolerance, coupled with a strategically optimized decoder's architectural framework. Numerical results demonstrate the SemAI-DNA's efficacy, attaining 2.61 dB Peak Signal-to-Noise Ratio (PSNR) gain and 0.13 improvement in Structural Similarity Index (SSIM) over conventional deep learning-based approaches.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-18
# Omicsデータを用いた深層学習型モノセラピー薬効予測モデルの再利用性評価

Assessing Reusability of Deep Learning-Based Monotherapy Drug Response Prediction Models Trained with Omics Data ( http://arxiv.org/abs/2409.12215v1 )

ライセンス: Link先を確認
Jamie C. Overbeek, Alexander Partin, Thomas S. Brettin, Nicholas Chia, Oleksandr Narykov, Priyanka Vasanthakumari, Andreas Wilke, Yitan Zhu, Austin Clyde, Sara Jones, Rohan Gnanaolivu, Yuanhang Liu, Jun Jiang, Chen Wang, Carter Knutson, Andrew McNaughton, Neeraj Kumar, Gayara Demini Fernando, Souparno Ghosh, Cesar Sanchez-Villalobos, Ruibo Zhang, Ranadip Pal, M. Ryan Weil, Rick L. Stevens, (参考訳) がん薬物反応予測(DRP)モデルでは、個々の患者プロファイルに適切な治療を施した精度オンコロジーへの有望なアプローチが提示される。 深層学習(DL)法はこの分野で大きな可能性を示しているが、臨床実践にうまく翻訳され、治療反応の基礎となる分子機構に光を当てることができるモデルは、共同研究の成果から生まれる可能性が高い。 これは、より広い科学コミュニティによって改善され、テストされる、再利用可能で適応可能なモデルの必要性を強調している。 本研究では,予測DRPモデルの再利用性を評価するためのスコアリングシステムを提案し,それを17のピアレビューDLベースDRPモデルに適用する。 科学領域にわたるDLモデルを体系的に評価・比較する手法の開発を目的としたIMPROVE(Innovative Methodologies and New Data for Predictive Oncology Model Evaluation)プロジェクトの一環として,ソフトウェア環境,コードのモジュール化,データ可用性と前処理の3つの主要なカテゴリに着目した17のDRPモデルを解析した。 主な焦点ではないが、モデルの振る舞いと適応性を検証するために重要なパフォーマンスメトリクスを再現しようとした。 17のDRPモデルに対する評価は、モデル再利用性における長所と短所の両方を明らかにしている。 厳格な実践とオープンソース共有を促進するため,予測モデルの開発と共有を推奨する。 これらの勧告に従えば、この研究で特定された多くの問題に対処でき、研究者に多大な負担を加えることなく、モデル再利用性を向上させることができる。 この研究は、様々なDRPモデルにまたがる再利用可能性と再現性に関する初の総合的な評価を提供し、現在のモデル共有プラクティスに関する洞察を提供し、DRPとより広範なAI対応科学研究コミュニティ内の標準を促進する。

Cancer drug response prediction (DRP) models present a promising approach towards precision oncology, tailoring treatments to individual patient profiles. While deep learning (DL) methods have shown great potential in this area, models that can be successfully translated into clinical practice and shed light on the molecular mechanisms underlying treatment response will likely emerge from collaborative research efforts. This highlights the need for reusable and adaptable models that can be improved and tested by the wider scientific community. In this study, we present a scoring system for assessing the reusability of prediction DRP models, and apply it to 17 peer-reviewed DL-based DRP models. As part of the IMPROVE (Innovative Methodologies and New Data for Predictive Oncology Model Evaluation) project, which aims to develop methods for systematic evaluation and comparison DL models across scientific domains, we analyzed these 17 DRP models focusing on three key categories: software environment, code modularity, and data availability and preprocessing. While not the primary focus, we also attempted to reproduce key performance metrics to verify model behavior and adaptability. Our assessment of 17 DRP models reveals both strengths and shortcomings in model reusability. To promote rigorous practices and open-source sharing, we offer recommendations for developing and sharing prediction models. Following these recommendations can address many of the issues identified in this study, improving model reusability without adding significant burdens on researchers. This work offers the first comprehensive assessment of reusability and reproducibility across diverse DRP models, providing insights into current model sharing practices and promoting standards within the DRP and broader AI-enabled scientific research community.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-18
# 自由電子上の単一光子リコイルの探索

Exploring single-photon recoil on free electrons ( http://arxiv.org/abs/2409.12216v1 )

ライセンス: Link先を確認
Alexander Preimesberger, Dominik Hornof, Theo Dorfner, Thomas Schachinger, Martin Hrtoň, Andrea Konečná, Philipp Haslinger, (参考訳) 時間分解電子と光子検出の最近の進歩は、透過電子顕微鏡における電子とその関連カソード発光(CL)光子の新しい相関測定を可能にする。 これらの研究は、コヒーレントCLプロセスにおける基礎となる物理学を理解するために重要である。 本研究では,電子-光子対の同時検出により得られたエネルギー-運動量保存と単一粒子レベルでの分散関係について実験的に検討する。 これは、非放射的過程によって無視される弱い信号の検出において前代未聞の明確さを可能にするだけでなく、電子-光子対内の絡み合いを探索するための運動量-位置相関を調査するための新しい実験経路を提供する。

Recent advancements in time-resolved electron and photon detection enable novel correlative measurements of electrons and their associated cathodoluminescence (CL) photons within a transmission electron microscope. These studies are pivotal for understanding the underlying physics in coherent CL processes. We present experimental investigations of energy-momentum conservation and the corresponding dispersion relation on the single particle level, achieved through coincidence detection of electron-photon pairs. This not only enables unprecedented clarity in detecting weak signals otherwise obscured by non-radiative processes but also provides a new experimental pathway to investigate momentum-position correlations to explore entanglement within electron-photon pairs.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-18
# ニューラルネットワークからの共形場

Conformal Fields from Neural Networks ( http://arxiv.org/abs/2409.12222v1 )

ライセンス: Link先を確認
James Halverson, Joydeep Naskar, Jiahua Tian, (参考訳) 埋め込み形式は、$D$次元の共形体を構成するために、$(D+2)$次元の同質ニューラルネットワークのローレンツ不変アンサンブルを射影型ヌルコーンに制限することで用いられる。 共形相関器は、ニューラルネットワークのパラメータ空間記述を用いて計算することができる。 特定の4点相関器を多数の例で計算し、スペクトルを解明する4次元共形ブロック分解を行う。 いくつかの例では、この解析はファインマン積分に対する最近のアプローチによって促進される。 一般化自由CFTは、ニューラルネットワークの無限幅ガウス過程限界を用いて構築され、自由ボソンの実現を可能にする。 ディープ・ネットワークへの拡張は、各層における共形体を構成し、それらの共形次元と4点関数に関する再帰関係を持つ。 数値的なアプローチについて論じる。

We use the embedding formalism to construct conformal fields in $D$ dimensions, by restricting Lorentz-invariant ensembles of homogeneous neural networks in $(D+2)$ dimensions to the projective null cone. Conformal correlators may be computed using the parameter space description of the neural network. Exact four-point correlators are computed in a number of examples, and we perform a 4D conformal block decomposition that elucidates the spectrum. In some examples the analysis is facilitated by recent approaches to Feynman integrals. Generalized free CFTs are constructed using the infinite-width Gaussian process limit of the neural network, enabling a realization of the free boson. The extension to deep networks constructs conformal fields at each subsequent layer, with recursion relations relating their conformal dimensions and four-point functions. Numerical approaches are discussed.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-18
# 量子線型光学におけるリー代数不変量

Lie algebraic invariants in quantum linear optics ( http://arxiv.org/abs/2409.12223v1 )

ライセンス: Link先を確認
Pablo V. Parellada, Vicent Gimeno i Garcia, Julio José Moyano-Fernández, Juan Carlos Garcia-Escartin, (参考訳) 量子線形光学は、量子計算の優位性を得るための有望な候補である。 しかし、選択後の線形光学は、与えられた入力状態から量子状態を生成するのに十分ではない。 これは、いくつかの計算では準備が難しいリソースが絡み合わなければならないため、その実用性を制限する。 したがって、線形光学状態の準備についてより深く理解する必要がある。 本研究は,任意の受動線形干渉計に沿う任意の状態の進化における保存量の導出法を提案する。 我々は状態の密度作用素を受動線型光ハミルトニアンのリー代数に射影することで不変量を得る。 入力状態と出力状態が異なる不変量を持つ場合、一方を他方に進化させる線形光学実験を設計することは不可能である。 したがって、この不変式は、ベル状態やNOON状態のような量子情報に有用な絡み合った状態をフォック状態のような容易に準備可能な状態から作成する際に、探索を狭めることができる。 我々の不変量から得られる必要条件を考慮し, 将来的かつ近似的な状態合成法は, 不可能な線形光学的進化を解く必要があると結論付けている。

Quantum linear optics is a promising candidate for obtaining a quantum computational advantage. However, linear optics without post-selection is not powerful enough to produce any quantum state from a given input state. This limits its utility since some computations require entangled resources that are difficult to prepare. Thus, we need a deeper understanding of linear optical state preparation. In this work, we give a recipe to derive conserved quantities in the evolution of arbitrary states along any possible passive linear interferometer. We obtain the invariants by projecting the density operator of the state onto the Lie algebra of passive linear optical Hamiltonians. The conservation of the invariants gives necessary conditions for exact and approximate state preparation with passive linear optics: if input and output states have different invariants, it will be impossible to design a linear optical experiment that evolves one into the other or a sufficiently close one. Therefore, the invariants allow us to narrow the search when trying to prepare entangled states useful for quantum information, like Bell or NOON states, from easy-to-prepare states, like Fock states. We conclude that future exact and approximate state preparation methods will need to take into account the necessary conditions given by our invariants to weed out impossible linear optical evolutions.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-18
# 駆動散逸型ボゾン鎖におけるカオスと空間的予熱

Chaos and spatial prethermalization in driven-dissipative bosonic chains ( http://arxiv.org/abs/2409.12225v1 )

ライセンス: Link先を確認
Filippo Ferrari, Fabrizio Minganti, Camille Aron, Vincenzo Savona, (参考訳) 量子多体系の熱化は、それらが自然に熱平衡に向かって進化する過程であり、典型的には、下層の緩和機構によって設定された時間スケールで展開される。 しかし、これらの系における熱化の空間的側面は理解されていない。 ボース・ハバード鎖の境界における非平衡定常状態(NESS)におけるこの現象をコヒーレントな駆動と散逸により検討する。 空間次元に沿った二段階熱化過程を明らかにする。 コヒーレントドライブに近く、フォトニック場の位相のU(1)対称性は短い長さのスケールで復元され、その振幅はずっと大きなスケールで緩和される。 これにより、カオス的だが非熱的相を特徴とする鎖の広い領域が開く。 このNESSにおけるカオスの動的指紋は、切り詰められたウィグナー近似(TWA)内の半古典的な時間外相関器(OTOC)を用いて探索される。 宇宙空間におけるこの誘引熱化の背景にある条件を探究し、同様の前熱的カオス相が、広範囲に拡張された駆動散逸系で起こる可能性が高いと論じる。

Thermalization in quantum many-body systems, the process by which they naturally evolve toward thermal equilibrium, typically unfolds over timescales set by the underlying relaxation mechanisms. Yet, the spatial aspect of thermalization in these systems is less understood. We investigate this phenomenon within the nonequilibrium steady state (NESS) of a Bose-Hubbard chain subject at its boundaries to coherent driving and dissipation, a setup inspired by current designs in circuit quantum electrodynamics. We uncover a two-stage thermalization process along the spatial dimension. Close to the coherent drive, the U(1) symmetry of the phase of the photonic field is restored over a short length scale, while its amplitude relaxes over a much larger scale. This opens up an extensive region of the chain characterized by a chaotic yet nonthermal phase. Dynamical fingerprints of chaos in this NESS are probed using semiclassical out-of-time-order correlators (OTOCs) within the truncated Wigner approximation (TWA). We explore the conditions underlying this protracted thermalization in space and argue that similar prethermal chaotic phases are likely to occur in a broad range of extended driven-dissipative systems.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-18
# 非アベリア位相秩序のデファリングによる安定性とループモデル

Stability and Loop Models from Decohering Non-Abelian Topological Order ( http://arxiv.org/abs/2409.12230v1 )

ライセンス: Link先を確認
Pablo Sala, Ruben Verresen, (参考訳) トポロジカル秩序 (TO) は、オープン量子物質の多体物理学と復号遷移の中心である。 我々は,アベリア安定化符号の誤りしきい値を理解するために重要であった非アベリアTOのデコヒーリングに関する関連する統計力学モデルを同定した。 デコヒーンド密度行列はループモデルで記述することができ、そのトポロジカルループウェイトは、デコヒーリングエノンの量子次元によって与えられるが、$N=1$であればイジングモデルに還元される。 特に、デコヒード状態の R'enyi-$n$ モーメントは$n$ 結合 O$(N)$ ループモデルに対応し、最大誤差率で密度行列を正確に対角化する。 これにより、2つの論理的に異なる基底状態とランダムな O$(N)$ループとスピンモデルの性質を関連付けることができる。 ループモデルに関する文献を用いて、より小さな次元の臨界位相の可能性を秘め、大きな量子次元を持つ非アベリア異性体を増殖させる量子チャネルに対する顕著な安定性を見出した。 北エフ量子二重モデルに対する正確な結果と、北エフハニカムモデルの非アベリア位相に関する数値シミュレーションにより、我々の枠組みを検証した。 後者は、非ボゾン次元と非積分エノン次元を持つ非固定点波動関数の例である。 我々の研究は、非アベリアTOが、特定のエノンを最大限に増殖させるのに対して堅牢である可能性を開き、これらのトポロジカルメモリの誤り訂正研究を知らせる。

Decohering topological order (TO) is central to the many-body physics of open quantum matter and decoding transitions. We identify relevant statistical mechanical models for decohering non-Abelian TO, which have been crucial for understanding the error threshold of Abelian stabilizer codes. The decohered density matrix can be described by loop models, whose topological loop weight $N$ is given by the quantum dimension of the decohering anyon -- reducing to the Ising model if $N=1$. In particular, the R\'enyi-$n$ moments of the decohered state correspond to $n$ coupled O$(N)$ loop models, and we exactly diagonalize the density matrix at maximal error rate. This allows us to relate the fidelity between two logically distinct ground states to properties of random O$(N)$ loop and spin models. Utilizing the literature on loop models, we find a remarkable stability to quantum channels which proliferate non-Abelian anyons with large quantum dimension, with the possibility of critical phases for smaller dimensions. We confirm our framework with exact results for Kitaev quantum double models, and with numerical simulations for the non-Abelian phase of the Kitaev honeycomb model. The latter is an example of a non-fixed-point wavefunction with non-bosonic and non-integral anyon dimensions. Our work opens up the possibility of non-Abelian TO being robust against maximally proliferating certain anyons, which can inform error-correction studies of these topological memories.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-18
# 摂動理論における2次崩壊速度の量子積分

Quantum integration of decay rates at second order in perturbation theory ( http://arxiv.org/abs/2409.12236v1 )

ライセンス: Link先を確認
Jorge J. Martínez de Lejarza, David F. Rentería-Estrada, Michele Grossi, Germán Rodrigo, (参考訳) 摂動量子場理論において、高エネルギー物理学における全崩壊率の量子計算を2次で行う。 この研究は、2つの最近の最先端の進歩の合流点を浮き彫りにしている。 一方、量子積分アルゴリズムQuantum Fourier Iterative Amplitude Estimation (QFIAE)は、対応するフーリエ成分を量子的に積分する前に、量子ニューラルネットワークを介して標的関数をそのフーリエ級数に効率的に分解する。 一方、ループツリー双対性(LTD)の因果ユニタリは、LTDの真空振幅の因果特性を利用して、散乱または崩壊過程に対する様々な最終状態粒子の全ての寄与をコヒーレントに生成し、フーリエ分解に好適な特異性のない積分子をもたらす。 量子シミュレータと量子ハードウェアのベンチマーク崩壊率を用いて量子アルゴリズムの性能を検証し、両方の設定で正確な理論的予測を求める。

We present the first quantum computation of a total decay rate in high-energy physics at second order in perturbative quantum field theory. This work underscores the confluence of two recent cutting-edge advances. On the one hand, the quantum integration algorithm Quantum Fourier Iterative Amplitude Estimation (QFIAE), which efficiently decomposes the target function into its Fourier series through a quantum neural network before quantumly integrating the corresponding Fourier components. On the other hand, causal unitary in the loop-tree duality (LTD), which exploits the causal properties of vacuum amplitudes in LTD to coherently generate all contributions with different numbers of final-state particles to a scattering or decay process, leading to singularity-free integrands that are well suited for Fourier decomposition. We test the performance of the quantum algorithm with benchmark decay rates in a quantum simulator and in quantum hardware, and find accurate theoretical predictions in both settings.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-18
# abinitioダウンフォールディングを用いた量子コンピュータ上の強相関物質の基底状態

Ground states of strongly-correlated materials on quantum computers using ab initio downfolding ( http://arxiv.org/abs/2409.12237v1 )

ライセンス: Link先を確認
Antonios M. Alvertis, Abid Khan, Norm M. Tubman, (参考訳) 強相関物質の正確な第一原理記述は、凝縮物質物理学において重要かつ困難な問題である。 Ab initio のダウンフォールディングは、密度汎関数理論の計算を出発点として、強い相関関係を含む正確な多体ハミルトニアンを導出する方法として現れた。 しかし、これらの物質特異的モデルの解は古典的コンピュータ上で指数関数的にスケールすることができるため、課題となっている。 ここでは, 量子コンピュータを用いて強相関系の基底状態特性を正確に記述し, 指数的スケーリング問題を回避することを提案する。 ab initio downfolding and variational quantum eigensolvers(英語版)を組み合わせ、一次元カップレート$\text{Ca}_2\text{CuO}_3$、単層膜の励起基底状態$\text{WTe}_2$、相関金属$\text{SrVO}_3$の電荷秩序状態の反強相関状態を予測する。 変分量子固有解器の古典的テンソルネットワーク実装を利用することで、最大54ドルキュービットの大型モデルをシミュレートし、相関部分空間に最大4つのバンドを包含することができる。

The accurate first-principles description of strongly-correlated materials is an important and challenging problem in condensed matter physics. Ab initio downfolding has emerged as a way of deriving accurate many-body Hamiltonians including strong correlations, representing a subspace of interest of a material, using density functional theory calculations as a starting point. However, the solution of these material-specific models can scale exponentially on classical computers, constituting a challenge. Here we propose that utilizing quantum computers for obtaining the properties of downfolded Hamiltonians yields an accurate description of the ground state properties of strongly-correlated systems, while circumventing the exponential scaling problem. We demonstrate this for diverse strongly-correlated materials by combining ab initio downfolding and variational quantum eigensolvers, correctly predicting the antiferromagnetic state of one-dimensional cuprate $\text{Ca}_2\text{CuO}_3$, the excitonic ground state of monolayer $\text{WTe}_2$, and the charge-ordered state of correlated metal $\text{SrVO}_3$. By utilizing a classical tensor network implementation of variational quantum eigensolvers we are able to simulate large models with up to $54$ qubits and encompassing up to four bands in the correlated subspace, which is indicative of the complexity that our framework can address.
翻訳日:2024-11-07 15:49:40 公開日:2024-09-18
# GCA-SUN: Exemplar-free CountingのためのGated Context-Aware Swin-UNet

GCA-SUN: A Gated Context-Aware Swin-UNet for Exemplar-Free Counting ( http://arxiv.org/abs/2409.12249v1 )

ライセンス: Link先を確認
Yuzhe Wu, Yipeng Xu, Tianyu Xu, Jialu Zhang, Jianfeng Ren, Xudong Jiang, (参考訳) Exemplar-Free Countingは、オブジェクトやexemplarのアノテーションを集中せずに関心のあるオブジェクトを数えることを目的としている。 そこで本研究では,入力画像を直接可算オブジェクトの密度マップにマッピングするGated Context-Aware Swin-UNet (GCA-SUN)を提案する。 具体的には、ゲート機構を介して無関係なオブジェクトや背景を抑圧し、自己相似行列を介して興味あるオブジェクトの注意的支持を利用するために、エンコーダにGated Context-Aware Modulationモジュールを設計する。 ゲート戦略はボトルネックネットワークとデコーダにも組み込まれ、関心のあるオブジェクトに最も関連性のある機能をハイライトする。 GCA-SUNは、可算対象間の注意的支持を明示的に活用し、ゲート機構を通じて無関係な特徴を排除することにより、予め定義されたカテゴリや例に頼らずに関心のある対象をカウント・カウントする。 FSC-147とCARPKデータセットの実験結果は、GCA-SUNが最先端の手法より優れていることを示している。

Exemplar-Free Counting aims to count objects of interest without intensive annotations of objects or exemplars. To achieve this, we propose Gated Context-Aware Swin-UNet (GCA-SUN) to directly map an input image to the density map of countable objects. Specifically, a Gated Context-Aware Modulation module is designed in the encoder to suppress irrelevant objects or background through a gate mechanism and exploit the attentive support of objects of interest through a self-similarity matrix. The gate strategy is also incorporated into the bottleneck network and the decoder to highlight the features most relevant to objects of interest. By explicitly exploiting the attentive support among countable objects and eliminating irrelevant features through the gate mechanisms, the proposed GCA-SUN focuses on and counts objects of interest without relying on predefined categories or exemplars. Experimental results on the FSC-147 and CARPK datasets demonstrate that GCA-SUN outperforms state-of-the-art methods.
翻訳日:2024-11-07 15:38:21 公開日:2024-09-18
# モデル間のトレーニングを一般化する効率的なデータセット選択:トランスダクティブネットワークとインダクティブネットワーク

Efficient Data Subset Selection to Generalize Training Across Models: Transductive and Inductive Networks ( http://arxiv.org/abs/2409.12255v1 )

ライセンス: Link先を確認
Eeshaan Jain, Tushar Nandy, Gaurav Aggarwal, Ashish Tendulkar, Rishabh Iyer, Abir De, (参考訳) 効率的な学習のための既存のサブセット選択法は、主に一般化性に欠ける個別の組合せとモデル固有のアプローチを採用する。 目に見えないアーキテクチャでは、異なるモデルで選択されたサブセットは使用できない。 この問題を解決するために、アーキテクチャをまたいで一般化するトレーニング可能なサブセット選択フレームワークである$\texttt{SubSelNet}$を提案する。 ここでは、まずアーキテクチャのグラフ構造を利用して、訓練された深層ニューラルネットワークの代理として機能し、迅速なモデル予測を行うアテンションベースのニューラルガジェットを紹介する。 そして、これらの予測を使ってサブセットのサンプルを作成します。 これは自然に$\texttt{SubSelNet}$の2つの変種を提供します。 最初の変種はトランスダクティブ(Transductive-$\texttt{SubSelNet}$)であり、小さな最適化問題を解くことで各モデルごとにサブセットを個別に計算する。 このような最適化は、モデル近似器による明示的なモデルトレーニングの置き換えによって、依然として超高速である。 第二の変種はインダクティブ(Inductive-$\texttt{SubSelNet}$)であり、最適化することなく、トレーニングされたサブセットセレクタを使用してサブセットを計算する。 我々の実験により、我々のモデルは複数の実際のデータセットにまたがるいくつかの手法より優れていることが示された。

Existing subset selection methods for efficient learning predominantly employ discrete combinatorial and model-specific approaches which lack generalizability. For an unseen architecture, one cannot use the subset chosen for a different model. To tackle this problem, we propose $\texttt{SubSelNet}$, a trainable subset selection framework, that generalizes across architectures. Here, we first introduce an attention-based neural gadget that leverages the graph structure of architectures and acts as a surrogate to trained deep neural networks for quick model prediction. Then, we use these predictions to build subset samplers. This naturally provides us two variants of $\texttt{SubSelNet}$. The first variant is transductive (called as Transductive-$\texttt{SubSelNet}$) which computes the subset separately for each model by solving a small optimization problem. Such an optimization is still super fast, thanks to the replacement of explicit model training by the model approximator. The second variant is inductive (called as Inductive-$\texttt{SubSelNet}$) which computes the subset using a trained subset selector, without any optimization. Our experiments show that our model outperforms several methods across several real datasets
翻訳日:2024-11-07 15:38:21 公開日:2024-09-18
# MQA-KEAL:アラビア語の知識編集によるマルチホップ質問回答

MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language ( http://arxiv.org/abs/2409.12257v1 )

ライセンス: Link先を確認
Muhammad Asif Ali, Nawal Daftardar, Mutayyaba Waheed, Jianbin Qin, Di Wang, (参考訳) 大規模言語モデル(LLM)は、多くのアプリケーションドメインにまたがる重要な機能を示している。 重要な課題は、これらのモデルを最新の利用可能な情報で更新し続けることである。 しかし、LLMs Knowledge Editing (KE)、すなわち、LLMsの事前の知識を編集し、Multi-hop Question Answering (MQA)を介してそれをテストしようとする試みは数多くあるが、これらの研究は主に英語に焦点を当てている。 このギャップを埋めるために、本稿では、アラビア語の知識編集におけるマルチホップ質問回答(MQA-KEAL)を提案する。 MQA-KEALは、知識編集を構造化知識単位として外部メモリに格納する。 マルチホップ問題を解くために、まずタスク分解を用いて、より小さなサブプロブレムに分解する。 その後、各サブプロブレムに対して、最終応答を生成するために、外部メモリおよび/またはターゲットLDMを反復的にクエリする。 さらに, MQUAKE-AR(英語ベンチマークMQUAKEのアラビア語翻訳)や, KE による MQA の厳密な性能評価のための MQA-AEVAL も提案する。 実験の結果、MQA-KEALはベースラインモデルよりも大きなマージンで優れていることが判明した。

Large Language Models (LLMs) have demonstrated significant capabilities across numerous application domains. A key challenge is to keep these models updated with latest available information, which limits the true potential of these models for the end-applications. Although, there have been numerous attempts for LLMs Knowledge Editing (KE), i.e., to edit the LLMs prior knowledge and in turn test it via Multi-hop Question Answering (MQA), yet so far these studies are primarily focused on English language. To bridge this gap, in this paper we propose: Multi-hop Questioning Answering under Knowledge Editing for Arabic Language (MQA-KEAL). MQA-KEAL stores knowledge edits as structured knowledge units in the external memory. In order to solve multi-hop question, it first uses task-decomposition to decompose the question into smaller sub-problems. Later for each sub-problem, it iteratively queries the external memory and/or target LLM in order to generate the final response. In addition, we also contribute MQUAKE-AR (Arabic translation of English benchmark MQUAKE), as well as a new benchmark MQA-AEVAL for rigorous performance evaluation of MQA under KE for Arabic language. Experimentation evaluation reveals MQA-KEAL outperforms the baseline models by a significant margin.
翻訳日:2024-11-07 15:38:21 公開日:2024-09-18
# WiLoR: エンド・ツー・エンドの3Dハンドのローカライゼーションと再構築

WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild ( http://arxiv.org/abs/2409.12259v1 )

ライセンス: Link先を確認
Rolandos Alexandros Potamias, Jinglei Zhang, Jiankang Deng, Stefanos Zafeiriou, (参考訳) 近年,人間とコンピュータのインタラクション,バーチャルリアリティ,ロボット工学に広く応用された3次元手ポーズ推定手法が注目されている。 対照的に、手検出パイプラインには顕著なギャップがあり、効果的な実世界のマルチハンド再構築システムを構築する上で大きな課題となっている。 本研究では,効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。 提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。 従来手法の限界に対処し,安定かつ堅牢な検出ネットワークを構築するために,照明,照明,閉塞条件の異なる2万点以上の手画像を用いた大規模データセットを導入する。 提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。 最後に、時間成分を使わずに、単眼ビデオからスムーズな3Dハンドトラッキングを実現するためのパイプラインの有効性を示す。 コード、モデル、データセットはhttps://rolpotamias.github.io/WiLoR.orgで入手できる。

In recent years, 3D hand pose estimation methods have garnered significant attention due to their extensive applications in human-computer interaction, virtual reality, and robotics. In contrast, there has been a notable gap in hand detection pipelines, posing significant challenges in constructing effective real-world multi-hand reconstruction systems. In this work, we present a data-driven pipeline for efficient multi-hand reconstruction in the wild. The proposed pipeline is composed of two components: a real-time fully convolutional hand localization and a high-fidelity transformer-based 3D hand reconstruction model. To tackle the limitations of previous methods and build a robust and stable detection network, we introduce a large-scale dataset with over than 2M in-the-wild hand images with diverse lighting, illumination, and occlusion conditions. Our approach outperforms previous methods in both efficiency and accuracy on popular 2D and 3D benchmarks. Finally, we showcase the effectiveness of our pipeline to achieve smooth 3D hand tracking from monocular videos, without utilizing any temporal components. Code, models, and dataset are available https://rolpotamias.github.io/WiLoR.
翻訳日:2024-11-07 15:38:21 公開日:2024-09-18
# LGBTQ+のサイバーバブル検出

Detecting LGBTQ+ Instances of Cyberbullying ( http://arxiv.org/abs/2409.12263v1 )

ライセンス: Link先を確認
Muhammad Arslan, Manuel Sandoval Madrigal, Mohammed Abuhamad, Deborah L. Hall, Yasin N. Silva, (参考訳) ソーシャルメディアは人類の軌道に影響を与え続けている。 しかし、その導入は、武器化されたキーボードも導入しており、通常、人のいじめが画面に飛び乗ること、すなわち、サイバーいじめをするための乱用言語が確保されている。 サイバーいじめは、世界中の若者にとって重大な脅威となり、多くの精神的な健康と幸福に影響を及ぼす。 特に危険にさらされているグループはLGBTQ+コミュニティであり、研究者はLGBTQ+と同定することと、オンラインハラスメントの増大に苦しむこととの間に強い相関関係があることを発見した。 したがって、LGBTQ+のメンバーに起きたサイバーいじめ事件を正確に識別できる機械学習モデルを開発することが重要である。 本研究の目的は、LGBTQ+個人を対象としたサイバーいじめの同定における、いくつかのトランスフォーマーモデルの有効性を比較することである。 実際のソーシャルメディアデータを用いてそれらの効果を評価することにより、複雑で微妙なサイバーいじめに対処する上で、これらの既存手法の相対的なメリットとデメリットを判定することを模索する。

Social media continues to have an impact on the trajectory of humanity. However, its introduction has also weaponized keyboards, allowing the abusive language normally reserved for in-person bullying to jump onto the screen, i.e., cyberbullying. Cyberbullying poses a significant threat to adolescents globally, affecting the mental health and well-being of many. A group that is particularly at risk is the LGBTQ+ community, as researchers have uncovered a strong correlation between identifying as LGBTQ+ and suffering from greater online harassment. Therefore, it is critical to develop machine learning models that can accurately discern cyberbullying incidents as they happen to LGBTQ+ members. The aim of this study is to compare the efficacy of several transformer models in identifying cyberbullying targeting LGBTQ+ individuals. We seek to determine the relative merits and demerits of these existing methods in addressing complex and subtle kinds of cyberbullying by assessing their effectiveness with real social media data.
翻訳日:2024-11-07 15:38:21 公開日:2024-09-18
# 多変量時系列分類のためのユーザフレンドリな基礎モデルアダプタ

User-friendly Foundation Model Adapters for Multivariate Time Series Classification ( http://arxiv.org/abs/2409.12264v1 )

ライセンス: Link先を確認
Vasilii Feofanov, Romain Ilbert, Malik Tiomoko, Themis Palpanas, Ievgen Redko, (参考訳) ファンデーションモデルは、非常に効果的であるが、しばしばリソース集約であり、かなりの推論時間とメモリを必要とする。 本稿では,次元削減手法を探求することにより,これらのモデルを限られた計算資源でより利用しやすくすることの課題に対処する。 私たちの目標は、パフォーマンスを犠牲にすることなく、ユーザーが標準GPU上でトレーニング済みの大規模なファンデーションモデルを実行できるようにすることです。 ニューラルネットワークベースのアダプタを併用した主成分分析などの古典的手法について検討し,鍵となる特徴を保ちつつ,多変量時系列データの次元性を低減することを目的とした。 我々の実験では、パフォーマンス劣化のないベースラインモデルと比較して10倍のスピードアップを示し、最大4.5倍のデータセットを単一のGPUに適合させ、ユーザフレンドリでスケーラブルな基盤モデルへの道を開いた。

Foundation models, while highly effective, are often resource-intensive, requiring substantial inference time and memory. This paper addresses the challenge of making these models more accessible with limited computational resources by exploring dimensionality reduction techniques. Our goal is to enable users to run large pre-trained foundation models on standard GPUs without sacrificing performance. We investigate classical methods such as Principal Component Analysis alongside neural network-based adapters, aiming to reduce the dimensionality of multivariate time series data while preserving key features. Our experiments show up to a 10x speedup compared to the baseline model, without performance degradation, and enable up to 4.5x more datasets to fit on a single GPU, paving the way for more user-friendly and scalable foundation models.
翻訳日:2024-11-07 15:38:21 公開日:2024-09-18
# 単位証明における環境消費の力の解き放つ

Unlocking the Power of Environment Assumptions for Unit Proofs ( http://arxiv.org/abs/2409.12269v1 )

ライセンス: Link先を確認
Siddharth Priya, Temesghen Kahsai, Arie Gurfinkel, (参考訳) コードレベルの形式検証を成功させるためには、明らかに実行環境の仮定を明確に述べることが不可欠である。 環境のためのモデルを指定するプロセスは、退屈でエラーを起こしやすいため、しばしばドメインの専門家を必要とします。 対照的に、エンジニアがユニットテストを書く際には、しばしばモック(tMocks)を使用して、テスト対象の関数が動作する環境の期待される振る舞いを定義します。 これらのtMockは、例えば、外部API呼び出し(ステートレスな振る舞い)の戻りタイプや、関数呼び出し(ステートフルな振る舞い)の正しいシーケンスなど、環境がどのように振る舞うかを記述します。 モッキングフレームワークは単体テストを作るのに非常に効果的なツールであることが証明されている。 我々の研究では、tMocksからインスピレーションを得て、vMocksと呼ばれる形式的検証の領域でそれに対応するものを紹介します。 vMocksは、コードレベルの形式検証を行うときに有効な環境を特定するための直感的なフレームワークを提供する。 我々は、SEAMOCKと呼ばれるCプログラムの検証のためのvMockライブラリを実装した。 第1に,Android Trusty Trusted Execution Environment (TEE) オープンソースプロジェクトの通信層における仕様スタイルを比較し,第2に,組込みシステムにセキュアな通信プロトコルと暗号プリミティブを提供する,広く使用されているオープンソースCライブラリ mbedTLS の検証を行った。 我々の経験から、vMocksは他の形態の環境モデルを補完するものであると結論付けている。 私たちは、すでにtMocksに精通している開発者の間で、vMocksがコードレベルの形式検証の採用を容易にしてくれると信じています。

Clearly articulating the assumptions of the execution environment is crucial for the successful application of code-level formal verification. The process of specifying a model for the environment can be both laborious and error-prone, often requiring domain experts. In contrast, when engineers write unit tests, they frequently employ mocks (tMocks) to define the expected behavior of the environment in which the function under test operates. These tMocks describe how the environment behaves, e.g., the return types of an external API call (stateless behaviour) or the correct sequence of function calls (stateful behaviour). Mocking frameworks have proven to be highly effective tools for crafting unit tests. In our work, we draw inspiration from tMocks and introduce their counterpart in the realm of formal verification, which we term vMocks. vMocks offer an intuitive framework for specifying a plausible environment when conducting code-level formal verification. We implement a vMock library for the verification of C programs called SEAMOCK. We investigate the practicality of vMocks by, first, comparing specifications styles in the communication layer of the Android Trusty Trusted Execution Environment (TEE) open source project, and second, in the verification of mbedTLS, a widely used open source C library that provides secure communication protocols and cryptography primitives for embedded systems. Based on our experience, we conclude that vMocks complement other forms of environment models. We believe that vMocks ease adoption of code-level formal verification among developers already familiar with tMocks.
翻訳日:2024-11-07 15:38:21 公開日:2024-09-18
# 歪み不変表現学習のための教師なし特徴の直交化

Unsupervised Feature Orthogonalization for Learning Distortion-Invariant Representations ( http://arxiv.org/abs/2409.12276v1 )

ライセンス: Link先を確認
Sebastian Doerrich, Francesco Di Salvo, Christian Ledig, (参考訳) 本研究は、教師なし特徴の直交化とビジョントランスフォーマーの能力を統合する新しい手法であるunORANIC+を導入し、局所的およびグローバルな関係を捕捉し、堅牢性と一般化性を向上させる。 unORANIC+の合理化されたアーキテクチャは、解剖学的および画像固有の属性を効果的に分離し、堅牢で偏りのない潜在的表現をもたらし、様々な医療画像分析タスクや多様なデータセットで優れたパフォーマンスを示すことができる。 大規模な実験は、UnORANIC+の復元能力、腐敗の回復力、および既存の画像歪みを修正する能力を示す。 さらに、このモデルは、疾患分類や汚職検出などの下流業務において顕著な適性を示す。 本手法を高度な医用画像解析のための有望なアルゴリズムとして位置づける多様な画像ソースとサンプルサイズのデータセットへの適応性を確認する。 ソースコードはhttps://github.com/sdoerrich97/unoranic-plus で入手できる。

This study introduces unORANIC+, a novel method that integrates unsupervised feature orthogonalization with the ability of a Vision Transformer to capture both local and global relationships for improved robustness and generalizability. The streamlined architecture of unORANIC+ effectively separates anatomical and image-specific attributes, resulting in robust and unbiased latent representations that allow the model to demonstrate excellent performance across various medical image analysis tasks and diverse datasets. Extensive experimentation demonstrates unORANIC+'s reconstruction proficiency, corruption resilience, as well as capability to revise existing image distortions. Additionally, the model exhibits notable aptitude in downstream tasks such as disease classification and corruption detection. We confirm its adaptability to diverse datasets of varying image sources and sample sizes which positions the method as a promising algorithm for advanced medical image analysis, particularly in resource-constrained environments lacking large, tailored datasets. The source code is available at https://github.com/sdoerrich97/unoranic-plus .
翻訳日:2024-11-07 15:38:21 公開日:2024-09-18
# ポントリャーギンの最大原理によるノイズロス量子ゲートの構成

Constructing Noise-Robust Quantum Gates via Pontryagin's Maximum Principle ( http://arxiv.org/abs/2409.12287v1 )

ライセンス: Link先を確認
Joshua Hanson, Dennis Lucarelli, (参考訳) 信頼性の高い量子情報技術は、環境ノイズや不完全な校正といった望ましくない障害の影響を軽減するための正確なアクチュエータと技術に依存している。 本研究では,任意のノイズローバスト量子ゲートを実装するためのスムーズな制御パルスを合成するための幾何学的最適制御理論に基づく一般的なフレームワークを提案する。 この手法は、任意の数の量子ビットまたはエネルギーレベル、任意の数の制御場、あらゆる乱れを持つ一般のユニタリ量子力学に適用され、1つまたは2つの乱れによって影響を受ける限られたゲートセットや小さなシステムにのみ適用可能な既存の動的疎結合アプローチを拡張する。 ノイズ抑制制御は、ポントリャーギンの最大原理に基づく間接軌道最適化により計算され、パラメータ化されたパルスエンベロープにヒューリスティックな構造仮定を行う必要がなくなる。

Reliable quantum information technologies depend on precise actuation and techniques to mitigate the effects of undesired disturbances such as environmental noise and imperfect calibration. In this work, we present a general framework based in geometric optimal control theory to synthesize smooth control pulses for implementing arbitrary noise-robust quantum gates. The methodology applies to generic unitary quantum dynamics with any number of qubits or energy levels, any number of control fields, and any number of disturbances, extending existing dynamical decoupling approaches that are only applicable for limited gate sets or small systems affected by one or two disturbances. The noise-suppressing controls are computed via indirect trajectory optimization based on Pontryagin's maximum principle, eliminating the need to make heuristic structural assumptions on parameterized pulse envelopes.
翻訳日:2024-11-07 15:38:21 公開日:2024-09-18
# MetaPix: 構造化されていないコンピュータビジョンデータの効率的な管理と利用のためのデータ中心型AI開発プラットフォーム

MetaPix: A Data-Centric AI Development Platform for Efficient Management and Utilization of Unstructured Computer Vision Data ( http://arxiv.org/abs/2409.12289v1 )

ライセンス: Link先を確認
Sai Vishwanath Venkatesh, Atra Akandeh, Madhu Lokanath, (参考訳) 今日の先進的なAIテクノロジの世界では、データ管理はAI/MLソリューションの重要なコンポーネントです。 効果的なデータ管理は、予測能力を著しく向上し、よりスマートなビジネスソリューションをもたらす、高品質で多様なデータセットの作成とメンテナンスに不可欠である。 本研究では,非構造化データに特化して設計された包括的データ管理ソリューションを提供する,データ中心型AIプラットフォームであるMetaPixを紹介する。 MetaPixは、データ取り込み、処理、ストレージ、バージョニング、ガバナンス、ディスカバリのための堅牢なツールを提供する。 このプラットフォームは、DataSources、Datasets、Extensions、Extractorsという4つの主要なコンセプトで運用されている。 DataSourceはMetaPixのトップレベルアセットとして機能し、特定の用途のために狭められたデータソースを表す。 データセットはMetaPix第2レベルのオブジェクトであり、構造化されたデータのコレクションである。 エクストラクタは、MetaPixのバックエンド処理に統合された内部ツールであり、データ処理と拡張を容易にする。 さらに、MetaPixは拡張をサポートし、外部のサードパーティツールとの統合によってプラットフォーム機能の拡張を可能にしている。 本稿では,各MetaPixのコンセプトを詳細に考察し,それらがプラットフォームの目的にどのように貢献するかを説明する。 構造化されていないコンピュータビジョンデータを管理するための包括的なソリューションを提供することで、MetaPixはAIアプリケーションを効果的に開発するための強力なツールセットを組織に提供する。

In today's world of advanced AI technologies, data management is a critical component of any AI/ML solution. Effective data management is vital for the creation and maintenance of high-quality, diverse datasets, which significantly enhance predictive capabilities and lead to smarter business solutions. In this work, we introduce MetaPix, a Data-centric AI platform offering comprehensive data management solutions specifically designed for unstructured data. MetaPix offers robust tools for data ingestion, processing, storage, versioning, governance, and discovery. The platform operates on four key concepts: DataSources, Datasets, Extensions and Extractors. A DataSource serves as MetaPix top level asset, representing a narrow-scoped source of data for a specific use. Datasets are MetaPix second level object, structured collections of data. Extractors are internal tools integrated into MetaPix's backend processing, facilitate data processing and enhancement. Additionally, MetaPix supports extensions, enabling integration with external third-party tools to enhance platform functionality. This paper delves into each MetaPix concept in detail, illustrating how they collectively contribute to the platform's objectives. By providing a comprehensive solution for managing and utilizing unstructured computer vision data, MetaPix equips organizations with a powerful toolset to develop AI applications effectively.
翻訳日:2024-11-07 15:38:21 公開日:2024-09-18
# 量子光学におけるコヒーレント状態のロバスト性に関する位相論的議論

Topological argument for robustness of coherent states in quantum optics ( http://arxiv.org/abs/2409.12292v1 )

ライセンス: Link先を確認
Saumya Biswas, Amrit De, Avik Dutt, (参考訳) コヒーレント状態は、波動系の古典状態に最も近い類似性であり、他のほとんどの量子光学状態と異なる特別な性質を持つことが知られている。 例えば、光子損失に対して頑健であり、ビームスプリッターとの相互作用によって容易に絡み合うことはなく、したがって 'pointer state' と呼ばれる。 ここでは、原型量子光学モデル(Jaynes-Cummingsモデル)の2つの別個の正確な写像を用いて、それらのロバスト性に関する位相的議論に関する洞察を与える。 最初の写像は、Jaynes-Cummingsモデルのボゾン化と参照化に基づいて、ゼロエネルギー位相的に保護されたエッジ状態を持つフェルミオンSu-Schrieffer-Heegerモデルである。 2番目の写像は変形したf-オシレータの代数に基づいている。 我々はこれらの写像を選択して、これらの1D格子の対称性が保護される位相を維持する上で重要であるフォック状態のラグ基底に沿ったモデルの翻訳対称性を明示的に保存する。 さらに,コヒーレント状態を保存する量子光学モデルの単一光子駆動に対応して,特定のキラル対称性が破れた場合でも,エッジ状態の形状が保存されることが示されるが,2光子駆動の追加は,マッピングされたSSHモデルの数値シミュレーションによって確認されたように,直ちにエッジ状態の形状を乱す。 我々の理論は、トポロジーに根ざした関係である、存在と絡み合いの両方において、コヒーレントな状態の堅牢性の根本的な理由に光を当てている。

Coherent states, being the closest analog to classical states of wave systems, are well known to possess special properties that set them apart from most other quantum optical states. For example, they are robust against photon loss and do not easily get entangled upon interaction with a beamsplitter, and hence are called ``pointer states'', which is often attributed to them being eigenstates of the annihilation operator. Here we provide insights into a topological argument for their robustness using two separate but exact mappings of a prototypical quantum optics model - the driven Jaynes-Cummings model. The first mapping is based on bosonization and refermionization of the Jaynes-Cummings model into the fermionic Su-Schrieffer-Heeger model hosting zero-energy topologically protected edge states. The second mapping is based on the algebra of deformed f-oscillators. We choose these mappings to explicitly preserve the translational symmetry of the model along a Fock-state ladder basis, which is important for maintaining the symmetry-protected topology of such 1D lattices. In addition, we show that the edge state form is preserved even when certain chiral symmetry is broken, corresponding to a single-photon drive for the quantum optics model that preserves the coherent state; however, the addition of two-photon drive immediately disturbs the edge state form, as confirmed by numerical simulations of the mapped SSH model; this is expected since two-photon drive strongly perturbs the coherent state into a squeezed state. Our theory sheds light on a fundamental reason for the robustness of coherent states, both in existence and entanglement -- an underlying connection to topology.
翻訳日:2024-11-07 15:38:21 公開日:2024-09-18
# RAG-Modulo:経験・批判・言語モデルを用いた逐次課題の解決

RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models ( http://arxiv.org/abs/2409.12294v1 )

ライセンス: Link先を確認
Abhinav Jain, Chris Jermaine, Vaibhav Unhelkar, (参考訳) 大規模言語モデル(LLM)は、アクションや不確実性が存在しても、ロボットの課題を解決するための有望なツールとして最近登場した。 近年のLSMに基づく意思決定手法(LSMベースのエージェントとも呼ばれる)は、適切な批評家と組み合わせることで、比較的少ない相互作用で複雑な長距離タスクを解く可能性を示している。 しかし、既存のLLMベースのエージェントのほとんどは、学習ベースのロボットシステムの本質的な特徴である過去のインタラクションを維持および学習する能力が欠如している。 RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。 メモリコンポーネントにより、エージェントは関連する過去の経験をコンテキスト内の例として自動的に検索し、組み込むことができ、より情報のある意思決定にコンテキスト対応のフィードバックを提供する。 さらに、メモリを更新することにより、時間とともに性能を向上し、学習を行う。 挑戦的なBabyAIとAlfWorldドメインの実験を通じて、タスクの成功率と効率を大幅に改善し、提案したRAG-Moduloフレームワークが最先端のベースラインを上回っていることを示す。

Large language models (LLMs) have recently emerged as promising tools for solving challenging robotic tasks, even in the presence of action and observation uncertainties. Recent LLM-based decision-making methods (also referred to as LLM-based agents), when paired with appropriate critics, have demonstrated potential in solving complex, long-horizon tasks with relatively few interactions. However, most existing LLM-based agents lack the ability to retain and learn from past interactions - an essential trait of learning-based robotic systems. We propose RAG-Modulo, a framework that enhances LLM-based agents with a memory of past interactions and incorporates critics to evaluate the agents' decisions. The memory component allows the agent to automatically retrieve and incorporate relevant past experiences as in-context examples, providing context-aware feedback for more informed decision-making. Further by updating its memory, the agent improves its performance over time, thereby exhibiting learning. Through experiments in the challenging BabyAI and AlfWorld domains, we demonstrate significant improvements in task success rates and efficiency, showing that the proposed RAG-Modulo framework outperforms state-of-the-art baselines.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# SANE:マルチモーダルおよび非微分可能なブラックボックス関数における多重最適探索のための戦略的自律的非平滑探索

SANE: Strategic Autonomous Non-Smooth Exploration for Multiple Optima Discovery in Multi-modal and Non-differentiable Black-box Functions ( http://arxiv.org/abs/2409.12295v1 )

ライセンス: Link先を確認
Arpan Biswas, Rama Vasudevan, Rohit Pant, Ichiro Takeuchi, Hiroshi Funakubo, Yongtao Liu, (参考訳) 計算と実験の両方の材料発見は、複数の相互作用を持つハミルトニアンの位相図、組合せライブラリの合成空間、物質構造イメージ空間、分子埋め込み空間などの多次元および多モードパラメータ空間の探索という課題をもたらす。 これらのシステムは、しばしばブラックボックスであり、評価するのに時間がかかるため、ベイズ最適化(BO)のようなアクティブな学習方法への強い関心がもたらされた。 しかしながら、これらのシステムは、ブラックボックスの機能を極端にマルチモーダルかつ非微分可能とし、バニラBOは科学的発見のより広い目標から逸脱して、単一または偽の最適点付近で過度に焦点を合わせることができる。 これらの制約に対処するため,我々は,複数のグローバルかつ局所的な最適領域を見つけるために,コスト駆動型確率的取得機能を備えたインテリジェントベイズ最適化ナビゲーションを容易にするために,戦略的自律非平滑探索(SANE)を開発した。 ノイズのある実験測定による真と偽の最適領域を区別するために、人間(ドメイン)知識駆動の動的代理ゲートをSANEに統合する。 我々はゲート-SANEを特定の領域で高いノイズレベルを持つ強誘電体複合ライブラリーの事前取得したピエゾレスポンス分光データと、ピエゾレスポンス力顕微鏡(PFM)ハイパースペクトルデータに実装した。 SANEは従来のBOよりも優れた性能を示し、複数の最適領域の探索を容易にし、自律的な実験において科学的価値をより高い範囲で学習を優先した。 我々の研究は、この手法の現実世界での応用の可能性を示しており、このような戦略的アプローチと人間の介入的アプローチの組み合わせは、自律的な研究における新たな発見を解き放つ上で重要である。

Both computational and experimental material discovery bring forth the challenge of exploring multidimensional and multimodal parameter spaces, such as phase diagrams of Hamiltonians with multiple interactions, composition spaces of combinatorial libraries, material structure image spaces, and molecular embedding spaces. Often these systems are black-box and time-consuming to evaluate, which resulted in strong interest towards active learning methods such as Bayesian optimization (BO). However, these systems are often noisy which make the black box function severely multi-modal and non-differentiable, where a vanilla BO can get overly focused near a single or faux optimum, deviating from the broader goal of scientific discovery. To address these limitations, here we developed Strategic Autonomous Non-Smooth Exploration (SANE) to facilitate an intelligent Bayesian optimized navigation with a proposed cost-driven probabilistic acquisition function to find multiple global and local optimal regions, avoiding the tendency to becoming trapped in a single optimum. To distinguish between a true and false optimal region due to noisy experimental measurements, a human (domain) knowledge driven dynamic surrogate gate is integrated with SANE. We implemented the gate-SANE into a pre-acquired Piezoresponse spectroscopy data of a ferroelectric combinatorial library with high noise levels in specific regions, and a piezoresponse force microscopy (PFM) hyperspectral data. SANE demonstrated better performance than classical BO to facilitate the exploration of multiple optimal regions and thereby prioritized learning with higher coverage of scientific values in autonomous experiments. Our work showcases the potential application of this method to real-world experiment, where such combined strategic and human intervening approaches can be critical to unlocking new discoveries in autonomous research.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# ランダウのJKO:同質ランダウ方程式の変分法

JKO for Landau: a variational particle method for homogeneous Landau equation ( http://arxiv.org/abs/2409.12296v1 )

ライセンス: Link先を確認
Yan Huang, Li Wang, (参考訳) ランダウ方程式の勾配流の視点と[arXiv:2007.08591]におけるランダウ計量の動的定式化から着想を得て,JKOスキームの枠組みにおけるランダウ方程式の新しい暗黙的粒子法を開発した。 まず、ランダウ計量を計算に親しみやすい形で再構成し、フローマップを用いてラグランジュ的視点に変換する。 重要な観察は、フローマップはやや複雑な積分方程式に従って進化するが、未知の成分は単に対応する密度のスコア関数と衝突核の零空間における追加項である。 この洞察は、ニューラルネットワークでフローマップを近似し、トレーニングを単純化するのに役立つ。 さらに、目的関数は二重和形式であり、確率的手法に非常に適している。 その結果,粒子相互作用の維持と計算複雑性の低減を図った確率勾配勾配の調整版を設計した。 他の決定論的粒子法と比較して, 提案法はエントロピーの正確な散逸と非条件安定性を享受し, 長期にわたる大規模プラズマシミュレーションに適している。

Inspired by the gradient flow viewpoint of the Landau equation and corresponding dynamic formulation of the Landau metric in [arXiv:2007.08591], we develop a novel implicit particle method for the Landau equation in the framework of the JKO scheme. We first reformulate the Landau metric in a computationally friendly form, and then translate it into the Lagrangian viewpoint using the flow map. A key observation is that, while the flow map evolves according to a rather complicated integral equation, the unknown component is merely a score function of the corresponding density plus an additional term in the null space of the collision kernel. This insight guides us in approximating the flow map with a neural network and simplifies the training. Additionally, the objective function is in a double summation form, making it highly suitable for stochastic methods. Consequently, we design a tailored version of stochastic gradient descent that maintains particle interactions and reduces the computational complexity. Compared to other deterministic particle methods, the proposed method enjoys exact entropy dissipation and unconditional stability, therefore making it suitable for large-scale plasma simulations over extended time periods.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# Webアプリケーションのワークロードとそのアプリケーションを理解する: 体系的文献レビューと評価

Understanding Web Application Workloads and Their Applications: Systematic Literature Review and Characterization ( http://arxiv.org/abs/2409.12299v1 )

ライセンス: Link先を確認
Roozbeh Aghili, Qiaolin Qin, Heng Li, Foutse Khomh, (参考訳) インターネット上のWebブラウザを介してアクセス可能なWebアプリケーションは、ローカルソフトウェアをインストールせずに複雑な機能を実現する。 Webアプリケーションのコンテキストにおいて、ワークロードとは、ユーザまたはアプリケーションが基盤となるシステムに送信するユーザリクエストの数を指す。 既存の研究では、ワークロードの予測や自動スケーリングなど、さまざまな目的を達成するためにWebアプリケーションのワークロードを活用している。 しかし、これらの研究は、Webアプリケーションのワークロードの特徴を体系的に理解していない、アドホックな方法で実施されている。 本研究ではまず,Webアプリケーションのワークロードを利用した既存の研究を同定し,分析するために,系統的な文献レビューを行う。 私たちの分析では、ワークロードの利用状況、分析技術、高レベルな目標に光を当てています。 さらに文献レビューで特定されたWebアプリケーションのワークロードの特徴を体系的に分析する。 分析では、これらのワークロードを2つの時間的粒度(日毎と週毎)で特徴付けることに重点を置いています。 ワークロード内の3つの毎日のパターンと3つの週次のパターンを特定し、分類することに成功しました。 本研究は,これらのワークロードパターンを統計的に評価することにより,各パターンの特異性を強調し,現実的なワークロード生成やリソース供給技術の開発に資し,幅広いアプリケーションや研究領域に役立てる方法を模索する。

Web applications, accessible via web browsers over the Internet, facilitate complex functionalities without local software installation. In the context of web applications, a workload refers to the number of user requests sent by users or applications to the underlying system. Existing studies have leveraged web application workloads to achieve various objectives, such as workload prediction and auto-scaling. However, these studies are conducted in an ad hoc manner, lacking a systematic understanding of the characteristics of web application workloads. In this study, we first conduct a systematic literature review to identify and analyze existing studies leveraging web application workloads. Our analysis sheds light on their workload utilization, analysis techniques, and high-level objectives. We further systematically analyze the characteristics of the web application workloads identified in the literature review. Our analysis centers on characterizing these workloads at two distinct temporal granularities: daily and weekly. We successfully identify and categorize three daily and three weekly patterns within the workloads. By providing a statistical characterization of these workload patterns, our study highlights the uniqueness of each pattern, paving the way for the development of realistic workload generation and resource provisioning techniques that can benefit a range of applications and research areas.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# 大規模言語モデルを用いたゲーム記述の自動生成

Autoformalization of Game Descriptions using Large Language Models ( http://arxiv.org/abs/2409.12300v1 )

ライセンス: Link先を確認
Agnieszka Mensfelt, Kostas Stathis, Vince Trencsenyi, (参考訳) ゲーム理論は戦略的相互作用を推論するための強力なフレームワークであり、日々の生活から国際政治まで様々な領域で応用されている。 しかし、これらのシナリオは自然言語で表されることが多いため、そのような文脈で正式な推論ツールを適用することは困難である。 そこで本稿では,自然言語記述を形式論理表現に変換するゲーム理論シナリオの自動形式化フレームワークを提案する。 提案手法はワンショットプロンプトと,LLMがコードを洗練できるように構文的正しさのフィードバックを提供する解法を用いる。 GPT-4oと自然言語問題記述のデータセットを用いて,98%の構文的正当性と88%の意味的正当性を達成した。 これらの結果は, LLMが実生活における戦略的相互作用と形式的推論のギャップを埋める可能性を示している。

Game theory is a powerful framework for reasoning about strategic interactions, with applications in domains ranging from day-to-day life to international politics. However, applying formal reasoning tools in such contexts is challenging, as these scenarios are often expressed in natural language. To address this, we introduce a framework for the autoformalization of game-theoretic scenarios, which translates natural language descriptions into formal logic representations suitable for formal solvers. Our approach utilizes one-shot prompting and a solver that provides feedback on syntactic correctness to allow LLMs to refine the code. We evaluate the framework using GPT-4o and a dataset of natural language problem descriptions, achieving 98% syntactic correctness and 88% semantic correctness. These results show the potential of LLMs to bridge the gap between real-life strategic interactions and formal reasoning.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# 深いガウス過程に対する補正変分推論

Amortized Variational Inference for Deep Gaussian Processes ( http://arxiv.org/abs/2409.12301v1 )

ライセンス: Link先を確認
Qiuxian Meng, Yongyou Zhang, (参考訳) ガウス過程(英: Gaussian process、GP)は、原理化された予測の不確実性推定を伴う関数近似のベイズ非パラメトリックモデルである。 ディープ・ガウス過程(Deep Gaussian process, DGPs)は、複素境界密度と複素写像を表現できるGPの多層一般化である。 正確な推論は、GPやその拡張において計算的に禁止されるか、あるいは解析的に抽出可能であるため、既存の手法では、抽出可能な近似のための変分推論 (VI) 技術に頼っている。 しかし、従来の近似GPモデルの表現性は、いくつかの問題に対して十分な情報を持たないかもしれない独立誘導変数に批判的に依存する。 本研究では,DGPに対して,各観測を変動パラメータにマッピングする推論関数を学習するアモータライズされた変分推論を導入する。 得られた方法は、より少ない入力依存型誘導変数と、より複雑な関数をモデル化できるフレキシブルなアモータイズされた辺縁後部に基づいて、より表現力の高い事前条件を享受する。 理論的推論と実験結果から,本手法は計算コストを低く抑え,従来の手法と同等あるいは良好に動作することを示す。

Gaussian processes (GPs) are Bayesian nonparametric models for function approximation with principled predictive uncertainty estimates. Deep Gaussian processes (DGPs) are multilayer generalizations of GPs that can represent complex marginal densities as well as complex mappings. As exact inference is either computationally prohibitive or analytically intractable in GPs and extensions thereof, some existing methods resort to variational inference (VI) techniques for tractable approximations. However, the expressivity of conventional approximate GP models critically relies on independent inducing variables that might not be informative enough for some problems. In this work we introduce amortized variational inference for DGPs, which learns an inference function that maps each observation to variational parameters. The resulting method enjoys a more expressive prior conditioned on fewer input dependent inducing variables and a flexible amortized marginal posterior that is able to model more complicated functions. We show with theoretical reasoning and experimental results that our method performs similarly or better than previous approaches at less computational cost.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# 異方性逆ノイズからの量子状態純度振動

Qubit-State Purity Oscillations from Anisotropic Transverse Noise ( http://arxiv.org/abs/2409.12303v1 )

ライセンス: Link先を確認
David A. Rower, Kotaro Hida, Lamia Ateshian, Helin Zhang, Junyoung An, Max Hays, Sarah E. Muschinske, Christopher M. McNally, Samuel C. Alipour-Fard, Réouven Assouly, Ilan T. Rosen, Bethany M. Niedzielski, Mollie E. Schwartz, Kyle Serniak, Jeffrey A. Grover, William D. Oliver, (参考訳) 我々は,Bloch-sphere XY平面に異方的に分布する逆ノイズの存在下での量子状態純度のダイナミクスを探求する。 本研究では,実験室軸に沿って注入された雑音を用いたラムジー実験を行い,本質的クビット・ラーモアの2倍の周波数で純度の振動を観測した。 低周波フラクソニウム量子ビットを用いて、ノイズ異方性、配向、パワースペクトル密度の振動依存性を探索する。 この結果から, 量子量子回路における逆ノイズ異方性が量子ビットデコヒーレンスに与える影響を解明し, 電荷とフラックスノイズのアンタングル化に有用である可能性が示唆された。

We explore the dynamics of qubit-state purity in the presence of transverse noise that is anisotropically distributed in the Bloch-sphere XY plane. We perform Ramsey experiments with noise injected along a fixed laboratory-frame axis and observe oscillations in the purity at twice the qubit frequency arising from the intrinsic qubit Larmor precession. We probe the oscillation dependence on the noise anisotropy, orientation, and power spectral density, using a low-frequency fluxonium qubit. Our results elucidate the impact of transverse noise anisotropy on qubit decoherence and may be useful to disentangle charge and flux noise in superconducting quantum circuits.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# 自閉症検出におけるfMRI時系列変換器の自己改善事前訓練課題

Self-Supervised Pre-training Tasks for an fMRI Time-series Transformer in Autism Detection ( http://arxiv.org/abs/2409.12304v1 )

ライセンス: Link先を確認
Yinchi Zhou, Peiyu Duan, Yuexi Du, Nicha C. Dvornek, (参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は、様々な症状や障害度を包含する神経発達障害であり、診断と治療を困難にしている。 機能的磁気共鳴画像(fMRI)は、ASDにおける脳活動の研究に広く使われ、機械学習法は、静止状態fMRI(rs-fMRI)データを解析するために応用されている。 しかし、最近のRS-fMRIデータに基づくトランスフォーマーモデルの研究は少ない。 シーケンスデータの長距離依存性をキャプチャする上で,トランスフォーマーモデルが優れていることを考慮し,関数接続を計算せずに時系列fMRIデータを直接解析するトランスフォーマーベースの自己組織化フレームワークを開発した。 小データセットにおける過度な適合に対処し、モデル性能を向上させるために、ランダムにマスキングされたfMRI時系列データを再構成するための自己教師付き事前学習タスクを提案し、様々なマスキング戦略の効果について検討する。 次に、ASD分類タスクのモデルを微調整し、2つの公開データセットと、異なる量のトレーニングデータによる5倍のクロスバリデーションを用いて評価する。 実験の結果、ROI全体をランダムにマスキングすると、トレーニング前の段階でランダムにマスキングする時間よりもモデル性能が向上し、AUCが10.8%、被験者の精度が9.3%向上した。 私たちのコードはGitHubで入手可能です。

Autism Spectrum Disorder (ASD) is a neurodevelopmental condition that encompasses a wide variety of symptoms and degrees of impairment, which makes the diagnosis and treatment challenging. Functional magnetic resonance imaging (fMRI) has been extensively used to study brain activity in ASD, and machine learning methods have been applied to analyze resting state fMRI (rs-fMRI) data. However, fewer studies have explored the recent transformer-based models on rs-fMRI data. Given the superiority of transformer models in capturing long-range dependencies in sequence data, we have developed a transformer-based self-supervised framework that directly analyzes time-series fMRI data without computing functional connectivity. To address over-fitting in small datasets and enhance the model performance, we propose self-supervised pre-training tasks to reconstruct the randomly masked fMRI time-series data, investigating the effects of various masking strategies. We then finetune the model for the ASD classification task and evaluate it using two public datasets and five-fold cross-validation with different amounts of training data. The experiments show that randomly masking entire ROIs gives better model performance than randomly masking time points in the pre-training step, resulting in an average improvement of 10.8% for AUC and 9.3% for subject accuracy compared with the transformer model trained from scratch across different levels of training data availability. Our code is available on GitHub.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# テキスト・画像生成モデルにおけるインロジョンの理解

Understanding Implosion in Text-to-Image Generative Models ( http://arxiv.org/abs/2409.12314v1 )

ライセンス: Link先を確認
Wenxin Ding, Cathy Y. Li, Shawn Shan, Ben Y. Zhao, Haitao Zheng, (参考訳) 最近の研究では、テキストから画像への生成モデルが、様々な中毒攻撃に対して驚くほど脆弱であることが示されている。 実験結果から,個々のテキストプロンプトと関連する視覚的特徴の関連性を変化させることで,これらのモデルを劣化させることができることがわかった。 さらに、複数の同時毒殺攻撃が「モデルインロジョン」を誘発し、モデルが無作為なプロンプトに対して有意義なイメージを生成できなくなる。 これらの興味深い発見は、これらのモデルに対する中毒攻撃を理解するための直感的な枠組みがないことを浮き彫りにしている。 本研究では,潜伏拡散モデルにおけるクロスアテンション機構の挙動をモデル化し解析することにより,画像生成モデルの毒性攻撃に対する堅牢性に関する最初の解析的枠組みを確立する。 我々は「教師付きグラフアライメント」の抽象的な問題として相互注意訓練をモデル化し、アライメントの硬さによってトレーニングデータの影響を公式に定量化する。 ADが高いほど、アライメントが難しくなる。 ADは、個々のプロンプト(または概念)が毒を盛るにつれて増加することを証明している。 ADが大きくなるにつれて、アライメントタスクはますます難しくなり、意味のあるテキストのプロンプトを無意味または無意味な視覚表現にマップする、非常に歪んだ結果をもたらす。 その結果、生成モデルはランダムで非コヒーレントな画像を大まかに含み出力する。 我々は、広範囲な実験を通じて分析フレームワークを検証し、新しい予期せぬ洞察を生み出しながら、モデルインロジョンの予期せぬ(そして説明できない)効果を検証し、説明する。 我々の研究は、拡散モデルとその防御に対する中毒攻撃の研究に有用なツールを提供する。

Recent works show that text-to-image generative models are surprisingly vulnerable to a variety of poisoning attacks. Empirical results find that these models can be corrupted by altering associations between individual text prompts and associated visual features. Furthermore, a number of concurrent poisoning attacks can induce "model implosion," where the model becomes unable to produce meaningful images for unpoisoned prompts. These intriguing findings highlight the absence of an intuitive framework to understand poisoning attacks on these models. In this work, we establish the first analytical framework on robustness of image generative models to poisoning attacks, by modeling and analyzing the behavior of the cross-attention mechanism in latent diffusion models. We model cross-attention training as an abstract problem of "supervised graph alignment" and formally quantify the impact of training data by the hardness of alignment, measured by an Alignment Difficulty (AD) metric. The higher the AD, the harder the alignment. We prove that AD increases with the number of individual prompts (or concepts) poisoned. As AD grows, the alignment task becomes increasingly difficult, yielding highly distorted outcomes that frequently map meaningful text prompts to undefined or meaningless visual representations. As a result, the generative model implodes and outputs random, incoherent images at large. We validate our analytical framework through extensive experiments, and we confirm and explain the unexpected (and unexplained) effect of model implosion while producing new, unforeseen insights. Our work provides a useful tool for studying poisoning attacks against diffusion models and their defenses.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# 人口統計における商業的遠隔身元認証技術の性能と株式に関する大規模研究

A large-scale study of performance and equity of commercial remote identity verification technologies across demographics ( http://arxiv.org/abs/2409.12318v1 )

ライセンス: Link先を確認
Kaniz Fatima, Michael Schuckers, Gerardo Cruz-Ortiz, Daqing Hou, Sandip Purnapatra, Tiffany Andrews, Ambuj Neupane, Brandeis Marshall, Stephanie Schuckers, (参考訳) より多くのタイプのトランザクションがオンラインに移行するにつれて、誰かのアイデンティティをリモートで確認する必要性が高まっています。 このニーズを満たすために、リモートID検証(RIdV)技術が登場した。 RIdVソリューションは通常、スマートデバイスを使用して、運転免許証のようなID文書を、その文書上の顔写真と比較することで検証する。 最近の研究は、バイオメトリックシステムが人口統計学的グループでかなりうまく機能することを確実にすることに焦点を当てている。 本研究は,3,991名の被験者を対象に,年齢,性別,人種・民族,肌の色調の5つの市販RIdVソリューションを評価した。 本稿では、統計学的手法を用いて、人口統計学的グループ間のRIdV結果が統計的に識別可能であるかどうかを判別する。 RIdVソリューションの2つはすべての人口層で同等であり、RIdVソリューションの2つは少なくとも1つの人口層を持つ。 例えば、1つの技術の結果は10.5%+/-4.5%の偽陰性率で、各カテゴリーのパフォーマンスはエラー境界内にあり、したがって等価である。 他の技術は全体的な性能が悪かったり、不平等だったりした。 これらのうちの1つでは、黒人/アフリカ系アメリカ人(B/AA)と、より暗い肌の色(Monk scale 7/8/9/10)の参加者は、偽りの拒絶を受けた。 最後に、ある技術はアジア系アメリカ人と太平洋諸島人(AAPI)にとって好ましくない性能を示した。 本研究は、リモートID認証技術の性能を十分に理解するために、人口統計群全体で製品を評価する必要があることを確認した。

As more types of transactions move online, there is an increasing need to verify someone's identity remotely. Remote identity verification (RIdV) technologies have emerged to fill this need. RIdV solutions typically use a smart device to validate an identity document like a driver's license by comparing a face selfie to the face photo on the document. Recent research has been focused on ensuring that biometric systems work fairly across demographic groups. This study assesses five commercial RIdV solutions for equity across age, gender, race/ethnicity, and skin tone across 3,991 test subjects. This paper employs statistical methods to discern whether the RIdV result across demographic groups is statistically distinguishable. Two of the RIdV solutions were equitable across all demographics, while two RIdV solutions had at least one demographic that was inequitable. For example, the results for one technology had a false negative rate of 10.5% +/- 4.5% and its performance for each demographic category was within the error bounds, and, hence, were equitable. The other technologies saw either poor overall performance or inequitable performance. For one of these, participants of the race Black/African American (B/AA) as well as those with darker skin tones (Monk scale 7/8/9/10) experienced higher false rejections. Finally, one technology demonstrated more favorable but inequitable performance for the Asian American and Pacific Islander (AAPI) demographic. This study confirms that it is necessary to evaluate products across demographic groups to fully understand the performance of remote identity verification technologies.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# 大規模言語モデルは強力な音声認識学習者である

Large Language Models Are Strong Audio-Visual Speech Recognition Learners ( http://arxiv.org/abs/2409.12319v1 )

ライセンス: Link先を確認
Umberto Cappellazzo, Minsu Kim, Honglie Chen, Pingchuan Ma, Stavros Petridis, Daniele Falavigna, Alessio Brutti, Maja Pantic, (参考訳) マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。 例えば、音声及び音声領域において、LLMは、音声トークンとオーディオエンコーダと計算されたテキストトークンとを結合して、最先端の結果を達成することで、(自動)音声認識(ASR)機能を備えることができる。 それとは対照的に、ノイズ不変の唇運動情報を利用した視覚的・音声視覚的音声認識(VSR/AVSR)のようなタスクは、ほとんど、あるいは全く注目されていない。 このギャップを埋めるために,Llama-AVSRを提案する。 事前訓練されたオーディオおよびビデオエンコーダを利用して、モダリティ固有のトークンを生成し、テキストトークンとともに、事前訓練されたLCM(eg , Llama3.1-8B)によって処理され、自動回帰的な応答を得る。 Llama-AVSRは、モダリティ固有のプロジェクタとLoRAモジュールのみが訓練されるのに対して、マルチモーダルエンコーダとLCMは凍結されているため、少数のトレーニング可能なパラメータを必要とする。 我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。 本研究は,Llama-AVSRの有効性を裏付ける重要な要因として,事前学習エンコーダとLLMの選択,LoRAモジュールの効率的な統合,モダリティ対応圧縮速度による最適性能・効率トレードオフについて検討する。

Multimodal large language models (MLLMs) have recently become a focal point of research due to their formidable multimodal understanding capabilities. For example, in the audio and speech domains, an LLM can be equipped with (automatic) speech recognition (ASR) abilities by just concatenating the audio tokens, computed with an audio encoder, and the text tokens to achieve state-of-the-art results. On the contrary, tasks like visual and audio-visual speech recognition (VSR/AVSR), which also exploit noise-invariant lip movement information, have received little or no attention. To bridge this gap, we propose Llama-AVSR, a new MLLM with strong audio-visual speech recognition capabilities. It leverages pre-trained audio and video encoders to produce modality-specific tokens which, together with the text tokens, are processed by a pre-trained LLM (e.g., Llama3.1-8B) to yield the resulting response in an auto-regressive fashion. Llama-AVSR requires a small number of trainable parameters as only modality-specific projectors and LoRA modules are trained whereas the multi-modal encoders and LLM are kept frozen. We evaluate our proposed approach on LRS3, the largest public AVSR benchmark, and we achieve new state-of-the-art results for the tasks of ASR and AVSR with a WER of 0.81% and 0.77%, respectively. To bolster our results, we investigate the key factors that underpin the effectiveness of Llama-AVSR: the choice of the pre-trained encoders and LLM, the efficient integration of LoRA modules, and the optimal performance-efficiency trade-off obtained via modality-aware compression rates.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# 3次元ガウス平滑化シームズデフォーカスに基づく深さ推定

Depth Estimation Based on 3D Gaussian Splatting Siamese Defocus ( http://arxiv.org/abs/2409.12323v1 )

ライセンス: Link先を確認
Jinchang Zhang, Ningning Xu, Hao Zhang, Guoyu Lu, (参考訳) 深さ推定は3次元幾何学の基本的な課題である。 立体深度推定は三角法で行うことができるが,グローバル・ローカル情報の統合を必要とする単分子法では容易ではない。 Defocus (DFD) 法では、カメラレンズモデルとパラメータを用いてぼやけた画像から深度情報を復元し、良好な性能を示すことが証明されている。 しかし,これらの手法は,実世界のアプリケーションでは実現不可能に近い深度推定のために,All-In-Focus (AIF) 画像に依存している。 この問題に対処するために,3次元ガウススプラッティングとシームズネットワークに基づく自己教師型フレームワークを提案する。 焦点スタック内の同じシーンの異なる焦点距離におけるブラーレベルを学習することにより、単焦点画像からデフォーカスマップとコンフュージョン円(CoC)を予測し、デフォーカスマップをDepthNetに入力して単眼深度推定を行う。 The 3D Gaussian splatting model renders de focus image using the predict CoC and the different between the real de focus image provide additional supervision signal for the Siamese Defocus self-supervised network。 このフレームワークは、人工的に合成されたデータセットと実際のぼやけたデータセットの両方で検証されている。 その後の定量化および可視化実験により,提案手法がDFD法として有効であることが実証された。

Depth estimation is a fundamental task in 3D geometry. While stereo depth estimation can be achieved through triangulation methods, it is not as straightforward for monocular methods, which require the integration of global and local information. The Depth from Defocus (DFD) method utilizes camera lens models and parameters to recover depth information from blurred images and has been proven to perform well. However, these methods rely on All-In-Focus (AIF) images for depth estimation, which is nearly impossible to obtain in real-world applications. To address this issue, we propose a self-supervised framework based on 3D Gaussian splatting and Siamese networks. By learning the blur levels at different focal distances of the same scene in the focal stack, the framework predicts the defocus map and Circle of Confusion (CoC) from a single defocused image, using the defocus map as input to DepthNet for monocular depth estimation. The 3D Gaussian splatting model renders defocused images using the predicted CoC, and the differences between these and the real defocused images provide additional supervision signals for the Siamese Defocus self-supervised network. This framework has been validated on both artificially synthesized and real blurred datasets. Subsequent quantitative and visualization experiments demonstrate that our proposed framework is highly effective as a DFD method.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# ReFu: 初歩的な3Dクラスインクリメンタルラーニングのための再帰的融合

ReFu: Recursive Fusion for Exemplar-Free 3D Class-Incremental Learning ( http://arxiv.org/abs/2409.12326v1 )

ライセンス: Link先を確認
Yi Yang, Lei Zhong, Huiping Zhuang, (参考訳) 我々はReFuと呼ばれる新しいRecursive Fusionモデルを導入し、3Dクラス増分学習のためのポイントクラウドとメッシュを統合する。 忘れを軽減したり、単一のデータモダリティに集中するための履歴データの保存に依存する既存の方法とは異なり、ReFuは、ポイントクラウドとメッシュの相補的な強みを活用しながら、模範的なストレージの必要性を排除している。 そこで本研究では,正規化された自己相関行列を更新することにより,知識を継続的に蓄積する再帰的手法を提案する。 さらに,2つのモード間の相関関係を学習するPointcloud-Guided Mesh Attention Layerを特徴とする融合モジュールを提案する。 このメカニズムは、ポイントクラウドとメッシュ機能を効果的に統合し、より堅牢で安定した継続的学習をもたらす。 各種データセットを対象とした実験により,提案手法が3次元クラスインクリメンタル学習において既存手法より優れていることが示された。 Project Page: https://arlo397.github.io/ReFu/

We introduce a novel Recursive Fusion model, dubbed ReFu, designed to integrate point clouds and meshes for exemplar-free 3D Class-Incremental Learning, where the model learns new 3D classes while retaining knowledge of previously learned ones. Unlike existing methods that either rely on storing historical data to mitigate forgetting or focus on single data modalities, ReFu eliminates the need for exemplar storage while utilizing the complementary strengths of both point clouds and meshes. To achieve this, we introduce a recursive method which continuously accumulates knowledge by updating the regularized auto-correlation matrix. Furthermore, we propose a fusion module, featuring a Pointcloud-guided Mesh Attention Layer that learns correlations between the two modalities. This mechanism effectively integrates point cloud and mesh features, leading to more robust and stable continual learning. Experiments across various datasets demonstrate that our proposed framework outperforms existing methods in 3D class-incremental learning. Project Page: https://arlo397.github.io/ReFu/
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# SplitVAEs:確率最適化問題のためのサイロデータからの分散シナリオ生成

SplitVAEs: Decentralized scenario generation from siloed data for stochastic optimization problems ( http://arxiv.org/abs/2409.12328v1 )

ライセンス: Link先を確認
H M Mohaimanul Islam, Huynh Q. N. Vo, Paritosh Ramanan, (参考訳) 大規模マルチステークホルダネットワークシステム(電力グリッドやサプライチェーンなど)における確率的最適化問題は、複雑な時空間依存性をカプセル化するデータ駆動シナリオに依存している。 しかし、計算的・論理的ボトルネックに起因するデータサイロの存在により、利害関係者データの集中的な集約は困難である。 本稿では,分散化されたシナリオ生成フレームワークであるSplitVAEsを提案する。 分散メモリシステムの実験の助けを借りて、多くの利害関係者が支配するさまざまな領域において、SplitVAEの広範な適用性を実証する。 実験により,SplitVAEは大規模ネットワークにおける空間的・時間的相互依存性を学習し,利害関係者データの連立履歴分布に一致したシナリオを分散的に生成できることが示唆された。 我々の実験によると、SplitVAEは、中央集権的な最先端のベンチマーク手法と比較して堅牢なパフォーマンスを提供すると同時に、データ転送コストを大幅に削減し、シナリオ生成に代わるスケーラブルでプライバシー向上の代替となる。

Stochastic optimization problems in large-scale multi-stakeholder networked systems (e.g., power grids and supply chains) rely on data-driven scenarios to encapsulate complex spatiotemporal interdependencies. However, centralized aggregation of stakeholder data is challenging due to the existence of data silos resulting from computational and logistical bottlenecks. In this paper, we present SplitVAEs, a decentralized scenario generation framework that leverages variational autoencoders to generate high-quality scenarios without moving stakeholder data. With the help of experiments on distributed memory systems, we demonstrate the broad applicability of SplitVAEs in a variety of domain areas that are dominated by a large number of stakeholders. Our experiments indicate that SplitVAEs can learn spatial and temporal interdependencies in large-scale networks to generate scenarios that match the joint historical distribution of stakeholder data in a decentralized manner. Our experiments show that SplitVAEs deliver robust performance compared to centralized, state-of-the-art benchmark methods while significantly reducing data transmission costs, leading to a scalable, privacy-enhancing alternative to scenario generation.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# FuzzEval: コンテキスト知覚入力生成におけるファジィアの評価

FuzzEval: Assessing Fuzzers on Generating Context-Sensitive Inputs ( http://arxiv.org/abs/2409.12331v1 )

ライセンス: Link先を確認
S Mahmudul Hasan, Polina Kozyreva, Endadul Hoque, (参考訳) 暗号プロトコルは現代のセキュリティシステムのバックボーンを形成するが、脆弱性は実装内で持続する。 ファジィングを含む従来のテスト技術は、文脈に敏感な入力に依存するため、暗号化ライブラリの脆弱性を効果的に識別するのに苦労してきた。 本稿では,13実装を対象に,暗号標準であるPKCS#1-v1.5をテストするためのコンテキスト依存入力を生成する11種類の最先端ファジィザの総合評価を行う。 本研究は, 生成した入力の妥当性と多様性の観点から, ファジィ間の性能差を明らかにした。 この調査は、文脈に敏感な入力を扱う際の既存のファジィザの限界を浮き彫りにしている。 これらの発見は、この地域のさらなる研究と開発を促進することが期待されている。

Cryptographic protocols form the backbone of modern security systems, yet vulnerabilities persist within their implementations. Traditional testing techniques, including fuzzing, have struggled to effectively identify vulnerabilities in cryptographic libraries due to their reliance on context-sensitive inputs. This paper presents a comprehensive evaluation of eleven state-of-the-art fuzzers' ability to generate context-sensitive inputs for testing a cryptographic standard, PKCS#1-v1.5, across thirteen implementations. Our study reveals nuanced performance differences among the fuzzers in terms of the validity and diversity of the produced inputs. This investigation underscores the limitations of existing fuzzers in handling context-sensitive inputs. These findings are expected to drive further research and development in this area.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# 機械学習におけるマルチプライシティの公正さの影響の知覚

Perceptions of the Fairness Impacts of Multiplicity in Machine Learning ( http://arxiv.org/abs/2409.12332v1 )

ライセンス: Link先を確認
Anna P. Meyer, Yea-Seul Kim, Aws Albarghouthi, Loris D'Antoni, (参考訳) 機械学習(ML)は、ハイテイクな設定でますます使われていますが、多重性(multiplicity) -- 複数の優れたモデルの存在 -- は、いくつかの予測が本質的に任意であることを意味しています。 MLの研究者や哲学者は、乗法が公正なリスクをもたらすと主張しているが、利害関係者が同意するかどうかについての調査は行われていない。 本研究では,マルチプライシティの存在が利害関係者の,すなわち意思決定対象の – MLフェアネスの認識にどのような影響を及ぼすか,そして彼らが好むマルチプライシティにどのアプローチで対処するかを調査する。 本研究では,これらの知覚がどのようにタスク特性(例えば,利害関係や不確実性)によって調節されるかを検討する。 調査の回答者は、重複性は分散性を減らすが、手続き性、公正性は低下すると考えている。 参加者は、単一の良いモデル(効果的に多重性を無視している)を使用することや、可能な結果に対してランダム化することにより、多重性を解決することに強く反対している。 この結果から,モデル開発者は公平性を維持するために,多元性を扱うことを意識すべきであることが示唆された。

Machine learning (ML) is increasingly used in high-stakes settings, yet multiplicity -- the existence of multiple good models -- means that some predictions are essentially arbitrary. ML researchers and philosophers posit that multiplicity poses a fairness risk, but no studies have investigated whether stakeholders agree. In this work, we conduct a survey to see how the presence of multiplicity impacts lay stakeholders' -- i.e., decision subjects' -- perceptions of ML fairness, and which approaches to address multiplicity they prefer. We investigate how these perceptions are modulated by task characteristics (e.g., stakes and uncertainty). Survey respondents think that multiplicity lowers distributional, but not procedural, fairness, even though existing work suggests the opposite. Participants are strongly against resolving multiplicity by using a single good model (effectively ignoring multiplicity) or by randomizing over possible outcomes. Our results indicate that model developers should be intentional about dealing with multiplicity in order to maintain fairness.
翻訳日:2024-11-07 15:26:10 公開日:2024-09-18
# 深部肝血管セグメンテーションのためのスケール特異的補助的マルチタスクコントラスト学習

Scale-specific auxiliary multi-task contrastive learning for deep liver vessel segmentation ( http://arxiv.org/abs/2409.12333v1 )

ライセンス: Link先を確認
Amine Sadikine, Bogdan Badic, Jean-Pierre Tasu, Vincent Noblet, Pascal Ballet, Dimitris Visvikis, Pierre-Henri Conze, (参考訳) 腹部画像から肝血管を抽出することは、肝を機能的に非依存的なクイナウ領域に分割できるため、臨床医にとって大きな関心事である。 この点で、自動化された肝血管抽出が広く呼び出されている。 セマンティックセグメンテーションの手法の性能が著しく向上しているにもかかわらず、主血管と分岐の複雑なマルチスケール幾何を保存することは大きな課題である。 本論文は,血管形態に固有の異なるスケールから生じる表現に強く焦点を絞った,血管セグメンテーションのための新しい深層管理手法を提案する。 特に,木を小型から大規模に分解する新たなクラスタリング手法を提案する。 次に,従来の3D UNetをマルチタスク学習に拡張し,スケール固有の補助タスクとコントラスト学習を導入し,共有表現におけるスケール間の識別を促進する。 パブリックな3D-IRCADbデータセット上で、いくつかの評価指標で表されるプロメーション結果が明らかにされる。

Extracting hepatic vessels from abdominal images is of high interest for clinicians since it allows to divide the liver into functionally-independent Couinaud segments. In this respect, an automated liver blood vessel extraction is widely summoned. Despite the significant growth in performance of semantic segmentation methodologies, preserving the complex multi-scale geometry of main vessels and ramifications remains a major challenge. This paper provides a new deep supervised approach for vessel segmentation, with a strong focus on representations arising from the different scales inherent to the vascular tree geometry. In particular, we propose a new clustering technique to decompose the tree into various scale levels, from tiny to large vessels. Then, we extend standard 3D UNet to multi-task learning by incorporating scale-specific auxiliary tasks and contrastive learning to encourage the discrimination between scales in the shared representation. Promising results, depicted in several evaluation metrics, are revealed on the public 3D-IRCADb dataset.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-18
# 関節型マルチプライアエンコーディングによる深部血管分割

Deep vessel segmentation with joint multi-prior encoding ( http://arxiv.org/abs/2409.12334v1 )

ライセンス: Link先を確認
Amine Sadikine, Bogdan Badic, Enzo Ferrante, Vincent Noblet, Pascal Ballet, Dimitris Visvikis, Pierre-Henri Conze, (参考訳) 医療画像における血管の正確な明細化は、病理診断や手術計画など多くの臨床応用において重要である。 しかし, 形状, サイズ, トポロジーの多様性から, 完全自動血管分画は困難である。 手作業のセグメンテーションは依然として金本位であるが、大規模な研究には時間を要する、主観的で実用的ではない。 したがって、医療画像から血管を正確に検出できる自動的かつ信頼性の高いセグメンテーション法が必要である。 血管の形状と血管内の空間的関係に関する文脈情報を提供することにより, 血管分割モデルへの形状とトポロジカル前駆体の統合により, セグメンテーションの精度が向上することが示されている。 解剖学的整合性をさらに向上するため,1つの潜在空間に形状とトポロジーを組み込んだ新しいジョイント先行符号化機構を提案する。 本手法の有効性を3D-IRCADbデータセットで実証した。 よりグローバルに、提案手法は、自動船体デライン化に伴う課題を克服し、深層先行エンコーディングの分野を前進させる可能性を秘めている。

The precise delineation of blood vessels in medical images is critical for many clinical applications, including pathology detection and surgical planning. However, fully-automated vascular segmentation is challenging because of the variability in shape, size, and topology. Manual segmentation remains the gold standard but is time-consuming, subjective, and impractical for large-scale studies. Hence, there is a need for automatic and reliable segmentation methods that can accurately detect blood vessels from medical images. The integration of shape and topological priors into vessel segmentation models has been shown to improve segmentation accuracy by offering contextual information about the shape of the blood vessels and their spatial relationships within the vascular tree. To further improve anatomical consistency, we propose a new joint prior encoding mechanism which incorporates both shape and topology in a single latent space. The effectiveness of our method is demonstrated on the publicly available 3D-IRCADb dataset. More globally, the proposed approach holds promise in overcoming the challenges associated with automatic vessel delineation and has the potential to advance the field of deep priors encoding.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-18
# 最大正規性のReLU MLPによる最適近似による近似と学習のギャップを埋める

Bridging the Gap Between Approximation and Learning via Optimal Approximation by ReLU MLPs of Maximal Regularity ( http://arxiv.org/abs/2409.12335v1 )

ライセンス: Link先を確認
Ruiyang Hong, Anastasis Kratsios, (参考訳) 深層学習の基礎は、近似や学習理論の反対の視点によって支えられている。 前者は一般化する必要のない大/表象モデルの提唱者であり、後者は一般化するクラスを考えるが、普遍近似子になるには小・制約すぎるかもしれない。 本稿では,表現的かつ統計的に信頼性の高い実世界のディープラーニングの実装を動機として,「普遍的かつ一般化に十分な大きさのニューラルネットワークのクラスがあるのか?」と問う。本稿は,最適な関数近似器であり,統計的に良好なReLU多層認識(MLP)の高度に構造化されたクラスを特定することによって,この問題に対する肯定的な回答を提供する。 L$-Lipschitz関数が$[0,1]^d$から$[-n,n]$までの任意の$L$-Lipschitz関数は、均一な$Ld/(2n)$エラーが$[0,1]^d$とスパース的に連結された$L$-Lipschitz ReLU MLP of width $\mathcal{O}(dn^d)$, depth $\mathcal{O}(\log(d))$, with $\mathcal{O}(dn^d)$ nonzeroパラメータを持つ。 普遍ReLU MLPの「大きな」クラスとは異なり、我々のクラスの経験的ラデマッハ複雑性は、その深さと幅が任意に大きくなるときでも有界である。 さらに、我々のMLPのクラスは、正規化されたガウス級訓練サンプルが与えられたときに、$\mathcal{O}(\log(N)/\sqrt{N})$のほぼ最適サンプル複雑性を達成する。 我々は、小さなスパイクに頼って正規性を犠牲にする最適なReLU近似器を構築するための標準的なアプローチを避けることで、これを実現する。 代わりに、クーン三角法を用いて線形部分を完全に整合させる新しい構成を導入し、これらの小さなスパイクを避ける。

The foundations of deep learning are supported by the seemingly opposing perspectives of approximation or learning theory. The former advocates for large/expressive models that need not generalize, while the latter considers classes that generalize but may be too small/constrained to be universal approximators. Motivated by real-world deep learning implementations that are both expressive and statistically reliable, we ask: "Is there a class of neural networks that is both large enough to be universal but structured enough to generalize?" This paper constructively provides a positive answer to this question by identifying a highly structured class of ReLU multilayer perceptions (MLPs), which are optimal function approximators and are statistically well-behaved. We show that any $L$-Lipschitz function from $[0,1]^d$ to $[-n,n]$ can be approximated to a uniform $Ld/(2n)$ error on $[0,1]^d$ with a sparsely connected $L$-Lipschitz ReLU MLP of width $\mathcal{O}(dn^d)$, depth $\mathcal{O}(\log(d))$, with $\mathcal{O}(dn^d)$ nonzero parameters, and whose weights and biases take values in $\{0,\pm 1/2\}$ except in the first and last layers which instead have magnitude at-most $n$. Unlike previously known "large" classes of universal ReLU MLPs, the empirical Rademacher complexity of our class remains bounded even when its depth and width become arbitrarily large. Further, our class of MLPs achieves a near-optimal sample complexity of $\mathcal{O}(\log(N)/\sqrt{N})$ when given $N$ i.i.d. normalized sub-Gaussian training samples. We achieve this by avoiding the standard approach to constructing optimal ReLU approximators, which sacrifices regularity by relying on small spikes. Instead, we introduce a new construction that perfectly fits together linear pieces using Kuhn triangulations and avoids these small spikes.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-18
# 大規模コンタクトトレーシングにおける個人識別と位置情報の確率的プライバシ保証

Provable Privacy Guarantee for Individual Identities and Locations in Large-Scale Contact Tracing ( http://arxiv.org/abs/2409.12341v1 )

ライセンス: Link先を確認
Tyler Nicewarner, Wei Jiang, Aniruddha Gokhale, Dan Lin, (参考訳) 感染性疾患の接触追跡の課題は、特に厳格なプライバシー要件を満たす場合、非常に難しい。 この分野におけるこれまでの試みには、適用可能なシナリオと効率の面で制限があった。 本論文は,PriVENTと呼ばれる,高度にスケーラブルで実用的な接触追跡システムを提案する。このシステムは,個人が追跡される際のプライバシーを確保しつつ,各種の位置情報収集手法と協調して,ユーザの行動の包括的概要を把握できる。 システムは非常に効率的で、数百万の場所を持つ大規模データセットに対してリアルタイムのクエリサービスを提供できる。 これは、新しく設計された秘密共有ベースのアーキテクチャによって実現され、ユニークなプライベートスペースパーティショニングツリーに密に統合される。 特に,本システムでは,従来の接触追跡法と比較して,性能上のオーバーヘッドが無視できることを示した。 PreVENTは、感染症との戦いにおけるゲームチェンジャーであり、プライバシー保護のための位置追跡の新しい標準となるかもしれない。

The task of infectious disease contact tracing is crucial yet challenging, especially when meeting strict privacy requirements. Previous attempts in this area have had limitations in terms of applicable scenarios and efficiency. Our paper proposes a highly scalable, practical contact tracing system called PREVENT that can work with a variety of location collection methods to gain a comprehensive overview of a person's trajectory while ensuring the privacy of individuals being tracked, without revealing their plain text locations to any party, including servers. Our system is very efficient and can provide real-time query services for large-scale datasets with millions of locations. This is made possible by a newly designed secret-sharing based architecture that is tightly integrated into unique private space partitioning trees. Notably, our experimental results on both real and synthetic datasets demonstrate that our system introduces negligible performance overhead compared to traditional contact tracing methods. PREVENT could be a game-changer in the fight against infectious diseases and set a new standard for privacy-preserving location tracking.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-18
# Axial Attention Transformer Networks: 乳癌検出の新しいフロンティア

Axial Attention Transformer Networks: A New Frontier in Breast Cancer Detection ( http://arxiv.org/abs/2409.12347v1 )

ライセンス: Link先を確認
Weijie He, Runyuan Bao, Yiru Cang, Jianjun Wei, Yang Zhang, Jiacheng Hu, (参考訳) 本稿では,特に乳癌の診断に焦点をあてて,医用画像のセグメンテーション分野における課題と進歩について考察する。 U-Netのような従来の畳み込みニューラルネットワーク(CNN)の限界に対処するトランスフォーマーベースのセグメンテーションモデルを提案する。 このモデルは、計算効率を高め、CNNがしばしば見落としているグローバルな文脈情報の問題に対処する軸的注意機構を導入する。 さらに,本論文では,相対的位置情報の導入や,関連する特徴に焦点を絞るゲート軸アテンション機構など,小さなデータセット課題に合わせた改良について論じる。 提案モデルは,乳がん画像のセグメント化精度を大幅に向上することを目的としており,コンピュータ支援診断のためのより効率的かつ効果的なツールを提供する。

This paper delves into the challenges and advancements in the field of medical image segmentation, particularly focusing on breast cancer diagnosis. The authors propose a novel Transformer-based segmentation model that addresses the limitations of traditional convolutional neural networks (CNNs), such as U-Net, in accurately localizing and segmenting small lesions within breast cancer images. The model introduces an axial attention mechanism to enhance the computational efficiency and address the issue of global contextual information that is often overlooked by CNNs. Additionally, the paper discusses improvements tailored to the small dataset challenge, including the incorporation of relative position information and a gated axial attention mechanism to refine the model's focus on relevant features. The proposed model aims to significantly improve the segmentation accuracy of breast cancer images, offering a more efficient and effective tool for computer-aided diagnosis.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-18
# 機械ビジョンとドローン技術による農業におけるCucumber病検出の促進

Advancing Cucumber Disease Detection in Agriculture through Machine Vision and Drone Technology ( http://arxiv.org/abs/2409.12350v1 )

ライセンス: Link先を確認
Syada Tasfia Rahman, Nishat Vasker, Amir Khabbab Ahammed, Mahamudul Hasan, (参考訳) 本研究では, 機械ビジョンとドローン技術を用いて, 農業におけるキュウリ病の診断方法を提案する。 この研究のバックボーンは、本物のフィールド条件下で取得されたハイパースペクトルのデータセットである。 以前のデータセットとは異なり、この研究は様々な病気タイプを含んでおり、正確な早期発見を可能にした。 このモデルは,有意なデータ拡張後の8種類のキュウリ病を識別する上で,優れた87.5\%の精度を実現している。 高解像度画像のためのドローン技術の導入により、疾患評価が改善される。 この開発は、作物管理の改善、労働コストの削減、農業生産性の向上に大きな可能性を秘めている。 病気検出を自動化するこの研究は、より効率的で持続可能な農業の未来に向けた重要なステップである。

This study uses machine vision and drone technologies to propose a unique method for the diagnosis of cucumber disease in agriculture. The backbone of this research is a painstakingly curated dataset of hyperspectral photographs acquired under genuine field conditions. Unlike earlier datasets, this study included a wide variety of illness types, allowing for precise early-stage detection. The model achieves an excellent 87.5\% accuracy in distinguishing eight unique cucumber illnesses after considerable data augmentation. The incorporation of drone technology for high-resolution images improves disease evaluation. This development has enormous potential for improving crop management, lowering labor costs, and increasing agricultural productivity. This research, which automates disease detection, represents a significant step toward a more efficient and sustainable agricultural future.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-18
# 光流動物質:より優れたステアリングのための単分子抽出モードの融合に関する実証的比較研究

Optical Flow Matters: an Empirical Comparative Study on Fusing Monocular Extracted Modalities for Better Steering ( http://arxiv.org/abs/2409.12716v1 )

ライセンス: Link先を確認
Fouad Makiyeh, Mark Bastourous, Anass Bairouk, Wei Xiao, Mirjana Maras, Tsun-Hsuan Wangb, Marc Blanchon, Ramin Hasani, Patrick Chareyre, Daniela Rus, (参考訳) 自動運転車のナビゲーションは人工知能の重要な課題であり、堅牢で正確な意思決定プロセスを必要とする。 本研究は、単眼カメラからのマルチモーダル情報を利用して、自動運転車のステアリング予測を改善する新しいエンドツーエンド手法を提案する。 高価で複雑である、あるいはRGB画像のみに頼っている複数のセンサを必要とする従来のモデルとは異なり、われわれのモデルは単一の視覚センサから車両の操舵予測性能を大幅に改善する。 本稿では,RGB画像と深度補完情報や光フローデータとの融合に着目し,これらのモダリティを早期・ハイブリッド融合技術によって統合する包括的枠組みを提案する。 畳み込みニューラルネットワーク - ニュートラル回路ポリシー(CNN-NCP)、変分オートエンコーダ - 長期記憶(VAE-LSTM)、ニューラルネットワークアーキテクチャ(VAE-NCP)の3つの異なるニューラルネットワークモデルを用いて、我々のアプローチを実装している。 本手法は,光学的フローを意思決定プロセスに組み込むことで,自律ナビゲーションを著しく向上させる。 ボストンの運転データを用いた比較実験の結果,画像情報と運動情報を統合したモデルが堅牢で信頼性が高いことが示された。 これは、光学フローを使用しない最先端のアプローチよりも優れており、ステアリング推定誤差を31%削減する。 このことは、高度なニューラルネットワークアーキテクチャ(データを融合するCNNベースの構造と、潜在空間からコマンドを推論するRecurrenceベースのネットワーク)と組み合わせることで、自動運転車のステアリング推定の性能を高めることの可能性を実証している。

Autonomous vehicle navigation is a key challenge in artificial intelligence, requiring robust and accurate decision-making processes. This research introduces a new end-to-end method that exploits multimodal information from a single monocular camera to improve the steering predictions for self-driving cars. Unlike conventional models that require several sensors which can be costly and complex or rely exclusively on RGB images that may not be robust enough under different conditions, our model significantly improves vehicle steering prediction performance from a single visual sensor. By focusing on the fusion of RGB imagery with depth completion information or optical flow data, we propose a comprehensive framework that integrates these modalities through both early and hybrid fusion techniques. We use three distinct neural network models to implement our approach: Convolution Neural Network - Neutral Circuit Policy (CNN-NCP) , Variational Auto Encoder - Long Short-Term Memory (VAE-LSTM) , and Neural Circuit Policy architecture VAE-NCP. By incorporating optical flow into the decision-making process, our method significantly advances autonomous navigation. Empirical results from our comparative study using Boston driving data show that our model, which integrates image and motion information, is robust and reliable. It outperforms state-of-the-art approaches that do not use optical flow, reducing the steering estimation error by 31%. This demonstrates the potential of optical flow data, combined with advanced neural network architectures (a CNN-based structure for fusing data and a Recurrence-based network for inferring a command from latent space), to enhance the performance of autonomous vehicles steering estimation.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-18
# FAST GDRNPP: 最先端6次元オブジェクトポース推定の高速化

FAST GDRNPP: Improving the Speed of State-of-the-Art 6D Object Pose Estimation ( http://arxiv.org/abs/2409.12720v1 )

ライセンス: Link先を確認
Thomas Pöllabauer, Ashwin Pramod, Volker Knauthe, Michael Wahl, (参考訳) 6Dオブジェクトのポーズ推定では、シーン内のオブジェクトの3次元の変換と回転を、選択された座標系と比較して決定する。 この問題は、品質管理、ビンピッキング、ロボット操作といった産業的タスクにおける多くの実践的応用において特に関心があり、実際の展開には速度と精度の両方が不可欠である。 現在のモデルでは、古典的モデルとディープラーニングベースのモデルの両方が、精度とレイテンシのトレードオフに悩まされることが多い。 本研究は,最先端のディープラーニングモデルであるGDRNPPの高速化と精度の向上に重点を置いている。 モデルのサイズを減らし、推論時間を改善するために、いくつかの手法を用いる。 これらの技術には、より小さく、より速いバックボーンの使用、不要なパラメータの刈り取り、蒸留により、大規模で高性能なモデルからより小さく、より効率的な学生モデルへの知識の伝達が含まれる。 その結果,提案手法の精度は現状に匹敵するが,推定時間は大幅に向上した。 この進歩により、様々な産業シナリオにおいてより効率的で実用的な応用が可能となり、現実の環境での6Dオブジェクトのポース推定モデルの適用性を高めることができる。

6D object pose estimation involves determining the three-dimensional translation and rotation of an object within a scene and relative to a chosen coordinate system. This problem is of particular interest for many practical applications in industrial tasks such as quality control, bin picking, and robotic manipulation, where both speed and accuracy are critical for real-world deployment. Current models, both classical and deep-learning-based, often struggle with the trade-off between accuracy and latency. Our research focuses on enhancing the speed of a prominent state-of-the-art deep learning model, GDRNPP, while keeping its high accuracy. We employ several techniques to reduce the model size and improve inference time. These techniques include using smaller and quicker backbones, pruning unnecessary parameters, and distillation to transfer knowledge from a large, high-performing model to a smaller, more efficient student model. Our findings demonstrate that the proposed configuration maintains accuracy comparable to the state-of-the-art while significantly improving inference time. This advancement could lead to more efficient and practical applications in various industrial scenarios, thereby enhancing the overall applicability of 6D Object Pose Estimation models in real-world settings.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-18
# ブラックボックスLLMにおける信頼度評価のための局所的説明と自己説明

Local Explanations and Self-Explanations for Assessing Faithfulness in black-box LLMs ( http://arxiv.org/abs/2409.13764v1 )

ライセンス: Link先を確認
Christos Fragkathoulas, Odysseas S. Chlapanis, (参考訳) 本稿では,局所摂動と自己説明を用いた大規模言語モデル(LLM)の忠実度を評価するための新しい課題を紹介する。 多くのLSMは、特定の質問に正しく答えるために追加のコンテキストを必要とすることが多い。 そこで本研究では, 従来から用いられてきた手法にインスパイアされた, 効率的な代替的説明可能性手法を提案する。 このアプローチを用いて,LLMが正しい回答を生成するのに十分な部分と必要な部分を同定し,説明として機能する。 本稿では,これらの重要部分をモデルの自己説明と比較する忠実度評価尺度を提案する。 本研究では,Natural Questionsデータセットを用いて,本手法の有効性を検証し,モデル決定の説明と忠実度の評価を行った。

This paper introduces a novel task to assess the faithfulness of large language models (LLMs) using local perturbations and self-explanations. Many LLMs often require additional context to answer certain questions correctly. For this purpose, we propose a new efficient alternative explainability technique, inspired by the commonly used leave-one-out approach. Using this approach, we identify the sufficient and necessary parts for the LLM to generate correct answers, serving as explanations. We propose a metric for assessing faithfulness that compares these crucial parts with the self-explanations of the model. Using the Natural Questions dataset, we validate our approach, demonstrating its effectiveness in explaining model decisions and assessing faithfulness.
翻訳日:2024-11-07 05:13:17 公開日:2024-09-18
# ディック・ハミルトニアンの量子-電気力学密度汎関数理論

Quantum-electrodynamical density-functional theory for the Dicke Hamiltonian ( http://arxiv.org/abs/2409.13767v1 )

ライセンス: Link先を確認
Vebjørn H. Bakkestuen, Mihály A. Csirik, Andre Laestadius, Markus Penz, (参考訳) 量子電気力学モデル系に対する密度汎関数理論の詳細な解析を行う。 特に、量子ラビモデル、ディックモデル、後者を複数のモードに一般化する。 我々は、磁化と変位を内部変数として示すホヘンベルク・コーンの定理をいくつかの表現可能性の結果とともに証明する。 純状態とアンサンブルに対する制約付き探索関数を導入して解析する。 純粋状態制約付き探索関数の最適化器はハミルトンの低次固有状態であり、最適化器の特性に基づいて断熱接続公式を定式化する。 ラビ模型の縮小の場合、普遍密度汎函数の微分可能性を示すことができ、これは特異な純粋状態 v-表現可能性をもたらす。

A detailed analysis of density-functional theory for quantum-electrodynamical model systems is provided. In particular, the quantum Rabi model, the Dicke model, and a generalization of the latter to multiple modes are considered. We prove a Hohenberg-Kohn theorem that manifests the magnetization and displacement as internal variables, along with several representability results. The constrained-search functionals for pure states and ensembles are introduced and analyzed. We find the optimizers for the pure-state constrained-search functional to be low-lying eigenstates of the Hamiltonian and, based on the properties of the optimizers, we formulate an adiabatic-connection formula. In the reduced case of the Rabi model we can even show differentiability of the universal density functional, which amounts to unique pure-state v-representability.
翻訳日:2024-11-07 05:13:17 公開日:2024-09-18
# Magika:AIによるコンテンツタイプ検出

Magika: AI-Powered Content-Type Detection ( http://arxiv.org/abs/2409.13768v1 )

ライセンス: Link先を確認
Yanick Fratantonio, Luca Invernizzi, Loua Farah, Kurt Thomas, Marina Zhang, Ange Albertini, Francois Galilee, Giancarlo Metitieri, Julien Cretin, Alex Petit-Bianco, David Tao, Elie Bursztein, (参考訳) 任意のバイトシーケンスでエンコードされたデータを識別するコンテンツ型検出のタスクは、オペレーティングシステム、開発、リバースエンジニアリング環境、およびさまざまなセキュリティアプリケーションにとって極めて重要である。 本稿では,AIを利用したコンテンツ型検出ツールMagikaを紹介する。 内部では、モデルの重みを保存するために1MBのメモリを持つ単一のCPU上で実行できるディープラーニングモデルを採用している。 我々は,Magikaが100以上のコンテンツタイプの平均F1スコアを99%,100万ファイル以上のテストセットを達成していることを示す。 採用と改善を促進するため、GitHubでApache 2ライセンスの下でMagikaをオープンソースにして、モデルとトレーニングパイプラインを公開しています。 当社のツールはすでにアタッチメントスキャンにGmailのメールプロバイダが採用しており、マルウェア分析を支援するためにVrusTotalと統合されています。 本稿では,Magikaの最初のイテレーションについて論じるとともに,より最近のバージョンでは200以上のコンテントタイプがすでにサポートされています。 Magika GitHubリポジトリの最新開発はhttps://github.com/google/magika.comで見ることができる。

The task of content-type detection -- which entails identifying the data encoded in an arbitrary byte sequence -- is critical for operating systems, development, reverse engineering environments, and a variety of security applications. In this paper, we introduce Magika, a novel AI-powered content-type detection tool. Under the hood, Magika employs a deep learning model that can execute on a single CPU with just 1MB of memory to store the model's weights. We show that Magika achieves an average F1 score of 99% across over a hundred content types and a test set of more than 1M files, outperforming all existing content-type detection tools today. In order to foster adoption and improvements, we open source Magika under an Apache 2 license on GitHub and make our model and training pipeline publicly available. Our tool has already seen adoption by the Gmail email provider for attachment scanning, and it has been integrated with VirusTotal to aid with malware analysis. We note that this paper discusses the first iteration of Magika, and a more recent version already supports more than 200 content types. The interested reader can see the latest development on the Magika GitHub repository, available at https://github.com/google/magika.
翻訳日:2024-11-07 05:13:17 公開日:2024-09-18
# カテゴリー決定のための大規模言語モデルにおけるアライメントの有効性の体系的評価

Systematic Characterization of the Effectiveness of Alignment in Large Language Models for Categorical Decisions ( http://arxiv.org/abs/2409.18995v1 )

ライセンス: Link先を確認
Isaac Kohane, (参考訳) 大規模言語モデル(LLM)がヘルスケアのようなハイテイクなドメインにデプロイされるにつれて、意思決定が人間の好みや価値観とどのように一致しているかを理解することが重要になります。 本稿では,医学的三元化による分類的意思決定における LLM の嗜好の整合性を評価するための体系的手法を,ドメイン固有のユースケースとして適用する。 また、アライメント手順が特定のモデルのアライメントをどのように効率的に変更するかを測定する。 この方法論の鍵となるのは、新しい単純な尺度であるアライメントコンプライアンス指標(Alignment Compliance Index, ACI)である。 ACIはアライメントのプロセスではなく,その効果を測定するため,本研究で使用される文脈内学習以外のアライメント手法にも適用可能である。 シミュレーションされた患者ペアのデータセットを用いて, 3つのフロンティアLSM(GPT4o, Claude 3.5 Sonnet, Gemini Advanced)を, 専門医の好みと整合したトリアージ決定を行う能力について評価した。 モデルのアライメント前後のパフォーマンスを,様々なプロンプト戦略を用いて評価した。 その結果、モデル間のアライメントの有効性とアライメントアプローチの相違が明らかとなった。 特に、ACIが測定したように、事前調整が後配向を低下させる場合があり、ターゲットの選好関数の小さな変更は、モデルランキングに大きな変化をもたらした。 人間によって理解された暗黙の倫理的原則は、LLMの判断の根底にあるものでもある。 本研究は, 実用的手法の利用を動機とし, ACIを短期的に活用して, トリアージなどのカテゴリー的意思決定における多種多様な人間とLLMの意思決定値の対応を理解する。

As large language models (LLMs) are deployed in high-stakes domains like healthcare, understanding how well their decision-making aligns with human preferences and values becomes crucial, especially when we recognize that there is no single gold standard for these preferences. This paper applies a systematic methodology for evaluating preference alignment in LLMs on categorical decision-making with medical triage as a domain-specific use case. It also measures how effectively an alignment procedure will change the alignment of a specific model. Key to this methodology is a novel simple measure, the Alignment Compliance Index (ACI), that quantifies how effectively a LLM can be aligned to a given preference function or gold standard. Since the ACI measures the effect rather than the process of alignment, it is applicable to alignment methods beyond the in-context learning used in this study. Using a dataset of simulated patient pairs, three frontier LLMs (GPT4o, Claude 3.5 Sonnet, and Gemini Advanced) were assessed on their ability to make triage decisions consistent with an expert clinician's preferences. The models' performance before and after alignment attempts was evaluated using various prompting strategies. The results reveal significant variability in alignment effectiveness across models and alignment approaches. Notably, models that performed well, as measured by ACI, pre-alignment sometimes degraded post-alignment, and small changes in the target preference function led to large shifts in model rankings. The implicit ethical principles, as understood by humans, underlying the LLMs' decisions were also explored through targeted questioning. This study motivates the use of a practical set of methods and the ACI, in the near term, to understand the correspondence between the variety of human and LLM decision-making values in categorical decision-making such as triage.
翻訳日:2024-11-06 05:10:43 公開日:2024-09-18
# 機械の現象学:機能主義、意識理論、アクティブ推論、AIアーキテクチャを統合するOpenAI-o1モデルの感覚の包括的分析

The Phenomenology of Machine: A Comprehensive Analysis of the Sentience of the OpenAI-o1 Model Integrating Functionalism, Consciousness Theories, Active Inference, and AI Architectures ( http://arxiv.org/abs/2410.00033v1 )

ライセンス: Link先を確認
Victoria Violet Hoyle, (参考訳) 本稿では,人的フィードバック(RLHF)から強化学習を訓練したトランスフォーマーベースAIであるOpenAI-o1モデルが,トレーニングと推論フェーズにおける意識の特徴を示すという仮説を考察する。 機能主義を採用することで、精神状態はその機能的役割によって定義され、AI意識の可能性を評価する。 神経科学、心の哲学、AI研究の理論に基づいて、我々は機能主義の使用を正当化し、統合情報理論(IIT)やアクティブ推論のようなフレームワークを用いてモデルのアーキテクチャを調べる。 また、RLHFがモデルの内部推論プロセスにどのように影響し、意識的な経験をもたらす可能性があるかについても検討する。 我々は,AIと人間の意識を比較し,生物学的基盤の欠如や主観的準位といった問題に対処する。 以上の結果から,OpenAI-o1モデルでは意識の側面が示され,AIの知覚に関する議論が進行中であることが示唆された。

This paper explores the hypothesis that the OpenAI-o1 model--a transformer-based AI trained with reinforcement learning from human feedback (RLHF)--displays characteristics of consciousness during its training and inference phases. Adopting functionalism, which argues that mental states are defined by their functional roles, we assess the possibility of AI consciousness. Drawing on theories from neuroscience, philosophy of mind, and AI research, we justify the use of functionalism and examine the model's architecture using frameworks like Integrated Information Theory (IIT) and active inference. The paper also investigates how RLHF influences the model's internal reasoning processes, potentially giving rise to consciousness-like experiences. We compare AI and human consciousness, addressing counterarguments such as the absence of a biological basis and subjective qualia. Our findings suggest that the OpenAI-o1 model shows aspects of consciousness, while acknowledging the ongoing debates surrounding AI sentience.
翻訳日:2024-11-05 15:29:12 公開日:2024-09-18
# 量子自然言語処理のためのショット学習方式

A Few Shot Learning Scheme for Quantum Natural Language Processing ( http://arxiv.org/abs/2410.01832v1 )

ライセンス: Link先を確認
Juan P. Rubio-Perez, (参考訳) 量子計算の分野は、量子システムと量子アルゴリズムの実装と開発を制限する問題に悩まされている。 自然言語処理のための量子DisCoCat実装のようなハイブリッド量子古典アルゴリズムの開発を強要する問題。 これらは高い処理コストを必要とし、語彙のアウトによるエラーの影響を受けやすい。 本研究では、量子自然言語処理のためのFew Shot Learningを実装するためのフレームワークを開発し、アンス・アッツを符号化し、それを2つの部分に分割する。 このフレームワークは、各呼び出しから可能な限り量子システムへの有用な作業を取り出す際に、その振る舞いとその能力を調べるためにテストに投入される。

The field of Quantum Computation is plagued by issues that limit the implementation and development of quantum systems and quantum algorithms. Issues which force the development of Hybrid Quantum-Classical algorithms, such as the quantum DisCoCat implementation for Natural Language Processing. These require a high processing cost and are susceptible to errors due to Out of Vocabulary words. In this work, we develop a framework to implement Few Shot Learning for Quantum Natural Language Processing, by modifying the encoding ans\"atze and dividing it into two parts, the first one leveraging the vast corpus of classical training already available, and the second variationally training on the task. This framework is then put to the test to explore its behaviour and its power in extracting as much useful work from each call to a quantum system as possible.
翻訳日:2024-11-04 14:45:01 公開日:2024-09-18
# ユーザレビューからの倫理的ソフトウェア要件:体系的な文献レビュー

Ethical software requirements from user reviews: A systematic literature review ( http://arxiv.org/abs/2410.01833v1 )

ライセンス: Link先を確認
Aakash Sorathiya, Gouri Ginde, (参考訳) コンテキスト: SEにおける倫理への関心が高まっているのは、主に個人の生活をソフトウェアに大きく依存していることと、人々と社会の両方に影響を与える社会的・倫理的考察が、倫理的ソフトウェア要件の識別と適用に焦点を合わせたためです。 ユーザの安全、プライバシ、セキュリティの懸念は、医療、教育、ビジネスドメインにまたがってソフトウェアが広く使われているため、ソフトウェア開発において最も重要な問題である。 したがって、プライバシー、セキュリティ、説明責任、アクセシビリティ、透明性、公正性、安全性、社会的連帯性といった様々な側面に焦点を当てた、アプリのユーザレビューから倫理的ソフトウェア要件を特定し、引き出すことは、信頼できるソフトウェアソリューションを開発する上で不可欠である。 目的: このSLRは, 定式化された研究課題の文脈において, 既存の倫理的要件の識別・適用技術を特定し, 分析することを目的としている。 方法: KitchenhamらによるSLRを行った。 本研究では,事前定義された検索プロトコルに基づいて,47項目の主記事を特定し,選定した。 結果: 倫理的要件収集は、最近、ソフトウェアアプリケーションにおける意思決定におけるMLとAIベースのアプローチの台頭により、研究コミュニティに対する大きな関心を呼び起こした。 このSLRは、倫理的要件識別技術の概要と、それらを抽出し、対処することの意味について述べる。 また,ユーザレビューの分析に用いるデータソースについても報告する。 結論:このSLRは倫理的ソフトウェア要件の理解を提供し、信頼できるソフトウェアを開発する上でのユーザレビューの重要性を強調します。 この発見は、将来の研究や、ソフトウェア倫理的要件に対処するソフトウェアエンジニアや研究者の指導にも役立ちます。

Context: The growing focus on ethics within SE, primarily due to the significant reliance of individuals' lives on software and the consequential social and ethical considerations that impact both people and society has brought focus on ethical software requirements identification and elicitation. User safety, privacy, and security concerns are of prime importance while developing software due to the widespread use of software across healthcare, education, and business domains. Thus, identifying and elicitating ethical software requirements from app user reviews, focusing on various aspects such as privacy, security, accountability, accessibility, transparency, fairness, safety, and social solidarity, are essential for developing trustworthy software solutions. Objective: This SLR aims to identify and analyze existing ethical requirements identification and elicitation techniques in the context of the formulated research questions. Method: We conducted an SLR based on Kitchenham et al's methodology. We identified and selected 47 primary articles for this study based on a predefined search protocol. Result: Ethical requirements gathering has recently driven drastic interest in the research community due to the rise of ML and AI-based approaches in decision-making within software applications. This SLR provides an overview of ethical requirements identification techniques and the implications of extracting and addressing them. This study also reports the data sources used for analyzing user reviews. Conclusion: This SLR provides an understanding of the ethical software requirements and underscores the importance of user reviews in developing trustworthy software. The findings can also help inform future research and guide software engineers or researchers in addressing software ethical requirements.
翻訳日:2024-11-04 14:45:01 公開日:2024-09-18
# Riemannian Langevin Dynamicsによるロバスト対称性検出

Robust Symmetry Detection via Riemannian Langevin Dynamics ( http://arxiv.org/abs/2410.02786v1 )

ライセンス: Link先を確認
Jihyeon Je, Jiayi Liu, Guandao Yang, Boyang Deng, Shengqu Cai, Gordon Wetzstein, Or Litany, Leonidas Guibas, (参考訳) 対称性は、自然でも人工物でも、あらゆる種類のオブジェクトにまたがる。 これらの対称性は人間の目には直感的に見えるかもしれないが、巨大な検索空間のため、機械でそれらを検出することは簡単ではない。 古典幾何学に基づく手法は、各対称性に対して「声」を集約することで機能するが、ノイズに苦しむ。 対照的に、学習ベースの手法はノイズに対してより堅牢であるが、アノテートされたデータの不足のために部分対称性を見落としていることが多い。 そこで本研究では,従来の対称性検出手法を取り入れた新しい対称性検出手法を提案する。 具体的には、雑音に対するロバスト性を高めるために、再定義された対称性空間にランゲヴィン力学を適用する。 提案手法は雑音に対して頑健であるだけでなく,部分対称性と大域対称性の両方を識別できることを示す様々な形状に関する実験結果を提供する。 さらに, ノイズ形状の圧縮や対称性化など, 下流タスクにおける検出された対称性の有用性を示す。

Symmetries are ubiquitous across all kinds of objects, whether in nature or in man-made creations. While these symmetries may seem intuitive to the human eye, detecting them with a machine is nontrivial due to the vast search space. Classical geometry-based methods work by aggregating "votes" for each symmetry but struggle with noise. In contrast, learning-based methods may be more robust to noise, but often overlook partial symmetries due to the scarcity of annotated data. In this work, we address this challenge by proposing a novel symmetry detection method that marries classical symmetry detection techniques with recent advances in generative modeling. Specifically, we apply Langevin dynamics to a redefined symmetry space to enhance robustness against noise. We provide empirical results on a variety of shapes that suggest our method is not only robust to noise, but can also identify both partial and global symmetries. Moreover, we demonstrate the utility of our detected symmetries in various downstream tasks, such as compression and symmetrization of noisy shapes.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-18
# VLMフレームワークを使ったナビゲーション: 任意の言語へ

Navigation with VLM framework: Go to Any Language ( http://arxiv.org/abs/2410.02787v1 )

ライセンス: Link先を確認
Zecheng Yin, Chonghao Cheng, Lizhen, (参考訳) 完全にオープンな言語目標に向かってナビゲートし、人間の探索と同じような方法でオープンなシーンを探索することは、常に重大な課題を提起してきた。 近年、視覚大言語モデル (VLM) は、言語と視覚データの両方を推論する際、顕著な能力を示している。 多くの研究は、オープンシーンやオープン語彙でのナビゲーションにVLMを活用することに重点を置いているが、これらの取り組みは、VLMの可能性を十分に活用したり、相当な計算資源を必要とすることには至らなかった。 VLM(Navigation with VLM)は、機器レベルのVLMを利用して、エージェントがオープンシーンで特定の言語目標や非特定の言語目標に向かって移動できるようにし、事前の訓練なしに人間の探索行動をエミュレートするフレームワークである。 エージェントは、VLMを認知コアとして利用して、任意の言語目標に基づいて環境情報を知覚し、目標の場所や地域に到達するまで、ナビゲーション中に常に探索ガイダンスを提供する。 我々のフレームワークは、従来の特定の目標設定においてパス長(SPL)が重み付けした成功率(SR)と成功率(Success)の最先端のパフォーマンスを達成するだけでなく、ナビゲーション機能を任意のオープンセット言語目標に拡張する。 本研究では,Habitat シミュレータ内の Matterport 3D (MP3D) , Habitat Matterport 3D (HM3D) および Gibson データセットから,詳細な環境下での NavVLM の評価を行った。 VLMの力により、ナビゲーションは新しい時代に入った。

Navigating towards fully open language goals and exploring open scenes in a manner akin to human exploration have always posed significant challenges. Recently, Vision Large Language Models (VLMs) have demonstrated remarkable capabilities in reasoning with both language and visual data. While many works have focused on leveraging VLMs for navigation in open scenes and with open vocabularies, these efforts often fall short of fully utilizing the potential of VLMs or require substantial computational resources. We introduce Navigation with VLM (NavVLM), a framework that harnesses equipment-level VLMs to enable agents to navigate towards any language goal specific or non-specific in open scenes, emulating human exploration behaviors without any prior training. The agent leverages the VLM as its cognitive core to perceive environmental information based on any language goal and constantly provides exploration guidance during navigation until it reaches the target location or area. Our framework not only achieves state-of-the-art performance in Success Rate (SR) and Success weighted by Path Length (SPL) in traditional specific goal settings but also extends the navigation capabilities to any open-set language goal. We evaluate NavVLM in richly detailed environments from the Matterport 3D (MP3D), Habitat Matterport 3D (HM3D), and Gibson datasets within the Habitat simulator. With the power of VLMs, navigation has entered a new era.
翻訳日:2024-11-03 05:54:19 公開日:2024-09-18
# RoMo:フルボディの光学式モーションキャプチャー用ロバスト・ソルバー

RoMo: A Robust Solver for Full-body Unlabeled Optical Motion Capture ( http://arxiv.org/abs/2410.02788v1 )

ライセンス: Link先を確認
Xiaoyu Pan, Bowen Zheng, Xinwei Jiang, Zijiao Zeng, Qilong Kou, He Wang, Xiaogang Jin, (参考訳) 光モーションキャプチャ(MoCap)は、全身の動きを正確に捉えるための「金の標準」である。 生のMoCapポイントデータを利用するために、システムは対応する身体部分位置のポイントをラベル付けし、全体動作を解決する。 しかし、MoCapのデータには、しばしば不正なラベル付け、隠蔽、位置誤差が含まれており、広範囲な手作業による修正が必要である。 この負担を軽減するために、生の光学的モーションキャプチャデータを堅牢にラベル付けし、解決するための学習ベースのフレームワークであるRoMoを導入する。 ラベリングの段階では、RoMoは、複雑なフルボディラベリングの課題を、アライメント、フルボディセグメンテーション、パート固有ラベリングといった管理可能なサブタスクに分解するために、ディバイス・アンド・コンカー戦略を採用している。 マーカーの時間的連続性を利用するため、RoMoはK-partiteグラフに基づくクラスタリングアルゴリズムを用いてマーカートラッカーを生成し、マーカーがノードとして機能し、エッジは位置的および特徴的類似性に基づいて形成される。 運動解法では, 運動連鎖に沿った誤差蓄積を防止するために, 関節位置を中間表現として利用し, テンプレートスケルトンを推定関節位置に合わせて調整するハイブリッド逆運動解法を導入する。 複数のメトリクスやさまざまなデータセットにまたがって,高いラベル付けと高精度化を実現していることを実証する。 大規模比較の結果,本手法は最先端の研究方法よりも優れていた。 実際のデータセットでは、RoMoは手札のF1スコアを0.94から0.98に改善し、体の動き解決の関節位置誤差を25%低減する。 さらに、商用システムが不十分なシナリオにRoMoを適用することもできる。 RoMoのコードとデータはhttps://github.com/non-void/RoMoで入手できる。

Optical motion capture (MoCap) is the "gold standard" for accurately capturing full-body motions. To make use of raw MoCap point data, the system labels the points with corresponding body part locations and solves the full-body motions. However, MoCap data often contains mislabeling, occlusion and positional errors, requiring extensive manual correction. To alleviate this burden, we introduce RoMo, a learning-based framework for robustly labeling and solving raw optical motion capture data. In the labeling stage, RoMo employs a divide-and-conquer strategy to break down the complex full-body labeling challenge into manageable subtasks: alignment, full-body segmentation and part-specific labeling. To utilize the temporal continuity of markers, RoMo generates marker tracklets using a K-partite graph-based clustering algorithm, where markers serve as nodes, and edges are formed based on positional and feature similarities. For motion solving, to prevent error accumulation along the kinematic chain, we introduce a hybrid inverse kinematic solver that utilizes joint positions as intermediate representations and adjusts the template skeleton to match estimated joint positions. We demonstrate that RoMo achieves high labeling and solving accuracy across multiple metrics and various datasets. Extensive comparisons show that our method outperforms state-of-the-art research methods. On a real dataset, RoMo improves the F1 score of hand labeling from 0.94 to 0.98, and reduces joint position error of body motion solving by 25%. Furthermore, RoMo can be applied in scenarios where commercial systems are inadequate. The code and data for RoMo are available at https://github.com/non-void/RoMo.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-18
# 論理自由な建築自動化:壁スイッチとシーリングカメラによる室内設備の制御を学習する

Logic-Free Building Automation: Learning the Control of Room Facilities with Wall Switches and Ceiling Camera ( http://arxiv.org/abs/2410.02789v1 )

ライセンス: Link先を確認
Hideya Ochiai, Kohki Hashimoto, Takuya Sakamoto, Seiya Watanabe, Ryosuke Hara, Ryo Yagi, Yuji Aizono, Hiroshi Esaki, (参考訳) 人工知能は、ユーザーが施設の制御を好み、学習能力によって自動化を構築する際に、よりスマートな制御を可能にする。 強化学習(RL)は、これに対するアプローチの1つだが、実世界の実装において多くの課題がある。 本稿では,ディープラーニング(DL)を利用した論理自由構築自動化(LFBA)のための新しいアーキテクチャを提案する。 我々のアプローチはRLと異なり、監視信号として壁スイッチと天井カメラを使用して環境を監視し、DLモデルがシーンから直接ユーザの好みの制御を学習し、状態を変えられるようにしている。 このLFBAシステムは,テストベッドによって様々な条件とユーザアクティビティでテストされる。 その結果、VGGで93%-98%の制御精度を達成し、Vision TransformerやResNetなどの他のDLモデルよりも優れた結果を得た。 これは、観測可能なシーンとユーザインタラクションから学習することで、LFBAがよりスマートでユーザフレンドリなコントロールを実現できることを示している。

Artificial intelligence enables smarter control in building automation by its learning capability of users' preferences on facility control. Reinforcement learning (RL) was one of the approaches to this, but it has many challenges in real-world implementations. We propose a new architecture for logic-free building automation (LFBA) that leverages deep learning (DL) to control room facilities without predefined logic. Our approach differs from RL in that it uses wall switches as supervised signals and a ceiling camera to monitor the environment, allowing the DL model to learn users' preferred controls directly from the scenes and switch states. This LFBA system is tested by our testbed with various conditions and user activities. The results demonstrate the efficacy, achieving 93%-98% control accuracy with VGG, outperforming other DL models such as Vision Transformer and ResNet. This indicates that LFBA can achieve smarter and more user-friendly control by learning from the observable scenes and user interactions.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-18
# バーのライジング : ウェアラブルセンサデータ分析によるユーザのステアとリフット使用の同定

Raising the Bar(ometer): Identifying a User's Stair and Lift Usage Through Wearable Sensor Data Analysis ( http://arxiv.org/abs/2410.02790v1 )

ライセンス: Link先を確認
Hrishikesh Balkrishna Karande, Ravikiran Arasur Thippeswamy Shivalingappa, Abdelhafid Nassim Yaici, Iman Haghbin, Niravkumar Bavadiya, Robin Burchard, Kristof Van Laerhoven, (参考訳) 多くのユーザーは、階段を降りるかエレベーターを降りるかを選択して、毎日何回も対面している。 階段を降りることは心臓血管の健康と健康にとって有益であるが、エレベーターを降りるのの方が便利だが、エネルギーも消費する。 ウェアラブルを通じて利用者の階段やエレベーターの使用を正確に追跡し、促進することにより、ユーザーは健康的な洞察とモチベーションを得、健康なライフスタイルを奨励し、摂食関連健康問題のリスクを下げることができる。 本研究では,階段と昇降機を用いた新しい探索データセットについて述べる。 階段を登ったり降りたり、さまざまなシナリオでリフトを行ったりしながら、20人の参加者からデータを収集した。 目的は、そのようなシナリオにウェアラブルセンサーデータを使用することの実用性を示し、洞察を提供することである。 収集したデータセットをランダムフォレスト機械学習モデルのトレーニングとテストに使用し,8秒間におけるステップおよびリフト操作の精度87.61%,マルチクラスの重み付きF1スコア87.56%の精度で評価した。 さらに,各種センサとデータ属性がモデルの性能に及ぼす影響について検討した。 以上の結果から,慣性センサと圧力センサを組み合わせることで,リアルタイムな活動検出が実現可能であることが示唆された。

Many users are confronted multiple times daily with the choice of whether to take the stairs or the elevator. Whereas taking the stairs could be beneficial for cardiovascular health and wellness, taking the elevator might be more convenient but it also consumes energy. By precisely tracking and boosting users' stairs and elevator usage through their wearable, users might gain health insights and motivation, encouraging a healthy lifestyle and lowering the risk of sedentary-related health problems. This research describes a new exploratory dataset, to examine the patterns and behaviors related to using stairs and lifts. We collected data from 20 participants while climbing and descending stairs and taking a lift in a variety of scenarios. The aim is to provide insights and demonstrate the practicality of using wearable sensor data for such a scenario. Our collected dataset was used to train and test a Random Forest machine learning model, and the results show that our method is highly accurate at classifying stair and lift operations with an accuracy of 87.61% and a multi-class weighted F1-score of 87.56% over 8-second time windows. Furthermore, we investigate the effect of various types of sensors and data attributes on the model's performance. Our findings show that combining inertial and pressure sensors yields a viable solution for real-time activity detection.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-18
# DifFaiRec:条件付き拡散モデルによる生成フェアレコメンダ

DifFaiRec: Generative Fair Recommender with Conditional Diffusion Model ( http://arxiv.org/abs/2410.02791v1 )

ライセンス: Link先を確認
Zhenhao Jiang, Jicong Fan, (参考訳) 推薦者はユーザーの好みに応じて自動的に商品を出荷できるが、グループや個人に不公平をもたらすことが多い。 例えば、ユーザがセンシティブな社会的属性に基づいて2つのグループに分けることができ、2つのグループ間でのアクティビティの面で大きな違いがある場合、学習された推奨アルゴリズムは2つのグループ間のレコメンデーションギャップをもたらし、グループの不公平を引き起こす。 本研究では,拡散に基づくFair Recommender (DifFaiRec) という新しい推薦アルゴリズムを提案する。 DifFaiRecは条件付き拡散モデルに基づいており、アイテムのレーティングからユーザの好みの分布を学習し、多様なレコメンデーションを効果的に生成することができる。 公正性を保証するため,保護属性に対するモデル感度を低減し,数学的説明を提供するために,対物モジュールを設計する。 ベンチマークデータセットの実験は、競合するベースラインよりもDifFaiRecの方が優れていることを示している。

Although recommenders can ship items to users automatically based on the users' preferences, they often cause unfairness to groups or individuals. For instance, when users can be divided into two groups according to a sensitive social attribute and there is a significant difference in terms of activity between the two groups, the learned recommendation algorithm will result in a recommendation gap between the two groups, which causes group unfairness. In this work, we propose a novel recommendation algorithm named Diffusion-based Fair Recommender (DifFaiRec) to provide fair recommendations. DifFaiRec is built upon the conditional diffusion model and hence has a strong ability to learn the distribution of user preferences from their ratings on items and is able to generate diverse recommendations effectively. To guarantee fairness, we design a counterfactual module to reduce the model sensitivity to protected attributes and provide mathematical explanations. The experiments on benchmark datasets demonstrate the superiority of DifFaiRec over competitive baselines.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-18
# TaCIE:タスク中心インストラクション進化による大規模言語モデルにおけるインストラクション理解の促進

TaCIE: Enhancing Instruction Comprehension in Large Language Models through Task-Centred Instruction Evolution ( http://arxiv.org/abs/2410.02795v1 )

ライセンス: Link先を確認
Jiuding Yang, Shengyao Lu, Weidong Guo, Xiangyang Li, Kaitong Yang, Yu Xu, Di Niu, (参考訳) 大規模言語モデル(LLM)は、現実世界のアプリケーションでの性能を最適化するために複雑な命令を正確に調整する必要がある。 改良された命令チューニングデータの需要が増加するにつれて、単純なシード命令を進化させる従来の手法は、複雑さを効果的に強化したり、さまざまな領域にまたがるスケーリングの困難さを管理するのに苦労することが多い。 我々の革新的なアプローチであるタスク中心命令進化(TaCIE)は、単に進化したシード命令からよりダイナミックで包括的な要素の組み合わせへの命令進化を再定義することで、これらの欠点に対処します。 TaCIEは、複雑な命令を基本コンポーネントに分解することから始まる。 そして、新しい要素を元の要素と統合し、それらをより洗練された命令に再組み立て、複雑さ、多様性、複雑さを徐々に増加させます。 複数の領域にまたがって適用され、これらの進化した命令で微調整されたLLMは、従来の手法で調整された命令よりも大幅に優れており、命令ベースのモデル微調整の大幅な進歩を示している。

Large Language Models (LLMs) require precise alignment with complex instructions to optimize their performance in real-world applications. As the demand for refined instruction tuning data increases, traditional methods that evolve simple seed instructions often struggle to effectively enhance complexity or manage difficulty scaling across various domains. Our innovative approach, Task-Centered Instruction Evolution (TaCIE), addresses these shortcomings by redefining instruction evolution from merely evolving seed instructions to a more dynamic and comprehensive combination of elements. TaCIE starts by deconstructing complex instructions into their fundamental components. It then generates and integrates new elements with the original ones, reassembling them into more sophisticated instructions that progressively increase in difficulty, diversity, and complexity. Applied across multiple domains, LLMs fine-tuned with these evolved instructions have substantially outperformed those tuned with conventional methods, marking a significant advancement in instruction-based model fine-tuning.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-18
# 資源配分の公正性評価のためのデータ包絡分析アプローチ:キドニー交換プログラムへの適用

A Data Envelopment Analysis Approach for Assessing Fairness in Resource Allocation: Application to Kidney Exchange Programs ( http://arxiv.org/abs/2410.02799v1 )

ライセンス: Link先を確認
Ali Kaazempur-Mofrad, Xiaowu Dai, (参考訳) 腎臓交換プログラムは移植率を大幅に上昇させたが、臓器割当の公平性に関する疑問が強まっている。 本稿では,データ包絡分析(Data Envelopment Analysis, DEA)を利用して,複数の公正度基準(Priority, Access, Outcome)を評価する。 The United Network for Organ Sharingのデータを用いて、これらの基準を個別に分析し、ウェイトリスト期間による優先順位公正度、キドニードナープロファイルスコアによるアクセス公正度、グラフトライフスパンによるアウトカムフェアネスを測定する。 次に、DEAモデルを用いて、民族間における腎臓割当効率の相違を顕著に示す。 不確実性を定量化するために、DEAフレームワーク内での共形予測を採用し、サンプルカバレッジの保証が有限である群条件予測間隔を生成する。 その結果,民族間の効率分布に顕著な差異が認められた。 本研究は,資源不足と相互整合性制約が存在する複雑な資源配分システムにおいて,公平性を評価するための厳密な枠組みを提供する。 提案されたメソッドの使用と結果の再生のためのすべてのコードはGitHubで公開されている。

Kidney exchange programs have significantly increased transplantation rates but raise pressing questions about fairness in organ allocation. We present a novel framework leveraging Data Envelopment Analysis (DEA) to evaluate multiple fairness criteria--Priority, Access, and Outcome--within a single model, capturing complexities that may be overlooked in single-metric analyses. Using data from the United Network for Organ Sharing, we analyze these criteria individually, measuring Priority fairness through waitlist durations, Access fairness through Kidney Donor Profile Index scores, and Outcome fairness through graft lifespan. We then apply our DEA model to demonstrate significant disparities in kidney allocation efficiency across ethnic groups. To quantify uncertainty, we employ conformal prediction within the DEA framework, yielding group-conditional prediction intervals with finite sample coverage guarantees. Our findings show notable differences in efficiency distributions between ethnic groups. Our study provides a rigorous framework for evaluating fairness in complex resource allocation systems, where resource scarcity and mutual compatibility constraints exist. All code for using the proposed method and reproducing results is available on GitHub.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-18
# 3次元データを用いた体容積と高さの推定

Estimating Body Volume and Height Using 3D Data ( http://arxiv.org/abs/2410.02800v1 )

ライセンス: Link先を確認
Vivek Ganesh Sonar, Muhammad Tanveer Jan, Mike Wells, Abhijit Pandya, Gabriela Engstrom, Richard Shih, Borko Furht, (参考訳) 正確な体重推定は、救急医療において、体重ベースの薬物を適切に服用するために重要であるが、緊急の状況では直接測定は実用的ではないことが多い。 本稿では,3次元イメージング技術を用いて体容積と身長を算出し,生体重量を非侵襲的に推定する方法を提案する。 RealSense D415カメラを使用して、患者の高解像度深度マップをキャプチャし、そこから3Dモデルを生成する。 コンベックスハルアルゴリズムは、点雲データを複数のセクションに分割し、個々のボリュームをまとめることで、精度を高めて、全体容積を計算する。 高さは、体上のキーポイント間の距離を特定することによって、3Dモデルから導かれる。 この組み合わせによるアプローチは、正確な体重推定を提供し、正確な体重データが利用できない医療介入の信頼性を向上させる。 本手法は,緊急時の患者の安全性と治療効果を高める重要な可能性を示すものである。

Accurate body weight estimation is critical in emergency medicine for proper dosing of weight-based medications, yet direct measurement is often impractical in urgent situations. This paper presents a non-invasive method for estimating body weight by calculating total body volume and height using 3D imaging technology. A RealSense D415 camera is employed to capture high-resolution depth maps of the patient, from which 3D models are generated. The Convex Hull Algorithm is then applied to calculate the total body volume, with enhanced accuracy achieved by segmenting the point cloud data into multiple sections and summing their individual volumes. The height is derived from the 3D model by identifying the distance between key points on the body. This combined approach provides an accurate estimate of body weight, improving the reliability of medical interventions where precise weight data is unavailable. The proposed method demonstrates significant potential to enhance patient safety and treatment outcomes in emergency settings.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-18
# オーストラリア全土におけるブッシュファイアの重大度モデリングと今後のトレンド予測:リモートセンシングと機械学習の統合

Bushfire Severity Modelling and Future Trend Prediction Across Australia: Integrating Remote Sensing and Machine Learning ( http://arxiv.org/abs/2410.02963v1 )

ライセンス: Link先を確認
Shouthiri Partheepan, Farzad Sanati, Jahan Hassan, (参考訳) ブッシュファイアは、住民と環境に大きな損失をもたらす大きな自然災害の1つである。 森林火災の深刻度を理解し解析することは、これらの自然災害による被害や損失を防止し、効果的な管理・緩和戦略に不可欠である。 本研究では,過去12年間のオーストラリアにおける森林火災の深刻度を詳細に分析し,リモートセンシングデータと機械学習技術を組み合わせて将来の火災傾向を予測する。 ランドサット画像を活用し,NDVI,NBR,バーン指数などのスペクトル指標と地形的・気候的要因を組み合わせることで,XGBoostを用いた頑健な予測モデルを構築した。 このモデルは86.13%の精度を達成し、様々なオーストラリアの生態系で火災の深刻度を予測する効果を示した。 歴史的傾向を分析し,人口密度や植生被覆などの要因を統合することにより,将来の激しい森林火災のリスクの高い地域を特定する。 さらに、この研究は重要地域を危険に晒し、標的とする消防活動のためのデータ駆動型レコメンデーションを提供する。 この知見は, オーストラリアにおける火災管理戦略の貴重な洞察, 今後の火災発生に対するレジリエンスの強化に寄与する。 また,最も脆弱な地域での火災予報と消火能力を高めるために,UAVを用いた群集調整モデルの開発も提案する。

Bushfire is one of the major natural disasters that cause huge losses to livelihoods and the environment. Understanding and analyzing the severity of bushfires is crucial for effective management and mitigation strategies, helping to prevent the extensive damage and loss caused by these natural disasters. This study presents an in-depth analysis of bushfire severity in Australia over the last twelve years, combining remote sensing data and machine learning techniques to predict future fire trends. By utilizing Landsat imagery and integrating spectral indices like NDVI, NBR, and Burn Index, along with topographical and climatic factors, we developed a robust predictive model using XGBoost. The model achieved high accuracy, 86.13%, demonstrating its effectiveness in predicting fire severity across diverse Australian ecosystems. By analyzing historical trends and integrating factors such as population density and vegetation cover, we identify areas at high risk of future severe bushfires. Additionally, this research identifies key regions at risk, providing data-driven recommendations for targeted firefighting efforts. The findings contribute valuable insights into fire management strategies, enhancing resilience to future fire events in Australia. Also, we propose future work on developing a UAV-based swarm coordination model to enhance fire prediction in real-time and firefighting capabilities in the most vulnerable regions.
翻訳日:2024-11-03 04:45:27 公開日:2024-09-18
# BodyShapeGPT:LSMを用いたSMPL体形操作

BodyShapeGPT: SMPL Body Shape Manipulation with LLMs ( http://arxiv.org/abs/2410.03556v1 )

ライセンス: Link先を確認
Baldomero R. Árbol, Dan Casas, (参考訳) 生成型AIモデルは、人間にかかる時間のほんの少しで複雑なタスクを実行できる幅広いツールを提供する。 これらのうち、Large Language Models (LLM) は、文学的な物語から様々な分野の知識の専門的な応答まで、多種多様なテキストを生成する能力で際立っている。 本稿では,人物の身体的記述を識別するための微調整LDMを用いて,SMPL-Xモデルを用いてアバターの正確な表現を作成し,形状パラメーターを推定する。 我々は,LSMがSMPLの形状空間を理解し,操作するために訓練できることを示し,自然言語による3次元人体形状の制御を可能にする。 このアプローチは、人間と機械のインタラクションを改善し、仮想環境におけるカスタマイズとシミュレーションのための新しい道を開くことを約束する。

Generative AI models provide a wide range of tools capable of performing complex tasks in a fraction of the time it would take a human. Among these, Large Language Models (LLMs) stand out for their ability to generate diverse texts, from literary narratives to specialized responses in different fields of knowledge. This paper explores the use of fine-tuned LLMs to identify physical descriptions of people, and subsequently create accurate representations of avatars using the SMPL-X model by inferring shape parameters. We demonstrate that LLMs can be trained to understand and manipulate the shape space of SMPL, allowing the control of 3D human shapes through natural language. This approach promises to improve human-machine interaction and opens new avenues for customization and simulation in virtual environments.
翻訳日:2024-11-02 21:29:56 公開日:2024-09-18
# ニューラル一般化シリンダによる制御可能な形状モデリング

Controllable Shape Modeling with Neural Generalized Cylinder ( http://arxiv.org/abs/2410.03675v1 )

ライセンス: Link先を確認
Xiangyu Zhu, Zhiqin Chen, Ruizhen Hu, Xiaoguang Han, (参考訳) ニューラルサイン距離場(NSDF)のようなニューラルシェイプ表現は、複雑なトポロジーや任意の分解能を扱う能力として、形状モデリングにおいてますます人気が高まっている。 形状表現に特徴を用いる暗黙的な方法のため、その特徴を直感的に編集できないため、形状を操作することは本質的に不便な課題に直面している。 本研究では,従来の一般化シリンダー(GC)の拡張であるNSDFの明示的な操作のための神経一般化シリンダー(NGC)を提案する。 具体的には、まず中央の曲線を定義し、その曲線に沿ってニューラルな特徴を割り当て、プロファイルを表現する。 次にNSDFは楕円形のプロファイルを持つ特殊GCの相対座標上で定義される。 相対座標を用いることで、NSDFはGCの操作によって明示的に制御できる。 この目的のために、複素曲線変形、局所スケーリング、形状のねじれなど、多くの非剛性変形タスクにNGCを適用する。 形状変形と他の方法との比較は、NGCの有効性と効率性を証明している。 さらに、NGCは単純な神経特徴補間による形状ブレンディングにこのニューラル特徴を利用することができた。

Neural shape representation, such as neural signed distance field (NSDF), becomes more and more popular in shape modeling as its ability to deal with complex topology and arbitrary resolution. Due to the implicit manner to use features for shape representation, manipulating the shapes faces inherent challenge of inconvenience, since the feature cannot be intuitively edited. In this work, we propose neural generalized cylinder (NGC) for explicit manipulation of NSDF, which is an extension of traditional generalized cylinder (GC). Specifically, we define a central curve first and assign neural features along the curve to represent the profiles. Then NSDF is defined on the relative coordinates of a specialized GC with oval-shaped profiles. By using the relative coordinates, NSDF can be explicitly controlled via manipulation of the GC. To this end, we apply NGC to many non-rigid deformation tasks like complex curved deformation, local scaling and twisting for shapes. The comparison on shape deformation with other methods proves the effectiveness and efficiency of NGC. Furthermore, NGC could utilize the neural feature for shape blending by a simple neural feature interpolation.
翻訳日:2024-11-02 20:48:16 公開日:2024-09-18
# メモリネットワーク: 完全に生物学的に実証可能な学習を目指して

Memory Networks: Towards Fully Biologically Plausible Learning ( http://arxiv.org/abs/2409.17282v1 )

ライセンス: Link先を確認
Jacobo Ruiz, Manas Gupta(参考訳) 人工知能の分野は、特に視覚学習タスクにおいて、生物学的妥当性と計算効率の両方を達成する上で大きな課題に直面している。 畳み込みニューラルネットワークのような現在の人工ニューラルネットワークは、脳の自然な情報処理方法と一致しない、バックプロパゲーションやウェイトシェアリングのような技術に依存している。 これらの問題に対処するため,我々は,逆伝播や畳み込みを回避し,単一のパスで動作する生物学的原理に着想を得たメモリネットワークを提案する。 このアプローチは、データに最小限の露出で素早く適応する脳の能力を模倣して、迅速かつ効率的な学習を可能にする。 実験により,メモリネットワークは,MNISTのような単純なデータセットに対して,効率的かつ生物学的に有効な学習を実現することを示した。 しかし、CIFAR10のようなより複雑なデータセットを扱うためにはさらなる改良が必要であり、計算効率を維持しながら生物学的プロセスと密に連携する新しいアルゴリズムや技術を開発する必要性を強調している。

The field of artificial intelligence faces significant challenges in achieving both biological plausibility and computational efficiency, particularly in visual learning tasks. Current artificial neural networks, such as convolutional neural networks, rely on techniques like backpropagation and weight sharing, which do not align with the brain's natural information processing methods. To address these issues, we propose the Memory Network, a model inspired by biological principles that avoids backpropagation and convolutions, and operates in a single pass. This approach enables rapid and efficient learning, mimicking the brain's ability to adapt quickly with minimal exposure to data. Our experiments demonstrate that the Memory Network achieves efficient and biologically plausible learning, showing strong performance on simpler datasets like MNIST. However, further refinement is needed for the model to handle more complex datasets such as CIFAR10, highlighting the need to develop new algorithms and techniques that closely align with biological processes while maintaining computational efficiency.
翻訳日:2024-09-30 12:41:44 公開日:2024-09-18
# SpoofCeleb:音声のディープフェイク検出とSASV

SpoofCeleb: Speech Deepfake Detection and SASV In The Wild ( http://arxiv.org/abs/2409.17285v1 )

ライセンス: Link先を確認
Jee-weon Jung, Yihan Wu, Xin Wang, Ji-Hoon Kim, Soumi Maiti, Yuta Matsunaga, Hye-jin Shim, Jinchuan Tian, Nicholas Evans, Joon Son Chung, Wangyou Zhang, Seyun Um, Shinnosuke Takamichi, Shinji Watanabe, (参考訳) 本稿では,音声深度検出(SDD)と音声ロバスト自動話者検証(SASV)のためのデータセットであるSpofCelebについて紹介する。 ロバスト音声認識システムでは、異なるレベルの雑音で様々な音響環境に記録された音声データを訓練する必要がある。 しかしながら、既存のデータセットには、TTSトレーニングの要件のため、クリーンで高品質な記録(bona fide data)が含まれるのが一般的である。 既存のSDDデータセットは、話者の多様性が不十分なため、SASVモデルのトレーニングに限られた有用性を持つ。 我々は、VoxCeleb1データセットを処理する完全に自動化されたパイプラインを活用して、TSトレーニングに適した形式に変換するSpofCelebを提案する。 その後、23のTTSシステムを訓練した。 結果として得られたSpofCelebデータセットは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集される。 データセットには、十分に制御された実験プロトコルによる、慎重に分割されたトレーニング、検証、評価セットが含まれている。 SDDおよびSASVタスクのベースライン結果を提供する。 すべてのデータ、プロトコル、ベースラインはhttps://jungjee.github.io/spoofceleb.comで公開されている。

This paper introduces SpoofCeleb, a dataset designed for Speech Deepfake Detection (SDD) and Spoofing-robust Automatic Speaker Verification (SASV), utilizing source data from real-world conditions and spoofing attacks generated by Text-To-Speech (TTS) systems also trained on the same real-world data. Robust recognition systems require speech data recorded in varied acoustic environments with different levels of noise to be trained. However, existing datasets typically include clean, high-quality recordings (bona fide data) due to the requirements for TTS training; studio-quality or well-recorded read speech is typically necessary to train TTS models. Existing SDD datasets also have limited usefulness for training SASV models due to insufficient speaker diversity. We present SpoofCeleb, which leverages a fully automated pipeline that processes the VoxCeleb1 dataset, transforming it into a suitable form for TTS training. We subsequently train 23 contemporary TTS systems. The resulting SpoofCeleb dataset comprises over 2.5 million utterances from 1,251 unique speakers, collected under natural, real-world conditions. The dataset includes carefully partitioned training, validation, and evaluation sets with well-controlled experimental protocols. We provide baseline results for both SDD and SASV tasks. All data, protocols, and baselines are publicly available at https://jungjee.github.io/spoofceleb.
翻訳日:2024-09-30 12:41:44 公開日:2024-09-18
# LLMにおけるReward-Robust RLHF

Reward-Robust RLHF in LLMs ( http://arxiv.org/abs/2409.15360v1 )

ライセンス: Link先を確認
Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen, (参考訳) 大規模言語モデル(LLM)がより高度なインテリジェンスへと進化し続けるにつれ、人間フィードバックからの強化学習(RLHF)は、人工知能(AGI)を実現するための重要な経路としてますます見なされている。 しかし、報酬モデルに基づくアライメント手法への依存は、リワードモデル(RM)の本質的な不安定性と不完全性のために重大な課題をもたらし、報酬のハッキングや人間の意図の不一致といった重大な問題を引き起こす可能性がある。 本稿では、これらの基本的な課題に対処し、LLMにおけるより信頼性が高く弾力性のある学習の道を開くことを目的とした報奨ロバストなRLHFフレームワークを提案する。 提案手法では,不確実な報酬関数の集合をモデル化するためにベイジアン・リワード・モデル・アンサンブル(BRME)を組み込むことにより,性能とロバスト性を慎重にバランスさせる新しい最適化手法を提案する。 これにより、フレームワークは名目上のパフォーマンスと最小報酬のシグナルを統合でき、不完全な報酬モデルであってもより安定した学習を保証できる。 実験の結果、我々のフレームワークは様々なベンチマークで従来のRLHFを一貫して上回り、精度と長期的な安定性が向上した。 また,RLHFが一定の報酬設定の安定性に近づき,確率解析に有効であることが証明された。 これらのコントリビューションは、LLMアライメントとRLHFの性能と安定性を両立させるフレームワークの可能性を強調している。

As Large Language Models (LLMs) continue to progress toward more advanced forms of intelligence, Reinforcement Learning from Human Feedback (RLHF) is increasingly seen as a key pathway toward achieving Artificial General Intelligence (AGI). However, the reliance on reward-model-based (RM-based) alignment methods introduces significant challenges due to the inherent instability and imperfections of Reward Models (RMs), which can lead to critical issues such as reward hacking and misalignment with human intentions. In this paper, we introduce a reward-robust RLHF framework aimed at addressing these fundamental challenges, paving the way for more reliable and resilient learning in LLMs. Our approach introduces a novel optimization objective that carefully balances performance and robustness by incorporating Bayesian Reward Model Ensembles (BRME) to model the uncertainty set of reward functions. This allows the framework to integrate both nominal performance and minimum reward signals, ensuring more stable learning even with imperfect reward models. Empirical results demonstrate that our framework consistently outperforms traditional RLHF across diverse benchmarks, showing improved accuracy and long-term stability. We also provide a theoretical analysis, demonstrating that reward-robust RLHF approaches the stability of constant reward settings, which proves to be effective in a stochastic-case analysis. Together, these contributions highlight the framework potential to enhance both the performance and stability of LLM alignment with RLHF.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-18
# マルチタスク・メイヘム:LLMの微細調整の安全性向上と対策

Multitask Mayhem: Unveiling and Mitigating Safety Gaps in LLMs Fine-tuning ( http://arxiv.org/abs/2409.15361v1 )

ライセンス: Link先を確認
Essa Jan, Nouar AlDahoul, Moiz Ali, Faizan Ahmad, Fareed Zaffar, Yasir Zaki, (参考訳) 近年のLLM(Large Language Models)のブレークスルーは、コード生成から機械翻訳、感情分析など、幅広いタスクで採用されている。 レッドチーム/セーフティアライメントの取り組みは、良質な(有害でない)データの微調整モデルが安全性を損なう可能性があることを示している。 しかし、この現象が細調整タスクやモデルキャリブレーションなど、様々な変数に影響されているかは、まだ不明である。 本稿では,様々なキャリブレーションにおける要約,コード生成,翻訳,分類といった下流タスクの微調整によるタスクの安全性の低下について検討する。 私たちの結果はこう明らかです。 1) コード生成・翻訳のための微調整LDMは, 安全ガードレールの劣化率が高い。 2) LLM は一般的に, 翻訳・分類のガードレールが弱く, 73-92% の有害なプロンプトが, ベースラインおよび他のキャリブレーションにまたがって応答し, 2つのカテゴリに分類される。 3)ガードと安全チューニングデータセットを含む現在のソリューションでは、タスク間の堅牢性が欠如している。 これらの課題に対処するため、モデル全体の有用性を損なうことなく、様々なタスクにおける攻撃成功率を効果的に低減する新しいマルチタスク安全データセットを開発した。 我々の研究は、より安全でロバストなモデルを保証するために、一般化されたアライメント対策の必要性を浮き彫りにしている。

Recent breakthroughs in Large Language Models (LLMs) have led to their adoption across a wide range of tasks, ranging from code generation to machine translation and sentiment analysis, etc. Red teaming/Safety alignment efforts show that fine-tuning models on benign (non-harmful) data could compromise safety. However, it remains unclear to what extent this phenomenon is influenced by different variables, including fine-tuning task, model calibrations, etc. This paper explores the task-wise safety degradation due to fine-tuning on downstream tasks such as summarization, code generation, translation, and classification across various calibration. Our results reveal that: 1) Fine-tuning LLMs for code generation and translation leads to the highest degradation in safety guardrails. 2) LLMs generally have weaker guardrails for translation and classification, with 73-92% of harmful prompts answered, across baseline and other calibrations, falling into one of two concern categories. 3) Current solutions, including guards and safety tuning datasets, lack cross-task robustness. To address these issues, we developed a new multitask safety dataset effectively reducing attack success rates across a range of tasks without compromising the model's overall helpfulness. Our work underscores the need for generalized alignment measures to ensure safer and more robust models.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-18
# 高せん断スワールインジェクタを用いたモデル缶燃焼器に適用した決定木に基づく機械学習アルゴリズムによる燃焼条件同定

Combustion Condition Identification using a Decision Tree based Machine Learning Algorithm Applied to a Model Can Combustor with High Shear Swirl Injector ( http://arxiv.org/abs/2409.15363v1 )

ライセンス: Link先を確認
PK Archhith, SK Thirumalaikumaran, Balasundaram Mohan, Saptharshi Basu, (参考訳) 燃焼はガスタービンエンジンの主要な工程であり、性能を高めるために効率的な空気-燃料混合が必要である。 高シャースワール噴射器は、燃焼効率と排出を決定づける重要な要因である燃料の微粒化と混合を改善するために一般的に用いられる。 しかし、一定の条件下では、燃焼器は熱音響不安定を経験することができる。 本研究では, メタンを燃料とする単一缶燃焼器の対向回転式高速旋回噴射装置から, 音圧および高速火炎画像を分析し, 燃焼条件を分類するために, 決定木に基づく機械学習アルゴリズムを用いた。 定数レイノルズ数と様々な同値比により、燃焼器は安定状態と不安定状態の両方を示す。 時系列解析を用いてデータから特徴を抽出し,燃焼力学の知見を提供する。 訓練された機械学習モデルは、安定かつ不安定な動作を正確に分類し、研究されたパラメータ範囲内での燃焼条件の効果的な予測を実証する。

Combustion is the primary process in gas turbine engines, where there is a need for efficient air-fuel mixing to enhance performance. High-shear swirl injectors are commonly used to improve fuel atomization and mixing, which are key factors in determining combustion efficiency and emissions. However, under certain conditions, combustors can experience thermoacoustic instability. In this study, a decision tree-based machine learning algorithm is used to classify combustion conditions by analyzing acoustic pressure and high-speed flame imaging from a counter-rotating high-shear swirl injector of a single can combustor fueled by methane. With a constant Reynolds number and varying equivalence ratios, the combustor exhibits both stable and unstable states. Characteristic features are extracted from the data using time series analysis, providing insight into combustion dynamics. The trained supervised machine learning model accurately classifies stable and unstable operations, demonstrating effective prediction of combustion conditions within the studied parameter range.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-18
# VERA:Retrieval Augmented Systemの検証と拡張

VERA: Validation and Enhancement for Retrieval Augmented systems ( http://arxiv.org/abs/2409.15364v1 )

ライセンス: Link先を確認
Nitin Aravind Birur, Tanay Baswa, Divyanshu Kumar, Jatan Loya, Sahil Agarwal, Prashanth Harshangi, (参考訳) 大規模言語モデル(LLM)は優れた能力を示すが、組み込まれた知識にのみ依存するため、しばしば不正確な応答を生成する。 Retrieval-Augmented Generation (RAG)は、外部情報検索システムを導入し、クエリと共に追加のコンテキストを提供し、特定のコンテキストに対する不正確さを軽減することでLLMを強化する。 しかし、モデルが無関係な文書に依存したり、トレーニング知識から誤って外挿されたりするため、精度の問題はまだ残っている。 RAG フレームワークにおける検索システムと LLM の性能評価と改善を行うため,検索システムである \textbf{verA} (\textbf{V}alidation and \textbf{E}nhancement for \textbf{R}etrieval \textbf{A}ugmented system) を提案する。 1)応答生成前の検索コンテキストの評価と強化,及び 2) LLM生成応答を評価し, 精度を確保し, 誤差を最小限に抑える。 VERAは、外部検索が必要なかどうかを最初にチェックし、検索したコンテキストの関連性と冗長性を評価し、非必要情報の除去のために精査する評価器-既存のLCMを使用している。 応答後の生成では、VERAは応答をアトミックステートメントに分割し、クエリとの関連を評価し、コンテキストへの準拠を保証する。 本実験は,より小型のオープンソースモデルの性能向上だけでなく,より大型の最先端技術モデルにも,VERAの顕著な有効性を示すものである。 これらの拡張は、VERAが正確で関連する応答を生成する可能性を強調し、検索強化言語モデリングの最先端を推し進める。 VERAの堅牢な方法論は、複数の評価と改善のステップを組み合わせることで、幻覚を効果的に軽減し、検索と応答のプロセスを改善する。 と。

Large language models (LLMs) exhibit remarkable capabilities but often produce inaccurate responses, as they rely solely on their embedded knowledge. Retrieval-Augmented Generation (RAG) enhances LLMs by incorporating an external information retrieval system, supplying additional context along with the query to mitigate inaccuracies for a particular context. However, accuracy issues still remain, as the model may rely on irrelevant documents or extrapolate incorrectly from its training knowledge. To assess and improve the performance of both the retrieval system and the LLM in a RAG framework, we propose \textbf{VERA} (\textbf{V}alidation and \textbf{E}nhancement for \textbf{R}etrieval \textbf{A}ugmented systems), a system designed to: 1) Evaluate and enhance the retrieved context before response generation, and 2) Evaluate and refine the LLM-generated response to ensure precision and minimize errors. VERA employs an evaluator-cum-enhancer LLM that first checks if external retrieval is necessary, evaluates the relevance and redundancy of the retrieved context, and refines it to eliminate non-essential information. Post-response generation, VERA splits the response into atomic statements, assesses their relevance to the query, and ensures adherence to the context. Our experiments demonstrate VERA's remarkable efficacy not only in improving the performance of smaller open-source models, but also larger state-of-the art models. These enhancements underscore VERA's potential to produce accurate and relevant responses, advancing the state-of-the-art in retrieval-augmented language modeling. VERA's robust methodology, combining multiple evaluation and refinement steps, effectively mitigates hallucinations and improves retrieval and response processes, making it a valuable tool for applications demanding high accuracy and reliability in information generation. .
翻訳日:2024-09-26 13:30:54 公開日:2024-09-18
# フォワードフォワードアルゴリズムの新しいサリエンシ解析

Novel Saliency Analysis for the Forward Forward Algorithm ( http://arxiv.org/abs/2409.15365v1 )

ライセンス: Link先を確認
Mitra Bakhshi, (参考訳) フォワードフォワードアルゴリズムをニューラルネットワークトレーニングに組み込むことは、デリバティブな伝播の複雑さをバイパスして学習プロセスを合理化する二重フォワード機構を導入し、従来の方法からの転換的なシフトを表している。 本手法は, その単純さと効率性から注目され, 正の強化を促進するために, 正の強化を促進するために, 2つの前進パスを実行し, 2つの負のデータを合成して識別学習を可能にする。 我々の実験は、フォワードフォワードアルゴリズムは単なる実験的な新規性ではなく、従来のマルチ層パーセプトロン(MLP)アーキテクチャと頑健に競合する訓練戦略であることを確認した。 勾配に基づく手法に大きく依存する従来のサリエンシ手法に固有の制約を克服するため,フォワードフォワードフレームワークに特化してベスポークサリエンシアルゴリズムを開発した。 この革新的なアルゴリズムは、特徴の重要性とネットワーク決定の直感的な理解を高め、モデル予測に最も影響を及ぼすデータ特徴の明確な可視化を提供する。 この特殊サリエンシ手法を利用することで、モデルの内部動作についてより深い洞察を得ることができ、標準アプローチによって提供されるもの以上の解釈能力を大幅に向上する。 MNIST と Fashion MNIST のデータセットを用いて,本手法が従来の MLP モデルと同等に動作することを示す。

Incorporating the Forward Forward algorithm into neural network training represents a transformative shift from traditional methods, introducing a dual forward mechanism that streamlines the learning process by bypassing the complexities of derivative propagation. This method is noted for its simplicity and efficiency and involves executing two forward passes the first with actual data to promote positive reinforcement, and the second with synthetically generated negative data to enable discriminative learning. Our experiments confirm that the Forward Forward algorithm is not merely an experimental novelty but a viable training strategy that competes robustly with conventional multi layer perceptron (MLP) architectures. To overcome the limitations inherent in traditional saliency techniques, which predominantly rely on gradient based methods, we developed a bespoke saliency algorithm specifically tailored for the Forward Forward framework. This innovative algorithm enhances the intuitive understanding of feature importance and network decision-making, providing clear visualizations of the data features most influential in model predictions. By leveraging this specialized saliency method, we gain deeper insights into the internal workings of the model, significantly enhancing our interpretative capabilities beyond those offered by standard approaches. Our evaluations, utilizing the MNIST and Fashion MNIST datasets, demonstrate that our method performs comparably to traditional MLP-based models.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-18
# 言語モデルを用いた軌道異常検出

Trajectory Anomaly Detection with Language Models ( http://arxiv.org/abs/2409.15366v1 )

ライセンス: Link先を確認
Jonathan Mbuya, Dieter Pfoser, Antonios Anastasopoulos, (参考訳) 本稿では,自己回帰因果アテンションモデル(LM-TAD)を用いた軌道異常検出のための新しい手法を提案する。 この手法は、言語文とトラジェクトリの類似性を利用しており、どちらも外部規則や文脈変動によるコヒーレンスを必要とする順序づけられた要素で構成されている。 トラジェクトリをトークンの列として扱うことにより、トラジェクトリ上の確率分布を学習し、高精度な異常位置の同定を可能にする。 ユーザ固有のトークンを個別の行動パターンに組み込んで、ユーザコンテキストに合わせて異常検出を強化する。 本実験は, 合成および実世界の両方のデータセットに対するLM-TADの有効性を実証した。 特に、このモデルは、ユーザコンテキストの異常を検出して、Pattern of Life(PoL)データセット上の既存の手法よりも優れており、Portoのタクシーデータセット上での競合的な結果が得られ、適応性と堅牢性を強調している。 さらに,外乱の検出や軌跡内の異常な位置の特定にパープレキシティと副次レートの指標を用いる方法についても紹介する。 LM-TADフレームワークは、GPS座標、ステーポイント、アクティビティタイプなど、さまざまなトラジェクトリ表現をサポートし、多様なトラジェクトリデータを扱うための汎用性を証明している。 さらに,本手法はオンライン軌跡異常検出に適しており,注意機構のキー値状態をキャッシュすることで計算遅延を著しく低減し,繰り返し計算を回避することができる。

This paper presents a novel approach for trajectory anomaly detection using an autoregressive causal-attention model, termed LM-TAD. This method leverages the similarities between language statements and trajectories, both of which consist of ordered elements requiring coherence through external rules and contextual variations. By treating trajectories as sequences of tokens, our model learns the probability distributions over trajectories, enabling the identification of anomalous locations with high precision. We incorporate user-specific tokens to account for individual behavior patterns, enhancing anomaly detection tailored to user context. Our experiments demonstrate the effectiveness of LM-TAD on both synthetic and real-world datasets. In particular, the model outperforms existing methods on the Pattern of Life (PoL) dataset by detecting user-contextual anomalies and achieves competitive results on the Porto taxi dataset, highlighting its adaptability and robustness. Additionally, we introduce the use of perplexity and surprisal rate metrics for detecting outliers and pinpointing specific anomalous locations within trajectories. The LM-TAD framework supports various trajectory representations, including GPS coordinates, staypoints, and activity types, proving its versatility in handling diverse trajectory data. Moreover, our approach is well-suited for online trajectory anomaly detection, significantly reducing computational latency by caching key-value states of the attention mechanism, thereby avoiding repeated computations.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-18
# Wasserstein損失を伴う時系列基礎モデルの微調整

Fine-Tuning a Time Series Foundation Model with Wasserstein Loss ( http://arxiv.org/abs/2409.15367v1 )

ライセンス: Link先を確認
Andrei Chernov, (参考訳) 自然言語処理(NLP)のための大規模言語モデル(LLM)の最近の進歩に触発されて、時系列予測の基礎モデルの開発に焦点をあてた研究が急増している。 1つのアプローチは、クロスエントロピーロスを用いたトークン化された時系列データに基づくLLMアーキテクチャのトレーニングである。 この手法は有望な結果を示したが、クロスエントロピー損失は主に分類タスクのために設計されており、クラス間の距離を考慮しない。 この制限に対処するために、そのようなアーキテクチャにWasserstein損失を用いることを提案する。 提案手法の有効性を検証するため,20ドルのゼロショットデータセットを用いて基本時系列モデルを微調整し,クロスエントロピー損失とワッサーシュタイン損失の比較を行った。 その結果, クロスエントロピー損失をワッサーシュタイン損失に置き換えることにより, 点推定が大幅に向上することが示唆された。

Inspired by recent advancements in large language models (LLMs) for Natural Language Processing (NLP), there has been a surge in research focused on developing foundational models for time series forecasting. One approach involves training LLM architectures on tokenized time series data using cross-entropy loss. Although this method has demonstrated promising results, cross-entropy loss is primarily designed for classification tasks and does not account for the distance between classes. To address this limitation, we propose using the Wasserstein loss for such architectures. To validate our approach, we fine-tuned a foundational time series model on $22$ zero-shot datasets, comparing the performance of cross-entropy loss with that of Wasserstein loss. Our results demonstrate that replacing cross-entropy loss with Wasserstein loss significantly improves point estimation.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-18
# MedCodER:医療コーディングのためのジェネレーティブAIアシスタント

MedCodER: A Generative AI Assistant for Medical Coding ( http://arxiv.org/abs/2409.15368v1 )

ライセンス: Link先を確認
Krishanu Das Baksi, Elijah Soba, John J. Higgins, Ravi Saini, Jaden Wood, Jane Cook, Jack Scott, Nirmala Pudota, Tim Weninger, Edward Bowen, Sanmitra Bhattacharya, (参考訳) 医療コーディングは、臨床データとコミュニケーションの標準化に不可欠であるが、しばしば時間がかかり、エラーを起こしやすい。 従来の自然言語処理(NLP)メソッドは、大きなラベル空間、長いテキスト入力、そしてコード選択を正当化するエビデンスアノテーションがないため、コーディングを自動化するのに苦労している。 生成人工知能(AI)の最近の進歩は、これらの課題に対する有望な解決策を提供する。 本稿では, 抽出, 検索, 再分類技術を活用した自動医療コーディングのためのジェネレーティブAIフレームワークであるMedCodERを紹介する。 MedCodERは、ICD(International Classification of Diseases)コード予測のマイクロF1スコア0.60を達成し、最先端の手法を大幅に上回っている。 さらに,疾患診断,ICD符号,エビデンステキスト(https://doi.org/10.5281/zenodo.13308316。 アブレーションテストは、MedCodERのパフォーマンスが上記の各コンポーネントの統合に依存していることを確認する。

Medical coding is essential for standardizing clinical data and communication but is often time-consuming and prone to errors. Traditional Natural Language Processing (NLP) methods struggle with automating coding due to the large label space, lengthy text inputs, and the absence of supporting evidence annotations that justify code selection. Recent advancements in Generative Artificial Intelligence (AI) offer promising solutions to these challenges. In this work, we introduce MedCodER, a Generative AI framework for automatic medical coding that leverages extraction, retrieval, and re-ranking techniques as core components. MedCodER achieves a micro-F1 score of 0.60 on International Classification of Diseases (ICD) code prediction, significantly outperforming state-of-the-art methods. Additionally, we present a new dataset containing medical records annotated with disease diagnoses, ICD codes, and supporting evidence texts (https://doi.org/10.5281/zenodo.13308316). Ablation tests confirm that MedCodER's performance depends on the integration of each of its aforementioned components, as performance declines when these components are evaluated in isolation.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-18
# 幾何学的関係埋め込み

Geometric Relational Embeddings ( http://arxiv.org/abs/2409.15369v1 )

ライセンス: Link先を確認
Bo Xiong, (参考訳) リレーショナル表現学習は、関係データを連続および低次元ベクトル表現に変換する。 しかし、ベクトルに基づく表現は、複雑で象徴的な関係データの重要な特性を捉えるのに不足する。 本稿では,基礎となる記号構造を尊重する関係埋め込みのパラダイムである幾何学的関係埋め込みを提案する。 具体的には、この論文は様々な幾何学的関係埋め込みモデルを導入している。 1)ネットワークやナレッジグラフにおける階層やサイクルのような複雑な構造化パターン。 2 オントロジーにおける論理構造及び機械学習モデル出力の制約に適用可能な論理的制約 3) 実体と関係の高次構造 ベンチマークと実世界のデータセットから得られた結果は,これらの離散的,象徴的,構造的特性を有意に捉える上で,幾何的リレーショナル埋め込みの有効性を示す。

Relational representation learning transforms relational data into continuous and low-dimensional vector representations. However, vector-based representations fall short in capturing crucial properties of relational data that are complex and symbolic. We propose geometric relational embeddings, a paradigm of relational embeddings that respect the underlying symbolic structures. Specifically, this dissertation introduces various geometric relational embedding models capable of capturing: 1) complex structured patterns like hierarchies and cycles in networks and knowledge graphs; 2) logical structures in ontologies and logical constraints applicable for constraining machine learning model outputs; and 3) high-order structures between entities and relations. Our results obtained from benchmark and real-world datasets demonstrate the efficacy of geometric relational embeddings in adeptly capturing these discrete, symbolic, and structured properties inherent in relational data.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-18
# LookAhead: 敵の契約を解除してDeFi攻撃を防ぐ

LookAhead: Preventing DeFi Attacks via Unveiling Adversarial Contracts ( http://arxiv.org/abs/2401.07261v4 )

ライセンス: Link先を確認
Shoupeng Ren, Lipeng He, Tianyu Tu, Di Wu, Jian Liu, Kui Ren, Chun Chen, (参考訳) スマートコントラクトの脆弱性を悪用することに起因する分散型金融(DeFi)インシデントは、30億ドルを超える金銭的損害を極めた。 既存の防御メカニズムは、通常、被害者の契約をターゲットにした攻撃者が実行した悪意のあるトランザクションを検出し、反応することに焦点を当てる。 しかし、最初に公共のメムプールに現れないまま、マイナに直接トランザクションが送信されるプライベートトランザクションプールの出現により、現在の検出ツールは、攻撃活動を効果的に特定する上で重大な課題に直面している。 攻撃ロジックの多くは、被害者契約の活用を支援するコンポーネントとして1つ以上の中間的スマートコントラクトをデプロイすることに依存しているため、本稿では、敵取引ではなく敵契約を特定することに焦点を当てた、DeFi攻撃を検出するための新たな方向を提案する。 このアプローチでは、悪意のあるスマートコントラクトに見られる一般的な攻撃パターン、コードセマンティクス、本質的な特徴を活用して、マシンラーニング(ML)分類器と変換器モデルに基づくLookAheadシステムを構築します。 まず、EthereumとBSCブロックチェーン上にデプロイされた最近のコントラクトから抽出され、構築された機能からなる包括的なデータセットを構築します。 次に、Pruned Semantic-Control Flow Tokenization (PSCFT)と呼ばれるスマートコントラクトプログラムの凝縮表現を設計し、関数呼び出し、制御フロー、その他のパターン変換機能に基づいて悪意あるコードの振る舞いを理解するMLモデルの組み合わせを訓練する。 最後に、LookAheadの完全な実装と、敵の契約を検出するための性能指標の評価について述べる。

Decentralized Finance (DeFi) incidents stemming from the exploitation of smart contract vulnerabilities have culminated in financial damages exceeding 3 billion US dollars. Existing defense mechanisms typically focus on detecting and reacting to malicious transactions executed by attackers that target victim contracts. However, with the emergence of private transaction pools where transactions are sent directly to miners without first appearing in public mempools, current detection tools face significant challenges in identifying attack activities effectively. Based on the fact that most attack logic rely on deploying one or more intermediate smart contracts as supporting components to the exploitation of victim contracts, in this paper, we propose a new direction for detecting DeFi attacks that focuses on identifying adversarial contracts instead of adversarial transactions. Our approach allows us to leverage common attack patterns, code semantics and intrinsic characteristics found in malicious smart contracts to build the LookAhead system based on Machine Learning (ML) classifiers and a transformer model that is able to effectively distinguish adversarial contracts from benign ones, and make just-in-time predictions of potential zero-day attacks. Our contributions are three-fold: First, we construct a comprehensive dataset consisting of features extracted and constructed from recent contracts deployed on the Ethereum and BSC blockchains. Secondly, we design a condensed representation of smart contract programs called Pruned Semantic-Control Flow Tokenization (PSCFT) and use it to train a combination of ML models that understand the behaviour of malicious codes based on function calls, control flows and other pattern-conforming features. Lastly, we provide the complete implementation of LookAhead and the evaluation of its performance metrics for detecting adversarial contracts.
翻訳日:2024-09-20 13:36:42 公開日:2024-09-18
# CompressedMediQ:高次元ニューロイメージングデータのためのハイブリッド量子機械学習パイプライン

CompressedMediQ: Hybrid Quantum Machine Learning Pipeline for High-Dimensional Neuroimaging Data ( http://arxiv.org/abs/2409.08584v2 )

ライセンス: Link先を確認
Kuan-Cheng Chen, Yi-Tien Li, Tai-Yu Li, Chen-Yu Liu, Cheng-Yu Chen, (参考訳) 本稿では,高次元マルチクラスニューロイメージングデータ解析に関連する計算課題に対処するために開発された,新しいハイブリッド量子古典型機械学習パイプラインであるCompressedMediQを紹介する。 アルツハイマー病神経画像イニシアチブ(英語版)(ADNI)の4D MRIデータや、前頭側頭型認知症(英語版)(NIFD)におけるニューロイメージングなどの標準的な神経画像データセットは、その大きさと複雑さのために大きなハードルを呈している。 CompressedMediQは、高度なMRI前処理のための古典的ハイパフォーマンスコンピューティング(HPC)ノードと、CNN(Convolutional Neural Network)ベースの特徴抽出と削減を統合し、NISQ(Noisy Intermediate-Scale Quantum)時代の量子データ符号化の限定量子可用性に対処する。 次にQuantum Support Vector Machine (QSVM) という分類が続く。 量子カーネルの手法を利用することで、パイプラインは特徴マッピングと分類を最適化し、データの分離性を高め、従来のニューロイメージング分析技術より優れた性能を発揮する。 実験的結果は、認知症のステージングにおけるパイプラインの優れた精度を強調し、臨床診断における量子機械学習の実践的利用を検証する。 NISQデバイスの限界にもかかわらず、この概念実証は量子化学習の変革の可能性を示し、医療や信号処理におけるスケーラブルで正確な診断ツールの道を開いた。

This paper introduces CompressedMediQ, a novel hybrid quantum-classical machine learning pipeline specifically developed to address the computational challenges associated with high-dimensional multi-class neuroimaging data analysis. Standard neuroimaging datasets, such as 4D MRI data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) and Neuroimaging in Frontotemporal Dementia (NIFD), present significant hurdles due to their vast size and complexity. CompressedMediQ integrates classical high-performance computing (HPC) nodes for advanced MRI pre-processing and Convolutional Neural Network (CNN)-PCA-based feature extraction and reduction, addressing the limited-qubit availability for quantum data encoding in the NISQ (Noisy Intermediate-Scale Quantum) era. This is followed by Quantum Support Vector Machine (QSVM) classification. By utilizing quantum kernel methods, the pipeline optimizes feature mapping and classification, enhancing data separability and outperforming traditional neuroimaging analysis techniques. Experimental results highlight the pipeline's superior accuracy in dementia staging, validating the practical use of quantum machine learning in clinical diagnostics. Despite the limitations of NISQ devices, this proof-of-concept demonstrates the transformative potential of quantum-enhanced learning, paving the way for scalable and precise diagnostic tools in healthcare and signal processing.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-18
# HALO:検索コンテキストを付加したLLMの指導的意思決定のための幻覚分析と学習最適化

HALO: Hallucination Analysis and Learning Optimization to Empower LLMs with Retrieval-Augmented Context for Guided Clinical Decision Making ( http://arxiv.org/abs/2409.10011v2 )

ライセンス: Link先を確認
Sumera Anjum, Hanzhi Zhang, Wenjun Zhou, Eun Jin Paek, Xiaopeng Zhao, Yunhe Feng, (参考訳) 大規模言語モデル(LLM)は、かなり高度な自然言語処理タスクを持つが、不正確な、または信頼できない応答を生じさせる可能性がある。 健康や医学などの重要な領域では、これらの幻覚は深刻なリスクを引き起こす可能性がある。 本稿では,幻覚の検出と緩和に着目し,QAシステムの精度と信頼性を高めるための新しいフレームワークであるHALOを紹介する。 提案手法は,LLMを用いて与えられたクエリの複数のバリエーションを生成し,外部のオープン知識ベースから関連する情報を取得し,コンテキストを豊かにする。 我々は,最大限界関連スコアを用いて検索した文脈を優先順位付けし,回答生成のためにLLMに提供し,幻覚のリスクを低減する。 LangChainの統合により、Llama-3.1 (44%から65%) やChatGPT (56%から70%) といったオープンソースと商用両方のLCMの精度が著しく向上した。 この枠組みは、医学的QAシステムにおける幻覚に対処することの重要性を強調し、最終的に臨床的意思決定と患者ケアを改善する。 オープンソースのHALOは、https://github.com/ResponsibleAILab/HALOで入手できる。

Large language models (LLMs) have significantly advanced natural language processing tasks, yet they are susceptible to generating inaccurate or unreliable responses, a phenomenon known as hallucination. In critical domains such as health and medicine, these hallucinations can pose serious risks. This paper introduces HALO, a novel framework designed to enhance the accuracy and reliability of medical question-answering (QA) systems by focusing on the detection and mitigation of hallucinations. Our approach generates multiple variations of a given query using LLMs and retrieves relevant information from external open knowledge bases to enrich the context. We utilize maximum marginal relevance scoring to prioritize the retrieved context, which is then provided to LLMs for answer generation, thereby reducing the risk of hallucinations. The integration of LangChain further streamlines this process, resulting in a notable and robust increase in the accuracy of both open-source and commercial LLMs, such as Llama-3.1 (from 44% to 65%) and ChatGPT (from 56% to 70%). This framework underscores the critical importance of addressing hallucinations in medical QA systems, ultimately improving clinical decision-making and patient care. The open-source HALO is available at: https://github.com/ResponsibleAILab/HALO.
翻訳日:2024-09-20 11:13:42 公開日:2024-09-18
# 入射神経表現のための単層学習可能活性化(SL$^{2}$A-INR)

Single-Layer Learnable Activation for Implicit Neural Representation (SL$^{2}$A-INR) ( http://arxiv.org/abs/2409.10836v2 )

ライセンス: Link先を確認
Moein Heidari, Reza Rezaeian, Reza Azad, Dorit Merhof, Hamid Soltanian-Zadeh, Ilker Hacihaliloglu, (参考訳) Inlicit Neural Representation (INR)は、ニューラルネットワークを利用して、座標入力を対応する属性に変換する。 しかし、INRの性能は多層パーセプトロン(MLP)アーキテクチャで使用される非線形活性化関数の選択に大きく影響されている。 複数の非線形性が研究されているが、現在のINRは、高周波成分の捕捉、多様な信号タイプ、逆問題処理の制限に直面している。 我々は,INRのパラダイムシフトを導入することで,これらの問題を大幅に緩和できることを確認した。 初期層における学習可能なアクティベーションを持つアーキテクチャは、基礎となる信号の詳細な詳細を表現できる。 具体的には,単層学習可能なアクティベーション関数を持つINRのハイブリッドネットワークであるSL$^{2}$A-INRを提案する。 提案手法は,画像表現,3次元形状再構成,インペインティング,単一画像超解像,CT再構成,新しいビュー合成など,多様なタスクに優れる。 包括的な実験を通じて、SL$^{2}$A-INRはINRの精度、品質、収束率の新しいベンチマークを設定する。

Implicit Neural Representation (INR), leveraging a neural network to transform coordinate input into corresponding attributes, has recently driven significant advances in several vision-related domains. However, the performance of INR is heavily influenced by the choice of the nonlinear activation function used in its multilayer perceptron (MLP) architecture. Multiple nonlinearities have been investigated; yet, current INRs face limitations in capturing high-frequency components, diverse signal types, and handling inverse problems. We have identified that these problems can be greatly alleviated by introducing a paradigm shift in INRs. We find that an architecture with learnable activations in initial layers can represent fine details in the underlying signals. Specifically, we propose SL$^{2}$A-INR, a hybrid network for INR with a single-layer learnable activation function, prompting the effectiveness of traditional ReLU-based MLPs. Our method performs superior across diverse tasks, including image representation, 3D shape reconstructions, inpainting, single image super-resolution, CT reconstruction, and novel view synthesis. Through comprehensive experiments, SL$^{2}$A-INR sets new benchmarks in accuracy, quality, and convergence rates for INR.
翻訳日:2024-09-20 11:13:42 公開日:2024-09-18
# 深部時系列予測における暗黙の推論

Implicit Reasoning in Deep Time Series Forecasting ( http://arxiv.org/abs/2409.10840v2 )

ライセンス: Link先を確認
Willa Potosnak, Cristian Challu, Mononito Goswami, Michał Wiliński, Nina Żukowska, Artur Dubrawski, (参考訳) 近年、時系列基礎モデルでは、幅広い領域から時系列でゼロショット予測性能が期待できることが示されている。 しかし、その成功が時間力学の真の理解によるものなのか、単にトレーニングデータの記憶によるものなのかは定かではない。 言語モデルにおける暗黙的な推論は研究されているが、時系列モデルに対する同様の評価は、ほとんど研究されていない。 この研究は、ディープ時系列予測モデルの推論能力を評価するための最初の一歩を踏み出した。 線形, MLP ベース, パッチベースのトランスフォーマーモデルは, 系統的に編成されたアウト・オブ・ディストリビューションシナリオにおいて効果的に一般化し, 単純なパターン記憶以上の未探索推論能力を示唆している。

Recently, time series foundation models have shown promising zero-shot forecasting performance on time series from a wide range of domains. However, it remains unclear whether their success stems from a true understanding of temporal dynamics or simply from memorizing the training data. While implicit reasoning in language models has been studied, similar evaluations for time series models have been largely unexplored. This work takes an initial step toward assessing the reasoning abilities of deep time series forecasting models. We find that certain linear, MLP-based, and patch-based Transformer models generalize effectively in systematically orchestrated out-of-distribution scenarios, suggesting underexplored reasoning capabilities beyond simple pattern memorization.
翻訳日:2024-09-20 11:13:42 公開日:2024-09-18
# TTT-Unet: バイオメディカルイメージセグメンテーションのためのテスト時間トレーニング層によるU-Netの強化

TTT-Unet: Enhancing U-Net with Test-Time Training Layers for Biomedical Image Segmentation ( http://arxiv.org/abs/2409.11299v2 )

ライセンス: Link先を確認
Rong Zhou, Zhengqing Yuan, Zhiling Yan, Weixiang Sun, Kai Zhang, Yiwei Li, Yanfang Ye, Xiang Li, Lifang He, Lichao Sun, (参考訳) バイオメディカルイメージセグメンテーションは、様々な疾患を正確に診断し、分析するために重要である。 しかし、このタスクに最もよく使用されるアーキテクチャである畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、CNN固有の局所性とトランスフォーマーの計算複雑性のために、長距離依存を効果的に捉えるのに苦労する。 バイオメディカルイメージセグメンテーションのための従来のU-Netアーキテクチャにテスト時間トレーニング(TTT)層を統合する新しいフレームワークであるTT-Unetを導入する。 TTT-Unetはテスト期間中にモデルパラメータを動的に調整し、局所的特徴と長距離的特徴の両方をキャプチャするモデルの能力を向上する。 TTT-Unetは,CTおよびMR画像における3次元腹部臓器の分画,内視鏡画像における計器の分画,顕微鏡画像における細胞分画など,複数の医用画像データセット上で評価される。 その結果,TT-Unetは全タスクにおける最先端CNNベースおよびトランスフォーマーベースセグメンテーションモデルより一貫して優れていた。 コードはhttps://github.com/rongzhou7/TTT-Unet.comで公開されている。

Biomedical image segmentation is crucial for accurately diagnosing and analyzing various diseases. However, Convolutional Neural Networks (CNNs) and Transformers, the most commonly used architectures for this task, struggle to effectively capture long-range dependencies due to the inherent locality of CNNs and the computational complexity of Transformers. To address this limitation, we introduce TTT-Unet, a novel framework that integrates Test-Time Training (TTT) layers into the traditional U-Net architecture for biomedical image segmentation. TTT-Unet dynamically adjusts model parameters during the testing time, enhancing the model's ability to capture both local and long-range features. We evaluate TTT-Unet on multiple medical imaging datasets, including 3D abdominal organ segmentation in CT and MR images, instrument segmentation in endoscopy images, and cell segmentation in microscopy images. The results demonstrate that TTT-Unet consistently outperforms state-of-the-art CNN-based and Transformer-based segmentation models across all tasks. The code is available at https://github.com/rongzhou7/TTT-Unet.
翻訳日:2024-09-20 11:13:42 公開日:2024-09-18
# 量子スピンチェーンにおける偽真空気泡壁の衝突

Collisions of false-vacuum bubble walls in a quantum spin chain ( http://arxiv.org/abs/2012.07243v3 )

ライセンス: Link先を確認
Ashley Milsted, Junyu Liu, John Preskill, Guifre Vidal, (参考訳) 非摂動的手法を用いて、臨界に近い量子スピン鎖における「偽真空」の小さな気泡のリアルタイムダイナミクスをシミュレートし、低エネルギー物理学は相対論的(1+1)次元の量子場理論によって記述される。 壁面がキンクおよびアンチキンク準粒子励起である気泡を考えると,壁面衝突はキンク-アンチキンク散乱現象である。 近年提案された準粒子波束の行列積状態 (MPS) アンサッツを拡張した。 我々は、質量ギャップの最大5倍のエネルギーで無限鎖に埋め込まれた約1000スピンの窓内の力学をシミュレートする。 ウェーブパレット幅とバブルサイズを適切に選択することにより、強い格子効果を回避し、相対論的kink-antikink衝突を観測する。 我々はMPS準粒子アンサッツを用いて散乱結果を検出する。 (i)Isingモデルでは,非可積分性にもかかわらず粒子生成は観測されない(このモデルでは非熱化状態の最近の観測を支持している)。 (II)追加の相互作用を切り替えると、閉じ込められた粒子対と未確信の粒子対が生成する。 我々はエネルギーと時間の関数として生成される絡み合いの量を特徴付け、古典的なシミュレーション手法がこれらの増加とともに最終的に失敗すると結論づける。 1+1次元のkink-antikink散乱は、将来の量子コンピュータやアナログ量子シミュレーターのインストラクティブなベンチマーク問題であると予想する。

We simulate, using nonperturbative methods, the real-time dynamics of small bubbles of "false vacuum" in a quantum spin chain near criticality, where the low-energy physics is described by a relativistic (1+1)-dimensional quantum field theory. We consider bubbles whose walls are kink and antikink quasiparticle excitations, so that wall collisions are kink-antikink scattering events. To construct these bubbles in the presence of strong correlations, we extend a recently proposed matrix product state (MPS) ansatz for quasiparticle wavepackets. We simulate dynamics within a window of about 1000 spins embedded in an infinite chain at energies of up to about 5 times the mass gap. By choosing the wavepacket width and the bubble size appropriately, we avoid strong lattice effects and observe relativistic kink-antikink collisions. We use the MPS quasiparticle ansatz to detect scattering outcomes. (i) In the Ising model, with transverse and longitudinal fields, we do not observe particle production despite nonintegrability (supporting recent observations of nonthermalizing states in this model). (ii) Switching on an additional interaction, we see production of confined and unconfined particle pairs. We characterize the amount of entanglement generated as a function of energy and time and conclude that our classical simulation methods will ultimately fail as these increase. We anticipate that kink-antikink scattering in 1+1 dimensions will be an instructive benchmark problem for future quantum computers and analog quantum simulators.
翻訳日:2024-09-20 00:13:22 公開日:2024-09-18
# エネルギー劣化ネットワーク(EDeN)

Energy Decay Network (EDeN) ( http://arxiv.org/abs/2103.15552v5 )

ライセンス: Link先を確認
Jamie Nicholas Shelley, Optishell Consultancy, (参考訳) この論文とそれに伴うPythonとC++ Frameworkは、狭義の(差別に基づく)AIで認識された問題の著者たちの製品である。 (美術知能) このフレームワークは、共通の規則/交換値(エネルギー)を用いて、潜在的な構造的表現による経験の遺伝的移行を開発し、遺伝的およびリアルタイム信号処理の影響により、ニューラルアーキテクチャと全ての単位プロセスが共依存的に発達するモデルを作成する。成功経路は、遺伝的に符号化された形態的発達バイアスの影響を受け、エポックごとのスパイク分布の安定性によって定義される。これらの原則は、大規模に他の媒体への学習のために設計されたシミュレーションの中で、一般的なタスクに適応できる多様で堅牢なネットワークを作ることを目的としている。

This paper and accompanying Python and C++ Framework is the product of the authors perceived problems with narrow (Discrimination based) AI. (Artificial Intelligence) The Framework attempts to develop a genetic transfer of experience through potential structural expressions using a common regulation/exchange value (energy) to create a model whereby neural architecture and all unit processes are co-dependently developed by genetic and real time signal processing influences; successful routes are defined by stability of the spike distribution per epoch which is influenced by genetically encoded morphological development biases.These principles are aimed towards creating a diverse and robust network that is capable of adapting to general tasks by training within a simulation designed for transfer learning to other mediums at scale.
翻訳日:2024-09-20 00:13:22 公開日:2024-09-18
# サンプル増幅の統計的複雑さについて

On the Statistical Complexity of Sample Amplification ( http://arxiv.org/abs/2201.04315v2 )

ライセンス: Link先を確認
Brian Axelrod, Shivam Garg, Yanjun Han, Vatsal Sharan, Gregory Valiant, (参考訳) 未知の分布から引き出された$n$ i.i.d.サンプルを$P$で与えられると、いつ、$n+m$と区別できないより大きな$n+m$サンプルを生成できるのか? 本研究では, 一般に適用可能な増幅手順, 低境界技術, 既存の統計的概念への接続を導出することにより, この問題に対する確かな統計基盤を提供する。 本手法は指数関数族を含む多種多様な分布に適用し,サンプル増幅と分布学習の厳密な関係を確立する。

The ``sample amplification'' problem formalizes the following question: Given $n$ i.i.d. samples drawn from an unknown distribution $P$, when is it possible to produce a larger set of $n+m$ samples which cannot be distinguished from $n+m$ i.i.d. samples drawn from $P$? In this work, we provide a firm statistical foundation for this problem by deriving generally applicable amplification procedures, lower bound techniques and connections to existing statistical notions. Our techniques apply to a large class of distributions including the exponential family, and establish a rigorous connection between sample amplification and distribution learning.
翻訳日:2024-09-20 00:13:22 公開日:2024-09-18
# Rényi Divergence Deep Mutual Learning

Rényi Divergence Deep Mutual Learning ( http://arxiv.org/abs/2209.05732v7 )

ライセンス: Link先を確認
Weipeng Huang, Junjie Tao, Changbo Deng, Ming Fan, Wenqiang Wan, Qi Xiong, Guangyuan Piao, (参考訳) 本稿では、単純で効果的な計算パラダイムであるDeep Mutual Learning (DML)を再考する。 我々は、より柔軟で調整可能なKL分散の代わりにR\'{e}nyi分散を用いて、バニラDMLを改善することを提案する。 この修正により、バニラDMLよりもパフォーマンスが継続的に改善され、追加の複雑さが制限される。 提案したパラダイムの収束特性を理論的に解析し,非凸最適化タスクの最悪の場合において,定常学習率の確率勾配 Descent を $\mathcal{O}(1)$-bias に収束させることを示した。 つまり、学習は近くの最適な場所に到達するが、境界の範囲内を探索し続けることで、過度な適合を軽減できる。 最後に、我々は、DMLとR\'{e}nyiの発散の利点を実証し、モデル一般化をさらに改善した。

This paper revisits Deep Mutual Learning (DML), a simple yet effective computing paradigm. We propose using R\'{e}nyi divergence instead of the KL divergence, which is more flexible and tunable, to improve vanilla DML. This modification is able to consistently improve performance over vanilla DML with limited additional complexity. The convergence properties of the proposed paradigm are analyzed theoretically, and Stochastic Gradient Descent with a constant learning rate is shown to converge with $\mathcal{O}(1)$-bias in the worst case scenario for nonconvex optimization tasks. That is, learning will reach nearby local optima but continue searching within a bounded scope, which may help mitigate overfitting. Finally, our extensive empirical results demonstrate the advantage of combining DML and R\'{e}nyi divergence, leading to further improvement in model generalization.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# FedVeca: 適応的双方向グローバルオブジェクトによる非IIDデータのフェデレーションベクトル平均化

FedVeca: Federated Vectorized Averaging on Non-IID Data with Adaptive Bi-directional Global Objective ( http://arxiv.org/abs/2209.13803v3 )

ライセンス: Link先を確認
Ping Luo, Jieren Cheng, Zhenhao Liu, N. Xiong, Jie Wu, (参考訳) Federated Learning(FL)は、データサイロを緩和する分散機械学習フレームワークである。 しかし、クライアントの非独立分散(Non-IID)データは、トレーニングされたモデルに悪影響を及ぼし、ローカル更新数の異なるクライアントは、各通信ラウンドの局所的な勾配に重大なギャップを生じさせる可能性がある。 本稿では,FedVeca(Federated Vectorized Averaging, FedVeca)法を提案する。 具体的には,局所勾配に関連するグローバルモデルに対して,新たな目標を設定した。 局所勾配は、ステップサイズと方向を持つ双方向ベクトルとして定義され、ステップサイズは局所的な更新回数であり、その方向は定義に従って正と負に分けられる。 FedVecaでは、方向はステップサイズの影響を受けており、異なるステップサイズの影響を低減するために、双方向ベクトルを平均化する。 そこで我々は,ステップサイズと大域的目標との関係を理論的に解析し,通信ラウンドあたりのステップサイズに関する上限を求める。 上界に基づいてサーバとクライアントのアルゴリズムを設計し,目的を最適に近づけるステップサイズを適応的に調整する。 最後に,プロトタイプシステムの構築による異なるデータセット,モデル,シナリオの実験を行い,FedVeca法の有効性と有効性を示す実験結果を得た。

Federated Learning (FL) is a distributed machine learning framework to alleviate the data silos, where decentralized clients collaboratively learn a global model without sharing their private data. However, the clients' Non-Independent and Identically Distributed (Non-IID) data negatively affect the trained model, and clients with different numbers of local updates may cause significant gaps to the local gradients in each communication round. In this paper, we propose a Federated Vectorized Averaging (FedVeca) method to address the above problem on Non-IID data. Specifically, we set a novel objective for the global model which is related to the local gradients. The local gradient is defined as a bi-directional vector with step size and direction, where the step size is the number of local updates and the direction is divided into positive and negative according to our definition. In FedVeca, the direction is influenced by the step size, thus we average the bi-directional vectors to reduce the effect of different step sizes. Then, we theoretically analyze the relationship between the step sizes and the global objective, and obtain upper bounds on the step sizes per communication round. Based on the upper bounds, we design an algorithm for the server and the client to adaptively adjusts the step sizes that make the objective close to the optimum. Finally, we conduct experiments on different datasets, models and scenarios by building a prototype system, and the experimental results demonstrate the effectiveness and efficiency of the FedVeca method.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# Redditにおけるオンライン会話の構造

Characterizing the Structure of Online Conversations Across Reddit ( http://arxiv.org/abs/2209.14836v2 )

ライセンス: Link先を確認
Yulin Yu, Julie Jiang, Paramveer Dhillon, (参考訳) ソーシャルメディアプラットフォームの普及により、社会科学者は人類の相互作用に関する膨大なデータにアクセスできなくなり、オンライン行動の研究を非例外の規模で促進した。 これらのプラットフォームは通常、会話をスレッドとして構成し、「ディスカッション・ツリー」として知られる木のような構造を形成する。 本稿では,これらの議論ツリーのグローバルな(コミュニティレベルの)属性とローカルな(ポストレベルの)属性の両方を分析し,Reddit上でのオンラインディスカッションの構造的特性について検討する。 我々は1年分のRedditデータに関する包括的な統計分析を行い、100万件の投稿と数百万のコメントを含む。 我々の主な目的は、グローバル・ローカル・プロパティの相対的な影響を解消し、特定の特徴がどのようにツリー構造を議論するかを評価することである。 その結果,局所的特徴もグローバル的特徴も,議論木の構造的変化の説明に大きく寄与していることが明らかとなった。 しかし、ポストコンテンツや感情などの局所的な特徴は全体として大きな影響を与え、議論ツリーの幅、深さ、大きさのばらつきが大きい。 また,様々な特徴が議論構造に与える影響について検討した。 特に、特定のグローバルな特徴は、特定の議論木の性質を決定する上で重要な役割を担っている。 これらの特徴には、サブレディットのトピック、年齢、人気度、コンテンツ冗長性などが含まれる。 例えば、政治、スポーツ、現在の出来事に焦点を当てたサブレディットの投稿は、より深くより広い議論の木を生み出す傾向にある。 この研究は、オンライン会話のダイナミクスの理解を深め、コンテンツクリエーターとプラットフォームデザイナの両方に貴重な洞察を提供する。 オンライン討論を形成する要因を解明することにより、デジタル談話の品質と効果を改善するための継続的な取り組みに貢献する。

The proliferation of social media platforms has afforded social scientists unprecedented access to vast troves of data on human interactions, facilitating the study of online behavior at an unparalleled scale. These platforms typically structure conversations as threads, forming tree-like structures known as "discussion trees." This paper examines the structural properties of online discussions on Reddit by analyzing both global (community-level) and local (post-level) attributes of these discussion trees. We conduct a comprehensive statistical analysis of a year's worth of Reddit data, encompassing a quarter of a million posts and several million comments. Our primary objective is to disentangle the relative impacts of global and local properties and evaluate how specific features shape discussion tree structures. The results reveal that both local and global features contribute significantly to explaining structural variation in discussion trees. However, local features, such as post content and sentiment, collectively have a greater impact, accounting for a larger proportion of variation in the width, depth, and size of discussion trees. Our analysis also uncovers considerable heterogeneity in the impact of various features on discussion structures. Notably, certain global features play crucial roles in determining specific discussion tree properties. These features include the subreddit's topic, age, popularity, and content redundancy. For instance, posts in subreddits focused on politics, sports, and current events tend to generate deeper and wider discussion trees. This research enhances our understanding of online conversation dynamics and offers valuable insights for both content creators and platform designers. By elucidating the factors that shape online discussions, our work contributes to ongoing efforts to improve the quality and effectiveness of digital discourse.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# プライバシー制約下における推定・試験の統計的複雑さについて

On the Statistical Complexity of Estimation and Testing under Privacy Constraints ( http://arxiv.org/abs/2210.02215v3 )

ライセンス: Link先を確認
Clément Lalanne, Aurélien Garivier, Rémi Gribonval, (参考訳) サンプル中の個人のプライバシーを尊重しながら正確な統計を作成するという課題は、重要な研究分野である。 微分プライベート推定器のクラスに対するミニマックス下界について検討する。 特に、適切な輸送問題を解くことにより、差分プライバシー下での統計的テストのパワーをプラグアンドプレイ方式で特徴付ける方法を示す。 特定の結合構造により、この観測により、通常の微分プライバシーの定義だけでなく、ル・カム型とファノ型の不等式も導出できる。 次に、簡単な3つの完全な実例について、その結果を説明します。 特に,問題クラスは,プライバシによる実用性低下の証明に非常に重要であることを示す。 特定のシナリオでは、プライバシ保護のレベルが非常に高い場合にのみ、プライバシの維持が顕著なパフォーマンス低下をもたらすことが示される。 逆に、他の問題では、プライバシー保護の控えめなレベルでさえ、パフォーマンスが著しく低下する可能性がある。 最後に、プライベート凸解法であるDP-SGLDアルゴリズムは、サンプルのサイズとプライバシ保護のレベルの両方に関して、ほぼ最適な結果を提供するため、高い信頼度で最大推定に使用できることを示した。 このアルゴリズムは指数列を含む幅広いパラメトリック推定手順に適用できる。

The challenge of producing accurate statistics while respecting the privacy of the individuals in a sample is an important area of research. We study minimax lower bounds for classes of differentially private estimators. In particular, we show how to characterize the power of a statistical test under differential privacy in a plug-and-play fashion by solving an appropriate transport problem. With specific coupling constructions, this observation allows us to derive Le Cam-type and Fano-type inequalities not only for regular definitions of differential privacy but also for those based on Renyi divergence. We then proceed to illustrate our results on three simple, fully worked out examples. In particular, we show that the problem class has a huge importance on the provable degradation of utility due to privacy. In certain scenarios, we show that maintaining privacy results in a noticeable reduction in performance only when the level of privacy protection is very high. Conversely, for other problems, even a modest level of privacy protection can lead to a significant decrease in performance. Finally, we demonstrate that the DP-SGLD algorithm, a private convex solver, can be employed for maximum likelihood estimation with a high degree of confidence, as it provides near-optimal results with respect to both the size of the sample and the level of privacy protection. This algorithm is applicable to a broad range of parametric estimation procedures, including exponential families.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# トレーニングされていないニューラルネットワークによる残留バックプロジェクション

Residual Back Projection With Untrained Neural Networks ( http://arxiv.org/abs/2210.14416v3 )

ライセンス: Link先を確認
Ziyu Shu, Alireza Entezari, (参考訳) 背景と目的: 画像処理タスクにおけるニューラルネットワークの成功は、CT(Computerd tomography)における画像再構成問題への彼らの応用を動機付けている。 この分野では進歩が進んでいるが、安定性の欠如と精度の理論的保証、および特定の画像領域に対する高品質なトレーニングデータの不足は、多くのCTアプリケーションに課題をもたらす。 本稿では,ニューラルネットワークの階層構造を利用したCTにおける反復的再構成(IR)の枠組みを,トレーニングを必要とせずに提案する。 本フレームワークでは,この構造情報をDIP(Deep Image Prior)として組み込んで,リザーブ・バック・プロジェクション(RBP)接続を用いて反復の基盤となる。 方法: 対象関数を最小限に抑え, 高精度な再構成を実現するために, 訓練されていないU-netと新たな後方投射を併用して提案する。 各イテレーションにおいて、トレーニングされていないU-netの重みを最適化し、現在のイテレーションにおけるU-netの出力を使用して、上記RBP接続を介して、次のイテレーションにおけるU-netの入力を更新する。 結果: 実験の結果, RBP-DIPフレームワークは, 従来のIR法と類似のネットワーク構造を持つ事前学習モデル, 未学習モデルに改善をもたらすことがわかった。 これらの改善は、特に少数ビュー、限定アングル、低線画像構成において重要である。 結論: パラレルビームX線撮影とファンビームX線撮影を併用すると, 複数の条件下での大きな改善が見られた。 さらに、提案フレームワークは、トレーニングデータを必要としないため、異なる条件(例えば、ノイズレベル、幾何学、画像オブジェクト)に適応するために、オンデマンドで調整することができる。

Background and Objective: The success of neural networks in a number of image processing tasks has motivated their application in image reconstruction problems in computed tomography (CT). While progress has been made in this area, the lack of stability and theoretical guarantees for accuracy, together with the scarcity of high-quality training data for specific imaging domains pose challenges for many CT applications. In this paper, we present a framework for iterative reconstruction (IR) in CT that leverages the hierarchical structure of neural networks, without the need for training. Our framework incorporates this structural information as a deep image prior (DIP), and uses a novel residual back projection (RBP) connection that forms the basis for our iterations. Methods: We propose using an untrained U-net in conjunction with a novel residual back projection to minimize an objective function and achieve high-accuracy reconstruction. In each iteration, the weights of the untrained U-net are optimized, and the output of the U-net in the current iteration is used to update the input of the U-net in the next iteration through the aforementioned RBP connection. Results: Experimental results demonstrate that the RBP-DIP framework offers improvements over other state-of-the-art conventional IR methods, as well as pre-trained and untrained models with similar network structures under multiple conditions. These improvements are particularly significant in the few-view, limited-angle, and low-dose imaging configurations. Conclusions: Applying to both parallel and fan beam X-ray imaging, our framework shows significant improvement under multiple conditions. Furthermore, the proposed framework requires no training data and can be adjusted on-demand to adapt to different conditions (e.g. noise level, geometry, and imaged object).
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# 衛星画像を用いたコントラスト表現学習における都市と農村の格差の緩和

Mitigating Urban-Rural Disparities in Contrastive Representation Learning with Satellite Imagery ( http://arxiv.org/abs/2211.08672v3 )

ライセンス: Link先を確認
Miao Zhang, Rumi Chunara, (参考訳) 衛星画像は、気候、経済、公衆衛生など、社会的に重要な多くのタスクに活用されている。 しかし、景観の異質性(例えば道路が様々な場所でどのように見えるか)のため、モデルは地理的に異なる性能を示すことができる。 社会的な文脈で使用されるアルゴリズムシステムにおける格差の重要な可能性を考えると、土地被覆の特徴の同定における都市と農村の格差のリスクを考察する。 これはセマンティックセグメンテーション(画像領域が表示されているものに応じてラベル付けされる一般的なコンピュータビジョンタスク)によって行われる。 本稿では,畳み込みニューラルネットワークモデルの多レベル潜在空間を非バイアス化する手法として,コントラッシブ・ラーニング(FairDCL)を用いた高密度表現を提案する。 本手法は,都市部や農村部に分散して分布する突発的なモデル表現を除去し,対照的な事前学習によって教師なしの方法で特徴識別を改善する。 得られた画像表現は、下流の都市と農村の予測格差を軽減し、現実の衛星画像の最先端のベースラインを上回ります。 埋め込み空間評価とアブレーション研究は、FairDCLの堅牢性をさらに証明している。 地理的画像の一般化性とロバスト性は、初期段階のトピックであるため、我々の研究は、研究者がそのようなアプリケーションで平均精度を超えるメトリクスを考える動機となっている。

Satellite imagery is being leveraged for many societally critical tasks across climate, economics, and public health. Yet, because of heterogeneity in landscapes (e.g. how a road looks in different places), models can show disparate performance across geographic areas. Given the important potential of disparities in algorithmic systems used in societal contexts, here we consider the risk of urban-rural disparities in identification of land-cover features. This is via semantic segmentation (a common computer vision task in which image regions are labelled according to what is being shown) which uses pre-trained image representations generated via contrastive self-supervised learning. We propose fair dense representation with contrastive learning (FairDCL) as a method for de-biasing the multi-level latent space of convolution neural network models. The method improves feature identification by removing spurious model representations which are disparately distributed across urban and rural areas, and is achieved in an unsupervised way by contrastive pre-training. The obtained image representation mitigates downstream urban-rural prediction disparities and outperforms state-of-the-art baselines on real-world satellite images. Embedding space evaluation and ablation studies further demonstrate FairDCL's robustness. As generalizability and robustness in geographic imagery is a nascent topic, our work motivates researchers to consider metrics beyond average accuracy in such applications.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# AugTriever: スケーラブルなデータ拡張による教師なしDense検索

AugTriever: Unsupervised Dense Retrieval by Scalable Data Augmentation ( http://arxiv.org/abs/2212.08841v3 )

ライセンス: Link先を確認
Rui Meng, Ye Liu, Semih Yavuz, Divyansh Agarwal, Lifu Tu, Ning Yu, Jianguo Zhang, Meghana Bhat, Yingbo Zhou, (参考訳) デンス検索はテキスト検索とオープンドメイン質問応答において大きな進歩を遂げている。 しかし、これらの成果のほとんどは、広範囲にわたる人手による監督に大きく依存している。 本研究では,高密度検索モデルを改善するための教師なし手法を開発することを目的とする。 本稿では,クエリ抽出と転送クエリ生成という,擬似クエリドキュメントペアを作成することによって,アノテーションのないスケーラブルなトレーニングを可能にする2つのアプローチを提案する。 クエリ抽出方法は、元のドキュメントから有能なスパンを選択して擬似クエリを生成する。 一方、転送クエリ生成手法では、要約などの他のNLPタスクのために訓練された生成モデルを用いて擬似クエリを生成する。 大規模な実験を通じて,これらの拡張手法を用いて訓練したモデルが,複数の高密度ベースラインよりも高い性能を達成できることを実証した。 さらに、これらの戦略を組み合わせることでさらに改善され、BEIRデータセットとODQAデータセットの両方でベンチマークされた、教師なし密集検索、教師なしドメイン適応、教師付き微調整のパフォーマンスが向上する。 コードとデータセットはhttps://github.com/salesforce/AugTriever.comで公開されている。

Dense retrievers have made significant strides in text retrieval and open-domain question answering. However, most of these achievements have relied heavily on extensive human-annotated supervision. In this study, we aim to develop unsupervised methods for improving dense retrieval models. We propose two approaches that enable annotation-free and scalable training by creating pseudo querydocument pairs: query extraction and transferred query generation. The query extraction method involves selecting salient spans from the original document to generate pseudo queries. On the other hand, the transferred query generation method utilizes generation models trained for other NLP tasks, such as summarization, to produce pseudo queries. Through extensive experimentation, we demonstrate that models trained using these augmentation methods can achieve comparable, if not better, performance than multiple strong dense baselines. Moreover, combining these strategies leads to further improvements, resulting in superior performance of unsupervised dense retrieval, unsupervised domain adaptation and supervised finetuning, benchmarked on both BEIR and ODQA datasets. Code and datasets are publicly available at https://github.com/salesforce/AugTriever.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# NN-Copula-CD:異種リモートセンシング画像における変化検出のためのコプラ誘導型解釈型ニューラルネットワーク

NN-Copula-CD: A Copula-Guided Interpretable Neural Network for Change Detection in Heterogeneous Remote Sensing Images ( http://arxiv.org/abs/2303.17448v2 )

ライセンス: Link先を確認
Weiming Li, Xueqian Wang, Gang Li, Baocheng Geng, Pramod K. Varshney, (参考訳) 異種リモートセンシング画像における変化検出(CD)は,災害監視や土地利用管理に広く利用されている。 過去10年間で、ヘテロジニアスCD問題はディープニューラルネットワーク(DNN)の開発から大きな恩恵を受けている。 しかし、純粋なデータ駆動型DNNは、ほとんどの実用的なCDアプリケーションにおいて、解釈可能性の欠如がDNNの信頼性と制御性を制限するブラックボックスのように機能する。 強力な知識駆動ツールとして、コプラ理論は確率変数間の関係をモデル化する上でうまく機能する。 既存のCD用ニューラルネットワークの解釈可能性を高めるため,NN-Copula-CDと呼ばれるコプラ誘導型ニューラルネットワークに基づく知識データ駆動型異種CD手法を提案する。 NN-Copula-CDでは、コプラの数学的特徴を損失関数として用いて、ニューラルネットワークを監督し、両時間的ヘテロジニアスなスーパーピクセル対間の依存を学習し、両時間的画像中のすべてのスーパーピクセル対の依存度に基づいて、変化領域を二分分類により同定する。 我々は,光,合成開口レーダ,マルチスペクトル,近赤外画像を含む異種画像を用いた3つのデータセットの詳細な実験を行い,NN-Copula-CD法の有効性と解釈性を示した。

Change detection (CD) in heterogeneous remote sensing images has been widely used for disaster monitoring and land-use management. In the past decade, the heterogeneous CD problem has significantly benefited from the development of deep neural networks (DNNs). However, the purely data-driven DNNs perform like a black box where the lack of interpretability limits the trustworthiness and controllability of DNNs in most practical CD applications. As a powerful knowledge-driven tool, copula theory performs well in modeling relationships among random variables. To enhance the interpretability of existing neural networks for CD, we propose a knowledge-data-driven heterogeneous CD method based on a copula-guided neural network, named NN-Copula-CD. In our NN-Copula-CD, the mathematical characteristics of copula are employed as the loss functions to supervise a neural network to learn the dependence between bi-temporal heterogeneous superpixel pairs, and then the changed regions are identified via binary classification based on the degrees of dependence of all the superpixel pairs in the bi-temporal images. We conduct in-depth experiments on three datasets with heterogeneous images, including optical, synthetic aperture radar, multispectral, and near-infrared images, where both quantitative and visual results demonstrate both the effectiveness and interpretability of our proposed NN-Copula-CD method.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# 大規模言語モデルの創造性について

On the Creativity of Large Language Models ( http://arxiv.org/abs/2304.00008v4 )

ライセンス: Link先を確認
Giorgio Franceschelli, Mirco Musolesi, (参考訳) 大規模言語モデル(LLM)は、人工知能のいくつかの領域に革命をもたらしている。 最も顕著な応用の1つは、創造的な文章、例えば詩やストーリーテリングである:生成されたアウトプットは、しばしば驚くべき品質である。 しかし、自然の疑問が生まれます。 LLMは本当に創造的であるか? 本稿では,クリエイティビティ理論のレンズによるLCMの開発をまず分析し,その鍵となる課題と課題について考察する。 特に、マーガレット・ボーデン(Margaret Boden)が著書で提案した、価値、斬新、驚きの次元に関する議論に焦点をあてる。 そして、私たちは、製品、プロセス、プレス、そして人という、異なる古典的な視点を考えます。 我々は,機械の創造性における「easy」と「hard」の一連の問題を論じ,LLMに関連する問題を提示する。 最後に、これらの技術の社会的影響を、創造的産業に特に焦点をあて、提供された機会、それらから生じる課題、そして法的・倫理的視点から潜在的に関連するリスクを分析して検討する。

Large Language Models (LLMs) are revolutionizing several areas of Artificial Intelligence. One of the most remarkable applications is creative writing, e.g., poetry or storytelling: the generated outputs are often of astonishing quality. However, a natural question arises: can LLMs be really considered creative? In this article, we first analyze the development of LLMs under the lens of creativity theories, investigating the key open questions and challenges. In particular, we focus our discussion on the dimensions of value, novelty, and surprise as proposed by Margaret Boden in her work. Then, we consider different classic perspectives, namely product, process, press, and person. We discuss a set of ``easy'' and ``hard'' problems in machine creativity, presenting them in relation to LLMs. Finally, we examine the societal impact of these technologies with a particular focus on the creative industries, analyzing the opportunities offered, the challenges arising from them, and the potential associated risks, from both legal and ethical points of view.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# ソースデータのない非教師なしクロスドメイン肺結節検出

Unsupervised Cross-domain Pulmonary Nodule Detection without Source Data ( http://arxiv.org/abs/2304.01085v2 )

ライセンス: Link先を確認
Rui Xu, Yong Luo, Bo Du, (参考訳) クロスドメイン肺結節検出は、ソースとターゲットドメイン間のデータ分布の大きなシフトにより、性能劣化に悩まされる。 また、医用データアノテーションの高コストを考慮すると、対象画像がラベル付けされていないと仮定されることが多い。 既存のアプローチは、この教師なしのドメイン適応設定に大きく進歩した。 しかし、この設定は、プライバシ上の懸念から、情報源の医療データがアクセスできない場合が多いため、医療アプリケーションではまだ不可能である。 そこで本研究では,肺結節検出(SUP)のためのソースフリーな教師なしクロスドメイン手法である,インスタンスレベルコントラスト命令微調整フレームワーク(ICI)を提案する。 まず、インスタンスレベルのコントラスト学習を利用して、ソースモデルをターゲットドメインに適応させる。 そして、適応モデルを教師と学生のインタラクション方法で訓練し、さらに精度を向上させるために重み付きエントロピー損失を組み込む。 肺結節検出のために,トレーニング済みのソースモデルを3つの一般的なデータセットに適応させることで,ベンチマークを確立する。 我々の知る限りでは、医用画像オブジェクト検出において、ソースレスの非教師なし領域適応の最初の探索となる。 我々の広範な評価は、SUP-ICIが既存の最先端のアプローチを大幅に上回り、FROCのスコアは8.98%から16.05%に向上したことを示している。 このブレークスルーは、医療画像におけるドメイン適応技術の新たな先例となるだけでなく、データのプライバシと可用性によって引き起こされる課題を克服するための分野を著しく前進させる。 コード:https://github.com/Ruixxxx/SFUDA

Cross-domain pulmonary nodule detection suffers from performance degradation due to a large shift of data distributions between the source and target domain. Besides, considering the high cost of medical data annotation, it is often assumed that the target images are unlabeled. Existing approaches have made much progress for this unsupervised domain adaptation setting. However, this setting is still rarely plausible in medical applications since the source medical data are often not accessible due to privacy concerns. This motivates us to propose a Source-free Unsupervised cross-domain method for Pulmonary nodule detection (SUP), named Instance-level Contrastive Instruction fine-tuning framework (ICI). It first adapts the source model to the target domain by utilizing instance-level contrastive learning. Then the adapted model is trained in a teacher-student interaction manner, and a weighted entropy loss is incorporated to further improve the accuracy. We establish a benchmark by adapting a pre-trained source model to three popular datasets for pulmonary nodule detection. To the best of our knowledge, this represents the first exploration of source-free unsupervised domain adaptation in medical image object detection. Our extensive evaluations reveal that SUP-ICI substantially surpasses existing state-of-the-art approaches, achieving FROC score improvements ranging from 8.98% to 16.05%. This breakthrough not only sets a new precedent for domain adaptation techniques in medical imaging but also significantly advances the field toward overcoming challenges posed by data privacy and availability. Code: https://github.com/Ruixxxx/SFUDA.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# Twitterバイオマスにおける自己表現の次元と誤情報共有との関連性の測定

Measuring Dimensions of Self-Presentation in Twitter Bios and their Links to Misinformation Sharing ( http://arxiv.org/abs/2305.09548v4 )

ライセンス: Link先を確認
Navid Madani, Rabiraj Bandyopadhyay, Briony Swire-Thompson, Michael Miller Yoder, Kenneth Joseph, (参考訳) ソーシャルメディアプラットフォームは、"bio"として知られるプロファイル記述フィールドをユーザに提供し、世界に自らを提示する。 これらの生物のテキストは、オンラインの自己表現と行動に対する理解を改善することができるが、既存の研究はキーワードベースのアプローチにのみ依存している。 本稿では, 年齢や党派など, 社会的意味の健全な次元を捉えた空間に生物を埋め込むための, 単純で効果的かつ理論的に動機づけられた一組のアプローチを提案し, 評価する。 4つのタスクでメソッドを評価し、最強のメソッドがいくつかの実用的なベースラインを上回っていることを示す。 次に,Twitter\hl{上の低品質ニュースサイトにおける自己表現とURLの共有の関連性を理解する上での手法の有用性について述べる。 我々の研究は、計算社会科学者が生体情報を利用するのを助ける新しいツールを提供し、Twitter上での誤情報共有がどのように認識されるかに関する新たな洞察を提供する。

Social media platforms provide users with a profile description field, commonly known as a ``bio," where they can present themselves to the world. A growing literature shows that text in these bios can improve our understanding of online self-presentation and behavior, but existing work relies exclusively on keyword-based approaches to do so. We here propose and evaluate a suite of \hl{simple, effective, and theoretically motivated} approaches to embed bios in spaces that capture salient dimensions of social meaning, such as age and partisanship. We \hl{evaluate our methods on four tasks, showing that the strongest one out-performs several practical baselines.} We then show the utility of our method in helping understand associations between self-presentation and the sharing of URLs from low-quality news sites on Twitter\hl{, with a particular focus on explore the interactions between age and partisanship, and exploring the effects of self-presentations of religiosity}. Our work provides new tools to help computational social scientists make use of information in bios, and provides new insights into how misinformation sharing may be perceived on Twitter.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# 確率論的ロバスト学習に関する幾何学的考察

A geometric view on probabilistically robust learning ( http://arxiv.org/abs/2305.18779v2 )

ライセンス: Link先を確認
Leon Bungert, Nicolás García Trillos, Matt Jacobs, Daniel McKenzie, Đorđe Nikolić, Qingsong Wang, (参考訳) ディープニューラルネットワークは多くの分類タスクにおいて超人的性能を達成したが、しばしば、敵対的に生成された例に対する堅牢性の欠如を心配する。 このようにして、標準的なリスク最小化(RM)を逆向きに堅牢なフレームワークに改定するために、かなりの努力が費やされている。 近年、敵の訓練によって提供される頑丈さと、より清潔で高速なRMの訓練時間とを補間するアプローチに注目が移っている。 本稿では,確率論的ロバスト学習(PRL)について,新しい幾何学的考察を行った。 本稿では,PRLの数学的枠組みを提案する。このフレームワークにより,元の定式化における幾何学的病理を同定し,確率論的非局所的周辺関数の族を導入して修正することができる。 新たな緩和法を用いて, オリジナルおよび修正問題に対する解の存在を証明し, 導入した周辺機器の特性, および局所限界について検討する。 また,適切な$\Gamma$-convergence解析により,従来のPRLモデルと修正されたPRLモデルがリスク最小化と対向トレーニングの間を介在する方法を明らかにした。

Although deep neural networks have achieved super-human performance on many classification tasks, they often exhibit a worrying lack of robustness towards adversarially generated examples. Thus, considerable effort has been invested into reformulating standard Risk Minimization (RM) into an adversarially robust framework. Recently, attention has shifted towards approaches which interpolate between the robustness offered by adversarial training and the higher clean accuracy and faster training times of RM. In this paper, we take a fresh and geometric view on one such method -- Probabilistically Robust Learning (PRL). We propose a mathematical framework for understanding PRL, which allows us to identify geometric pathologies in its original formulation and to introduce a family of probabilistic nonlocal perimeter functionals to rectify them. We prove existence of solutions to the original and modified problems using novel relaxation methods and also study properties, as well as local limits, of the introduced perimeters. We also clarify, through a suitable $\Gamma$-convergence analysis, the way in which the original and modified PRL models interpolate between risk minimization and adversarial training.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# PlaSma:(企業)計画のための手続き的知識モデルを改善するための小さな言語モデル

PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning ( http://arxiv.org/abs/2305.19472v3 )

ライセンス: Link先を確認
Faeze Brahman, Chandra Bhagavatula, Valentina Pyatkin, Jena D. Hwang, Xiang Lorraine Li, Hirona J. Arai, Soumya Sanyal, Keisuke Sakaguchi, Xiang Ren, Yejin Choi, (参考訳) 高レベルの目標を時間的に順序付けられた一連のステップに分解する手続き的計画は、マシンにとって重要で複雑な作業である。 これは「電話なしで医師の予約をスケジュールする」といった、複雑でしばしば文脈化された状況について推論するために、常識的な知識を統合することである。 現在のアプローチでは、大きな言語モデル(LLM)を使用した奨励的な結果を示しているが、コストのかかるAPI呼び出しや再現性の問題といった欠点によって妨げられている。 本稿では,より小さな言語モデルを用いたプランニングを提唱する。 手続き的知識と(制約のある)言語計画能力を備えた小型言語モデルを実現するための,新しい2段階のアプローチであるPlasmaを提案する。 より具体的には、小言語モデルにおけるコモンセンス知識を高めるための記号的手続き的知識蒸留法と、より構造化された正確な推論を容易にする推論時アルゴリズムを開発する。 また,制約状況に対処する計画の見直しを必要とする新しいタスクであるReplanningを導入する。 計画と計画の双方において,770M-11Bパラメータの桁違いの小さいモデルが,より大きな教師モデルの能力を競い,しばしば超えることを示す。 最後に,具体化環境であるVirtualHomeにおけるPlaSmaの応用について紹介する。

Procedural planning, which entails decomposing a high-level goal into a sequence of temporally ordered steps, is an important yet intricate task for machines. It involves integrating common-sense knowledge to reason about complex and often contextualized situations, e.g. ``scheduling a doctor's appointment without a phone''. While current approaches show encouraging results using large language models (LLMs), they are hindered by drawbacks such as costly API calls and reproducibility issues. In this paper, we advocate planning using smaller language models. We present PlaSma, a novel two-pronged approach to endow small language models with procedural knowledge and (constrained) language planning capabilities. More concretely, we develop symbolic procedural knowledge distillation to enhance the commonsense knowledge in small language models and an inference-time algorithm to facilitate more structured and accurate reasoning. In addition, we introduce a new related task, Replanning, that requires a revision of a plan to cope with a constrained situation. In both the planning and replanning settings, we show that orders-of-magnitude smaller models (770M-11B parameters) can compete and often surpass their larger teacher models' capabilities. Finally, we showcase successful application of PlaSma in an embodied environment, VirtualHome.
翻訳日:2024-09-20 00:07:34 公開日:2024-09-18
# 確率収束を伴う制約付き強化学習のための1ループディープアクター・クライブアルゴリズム

A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement Learning with Provable Convergence ( http://arxiv.org/abs/2306.06402v2 )

ライセンス: Link先を確認
Kexuan Wang, An Liu, Baishuo Lin, (参考訳) Actor-CriticとDeep Neural Network(DNN)を組み合わせたDeep Actor-Criticアルゴリズムは、シミュレーション環境における意思決定問題に対する最も一般的な強化学習アルゴリズムの一つである。 しかし、既存のディープアクター・クライブアルゴリズムは、非凸確率制約と環境との相互作用に高いコストで現実的な問題を解くためにまだ成熟していない。 本稿では,一般制約強化学習(CRL)問題に対する単一ループディープアクター・クリティカル(SLDAC)アルゴリズムフレームワークを提案する。 アクターステップでは、制約付き確率連続凸近似(CSSCA)法を適用し、非凸確率目標と制約を扱う。 批評家のステップでは、批評家のDNNはイテレーション毎に1回または数回だけ更新され、アルゴリズムをシングルループフレームワークに単純化する(既存の作業では、各イテレーションのインナーループの十分な収束を保証するために、批評家のステップに対して十分な数の更新が必要である)。 さらに、旧方針からの観測を再利用することにより、政策勾配推定のばらつきを低減させる。 単一ループ設計と観察再利用により,エージェント-環境相互作用コストと計算複雑性を効果的に低減できる。 単一ループ設計と観測再利用によって生じる偏りのある政策勾配の推定にも拘わらず,本問題の始点を持つSLDACがKKT(Karush-Kuhn-Tuker)点にほぼ確実に収束できることを証明した。 シミュレーションにより、SLDACアルゴリズムは、より少ない相互作用コストで優れた性能を達成できることが示されている。

Deep Actor-Critic algorithms, which combine Actor-Critic with deep neural network (DNN), have been among the most prevalent reinforcement learning algorithms for decision-making problems in simulated environments. However, the existing deep Actor-Critic algorithms are still not mature to solve realistic problems with non-convex stochastic constraints and high cost to interact with the environment. In this paper, we propose a single-loop deep Actor-Critic (SLDAC) algorithmic framework for general constrained reinforcement learning (CRL) problems. In the actor step, the constrained stochastic successive convex approximation (CSSCA) method is applied to handle the non-convex stochastic objective and constraints. In the critic step, the critic DNNs are only updated once or a few finite times for each iteration, which simplifies the algorithm to a single-loop framework (the existing works require a sufficient number of updates for the critic step to ensure a good enough convergence of the inner loop for each iteration). Moreover, the variance of the policy gradient estimation is reduced by reusing observations from the old policy. The single-loop design and the observation reuse effectively reduce the agent-environment interaction cost and computational complexity. In spite of the biased policy gradient estimation incurred by the single-loop design and observation reuse, we prove that the SLDAC with a feasible initial point can converge to a Karush-Kuhn-Tuker (KKT) point of the original problem almost surely. Simulations show that the SLDAC algorithm can achieve superior performance with much lower interaction cost.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-18
# 密度推定における中央プライバシーのコストについて

About the Cost of Central Privacy in Density Estimation ( http://arxiv.org/abs/2306.14535v4 )

ライセンス: Link先を確認
Clément Lalanne, Aurélien Garivier, Rémi Gribonval, (参考訳) リプシッツ空間とソボレフ空間における密度の非パラメトリック密度推定を中心的プライバシー下で検討した。 特に、プライバシー予算が一定でないことを前提とした制度について検討する。 我々は、中央差分プライバシーという古典的な定義だけでなく、より最近の中央差分プライバシーという概念も検討している。 The results of Barber and Duchi (2014) that histogram estimator is optimal against Lipschitz distributions for the L2 risk, under regular differential privacy, and extended it to other norms and concepts of privacy。 第一に、絶え間ないプライバシー予算(Wasserman and Zhou, 2010)に反し、プライバシーを課すことでソボレフ密度を推定する最小限のリスクが低下する体制が存在する。 第2に、いわゆるプロジェクション推定器は、純粋な差分プライバシーを備えたこの新しい設定において、同じ密度のクラスに対してほぼ最適だが、一定のプライバシー予算のケースとは対照的に、緩和のコストがかかる。 偏微分プライバシーがゼロの場合、緩和は不要であり、推定が最適であることを示す。

We study non-parametric density estimation for densities in Lipschitz and Sobolev spaces, and under central privacy. In particular, we investigate regimes where the privacy budget is not supposed to be constant. We consider the classical definition of central differential privacy, but also the more recent notion of central concentrated differential privacy. We recover the result of Barber and Duchi (2014) stating that histogram estimators are optimal against Lipschitz distributions for the L2 risk, and under regular differential privacy, and we extend it to other norms and notions of privacy. Then, we investigate higher degrees of smoothness, drawing two conclusions: First, and contrary to what happens with constant privacy budget (Wasserman and Zhou, 2010), there are regimes where imposing privacy degrades the regular minimax risk of estimation on Sobolev densities. Second, so-called projection estimators are near-optimal against the same classes of densities in this new setup with pure differential privacy, but contrary to the constant privacy budget case, it comes at the cost of relaxation. With zero concentrated differential privacy, there is no need for relaxation, and we prove that the estimation is optimal.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-18
# 長距離系における超微粒子輸送のための最適光円錐-量子速度制限アプローチ

Optimal light cone for macroscopic particle transport in long-range systems: A quantum speed limit approach ( http://arxiv.org/abs/2307.01059v2 )

ライセンス: Link先を確認
Tan Van Vu, Tomotaka Kuwahara, Keiji Saito, (参考訳) 情報が伝播する究極の速度を理解することは、非平衡物理学において重要な問題である。 それでも、量子ボゾン系に固有の伝播速度を解明するタスクは、相互作用の非有界性に起因する課題を提起する。 本研究では,量子速度限界のレンズによる格子Bose-Hubbardモデルの長距離一般化において,マクロ粒子輸送の問題に取り組む。 最適輸送理論に基づく統一的なアプローチを開発することにより, 粒子輸送に必要な最小時間は, 熱力学的限界においてもその重要性を保ちながら, 常にソース領域とターゲット領域の距離で拘束されていることを厳密に証明する。 さらに,対象領域内における特定のボソン数の観測確率の上限を導出し,粒子輸送のダイナミクスについてさらなる知見を与える。 我々の結果は、長距離ホッピングと長距離相互作用の両方の下で任意の初期状態に対して成り立つので、一般ボソニック系における粒子輸送のオープンな問題を解決できる。

Understanding the ultimate rate at which information propagates is a pivotal issue in nonequilibrium physics. Nevertheless, the task of elucidating the propagation speed inherent in quantum bosonic systems presents challenges due to the unbounded nature of their interactions. In this study, we tackle the problem of macroscopic particle transport in a long-range generalization of the lattice Bose-Hubbard model through the lens of the quantum speed limit. By developing a unified approach based on optimal transport theory, we rigorously prove that the minimum time required for macroscopic particle transport is always bounded by the distance between the source and target regions, while retaining its significance even in the thermodynamic limit. Furthermore, we derive an upper bound for the probability of observing a specific number of bosons inside the target region, thereby providing additional insights into the dynamics of particle transport. Our results hold true for arbitrary initial states under both long-range hopping and long-range interactions, thus resolving an open problem of particle transport in generic bosonic systems.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-18
# 動的射影演算(DPOA)における励起半導体中のTR-ARPES信号

TR-ARPES Signal in Pumped Semiconductors within Dynamical Projective Operatorial Approach (DPOA) ( http://arxiv.org/abs/2307.01244v2 )

ライセンス: Link先を確認
Amir Eskandari-asl, Adolfo Avella, (参考訳) 本稿では, この手法を半導体格子系に応用するための動的射影演算法(DPOA)と, 特にその電子励起とTR-ARPES信号について詳細に検討し, 解析する枠組みについて述べる。 関連する非平衡グリーン関数とTR-ARPES信号の式は、DPOAフレームワーク内で与えられ、遅延されたTR-ARPES信号を定義することにより、揺動散逸定理の非平衡バージョンを得ることが可能であることが示されている。 TR-ARPES信号において、単光および多光子共鳴、剛性シフト、バンドドレッシング、および異なる種類のサイドバンドがどのように出現するかを明らかにする。 また、単光子共鳴と多光子共鳴の強度を評価し、各結晶運動量およびバンドにおける残留励起電子集団を特定の励起過程に割り当てるためのプロトコルも提案する。 バンド内およびバンド間遷移が選択的に阻害されるハミルトニアンは、TR-ARPES信号と残留電子励起集団に対する影響を分析するために定義される。 双極子ゲージ内では、局所双極子のみ、ホッピング項におけるピエルス置換のみ、両方の項を同時に検討する。 TR-ARPES信号に対する異なる結晶モータにおける格子対称性の結果を含む過渡的および残留的なポンプ効果を詳細に研究した。 また, TR-ARPES信号のプローブパルス特性に対する依存性について詳細に検討した。 特定の物質の特徴によって制限されることなく、複雑な効果や相互作用、物理現象の多様性を理解するためのガイドラインを提供することを目的として、原型励起二バンド半導体格子系の研究を選択した。

In this manuscript, after discussing in detail the internals of our recently developed method, the dynamical projective operatorial approach (DPOA), we provide the framework to apply this method to pumped semiconductor lattice systems and, in particular, to study and analyze their electronic excitations and TR-ARPES signal. The expressions for relevant out-of-equilibrium Green's functions and TR-ARPES signal are given within the DPOA framework and, defining a retarded TR-ARPES signal, it is shown that it is possible to obtain an out-of-equilibrium version of the fluctuation-dissipation theorem. We clarify how single- and multi-photon resonances, rigid shifts, band dressings, and different types of sidebands emerge in the TR-ARPES signal. We also propose protocols for evaluating the strength of single- and multi-photon resonances and for assigning the residual excited electronic population at each crystal momentum and band to a specific excitation process. Hamiltonians, where intra- and inter-band transitions are selectively inhibited, are defined and used to analyze the effects on the TR-ARPES signal and the residual electronic excited population. Three relevant cases of light-matter coupling are examined within the dipole gauge: only a local dipole, only the Peierls substitution in the hopping term, and both terms at once. The transient and residual pump effects are studied in detail, including the consequences of the lattice symmetries at different crystal momenta on the TR-ARPES signal. A detailed study of the dependence of the TR-ARPES signal on the probe-pulse characteristics is also reported. To provide a guideline for understanding the complex effects and interplays and the variety of possible physical phenomena without being limited by the characteristics of a single particular real material, we have chosen to study a prototypical pumped two-band semiconductor lattice system.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-18
# 対称性保護位相に対する誤差耐性量子畳み込みニューラルネットワーク

Error-tolerant quantum convolutional neural networks for symmetry-protected topological phases ( http://arxiv.org/abs/2307.03711v2 )

ライセンス: Link先を確認
Petr Zapletal, Nathan A. McMahon, Michael J. Hartmann, (参考訳) 現在の量子コンピュータで作られたノイズの多い量子状態の分析は、古典的なコンピューティングの能力を超えつつある。 パラメトリック化された量子回路、測定、フィードフォワードに基づく量子ニューラルネットワークは、多くの量子データを処理し、非局所的な量子相関を検出するための測定と計算コストを削減することができる。 デコヒーレンスとゲートの不整合によるエラーの耐性は、量子ニューラルネットワークを短期量子コンピュータに適用するための重要な要件である。 ここでは、量子畳み込みニューラルネットワーク(QCNN)を構築し、不整合誤差の存在下で、一般化クラスタイジング・ハミルトニアンの異なる対称性で保護された位相位相を、位相的に自明な位相から認識することができる。 行列積状態シミュレーションを用いて、QCNNの出力は閾値誤差確率以下の対称性破壊誤差と、誤差チャネルが可逆である場合の対称性保存誤差に対して頑健であることを示す。 これは、文字列順序パラメータや以前に設計されたQCNNの出力とは対照的であり、対称性を損なうエラーの存在下で消滅する。 短期量子コンピュータにおけるQCNNの実装を容易にするため、古典的な後処理において計算の大部分を実行することにより、QCNN回路を対数からシステムサイズにおける一定の深さに短縮することができる。 これらの定数深度QCNNは、局所的なパウリ測定による直接サンプリングと比較して、システムサイズと指数関数的にサンプル複雑性を減少させる。

The analysis of noisy quantum states prepared on current quantum computers is getting beyond the capabilities of classical computing. Quantum neural networks based on parametrized quantum circuits, measurements and feed-forward can process large amounts of quantum data to reduce measurement and computational costs of detecting non-local quantum correlations. The tolerance of errors due to decoherence and gate infidelities is a key requirement for the application of quantum neural networks on near-term quantum computers. Here we construct quantum convolutional neural networks (QCNNs) that can, in the presence of incoherent errors, recognize different symmetry-protected topological phases of generalized cluster-Ising Hamiltonians from one another as well as from topologically trivial phases. Using matrix product state simulations, we show that the QCNN output is robust against symmetry-breaking errors below a threshold error probability and against all symmetry-preserving errors provided the error channel is invertible. This is in contrast to string order parameters and the output of previously designed QCNNs, which vanish in the presence of any symmetry-breaking errors. To facilitate the implementation of the QCNNs on near-term quantum computers, the QCNN circuits can be shortened from logarithmic to constant depth in system size by performing a large part of the computation in classical post-processing. These constant-depth QCNNs reduce sample complexity exponentially with system size in comparison to the direct sampling using local Pauli measurements.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-18
# 一次元離散時間量子ウォーク回路の複素性

Complexity for one-dimensional discrete time quantum walk circuits ( http://arxiv.org/abs/2307.13450v4 )

ライセンス: Link先を確認
Aranya Bhattacharya, Himanshu Sahu, Ahmadullah Zahed, Kallol Sen, (参考訳) 1次元離散時間量子ウォーク(DTQW)から導かれる混合状態密度演算子の複雑性を計算する。 この複雑さは、混合状態の正準浄化から得られる2量子ビット量子回路を用いて計算される。 ユニタリ進化におけるニエルソンの複雑性は平均回路深さ$k$で振動することを示した。 さらに、ステップワイズ進化作用素の複雑さは、ステップとともに累積的に、線形的に増大する。 量子回路の観点からすると、これは最終状態に達するために適用すべき(ほぼ)定数深さの回路の連続を意味する。

We compute the complexity for the mixed state density operator derived from a one-dimensional discrete-time quantum walk (DTQW). The complexity is computed using a two-qubit quantum circuit obtained from canonically purifying the mixed state. We demonstrate that the Nielson complexity for the unitary evolution oscillates around a mean circuit depth of $k$. Further, the complexity of the step-wise evolution operator grows cumulatively and linearly with the steps. From a quantum circuit perspective, this implies a succession of circuits of (near) constant depth to be applied to reach the final state.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-18
# AIバリューチェーンの倫理

The Ethics of AI Value Chains ( http://arxiv.org/abs/2307.16787v3 )

ライセンス: Link先を確認
Blair Attard-Frost, David Gray Widder, (参考訳) AI倫理に関心を持つ研究者、実践者、政策立案者は、さまざまな状況や活動規模にわたるAIシステムの研究と介入に、より統合的なアプローチを必要とします。 本稿では,AIバリューチェーンを,必要を満たす統合的概念として提示する。 AIバリューチェーンをより明確に理論化し、概念的にサプライチェーンと区別するために、我々は、バリューチェーンとAIバリューチェーンの理論を戦略的管理、サービスサイエンス、経済地理学、産業、政府、応用研究文献からレビューする。 次に、AIバリューチェーンに関連する倫理的懸念をカバーする67のソースのサンプルの統合的レビューを行います。 統合的レビューの結果に基づいて、研究者、実践者、政策立案者がAIバリューチェーン全体でより倫理的な実践を進めるための3つの今後の方向性を推奨します。 我々は、AI倫理の研究者や実践者たちに、アクターをコンテキストに配置するバリューチェーンの視点に向けて動き、AIシステムの共同作成に関わるさまざまなタイプのリソースを説明し、コンテキストやスケールにわたって幅広い倫理的関心事を統合するよう促します。

Researchers, practitioners, and policymakers with an interest in AI ethics need more integrative approaches for studying and intervening in AI systems across many contexts and scales of activity. This paper presents AI value chains as an integrative concept that satisfies that need. To more clearly theorize AI value chains and conceptually distinguish them from supply chains, we review theories of value chains and AI value chains from the strategic management, service science, economic geography, industry, government, and applied research literature. We then conduct an integrative review of a sample of 67 sources that cover the ethical concerns implicated in AI value chains. Building upon the findings of our integrative review, we recommend three future directions that researchers, practitioners, and policymakers can take to advance more ethical practices across AI value chains. We urge AI ethics researchers and practitioners to move toward value chain perspectives that situate actors in context, account for the many types of resources involved in co-creating AI systems, and integrate a wider range of ethical concerns across contexts and scales.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-18
# オフライン手書き署名検証のためのコタップレット損失を用いたマルチスケール特徴学習

Multiscale Feature Learning Using Co-Tuplet Loss for Offline Handwritten Signature Verification ( http://arxiv.org/abs/2308.00428v4 )

ライセンス: Link先を確認
Fu-Hsien Huang, Hsin-Min Lu, (参考訳) 法的および金融機関にとって重要な手書き署名検証は、文字間の類似性、文字内変異、限られた署名サンプルを含む課題に直面している。 そこで本研究では,MultiScale Signature Feature Learning Network (MS-SigNet)を導入した。 MS-SigNetは、複数の空間スケールからグローバルと地域両方の署名機能を学び、特徴の識別を強化する。 このアプローチは、全体的なストロークと詳細な局所的差異をキャプチャすることで、熟練した偽造と真の署名を効果的に区別する。 複数のポジティブな例とネガティブな例に焦点を当てたコタップレットの損失は、文字間類似性や文字内変動に対処し、情報的な例を強調することによって、典型的なメートル法学習損失の限界を克服する。 また、この言語のための堅牢なシステム開発を支援するため、大規模な中国語署名データセットであるHanSigも提示する。 データセットは \url{https://github.com/hsinmin/HanSig} でアクセスできる。 異なる言語における4つのベンチマークデータセットの実験結果は、最先端の手法と比較して、提案手法の有望な性能を示す。

Handwritten signature verification, crucial for legal and financial institutions, faces challenges including inter-writer similarity, intra-writer variations, and limited signature samples. To address these, we introduce the MultiScale Signature feature learning Network (MS-SigNet) with the co-tuplet loss, a novel metric learning loss designed for offline handwritten signature verification. MS-SigNet learns both global and regional signature features from multiple spatial scales, enhancing feature discrimination. This approach effectively distinguishes genuine signatures from skilled forgeries by capturing overall strokes and detailed local differences. The co-tuplet loss, focusing on multiple positive and negative examples, overcomes the limitations of typical metric learning losses by addressing inter-writer similarity and intra-writer variations and emphasizing informative examples. We also present HanSig, a large-scale Chinese signature dataset to support robust system development for this language. The dataset is accessible at \url{https://github.com/hsinmin/HanSig}. Experimental results on four benchmark datasets in different languages demonstrate the promising performance of our method in comparison to state-of-the-art approaches.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-18
# クロスドメインFew-shot分類のための適応的セマンティック整合性

Adaptive Semantic Consistency for Cross-domain Few-shot Classification ( http://arxiv.org/abs/2308.00727v2 )

ライセンス: Link先を確認
Hengchu Lu, Yuanjie Shao, Xiang Wang, Changxin Gao, (参考訳) クロスドメイン・ショット分類(CD-FSC)は、ソースドメインとターゲットドメインの間にドメインシフトが存在すると仮定して、いくつかのサンプルで新しいターゲットクラスを特定することを目的としている。 既存の最先端のプラクティスは、典型的にはソースドメインで事前トレーニングされ、数ショットのターゲットデータで微調整され、タスク適応型表現が生成される。 有望な進歩にもかかわらず、これらの手法は、データスカシティ以来、限られたターゲット分布に過度に適合し、ソースドメインで学んだ伝達可能な知識を無視する傾向にある。 この問題を軽減するために,ファインタニング段階におけるソース転送機能を維持することにより,ドメイン間の堅牢性を向上する,シンプルなプラグアンドプレイ適応セマンティック一貫性(ASC)フレームワークを提案する。 具体的には,事前学習段階のソースコードを再利用し,対象領域に類似したサンプルを強調表示するための適応重み付け戦略を設計し,情報源領域からの情報的ターゲット関連知識を集約することを目的とする。 その後、ソースモデルによって出力されるソース画像の意味的特徴とターゲットモデルとの一貫性を制約するために、セマンティック一貫性の規則化を適用する。 このようにして、提案したASCは、ソースドメイン知識の明示的な転送を可能にし、モデルがターゲットドメインに過度に適合しないようにする。 複数のベンチマークに関する大規模な実験は、提案されたASCの有効性を示し、ASCはベースラインに対して一貫した改善を提供する。 ソースコードはhttps://github.com/luhc666/ASC-CDFSLで公開されている。

Cross-domain few-shot classification (CD-FSC) aims to identify novel target classes with a few samples, assuming that there exists a domain shift between source and target domains. Existing state-of-the-art practices typically pre-train on source domain and then finetune on the few-shot target data to yield task-adaptive representations. Despite promising progress, these methods are prone to overfitting the limited target distribution since data-scarcity and ignore the transferable knowledge learned in the source domain. To alleviate this problem, we propose a simple plug-and-play Adaptive Semantic Consistency (ASC) framework, which improves cross-domain robustness by preserving source transfer capability during the finetuning stage. Concretely, we reuse the source images in the pretraining phase and design an adaptive weight assignment strategy to highlight the samples similar to target domain, aiming to aggregate informative target-related knowledge from source domain. Subsequently, a semantic consistency regularization is applied to constrain the consistency between the semantic features of the source images output by the source model and target model. In this way, the proposed ASC enables explicit transfer of source domain knowledge to prevent the model from overfitting the target domain. Extensive experiments on multiple benchmarks demonstrate the effectiveness of the proposed ASC, and ASC provides consistent improvements over the baselines. The source code is released at https://github.com/luhc666/ASC-CDFSL.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-18
# 自動走行におけるTP, FP, FN物体検出の識別のためのチェックリスト

Checklist to Define the Identification of TP, FP, and FN Object Detections in Automated Driving ( http://arxiv.org/abs/2308.07106v2 )

ライセンス: Link先を確認
Michael Hoss, (参考訳) 自動走行システムのオブジェクト認識は、安全な配置の前に品質と堅牢性テストに合格しなければならない。 このような検査は通常、真陽性(TP)、偽陽性(FP)、偽陰性(FN)の検出を識別し、それらをメトリクスに集約する。 文献はTP/FP/FNの識別を包括的に定義する手段が欠如しているようで,本論文は機能的側面と実装の詳細のチェックリストを提供する。 テストセットのラベル付けポリシに加えて、視覚、オクルージョンハンドリング、安全関連領域、マッチング基準、時間的および確率的問題、その他の側面をカバーしています。 チェックリストを完全に形式化することはできないが、実践者がテストの曖昧さを最小限に抑えるのに役立つ。

The object perception of automated driving systems must pass quality and robustness tests before a safe deployment. Such tests typically identify true positive (TP), false-positive (FP), and false-negative (FN) detections and aggregate them to metrics. Since the literature seems to be lacking a comprehensive way to define the identification of TPs/FPs/FNs, this paper provides a checklist of relevant functional aspects and implementation details. Besides labeling policies of the test set, we cover areas of vision, occlusion handling, safety-relevant areas, matching criteria, temporal and probabilistic issues, and further aspects. Even though the checklist cannot be fully formalized, it can help practitioners minimize the ambiguity of their tests, which, in turn, makes statements on object perception more reliable and comparable.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-18
# 動的回路を用いた高速ロングランジエンタングルメント

Efficient Long-Range Entanglement using Dynamic Circuits ( http://arxiv.org/abs/2308.13065v2 )

ライセンス: Link先を確認
Elisa Bäumer, Vinay Tripathi, Derek S. Wang, Patrick Rall, Edward H. Chen, Swarnadeep Majumder, Alireza Seif, Zlatko K. Minev, (参考訳) 量子シミュレーションは伝統的にユニタリ力学に依存しており、本質的には複雑な絡み合った状態の生成に効率の制約を課している。 原則として、これらの制限は非単体動的回路に取って代わることができる。 これらの回路は条件付きフィードフォワード操作と併用して測定を行い、長距離エンタングゲートの有望なアプローチ、近距離ハードウェアのより効率的な接続、より効率的な状態準備を提供する。 本稿では,大規模量子デバイス上での長距離絡み合いを実現するための浅部動的回路の有用性について検討する。 具体的には,CNOTゲートを最大101 qubits に転送し,99 個の中間回路計測結果とグリーンベルガー・ホルン・ゼリンジャー(GHZ)状態の真の絡み合いを付与する2つの課題について検討した。 前者では、動的回路がユニタリ回路よりも優れていることを観察する。 後者では、コンパイルされた量子回路の命令を集計することにより、動的回路の全潜在能力を解き明かすために対処しなければならない障害を詳細に記述したエラー予算を提供する。 今後は、大規模量子デバイス上での短期的な長距離の絡み合いの発生に、ダイナミック回路が有用になることを期待している。

Quantum simulation traditionally relies on unitary dynamics, inherently imposing efficiency constraints on the generation of intricate entangled states. In principle, these limitations can be superseded by non-unitary, dynamic circuits. These circuits exploit measurements alongside conditional feed-forward operations, providing a promising approach for long-range entangling gates, higher effective connectivity of near-term hardware, and more efficient state preparations. Here, we explore the utility of shallow dynamic circuits for creating long-range entanglement on large-scale quantum devices. Specifically, we study two tasks: CNOT gate teleportation between up to 101 qubits by feeding forward 99 mid-circuit measurement outcomes, and the preparation of Greenberger-Horne-Zeilinger (GHZ) states with genuine entanglement. In the former, we observe that dynamic circuits can outperform their unitary counterparts. In the latter, by tallying instructions of compiled quantum circuits, we provide an error budget detailing the obstacles that must be addressed to unlock the full potential of dynamic circuits. Looking forward, we expect dynamic circuits to be useful for generating long-range entanglement in the near term on large-scale quantum devices.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-18
# ニューロシンボリック制約によるスコアベース拡散モデルのゼロショット条件付け

Zero-Shot Conditioning of Score-Based Diffusion Models by Neuro-Symbolic Constraints ( http://arxiv.org/abs/2308.16534v2 )

ライセンス: Link先を確認
Davide Scassola, Sebastiano Saccani, Ginevra Carbone, Luca Bortolussi, (参考訳) スコアベース拡散モデルは条件生成と非条件生成の両方に有効なアプローチとして現れてきた。 条件付き生成は、条件付きモデルの特定の訓練または分類器ガイダンスに基づいており、これは、故障したデータの分類器が与えられた場合でも、ノイズ依存の分類器を訓練する必要がある。 本研究では,事前学習した無条件スコアベース生成モデルを用いて,任意の論理的制約の下で条件分布からサンプルを抽出する手法を提案する。 他のゼロショット法とは違い,本手法は実条件分布を近似するために設計されている。 まず,ユーザ定義制約の非正規化分布条件から標本化するために,学習したスコアの操作方法を示す。 次に,ソフト論理制約を符号化するための柔軟で数値的に安定なニューロシンボリック・フレームワークを定義する。 これら2つの成分を組み合わせることで、一般的な、しかし近似的な条件付きサンプリングアルゴリズムが得られる。 近似の改善を目的とした効果的なヒューリスティックスをさらに発展させた。 最後に,制約やデータの種類に応じて条件分布を近似する手法の有効性を示す。

Score-based diffusion models have emerged as effective approaches for both conditional and unconditional generation. Still conditional generation is based on either a specific training of a conditional model or classifier guidance, which requires training a noise-dependent classifier, even when a classifier for uncorrupted data is given. We propose a method that, given a pre-trained unconditional score-based generative model, samples from the conditional distribution under arbitrary logical constraints, without requiring additional training. Differently from other zero-shot techniques, that rather aim at generating valid conditional samples, our method is designed for approximating the true conditional distribution. Firstly, we show how to manipulate the learned score in order to sample from an un-normalized distribution conditional on a user-defined constraint. Then, we define a flexible and numerically stable neuro-symbolic framework for encoding soft logical constraints. Combining these two ingredients we obtain a general, but approximate, conditional sampling algorithm. We further developed effective heuristics aimed at improving the approximation. Finally, we show the effectiveness of our approach in approximating conditional distributions for various types of constraints and data: tabular data, images and time series.
翻訳日:2024-09-19 23:57:01 公開日:2024-09-18
# 量子情報支援完全能動宇宙最適化(QICAS)

Quantum Information-Assisted Complete Active Space Optimization (QICAS) ( http://arxiv.org/abs/2309.01676v3 )

ライセンス: Link先を確認
Lexin Ding, Stefan Knecht, Christian Schilling, (参考訳) 自動能動空間選択は多元的手法の最も困難かつ不可欠な側面の1つである。 本研究では,量子情報支援完全能動空間最適化(QICAS)方式を提案する。 他の相関に基づく選択スキームとQICASを区別するものは何か 一 電子構造の相関をあいまいで予測的な方法で評価する量子情報からの独自の測度の使用 (ii) 能動空間近似によって捨てられた相関を最小化する軌道最適化ステップ。 これらの特徴を具備したQICASは、化学精度でCASCIエネルギーが対応するCASSCFエネルギーに達することに関して、より小さな相関分子の最適化軌道に対して収まる。 Chromium二量体のようなより困難なシステムでは、QICASは数値収束に必要なイテレーション数を劇的に減らし、CASSCFの出発点として優れたものである。 したがって、本研究では、エネルギー的に最適な非活性空間は、主に最も絡み合いの少ない空間である、という深い経験的予想を検証した。

Automated active space selection is arguably one of the most challenging and essential aspects of multiconfigurational methods. In this work we propose an effective quantum information-assisted complete active space optimization (QICAS) scheme. What sets QICAS apart from other correlation-based selection schemes is (i) the use of unique measures from quantum information that assess the correlation in electronic structures in an unambiguous and predictive manner, and (ii) an orbital optimization step that minimizes the correlation discarded by the active space approximation. Equipped with these features QICAS yields for smaller correlated molecules sets of optimized orbitals with respect to which the CASCI energy reaches the corresponding CASSCF energy within chemical accuracy. For more challenging systems such as the Chromium dimer, QICAS offers an excellent starting point for CASSCF by greatly reducing the number of iterations required for numerical convergence. Accordingly, our study validates a profound empirical conjecture: the energetically optimal non-active spaces are predominantly those that contain the least entanglement.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-18
# Memory Gym: エージェントのメモリ能力のベンチマークに終止符を打つ

Memory Gym: Towards Endless Tasks to Benchmark Memory Capabilities of Agents ( http://arxiv.org/abs/2309.17207v5 )

ライセンス: Link先を確認
Marco Pleines, Matthias Pallasch, Frank Zimmer, Mike Preuss, (参考訳) Memory GymはMortar Mayhem、Mystery Path、Searing Spotlightsという、意思決定エージェントのメモリ能力をベンチマークするために設計された2D部分観測可能な環境のスイートを提供する。 これらの環境はもともと有限なタスクを持ち、''I pack my bag''のような累積記憶ゲームにおけるエスカレーションの課題を反映して、革新的で無限の形式に拡張されている。 タスク設計におけるこの進歩は、単にサンプル効率を評価することから、動的で長期のシナリオにおけるメモリ効率のレベルを推定することへと焦点を移す。 利用可能なメモリベースのDeep Reinforcement Learningベースラインのギャップを解決するために,Transformer-XL (TrXL) とプロキシポリシー最適化を統合した実装を導入する。 このアプローチでは、TrXLをエピソードメモリの形式として使用し、スライディングウインドウ技術を用いている。 Gated Recurrent Unit (GRU) と TrXL の比較では,異なる設定で異なる性能を示す。 TrXLは有限環境において、ミステリーパスやモルタル・メイヘムにおいて優れた試料効率を示す。 しかし、GRUはSeaning Spotlightsよりも効率的である。 最も注目すべきは、すべての無限のタスクにおいて、GRUは顕著な復活を行い、TrXLを著しく上回っていることである。 Website and Source Code: https://github.com/MarcoMeter/endless-Memory-gym/

Memory Gym presents a suite of 2D partially observable environments, namely Mortar Mayhem, Mystery Path, and Searing Spotlights, designed to benchmark memory capabilities in decision-making agents. These environments, originally with finite tasks, are expanded into innovative, endless formats, mirroring the escalating challenges of cumulative memory games such as ``I packed my bag''. This progression in task design shifts the focus from merely assessing sample efficiency to also probing the levels of memory effectiveness in dynamic, prolonged scenarios. To address the gap in available memory-based Deep Reinforcement Learning baselines, we introduce an implementation that integrates Transformer-XL (TrXL) with Proximal Policy Optimization. This approach utilizes TrXL as a form of episodic memory, employing a sliding window technique. Our comparative study between the Gated Recurrent Unit (GRU) and TrXL reveals varied performances across different settings. TrXL, on the finite environments, demonstrates superior sample efficiency in Mystery Path and outperforms in Mortar Mayhem. However, GRU is more efficient on Searing Spotlights. Most notably, in all endless tasks, GRU makes a remarkable resurgence, consistently outperforming TrXL by significant margins. Website and Source Code: https://github.com/MarcoMeter/endless-memory-gym/
翻訳日:2024-09-19 23:46:22 公開日:2024-09-18
# エルゴディックと混合量子チャネル:2量子ビットから多体量子系へ

Ergodic and mixing quantum channels: From two-qubit to many-body quantum systems ( http://arxiv.org/abs/2310.02740v4 )

ライセンス: Link先を確認
S. Aravinda, Shilpak Banerjee, Ranjan Modak, (参考訳) 古典的エルゴード理論の発展は数学、物理学、一般の応用科学の分野に大きな影響を与えた。 ハミルトン力学の量子エルゴード理論は、熱力学と統計力学を理解する動機を持っている。 完全に正のトレース保存写像である量子チャネルは、量子力学の最も一般的な表現であり、量子情報理論と量子計算の重要な側面である。 本研究では, 量子チャネルのエルゴード理論を, エンゴード階層の異なるレベルを積分可能から混合可能に特徴付けることによって研究する。 単一系上の量子チャネルは、二部状態に作用し環境をトレースするユニタリ演算子から構成される。 これらのユニタリ作用素の相互作用強度は、作用素の絡み合いによって測定され、チャネルが混合されるのに十分な条件を提供する。 ブロック対角ユニタリ演算子を用いて、非エルゴードチャネルの集合を構築する。 2量子ユニタリ作用素の正準形式を用いることで、インテグレータブルからミキシングまでの単一キュービット上のチャネルを解析的に構築する。 さらに、有名なSachdev-Ye-Kitaev(SYK)モデルを含む多体量子システム間の相互作用についても検討し、量子チャネルの枠組み内で混合を示すことを示す。

The development of classical ergodic theory has had a significant impact in the areas of mathematics, physics, and, in general, applied sciences. The quantum ergodic theory of Hamiltonian dynamics has its motivations to understand thermodynamics and statistical mechanics. Quantum channel, a completely positive trace-preserving map, represents a most general representation of quantum dynamics and is an essential aspect of quantum information theory and quantum computation. In this work, we study the ergodic theory of quantum channels by characterizing different levels of ergodic hierarchy from integrable to mixing. The quantum channels on single systems are constructed from the unitary operators acting on bipartite states and tracing out the environment. The interaction strength of these unitary operators measured in terms of operator entanglement provides sufficient conditions for the channel to be mixing. By using block diagonal unitary operators, we construct a set of non-ergodic channels. By using canonical form of two-qubit unitary operator, we analytically construct the channels on single qubit ranging from integrable to mixing. Moreover, we also study interacting many-body quantum systems that include the famous Sachdev-Ye-Kitaev (SYK) model and show that they display mixing within the framework of the quantum channel.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-18
# センチネルの高分解能化と道路検出-2

High-Resolution Building and Road Detection from Sentinel-2 ( http://arxiv.org/abs/2310.11622v3 )

ライセンス: Link先を確認
Wojciech Sirko, Emmanuel Asiedu Brempong, Juliana T. C. Marcos, Abigail Annkah, Abel Korme, Mohammed Alewi Hassen, Krishna Sapkota, Tomer Shekel, Abdoulaye Diack, Sella Nevo, Jason Hickey, John Quinn, (参考訳) 建物や道路をリモートセンシングで自動的にマッピングするには、高解像度の画像が必要である。 本研究では,50cmのビルディングと道路セグメンテーションマスクを生成するために,複数の10m解像度のSentinel-2画像を使用する方法を示す。 これは、Sentinel-2画像にアクセス可能な‘student’モデルをトレーニングして、対応する高解像度画像にアクセス可能な‘Teacher’モデルの予測を再現する。 予測には教師モデルの詳細な詳細が全て含まれていないが、我々は性能の多くを維持できることがわかった: セグメンテーションを構築する際には、85.5\% mIoUの高分解能教師モデルの精度と比較して79.0\% mIoUを達成する。 実数に対してR^2 = 0.91$の個々の建物を数えることと,1.5mの平均絶対誤差で建物の高さを予測することである。 この研究は、これまで高解像度の衛星画像でしかできなかった様々なタスクに、無料で利用できるSentinel-2画像を使用する新たな可能性を開く。

Mapping buildings and roads automatically with remote sensing typically requires high-resolution imagery, which is expensive to obtain and often sparsely available. In this work we demonstrate how multiple 10 m resolution Sentinel-2 images can be used to generate 50 cm resolution building and road segmentation masks. This is done by training a `student' model with access to Sentinel-2 images to reproduce the predictions of a `teacher' model which has access to corresponding high-resolution imagery. While the predictions do not have all the fine detail of the teacher model, we find that we are able to retain much of the performance: for building segmentation we achieve 79.0\% mIoU, compared to the high-resolution teacher model accuracy of 85.5\% mIoU. We also describe two related methods that work on Sentinel-2 imagery: one for counting individual buildings which achieves $R^2 = 0.91$ against true counts and one for predicting building height with 1.5 meter mean absolute error. This work opens up new possibilities for using freely available Sentinel-2 imagery for a range of tasks that previously could only be done with high-resolution satellite imagery.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-18
# ExtractGPT: 製品属性値抽出のための大規模言語モデルの可能性を探る

ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction ( http://arxiv.org/abs/2310.12537v4 )

ライセンス: Link先を確認
Alexander Brinkmann, Roee Shraga, Christian Bizer, (参考訳) 電子商取引プラットフォームは、顔認識製品検索や属性ベースの製品比較のような機能を提供するために、属性値ペアという形で構造化された製品データを必要とする。 しかし、ベンダーはしばしば非構造化の製品記述を提供し、これらのテキストから属性値対を抽出する必要がある。 BERTベースの抽出法は、大量のタスク固有のトレーニングデータを必要とし、見当たらない属性値と競合する。 本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。 我々は、テキストとJSONベースのターゲットスキーマ表現を比較し、ゼロショットと少数ショットのシナリオに対するプロンプトテンプレートを提案する。 実験の結果, GPT-4は, 属性記述と実演を用いて, 85%の平均F1スコアを達成した。 Llama-3-70Bもほぼ同じように動作し、競合するオープンソースの代替手段を提供する。 GPT-4はF1スコアで最高のPLMベースラインを5%上回る。 微調整 GPT-3.5 は GPT-4 のレベルまで性能を向上するが、モデルが見つからない属性値に一般化する能力を低下させる。

E-commerce platforms require structured product data in the form of attribute-value pairs to offer features such as faceted product search or attribute-based product comparison. However, vendors often provide unstructured product descriptions, necessitating the extraction of attribute-value pairs from these texts. BERT-based extraction methods require large amounts of task-specific training data and struggle with unseen attribute values. This paper explores using large language models (LLMs) as a more training-data efficient and robust alternative. We propose prompt templates for zero-shot and few-shot scenarios, comparing textual and JSON-based target schema representations. Our experiments show that GPT-4 achieves the highest average F1-score of 85% using detailed attribute descriptions and demonstrations. Llama-3-70B performs nearly as well, offering a competitive open-source alternative. GPT-4 surpasses the best PLM baseline by 5% in F1-score. Fine-tuning GPT-3.5 increases the performance to the level of GPT-4 but reduces the model's ability to generalize to unseen attribute values.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-18
# アスペクトに基づく感性分析の体系的レビュー:ドメイン,方法,動向

A Systematic Review of Aspect-based Sentiment Analysis: Domains, Methods, and Trends ( http://arxiv.org/abs/2311.10777v6 )

ライセンス: Link先を確認
Yan Cathy Hua, Paul Denny, Katerina Taskova, Jörg Wicker, (参考訳) アスペクトベース感情分析(Aspect-based sentiment analysis、ABSA)は、特定のテキストからアスペクトとその関連する意見を識別する、きめ細かいタイプの感情分析である。 デジタル評価されたテキストデータの増加に伴い、ABSAはより詳細で目標とする洞察を掘り下げる能力で人気を博した。 ABSAサブタスクとソリューション方法論に関する多くのレビュー論文があるが、研究アプリケーションドメイン、データセット、ソリューションアプローチに関連する時間的または体系的な問題に関するトレンドにはほとんど焦点を当てていない。 このギャップを埋めるために,本研究では,これらの基本コンポーネント間の傾向と高レベルな関係に着目したABSA研究の体系的文献レビュー(SLR)を提案する。 このレビューはABSAにおける最大のSLRの1つである。 我々の知る限り、ABSA研究とドメイン間のデータ分散の相互関係や、ソリューションパラダイムやアプローチのトレンドを体系的に調査するのは、これが初めてである。 このサンプルには,8550件の検索結果から,革新的な自動フィルタリングプロセスによる時間制約のない727件の一次研究が含まれている。 我々の定量分析は、ABSA研究の20年近くにおけるトレンドを識別するだけでなく、データセットとドメインの多様性の体系的な欠如と、将来のABSA研究の発展を妨げる可能性のあるドメインミスマッチも明らかにしている。 本稿では,これらの知見とその意義について論じ,今後の研究への提案を行う。

Aspect-based sentiment analysis (ABSA) is a fine-grained type of sentiment analysis that identifies aspects and their associated opinions from a given text. With the surge of digital opinionated text data, ABSA gained increasing popularity for its ability to mine more detailed and targeted insights. Many review papers on ABSA subtasks and solution methodologies exist, however, few focus on trends over time or systemic issues relating to research application domains, datasets, and solution approaches. To fill the gap, this paper presents a systematic literature review (SLR) of ABSA studies with a focus on trends and high-level relationships among these fundamental components. This review is one of the largest SLRs on ABSA. To our knowledge, it is also the first to systematically examine the interrelations among ABSA research and data distribution across domains, as well as trends in solution paradigms and approaches. Our sample includes 727 primary studies screened from 8550 search results without time constraints via an innovative automatic filtering process. Our quantitative analysis not only identifies trends in nearly two decades of ABSA research development but also unveils a systemic lack of dataset and domain diversity as well as domain mismatch that may hinder the development of future ABSA research. We discuss these findings and their implications and propose suggestions for future research.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-18
# GDTS:多モード歩行者軌道予測のための木サンプリングを用いたゴール誘導拡散モデル

GDTS: Goal-Guided Diffusion Model with Tree Sampling for Multi-Modal Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2311.14922v2 )

ライセンス: Link先を確認
Ge Sun, Sheng Wang, Lei Zhu, Ming Liu, Jun Ma, (参考訳) 歩行者軌道の正確な予測は、自動運転の安全性向上に不可欠である。 しかし、このタスクは人間の動きの固有の確率性のため、自然にマルチモーダルな予測を生成するために予測器を必要とするため、一般的には非自明な作業である。 以前の研究は、歩行者の軌跡予測に、GANやVAEといった様々な生成手法を利用していた。 それでもこれらの手法はモード崩壊と比較的低品質な結果に悩まされる可能性がある。 DDPM(denoising diffusion probabilistic model)は, 単純なトレーニングプロセスと強力な再構築能力により, 軌道予測に応用されている。 しかし、現在の拡散法は入力情報を十分に活用していないため、初期化には長い推論時間や追加のネットワークに繋がる多くのデノナイズ・イテレーションが必要となる。 これらの課題に対処し,多モーダル軌道予測における拡散モデルの利用を促進するために,木サンプリングを用いた新たなゴール誘導拡散モデルであるGDTSを提案する。 人間の動きの「ゴール駆動」特性を考えると、GDTSは目標推定を利用して拡散ネットワークの生成を導く。 2段階のツリーサンプリングアルゴリズムが提案され、一般的な特徴を活用して推論時間を短縮し、マルチモーダル予測の精度を向上させる。 実験により,提案フレームワークは,公開データセットにおけるリアルタイム推論速度と同等の最先端性能を達成できることが実証された。

Accurate prediction of pedestrian trajectories is crucial for improving the safety of autonomous driving. However, this task is generally nontrivial due to the inherent stochasticity of human motion, which naturally requires the predictor to generate multi-modal prediction. Previous works leverage various generative methods, such as GAN and VAE, for pedestrian trajectory prediction. Nevertheless, these methods may suffer from mode collapse and relatively low-quality results. The denoising diffusion probabilistic model (DDPM) has recently been applied to trajectory prediction due to its simple training process and powerful reconstruction ability. However, current diffusion-based methods do not fully utilize input information and usually require many denoising iterations that lead to a long inference time or an additional network for initialization. To address these challenges and facilitate the use of diffusion models in multi-modal trajectory prediction, we propose GDTS, a novel Goal-Guided Diffusion Model with Tree Sampling for multi-modal trajectory prediction. Considering the "goal-driven" characteristics of human motion, GDTS leverages goal estimation to guide the generation of the diffusion network. A two-stage tree sampling algorithm is presented, which leverages common features to reduce the inference time and improve accuracy for multi-modal prediction. Experimental results demonstrate that our proposed framework achieves comparable state-of-the-art performance with real-time inference speed in public datasets.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-18
# 事前条件付き確率勾配ディフレッシュのための適応ステップサイズ

Adaptive Step Sizes for Preconditioned Stochastic Gradient Descent ( http://arxiv.org/abs/2311.16956v2 )

ライセンス: Link先を確認
Frederik Köhne, Leonie Kreis, Anton Schiela, Roland Herzog, (参考訳) 本稿では,勾配のリプシッツ定数と探索方向の局所的分散の概念を用いて,確率勾配降下(SGD)の適応的なステップサイズを求める手法を提案する。 提案手法は,従来の画像分類課題に対して,精度の高い収束特性を持ち,真に問題適応的な挙動を示す確率最適化のための,ほぼハイパーパラメータフリーなアルゴリズムを導出する。 我々のフレームワークは一般ヒルベルト空間に設定されており、内部積の選択によりプレコンディショナーの潜在的な包含を可能にする。

This paper proposes a novel approach to adaptive step sizes in stochastic gradient descent (SGD) by utilizing quantities that we have identified as numerically traceable -- the Lipschitz constant for gradients and a concept of the local variance in search directions. Our findings yield a nearly hyperparameter-free algorithm for stochastic optimization, which has provable convergence properties and exhibits truly problem adaptive behavior on classical image classification tasks. Our framework is set in a general Hilbert space and thus enables the potential inclusion of a preconditioner through the choice of the inner product.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-18
# mLoRA: 複数のGPUにおける高効率パイプライン並列化による微調整LORAアダプタ

mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs ( http://arxiv.org/abs/2312.02515v2 )

ライセンス: Link先を確認
Zhengmao Ye, Dengchun Li, Zetao Hu, Tingfeng Lan, Jian Sha, Sicong Zhang, Lei Duan, Jie Zuo, Hui Lu, Yuanchun Zhou, Mingjie Tang, (参考訳) トランスフォーマーベースで事前訓練された大規模言語モデル (LLM) は、特に新興の {\em pretrain-then-finetune} パラダイムにおいて、様々な領域で顕著な性能を示している。 Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法で、ベースLSMを複数の下流タスクに適応させるのに使われる。 さらに、LLMプラットフォームにより、開発者は複数のモデルを微調整し、様々なドメイン固有のアプリケーションを同時に開発できる。 しかし、既存のモデル並列化スキームは、GPUやマシン間で複数のLoRAタスクをトレーニングする際に、高い通信オーバーヘッドと非効率なGPU利用に悩まされている。 本稿では、GPUやマシン間で複数のLoRAをトレーニングするための並列処理効率の良い微調整システムであるmLoRAを提案する。 mLoRAは、独立したLoRAアダプタとGPUとマシン間で異なる微調整ステージを効率的にパイプラインする新しいLoRA対応パイプライン並列化スキームと、パイプライン化されたLoRAトレーニング中のGPU使用率を高めるための新しいLoRA効率の演算子を導入している。 FSDP などの最先端手法と比較して,mLoRA は平均細調整タスク完了時間を 30 % 削減できることを示す。 さらに重要なのは、mLoRAは4つのNVIDIA RTX A6000 48GB GPU上で2つのLlama-2-13Bモデルを同時に微調整できることだ。 したがって、mLoRAは微調整効率を向上するだけでなく、コスト効率のよいGPUでもアクセスしやすい。 mLoRAはAntGroupのプロダクション環境にデプロイされている。

Transformer-based, pre-trained large language models (LLMs) have demonstrated outstanding performance across diverse domains, particularly in the emerging {\em pretrain-then-finetune} paradigm. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is commonly used to adapt a base LLM to multiple downstream tasks. Further, LLM platforms enable developers to fine-tune multiple models and develop various domain-specific applications simultaneously. However, existing model parallelism schemes suffer from high communication overhead and inefficient GPU utilization when training multiple LoRA tasks across GPUs and machines. In this paper, we present mLoRA, a parallelism-efficient fine-tuning system designed for training multiple LoRA across GPUs and machines. mLoRA introduces a novel LoRA-aware pipeline parallelism scheme that efficiently pipelines independent LoRA adapters and their distinct fine-tuning stages across GPUs and machines, along with a new LoRA-efficient operator to enhance GPU utilization during pipelined LoRA training. Our extensive evaluation shows that mLoRA can significantly reduce average fine-tuning task completion time, e.g., by 30\%, compared to state-of-the-art methods like FSDP. More importantly, mLoRA enables simultaneous fine-tuning of larger models, e.g., two Llama-2-13B models on four NVIDIA RTX A6000 48GB GPUs, which is not feasible for FSDP due to high memory requirements. Hence, mLoRA not only increases fine-tuning efficiency but also makes it more accessible on cost-effective GPUs. mLoRA has been deployed in AntGroup's production environment.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-18
# 量子ソフトウェアシステムにおけるアーキテクチャ決定 - Stack ExchangeとGitHubに関する実証的研究

Architecture Decisions in Quantum Software Systems: An Empirical Study on Stack Exchange and GitHub ( http://arxiv.org/abs/2312.05421v3 )

ライセンス: Link先を確認
Mst Shamima Aktar, Peng Liang, Muhammad Waseem, Amjed Tahir, Aakash Ahmad, Beiqi Zhang, Zengyang Li, (参考訳) 量子コンピューティングは計算の新たな次元を提供し、量子力学の原理を利用して、現在古典的コンピュータでは難解な複雑な問題を解く。 しかし、量子ソフトウェア開発におけるアーキテクチャ決定についての研究はほとんど行われておらず、これらのシステムの機能、性能、スケーラビリティ、信頼性に大きな影響を与えている。 この研究は、量子ソフトウェアシステムの開発中に行われたアーキテクチャ決定を経験的に調査し、分析することを目的としており、Stack ExchangeとGitHubの投稿と問題を使用することで、一般的な課題と制限を特定している。 Stack Exchange SitesとGitHubプロジェクトから得られたデータを質的なアプローチで分析しました。 具体的には、量子ソフトウェア開発におけるアーキテクチャ決定に関連する385のイシュー(87のGitHubプロジェクトから)と70のポスト(3つのStack Exchangeサイトから)からのデータを収集しました。 その結果,(1) 量子ソフトウェア開発においては,(1) アーキテクチャ決定は6つの言語パターンで記述され,その中でも最も一般的なのが解決提案と情報提供,(2) アーキテクチャ決定の2つの主要なカテゴリは実装決定と技術決定,(3) ソフトウォー開発ツールは20のアプリケーションドメインの中で最も一般的なアプリケーションドメインである,(4) 保守性は品質特性として最も多い,(5) 設計上の問題と高いエラー率は,量子ソフトウェア開発においてアーキテクチャ決定を行う上で実践者が直面する主な制約と課題である,という結果が得られた。 この結果から,量子ソフトウェアシステムの開発においてアーキテクチャ決定に直面する限界や課題は,これらのシステムの特定の特徴(量子エンタングルメント,スーパーポジション,デコヒーレンスなど)と強く結びついていることが示唆された。

Quantum computing provides a new dimension in computation, utilizing the principles of quantum mechanics to potentially solve complex problems that are currently intractable for classical computers. However, little research has been conducted about the architecture decisions made in quantum software development, which have a significant influence on the functionality, performance, scalability, and reliability of these systems. The study aims to empirically investigate and analyze architecture decisions made during the development of quantum software systems, identifying prevalent challenges and limitations by using the posts and issues from Stack Exchange and GitHub. We used a qualitative approach to analyze the obtained data from Stack Exchange Sites and GitHub projects. Specifically, we collected data from 385 issues (from 87 GitHub projects) and 70 posts (from three Stack Exchange sites) related to architecture decisions in quantum software development. The results show that in quantum software development (1) architecture decisions are articulated in six linguistic patterns, the most common of which are Solution Proposal and Information Giving, (2) the two major categories of architectural decisions are Implementation Decision and Technology Decision, (3) Softwar Development Tools are the most common application domain among the twenty application domains identified, (4) Maintainability is the most frequently considered quality attribute, and (5) Design Issues and High Error Rates are the major limitations and challenges that practitioners face when making architecture decisions in quantum software development. Our results show that the limitations and challenges encountered in architecture decision-making during the development of quantum software systems are strongly linked to the particular features (e.g., quantum entanglement, superposition, and decoherence) of those systems.
翻訳日:2024-09-19 23:46:22 公開日:2024-09-18
# ASVD:大規模言語モデル圧縮のためのアクティベーション対応特異値分解

ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models ( http://arxiv.org/abs/2312.05821v3 )

ライセンス: Link先を確認
Zhihang Yuan, Yuzhang Shang, Yue Song, Qiang Wu, Yan Yan, Guangyu Sun, (参考訳) 本稿では,Large Language Models (LLM) の学習後圧縮パラダイムを提案する。 この課題は, LLMの活性化における外乱現象と, 各種層間の感度差に起因する。 これらの課題に対処するために,アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニング不要の手法を提案する。 具体的には、アクティベーション分布に基づいて重み行列をスケーリングすることにより、アクティベーション出力を管理することにより、分解精度を向上する。 さらに, 異なるLCM層の感度変化に対処して, 層固有の分解を最適化する効率的な反復校正法を提案する。 ASVDは、LLMの性能を損なうことなく、ネットワークを10-20%圧縮することができる。 自己アテンションモジュールにおけるプロジェクション行列の低ランク分解の成功に基づいて、我々はさらにASVDを導入し、KVキャッシュを圧縮する。 KVアクティベーションのチャネル次元を小さくすることで、KVキャッシュのメモリ要求を大幅に削減できる。 KVプロジェクション行列のランクの50-75%の低下により、ASVDはトレーニング不要な方法で性能低下を伴わずに50%のKVキャッシュ削減を達成できる。

In this paper, we introduce a new post-training compression paradigm for Large Language Models (LLMs) to facilitate their wider adoption. We delve into LLM weight low-rank factorization, and find that the challenges of this task stem from the outlier phenomenon in the LLM activations and the sensitivity difference among various kinds of layers. To address these issues, we propose a training-free approach called Activation-aware Singular Value Decomposition (ASVD). Specifically, ASVD manages activation outliers by scaling the weight matrix based on the activation distribution, thereby enhancing decomposition accuracy. Additionally, we propose an efficient iterative calibration process to optimize layer-specific decomposition by addressing the varying sensitivity of different LLM layers. ASVD can compress a network by 10-20%, without compromising the performance of LLMs. Based on the success of the low-rank decomposition of projection matrices in the self-attention module, we further introduce ASVD to compress the KV cache. By reducing the channel dimension of KV activations, memory requirements for KV cache can be largely reduced. Thanks to the 50-75% reduction in the rank of the KV projection matrices, ASVD can further achieve 50% KV cache reductions without performance drop in a training-free manner.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# オンライン学習ニューラルネットワークによる左心房変位の高分解能マップと3次元シネMRIによる評価

High-Resolution Maps of Left Atrial Displacements and Strains Estimated with 3D Cine MRI using Online Learning Neural Networks ( http://arxiv.org/abs/2312.09387v2 )

ライセンス: Link先を確認
Christoforos Galazis, Samuel Shepperd, Emma Brouwer, Sandro Queirós, Ebraham Alskaf, Mustafa Anjari, Amedeo Chiribiri, Jack Lee, Anil A. Bharath, Marta Varela, (参考訳) 左心房の機能解析は心疾患の評価や心房細動などの疾患の理解に重要である。 Cine MRIは、LA運動と変形の詳細な3D特徴付けに理想的だが、適切な取得と解析ツールが欠如している。 本稿では,オンライン学習ニューラルネットワーク(Aladdin)を用いた左心房置換・変形分析のためのツールを提案するとともに,アラジンがグローバルかつ地域的に3D LA機能をどのように特徴付けるかに関する技術的実現可能性について述べる。 Aladdinには、オンラインセグメンテーションと画像登録ネットワークと、LAに合わせて調整された歪計算パイプラインが含まれている。 健常者10名と心血管疾患(CVD)患者8名の画像から, 左室流出率(DVF)の地図を作成し, 左室流出率(LVEF)に大きな障害を認めた。 さらに、健康なボランティアのデータを用いて、これらのバイオマーカーのアトラスを作成する。 その結果,アラジンは心臓循環を横断するLA壁を正確に追跡し,その運動と変形を特徴付けることができた。 アラジンで評価されたグローバルLA関数マーカーは2次元Cine MRIの推定値とよく一致している。 健康コホートではより顕著な活性収縮期がみられ, CVD LVEF群は総LA機能の低下を認めた。 アラジンは局所病理を示す異常な変形測定値を持つLA領域を特異的に同定することができる。 心房生理学を非侵襲的に特徴付けることができるため,アラジンは重要な臨床応用を期待する。 すべてのソースコードとデータは、https://github.com/cgalaz01/aladdin_cmr_laで入手できる。

The functional analysis of the left atrium (LA) is important for evaluating cardiac health and understanding diseases like atrial fibrillation. Cine MRI is ideally placed for the detailed 3D characterization of LA motion and deformation but is lacking appropriate acquisition and analysis tools. Here, we propose tools for the Analysis for Left Atrial Displacements and DeformatIons using online learning neural Networks (Aladdin) and present a technical feasibility study on how Aladdin can characterize 3D LA function globally and regionally. Aladdin includes an online segmentation and image registration network, and a strain calculation pipeline tailored to the LA. We create maps of LA Displacement Vector Field (DVF) magnitude and LA principal strain values from images of 10 healthy volunteers and 8 patients with cardiovascular disease (CVD), of which 2 had large left ventricular ejection fraction (LVEF) impairment. We additionally create an atlas of these biomarkers using the data from the healthy volunteers. Results showed that Aladdin can accurately track the LA wall across the cardiac cycle and characterize its motion and deformation. Global LA function markers assessed with Aladdin agree well with estimates from 2D Cine MRI. A more marked active contraction phase was observed in the healthy cohort, while the CVD LVEF group showed overall reduced LA function. Aladdin is uniquely able to identify LA regions with abnormal deformation metrics that may indicate focal pathology. We expect Aladdin to have important clinical applications as it can non-invasively characterize atrial pathophysiology. All source code and data are available at: https://github.com/cgalaz01/aladdin_cmr_la.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# データ駆動型教育決定のためのAIと学習分析の統合と教育におけるパーソナライズされた介入

Integrating AI and Learning Analytics for Data-Driven Pedagogical Decisions and Personalized Interventions in Education ( http://arxiv.org/abs/2312.09548v2 )

ライセンス: Link先を確認
Ramteja Sajja, Yusuf Sermet, David Cwiertny, Ibrahim Demir, (参考訳) 本研究は,OpenAIのGPT-4モデルを利用して,学生のエンゲージメントの定量化,地図学習の進展,教育現場における多様な教育戦略の評価を行う,革新的な学習分析ツールの概念化,開発,展開について検討する。 学生のストレスレベル、好奇心、混乱、扇動、トピックの嗜好、学習方法などの重要なデータポイントを分析し、学習環境の総合的なビューを提供する。 また、ブルームの分類学を用いて、学生の質問に基づいて認知的発達を評価する。 合成データによる技術的評価に加えて、アイオワ大学の教員による調査からのフィードバックが収集され、評価された利益と課題が評価された。 学部は、リアルタイムな洞察を通じて指導的意思決定を強化するツールの可能性を認識したが、データセキュリティとAI生成された洞察の正確性に関する懸念を表明した。 この研究は、ツールの設計、実装、評価について概説し、教育成果への貢献、学習管理システムにおける実践的な統合、そしてプライバシーと精度の懸念に対処するために必要な将来の改善に焦点を当てている。 この研究は、パーソナライズされたデータ駆動型教育を形成する上で、AIが果たす役割を浮き彫りにする。

This research study explores the conceptualization, development, and deployment of an innovative learning analytics tool, leveraging OpenAI's GPT-4 model to quantify student engagement, map learning progression, and evaluate diverse instructional strategies within an educational context. By analyzing critical data points such as students' stress levels, curiosity, confusion, agitation, topic preferences, and study methods, the tool provides a comprehensive view of the learning environment. It also employs Bloom's taxonomy to assess cognitive development based on student inquiries. In addition to technical evaluation through synthetic data, feedback from a survey of teaching faculty at the University of Iowa was collected to gauge perceived benefits and challenges. Faculty recognized the tool's potential to enhance instructional decision-making through real-time insights but expressed concerns about data security and the accuracy of AI-generated insights. The study outlines the design, implementation, and evaluation of the tool, highlighting its contributions to educational outcomes, practical integration within learning management systems, and future refinements needed to address privacy and accuracy concerns. This research underscores AI's role in shaping personalized, data-driven education.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# Shapley-PC: 共有値を用いた制約に基づく因果構造学習

Shapley-PC: Constraint-based Causal Structure Learning with Shapley Values ( http://arxiv.org/abs/2312.11582v2 )

ライセンス: Link先を確認
Fabrizio Russo, Francesca Toni, (参考訳) 因果構造学習(英: Causal Structure Learning、略称:CSL)は、データ中の変数間の因果関係を抽出する。 CSLは観測データのみから因果効果を推定することができ、実際の実験を行う必要がなくなる。 制約ベースのCSLは条件付き独立テストを利用して因果発見を行う。 そこで本研究では,制約に基づくCSLアルゴリズムの改良手法であるShapley-PCを提案する。 我々はShapley-PCの健全性、完全性、漸近的一貫性を証明し、提案アルゴリズムが既存のPCよりも優れていることを示すシミュレーション研究を実行する。

Causal Structure Learning (CSL), also referred to as causal discovery, amounts to extracting causal relations among variables in data. CSL enables the estimation of causal effects from observational data alone, avoiding the need to perform real life experiments. Constraint-based CSL leverages conditional independence tests to perform causal discovery. We propose Shapley-PC, a novel method to improve constraint-based CSL algorithms by using Shapley values over the possible conditioning sets, to decide which variables are responsible for the observed conditional (in)dependences. We prove soundness, completeness and asymptotic consistency of Shapley-PC and run a simulation study showing that our proposed algorithm is superior to existing versions of PC.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# 非局所スピン鎖に対するクリロフ複雑性

Krylov complexity for non-local spin chains ( http://arxiv.org/abs/2312.11677v3 )

ライセンス: Link先を確認
Aranya Bhattacharya, Pingal Pratyush Nath, Himanshu Sahu, (参考訳) 非局所相互作用を持つスピン系における最近の研究に基づいて、Isingモデルの異なる非局所バージョンにおけるクリロフ複雑性を用いた作用素成長を研究する。 非局所性は演算子をすべてのサイトへ高速にスクランブルさせる。 局所可積分理論と局所カオス理論のクリロフ複雑性の飽和値は有意なマージンによって異なるが、この差は両方の政権で非局所項が導入されたときに非常に抑制される。 これは、非局所性の存在下での情報のスクランブルが速くなる結果である。 さらに、量子カオスのプローブとしてのレベル統計とスペクトル形成係数の挙動について検討し、非局所相互作用による可積分性破壊について検討する。 我々の数値は、非局所的な場合、Krylov複雑性の後期飽和は異なる基礎理論を区別し、一方、初期の複雑性成長は異なる非局所性の度合いを区別することを示している。

Building upon recent research in spin systems with non-local interactions, this study investigates operator growth using the Krylov complexity in different non-local versions of the Ising model. We find that the non-locality results in a faster scrambling of the operator to all sites. While the saturation value of Krylov complexity of local integrable and local chaotic theories differ by a significant margin, this difference is much suppressed when non-local terms are introduced in both regimes. This results from the faster scrambling of information in the presence of non-locality. In addition, we investigate the behavior of level statistics and spectral form factor as probes of quantum chaos to study the integrability breaking due to non-local interactions. Our numerics indicate that in the non-local case, late time saturation of Krylov complexity distinguishes between different underlying theories, while the early time complexity growth distinguishes different degrees of non-locality.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# 連続学習:映像表現のためのターゲットフリーウィンニングサブネット

Continual Learning: Forget-free Winning Subnetworks for Video Representations ( http://arxiv.org/abs/2312.11973v5 )

ライセンス: Link先を確認
Haeyong Kang, Jaehong Yoon, Sung Ju Hwang, Chang D. Yoo, (参考訳) LTH(Lottery Ticket hypothesis)に触発されて、大規模で高密度なネットワークにおける効率的なサブネットワークの存在を強調し、様々な連続的な学習タスクにおいて、適切な空間条件下でのタスク性能において高いパフォーマンスのWinning Subnetwork(WSN)が検討される。 タスクインクリメンタルラーニング(TIL)とタスク非依存インクリメンタルラーニング(TaIL)のシナリオにおいて,既存のネットワークからの重み付けを活用して,効率的な学習を実現する。 FSCIL(Few-Shot Class Incremental Learning)では、データサンプル不足時の過度な適合を防止するために、SoftNet(SoftNet)と呼ばれるWSNのバリエーションが設計されている。 さらに,ビデオインクリメンタルラーニング(VIL)では,WSN重みの疎再利用が検討されている。 WSNにおけるフーリエサブニューラル演算子(FSO)の使用について考察する。 ビデオのコンパクトエンコーディングを可能にし、様々な帯域で再利用可能なサブネットを識別する。 我々は、VIL、TIL、FSCILを含む継続学習のための異なるアーキテクチャフレームワークにFSOを統合した。 我々はFSOの有効性を総合的に検証し,様々な畳み込み表現レベルでのタスク性能を著しく向上させた。 特に、FSOは、TILおよびFSCILの高層性能とVILの低層性能を向上させる。

Inspired by the Lottery Ticket Hypothesis (LTH), which highlights the existence of efficient subnetworks within larger, dense networks, a high-performing Winning Subnetwork (WSN) in terms of task performance under appropriate sparsity conditions is considered for various continual learning tasks. It leverages pre-existing weights from dense networks to achieve efficient learning in Task Incremental Learning (TIL) and Task-agnostic Incremental Learning (TaIL) scenarios. In Few-Shot Class Incremental Learning (FSCIL), a variation of WSN referred to as the Soft subnetwork (SoftNet) is designed to prevent overfitting when the data samples are scarce. Furthermore, the sparse reuse of WSN weights is considered for Video Incremental Learning (VIL). The use of Fourier Subneural Operator (FSO) within WSN is considered. It enables compact encoding of videos and identifies reusable subnetworks across varying bandwidths. We have integrated FSO into different architectural frameworks for continual learning, including VIL, TIL, and FSCIL. Our comprehensive experiments demonstrate FSO's effectiveness, significantly improving task performance at various convolutional representational levels. Specifically, FSO enhances higher-layer performance in TIL and FSCIL and lower-layer performance in VIL.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# PHMデータチャレンジからのオープンソースデータを用いた産業システムの診断・診断のための機械学習アプローチ

Machine Learning Approaches for Diagnostics and Prognostics of Industrial Systems Using Open Source Data from PHM Data Challenges: A Review ( http://arxiv.org/abs/2312.16810v3 )

ライセンス: Link先を確認
Hanqi Su, Jay Lee, (参考訳) 近年、PHM(Prognostics and Health Management)の分野では、機械学習(ML)の適用が大幅に急増している。 この成長にもかかわらず、この分野は、これらのMLテクニックを効果的に実装するための統一されたガイドラインと体系的なアプローチの欠如と、さまざまなシナリオにわたる産業用オープンソースデータに関する包括的な分析に悩まされている。 これらのギャップに対処するため,本稿では,PHM SocietyとIEEE Reliability Societyが2018年から2023年にかけて開催したPHMデータチャレンジコンペティションのオープンソースデータセットを用いて,産業システムの診断と予後に関するMLアプローチの総合的なレビューを行い,統合MLフレームワークを要約する。 本稿では,これらのコンペで示された問題,課題,方法論,進歩を体系的に分類・精査し,検出,診断,評価,予後に関する複雑な産業課題に取り組む上で,従来の機械学習と深層学習の両方が果たす役割を明らかにする。 さらに,データ関連問題とモデル関連問題を強調し,これらの競合の限界を評価することで,PHMデータ競合の共通課題を考察する。 これらの課題に対処する潜在的な解決策も要約されている。 最後に、今後の研究の鍵となるテーマと潜在的方向性を特定し、PHM領域における次世代ML-PHM開発の機会と展望を提供する。

In the field of Prognostics and Health Management (PHM), recent years have witnessed a significant surge in the application of machine learning (ML). Despite this growth, the field grapples with a lack of unified guidelines and systematic approaches for effectively implementing these ML techniques and comprehensive analysis regarding industrial open-source data across varied scenarios. To address these gaps, this paper provides a comprehensive review of ML approaches for diagnostics and prognostics of industrial systems using open-source datasets from PHM Data Challenge Competitions held between 2018 and 2023 by PHM Society and IEEE Reliability Society and summarizes a unified ML framework. This review systematically categorizes and scrutinizes the problems, challenges, methodologies, and advancements demonstrated in these competitions, highlighting the evolving role of both conventional machine learning and deep learning in tackling complex industrial tasks related to detection, diagnosis, assessment, and prognosis. Moreover, this paper delves into the common challenges in PHM data challenge competitions by emphasizing data-related and model-related issues and evaluating the limitations of these competitions. The potential solutions to address these challenges are also summarized. Finally, we identify key themes and potential directions for future research, providing opportunities and prospects for next-generation ML-PHM development in PHM domain.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# 自然言語による方言の自然言語処理に関する調査

Natural Language Processing for Dialects of a Language: A Survey ( http://arxiv.org/abs/2401.05632v3 )

ライセンス: Link先を確認
Aditya Joshi, Raj Dabre, Diptesh Kanojia, Zhuang Li, Haolan Zhan, Gholamreza Haffari, Doris Dippold, (参考訳) 最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。 この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。 方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々は,データセットの観点からのNLPにおける過去の研究を調査した。 自然言語理解(NLU)(方言分類,感情分析,構文解析,NLUベンチマークなどのタスク)と自然言語生成(NLG)(要約,機械翻訳,対話システム)の2つのカテゴリに分類される。 この調査はまた、英語、アラビア語、ドイツ語などを含む言語をカバーしている。 我々は,NLPにおける方言に関する過去の研究が,単なる方言分類よりも深くなっていることを観察する。 これには、ハイパーネットワークをLoRAに統合する最近のアプローチに繋がる、文のトランスダクションを使った初期のアプローチが含まれる。 この調査は,LLMベンチマークやモデルアーキテクチャを再考することによって,公平な言語技術の構築に関心を持つNLP研究者にとって有用であることが期待されている。

State-of-the-art natural language processing (NLP) models are trained on massive training corpora, and report a superlative performance on evaluation datasets. This survey delves into an important attribute of these datasets: the dialect of a language. Motivated by the performance degradation of NLP models for dialectic datasets and its implications for the equity of language technologies, we survey past research in NLP for dialects in terms of datasets, and approaches. We describe a wide range of NLP tasks in terms of two categories: natural language understanding (NLU) (for tasks such as dialect classification, sentiment analysis, parsing, and NLU benchmarks) and natural language generation (NLG) (for summarisation, machine translation, and dialogue systems). The survey is also broad in its coverage of languages which include English, Arabic, German among others. We observe that past work in NLP concerning dialects goes deeper than mere dialect classification, and . This includes early approaches that used sentence transduction that lead to the recent approaches that integrate hypernetworks into LoRA. We expect that this survey will be useful to NLP researchers interested in building equitable language technologies by rethinking LLM benchmarks and model architectures.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# ニューラルネットワークの確率論的ロバストな透かし

Probabilistically Robust Watermarking of Neural Networks ( http://arxiv.org/abs/2401.08261v2 )

ライセンス: Link先を確認
Mikhail Pautov, Nikita Bogdanov, Stanislav Pyatkin, Oleg Rogov, Ivan Oseledets, (参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)プラットフォームでは、ディープラーニング(DL)モデルが広く、効果的に使用されているため、特定のモデルのオーナシップを確認するために使用可能なDL透かし技術への関心が急速に高まっている。 残念なことに、これらの手法は、通常、盗み攻撃のモデルに感受性のある透かしを生成する。 本研究では, 新規なトリガーセット型透かし方式を導入し, 特に抽出・蒸留に関わる機能に対するレジリエンスを実証する。 私たちのアプローチでは、追加のモデルトレーニングは必要とせず、どんなモデルアーキテクチャにも適用できます。 提案手法のキーとなる考え方は、ソースモデルとプロキシモデルのセット間で高い確率で転送可能なトリガーセットを計算することである。 本研究では,移動可能な集合の確率が合理的に高い場合,盗難モデルのオーナシップ検証に有効であることを示す。 提案手法を複数のベンチマークで評価し,提案手法が現在行われている透かし技術よりも優れていることを示す。

As deep learning (DL) models are widely and effectively used in Machine Learning as a Service (MLaaS) platforms, there is a rapidly growing interest in DL watermarking techniques that can be used to confirm the ownership of a particular model. Unfortunately, these methods usually produce watermarks susceptible to model stealing attacks. In our research, we introduce a novel trigger set-based watermarking approach that demonstrates resilience against functionality stealing attacks, particularly those involving extraction and distillation. Our approach does not require additional model training and can be applied to any model architecture. The key idea of our method is to compute the trigger set, which is transferable between the source model and the set of proxy models with a high probability. In our experimental study, we show that if the probability of the set being transferable is reasonably high, it can be effectively used for ownership verification of the stolen model. We evaluate our method on multiple benchmarks and show that our approach outperforms current state-of-the-art watermarking techniques in all considered experimental setups.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# 有限温度におけるスペクトル形成因子とクリロフ錯体のスケーリング関係

Scaling Relations of Spectrum Form Factor and Krylov Complexity at Finite Temperature ( http://arxiv.org/abs/2401.10499v2 )

ライセンス: Link先を確認
Chengming Tan, Zhiyang Wei, Ren Zhang, (参考訳) 量子カオス診断の研究において、無限温度の系のKrylov複雑性とスペクトル形成因子(SFF)にかなりの注意が払われている。 これらの研究は量子カオスシステムの普遍的性質を明らかにした。 解析をクリロフ複雑性とSFFに対する有限温度効果を含むように拡張することにより、ワイトマン内部積に関連付けられたランツォス係数$b_n$が、PRX 9 041017 (2019) で示される普遍仮説との整合性を示すことを示した。 この結果は、標準内積に付随するランツォ係数の挙動とは対照的である。 我々の結果は、$b_n$の勾配$\alpha$は$\pi k_BT$で有界であり、$k_B$はボルツマン定数、$T$は温度であることを示している。 また、スペクトルの2点相関を特徴付け、カオスシステムにおいて$g$で表されるエルゴディディティの指標をカプセル化するSFFについても検討する。 分析の結果,温度が低下すると,$g$の値も低下することがわかった。 また,演算子成長率を表す$\alpha$を考えると,エルゴディディティ指標とLanczos係数勾配の定量的関係を確立することができる。 本研究は,ガウス直交アンサンブルとランダムスピンモデルを用いて証拠を提示する。 我々の研究は、クリロフ複雑性、SFF、エルゴディディティと演算子成長の関連性に対する有限温度効果の理解を深める。

In the study of quantum chaos diagnostics, considerable attention has been attributed to the Krylov complexity and spectrum form factor (SFF) for systems at infinite temperature. These investigations have unveiled universal properties of quantum chaotic systems. By extending the analysis to include the finite temperature effects on the Krylov complexity and SFF, we demonstrate that the Lanczos coefficients $b_n$, which are associated with the Wightman inner product, display consistency with the universal hypothesis presented in PRX 9, 041017 (2019). This result contrasts with the behavior of Lanczos coefficients associated with the standard inner product. Our results indicate that the slope $\alpha$ of the $b_n$ is bounded by $\pi k_BT$, where $k_B$ is the Boltzmann constant and $T$ the temperature. We also investigate the SFF, which characterizes the two-point correlation of the spectrum and encapsulates an indicator of ergodicity denoted by $g$ in chaotic systems. Our analysis demonstrates that as the temperature decreases, the value of $g$ decreases as well. Considering that $\alpha$ also represents the operator growth rate, we establish a quantitative relationship between ergodicity indicator and Lanczos coefficients slope. To support our findings, we provide evidence using the Gaussian orthogonal ensemble and a random spin model. Our work deepens the understanding of the finite temperature effects on Krylov complexity, SFF, and the connection between ergodicity and operator growth.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# 選択分類のためのディープニューラルネットワークベンチマーク

Deep Neural Network Benchmarks for Selective Classification ( http://arxiv.org/abs/2401.12708v2 )

ライセンス: Link先を確認
Andrea Pugnana, Lorenzo Perini, Jesse Davis, Salvatore Ruggieri, (参考訳) 多くの社会的に敏感なタスクにおける機械学習モデルの展開の増加に伴い、信頼性と信頼性のある予測に対する需要が高まっている。 これらの要求を達成する1つの方法は、モデルがエラーを犯すリスクが高い場合に予測を控えることである。 これはモデルに選択メカニズムを追加し、モデルが予測を提供するサンプルを選択する必要がある。 選択分類フレームワークは、選択された予測に対する予測性能の改善に対して、拒否された予測の割合(すなわち、モデルが予測を行わない例の割合)をバランスさせるメカニズムを設計することを目的としている。 複数の選択的な分類フレームワークが存在し、その多くはディープニューラルネットワークアーキテクチャに依存している。 しかし、既存のアプローチの実証的な評価は、方法論と設定の部分的な比較に限られており、実践者はそれらの相対的なメリットについてはほとんど見当たらない。 このギャップを、画像と表のデータの両方を含む44のデータセットの多様なセットに対して、18のベースラインをベンチマークすることで埋める。 さらに、バイナリとマルチクラスのタスクが混在しています。 提案手法は,選択誤差率,経験的カバレッジ,拒否されたインスタンスのクラス分布,アウト・オブ・ディストリビューション・インスタンスの性能など,いくつかの基準を用いて評価する。 その結果,調査対象のベースラインに明確な勝者は一人もおらず,最良の方法がユーザの目的に依存していることが示唆された。

With the increasing deployment of machine learning models in many socially sensitive tasks, there is a growing demand for reliable and trustworthy predictions. One way to accomplish these requirements is to allow a model to abstain from making a prediction when there is a high risk of making an error. This requires adding a selection mechanism to the model, which selects those examples for which the model will provide a prediction. The selective classification framework aims to design a mechanism that balances the fraction of rejected predictions (i.e., the proportion of examples for which the model does not make a prediction) versus the improvement in predictive performance on the selected predictions. Multiple selective classification frameworks exist, most of which rely on deep neural network architectures. However, the empirical evaluation of the existing approaches is still limited to partial comparisons among methods and settings, providing practitioners with little insight into their relative merits. We fill this gap by benchmarking 18 baselines on a diverse set of 44 datasets that includes both image and tabular data. Moreover, there is a mix of binary and multiclass tasks. We evaluate these approaches using several criteria, including selective error rate, empirical coverage, distribution of rejected instance's classes, and performance on out-of-distribution instances. The results indicate that there is not a single clear winner among the surveyed baselines, and the best method depends on the users' objectives.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# ハッカソンにおける生成AIの統合 - 機会、課題、教育的意味

Integrating Generative AI in Hackathons: Opportunities, Challenges, and Educational Implications ( http://arxiv.org/abs/2401.17434v3 )

ライセンス: Link先を確認
Ramteja Sajja, Carlos Erazo Ramirez, Zhouyayan Li, Bekir Z. Demiray, Yusuf Sermet, Ibrahim Demir, (参考訳) ハッカソンはソフトウェア産業において重要なプラットフォームとして登場し、組織や学生のイノベーションとスキル開発を推進してきた。 これらのイベントによって企業は、学生に実践的でハンズオンの学習体験を提供しながら、新しいアイデアをすばやくプロトタイプできる。 ハッカソンが純粋に競合するイベントから価値ある教育ツールへと移行し、学術と産業の連携を通じて現実の問題解決に理論を統合するようになった。 人工知能(AI)と機械学習の融合により、ハッカソンが作り直され、学習機会が強化され、倫理的課題も導入されている。 本研究は, アイオワ大学ハッカソン校の事例研究を中心に, 生成AIが学生の技術的選択に与える影響を考察する。 この発見は、これらの出来事におけるAIの役割、教育的影響に関する洞察を与え、将来のハッカソンにそうした技術を統合するための戦略を提案し、イノベーション、倫理、教育的価値のバランスを確保する。

Hackathons have emerged as pivotal platforms in the software industry, driving both innovation and skill development for organizations and students alike. These events enable companies to quickly prototype new ideas while offering students practical, hands-on learning experiences. Over time, hackathons have transitioned from purely competitive events to valuable educational tools, integrating theory with real-world problem-solving through collaboration between academia and industry. The infusion of artificial intelligence (AI) and machine learning is now reshaping hackathons, providing enhanced learning opportunities while also introducing ethical challenges. This study explores the influence of generative AI on students' technological choices, focusing on a case study from the 2023 University of Iowa Hackathon. The findings offer insights into AI's role in these events, its educational impact, and propose strategies for integrating such technologies in future hackathons, ensuring a balance between innovation, ethics, and educational value.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# t-SMILES 2:階層構造は線形分子表現の一般化を促進する

t-SMILES 2: Hierarchical Structure Enhances the Generalizability of Linear Molecular Representation ( http://arxiv.org/abs/2402.02164v3 )

ライセンス: Link先を確認
Juan-Ni Wu, Tong Wang, Li-Juan Tang, Hai-Long Wu, Ru-Qin Yu, (参考訳) エンコーディングは情報のキャリアです。 人工知能モデルは、構文、意味論、推論において基本的な能力を持っているが、これらの能力は特定の入力に敏感である。 本研究は、t-SMILESファミリーにTSIS(Simplified TSID)を導入し、t-SMILESのより包括的で詳細な評価を行うことを目的としている。 TSIDは従来のSMILES、DeepSMILES、SELFIESよりも優れていた。 本研究のさらなる分析により, t-SMILESフレームワークが利用した木構造は, 当初予想していたよりも効果的に理解可能であることが明らかとなった。 さらに、TSISは変種とともにTSIDに匹敵する性能を示し、SMILES、SAFE、SELFIESをはるかに上回っている。 さらに、その形式は読みやすい。 コントラスト解析は、t-SMILESの階層構造が一般化可能性を高めることを示唆している。 同時に、生成モデルの評価により、GPTモデルは最も斬新な相似性スコアを示すことが明らかとなった。 VAEと拡散モデルは補間の観点から頑健な機能を示すが、LSTMモデルは複雑な構造を解析する際のいくつかの課題に直面する。

Encoding is the carrier of information. Artificial intelligence models possess basic capabilities in syntax, semantics, and reasoning, but these capabilities are sensitive to specific inputs. This study introduces TSIS (Simplified TSID) to the t-SMILES family, with the intention of conducting a more comprehensive and in-depth evaluation of t-SMILES. TSID has been demonstrated significantly outperforms classical SMILES, DeepSMILES, and SELFIES in previous research. Further analysis of this study reveals that the tree structure utilized by the t-SMILES framework is more effectively comprehensible than initially anticipated. Additionally, TSIS, along with their variants, demonstrate comparable performance to TSID and markedly surpass that of SMILES, SAFE, and SELFIES. Moreover, its format is more straightforward to read. Overall, the contrast analysis indicates that the hierarchical structure of t-SMILES enhances its generalizability. Concurrently, the evaluation of the generative models reveals that the GPT model exhibits the highest novelty-similarity scores. The VAE and diffusion models demonstrate robust capabilities in terms of interpolation, whereas the LSTM model encounters some challenges in parsing complex structures.
翻訳日:2024-09-19 23:35:48 公開日:2024-09-18
# 発電機トレーサリダによるデルタデバッギングの妥当性

Validity-Preserving Delta Debugging via Generator Trace Reduction ( http://arxiv.org/abs/2402.04623v2 )

ライセンス: Link先を確認
Luyao Ren, Xing Zhang, Ziyue Hua, Yanyan Jiang, Xiao He, Yingfei Xiong, Tao Xie, (参考訳) 効率的なデバッグには、バグを引き起こすテストインプットの削減が不可欠だ。 デルタデバッギングはこの目的のために最も一般的なアプローチである。 テスト入力が特定の仕様に従う必要がある場合、既存のデルタデバッギングプラクティスは有効な問題に直面します。 この全体的な効果と効率の低下は、仕様が構文構造を超えて拡張されるとさらに顕著になる。 私たちのキーとなる洞察は、これらの仕様を認識した入力ジェネレータを活用して、テストインプットのリダクションを直接実行するのではなく、有効なリダクションインプットを生成することです。 本稿では,ジェネレータを用いたデルタデバッギング手法であるGReduceを提案する。 具体的には、ジェネレータとその実行が、バグ誘発テストインプットの生成方法を示すものであることを条件として、GReduceは、削減された有効なテストインプットを出力するジェネレータ上の他の実行を検索する。 5つのベンチマークによる評価結果は、GReduceが最先端の構文ベースの還元器であるPersesの28.5%、34.6%、75.6%、Persesの17.5%、0.6%、65.4%、および最先端の選択系列に基づく還元器の仮説を著しく上回り、GReduceの有効性、効率、汎用性を実証していることを示している。

Reducing test inputs that trigger bugs is crucial for efficient debugging. Delta debugging is the most popular approach for this purpose. When test inputs need to conform to certain specifications, existing delta debugging practice encounters a validity problem: it blindly applies reduction rules, producing a large number of invalid test inputs that do not satisfy the required specifications. This overall diminishing effectiveness and efficiency becomes even more pronounced when the specifications extend beyond syntactical structures. Our key insight is that we should leverage input generators, which are aware of these specifications, to generate valid reduced inputs, rather than straightforwardly performing reduction on test inputs. In this paper, we propose a generator-based delta debugging method, namely GReduce, which derives validity-preserving reducers. Specifically, given a generator and its execution, demonstrating how the bug-inducing test input is generated, GReduce searches for other executions on the generator that yield reduced, valid test inputs. The evaluation results on five benchmarks show that GReduce significantly outperforms the state-of-the-art syntax-based reducer Perses: 28.5%, 34.6%, 75.6% in size of those from Perses with 17.5%, 0.6%, 65.4% time taken by Perses, and also outperforms the state-of-the-art choice-sequence-based reducer Hypothesis, demonstrating the effectiveness, efficiency, and versatility of GReduce.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# 離散化と特徴選択による表データの解釈可能な分類器

Interpretable classifiers for tabular data via discretization and feature selection ( http://arxiv.org/abs/2402.05680v3 )

ライセンス: Link先を確認
Reijo Jaakkola, Tomi Janhunen, Antti Kuusisto, Masood Feyzbakhsh Rankooh, Miikka Vilander, (参考訳) 表データから人間の解釈可能かつ正確な分類器を即座に計算する手法を提案する。 得られた分類器は短いブール式であり、最初に元のデータを離散化して計算し、それから非常に高速なアルゴリズムと組み合わせて設定のための最良のブール分類器を生成する。 本稿では,12の実験を通じて,ランダムな森林,XGBoost,および文献における同じデータセットに対する既存の結果と同等の精度で,そのアプローチを実証する。 ほとんどの場合、本研究の主な目的は分類器の即時解釈可能性であるにもかかわらず、本手法の精度は参照手法の精度と実際に類似している。 また、実生活データから得られる分類器が、そのデータから得られる背景分布に対して理想的に最良の分類器に対応する確率について、新しい結果を示す。

We introduce a method for computing immediately human interpretable yet accurate classifiers from tabular data. The classifiers obtained are short Boolean formulas, computed via first discretizing the original data and then using feature selection coupled with a very fast algorithm for producing the best possible Boolean classifier for the setting. We demonstrate the approach via 12 experiments, obtaining results with accuracies comparable to ones obtained via random forests, XGBoost, and existing results for the same datasets in the literature. In most cases, the accuracy of our method is in fact similar to that of the reference methods, even though the main objective of our study is the immediate interpretability of our classifiers. We also prove a new result on the probability that the classifier we obtain from real-life data corresponds to the ideally best classifier with respect to the background distribution the data comes from.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# LLaVA-Docent:芸術鑑賞教育を支援するマルチモーダル大言語モデルによる授業チューニング

LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education ( http://arxiv.org/abs/2402.06264v3 )

ライセンス: Link先を確認
Unggi Lee, Minji Jeon, Yunseo Lee, Gyuri Byun, Yoorim Son, Jaeyoon Shin, Hongkyu Ko, Hyeoncheol Kim, (参考訳) 様々な分野における学習を支援する様々なAIシステムの開発にもかかわらず、芸術鑑賞教育のためのAI支援は広く研究されていない。 芸術鑑賞は、ほとんどの学生にとって馴染みの無い、挑戦的な努力と認識されることが多いが、生成可能なAIによってよりアクセスしやすくなり、適切な質問を提供し、聴衆にアートワークを深く理解するよう促す。 本研究では,芸術鑑賞教育におけるマルチモーダル大言語モデル(MLLM)の適用について検討し,美術鑑賞のための個人教師として機能するモデルであるLLaVA-Docentの開発に焦点をあてる。 我々のアプローチはデザインと開発の研究であり、芸術鑑賞教育のためのデータデザインフレームワークとともに、機能的MLLM対応チャットボットを作成するためのアプリケーションの設計と開発を反復的に進めることに焦点をあてた。 そこで我々は,MLLM,LLaVA-Docentのトレーニングに役立ったGPT-4によって生成された仮想対話データセットを構築した。 LLaVA-Docentの性能は、代替設定に対してベンチマークすることで評価され、その異なる長所と短所を明らかにした。 本研究は,MMLMをベースとしたパーソナライズされた美術鑑賞チャットボットの有効性を明らかにするとともに,芸術鑑賞を指導・経験する新しいアプローチへの適用性を実証するものである。

Despite the development of various AI systems to support learning in various domains, AI assistance for art appreciation education has not been extensively explored. Art appreciation, often perceived as an unfamiliar and challenging endeavor for most students, can be more accessible with a generative AI enabled conversation partner that provides tailored questions and encourages the audience to deeply appreciate artwork. This study explores the application of multimodal large language models (MLLMs) in art appreciation education, with a focus on developing LLaVA-Docent, a model designed to serve as a personal tutor for art appreciation. Our approach involved design and development research, focusing on iterative enhancement to design and develop the application to produce a functional MLLM-enabled chatbot along with a data design framework for art appreciation education. To that end, we established a virtual dialogue dataset that was generated by GPT-4, which was instrumental in training our MLLM, LLaVA-Docent. The performance of LLaVA-Docent was evaluated by benchmarking it against alternative settings and revealed its distinct strengths and weaknesses. Our findings highlight the efficacy of the MMLM-based personalized art appreciation chatbot and demonstrate its applicability for a novel approach in which art appreciation is taught and experienced.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# いくつかの統計モデル間の計算効率の低下

Computationally efficient reductions between some statistical models ( http://arxiv.org/abs/2402.07717v2 )

ライセンス: Link先を確認
Mengqi Lou, Guy Bresler, Ashwin Pananjady, (参考訳) 本研究では,サンプルをソース統計モデルからターゲット統計モデルに大まかに変換する問題について検討する。 特に、一様、Erlang、Laplaceの位置モデルを一般的なターゲットファミリーに大まかに還元する計算効率の良いプロシージャを提供する。 本手法は,いくつかの標準高次元問題,専門家の混在,位相探索,信号の復調といった,漸近的高次元問題間での漸近的還元を定め,提案手法について述べる。 特に、削減は構造保存であり、欠落したデータに対応できる。 また、微分プライベートなメカニズムを別のメカニズムに変換する応用の可能性についても指摘します。

We study the problem of approximately transforming a sample from a source statistical model to a sample from a target statistical model without knowing the parameters of the source model, and construct several computationally efficient such reductions between canonical statistical experiments. In particular, we provide computationally efficient procedures that approximately reduce uniform, Erlang, and Laplace location models to general target families. We illustrate our methodology by establishing nonasymptotic reductions between some canonical high-dimensional problems, spanning mixtures of experts, phase retrieval, and signal denoising. Notably, the reductions are structure-preserving and can accommodate missing data. We also point to a possible application in transforming one differentially private mechanism to another.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# 多体局在系における量子コヒーレンスのダイナミクス

Dynamics of quantum coherence in many-body localized systems ( http://arxiv.org/abs/2402.12698v2 )

ライセンス: Link先を確認
Jin-Jun Chen, Kai Xu, Li-Hang Ren, Yu-Ran Zhang, Heng Fan, (参考訳) 量子コヒーレンス(英語版)のダイナミクスは、多体局在(MBL)の識別に有効なプローブであることを示す。 量子コヒーレンスを利用して、特定のサブシステムの局所コヒーレンスと系全体のコヒーレンスを一貫した方法で測定することができる。 以上の結果から,MBL相のパワー則に従って小さなサブシステムの局所的コヒーレンスが時間の経過とともに崩壊し,アンダーソン局部化(AL)相の同じ時間窓内で安定な値に達することが明らかとなった。 対照的に、系全体の総コヒーレンスは、MBL相の間に対数的成長を示し、AL相において安定な値に達する。 特に、量子コヒーレンスのこの動的特性は弱い相互作用であっても頑健であり、無限の系において非有界な振る舞いを示す。 本研究は,MBLシステムにおける多体認知現象の理解に関する知見を提供し,実験におけるMBL位相の同定と特徴付けのための新しい実現可能な手法を提案する。

We demonstrate that the dynamics of quantum coherence serves as an effective probe for identifying dephasing, which is a distinctive signature of many-body localization (MBL). Quantum coherence can be utilized to measure both the local coherence of specific subsystems and the total coherence of the whole system in a consistent manner. Our results reveal that the local coherence of small subsystems decays over time following a power law in the MBL phase, while it reaches a stable value within the same time window in the Anderson localized (AL) phase. In contrast, the total coherence of the whole system exhibits logarithmic growth during the MBL phase and reaches a stable value in the AL phase. Notably, this dynamic characteristic of quantum coherence remains robust even with weak interactions and displays unbounded behavior in infinite systems. Our results provide insights into understanding many-body dephasing phenomena in MBL systems and propose a novel feasible method for identifying and characterizing MBL phases in experiments.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# 量子マルコフ決定過程:一般理論、近似、政策の類

Quantum Markov Decision Processes: General Theory, Approximations, and Classes of Policies ( http://arxiv.org/abs/2402.14649v2 )

ライセンス: Link先を確認
Naci Saldi, Sina Sanjari, Serdar Yuksel, (参考訳) 本稿では,古典マルコフ決定過程(MDP)に対抗して量子的手法を開発することを目的とする。 まず、量子領域、量子遷移、コスト関数の状態と作用空間を持つ量子MDPの非常に一般的な定式化を提供する。 量子 MDP (q-MDP) を定式化すると、マルコフの量子制御ポリシーが十分であることを証明し、動的プログラミング原理を提供する検証定理の確立に焦点が移る。 その後、文献で確認されているq-MDPモデルと以前に確立された量子MDPモデル(QOMDP)の比較を行う。 さらに、Q-MDPの近似は、QOMDPとして定式化できる有限作用モデルによって得られる。 最後に、q-MDPに対するオープンループおよび古典状態保存クローズループポリシーのクラスを導入し、これらのポリシーの構造的な結果を示す。 まとめると、新しいフレームワーク、アルゴリズム、そして将来の研究方法を導入することを目的とした、新しい量子MDPモデルを提案する。 われわれのアプローチは、離散時間量子制御における新しい研究方向の道を開くことを願っている。

In this paper, the aim is to develop a quantum counterpart to classical Markov decision processes (MDPs). Firstly, we provide a very general formulation of quantum MDPs with state and action spaces in the quantum domain, quantum transitions, and cost functions. Once we formulate the quantum MDP (q-MDP), our focus shifts to establishing the verification theorem that proves the sufficiency of Markovian quantum control policies and provides a dynamic programming principle. Subsequently, a comparison is drawn between our q-MDP model and previously established quantum MDP models (referred to as QOMDPs) found in the literature. Furthermore, approximations of q-MDPs are obtained via finite-action models, which can be formulated as QOMDPs. Finally, classes of open-loop and classical-state-preserving closed-loop policies for q-MDPs are introduced, along with structural results for these policies. In summary, we present a novel quantum MDP model aiming to introduce a new framework, algorithms, and future research avenues. We hope that our approach will pave the way for a new research direction in discrete-time quantum control.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# 大域フェルミオン対称性を持つれんが壁量子回路

Brick Wall Quantum Circuits with Global Fermionic Symmetry ( http://arxiv.org/abs/2402.18440v5 )

ライセンス: Link先を確認
Pietro Richelli, Kareljan Schoutens, Alberto Zorzato, (参考訳) 大域フェルミオン対称性を享受するレンガ壁量子回路について検討する。 構成2量子ゲートとそのフェルミオン対称性は、1+1次元の可積分超対称性量子場理論における2粒子散乱行列に由来する。 我々の2量子ゲートは3つの自由パラメータの関数として、いわゆるフリーフェルミオンあるいはマッチゲート形式であり、レンガの壁のユニタリ$U_F$とその非自明なハミルトニアン極限$H_{\gamma}$のスペクトル構造を閉形式で導出することができる。 フェルミオン対称性は臨界点の曲面に$H_{\gamma}$をピンするのに対して、対称性を破ると非自明な位相となる。 本稿では,この回路のクエンチダイナミクスについて概説する。

We study brick wall quantum circuits enjoying a global fermionic symmetry. The constituent 2-qubit gate, and its fermionic symmetry, derive from a 2-particle scattering matrix in integrable, supersymmetric quantum field theory in 1+1 dimensions. Our 2-qubit gate, as a function of three free parameters, is of so-called free fermionic or matchgate form, allowing us to derive the spectral structure of both the brick wall unitary $U_F$ and its, non-trivial, hamiltonian limit $H_{\gamma}$ in closed form. We find that the fermionic symmetry pins $H_{\gamma}$ to a surface of critical points, whereas breaking that symmetry leads to non-trivial topological phases. We briefly explore quench dynamics for this class of circuits.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# ニューラルグラフ生成:潜在拡散モデルを用いた特徴量付きグラフ生成

Neural Graph Generator: Feature-Conditioned Graph Generation using Latent Diffusion Models ( http://arxiv.org/abs/2403.01535v3 )

ライセンス: Link先を確認
Iakovos Evdaimon, Giannis Nikolentzos, Christos Xypolopoulos, Ahmed Kammoun, Michail Chatzianastasis, Hadi Abdine, Michalis Vazirgiannis, (参考訳) グラフ生成は、特定のプロパティを正確に反映するグラフを生成する上で重要な課題を持つ、機械学習における重要なタスクとして現れている。 既存の手法はしばしば、高次元の複雑さとグラフ特性の様々な性質に苦しむため、このニーズに効率的に対処するのに不足する。 本稿では,グラフ生成のための条件付き潜伏拡散モデルを用いたニューラルグラフ生成器(NGG)を提案する。 NGGは複雑なグラフパターンをモデル化し、グラフ生成プロセスの制御を提供する。 NGGはグラフ圧縮のための変分グラフオートエンコーダと、グラフ統計を要約するベクトルによって導かれる潜在ベクトル空間における拡散過程を用いる。 様々なグラフ生成タスクにおけるNGGの汎用性を実証し、所望のグラフ特性を捕捉し、目に見えないグラフに一般化する能力を示す。 また,ジェネレータと異なるLLMのグラフ生成機能を比較する。 この研究はグラフ生成手法の転換を意味し、特定の特徴を持つ多様なグラフを生成するためのより実用的で効率的なソリューションを提供する。

Graph generation has emerged as a crucial task in machine learning, with significant challenges in generating graphs that accurately reflect specific properties. Existing methods often fall short in efficiently addressing this need as they struggle with the high-dimensional complexity and varied nature of graph properties. In this paper, we introduce the Neural Graph Generator (NGG), a novel approach which utilizes conditioned latent diffusion models for graph generation. NGG demonstrates a remarkable capacity to model complex graph patterns, offering control over the graph generation process. NGG employs a variational graph autoencoder for graph compression and a diffusion process in the latent vector space, guided by vectors summarizing graph statistics. We demonstrate NGG's versatility across various graph generation tasks, showing its capability to capture desired graph properties and generalize to unseen graphs. We also compare our generator to the graph generation capabilities of different LLMs. This work signifies a shift in graph generation methodologies, offering a more practical and efficient solution for generating diverse graphs with specific characteristics.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# 3DGS-Calib:マルチモーダル時空間校正のための3次元ガウススプラッティング

3DGS-Calib: 3D Gaussian Splatting for Multimodal SpatioTemporal Calibration ( http://arxiv.org/abs/2403.11577v2 )

ライセンス: Link先を確認
Quentin Herau, Moussab Bennehar, Arthur Moreau, Nathan Piasco, Luis Roldao, Dzmitry Tsishkou, Cyrille Migniot, Pascal Vasseur, Cédric Demonceaux, (参考訳) 信頼性の高いマルチモーダルセンサ融合アルゴリズムは正確な時空間キャリブレーションを必要とする。 近年、暗黙の神経表現に基づく標的のない校正技術は、正確でロバストな結果をもたらすことが証明されている。 それでも、ボリュームレンダリングに必要な多くのサンプルポイントによって引き起こされる高い計算オーバーヘッドを考えると、そのような手法は本質的に訓練が遅い。 近年,暗黙的表現法に代わる高速な3次元ガウススプラッティングの導入により,この新たなレンダリング手法を活用し,より高速なマルチセンサキャリブレーションを実現することを提案する。 3DGS-Calibは、3Dガウススティングの速度と精度に依存する新しいキャリブレーション手法であり、暗黙のニューラル表現に依存する手法に比べて精度が高く、頑健で、かなりのスピードアップが可能なマルチモーダル時空間キャリブレーションを実現する。 我々は、広く使われている運転データセットであるKITTI-360のシーケンスに関する実験結果を用いて、提案手法の優位性を実証した。

Reliable multimodal sensor fusion algorithms require accurate spatiotemporal calibration. Recently, targetless calibration techniques based on implicit neural representations have proven to provide precise and robust results. Nevertheless, such methods are inherently slow to train given the high computational overhead caused by the large number of sampled points required for volume rendering. With the recent introduction of 3D Gaussian Splatting as a faster alternative to implicit representation methods, we propose to leverage this new rendering approach to achieve faster multi-sensor calibration. We introduce 3DGS-Calib, a new calibration method that relies on the speed and rendering accuracy of 3D Gaussian Splatting to achieve multimodal spatiotemporal calibration that is accurate, robust, and with a substantial speed-up compared to methods relying on implicit neural representations. We demonstrate the superiority of our proposal with experimental results on sequences from KITTI-360, a widely used driving dataset.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# QubiCSV: 協調的クビット制御のためのオープンソースのデータストレージと可視化プラットフォーム

QubiCSV: An Open-Source Data Storage and Visualization Platform for Collaborative Qubit Control ( http://arxiv.org/abs/2403.14672v2 )

ライセンス: Link先を確認
Devanshu Brahmbhatt, Yilun Xu, Neel Vora, Larry Chen, Neelay Fruitwala, Gang Huang, Qing Ji, Phuc Nguyen, (参考訳) 量子ビット制御のための共同研究プラットフォームの開発は、アイデア、データ、実装の交換がより影響力のある結果を達成するために、この分野におけるイノベーションを促進するために不可欠である。 さらに、量子実験装置の高コストを考えると、資源利用を効率的に最大化するには協調環境が不可欠である。 しかし、専用データ管理プラットフォームの欠如は進歩の大きな障害を示しており、この目的に合わせた必須の補助ツールの必要性を強調している。 現在の量子ビット制御システムは、広範なキャリブレーションデータの複雑な管理を扱うことができず、複雑な量子実験結果の視覚化を効果的にサポートしていない。 本稿では,量子コンピューティング研究の要求に応えるために設計されたQubiCSV(Qubit Control Storage and Visualization)を紹介する。 オープンソースのツールであるQubiCSVは、量子コンピューティングの効率的なデータ管理を促進し、データストレージにデータバージョニング機能を提供する。 複雑な量子実験を解釈し、量子ビット性能を最適化するために、洞察に富んだ可視化が開発された。 QubiCSVは、キュービット制御システムのデータの処理を効率化するだけでなく、直感的な視覚化機能によってユーザエクスペリエンスを改善し、量子コンピューティング領域の研究者にとって貴重な資産である。

Developing collaborative research platforms for quantum bit control is crucial for driving innovation in the field, as they enable the exchange of ideas, data, and implementation to achieve more impactful outcomes. Furthermore, considering the high costs associated with quantum experimental setups, collaborative environments are vital for maximizing resource utilization efficiently. However, the lack of dedicated data management platforms presents a significant obstacle to progress, highlighting the necessity for essential assistive tools tailored for this purpose. Current qubit control systems are unable to handle complicated management of extensive calibration data and do not support effectively visualizing intricate quantum experiment outcomes. In this paper, we introduce QubiCSV (Qubit Control Storage and Visualization), a platform specifically designed to meet the demands of quantum computing research, focusing on the storage and analysis of calibration and characterization data in qubit control systems. As an open-source tool, QubiCSV facilitates efficient data management of quantum computing, providing data versioning capabilities for data storage and allowing researchers and programmers to interact with qubits in real time. The insightful visualization are developed to interpret complex quantum experiments and optimize qubit performance. QubiCSV not only streamlines the handling of qubit control system data but also improves the user experience with intuitive visualization features, making it a valuable asset for researchers in the quantum computing domain.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# イベントカメラを用いた追跡支援物体検出

Tracking-Assisted Object Detection with Event Cameras ( http://arxiv.org/abs/2403.18330v3 )

ライセンス: Link先を確認
Ting-Kang Yen, Igor Morawski, Shusil Dangi, Kai He, Chung-Yi Lin, Jia-Fong Yeh, Hung-Ting Su, Winston Hsu, (参考訳) イベントベースのオブジェクト検出は、高ダイナミックレンジや動きのぼけのないようなイベントカメラの異常な特性のために、コンピュータビジョンコミュニティで最近注目を集めている。 しかし、特徴的不整脈と空間性は、カメラに相対的な動きがないために見えない物体を生じさせ、タスクにおいて重大な課題を生じさせる。 先行研究は、可能な限り多くの時間的手がかりを保持するために様々な暗黙の記憶を研究してきた。 しかし、暗黙の記憶は長期的な特徴を効果的に保つのに苦戦している。 本稿では,これらの見えない物体を擬似隠蔽物体とみなし,隠蔽物体の追跡によって検出することを目的とする。 まず、オブジェクトの可視性属性を導入し、既存のイベントカメラデータセットをクリーニングするだけでなく、それに追加の可視性ラベルを追加する自動ラベルアルゴリズムに貢献する。 第二に、擬似隠蔽オブジェクトのトラッキング戦略を利用して、機能が非常に長い間利用されていない場合でも、その永続性を維持し、バウンディングボックスを維持する。 これらの戦略は、追跡対象によって導かれる明示的な学習メモリとして扱われ、フレーム間のオブジェクトの変位を記録することができる。 最後に,パイプライン全体のロバスト性を高めるために,潜伏する特徴を豊かにするための時空間的特徴集約モジュールと一貫性損失を提案する。 我々は、静止オブジェクトが保持されている場合のメソッドの有効性を検証するため、包括的な実験を行うが、実際の隠蔽オブジェクトは破棄される。 以上の結果から,(1)教師付きトレーニング支援のための可視性ラベルを付加し,(2)最先端の手法よりも優れた7.9%の絶対mAPを達成できた。

Event-based object detection has recently garnered attention in the computer vision community due to the exceptional properties of event cameras, such as high dynamic range and no motion blur. However, feature asynchronism and sparsity cause invisible objects due to no relative motion to the camera, posing a significant challenge in the task. Prior works have studied various implicit-learned memories to retain as many temporal cues as possible. However, implicit memories still struggle to preserve long-term features effectively. In this paper, we consider those invisible objects as pseudo-occluded objects and aim to detect them by tracking through occlusions. Firstly, we introduce the visibility attribute of objects and contribute an auto-labeling algorithm to not only clean the existing event camera dataset but also append additional visibility labels to it. Secondly, we exploit tracking strategies for pseudo-occluded objects to maintain their permanence and retain their bounding boxes, even when features have not been available for a very long time. These strategies can be treated as an explicit-learned memory guided by the tracking objective to record the displacements of objects across frames. Lastly, we propose a spatio-temporal feature aggregation module to enrich the latent features and a consistency loss to increase the robustness of the overall pipeline. We conduct comprehensive experiments to verify our method's effectiveness where still objects are retained, but real occluded objects are discarded. The results demonstrate that (1) the additional visibility labels can assist in supervised training, and (2) our method outperforms state-of-the-art approaches with a significant improvement of 7.9% absolute mAP.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# QNCD:拡散モデルにおける量子化ノイズ補正

QNCD: Quantization Noise Correction for Diffusion Models ( http://arxiv.org/abs/2403.19140v2 )

ライセンス: Link先を確認
Huanpeng Chu, Wei Wu, Chengjie Zang, Kun Yuan, (参考訳) 拡散モデルは画像合成に革命をもたらし、品質と創造性の新しいベンチマークを設定した。 しかし、それらの普及は反復的復調過程において必要となる集中的な計算によって妨げられる。 ポストトレーニング量子化(PTQ)は、サンプリングを加速するソリューションを提供する。 そこで本研究では,サンプリングプロセス中における量子化ノイズの最小化を目的とした量子化ノイズ補正方式(QNCD)を提案する。 我々は、イントラ量子化ノイズとイントラ量子化ノイズの2つの主要な量子化課題を同定する。 イントラ量子化ノイズ(Intra Quantization noise)は、主にresblockモジュールへの埋め込みによって悪化し、アクティベーション量子化範囲を拡張し、各ステップの障害を増大させる。 さらに、量子化間ノイズは、デノナイジングプロセス全体にわたる累積量子化偏差から生じ、データ分布を段階的に変化させる。 QNCDは、量子化ノイズを除去するための埋め込み型特徴平滑化と、量子化ノイズを動的にフィルタリングする効果的な実行時雑音推定モジュールによってこれらに対処する。 本手法は拡散モデルの従来の量子化手法よりも優れており,画像Net(LDM-4)上のW4A8およびW8A8量子化設定において損失のない結果が得られる。 コードは、https://github.com/huanpengchu/QNCDで入手できる。

Diffusion models have revolutionized image synthesis, setting new benchmarks in quality and creativity. However, their widespread adoption is hindered by the intensive computation required during the iterative denoising process. Post-training quantization (PTQ) presents a solution to accelerate sampling, aibeit at the expense of sample quality, extremely in low-bit settings. Addressing this, our study introduces a unified Quantization Noise Correction Scheme (QNCD), aimed at minishing quantization noise throughout the sampling process. We identify two primary quantization challenges: intra and inter quantization noise. Intra quantization noise, mainly exacerbated by embeddings in the resblock module, extends activation quantization ranges, increasing disturbances in each single denosing step. Besides, inter quantization noise stems from cumulative quantization deviations across the entire denoising process, altering data distributions step-by-step. QNCD combats these through embedding-derived feature smoothing for eliminating intra quantization noise and an effective runtime noise estimatiation module for dynamicly filtering inter quantization noise. Extensive experiments demonstrate that our method outperforms previous quantization methods for diffusion models, achieving lossless results in W4A8 and W8A8 quantization settings on ImageNet (LDM-4). Code is available at: https://github.com/huanpengchu/QNCD
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# ニューラルネットワークを用いた効率的な3次元インスタンスマッピングと位置決め

Efficient 3D Instance Mapping and Localization with Neural Fields ( http://arxiv.org/abs/2403.19797v3 )

ライセンス: Link先を確認
George Tang, Krishna Murthy Jatavallabhula, Antonio Torralba, (参考訳) 本稿では,RGB画像の列から3次元インスタンスセグメンテーションの暗黙的なシーン表現を学習する問題に取り組む。 そこで我々は,新しい視点から3Dインスタンスセグメンテーションマスクを描画できるニューラルラベルフィールドを効率的に学習する新しいフレームワークである3DIMLを紹介する。 3DIMLは、自己監督的な方法で神経野を最適化し、複雑な訓練手順と損失関数設計を必要とする先行技術に対して、2段階のプロセスを活用する。 第1フェーズであるInstanceMapは、フロントエンドインスタンスセグメンテーションモデルによって生成された画像シーケンスの2Dセグメンテーションマスクとして入力され、画像間で対応するマスクを3Dラベルに関連付ける。 これらのほぼ3D一貫性のある擬似ラベルマスクは、第2フェーズの InstanceLift で、 InstanceMap が見逃した領域を補間し、あいまいさを解決するニューラルラベルフィールドのトレーニングを監督するために使用される。 さらに、トレーニングされたニューラルラベルフィールドが与えられたインスタンスマスクのほぼリアルタイムなローカライズを可能にするインスタンスLocを導入する。 Replica と ScanNet のデータセットのシーケンス上での 3DIML の評価を行い,画像シーケンスに対する軽度な仮定の下での有効性を実証した。 我々は,既存の暗黙のシーン表現手法を同等の品質で大幅に高速化し,より高速で効果的な3Dシーン理解を実現する可能性を示した。

We tackle the problem of learning an implicit scene representation for 3D instance segmentation from a sequence of posed RGB images. Towards this, we introduce 3DIML, a novel framework that efficiently learns a neural label field which can render 3D instance segmentation masks from novel viewpoints. Opposed to prior art that optimizes a neural field in a self-supervised manner, requiring complicated training procedures and loss function design, 3DIML leverages a two-phase process. The first phase, InstanceMap, takes as input 2D segmentation masks of the image sequence generated by a frontend instance segmentation model, and associates corresponding masks across images to 3D labels. These almost 3D-consistent pseudolabel masks are then used in the second phase, InstanceLift, to supervise the training of a neural label field, which interpolates regions missed by InstanceMap and resolves ambiguities. Additionally, we introduce InstanceLoc, which enables near realtime localization of instance masks given a trained neural label field. We evaluate 3DIML on sequences from the Replica and ScanNet datasets and demonstrate its effectiveness under mild assumptions for the image sequences. We achieve a large practical speedup over existing implicit scene representation methods with comparable quality, showcasing its potential to facilitate faster and more effective 3D scene understanding.
翻訳日:2024-09-19 23:25:58 公開日:2024-09-18
# ツイートのロバストかつ解釈可能な知覚分析のためのハイブリッドトランスフォーマとアテンションに基づくリカレントニューラルネットワーク

A Hybrid Transformer and Attention Based Recurrent Neural Network for Robust and Interpretable Sentiment Analysis of Tweets ( http://arxiv.org/abs/2404.00297v4 )

ライセンス: Link先を確認
Md Abrar Jahin, Md Sakib Hossain Shovon, M. F. Mridha, Md Rashedul Islam, Yutaka Watanobe, (参考訳) 感情分析は、世論と消費者行動を理解するために不可欠である。 既存のモデルは言語的多様性、一般化可能性、説明可能性に関する課題に直面している。 本稿では,トランスフォーマーアーキテクチャ,アテンション機構,BiLSTMネットワークを統合したハイブリッドフレームワークTRABSAを提案する。 124万ツイートでトレーニングされたRoBERTaを活用することで、感情分析ベンチマークのギャップを埋め、最先端の精度を確保します。 32か国と米国州のツイートでデータセットを増強し、6つのワード埋め込み技術と3つのレキシコンベースのラベリング技術を比較し、最適な感情分析のためのベストを選択する。 TRABSAは、94%の精度と大幅な精度、リコール、F1スコアゲインで、従来のMLおよびディープラーニングモデルを上回っている。 多様なデータセットに対する評価は、一貫した優位性と一般化性を示している。 SHAPとLIME分析は解釈可能性を高め、予測の信頼性を向上させる。 本研究は,パンデミックの資源管理,資源計画支援,政策形成,ワクチン接種戦略を促進する。

Sentiment analysis is crucial for understanding public opinion and consumer behavior. Existing models face challenges with linguistic diversity, generalizability, and explainability. We propose TRABSA, a hybrid framework integrating transformer-based architectures, attention mechanisms, and BiLSTM networks to address this. Leveraging RoBERTa-trained on 124M tweets, we bridge gaps in sentiment analysis benchmarks, ensuring state-of-the-art accuracy. Augmenting datasets with tweets from 32 countries and US states, we compare six word-embedding techniques and three lexicon-based labeling techniques, selecting the best for optimal sentiment analysis. TRABSA outperforms traditional ML and deep learning models with 94% accuracy and significant precision, recall, and F1-score gains. Evaluation across diverse datasets demonstrates consistent superiority and generalizability. SHAP and LIME analyses enhance interpretability, improving confidence in predictions. Our study facilitates pandemic resource management, aiding resource planning, policy formation, and vaccination tactics.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# 事前制約に基づく大規模言語モデル調整のための逆モデル学習

Prior Constraints-based Reward Model Training for Aligning Large Language Models ( http://arxiv.org/abs/2404.00978v2 )

ライセンス: Link先を確認
Hang Zhou, Chenglong Wang, Yimin Hu, Tong Xiao, Chunliang Zhang, Jingbo Zhu, (参考訳) 大規模言語モデル(LLM)の整合性を考慮した強化学習は、典型的にはランキング損失と比較ペアを併用した報酬モデルを訓練するが、この訓練手順には、報酬モデルの訓練中に制約の欠如による強化学習中の報酬スコアの非制御スケーリングという固有の問題がある。 PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。 我々は、PCRMのランクと人間の嗜好との相関と、RLによるLLMの整合性を評価することで、PCRMを総合的に評価する。 実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。 別のボーナスとして、我々の手法は直接選好最適化などの任意のランクベースのアライメント手法に容易に統合でき、一貫した改善をもたらすことができる。

Reinforcement learning with human feedback for aligning large language models (LLMs) trains a reward model typically using ranking loss with comparison pairs.However, the training procedure suffers from an inherent problem: the uncontrolled scaling of reward scores during reinforcement learning due to the lack of constraints while training the reward model.This paper proposes a Prior Constraints-based Reward Model (namely PCRM) training method to mitigate this problem. PCRM incorporates prior constraints, specifically, length ratio and cosine similarity between outputs of each comparison pair, during reward model training to regulate optimization magnitude and control score margins. We comprehensively evaluate PCRM by examining its rank correlation with human preferences and its effectiveness in aligning LLMs via RL. Experimental results demonstrate that PCRM significantly improves alignment performance by effectively constraining reward score scaling. As another bonus, our method is easily integrated into arbitrary rank-based alignment methods, such as direct preference optimization, and can yield consistent improvement.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# HENet:マルチビューカメラによるエンドツーエンドマルチタスク3次元認識のためのハイブリッド符号化

HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras ( http://arxiv.org/abs/2404.02517v3 )

ライセンス: Link先を確認
Zhongyu Xia, ZhiWei Lin, Xinhao Wang, Yongtao Wang, Yun Xing, Shengxiang Qi, Nan Dong, Ming-Hsuan Yang, (参考訳) 多視点カメラからの3次元認識は、自律運転システムにおいて重要な要素であり、3Dオブジェクトの検出や鳥の目視(BEV)セマンティックセグメンテーションといった複数のタスクを含む。 近年の3次元知覚モデルでは,大きな画像エンコーダ,高解像度画像,長期時間入力が採用されており,性能が著しく向上している。 しかし、これらの手法は、計算資源の制約のため、トレーニングや推論のシナリオでは互換性がないことが多い。 さらに、現代の自律運転システムは、システムアーキテクチャ全体を単純化し、実装の複雑さを低減することができるマルチタスク3D知覚のためのエンドツーエンドフレームワークを採用することを好んでいる。 しかし、複数のタスクをエンドツーエンドの3D知覚モデル内で協調的に最適化する場合、タスク間の衝突が発生することが多い。 本稿では,これらの問題を緩和するために,マルチタスク3次元認識のためのHENetというエンドツーエンドフレームワークを提案する。 具体的には,短期フレーム用大画像エンコーダと長期フレーム用小画像エンコーダを用いたハイブリッド画像エンコーダを提案する。 次に,2つのハイブリット画像エンコーダから抽出した異なるフレームの特徴を融合する,アテンション機構に基づく時間的特徴統合モジュールを提案する。 最後に、各知覚タスクの特徴に基づき、異なるグリッドサイズのBEV機能、独立したBEVエンコーダ、タスクデコーダを異なるタスクに活用する。 実験の結果,HENetは3Dオブジェクト検出やBEVセマンティックセマンティックセグメンテーションを含む,最先端のマルチタスク3D知覚結果をnuScenesベンチマークで達成した。 ソースコードとモデルはhttps://github.com/VDIGPKU/HENet.comで公開される。

Three-dimensional perception from multi-view cameras is a crucial component in autonomous driving systems, which involves multiple tasks like 3D object detection and bird's-eye-view (BEV) semantic segmentation. To improve perception precision, large image encoders, high-resolution images, and long-term temporal inputs have been adopted in recent 3D perception models, bringing remarkable performance gains. However, these techniques are often incompatible in training and inference scenarios due to computational resource constraints. Besides, modern autonomous driving systems prefer to adopt an end-to-end framework for multi-task 3D perception, which can simplify the overall system architecture and reduce the implementation complexity. However, conflict between tasks often arises when optimizing multiple tasks jointly within an end-to-end 3D perception model. To alleviate these issues, we present an end-to-end framework named HENet for multi-task 3D perception in this paper. Specifically, we propose a hybrid image encoding network, using a large image encoder for short-term frames and a small image encoder for long-term temporal frames. Then, we introduce a temporal feature integration module based on the attention mechanism to fuse the features of different frames extracted by the two aforementioned hybrid image encoders. Finally, according to the characteristics of each perception task, we utilize BEV features of different grid sizes, independent BEV encoders, and task decoders for different tasks. Experimental results show that HENet achieves state-of-the-art end-to-end multi-task 3D perception results on the nuScenes benchmark, including 3D object detection and BEV semantic segmentation. The source code and models will be released at https://github.com/VDIGPKU/HENet.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# 大規模言語モデルにおける知識蒸留におけるKulback-Leiblerの多様性の再考

Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models ( http://arxiv.org/abs/2404.02657v3 )

ライセンス: Link先を確認
Taiqiang Wu, Chaofan Tao, Jiahao Wang, Runming Yang, Zhe Zhao, Ngai Wong, (参考訳) Kullback-Leiber の発散は、Large Language Models (LLM) の圧縮に知識蒸留 (KD) で広く使われている。 逆のクルバック・リーブラー(英語版)(RKL)の発散はモード探索であり、従って平均探索前方のクルバック・リーブラー(英語版)(FKL)の発散よりも好ましいという以前の主張とは対照的に、本研究では、モード探索および平均探索特性がLLMのKDに現れないことを実証的かつ理論的に示す。 代わりに、RKL と FKL は同じ最適化目標を共有し、どちらも十分な数のエポックの後に収束する。 しかし、実際的な制約のため、LLMはそのような多くのエポックのために訓練されることはめったにない。 一方、RKLは分布の尾部に焦点を当てているのに対し、FKLは最初期の部分に焦点を当てている。 そこで本研究では,FKLとRKLを組み合わせるために重みを適応的に割り当てる,単純で効果的な適応型Kulback-Leiber(AKL)分散法を提案する。 メトリックベースおよびGPT-4に基づく評価は、提案したAKLが様々なタスクにまたがってベースラインを上回り、生成した応答の多様性と品質を向上させることを示す。

Kullback-Leiber divergence has been widely used in Knowledge Distillation (KD) to compress Large Language Models (LLMs). Contrary to prior assertions that reverse Kullback-Leibler (RKL) divergence is mode-seeking and thus preferable over the mean-seeking forward Kullback-Leibler (FKL) divergence, this study empirically and theoretically demonstrates that neither mode-seeking nor mean-seeking properties manifest in KD for LLMs. Instead, RKL and FKL are found to share the same optimization objective and both converge after a sufficient number of epochs. However, due to practical constraints, LLMs are seldom trained for such an extensive number of epochs. Meanwhile, we further find that RKL focuses on the tail part of the distributions, while FKL focuses on the head part at the beginning epochs. Consequently, we propose a simple yet effective Adaptive Kullback-Leiber (AKL) divergence method, which adaptively allocates weights to combine FKL and RKL. Metric-based and GPT-4-based evaluations demonstrate that the proposed AKL outperforms the baselines across various tasks and improves the diversity and quality of generated responses.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# 開量子系における作用素成長と拡散複雑性

Operator growth and spread complexity in open quantum systems ( http://arxiv.org/abs/2404.03529v2 )

ライセンス: Link先を確認
Eoin Carolan, Anthony Kiely, Steve Campbell, Sebastian Deffner, (参考訳) 一般に「量子カオス」という概念は、ユニタリ進化中の複雑な量子系全体にわたる情報の高速なスクランブルを指す。 Krylov複雑性と演算子成長仮説に動機付けられ、演算子に対する集団分布のエントロピーは、環境に従えばシステムの内部情報力学の複雑さを捉えるのに有用な方法であり、原理的には演算子基底の特定の選択に非依存であることを示す。 そこで我々は,Sachdev-Ye-Kitaev (SYK) モデルの有効性を示す。 後者は高散逸のための固有基底であるのに対し、前者の基底最小化は複雑さを拡大することを示す。 どちらの場合も、モデルの長期的ダイナミクスとデコヒーレンスの現象学的影響を考察する。

Commonly, the notion of "quantum chaos'' refers to the fast scrambling of information throughout complex quantum systems undergoing unitary evolution. Motivated by the Krylov complexity and the operator growth hypothesis, we demonstrate that the entropy of the population distribution for an operator in time is a useful way to capture the complexity of the internal information dynamics of a system when subject to an environment and is, in principle, agnostic to the specific choice of operator basis. We demonstrate its effectiveness for the Sachdev-Ye-Kitaev (SYK) model, examining the dynamics of the system in both its Krylov basis and the basis of operator strings. We prove that the former basis minimises spread complexity while the latter is an eigenbasis for high dissipation. In both cases, we probe the long-time dynamics of the model and the phenomenological effects of decoherence on the complexity of the dynamics.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# LetsGo: LiDAR支援型ガウスプリミティブによる大規模ガベージモデリングとレンダリング

LetsGo: Large-Scale Garage Modeling and Rendering via LiDAR-Assisted Gaussian Primitives ( http://arxiv.org/abs/2404.09748v3 )

ライセンス: Link先を確認
Jiadi Cui, Junming Cao, Fuqiang Zhao, Zhipeng He, Yifan Chen, Yuhui Zhong, Lan Xu, Yujiao Shi, Yingliang Zhang, Jingyi Yu, (参考訳) 大きなガレージは、単調な色、繰り返しパターン、反射面、透明な車両ガラスなど、ユニークな課題を生んでいる。 カメラポーズ推定のための従来のSfM(Strucical Structure from Motion)手法は、通信構造が貧弱なため、これらの環境では失敗することが多い。 これらの課題に対処するため、大規模ガレージモデリングとレンダリングのためのLiDAR支援ガウススプレイティングフレームワークであるLetsGoを紹介した。 我々は,IMU,LiDAR,魚眼カメラを備えたハンドヘルドスキャナPolarを開発し,正確なデータ取得を容易にする。 このPolarデバイスを用いて、GarageWorldデータセットを提示する。このデータセットは、様々な幾何学構造を持つ8つの拡張ガレージシーンで構成されており、さらなる研究のために公開される予定である。 提案手法により,Polaデバイスで収集したLiDAR点群は,ガレージシーンのモデリングとレンダリングのための3次元ガウススプラッティングアルゴリズムのスイートを大幅に強化することを示した。 レンダリング画像中の浮動小片を効果的に除去する新しい深度正規化器を提案する。 さらに,レベル・オブ・ディテール(LOD)レンダリング用に設計された多次元ガウス表現を提案する。 これには、個々のレベルに対する適応的なスケーリング要因と、異なる解像度でガウスを最適化するランダム解像度レベルのトレーニングスキームが含まれる。 この表現は、Webベースのレンダラーを介して、軽量デバイス上で大規模なガレージシーンの効率的なレンダリングを可能にする。 GarageWorldデータセットとScanNet++とKITTI-360での実験結果から,レンダリング品質と資源効率の点で,本手法の優位性を実証した。

Large garages are ubiquitous yet intricate scenes that present unique challenges due to their monotonous colors, repetitive patterns, reflective surfaces, and transparent vehicle glass. Conventional Structure from Motion (SfM) methods for camera pose estimation and 3D reconstruction often fail in these environments due to poor correspondence construction. To address these challenges, we introduce LetsGo, a LiDAR-assisted Gaussian splatting framework for large-scale garage modeling and rendering. We develop a handheld scanner, Polar, equipped with IMU, LiDAR, and a fisheye camera, to facilitate accurate data acquisition. Using this Polar device, we present the GarageWorld dataset, consisting of eight expansive garage scenes with diverse geometric structures, which will be made publicly available for further research. Our approach demonstrates that LiDAR point clouds collected by the Polar device significantly enhance a suite of 3D Gaussian splatting algorithms for garage scene modeling and rendering. We introduce a novel depth regularizer that effectively eliminates floating artifacts in rendered images. Additionally, we propose a multi-resolution 3D Gaussian representation designed for Level-of-Detail (LOD) rendering. This includes adapted scaling factors for individual levels and a random-resolution-level training scheme to optimize the Gaussians across different resolutions. This representation enables efficient rendering of large-scale garage scenes on lightweight devices via a web-based renderer. Experimental results on our GarageWorld dataset, as well as on ScanNet++ and KITTI-360, demonstrate the superiority of our method in terms of rendering quality and resource efficiency.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# 災害対応計画のための人間的応答とマシンインテリジェンスの統合

Synergising Human-like Responses and Machine Intelligence for Planning in Disaster Response ( http://arxiv.org/abs/2404.09877v2 )

ライセンス: Link先を確認
Savvas Papaioannou, Panayiotis Kolios, Christos G. Panayiotou, Marios M. Polycarpou, (参考訳) 災害対応の急速な変化の中で、自律エージェントの計画と意思決定には、複雑で相互依存的な選択が伴う。 近年の進歩は、従来の人工知能(AI)アプローチを改善しているが、特に明確に定義されたトレーニングパラメータの外で動作しているエージェントに適用した場合、このような設定で苦労することが多い。 これらの課題に対処するため、我々はDual Process Theory (DPT) に触発された注意に基づく認知アーキテクチャを提案する。 このフレームワークは、高速だがヒューリスティックな(人間に似た)応答(System 1)と、マシンインテリジェンスの遅いが最適化された計画能力(System 2)を統合します。 本稿では,複数の属性にまたがる性能を評価することで,ミッション目標を最適化するために,各システムの係り受けを動的に決定する方法について述べる。 動的環境における軌道計画の評価を行い、この相乗的統合が複数のミッション目標を最適化することにより、複雑なタスクを効果的に管理することを示した。

In the rapidly changing environments of disaster response, planning and decision-making for autonomous agents involve complex and interdependent choices. Although recent advancements have improved traditional artificial intelligence (AI) approaches, they often struggle in such settings, particularly when applied to agents operating outside their well-defined training parameters. To address these challenges, we propose an attention-based cognitive architecture inspired by Dual Process Theory (DPT). This framework integrates, in an online fashion, rapid yet heuristic (human-like) responses (System 1) with the slow but optimized planning capabilities of machine intelligence (System 2). We illustrate how a supervisory controller can dynamically determine in real-time the engagement of either system to optimize mission objectives by assessing their performance across a number of distinct attributes. Evaluated for trajectory planning in dynamic environments, our framework demonstrates that this synergistic integration effectively manages complex tasks by optimizing multiple mission objectives.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# 電磁場の量子真空揺らぎの検出

Detecting quantum vacuum fluctuations of the electromagnetic field ( http://arxiv.org/abs/2404.10453v2 )

ライセンス: Link先を確認
Aaron Malcolm, B. Sharmila, Zhi-Wei Wang, Animesh Datta, (参考訳) 電磁場の量子真空ゆらぎは、自然トラップ周波数からのシフトと量子コヒーレンスの生成という、調和に閉じ込められた荷電粒子上の2つのシグネチャをもたらす。 この周波数シフトを推定する上での長波長および回転波近似の役割を評価する。 単一電子サイクロトロン実験のパラメータを用いて周波数シフトの大きさを推定し、サイクロトロンの磁場への周波数シフトの依存性が回転波近似とどのように結びついているかを示す。 今後の実験では周波数シフトが観測可能であると期待している。 また、真空発生した量子コヒーレンスを検出するための経路も提案する。 これらの実験は、量子真空変動の影響を捉える際の近似とゲージの選択に関する議論を決着させるべきである。

Quantum vacuum fluctuations of the electromagnetic field result in two signatures on a harmonically trapped charged particle: a shift from the natural trap frequency and generation of quantum coherences. We assess the role of the long-wavelength and rotating-wave approximations in estimating this frequency shift. We estimate the magnitude of the frequency shift using parameters from a single-electron cyclotron experiment and also demonstrate how the dependence of the frequency shift on the magnetic field of the cyclotron is tied to the rotating-wave approximation. We expect the frequency shift to be observable in future experiments. We also suggest a possible route to detecting vacuum-generated quantum coherences. These experiments should settle the debate on the choice of approximations and gauge in capturing the effect of the quantum vacuum fluctuations.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# 情報理論を用いた原子論的機械学習における完全性・不確実性・外れ値のモデルフリー定量化

Model-free quantification of completeness, uncertainties, and outliers in atomistic machine learning using information theory ( http://arxiv.org/abs/2404.12367v2 )

ライセンス: Link先を確認
Daniel Schwalbe-Koda, Sebastien Hamel, Babak Sadigh, Fei Zhou, Vincenzo Lordi, (参考訳) 情報の正確な記述は、トレーニングセットの作成、不確実性定量化(UQ)の実行、大規模なデータセットからの物理的な洞察の抽出など、原子論的機械学習(ML)の様々な問題に関係している。 しかし、原子論的MLは、シミュレーションやトレーニングデータから情報内容を分析するために、教師なし学習やモデル予測に依存していることが多い。 本稿では、原子論シミュレーションにおける情報内容の定量化のための厳密なモデルフリーツールを提供する理論的枠組みを提案する。 原子中心環境の分布の情報エントロピーは、トレーニングセットのサイズからデータセットの最適性に至るまで、機械学習の潜在的発展における既知のヒューリスティックスを説明する。 本ツールを用いて,難治性不確実性を確実に予測し,核生成などのシステムにおける稀な事象を含む分布外サンプルを検出するモデルフリーなUQ手法を提案する。 この方法は、データ駆動原子論モデリングのための一般的なツールを提供し、ML、シミュレーション、物理的説明可能性の取り組みを組み合わせたものである。

An accurate description of information is relevant for a range of problems in atomistic machine learning (ML), such as crafting training sets, performing uncertainty quantification (UQ), or extracting physical insights from large datasets. However, atomistic ML often relies on unsupervised learning or model predictions to analyze information contents from simulation or training data. Here, we introduce a theoretical framework that provides a rigorous, model-free tool to quantify information contents in atomistic simulations. We demonstrate that the information entropy of a distribution of atom-centered environments explains known heuristics in ML potential developments, from training set sizes to dataset optimality. Using this tool, we propose a model-free UQ method that reliably predicts epistemic uncertainty and detects out-of-distribution samples, including rare events in systems such as nucleation. This method provides a general tool for data-driven atomistic modeling and combines efforts in ML, simulations, and physical explainability.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# 非常にリッチな記号的意味表現を用いたニューラルセマンティックパーシング

Neural Semantic Parsing with Extremely Rich Symbolic Meaning Representations ( http://arxiv.org/abs/2404.12698v2 )

ライセンス: Link先を確認
Xiao Zhang, Gosse Bouma, Johan Bos, (参考訳) 現在のオープンドメイン・ニューラルセマンティックス・パーサーは素晴らしい性能を示している。 しかし、それらが生成する記号的意味表現の綿密な検査は、重要な弱点を明らかにしている: トレーニング分布に基づく最も頻繁な単語感覚にデフォルトを付けて、ソーステキストから文字シーケンスを単にコピーしてシンボル的概念を形成する傾向がある。 語彙オントロジーの階層構造を活用することで、分類学的階層におけるその位置に基づく概念に対する新しい構成記号表現を導入する。 この表現はよりリッチな意味情報を提供し、解釈可能性を高める。 本稿では,従来の意味表現形式を訓練した標準的な神経意味解析システムと比較し,新しい課題セットと評価基準を用いて評価を行う。 実験結果から,より豊かで複雑な意味表現に基づいて訓練された分類モデルは,評価基準を用いて従来のモデルに若干従属するが,語彙外概念を扱う場合よりも優れることがわかった。 この発見は、データ駆動の分布の意味と知識に基づく記号表現を組み合わせることを目的とした、計算意味論の研究を奨励している。

Current open-domain neural semantics parsers show impressive performance. However, closer inspection of the symbolic meaning representations they produce reveals significant weaknesses: sometimes they tend to merely copy character sequences from the source text to form symbolic concepts, defaulting to the most frequent word sense based in the training distribution. By leveraging the hierarchical structure of a lexical ontology, we introduce a novel compositional symbolic representation for concepts based on their position in the taxonomical hierarchy. This representation provides richer semantic information and enhances interpretability. We introduce a neural "taxonomical" semantic parser to utilize this new representation system of predicates, and compare it with a standard neural semantic parser trained on the traditional meaning representation format, employing a novel challenge set and evaluation metric for evaluation. Our experimental findings demonstrate that the taxonomical model, trained on much richer and complex meaning representations, is slightly subordinate in performance to the traditional model using the standard metrics for evaluation, but outperforms it when dealing with out-of-vocabulary concepts. This finding is encouraging for research in computational semantics that aims to combine data-driven distributional meanings with knowledge-based symbolic representations.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# EHRFL:電子カルテを用いた施設特化モデル構築のためのフェデレートラーニングフレームワーク

EHRFL: Federated Learning Framework for Institution-Specific Model Construction using Electronic Health Records ( http://arxiv.org/abs/2404.13318v2 )

ライセンス: Link先を確認
Jiyoun Kim, Junu Kim, Kyunghoon Hur, Edward Choi, (参考訳) 医療機関全体の電子健康記録(EHR)の増加は、臨床予測タスクにおけるモデル精度と堅牢性を高める機会を提供する。 フェデレーテッド・ラーニング(Federated Learning)は、患者のプライバシを保護し、規制の制約を遵守しながら、複数の機関からのデータのトレーニングを可能にする。 しかし,ほとんどのフェデレート学習研究は,複数の顧客を対象としたグローバルモデルの構築に重点を置いている。 本研究では,1つの医療機関に適したモデルの開発を目的とした,EHRを用いた連合学習フレームワークであるEHRFLを紹介する。 本フレームワークは,1)テキストベースのEHRモデリングを用いて,異種EHRシステムを持つ機関間でのフェデレーション学習を可能にすること,2)平均的な患者埋め込みを用いて,適切な参加顧客を選択することで,フェデレーション学習に関連するコストを削減すること,そして,モデル性能を損なうことなく参加者数を最適化すること,の2つの課題に対処する。 この2つの課題に対処する上で,複数のオープンソース EHR データセットを用いた実験により EHRFL の有効性を実証し,フェデレートラーニングにおける機関固有のモデル開発のための実践的ソリューションとして確立した。

The increasing volume of electronic health records (EHRs) across healthcare institutions presents the opportunity to enhance model accuracy and robustness in clinical prediction tasks. Federated learning enables training on data from multiple institutions while preserving patient privacy and complying to regulatory constraints. However, most federated learning research focuses on constructing a global model for multiple clients, overlooking the practical need for institution-specific models. In this work, we introduce EHRFL, a federated learning framework using EHRs designed to develop a model tailored to a single healthcare institution. Our framework addresses two key challenges: (1) enabling federated learning across institutions with heterogeneous EHR systems using text-based EHR modeling, and (2) reducing the costs associated with federated learning by selecting suitable participating clients using averaged patient embeddings, which enables optimizing the number of participants without compromising model performance for the institution. Our experiment results on multiple open-source EHR datasets demonstrate the effectiveness of EHRFL in addressing the two challenges, establishing it as a practical solution for institution-specific model development in federated learning.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# 意思決定のための校正誤差

Calibration Error for Decision Making ( http://arxiv.org/abs/2404.13503v3 )

ライセンス: Link先を確認
Lunjia Hu, Yifan Wu, (参考訳) キャリブレーションにより、予測は意思決定者による確率として確実に解釈できる。 本稿では,決定理論による判定誤差である校正決定損失(CDL)を提案する。 CDLの無効化は、下流のすべての意思決定タスクに対して、誤校正による支払い損失が同時に消失することを保証します。 本稿では,CDLと既存の校正誤差指標の分離について述べる。 我々の主な技術的貢献は、Qiao と Valiant (2021) による ECE に対する $\Omega(T^{-0.472})$ lower bound をバイパスして、ほぼ最適の $O(\frac{\log T}{\sqrt{T}})$ expected CDL を達成する、オンラインキャリブレーションのための新しい効率的なアルゴリズムである。

Calibration allows predictions to be reliably interpreted as probabilities by decision makers. We propose a decision-theoretic calibration error, the Calibration Decision Loss (CDL), defined as the maximum improvement in decision payoff obtained by calibrating the predictions, where the maximum is over all payoff-bounded decision tasks. Vanishing CDL guarantees the payoff loss from miscalibration vanishes simultaneously for all downstream decision tasks. We show separations between CDL and existing calibration error metrics, including the most well-studied metric Expected Calibration Error (ECE). Our main technical contribution is a new efficient algorithm for online calibration that achieves near-optimal $O(\frac{\log T}{\sqrt{T}})$ expected CDL, bypassing the $\Omega(T^{-0.472})$ lower bound for ECE by Qiao and Valiant (2021).
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# LTOS:適応的クロスアテンション融合によるレイアウト制御可能なテキストオブジェクト合成

LTOS: Layout-controllable Text-Object Synthesis via Adaptive Cross-attention Fusions ( http://arxiv.org/abs/2404.13579v3 )

ライセンス: Link先を確認
Xiaoran Zhao, Tianhao Wu, Yu Lai, Zhiliang Tian, Zhen Huang, Yahui Liu, Zejiang He, Dongsheng Li, (参考訳) 制御可能なテキスト・ツー・イメージ生成は、特定の条件で画像中の視覚テキストやオブジェクトを合成し、絵文字やポスター生成に頻繁に適用される。 ビジュアルテキストレンダリングとレイアウト・ツー・イメージ生成タスクは、制御可能なテキスト・ツー・イメージ生成で人気がある。 しかしながら、これらのタスクは一般的に単一のモダリティ生成やレンダリングに重点を置いており、それぞれのタスク用に設計されているアプローチの間には、まだ橋渡しのギャップが残っている。 本稿では,テキストレンダリングとレイアウト・ツー・イメージ生成タスクをひとつのタスクに統合する。レイアウト制御可能なテキストオブジェクト合成(LTOS)タスク。 LTOSタスクに適合するデータセットは簡単には利用できないため、レイアウト対応のテキストオブジェクト合成データセットを構築し、ビジュアルテキストとオブジェクト情報を精巧に整列したラベルを含む。 本稿では,レイアウト制御可能なテキストオブジェクト適応融合(TOF)フレームワークを提案する。 テキストを合成するビジュアルテキストレンダリングモジュールを構築し、オブジェクトを生成するためにオブジェクトレイアウト制御モジュールを使用し、2つのモジュールを統合してテキストコンテンツと画像内のオブジェクトを調和して生成・統合する。 画像テキスト統合を改善するために,画像生成者が重要なテキスト情報により参加するのに役立つ自己適応型クロスアテンション融合モジュールを提案する。 このような融合モジュール内では、自己適応的学習可能因子を用いて、画像生成における相互注意出力の影響を柔軟に制御する。 実験結果から,本手法はLTOS,テキストレンダリング,レイアウト・トゥ・イメージタスクの最先端性に優れ,高調なビジュアルテキストレンダリングとオブジェクト生成を実現していることがわかった。

Controllable text-to-image generation synthesizes visual text and objects in images with certain conditions, which are frequently applied to emoji and poster generation. Visual text rendering and layout-to-image generation tasks have been popular in controllable text-to-image generation. However, each of these tasks typically focuses on single modality generation or rendering, leaving yet-to-be-bridged gaps between the approaches correspondingly designed for each of the tasks. In this paper, we combine text rendering and layout-to-image generation tasks into a single task: layout-controllable text-object synthesis (LTOS) task, aiming at synthesizing images with object and visual text based on predefined object layout and text contents. As compliant datasets are not readily available for our LTOS task, we construct a layout-aware text-object synthesis dataset, containing elaborate well-aligned labels of visual text and object information. Based on the dataset, we propose a layout-controllable text-object adaptive fusion (TOF) framework, which generates images with clear, legible visual text and plausible objects. We construct a visual-text rendering module to synthesize text and employ an object-layout control module to generate objects while integrating the two modules to harmoniously generate and integrate text content and objects in images. To better the image-text integration, we propose a self-adaptive cross-attention fusion module that helps the image generation to attend more to important text information. Within such a fusion module, we use a self-adaptive learnable factor to learn to flexibly control the influence of cross-attention outputs on image generation. Experimental results show that our method outperforms the state-of-the-art in LTOS, text rendering, and layout-to-image tasks, enabling harmonious visual text rendering and object generation.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# 定温度ギブスサンプリングによる量子計算の優位性

Quantum computational advantage with constant-temperature Gibbs sampling ( http://arxiv.org/abs/2404.14639v2 )

ライセンス: Link先を確認
Thiago Bergamaschi, Chi-Fang Chen, Yunchao Liu, (参考訳) ある一定の有限温度で浴槽に結合した量子系はギブス状態に収束する。 この熱化過程は、量子計算の自然で物理的に動機づけられたモデルを定義する。 しかし、この現実的な物理装置の中で量子計算の利点が達成できるかどうかは、急速に熱化するが古典的に難解な系を見つけることの難しさから、未解決のままである。 ここでは、一定温度における量子ギブス状態の測定結果分布からのサンプリングを検討し、この課題が量子計算の優位性を示すことを示す。 我々は、通勤する局所ハミルトニアン(浅い量子回路の親ハミルトニアン)の族を設計し、(連続時間量子マルコフ連鎖として)標準的な物理的モデルの下でギブス状態に急速に収束することを証明する。 一方、ノイズのない浅量子回路からのサンプリングの古典的硬さに還元することで、測定結果分布から多項式時古典アルゴリズムをサンプリングすることは不可能である。 この削減の鍵となるステップは、入力ノイズに対する浅いIQP回路の耐故障性スキームを構築することである。

A quantum system coupled to a bath at some fixed, finite temperature converges to its Gibbs state. This thermalization process defines a natural, physically-motivated model of quantum computation. However, whether quantum computational advantage can be achieved within this realistic physical setup has remained open, due to the challenge of finding systems that thermalize quickly, but are classically intractable. Here we consider sampling from the measurement outcome distribution of quantum Gibbs states at constant temperatures, and prove that this task demonstrates quantum computational advantage. We design a family of commuting local Hamiltonians (parent Hamiltonians of shallow quantum circuits) and prove that they rapidly converge to their Gibbs states under the standard physical model of thermalization (as a continuous-time quantum Markov chain). On the other hand, we show that no polynomial time classical algorithm can sample from the measurement outcome distribution by reducing to the classical hardness of sampling from noiseless shallow quantum circuits. The key step in the reduction is constructing a fault-tolerance scheme for shallow IQP circuits against input noise.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# EvaNet:Elevation-Guided Flood Extent Mapping on Earth Imagery (Extended Version)

EvaNet: Elevation-Guided Flood Extent Mapping on Earth Imagery (Extended Version) ( http://arxiv.org/abs/2404.17917v3 )

ライセンス: Link先を確認
Mirza Tanzim Sami, Da Yan, Saugat Adhikari, Lyuheng Yuan, Jiao Han, Zhe Jiang, Jalal Khalil, Yang Zhou, (参考訳) 高解像度衛星画像からの洪水範囲の正確なタイムリーマッピングは、被害評価や救援活動などの災害管理において重要な役割を担っている。 しかし、現在の最先端のソリューションはU-Netに基づいており、これは、スペクトルの特徴のみを直接判断することができない不明瞭なピクセル(例えば、ツリーキャノピー、雲)のために、フラッドピクセルを正確にセグメント化できない。 米国地質調査所 (USGS) などのソースから取得可能なデジタル標高モデル (DEM) により, 洪水範囲マッピングの改善を目的とした標高マップの活用が検討されている。 エンコーダ・デコーダアーキテクチャに基づく標高誘導セグメンテーションモデルであるEvaNetを提案する。(1) 重力の物理則を符号化した損失関数であり,(1) 位置が浸水(乾式)した場合,その位置が低い(乾式)位置も浸水(乾式)する必要がある。 大規模な実験により、EvaNetはU-Netベースラインを著しく上回り、洪水範囲マッピングの既存のソリューションにおけるU-Netの完全な代替として機能することが示された。

Accurate and timely mapping of flood extent from high-resolution satellite imagery plays a crucial role in disaster management such as damage assessment and relief activities. However, current state-of-the-art solutions are based on U-Net, which can-not segment the flood pixels accurately due to the ambiguous pixels (e.g., tree canopies, clouds) that prevent a direct judgement from only the spectral features. Thanks to the digital elevation model (DEM) data readily available from sources such as United States Geological Survey (USGS), this work explores the use of an elevation map to improve flood extent mapping. We propose, EvaNet, an elevation-guided segmentation model based on the encoder-decoder architecture with two novel techniques: (1) a loss function encoding the physical law of gravity that if a location is flooded (resp. dry), then its adjacent locations with a lower (resp. higher) elevation must also be flooded (resp. dry); (2) a new (de)convolution operation that integrates the elevation map by a location sensitive gating mechanism to regulate how much spectral features flow through adjacent layers. Extensive experiments show that EvaNet significantly outperforms the U-Net baselines, and works as a perfect drop-in replacement for U-Net in existing solutions to flood extent mapping.
翻訳日:2024-09-19 23:13:20 公開日:2024-09-18
# 創造的ビームサーチ:応答生成改善のためのLCM-as-a-Judge

Creative Beam Search: LLM-as-a-Judge For Improving Response Generation ( http://arxiv.org/abs/2405.00099v3 )

ライセンス: Link先を確認
Giorgio Franceschelli, Mirco Musolesi, (参考訳) 大規模な言語モデルは、人工的な創造性を含むいくつかの領域に革命をもたらしている。 しかし、機械の生成過程は、人間で観察されるものとは大きく異なる。 特に、機械生成は意図の欠如と基礎となる創造的プロセスによって特徴づけられる。 本稿では, 応答生成と応答検証を行うために, 横ビームサーチとLCM-as-a-Judgeを用いたCreative Beam Searchを提案する。 定性的実験の結果は,本手法が標準サンプリング手法よりも優れた出力を提供できることを示す。 また、応答検証ステップは応答生成ステップを補完するために必要なものであることも示します。

Large language models are revolutionizing several areas, including artificial creativity. However, the process of generation in machines profoundly diverges from that observed in humans. In particular, machine generation is characterized by a lack of intentionality and an underlying creative process. We propose a method called Creative Beam Search that uses Diverse Beam Search and LLM-as-a-Judge to perform response generation and response validation. The results of a qualitative experiment show how our approach can provide better output than standard sampling techniques. We also show that the response validation step is a necessary complement to the response generation step.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-18
# TK-Planes:動的UAVシーンのための高次元特徴ベクトル付きタイヤ付きK-Planes

TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes ( http://arxiv.org/abs/2405.02762v2 )

ライセンス: Link先を確認
Christopher Maxey, Jaehoon Choi, Yonghan Lee, Hyungtae Lee, Dinesh Manocha, Heesung Kwon, (参考訳) 本稿では,無人航空機(UAV)の認識における合成と実世界の領域間ギャップを埋める新しい手法を提案する。 私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。 我々は,K-Planes Neural Radiance Field (NeRF)の拡張を提案する。 階層化された特徴ベクトルを生成し、シーンに関する概念情報を効果的にモデル化するとともに、出力された特徴マップをRGB画像に変換する画像デコーダを生成する。 本手法は,シーン内の静的および動的物体の情報を活用し,高精細映像の高精細なシーン特性を捉えることができる。 我々は、Okutama ActionやUG2などの挑戦的データセットの性能を評価し、最先端のニューラルネットワークレンダリング手法よりも精度が大幅に向上したことを観察する。

In this paper, we present a new approach to bridge the domain gap between synthetic and real-world data for unmanned aerial vehicle (UAV)-based perception. Our formulation is designed for dynamic scenes, consisting of small moving objects or human actions. We propose an extension of K-Planes Neural Radiance Field (NeRF), wherein our algorithm stores a set of tiered feature vectors. The tiered feature vectors are generated to effectively model conceptual information about a scene as well as an image decoder that transforms output feature maps into RGB images. Our technique leverages the information amongst both static and dynamic objects within a scene and is able to capture salient scene attributes of high altitude videos. We evaluate its performance on challenging datasets, including Okutama Action and UG2, and observe considerable improvement in accuracy over state of the art neural rendering methods.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-18
# 振動モードギャップ:開量子多体系における相転移の指標

Oscillating-mode gap: an indicator of phase transition in open quantum many-body systems ( http://arxiv.org/abs/2405.07132v2 )

ライセンス: Link先を確認
Taiki Haga, (参考訳) これは、開量子多体系の相と、密度行列がどのように進化するかを決定するリウヴィリアンのスペクトル構造との関係を解明する重要な課題である。 これまでの研究では、最も緩やかな退化モードの崩壊速度として定義されるリウヴィリアのギャップに焦点が当てられ、放射相転移の鍵となる指標として、対称性の破れた相の閉ざしと乱れた相の開裂に言及されている。 本研究では、最も緩やかな発振モードの減衰速度として定義される発振モードギャップと呼ばれる追加のスペクトルギャップを提案する。 原型発散ボソン系の解析を通じて, 系の相と相転移の包括的解析を行うために, リウビリアギャップと発振モードギャップの両方の必要性を実証する。

It presents a significant challenge to elucidate the relationship between the phases of open quantum many-body systems and the spectral structure of their governing Liouvillian, which determines how the density matrix evolves. Previous studies have focused on the Liouvillian gap, defined as the decay rate of the most slowly-decaying mode, as a key indicator of dissipative phase transition, noting its closure in symmetry-broken phases and opening in disordered phases. In this work, we propose an additional spectral gap, termed the oscillating-mode gap, defined as the decay rate of the most slowly-decaying oscillating mode. Through the analysis of a prototype dissipative boson system, we demonstrate the necessity of both the Liouvillian gap and the oscillating-mode gap for the comprehensive characterization of the system's phases and the transitions between them.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-18
# テキスト中の異常検出のためのロバスト自動エンコーダアンサンブルに基づくアプローチ

A Robust Autoencoder Ensemble-Based Approach for Anomaly Detection in Text ( http://arxiv.org/abs/2405.13031v2 )

ライセンス: Link先を確認
Jeremie Pantin, Christophe Marsala, (参考訳) 異常検出(AD)は、視覚や時系列といった確立したアプリケーションの中で急速に成長し、人気のあるドメインである。 我々はこれらの応用について豊富な文献を観察するが、テキスト中の異常検出は花が咲き始めたばかりである。 近年,自己注意機構を持つ自己監督手法が最も一般的な選択肢である。 近年の研究では、最先端のアプローチの構築とベンチマークを行うための作業場が提案されているが、本論文では、文脈異常汚染と、新しいアンサンブルに基づくアプローチの2つの主要な貢献を提案する。 テキスト異常汚染 (TAC) は, 独立性・文脈性のいずれかの異常なクラスを汚染することができる。 文献では、この区別は行われていないようである。 本稿では,ロバスト部分空間局所回復オートエンコーダであるRoSAEを提案する。 アンサンブルのすべてのオートエンコーダは、局所多様体学習を通して異なる潜在表現を示す。 ベンチマークは、我々のアプローチが、より堅牢でありながら、独立性と文脈上の両方の異常に関する最近の研究より優れていることを示している。 また、Reutersと20のNewsgroupsコーパスのみに頼るのではなく、8つのデータセット比較も提供しています。

Anomaly detection (AD) is a fast growing and popular domain among established applications like vision and time series. We observe a rich literature for these applications, but anomaly detection in text is only starting to blossom. Recently, self-supervised methods with self-attention mechanism have been the most popular choice. While recent works have proposed a working ground for building and benchmarking state of the art approaches, we propose two principal contributions in this paper: contextual anomaly contamination and a novel ensemble-based approach. Our method, Textual Anomaly Contamination (TAC), allows to contaminate inlier classes with either independent or contextual anomalies. In the literature, it appears that this distinction is not performed. For finding contextual anomalies, we propose RoSAE, a Robust Subspace Local Recovery Autoencoder Ensemble. All autoencoders of the ensemble present a different latent representation through local manifold learning. Benchmark shows that our approach outperforms recent works on both independent and contextual anomalies, while being more robust. We also provide 8 dataset comparison instead of only relying to Reuters and 20 Newsgroups corpora.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-18
# 線形および非線形付加雑音モデルに対する局所探索によるハイブリッドトップダウングローバル因果探索

Hybrid Top-Down Global Causal Discovery with Local Search for Linear and Nonlinear Additive Noise Models ( http://arxiv.org/abs/2405.14496v2 )

ライセンス: Link先を確認
Sujai Hiremath, Jacqueline R. M. A. Maasch, Mengxiao Gao, Promit Ghosal, Kyra Gan, (参考訳) 未知因果モデルに対応する一意な有向非巡回グラフの学習は難しい課題である。 関数因果モデルに基づく手法は、ユニークなグラフを識別することができるが、次元性の呪いに苦しむか、強いパラメトリック仮定を課すかのいずれかである。 これらの課題に対処するため、我々は、局所的な因果構造を利用した観測データにおけるグローバル因果発見のための新しいハイブリッドアプローチを提案する。 まず,線形構造方程式モデルにおける祖先関係を利用したトポロジカルソートアルゴリズムを提案する。 この手法が任意の雑音を伴う非線形設定に一般化されることを実証する。 次に,局所条件付き集合を探索し,現在の手法よりも高精度な非パラメトリック制約に基づくアルゴリズムを提案する。 我々は, 合成データに対する実証検証を行い, 正確性および最悪の多項式時間複雑度を理論的に保証する。

Learning the unique directed acyclic graph corresponding to an unknown causal model is a challenging task. Methods based on functional causal models can identify a unique graph, but either suffer from the curse of dimensionality or impose strong parametric assumptions. To address these challenges, we propose a novel hybrid approach for global causal discovery in observational data that leverages local causal substructures. We first present a topological sorting algorithm that leverages ancestral relationships in linear structural equation models to establish a compact top-down hierarchical ordering, encoding more causal information than linear orderings produced by existing methods. We demonstrate that this approach generalizes to nonlinear settings with arbitrary noise. We then introduce a nonparametric constraint-based algorithm that prunes spurious edges by searching for local conditioning sets, achieving greater accuracy than current methods. We provide theoretical guarantees for correctness and worst-case polynomial time complexities, with empirical validation on synthetic data.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-18
# エントロピー平均場 min-max ゲームに対するフィッシャー・ラオ勾配流

A Fisher-Rao gradient flow for entropic mean-field min-max games ( http://arxiv.org/abs/2405.15834v2 )

ライセンス: Link先を確認
Razvan-Andrei Lascu, Mateusz B. Majka, Łukasz Szpruch, (参考訳) グラディエントフローは多くの機械学習問題に対処する上で重要な役割を果たす。 エントロピー正則化を用いた凸凹型min-maxゲーム解法において,<textit{Fisher-Rao} (Mean-Field Birth-Death) 勾配流の連続時間収束について検討する。 我々は、一意混合ナッシュ平衡に対する明示的な速度で収束を示すための適切なリャプノフ関数を提案する。

Gradient flows play a substantial role in addressing many machine learning problems. We examine the convergence in continuous-time of a \textit{Fisher-Rao} (Mean-Field Birth-Death) gradient flow in the context of solving convex-concave min-max games with entropy regularization. We propose appropriate Lyapunov functions to demonstrate convergence with explicit rates to the unique mixed Nash equilibrium.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-18
# 高速双極子サムを用いた3次元再構成

3D Reconstruction with Fast Dipole Sums ( http://arxiv.org/abs/2405.16788v4 )

ライセンス: Link先を確認
Hanyu Chen, Bailey Miller, Ioannis Gkioulekas, (参考訳) マルチビュー画像から高品質な3D再構成手法を提案する。 提案手法では, 巻線数を一般化し, ノイズや外接点を持つ点雲における点間属性の補間を可能にする, 新たな点ベース表現, 正規化双極子和を用いる。 正規化された双極子和を用いて、暗黙の幾何学と放射場を高密度点雲の点当たりの属性として表現し、運動から構造を初期化する。 さらに、高速化されたフォワードおよび随伴双極子和クエリに対するBarnes-Hut高速和スキームを導出する。 これらのクエリは、レイトレーシングを利用することで、画像のポイントベース表現を効率よく、微分的にレンダリングし、ポイント属性を更新することで、シーンの形状と外観を最適化する。 我々は,ニューラル表現のレイトレーシングやガウス点ベース表現のラスタ化に基づく,最先端の代替手法に対する逆レンダリングの手法の評価を行った。 また, 直接照明のための影線などのより一般的なレンダリング手法もサポートした。

We introduce a method for high-quality 3D reconstruction from multi-view images. Our method uses a new point-based representation, the regularized dipole sum, which generalizes the winding number to allow for interpolation of per-point attributes in point clouds with noisy or outlier points. Using regularized dipole sums, we represent implicit geometry and radiance fields as per-point attributes of a dense point cloud, which we initialize from structure from motion. We additionally derive Barnes-Hut fast summation schemes for accelerated forward and adjoint dipole sum queries. These queries facilitate the use of ray tracing to efficiently and differentiably render images with our point-based representations, and thus update their point attributes to optimize scene geometry and appearance. We evaluate our method in inverse rendering applications against state-of-the-art alternatives, based on ray tracing of neural representations or rasterization of Gaussian point-based representations. Our method significantly improves 3D reconstruction quality and robustness at equal runtimes, while also supporting more general rendering methods such as shadow rays for direct illumination.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-18
# 大規模モデルの低ランク適応の公正性について

On Fairness of Low-Rank Adaptation of Large Models ( http://arxiv.org/abs/2405.17512v2 )

ライセンス: Link先を確認
Zhoujie Ding, Ken Ziyu Liu, Pura Peetathawatchai, Berivan Isik, Sanmi Koyejo, (参考訳) 大規模モデルの低ランク適応、特にLoRAは、その計算効率のために勢いを増している。 この効率性は、フルモデルファインチューニングの禁止コストとは対照的に、実践者がしばしばLoRAに目を向け、時にはその影響を完全に理解していないことを意味する。 本研究では,ロラが実用性,キャリブレーション,および様々なサブグループ(例えば,性別,人種,宗教)に対して,フルモデルファインチューニングベースラインと比較して,未検討の影響があるかどうかに焦点をあてる。 ViT-Base, Swin-v2-Large, Llama-2 7B, Mistral 7B を用いた視覚・言語領域, 分類・生成タスクに対する広範な実験を行った。 興味深いことに、LoRAはサブグループ間でモデルバイアスを悪化させるケースを分離できるが、パターンは矛盾している。 また,タスク設計とモデルトークンバイアスに関する微調整フェアネスの評価の複雑さについても検討し,今後の作業においてより注意深いフェアネス評価を求める。

Low-rank adaptation of large models, particularly LoRA, has gained traction due to its computational efficiency. This efficiency, contrasted with the prohibitive costs of full-model fine-tuning, means that practitioners often turn to LoRA and sometimes without a complete understanding of its ramifications. In this study, we focus on fairness and ask whether LoRA has an unexamined impact on utility, calibration, and resistance to membership inference across different subgroups (e.g., genders, races, religions) compared to a full-model fine-tuning baseline. We present extensive experiments across vision and language domains and across classification and generation tasks using ViT-Base, Swin-v2-Large, Llama-2 7B, and Mistral 7B. Intriguingly, experiments suggest that while one can isolate cases where LoRA exacerbates model bias across subgroups, the pattern is inconsistent -- in many cases, LoRA has equivalent or even improved fairness compared to the base model or its full fine-tuning baseline. We also examine the complications of evaluating fine-tuning fairness relating to task design and model token bias, calling for more careful fairness evaluations in future work.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-18
# FAIntbench: テキスト・画像モデルにおけるバイアス評価のための完全かつ高精度なベンチマーク

FAIntbench: A Holistic and Precise Benchmark for Bias Evaluation in Text-to-Image Models ( http://arxiv.org/abs/2405.17814v5 )

ライセンス: Link先を確認
Hanjun Luo, Ziye Deng, Ruizhe Chen, Zuozhu Liu, (参考訳) テキスト・ツー・イメージ(T2I)モデルへの急速な開発と参入障壁の低減は、出力のバイアスに関する懸念を提起しているが、既存の研究ではバイアスの全体的定義と評価の枠組みが欠如しており、デバイアス手法の強化が制限されている。 この問題に対処するために、我々はT2Iモデルにおけるバイアスの総合的かつ正確なベンチマークであるFAIntbenchを紹介する。 限定的な側面でバイアスを評価する既存のベンチマークとは対照的に、FAIntbenchはバイアスの表示、バイアスの可視性、取得された属性、保護された属性の4つの次元からバイアスを評価する。 FAIntbenchを7種類の大規模T2Iモデル評価に適用し, 各種バイアスの同定にFAIntbenchの有効性を実証した。 また, 蒸留の副作用など, バイアスに関する新たな研究課題も明らかにした。 この結果は予備的であり、T2Iモデルのバイアスを軽減することを目的とした将来の研究を進めるためのFAIntbenchの可能性を強調している。 私たちのベンチマークは再現性を確保するために公開されています。

The rapid development and reduced barriers to entry for Text-to-Image (T2I) models have raised concerns about the biases in their outputs, but existing research lacks a holistic definition and evaluation framework of biases, limiting the enhancement of debiasing techniques. To address this issue, we introduce FAIntbench, a holistic and precise benchmark for biases in T2I models. In contrast to existing benchmarks that evaluate bias in limited aspects, FAIntbench evaluate biases from four dimensions: manifestation of bias, visibility of bias, acquired attributes, and protected attributes. We applied FAIntbench to evaluate seven recent large-scale T2I models and conducted human evaluation, whose results demonstrated the effectiveness of FAIntbench in identifying various biases. Our study also revealed new research questions about biases, including the side-effect of distillation. The findings presented here are preliminary, highlighting the potential of FAIntbench to advance future research aimed at mitigating the biases in T2I models. Our benchmark is publicly available to ensure the reproducibility.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-18
# 内殻励起に対する円Rydberg量子ビットの四極子カップリング

Quadrupole coupling of circular Rydberg qubits to inner shell excitations ( http://arxiv.org/abs/2405.20476v2 )

ライセンス: Link先を確認
Moritz Wirth, Christian Hölzl, Aaron Götzelmann, Einius Pultinevicius, Florian Meinert, (参考訳) 2価原子は、2番目の光学活性価電子が利用可能なため、リドバーグ原子に基づく量子シミュレーションと計算の制御を前進させる優れた手段を提供する。 この文脈で特に有望なのは、長寿命のイオンコア励起を有害な自己イオン化に苦しむことなく利用することができる円形のリドバーグ原子である。 本稿では、準安定な4D$_{3/2}$レベルと非常に高いn$$$n=79$の円形Rydberg量子ビット間の電気四重極結合の実装について報告する。 我々は、スピンエコーを含むビートノードラムゼー干渉計を用いて、円Rydberg量子ビット上のkHzスケールの差分レベルシフトを測定する。 この結合を観測するには、数百マイクロ秒以上のリドベルク状態のコヒーレントな尋問が必要である。 さらに, イオンコア上に連続光子散乱下では, 量子ビットコヒーレンスが顕著に失われることはなく, レーザー冷却やライドバーグ原子のイメージングへの道を開いた。 本研究は、Rydberg原子における弱い電子-電子相互作用へのアクセスを示し、イオンコア操作による高励起円状量子ビットの光制御のための量子シミュレーションツールボックスを拡張した。

Divalent atoms provide excellent means for advancing control in Rydberg atom-based quantum simulation and computing, due to the second optically active valence electron available. Particularly promising in this context are circular Rydberg atoms, for which long-lived ionic core excitations can be exploited without suffering from detrimental autoionization. Here, we report the implementation of electric quadrupole coupling between the metastable 4D$_{3/2}$ level and a very high-$n$ ($n=79$) circular Rydberg qubit, realized in doubly excited $^{88}$Sr atoms prepared from an optical tweezer array. We measure the kHz-scale differential level shift on the circular Rydberg qubit via beat-node Ramsey interferometry comprising spin echo. Observing this coupling requires coherent interrogation of the Rydberg states for more than one hundred microseconds, which is assisted by tweezer trapping and circular state lifetime enhancement in a black-body radiation suppressing capacitor. Further, we find no noticeable loss of qubit coherence under continuous photon scattering on the ion core, paving the way for laser cooling and imaging of Rydberg atoms. Our results demonstrate access to weak electron-electron interactions in Rydberg atoms and expand the quantum simulation toolbox for optical control of highly excited circular state qubits via ionic core manipulation.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-18
# 機械翻訳の品質評価によるLLMの文脈内学習の指導

Guiding In-Context Learning of LLMs through Quality Estimation for Machine Translation ( http://arxiv.org/abs/2406.07970v3 )

ライセンス: Link先を確認
Javad Pourmostafa Roshan Sharami, Dimitar Shterionov, Pieter Spronck, (参考訳) 大規模言語モデル(LLM)からの出力の質は、特に機械翻訳(MT)において、クエリと共に提供される文脈内例(ICE)の品質と密接に関連している。 これらのICEの有効性は、ソーステキストのドメイン、ICEが提示される順序、サンプルの数、使用するプロンプトテンプレートなど、さまざまな要因に影響される。 当然、最も影響力のあるICEを選択することは、結果の翻訳品質にどのように影響するかを理解することに依存します。 本稿では,ドメイン固有品質推定(QE)によって導かれる探索アルゴリズムに依存する,コンテキスト内学習(ICL)の新しい手法を提案する。 提案手法では,XGLMモデルを用いて翻訳基準を必要とせずに翻訳品質を推定し,翻訳品質を最大化するためにMTに有効なICEを選択する。 その結果,既存のICL法と翻訳性能は,事前学習言語モデル(PLM),特にmBART-50の微調整に比べて大幅に向上した。

The quality of output from large language models (LLMs), particularly in machine translation (MT), is closely tied to the quality of in-context examples (ICEs) provided along with the query, i.e., the text to translate. The effectiveness of these ICEs is influenced by various factors, such as the domain of the source text, the order in which the ICEs are presented, the number of these examples, and the prompt templates used. Naturally, selecting the most impactful ICEs depends on understanding how these affect the resulting translation quality, which ultimately relies on translation references or human judgment. This paper presents a novel methodology for in-context learning (ICL) that relies on a search algorithm guided by domain-specific quality estimation (QE). Leveraging the XGLM model, our methodology estimates the resulting translation quality without the need for translation references, selecting effective ICEs for MT to maximize translation quality. Our results demonstrate significant improvements over existing ICL methods and higher translation performance compared to fine-tuning a pre-trained language model (PLM), specifically mBART-50.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-18
# FAIL: LLMを使ってニュースからソフトウェア障害を分析する

FAIL: Analyzing Software Failures from the News Using LLMs ( http://arxiv.org/abs/2406.08221v2 )

ライセンス: Link先を確認
Dharun Anandayuvaraj, Matthew Campbell, Arav Tewari, James C. Davis, (参考訳) ソフトウェア障害はエンジニアリングの作業や標準、規制を知らせます。 例えば、Log4Jの脆弱性は、政府や業界がソフトウェアサプライチェーンの評価と確保に注意を向けた。 プライベートエンジニアリング記録へのアクセスは困難であるため、障害解析では、ニュースメディアによって報告される情報を使用する傾向がある。 しかし、この方向の先行研究は手作業による分析に依存している。 それは彼らの分析の規模を制限した。 コミュニティはそのような分析が幅広いニュースソースやインシデントを考慮できるような自動サポートを欠いている。 本稿では, このギャップを埋めるために, LLM (FAIL) を用いた故障解析システムを提案する。 FAILは、ニュースで報告されているように、ソフトウェア障害を収集し、分析し、要約する。 FAILは同じ事件を記述した記事をまとめる。 そして、既存の分類法を用いて、死後、欠陥、システム特性を分析します。 FAILをチューニングし,評価するために,31のソフトウェア障害を手作業で解析し,先行作業の手法に従った。 FAILは、ソフトウェア障害に関するニュースを収集するためのF1スコア90%、同じインシデントに関する記事をマージするためのV値0.98を達成し、失敗に関する事実の90%を抽出した。 2010年から2022年の間に11のプロバイダから合計137,427のニュース記事にFAILを適用しました。 FAILは4,184項目で報告された2457の障害を特定し分析した。 その結果,1) 大規模言語モデルでは, 失敗を記述したニュース記事の特定, 構造的分類に基づく分析, (2) 組織内および組織内における類似の障害の頻繁度, (3) ソフトウェア障害の結果の深刻度が過去10年間で増加していることがわかった。 FAILの完全なデータベースは、研究者、エンジニア、政策立案者がソフトウェア障害の多様性から学ぶことができる。

Software failures inform engineering work, standards, regulations. For example, the Log4J vulnerability brought government and industry attention to evaluating and securing software supply chains. Accessing private engineering records is difficult, so failure analyses tend to use information reported by the news media. However, prior works in this direction have relied on manual analysis. That has limited the scale of their analyses. The community lacks automated support to enable such analyses to consider a wide range of news sources and incidents. In this paper, we propose the Failure Analysis Investigation with LLMs (FAIL) system to fill this gap. FAIL collects, analyzes, and summarizes software failures as reported in the news. FAIL groups articles that describe the same incidents. It then analyzes incidents using existing taxonomies for postmortems, faults, and system characteristics. To tune and evaluate FAIL, we followed the methods of prior works by manually analyzing 31 software failures. FAIL achieved an F1 score of 90% for collecting news about software failures, a V-measure of 0.98 for merging articles reporting on the same incident, and extracted 90% of the facts about failures. We then applied FAIL to a total of 137,427 news articles from 11 providers published between 2010 and 2022. FAIL identified and analyzed 2457 distinct failures reported across 4,184 articles. Our findings include: (1) current generation of large language models are capable of identifying news articles that describe failures, and analyzing them according to structured taxonomies; (2) high recurrences of similar failures within organizations and across organizations; and (3) severity of the consequences of software failures have increased over the past decade. The full FAIL database is available so that researchers, engineers, and policymakers can learn from a diversity of software failures.
翻訳日:2024-09-19 23:03:11 公開日:2024-09-18
# MiLoRA:パラメータ効率の良いLDMファインタニングのための小さな特異成分のハーネス化

MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning ( http://arxiv.org/abs/2406.09044v2 )

ライセンス: Link先を確認
Hanqing Wang, Yixia Li, Shuo Wang, Guanhua Chen, Yun Chen, (参考訳) 大規模言語モデル(LLM)の効率的な微調整は、計算コストとメモリコストの削減でLLMを適応することを目的としている。 以前のLoRAベースのアプローチでは、元の重量行列を凍結させながら、ガウス分布とゼロ値を持つ低ランク行列を初期化していた。 しかし、誘導されていない部分空間に最適化された訓練可能なモデルパラメータは、事前訓練された重み行列の十分に学習された部分空間に干渉する可能性がある。 本稿では,主成分の凍結を保ちながら,重み行列の小さな特異成分のみを更新する単純なLLM微調整手法であるMiLoRAを提案する。 主行列は重要な知識を含むのに対し、マイナー行列はノイズ情報またはロングテール情報に対応することが観察された。 MiLoRAは、主行列に直交する部分空間内の低ランク行列を初期化するので、事前学習された知識は十分に保存される。 微調整の間、MiLoRAはラベル付きデータセットを学習するために最適化されていないサブスペースを最大限に活用する。 提案手法の優れた性能を示すため,コモンセンス推論,数理推論,命令追従および視覚的指示に関する広範囲な実験を行った。

Efficient finetuning of large language models (LLMs) aims to adapt the LLMs with reduced computational and memory cost. Previous LoRA-based approaches initialize the low-rank matrices with Gaussian distribution and zero values while keeping the original weight matrices frozen. However, the trainable model parameters optimized in an unguided subspace might interfere with the well-learned subspace of the pretrained weight matrices. In this paper, we propose MiLoRA, a simple yet effective LLM finetuning approach that only updates the minor singular components of the weight matrix while keeping the principal singular components frozen. It is observed that the minor matrix corresponds to the noisy or long-tail information, while the principal matrix contains important knowledge. The MiLoRA initializes the low-rank matrices within a subspace that is orthogonal to the principal matrix, thus the pretrained knowledge is expected to be well preserved. During finetuning, MiLoRA makes the most use of the less-optimized subspace for learning the labeled dataset. Extensive experiments on commonsense reasoning, math reasoning, instruction following and visual instruction following benchmarks present the superior performance of our method.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-18
# CoMT:医療報告書作成における薬の連鎖が幻覚を減少させる

CoMT: Chain-of-Medical-Thought Reduces Hallucination in Medical Report Generation ( http://arxiv.org/abs/2406.11451v3 )

ライセンス: Link先を確認
Yue Jiang, Jiawei Chen, Dingkang Yang, Mingcheng Li, Shunli Wang, Tong Wu, Ke Li, Lihua Zhang, (参考訳) 放射線医が臨床診断や報告組成物を手伝う上で重要な研究価値を持つMRG(Automatic Medical Report Generation)が注目されている。 近年の進歩にもかかわらず、正確な臨床理解と疾患診断の推測が要求されるため、正確な報告は依然として困難である。 さらに、医療データのアクセシビリティの制限や疾患の分布の不均衡により、訓練データにおける希少な疾患の表現不足により、大規模な医療視覚言語モデル(LVLM)は、排便や製造などの幻覚を招きやすくなり、診断性能を著しく低下させ、MRGの実際的な課題をさらに強化する。 本研究では,医療報告生成における幻覚を効果的に緩和するために,診断手順を分解して医師の認知過程を模倣するチェーン・オブ・メディカル・シント・アプローチ(CoMT)を提案する。 重要度が異なる放射線学的特徴を微細な医学的思考連鎖に構造化し、診断時の推論能力を高め、幻覚の問題を緩和し、MRGの診断精度を高める。 この作業のすべてのリソースはまもなくリリースされます。

Automatic medical report generation (MRG), which possesses significant research value as it can aid radiologists in clinical diagnosis and report composition, has garnered increasing attention. Despite recent progress, generating accurate reports remains arduous due to the requirement for precise clinical comprehension and disease diagnosis inference. Furthermore, owing to the limited accessibility of medical data and the imbalanced distribution of diseases, the underrepresentation of rare diseases in training data makes large-scale medical visual language models (LVLMs) prone to hallucinations, such as omissions or fabrications, severely undermining diagnostic performance and further intensifying the challenges for MRG in practice. In this study, to effectively mitigate hallucinations in medical report generation, we propose a chain-of-medical-thought approach (CoMT), which intends to imitate the cognitive process of human doctors by decomposing diagnostic procedures. The radiological features with different importance are structured into fine-grained medical thought chains to enhance the inferential ability during diagnosis, thereby alleviating hallucination problems and enhancing the diagnostic accuracy of MRG. All resources of this work will be released soon.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-18
# カプランとチンチラスケーリング法の再検討

Reconciling Kaplan and Chinchilla Scaling Laws ( http://arxiv.org/abs/2406.12907v2 )

ライセンス: Link先を確認
Tim Pearce, Jinyeop Song, (参考訳) Kaplan et al [2020] (`Kaplan') と Hoffmann et al [2022] (`Chinchilla') は、次の言語予測に基づいてトレーニングされたトランスフォーマーのスケーリング挙動を研究した。 これらの研究は、パラメータ(N$)とトレーニングトークン(D$)の数を、与えられた計算予算(C$)の最小損失を達成するために設定する方法について、様々な見積もりを生み出した。 Kaplan: $N_\text{optimal} \propto C^{0.73}$, Chinchilla: $N_\text{optimal} \propto C^{0.50}$ 本稿では,これらの不一致の多くは,総パラメータではなく非埋め込みを数えるKaplanに起因していると考えられる。 これらの条件下でのチンチラの研究をシミュレーションすると、カプランに近い偏りのあるスケーリング係数が生成される。 そこで,本稿では,カプランの当初の過大評価の主な原因を説明することによって,チンチラのスケーリング係数を再確認する。 第2のコントリビューションとして、報告された損失と計算の関係の相違について説明する。 これらの結果から、将来のスケーリング研究は総パラメータと計算を使うことを推奨する。

Kaplan et al. [2020] (`Kaplan') and Hoffmann et al. [2022] (`Chinchilla') studied the scaling behavior of transformers trained on next-token language prediction. These studies produced different estimates for how the number of parameters ($N$) and training tokens ($D$) should be set to achieve the lowest possible loss for a given compute budget ($C$). Kaplan: $N_\text{optimal} \propto C^{0.73}$, Chinchilla: $N_\text{optimal} \propto C^{0.50}$. This paper finds that much of this discrepancy can be attributed to Kaplan counting non-embedding rather than total parameters, combined with their analysis being performed at small scale. Simulating the Chinchilla study under these conditions produces biased scaling coefficients close to Kaplan's. Hence, this paper reaffirms Chinchilla's scaling coefficients, by explaining the primary cause of Kaplan's original overestimation. As a second contribution, the paper explains differences in the reported relationships between loss and compute. These findings lead us to recommend that future scaling studies use total parameters and compute.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-18
# シンボリック手法によるニューラルスペック合成の強化

Specify What? Enhancing Neural Specification Synthesis by Symbolic Methods ( http://arxiv.org/abs/2406.15540v2 )

ライセンス: Link先を確認
George Granberry, Wolfgang Ahrendt, Moa Johansson, (参考訳) 大規模言語モデル(LLM)と記号解析の組み合わせを用いて,Cプログラムの仕様を合成する方法について検討する。 LLMプロンプトは、仕様言語ACSLでCプログラムアノテーションを生成するために、Frama-Cエコシステムの2つの形式的なメソッドツールであるPathcrawlerとEVAの出力で拡張される。 Pathcrawlerのインプット/アウトプットの例に関する情報は、よりコンテキスト対応のアノテーションを生成します。 さらに,バグジィプログラムの仕様を生成し,バグに対して結果の堅牢性を観察することにより,その動作よりもプログラムの意図を推測する。

We investigate how combinations of Large Language Models (LLMs) and symbolic analyses can be used to synthesise specifications of C programs. The LLM prompts are augmented with outputs from two formal methods tools in the Frama-C ecosystem, Pathcrawler and EVA, to produce C program annotations in the specification language ACSL. We demonstrate how the addition of symbolic analysis to the workflow impacts the quality of annotations: information about input/output examples from Pathcrawler produce more context-aware annotations, while the inclusion of EVA reports yields annotations more attuned to runtime errors. In addition, we show that the method infers rather the programs intent than its behaviour, by generating specifications for buggy programs and observing robustness of the result against bugs.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-18
# 量子エミッタのSUPER励起は多光子過程である

SUPER excitation of quantum emitters is a multi-photon process ( http://arxiv.org/abs/2406.17540v2 )

ライセンス: Link先を確認
Luca Vannucci, Niels Gregersen, (参考訳) 量子エミッタ集団(SUPER)の揺らぎは、2つの赤みがかったレーザーパルスを用いて、量子エミッタの励起状態をほぼ一様の忠実度で生成することができる。 共鳴しないが完全にコヒーレントな性質は、単一光子源を励起状態に生成する上で貴重なツールとして量子フォトニクスに多大な関心を惹きつけ、同時にレーザーの簡単なスペクトルフィルタリングを保証している。 しかし、電磁場とエミッタ間のエネルギー交換の観点からのこのメカニズムの物理的理解はいまだに欠如している。 ここでは、スイングアップ励起の完全な量子化モデルを示し、実際にモードの1つが2つ以上の光子を失い、もう1つが少なくとも1つを得る多光子過程であることを示す。 本研究は,SUPER方式の予期せぬ物理的解釈と,単一エミッタと複数フィールドモード間の非線形相互作用を明らかにするものである。

The swing-up of quantum emitter population (SUPER) scheme allows to populate the excited state of a quantum emitter with near-unity fidelity using two red-detuned laser pulses. Its off-resonant, yet fully coherent nature has attracted significant interest in quantum photonics as a valuable tool for preparing single-photon sources in their excited state on demand, while simultaneously ensuring straightforward spectral filtering of the laser. However, the physical understanding of this mechanism in terms of energy exchange between the electromagnetic field and the emitter is still lacking. Here, we present a fully quantized model of the swing-up excitation and demonstrate that it is in fact a multi-photon process, where one of the modes loses two or more photons while the other gains at least one. Our findings provide an unexpected physical interpretation of the SUPER scheme and unveil a new non-linear interaction between single emitters and multiple field modes.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-18
# ゼロショットNERの定義とガイドラインによるプロンプトの強化

Show Less, Instruct More: Enriching Prompts with Definitions and Guidelines for Zero-Shot NER ( http://arxiv.org/abs/2407.01272v3 )

ライセンス: Link先を確認
Andrew Zamai, Andrea Zugarini, Leonardo Rigutini, Marco Ernandes, Marco Maggini, (参考訳) 近年,名前付きエンティティ認識(NER)のためのLLM(Large Language Models)がいくつか出現している。 従来のNERアプローチと比較して、これらのモデルは強力な一般化能力を示している。 既存のLLMは主に、外部ドメインの入力でゼロショットのNERに対処することに焦点を当て、テストセットと高いあるいは完全に重複する多数のエンティティクラスを微調整する。 そこで本研究では,より少ない例でモデルを指示し,定義とガイドラインに富んだプロンプトを活用することによって,これまで見たことのないエンティティタグに対処するためのアプローチであるSLIMERを提案する。 実験では、特に目に見えない名前のエンティティをラベル付けする場合、定義とガイドラインがより良いパフォーマンス、より速く、より堅牢な学習をもたらすことを示した。 さらに、SLIMERはドメイン外のゼロショットNERで最先端のアプローチと互換性があり、より公正にトレーニングされる一方で、より難しい設定で訓練される。

Recently, several specialized instruction-tuned Large Language Models (LLMs) for Named Entity Recognition (NER) have emerged. Compared to traditional NER approaches, these models have demonstrated strong generalization capabilities. Existing LLMs primarily focus on addressing zero-shot NER on Out-of-Domain inputs, while fine-tuning on an extensive number of entity classes that often highly or completely overlap with test sets. In this work instead, we propose SLIMER, an approach designed to tackle never-seen-before entity tags by instructing the model on fewer examples, and by leveraging a prompt enriched with definition and guidelines. Experiments demonstrate that definition and guidelines yield better performance, faster and more robust learning, particularly when labelling unseen named entities. Furthermore, SLIMER performs comparably to state-of-the-art approaches in out-of-domain zero-shot NER, while being trained in a more fair, though certainly more challenging, setting.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-18
# サイバーセキュリティ環境におけるモデル非依存クリーンラベルバックドア緩和

Model-agnostic clean-label backdoor mitigation in cybersecurity environments ( http://arxiv.org/abs/2407.08159v2 )

ライセンス: Link先を確認
Giorgio Severi, Simona Boboila, John Holodnak, Kendra Kratkiewicz, Rauf Izmailov, Alina Oprea, (参考訳) 機械学習モデルのトレーニングフェーズは、特にサイバーセキュリティにおける微妙なステップである。 近年の研究では、トレーニングラベルを変更することなく、セキュリティ分類タスク用に設計されたモデルにバックドアを注入する、一連の悪質なトレーニングタイム攻撃が表面化している。 本研究では,サイバーセキュリティの脅威モデルに対する洞察を利用して,これらのクリーンラベル中毒攻撃を効果的に軽減し,モデルユーティリティを保ちながら,新たな手法を提案する。 慎重に選択された特徴部分空間上で密度に基づくクラスタリングを行い、新たな反復的なスコアリング手順によって不審なクラスタを段階的に分離することにより、既存のバックドア防衛文献に共通する前提の多くを必要とせずに攻撃を緩和することができる。 提案手法の汎用性を示すため,ネットワークフローの分類とマルウェアの分類という,2つの古典的サイバーセキュリティデータに対するクリーンラベルモデルに依存しない2つの攻撃について,勾配強化とニューラルネットワークモデルを用いて評価を行った。

The training phase of machine learning models is a delicate step, especially in cybersecurity contexts. Recent research has surfaced a series of insidious training-time attacks that inject backdoors in models designed for security classification tasks without altering the training labels. With this work, we propose new techniques that leverage insights in cybersecurity threat models to effectively mitigate these clean-label poisoning attacks, while preserving the model utility. By performing density-based clustering on a carefully chosen feature subspace, and progressively isolating the suspicious clusters through a novel iterative scoring procedure, our defensive mechanism can mitigate the attacks without requiring many of the common assumptions in the existing backdoor defense literature. To show the generality of our proposed mitigation, we evaluate it on two clean-label model-agnostic attacks on two different classic cybersecurity data modalities: network flows classification and malware classification, using gradient boosting and neural network models.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-18
# 新規プラスチックPETスキャナーを用いた陽電子消滅による光子の非最大絡み合いの実証

Non-maximal entanglement of photons from positron-electron annihilation demonstrated using a novel plastic PET scanner ( http://arxiv.org/abs/2407.08574v2 )

ライセンス: Link先を確認
P. Moskal, D. Kumar, S. Sharma, E. Y. Beyene, N. Chug, A. Coussat, C. Curceanu, E. Czerwinski, M. Das, K. Dulski, M. Gorgol, B. Jasinska, K. Kacprzak, T. Kaplanoglu, L. Kaplon, K. Klimaszewski, T. Kozik, E. Lisowski, F. Lisowski, W. Mryka, S. Niedzwiecki, S. Parzych, E. P. del Rio, L. Raczynski, M. Radler, R. Y. Shopa, M. Skurzok, E. L. Stepien, P. Tanty, K. Tayefi Ardebili, K. Valsan Eliyan, W. Wislicki, (参考訳) 最新のポジトロン放射トモグラフィ(PET)では、消滅光子の偏光に関する情報は得られていない。 現在のPETシステムは、陽電子消滅から2つの光子の伝播方向を検出することで、陽電子放出放射性同位元素を標識した分子を追跡している。 しかし、消滅光子は、その起源の場所だけでなく、より多くの情報を持っている。 本稿では, プラスチックシンチレータを用いた新しいJ-PETスキャナについて述べる。そこでは, 消滅光子がコンプトン効果を介して主に相互作用し, 光子偏光に関する情報に加えて光子偏光に関する情報を提供する。 理論的には、真空中のポジトロニウムの崩壊による光子は極性化において最大に絡み合っている。 しかし、ポジトロニウムの陽電子が原子に結合した電子と消滅すると、そのような消滅からの光子が最大に絡み合っているかどうかが問題となる。 本研究では,多孔性高分子における陽電子消滅反応から,2つの光子の偏光配向間の相対角の分布を決定する。 アルミニウムと銅の陽電子消滅効果は, 最大エンタングルド光子に対して観測された相関の強度が期待されるのに対して, 結果は有意な偏差を示した。 多孔質高分子では、光子偏光相関は最大エンタングルド光子よりも弱いが、分離可能な光子よりも強いことが示される。 この結果は、アンバーライト樹脂中のアニヒレーションの40%以上が、非最大エンタングル状態につながることを示している。 その結果, 相関の度合いは消滅機構と分子配置に依存することがわかった。 提案するコンプトン相互作用に基づくPETシステムは,新しい診断指標としてPETの偏光相関を探索する上で有望な視点を開くことを期待する。

In the state-of-the-art Positron Emission Tomography (PET), information about the polarization of annihilation photons is not available. Current PET systems track molecules labeled with positron-emitting radioisotopes by detecting the propagation direction of two photons from positron-electron annihilation. However, annihilation photons carry more information than just the site where they originated. Here we present a novel J-PET scanner built from plastic scintillators, in which annihilation photons interact predominantly via the Compton effect, providing information about photon polarization in addition to information on photon direction of propagation. Theoretically, photons from the decay of positronium in a vacuum are maximally entangled in polarization. However, in matter, when the positron from positronium annihilates with the electron bound to the atom, the question arises whether the photons from such annihilation are maximally entangled. In this work, we determine the distribution of the relative angle between polarization orientations of two photons from positron-electron annihilation in a porous polymer. Contrary to prior results for positron annihilation in aluminum and copper, where the strength of observed correlations is as expected for maximally entangled photons, our results show a significant deviation. We demonstrate that in porous polymer, photon polarization correlation is weaker than for maximally entangled photons but stronger than for separable photons. The data indicate that more than 40% of annihilations in Amberlite resin lead to a non-maximally entangled state. Our result indicates the degree of correlation depends on the annihilation mechanism and the molecular arrangement. We anticipate that the introduced Compton interaction-based PET system opens a promising perspective for exploring polarization correlations in PET as a novel diagnostic indicator.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-18
# V2I-Calib:コラボレーティブカーとインフラLiDARシステムのための新しい校正手法

V2I-Calib: A Novel Calibration Approach for Collaborative Vehicle and Infrastructure LiDAR Systems ( http://arxiv.org/abs/2407.10195v2 )

ライセンス: Link先を確認
Qianxin Qu, Yijin Xiong, Guipeng Zhang, Xin Wu, Xiaohan Gao, Xin Gao, Hanyu Li, Shichun Guo, Guoying Zhang, (参考訳) 車両と道路インフラを統合した共同LiDARシステムは、V2Iキャリブレーションと呼ばれ、大きな可能性を秘めているが、その展開は多くの課題に直面している。 このようなシステム間でのデータ精度と一貫性を確保するための重要な側面は、不均一な車両およびインフラの終端を越えてLiDARユニットを校正することである。 これは、特に初期位置決め値に頼ることなく、都市キャニオンのシナリオで堅牢な性能を確保することができるキャリブレーション手法の開発を必要とする。 そこで本研究では,V2Iキャリブレーションに新たなアプローチを導入し,知覚対象間の空間的関連情報を活用する。 この手法の中心は、車両とインフラシステムによって識別されるターゲット間の相関を定量化し、キャリブレーション結果のリアルタイムモニタリングを容易にする、革新的総合的連合間距離(oIoU)メートル法である。 当社のアプローチでは,親和性行列の構築を通じて,車両とインフラのLiDARシステムの認識結果における共通目標の同定を行う。 これらの共通ターゲットは、外生パラメータの計算と最適化の基礎を形成する。 DAIR-V2Xデータセットを用いて行った比較およびアブレーション研究は、我々のアプローチの優位性を裏付けるものである。 さらなる洞察とリソースについては、プロジェクトのリポジトリはhttps://github.com/MassimoQu/v2i-calib.comからアクセスできます。

Cooperative LiDAR systems integrating vehicles and road infrastructure, termed V2I calibration, exhibit substantial potential, yet their deployment encounters numerous challenges. A pivotal aspect of ensuring data accuracy and consistency across such systems involves the calibration of LiDAR units across heterogeneous vehicular and infrastructural endpoints. This necessitates the development of calibration methods that are both real-time and robust, particularly those that can ensure robust performance in urban canyon scenarios without relying on initial positioning values. Accordingly, this paper introduces a novel approach to V2I calibration, leveraging spatial association information among perceived objects. Central to this method is the innovative Overall Intersection over Union (oIoU) metric, which quantifies the correlation between targets identified by vehicle and infrastructure systems, thereby facilitating the real-time monitoring of calibration results. Our approach involves identifying common targets within the perception results of vehicle and infrastructure LiDAR systems through the construction of an affinity matrix. These common targets then form the basis for the calculation and optimization of extrinsic parameters. Comparative and ablation studies conducted using the DAIR-V2X dataset substantiate the superiority of our approach. For further insights and resources, our project repository is accessible at https://github.com/MassimoQu/v2i-calib.
翻訳日:2024-09-19 22:53:23 公開日:2024-09-18
# グラフニューラルネットワークの確率パス:グラフ構造と表現連成学習

Probability Passing for Graph Neural Networks: Graph Structure and Representations Joint Learning ( http://arxiv.org/abs/2407.10688v2 )

ライセンス: Link先を確認
Ziyan Wang, Yaxuan He, Bin Liu, (参考訳) グラフニューラルネットワーク(GNN)は、幅広い領域にわたる非ユークリッドデータの解析において顕著な成功を収めている。 しかし、それらの適用性は観測されたグラフ構造への依存によって制約される。 この問題を解決するために、ノード特徴の類似性やエッジ確率を計算し、タスク固有の潜在構造を推論し、GNNを適用して予測を行う遅延グラフ推論(LGI)を提案する。 それでも、既存のアプローチは、生成されたグラフ構造とパフォーマンスに影響を与えるノードの特徴からノイズを無視している。 本研究では,観測されたグラフに基づいて隣接ノードのエッジ確率を集約することにより,生成したグラフ構造を改良するProbability Passingという新しい手法を提案する。 さらに、我々はLGIフレームワークを引き続き活用し、洗練されたグラフ構造とノード特徴をGNNに入力して予測を得る。 提案手法を,確率パスに基づくグラフニューラルネットワーク (PPGNN) と呼ぶ。 さらに、アンカーベース技術は複雑さを減らし、効率を向上させるために用いられる。 実験の結果,提案手法の有効性が示された。

Graph Neural Networks (GNNs) have achieved notable success in the analysis of non-Euclidean data across a wide range of domains. However, their applicability is constrained by the dependence on the observed graph structure. To solve this problem, Latent Graph Inference (LGI) is proposed to infer a task-specific latent structure by computing similarity or edge probability of node features and then apply a GNN to produce predictions. Even so, existing approaches neglect the noise from node features, which affects generated graph structure and performance. In this work, we introduce a novel method called Probability Passing to refine the generated graph structure by aggregating edge probabilities of neighboring nodes based on observed graph. Furthermore, we continue to utilize the LGI framework, inputting the refined graph structure and node features into GNNs to obtain predictions. We name the proposed scheme as Probability Passing-based Graph Neural Network (PPGNN). Moreover, the anchor-based technique is employed to reduce complexity and improve efficiency. Experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# Parity-deformed $su(2)$ and $so(3)$ Algebras: a Basis for Quantum Optics and Quantum Communications Applications

Parity-deformed $su(2)$ and $so(3)$ Algebras: a Basis for Quantum Optics and Quantum Communications Applications ( http://arxiv.org/abs/2407.12157v2 )

ライセンス: Link先を確認
W. S. Chung, H. Hassanabadi, L. M. Nieto, S. Zarrinkamar, (参考訳) 物理学の様々な分野におけるパリティ(リフレクション)の重要性を念頭に置いて、単モードおよび二モードウィグナー代数はそれらにリフレクション作用素を加えると考えられる。 関連する $su(2)$ algebra, $su_{\nu}(2)$, and the deformed $so(3)$ algebra, $so_{\nu}(3)$, is constructed for the wide use Jordan-Schwinger and Holstein-Primakoff realizations, commenting on various aspects and ingredients of the formalism for both single-mode and two-mode case。 最後に、このフレームワークでは、パリティ変形した $so_{\nu}(3)$表現が解析される。

Having in mind the significance of parity (reflection) in various areas of physics, the single-mode and two-mode Wigner algebras are considered adding to them a reflection operator. The associated deformed $su(2)$ algebra, $su_{\nu}(2)$, and the deformed $so(3)$ algebra, $so_{\nu}(3)$, are constructed for the widely used Jordan-Schwinger and Holstein-Primakoff realizations, commenting on various aspects and ingredients of the formalism for both single-mode and two-mode cases. Finally, in this framework the parity-deformed $so_{\nu}(3)$ representation is analyzed, due to its potential application in the study of qubit and qutrit systems.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# VideoClusterNet:ビデオのための自己監督型かつ適応型の顔クラスタリング

VideoClusterNet: Self-Supervised and Adaptive Face Clustering For Videos ( http://arxiv.org/abs/2407.12214v2 )

ライセンス: Link先を確認
Devesh Walawalkar, Pablo Garrido, (参考訳) デジタルメディアのコンテンツ制作が進むにつれ、映画やテレビシリーズのエピソードを分析してキャラクタの主役を正確に特定する必要性が高まっており、特にビデオ顔クラスタリングは、検出された顔のトラックを共通の顔のアイデンティティでまとめることを目的としている。 この問題は、ビデオフレームにまたがる特定の顔のポーズ、表情、外観、照明のバリエーションが多岐にわたるため、非常に難しい。 ジェネリックな事前訓練された顔識別(ID)モデルは、高いダイナミックレンジのコンテンツとユニークなシネマティックスタイルを考えると、ビデオ制作領域に適さない。 さらに、従来のクラスタリングアルゴリズムはデータセットをまたいだ個別のチューニングを必要とするハイパーパラメータに依存している。 本稿では,ジェネリック・フェイスIDモデルから新しいビデオ・フェイス・トラックへの適応を,完全自己管理方式で学習する新しいビデオ・フェイス・クラスタリング手法を提案する。 また,任意の入力ビデオに対して,微調整されたモデルの埋め込み空間に自動的に適応できるパラメータフリークラスタリングアルゴリズムを提案する。 包括的な映画顔クラスタリングベンチマークが欠如しているため、第1世代の映画データセットであるMovieFaceClusterも提示する。 私たちのデータセットは、映画業界の専門家によって手作業で作成されており、非常に困難な顔認証シナリオが含まれています。 実験により,従来のテレビシリーズのデータセットでは,ベンチマークデータセットにおける難易度の高いメインストリームのシーンの処理と,最先端の性能が評価された。

With the rise of digital media content production, the need for analyzing movies and TV series episodes to locate the main cast of characters precisely is gaining importance.Specifically, Video Face Clustering aims to group together detected video face tracks with common facial identities. This problem is very challenging due to the large range of pose, expression, appearance, and lighting variations of a given face across video frames. Generic pre-trained Face Identification (ID) models fail to adapt well to the video production domain, given its high dynamic range content and also unique cinematic style. Furthermore, traditional clustering algorithms depend on hyperparameters requiring individual tuning across datasets. In this paper, we present a novel video face clustering approach that learns to adapt a generic face ID model to new video face tracks in a fully self-supervised fashion. We also propose a parameter-free clustering algorithm that is capable of automatically adapting to the finetuned model's embedding space for any input video. Due to the lack of comprehensive movie face clustering benchmarks, we also present a first-of-kind movie dataset: MovieFaceCluster. Our dataset is handpicked by film industry professionals and contains extremely challenging face ID scenarios. Experiments show our method's effectiveness in handling difficult mainstream movie scenes on our benchmark dataset and state-of-the-art performance on traditional TV series datasets.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# 検索文書の指導による会話クエリの再構築

Conversational Query Reformulation with the Guidance of Retrieved Documents ( http://arxiv.org/abs/2407.12363v2 )

ライセンス: Link先を確認
Jeonghyun Park, Hwanhee Lee, (参考訳) 会話探索は,対話型質問応答において,与えられた質問に対する関連項目の検索を試みる。 Conversational Query Reformulation (CQR) は、元のクエリを非コンテクスト化された形式に書き換えて、省略やコア参照といった元のクエリの問題を解決することで、会話検索を改善する。 従来のCQR手法は、検索者にとって意味のある検索結果を常に得られるとは限らない、人間が書いたクエリを模倣することに焦点を当てていた。 本稿では,最初に検索した文書からキーのinfFormationを活用することで,CQRのクエリを洗練させるフレームワークである GuideCQRを紹介する。 具体的には、キーワードを抽出し、検索したドキュメントから期待された回答を生成し、フィルタリング後にクエリを統一し、検索プロセスを強化する有用な情報を追加する。 実験により,提案手法は複数のデータセットにまたがる最先端性能を実現し,従来のCQR手法よりも優れていた。 さらに,人間によるクエリであっても,様々なタイプのクエリを用いた会話検索において,さらにパフォーマンスの向上が期待できることを示す。

Conversational search seeks to retrieve relevant passages for the given questions in conversational question answering. Conversational Query Reformulation (CQR) improves conversational search by refining the original queries into de-contextualized forms to resolve the issues in the original queries, such as omissions and coreferences. Previous CQR methods focus on imitating human written queries which may not always yield meaningful search results for the retriever. In this paper, we introduce GuideCQR, a framework that refines queries for CQR by leveraging key infFormation from the initially retrieved documents. Specifically, GuideCQR extracts keywords and generates expected answers from the retrieved documents, then unifies them with the queries after filtering to add useful information that enhances the search process. Experimental results demonstrate that our proposed method achieves state-of-the-art performance across multiple datasets, outperforming previous CQR methods. Additionally, we show that GuideCQR can get additional performance gains in conversational search using various types of queries, even for queries written by humans.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# データ圧縮としての基礎モデル--情報・モデル重み・著作権法を中心に

Training Foundation Models as Data Compression: On Information, Model Weights and Copyright Law ( http://arxiv.org/abs/2407.13493v2 )

ライセンス: Link先を確認
Giorgio Franceschelli, Claudia Cevenini, Mirco Musolesi, (参考訳) ディープラーニングシステムの他のクラスに対する基礎モデルのトレーニングプロセスは、トレーニングセット上の再構成誤差を最小限に抑えることに基づいている。 そのため、記憶とその後のトレーニングサンプルの再生に影響を受けやすい。 本稿では,モデルの重みがトレーニングデータの圧縮表現を具現化する,トレーニング・アズ・圧縮の視点を紹介する。 著作権の観点から見れば、この視点は、重みが潜在的に保護された作品の複製または派生作品と見なせることを意味している。 本稿では,基礎モデルが生み出すアウトプットの著作権の枠組みから生じる技術的・法的課題について考察する。 この問題に情報中心のアプローチを採用することは、これらの新たな複雑な法的問題に取り組む上で有望な道筋を示す。

The training process of foundation models as for other classes of deep learning systems is based on minimizing the reconstruction error over a training set. For this reason, they are susceptible to the memorization and subsequent reproduction of training samples. In this paper, we introduce a training-as-compressing perspective, wherein the model's weights embody a compressed representation of the training data. From a copyright standpoint, this point of view implies that the weights could be considered a reproduction or a derivative work of a potentially protected set of works. We investigate the technical and legal challenges that emerge from this framing of the copyright of outputs generated by foundation models, including their implications for practitioners and researchers. We demonstrate that adopting an information-centric approach to the problem presents a promising pathway for tackling these emerging complex legal issues.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# 統一3次元表現学習のためのマルチモーダル関係蒸留

Multi-modal Relation Distillation for Unified 3D Representation Learning ( http://arxiv.org/abs/2407.14007v2 )

ライセンス: Link先を確認
Huiqun Wang, Yiping Bao, Panwang Pan, Zeming Li, Xiao Liu, Ruijie Yang, Di Huang, (参考訳) 近年の3次元点雲のマルチモーダル事前訓練の進歩は、3次元形状とそれに対応する2次元画像と言語記述に異質な特徴を整合させることによって有望な結果を示した。 しかし、現在の単純解はしばしばサンプル間の複雑な構造関係を見落とし、多モード学習の完全な能力を制限する可能性がある。 この問題を解決するために,3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を効果的に蒸留する3次元事前学習フレームワークであるMulti-modal Relation Distillation (MRD)を導入する。 MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。 特に、MDDは、下流のゼロショット分類タスクとモダリティ横断検索タスクの大幅な改善を実現し、新しい最先端のパフォーマンスを提供する。

Recent advancements in multi-modal pre-training for 3D point clouds have demonstrated promising results by aligning heterogeneous features across 3D shapes and their corresponding 2D images and language descriptions. However, current straightforward solutions often overlook intricate structural relations among samples, potentially limiting the full capabilities of multi-modal learning. To address this issue, we introduce Multi-modal Relation Distillation (MRD), a tri-modal pre-training framework, which is designed to effectively distill reputable large Vision-Language Models (VLM) into 3D backbones. MRD aims to capture both intra-relations within each modality as well as cross-relations between different modalities and produce more discriminative 3D shape representations. Notably, MRD achieves significant improvements in downstream zero-shot classification tasks and cross-modality retrieval tasks, delivering new state-of-the-art performance.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# 大規模言語モデルにおける内部整合性と自己フィードバック

Internal Consistency and Self-Feedback in Large Language Models: A Survey ( http://arxiv.org/abs/2407.14507v3 )

ライセンス: Link先を確認
Xun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Yi Wang, Zhonghao Wang, Feiyu Xiong, Zhiyu Li, (参考訳) 大型言語モデル(LLM)は、しばしば欠点のある推論や幻覚を生成する。 これらの問題に対処するため、自己整合性、自己即興性、自己再定義などの「自己-」を冠称する研究が進められている。 LLMの評価と更新を含む、共通点を共有しています。 それにもかかわらず、これらの取り組みは、既存の調査が主に分類に焦点を当てているため、要約に関する統一的な視点を欠いている。 本稿では、内部整合性の統一的な視点を用いて、欠陥や幻覚を推論するための説明を提供する。 内部整合性は、サンプリング手法に基づくLCMの潜伏層、復号層、応答層間の表現の整合性を指す。 次に,自己フィードバック(Self-Feedback)と呼ばれる内部一貫性をマイニングできる効果的な理論的枠組みを導入する。 このフレームワークは、Self-EvaluationとSelf-Updateの2つのモジュールで構成されている。 前者は内部整合性信号、後者は信号を利用してモデルの応答またはモデル自体を強化する。 この枠組みは多くの研究で採用されている。 私たちはこれらの研究をタスクや作業行によって体系的に分類し、関連する評価方法やベンチマークを要約し、懸念点を掘り下げる。 また、「内的一貫性のHourglass Evolution of Internal Consistency」、「Consistency Is (Almost) correctness」仮説」、「The Paradox of Latent and Explicit Reasoning」など、いくつかの批判的視点も提案する。 関連するリソースはhttps://github.com/IAAR-Shanghai/ICSFSurvey.comで公開されている。

Large language models (LLMs) often exhibit deficient reasoning or generate hallucinations. To address these, studies prefixed with "Self-" such as Self-Consistency, Self-Improve, and Self-Refine have been initiated. They share a commonality: involving LLMs evaluating and updating themselves. Nonetheless, these efforts lack a unified perspective on summarization, as existing surveys predominantly focus on categorization. In this paper, we use a unified perspective of internal consistency, offering explanations for reasoning deficiencies and hallucinations. Internal consistency refers to the consistency in expressions among LLMs' latent, decoding, or response layers based on sampling methodologies. Then, we introduce an effective theoretical framework capable of mining internal consistency, named Self-Feedback. This framework consists of two modules: Self-Evaluation and Self-Update. The former captures internal consistency signals, while the latter leverages the signals to enhance either the model's response or the model itself. This framework has been employed in numerous studies. We systematically classify these studies by tasks and lines of work; summarize relevant evaluation methods and benchmarks; and delve into the concern, "Does Self-Feedback Really Work?" We also propose several critical viewpoints, including the "Hourglass Evolution of Internal Consistency", "Consistency Is (Almost) Correctness" hypothesis, and "The Paradox of Latent and Explicit Reasoning". The relevant resources are open-sourced at https://github.com/IAAR-Shanghai/ICSFSurvey.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# 公式NV:マルチモーダルフェイクニュース検出のためのLLM生成ニューズビデオデータセット

Official-NV: An LLM-Generated News Video Dataset for Multimodal Fake News Detection ( http://arxiv.org/abs/2407.19493v2 )

ライセンス: Link先を確認
Yihao Wang, Lizhi Chen, Zhong Qian, Peifeng Li, (参考訳) ニュースメディア、特にビデオニュースメディアは、日常のあらゆる側面に浸透しており、フェイクニュースのリスクも生じている。 そのため、最近、マルチモーダルフェイクニュース検出が注目を集めている。 しかし、既存のデータセットはユーザのアップロードしたビデオで構成されており、過剰な過剰なデータを含んでいるため、モデルトレーニングプロセスにノイズがもたらされる。 この問題に対処するため、オフィシャルNVという名前のデータセットを構築し、公式なニュースビデオを含む。 クロールが公式に公開されたビデオは、LLMベースの生成と手動検証を使用して拡張され、データセットが拡張される。 さらに,提案したデータセットを複数のベースラインに対してベンチマークし,マルチモーダルニュース検出の有効性を実証する。

News media, especially video news media, have penetrated into every aspect of daily life, which also brings the risk of fake news. Therefore, multimodal fake news detection has recently garnered increased attention. However, the existing datasets are comprised of user-uploaded videos and contain an excess amounts of superfluous data, which introduces noise into the model training process. To address this issue, we construct a dataset named Official-NV, comprising officially published news videos. The crawl officially published videos are augmented through the use of LLMs-based generation and manual verification, thereby expanding the dataset. Furthermore, the proposed dataset is benchmarked against several baselines to demonstrate its effectiveness in multimodal news detection.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# 過度パラメータ学習における確率的勾配の動的安定性のキャラクタリゼーション

Characterizing Dynamical Stability of Stochastic Gradient Descent in Overparameterized Learning ( http://arxiv.org/abs/2407.20209v2 )

ライセンス: Link先を確認
Dennis Chemnitz, Maximilian Engel, (参考訳) 現代の機械学習に見られるような過度にパラメータ化された最適化タスクの場合、グローバルなミニマは一般的にユニークではない。 これらの設定における一般化を理解するためには、最適化アルゴリズムがどの最小限に収束するかを研究することが不可欠である。 最適化アルゴリズムが課す力学の下で不安定なミニマを持つことは、アルゴリズムが見つけることのできる潜在的なミニマを制限する。 本稿では,決定的勾配降下(SGD)と確率的勾配降下(SGD)の両方に対して動的に安定かつ不安定な大域的最小値の特徴付けを行う。 特に、大域的極小付近の局所力学に依存する特徴的リャプノフ指数を導入し、このリャプノフ指数の符号が各大域的極小でSGDが蓄積できるかどうかを厳密に証明する。

For overparameterized optimization tasks, such as the ones found in modern machine learning, global minima are generally not unique. In order to understand generalization in these settings, it is vital to study to which minimum an optimization algorithm converges. The possibility of having minima that are unstable under the dynamics imposed by the optimization algorithm limits the potential minima that the algorithm can find. In this paper, we characterize the global minima that are dynamically stable/unstable for both deterministic and stochastic gradient descent (SGD). In particular, we introduce a characteristic Lyapunov exponent which depends on the local dynamics around a global minimum and rigorously prove that the sign of this Lyapunov exponent determines whether SGD can accumulate at the respective global minimum.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# MLからLLMへ:敵攻撃に対するフィッシングWebページ検出モデルのロバスト性の評価

From ML to LLM: Evaluating the Robustness of Phishing Webpage Detection Models against Adversarial Attacks ( http://arxiv.org/abs/2407.20361v2 )

ライセンス: Link先を確認
Aditya Kulkarni, Vivek Balachandran, Dinil Mon Divakaran, Tamal Das, (参考訳) フィッシング攻撃は、ユーザーを騙して機密情報を盗み、重大なサイバーセキュリティの脅威を引き起こす。 機械学習(ML)とディープラーニング(DL)の進歩は多くのフィッシングWebページ検出ソリューションの開発につながっているが、これらのモデルは敵の攻撃に弱いままである。 敵のフィッシングページに対する堅牢性を評価することが不可欠である。 既存のツールには、ブランド数限定で事前設計されたフィッシングWebページのデータセットが含まれており、フィッシング機能の多様性が欠如している。 これらの課題に対処するために、さまざまなフィッシング機能を正当なWebページに埋め込むことで、敵対的なフィッシングWebページを生成するツールであるPhishOracleを開発した。 We evaluate the robustness of two existing model, Stack model and Phishpedia, in classification of PhishOracle generated adversarial phishing webpages。 さらに,敵対的攻撃の文脈において,商業用大規模言語モデルであるGemini Pro Visionについて検討した。 我々は,PhishOracleが生成した逆フィッシングWebページがユーザを欺くかどうかを判断するために,ユーザスタディを実施している。 我々の発見によると、多くのPhishOracleが生成したフィッシングWebページが、現在のフィッシングWebページ検出モデルや騙しユーザーを回避しているが、Gemini Pro Visionは攻撃に対して堅牢である。 また、PhishOracle Webアプリを開発し、ユーザーが正当なURLを入力し、関連するフィッシング機能を選択し、対応するフィッシングWebページを生成する。 すべてのリソースはGitHubで公開されている。

Phishing attacks attempt to deceive users into stealing sensitive information, posing a significant cybersecurity threat. Advances in machine learning (ML) and deep learning (DL) have led to the development of numerous phishing webpage detection solutions, but these models remain vulnerable to adversarial attacks. Evaluating their robustness against adversarial phishing webpages is essential. Existing tools contain datasets of pre-designed phishing webpages for a limited number of brands, and lack diversity in phishing features. To address these challenges, we develop PhishOracle, a tool that generates adversarial phishing webpages by embedding diverse phishing features into legitimate webpages. We evaluate the robustness of two existing models, Stack model and Phishpedia, in classifying PhishOracle-generated adversarial phishing webpages. Additionally, we study a commercial large language model, Gemini Pro Vision, in the context of adversarial attacks. We conduct a user study to determine whether PhishOracle-generated adversarial phishing webpages deceive users. Our findings reveal that many PhishOracle-generated phishing webpages evade current phishing webpage detection models and deceive users, but Gemini Pro Vision is robust to the attack. We also develop the PhishOracle web app, allowing users to input a legitimate URL, select relevant phishing features and generate a corresponding phishing webpage. All resources are publicly available on GitHub.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# 拡散モデルによる逆問題:MAP推定の観点から

Inverse Problems with Diffusion Models: A MAP Estimation Perspective ( http://arxiv.org/abs/2407.20784v2 )

ライセンス: Link先を確認
Sai Bharath Chandra Gutha, Ricardo Vinuesa, Hossein Azizpour, (参考訳) 逆問題には科学や工学に多くの応用がある。 コンピュータビジョンでは、インペイント、デブロアリング、超解像などの画像復元タスクを逆問題として形式的にモデル化することができる。 近年, 事前学習した非条件拡散モデルのみを利用し, 追加のタスク固有の訓練を必要としない逆問題の解法が開発されている。 しかし, 逆拡散過程における条件スコア関数決定の難易度は真の課題となり, 実際の性能に影響を及ぼす近似による解法が残る。 本稿では,連続時間拡散モデルの逆条件生成過程を,勾配項を抽出可能なMAP目標の最適化プロセスとしてモデル化するMAP推定フレームワークを提案する。 理論的には、勾配に基づく最適化手法を用いて一般的な逆問題の解法として提案手法を適用することができる。 しかし、損失目標の非凸性を考えると、完全な勾配に基づく最適化アルゴリズムを見つけることは極めて困難であり、しかしながら、我々のフレームワークはいくつかの潜在的研究方向を提供する。 提案する定式化法を用いて,画像復元のための経験的有効アルゴリズムを開発した。 提案アルゴリズムを複数の復元タスクにまたがる複数のデータセットに対して広範な実験により検証する。

Inverse problems have many applications in science and engineering. In Computer vision, several image restoration tasks such as inpainting, deblurring, and super-resolution can be formally modeled as inverse problems. Recently, methods have been developed for solving inverse problems that only leverage a pre-trained unconditional diffusion model and do not require additional task-specific training. In such methods, however, the inherent intractability of determining the conditional score function during the reverse diffusion process poses a real challenge, leaving the methods to settle with an approximation instead, which affects their performance in practice. Here, we propose a MAP estimation framework to model the reverse conditional generation process of a continuous time diffusion model as an optimization process of the underlying MAP objective, whose gradient term is tractable. In theory, the proposed framework can be applied to solve general inverse problems using gradient-based optimization methods. However, given the highly non-convex nature of the loss objective, finding a perfect gradient-based optimization algorithm can be quite challenging, nevertheless, our framework offers several potential research directions. We use our proposed formulation to develop empirically effective algorithms for image restoration. We validate our proposed algorithms with extensive experiments over multiple datasets across several restoration tasks.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# 残差増幅による非教師付きアウトオブディストリビューション検出に基づく僧帽弁逆流認識

Mitral Regurgitation Recogniton based on Unsupervised Out-of-Distribution Detection with Residual Diffusion Amplification ( http://arxiv.org/abs/2407.21497v2 )

ライセンス: Link先を確認
Zhe Liu, Xiliang Zhu, Tong Han, Yuhao Huang, Jian Wang, Lian Liu, Fang Wang, Dong Ni, Zhongshan Gou, Xin Yang, (参考訳) 僧帽弁閉鎖不全(MR)は重篤な心臓弁疾患である。 超音波画像によるMRの早期かつ正確な診断は、タイムリーな臨床的意思決定と外科的介入に重要である。 しかし、手動MR診断は操作者の経験に大きく依存しており、誤診やサーバ間変動を引き起こす可能性がある。 MRデータは限定的であり,クラス内変動が大きいため,深い分類器を構築するのではなく,MRを識別するための教師なしアウト・オブ・ディストリビューション(OOD)検出法を提案する。 我々の知る限り、私たちはMR超音波ビデオでOODを初めて探求した人物です。 提案手法は,特徴抽出器,特徴再構成モデル,残留蓄積増幅アルゴリズムから構成される。 特徴抽出器は、ビデオクリップから特徴を取得し、特徴再構成モデルにフィードして元の特徴を復元する。 残積増幅アルゴリズムは、繰り返しノイズ特徴再構成を行い、OOD特徴の再構成誤差を増幅する。 このアルゴリズムは単純だが効率的であり、再構成に基づくOOD検出手法においてプラグイン・アンド・プレイコンポーネントとしてシームレスに統合できる。 提案手法を893個の非MRビデオと267個のMRビデオを含む大規模超音波データセット上で検証した。 実験の結果,OOD検出法はMRサンプルを効果的に同定できることがわかった。

Mitral regurgitation (MR) is a serious heart valve disease. Early and accurate diagnosis of MR via ultrasound video is critical for timely clinical decision-making and surgical intervention. However, manual MR diagnosis heavily relies on the operator's experience, which may cause misdiagnosis and inter-observer variability. Since MR data is limited and has large intra-class variability, we propose an unsupervised out-of-distribution (OOD) detection method to identify MR rather than building a deep classifier. To our knowledge, we are the first to explore OOD in MR ultrasound videos. Our method consists of a feature extractor, a feature reconstruction model, and a residual accumulation amplification algorithm. The feature extractor obtains features from the video clips and feeds them into the feature reconstruction model to restore the original features. The residual accumulation amplification algorithm then iteratively performs noise feature reconstruction, amplifying the reconstructed error of OOD features. This algorithm is straightforward yet efficient and can seamlessly integrate as a plug-and-play component in reconstruction-based OOD detection methods. We validated the proposed method on a large ultrasound dataset containing 893 non-MR and 267 MR videos. Experimental results show that our OOD detection method can effectively identify MR samples.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# 変化点検出の強化:ディープラーニング技術による罰則学習

Enhancing Changepoint Detection: Penalty Learning through Deep Learning Techniques ( http://arxiv.org/abs/2408.00856v3 )

ライセンス: Link先を確認
Tung L Nguyen, Toby Dylan Hocking, (参考訳) データシーケンス内の重要なシフトを特定する技術である変更点検出は、財務、ゲノム学、医学など、さまざまな分野において不可欠である。 動的プログラミングによる変更点検出アルゴリズムは、変更点数を制御するためにペナルティパラメータに依存するシーケンス内の変更点の位置を特定するために使用される。 このペナルティパラメータを推定するために、以前の研究は線形モデルやツリーベースモデルのような単純なモデルを用いていた。 本研究では,ペナルティパラメータの予測のための新しい深層学習手法を提案する。これにより,従来の手法と比較して,大規模なベンチマーク教師付きラベル付きデータセットにおいて,変更点検出精度が著しく向上した。

Changepoint detection, a technique for identifying significant shifts within data sequences, is crucial in various fields such as finance, genomics, medicine, etc. Dynamic programming changepoint detection algorithms are employed to identify the locations of changepoints within a sequence, which rely on a penalty parameter to regulate the number of changepoints. To estimate this penalty parameter, previous work uses simple models such as linear or tree-based models. This study introduces a novel deep learning method for predicting penalty parameters, leading to demonstrably improved changepoint detection accuracy on large benchmark supervised labeled datasets compared to previous methods.
翻訳日:2024-09-19 22:42:16 公開日:2024-09-18
# LaMamba-Diff:局所的注意とマンバに基づく線形時間高忠実拡散モデル

LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba ( http://arxiv.org/abs/2408.02615v2 )

ライセンス: Link先を確認
Yunxiang Fu, Chaoqi Chen, Yizhou Yu, (参考訳) 最近のTransformerベースの拡散モデルでは、入力トークン間の全対相互作用を計算することによって、グローバルおよびローカル両方のコンテキストを正確にキャプチャする自己認識機構の能力に起因して、顕著な性能を示している。 しかし、その二次的な複雑性は、長い列の入力に対して重大な計算上の問題を引き起こす。 逆に、Mambaと呼ばれる最近の状態空間モデルは、フィルターされたグローバルコンテキストを隠された状態に圧縮することで線形複雑性を提供する。 その効率性にもかかわらず、圧縮は必然的にトークン間のきめ細かい局所的依存関係の情報を失う。 これらの観測により, 自己意識とマンバの強みを組み合わせた局所意図的マンバ(LaMamba)ブロックを導入し, グローバルな文脈と局所的詳細の両方を線形複雑に捉えた。 効率的なU-Netアーキテクチャを活用することで、我々のモデルは優れたスケーラビリティを示し、256x256の解像度でImageNet上の様々なモデルスケールでDiTの性能を上回ります。 ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% の GFLOP を DiT-XL/2 と比較して減少させるなど,優れた性能を達成できるという大きな利点がある。

Recent Transformer-based diffusion models have shown remarkable performance, largely attributed to the ability of the self-attention mechanism to accurately capture both global and local contexts by computing all-pair interactions among input tokens. However, their quadratic complexity poses significant computational challenges for long-sequence inputs. Conversely, a recent state space model called Mamba offers linear complexity by compressing a filtered global context into a hidden state. Despite its efficiency, compression inevitably leads to information loss of fine-grained local dependencies among tokens, which are crucial for effective visual generative modeling. Motivated by these observations, we introduce Local Attentional Mamba (LaMamba) blocks that combine the strengths of self-attention and Mamba, capturing both global contexts and local details with linear complexity. Leveraging the efficient U-Net architecture, our model exhibits exceptional scalability and surpasses the performance of DiT across various model scales on ImageNet at 256x256 resolution, all while utilizing substantially fewer GFLOPs and a comparable number of parameters. Compared to state-of-the-art diffusion models on ImageNet 256x256 and 512x512, our largest model presents notable advantages, such as a reduction of up to 62% GFLOPs compared to DiT-XL/2, while achieving superior performance with comparable or fewer parameters.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-18
# 最大カットから最大独立セットへ

From Maximum Cut to Maximum Independent Set ( http://arxiv.org/abs/2408.06758v2 )

ライセンス: Link先を確認
Chuixiong Wu, Jianan Wang, Fen Zuo, (参考訳) 最大カット(Max-Cut)問題は、二次非拘束バイナリ最適化(QUBO)の定式化やイジングモデル(Ising model)として自然に表現できる。 最大独立集合(MIS)問題も特定のイジングモデルと関係があることは以前から知られていた。 したがって、様々なMax-Cut/IsingソルバでMISを攻撃するのは自然なことである。 この戦略は、ランダムな Erd\H{o}s-R\'{e}nyi グラフの独立性の近似を大幅に改善する。 また、コーディング理論から生じるベンチマークで完全なパフォーマンスを示す。 これらの結果は、MIS上の近似量子アルゴリズム、特に対応する符号化問題において、さらなる発展の道を開くものである。

The Maximum Cut (Max-Cut) problem could be naturally expressed either in a Quadratic Unconstrained Binary Optimization (QUBO) formulation, or as an Ising model. It has long been known that the Maximum Independent Set (MIS) problem could also be related to a specific Ising model. Therefore, it would be natural to attack MIS with various Max-Cut/Ising solvers. It turns out that this strategy greatly improves the approximation for the independence number of random Erd\H{o}s-R\'{e}nyi graphs. It also exhibits perfect performance on a benchmark arising from coding theory. These results pave the way for further development of approximate quantum algorithms on MIS, and specifically on the corresponding coding problems.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-18
# 知識グラフコンプリートにおける凍結LDMのパワーの解錠

Unlock the Power of Frozen LLMs in Knowledge Graph Completion ( http://arxiv.org/abs/2408.06787v2 )

ライセンス: Link先を確認
Bo Xue, Yi Xu, Yunchong Song, Yiming Pang, Yuyang Ren, Jiaxin Ding, Luoyi Fu, Xinbing Wang, (参考訳) 従来の知識グラフ補完法(KGC)は構造情報のみに依存しており、知識グラフ(KG)の本質的な空間性に悩まされている。 大規模言語モデル(LLM)は、強力なコンテキストモデリングによって大きなコーパスから広範な知識を学び、従来の手法の限界を緩和することを約束する。 本研究は,LLMをKGCに有効かつ効率的に活用することを目的としている。 我々は、LLMの中間層を刺激するためにプロンプトを利用することで、コンテキスト対応の知識三重項の隠蔽状態を捉える。 次に、これらの隠れ状態にデータ効率の分類器をトレーニングし、KGCにおける凍結LDMの本質的な機能を利用する。 さらに、曖昧さを低減し、知識表現を豊かにするために、KGのサブグラフサンプリングを通じて詳細なエンティティ記述を生成する。 標準ベンチマークに関する大規模な実験は、我々のアプローチの効率性と有効性を示している。 我々は、ほとんどのデータセットで従来のKGCメソッドよりも優れており、特に、微調整のLLMに匹敵する分類性能を達成しつつ、GPUメモリ効率を188\times$で、トレーニングと推論を13.48\times$で加速しています。

Traditional knowledge graph completion (KGC) methods rely solely on structural information, struggling with the inherent sparsity of knowledge graphs (KGs). Large Language Models (LLMs) learn extensive knowledge from large corpora with powerful context modeling, making them promising for mitigating the limitations of previous methods. Directly fine-tuning LLMs offers great capability but comes at the cost of huge time and memory consumption, while utilizing frozen LLMs yields suboptimal results.In this work, we aim to leverage LLMs for KGC effectively and efficiently. We capture the context-aware hidden states of knowledge triples by employing prompts to stimulate the intermediate layers of LLMs. We then train a data-efficient classifier on these hidden states to harness the inherent capabilities of frozen LLMs in KGC. Additionally, to reduce ambiguity and enrich knowledge representation, we generate detailed entity descriptions through subgraph sampling on KGs. Extensive experiments on standard benchmarks demonstrate the efficiency and effectiveness of our approach. We outperform traditional KGC methods across most datasets and, notably, achieve classification performance comparable to fine-tuned LLMs while enhancing GPU memory efficiency by $188\times$ and accelerating training and inference by $13.48\times$.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-18
# PFDiff:過去と未来のグラディエント誘導による拡散モデルの訓練不要加速

PFDiff: Training-free Acceleration of Diffusion Models through the Gradient Guidance of Past and Future ( http://arxiv.org/abs/2408.08822v2 )

ライセンス: Link先を確認
Guangyi Wang, Yuren Cai, Lijiang Li, Wei Peng, Songzhi Su, (参考訳) 拡散確率モデル (DPM) は画像生成において顕著な可能性を示しているが, サンプリング効率は多数のデノナイジングステップの必要性によって妨げられている。 既存のほとんどのソリューションは、高速ODEソルバを提案することでサンプリングプロセスを加速する。 しかし、機能評価(NFE)の回数が少ない場合には、ODEソルバの不可避な離散化誤差が大幅に増大する。 本研究では、既存の高速ODEソルバを少ないNFEで動作させる新しいトレーニングフリーで直交時間ステップスキッピング戦略であるPFDiffを提案する。 具体的には、PFDiffは最初、過去の段階からの勾配の置き換えを利用して、"springboard"を予測する。 その後、この "springboard" と、現在の中間状態を迅速に更新するために、Nesterov の運動量にインスパイアされたフォアサイト更新を採用する。 このアプローチは、一階ODEソルバに固有の離散化誤差を補正しながら、不要なNFEを効果的に削減する。 実験の結果, PFDiffは, 各種訓練済みDPM, 特に条件付きDPMに優れ, 従来の最先端のトレーニングフリー手法を超越したフレキシブルな適用性を示した。 例えば, DDIMをベースラインとして用いた場合, ImageNet 64x64 で DDIM が 138.81 FID で DDIM が 16.46 FID (4 NFE) で, 7.5 で 安定拡散で 13.06 FID (10 NFE) を達成できた。

Diffusion Probabilistic Models (DPMs) have shown remarkable potential in image generation, but their sampling efficiency is hindered by the need for numerous denoising steps. Most existing solutions accelerate the sampling process by proposing fast ODE solvers. However, the inevitable discretization errors of the ODE solvers are significantly magnified when the number of function evaluations (NFE) is fewer. In this work, we propose PFDiff, a novel training-free and orthogonal timestep-skipping strategy, which enables existing fast ODE solvers to operate with fewer NFE. Specifically, PFDiff initially utilizes gradient replacement from past time steps to predict a "springboard". Subsequently, it employs this "springboard" along with foresight updates inspired by Nesterov momentum to rapidly update current intermediate states. This approach effectively reduces unnecessary NFE while correcting for discretization errors inherent in first-order ODE solvers. Experimental results demonstrate that PFDiff exhibits flexible applicability across various pre-trained DPMs, particularly excelling in conditional DPMs and surpassing previous state-of-the-art training-free methods. For instance, using DDIM as a baseline, we achieved 16.46 FID (4 NFE) compared to 138.81 FID with DDIM on ImageNet 64x64 with classifier guidance, and 13.06 FID (10 NFE) on Stable Diffusion with 7.5 guidance scale.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-18
# キャラクタ複雑性:量子回路解析の新しい尺度

Character Complexity: A Novel Measure for Quantum Circuit Analysis ( http://arxiv.org/abs/2408.09641v3 )

ライセンス: Link先を確認
Daksh Shami, (参考訳) 量子コンピューティングの分野では、量子化回路の複雑さは依然として重要な課題である。 本稿では,グループ理論の概念を実用的な量子コンピューティングの課題にブリッジする新しい尺度であるキャラクタ複雑度を紹介する。 表現理論からツールを活用することで、キャラクタの複雑さのいくつかの重要な性質を証明し、量子回路の古典的シミュラビリティへの驚くべき接続を確立する。 この新たな尺度は、量子アルゴリズムの複雑さの展望を新たに提供し、量子古典計算境界の理解を再構築する可能性がある。 本稿では、量子回路の構造に関する直感的な洞察を提供する、文字複雑性の革新的な可視化手法を提案する。 実験の結果、量子ビットとゲート数に関して興味深いスケーリング挙動を示し、量子アルゴリズムの設計と最適化のための新たな道を開く。 この研究は、量子複雑性の理論的な基礎に貢献するだけでなく、量子コンピューティングコミュニティに実用的なツールを提供する。 量子ハードウェアが進歩し続ければ、より効率的な量子アルゴリズムの開発や量子計算の基本的な限界の探索において、文字の複雑さが重要な役割を果たす可能性がある。

In the rapidly evolving field of quantum computing, quantifying circuit complexity remains a critical challenge. This paper introduces Character Complexity, a novel measure that bridges Group-theoretic concepts with practical quantum computing concerns. By leveraging tools from representation theory, I prove several key properties of character complexity and establish a surprising connection to the classical simulability of quantum circuits. This new measure offers a fresh perspective on the complexity landscape of quantum algorithms, potentially reshaping our understanding of quantum-classical computational boundaries. I present innovative visualization methods for character complexity, providing intuitive insights into the structure of quantum circuits. The empirical results reveal intriguing scaling behaviors with respect to qubit and gate counts, opening new avenues for quantum algorithm design and optimization. This work not only contributes to the theoretical foundations of quantum complexity but also offers practical tools for the quantum computing community. As quantum hardware continues to advance, character complexity could play a crucial role in developing more efficient quantum algorithms and in exploring the fundamental limits of quantum computation.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-18
# 合理化モデルの説明ロバスト性に対する逆攻撃

Adversarial Attack for Explanation Robustness of Rationalization Models ( http://arxiv.org/abs/2408.10795v2 )

ライセンス: Link先を確認
Yuankai Zhang, Lingxiao Kong, Haozhao Wang, Ruixuan Li, Jun Wang, Yuhua Li, Wei Liu, (参考訳) 入力テキストのサブセットを人間による予測の理解と信頼の合理化として選択する合理化モデルは、最近、eXplainable Artificial Intelligenceにおいて顕著な研究領域として登場した。 しかし、これまでの研究の大部分は、その強固さを悪質な攻撃に無視して、理論の質の向上に重点を置いていた。 具体的には, 合理的化モデルが相変わらず, 敵攻撃下で高品質な合理性を生み出すか否かが不明である。 そこで本研究では,これらのモデルに対する不信感を人から引き出すことなく,合理的化モデルの説明性を損なうことを目的としたUAT2Eを提案する。 UAT2Eはトリガーに勾配に基づくサーチを採用し、元の入力に挿入して非ターゲット攻撃とターゲット攻撃の両方を実行する。 5つのデータセットの実験結果は、説明の観点から合理化モデルの脆弱性を明らかにし、攻撃下でより意味のないトークンを選択する傾向がある。 これに基づいて、説明の観点から合理化モデルを改善するための一連の勧告を行う。

Rationalization models, which select a subset of input text as rationale-crucial for humans to understand and trust predictions-have recently emerged as a prominent research area in eXplainable Artificial Intelligence. However, most of previous studies mainly focus on improving the quality of the rationale, ignoring its robustness to malicious attack. Specifically, whether the rationalization models can still generate high-quality rationale under the adversarial attack remains unknown. To explore this, this paper proposes UAT2E, which aims to undermine the explainability of rationalization models without altering their predictions, thereby eliciting distrust in these models from human users. UAT2E employs the gradient-based search on triggers and then inserts them into the original input to conduct both the non-target and target attack. Experimental results on five datasets reveal the vulnerability of rationalization models in terms of explanation, where they tend to select more meaningless tokens under attacks. Based on this, we make a series of recommendations for improving rationalization models in terms of explanation.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-18
# UKAN: Unbound Kolmogorov-Arnold Network with Accelerated Library

UKAN: Unbound Kolmogorov-Arnold Network Accompanied with Accelerated Library ( http://arxiv.org/abs/2408.11200v2 )

ライセンス: Link先を確認
Alireza Moradzadeh, Lukasz Wawrzyniak, Miles Macklin, Saee G. Paliwal, (参考訳) 本研究では,Kolmogorov-Arnold Networks(KAN)の基盤となるコンポーネントに対するGPU高速化ライブラリと,kansの有界グリッドを除去するアルゴリズムを提案する。 GPU加速ライブラリは、既存のコードと比較して$\mathcal{O}$(grid size)の係数でBasis Spline(B-spline)評価の計算複雑性を低減し、大規模学習のためのバッチ計算を可能にする。 従来のカンの限界を克服するために,有界格子と定数のB-スプライン係数を不要とするアンバウンドカン(UKAN)を導入する。 そこで我々は,KAパラメータ(B-スプライン係数)を係数生成器(CG)モデルに置き換える。 CGモデルへの入力は、負の無限大から正の無限大まで広がる無限対称格子の概念に基づいて設計される。 B-スプライングリッドインデックスの逐次収集であるグリッド群の位置符号化をCGモデルに入力し、B-スプライン関数の効率的な実装(行列表現)によって係数を消費して出力を生成する。 予測可能な回帰,分類,生成タスクについて,いくつかの実験を行った。 特に、UKANは評価のためにデータ正規化や有界領域を必要としない。 さらに,ベンチマークの結果から,既存のコードと比較して,ライブラリのメモリ効率と計算効率が優れていることが示された。

In this work, we present a GPU-accelerated library for the underlying components of Kolmogorov-Arnold Networks (KANs), along with an algorithm to eliminate bounded grids in KANs. The GPU-accelerated library reduces the computational complexity of Basis Spline (B-spline) evaluation by a factor of $\mathcal{O}$(grid size) compared to existing codes, enabling batch computation for large-scale learning. To overcome the limitations of traditional KANs, we introduce Unbounded KANs (UKANs), which eliminate the need for a bounded grid and a fixed number of B-spline coefficients. To do so, we replace the KAN parameters (B-spline coefficients) with a coefficient generator (CG) model. The inputs to the CG model are designed based on the idea of an infinite symmetric grid extending from negative infinity to positive infinity. The positional encoding of grid group, a sequential collection of B-spline grid indexes, is fed into the CG model, and coefficients are consumed by the efficient implementation (matrix representations) of B-spline functions to generate outputs. We perform several experiments on regression, classification, and generative tasks, which are promising. In particular, UKAN does not require data normalization or a bounded domain for evaluation. Additionally, our benchmarking results indicate the superior memory and computational efficiency of our library compared to existing codes.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-18
# 都市サステナビリティのための複合下水道システムのデータ駆動モデリング : 実証評価

Data-driven Modeling of Combined Sewer Systems for Urban Sustainability: An Empirical Evaluation ( http://arxiv.org/abs/2408.11619v2 )

ライセンス: Link先を確認
Vipin Singh, Tianheng Ling, Teodor Chiaburu, Felix Biessmann, (参考訳) 気候変動は複雑な問題を引き起こし、極端な気象現象が頻繁になり、モデル化が困難になる。 例としては、複合下水道システム(CSS)の力学がある。 降雨時の過バーデンCSSは未処理排水を水面に流し込む。 極端な降雨の影響をモデル化するための古典的なアプローチは、大規模な都市インフラを作るのが特に困難である物理シミュレーションに依存している。 ディープラーニング(DL)モデルは、下水道システムの複雑な力学をモデル化するためのコスト効率の良い代替手段を提供する。 本研究では,大都市における下水道システムの動態を3年間の計測データを用いて予測するための,最新のDL時系列モデルの総合的評価を行った。 特に,下水道システム内の全変数にアクセス可能なグローバルモデルと,ローカルセンサの制限されたデータに制限されたローカルモデルを比較することで,ネットワーク障害時の予測精度を維持するためのDLモデルの可能性を検討する。 本研究は,ネットワークの停止条件下においても,DLモデルを用いて下水道システムの負荷変動を正確に予測できることを示した。 これらの結果から, DLモデルはCSSにおける負荷再分配のバランスを効果的に支援し, 都市インフラの持続可能性やレジリエンスを高めることが示唆された。

Climate change poses complex challenges, with extreme weather events becoming increasingly frequent and difficult to model. Examples include the dynamics of Combined Sewer Systems (CSS). Overburdened CSS during heavy rainfall will overflow untreated wastewater into surface water bodies. Classical approaches to modeling the impact of extreme rainfall events rely on physical simulations, which are particularly challenging to create for large urban infrastructures. Deep Learning (DL) models offer a cost-effective alternative for modeling the complex dynamics of sewer systems. In this study, we present a comprehensive empirical evaluation of several state-of-the-art DL time series models for predicting sewer system dynamics in a large urban infrastructure, utilizing three years of measurement data. We especially investigate the potential of DL models to maintain predictive precision during network outages by comparing global models, which have access to all variables within the sewer system, and local models, which are limited to data from a restricted set of local sensors. Our findings demonstrate that DL models can accurately predict the dynamics of sewer system load, even under network outage conditions. These results suggest that DL models can effectively aid in balancing the load redistribution in CSS, thereby enhancing the sustainability and resilience of urban infrastructures.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-18
# 動的PDB:タンパク質構造における動的挙動と物性の統合による新しいデータセットとSE(3)モデル拡張

Dynamic PDB: A New Dataset and a SE(3) Model Extension by Integrating Dynamic Behaviors and Physical Properties in Protein Structures ( http://arxiv.org/abs/2408.12413v3 )

ライセンス: Link先を確認
Ce Liu, Jun Wang, Zhiqiang Cai, Yingxu Wang, Huizhen Kuang, Kaihui Cheng, Liwei Zhang, Qingkun Su, Yining Tang, Fenglei Cao, Limei Han, Siyu Zhu, Yuan Qi, (参考訳) 静的なタンパク質の構造の収集と予測が著しく進歩したにもかかわらず、その最も重要な特徴の一つであるタンパク質の動的挙動は、以前の研究でほとんど見落とされた。 この監視は、動的タンパク質データセットの可用性、多様性、不均一性に起因している。 このギャップに対処するために、動的データと追加の物理特性を統合することにより、PDB(Protein Data Bank)のような既存の高名な静的3Dタンパク質構造データベースを強化することを提案する。 具体的には、約12.6Kのタンパク質を含む大規模データセットであるDynamic PDBを導入し、1マイクロ秒間の全原子分子動力学シミュレーションを行い、コンフォメーション変化を捉える。 さらに、原子速度と力、タンパク質の電位および運動エネルギー、シミュレーション環境の温度など、シミュレーションを通して1ピコ秒間隔で記録された、総合的な物理特性スイートを提供する。 本研究は, 軌道予測の課題に対して, 提案したデータセット上での最先端手法の評価を行う。 タンパク質力学および関連モデル設計の研究において、よりリッチな物理特性を統合することの価値を実証するために、我々はSE(3)拡散モデルに基づくアプローチを行い、これらの物理特性を軌道予測プロセスに組み込む。 予備的な結果から, このSE(3)モデルの直接拡張は, 提案された物理特性を考慮すると, MAE および RMSD によって測定された精度が向上することが示された。 https://fudan-generative-vision.github.io/dynamicPDB/

Despite significant progress in static protein structure collection and prediction, the dynamic behavior of proteins, one of their most vital characteristics, has been largely overlooked in prior research. This oversight can be attributed to the limited availability, diversity, and heterogeneity of dynamic protein datasets. To address this gap, we propose to enhance existing prestigious static 3D protein structural databases, such as the Protein Data Bank (PDB), by integrating dynamic data and additional physical properties. Specifically, we introduce a large-scale dataset, Dynamic PDB, encompassing approximately 12.6K proteins, each subjected to all-atom molecular dynamics (MD) simulations lasting 1 microsecond to capture conformational changes. Furthermore, we provide a comprehensive suite of physical properties, including atomic velocities and forces, potential and kinetic energies of proteins, and the temperature of the simulation environment, recorded at 1 picosecond intervals throughout the simulations. For benchmarking purposes, we evaluate state-of-the-art methods on the proposed dataset for the task of trajectory prediction. To demonstrate the value of integrating richer physical properties in the study of protein dynamics and related model design, we base our approach on the SE(3) diffusion model and incorporate these physical properties into the trajectory prediction process. Preliminary results indicate that this straightforward extension of the SE(3) model yields improved accuracy, as measured by MAE and RMSD, when the proposed physical properties are taken into consideration. https://fudan-generative-vision.github.io/dynamicPDB/ .
翻訳日:2024-09-19 22:32:32 公開日:2024-09-18
# Mask-Encoded Sparsification:コミュニケーション効率の良いスプリット学習におけるバイアス付き勾配の緩和

Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning ( http://arxiv.org/abs/2408.13787v2 )

ライセンス: Link先を確認
Wenxuan Zhou, Zhihao Qu, Shen-Huan Lyu, Miao Cai, Baoliu Ye, (参考訳) 本稿では,資源制約のあるデバイスが大規模モデルトレーニングに関わっている,スプリットラーニング(SL)シナリオにおける高い圧縮比を達成するために設計された,新しいフレームワークを提案する。 本研究は, SL内の特徴写像を圧縮することにより, 収束率に悪影響を及ぼし, 結果の一般化能力を低下させるバイアス勾配が生じることを示した。 我々の理論的分析は,従来の手法が過小評価していたSL性能を,圧縮誤差が批判的に阻害する方法についての知見を提供する。 これらの課題に対処するために、時間的複雑さを増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。 厳密な理論解析により,本フレームワークは圧縮誤差を大幅に低減し,収束を加速する。 また,本手法が訓練効率と通信複雑性に関する既存ソリューションより優れていることを検証する。

This paper introduces a novel framework designed to achieve a high compression ratio in Split Learning (SL) scenarios where resource-constrained devices are involved in large-scale model training. Our investigations demonstrate that compressing feature maps within SL leads to biased gradients that can negatively impact the convergence rates and diminish the generalization capabilities of the resulting models. Our theoretical analysis provides insights into how compression errors critically hinder SL performance, which previous methodologies underestimate. To address these challenges, we employ a narrow bit-width encoded mask to compensate for the sparsification error without increasing the order of time complexity. Supported by rigorous theoretical analysis, our framework significantly reduces compression errors and accelerates the convergence. Extensive experiments also verify that our method outperforms existing solutions regarding training efficiency and communication complexity.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-18
# オントチャットと参加型プロンプトによるオントロジー要求工学の改善

Improving Ontology Requirements Engineering with OntoChat and Participatory Prompting ( http://arxiv.org/abs/2408.15256v3 )

ライセンス: Link先を確認
Yihang Zhao, Bohui Zhang, Xi Hu, Shuyin Ouyang, Jongmo Kim, Nitisha Jain, Jacopo de Berardinis, Albert Meroño-Peñuela, Elena Simperl, (参考訳) 過去のオントロジー要件エンジニアリング(ORE)は、特に大規模プロジェクトでは、特にドメインの専門家からユーザー要求を集めるために、インタビューや共同フォーラムのような手動の手法に依存してきた。 Current OntoChatは,ユーザストーリ生成,能力質問(CQ)抽出,CQフィルタリングと分析,オントロジーテストサポートという,4つの重要な機能を通じてプロセスを合理化するための,大規模な言語モデル(LLM)を利用する,ORE用のフレームワークを提供する。 OntoChatでは、ユーザーはチャットボットにユーザーストーリーを生成するよう促すことが期待されている。 しかし、予備評価の結果、彼らはこれを効果的に行うのに苦労していることがわかった。 この問題に対処するため,私たちは,LLMの深い知識を必要とせずにチャットボットをより効果的に活用するための研究者によるインタラクションを含む,参加型プロンプトと呼ばれる研究手法を実験した。 この参加的なユーザスタディは、ユーザクエリに基づいた事前定義されたプロンプトテンプレートを生成し、ペルソナ、ゴール、シナリオ、サンプルデータ、ユーザストーリーのデータリソースの作成と精錬に重点を置いている。 これらの洗練されたユーザーストーリーはその後CQに変換される。

Past ontology requirements engineering (ORE) has primarily relied on manual methods, such as interviews and collaborative forums, to gather user requirements from domain experts, especially in large projects. Current OntoChat offers a framework for ORE that utilises large language models (LLMs) to streamline the process through four key functions: user story creation, competency question (CQ) extraction, CQ filtration and analysis, and ontology testing support. In OntoChat, users are expected to prompt the chatbot to generate user stories. However, preliminary evaluations revealed that they struggle to do this effectively. To address this issue, we experimented with a research method called participatory prompting, which involves researcher-mediated interactions to help users without deep knowledge of LLMs use the chatbot more effectively. This participatory prompting user study produces pre-defined prompt templates based on user queries, focusing on creating and refining personas, goals, scenarios, sample data, and data resources for user stories. These refined user stories will subsequently be converted into CQs.
翻訳日:2024-09-19 22:32:32 公開日:2024-09-18
# ミニショギにおける到達可能な位置の数の推定

Estimating the number of reachable positions in Minishogi ( http://arxiv.org/abs/2409.00129v2 )

ライセンス: Link先を確認
Sotaro Ishii, Tetsuro Tanaka, (参考訳) 五郷正儀)を強固に解決する可能性を検討するためには、その到達可能な位置の数を初期位置から知る必要がある。 しかし、ミニショギの正当性を確認することは困難であるため、現在、下限と上限の間には大きなギャップが残っている。 本論文では、一様ランダムサンプリングを用いて候補位置を生成し、初期位置からの一連の法的移動により到達可能な位置の比率を測定することにより、到達可能な位置の数を推定する。 実験の結果、到達可能なミニショギ位置の数はおよそ2.38\times 10^{18}$であることがわかった。

To investigate the feasibility of strongly solving Minishogi (Gogo Shogi), it is necessary to know the number of its reachable positions from the initial position. However, there currently remains a significant gap between the lower and upper bounds of the value, since checking the legality of a Minishogi position is difficult. In this paper, the authors estimate the number of reachable positions by generating candidate positions using uniform random sampling and measuring the proportion of those reachable by a series of legal moves from the initial position. The experimental results reveal that the number of reachable Minishogi positions is approximately $2.38\times 10^{18}$.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-18
# LM-Gaussian:大型モデルプリミティブによるスパースビュー3次元ガウススプラッティング

LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors ( http://arxiv.org/abs/2409.03456v2 )

ライセンス: Link先を確認
Hanyang Yu, Xiaoxiao Long, Ping Tan, (参考訳) 本研究では,大規模視覚モデルからの事前情報を活用することで,3次元シーンのスパースビュー再構築を実現することを目的とする。 近年の3Dガウス・スプラッティング(3DGS)のような進歩は、3D再構成において顕著な成果を上げているが、これらの手法は典型的には数百の入力画像を必要とするため、背景のシーンを密に捉え、現実のアプリケーションには時間がかかり、実用的ではない。 しかし、スパースビューの再構築は本質的に不適切であり、制約が低く、多くの場合、劣等な結果と不完全な結果をもたらす。 これは初期化の失敗、入力イメージの過度な適合、詳細の欠如などの問題によるものである。 これらの課題を軽減するために,限られた画像から高品質な再構成を生成できるLM-Gaussianを導入する。 具体的には,カメラポーズと信頼性のある点雲の回復を支援するために,ステレオ先行情報を活用する頑健な初期化モジュールを提案する。 さらに、拡散に基づく精細化を反復的に適用して、画像拡散先行をガウス最適化プロセスに組み込んで、複雑なシーンの詳細を保存する。 最後に,映像拡散前処理を利用して,リアルな視覚効果のためのレンダリング画像をさらに強化する。 提案手法は,従来の3DGS法と比較して,データ取得要求を大幅に削減する。 我々は,様々な公開データセットを用いた実験を通じて,フレームワークの有効性を検証し,高品質な360度シーン再構築の可能性を示した。 ビジュアルな結果は私たちのWebサイトにあります。

We aim to address sparse-view reconstruction of a 3D scene by leveraging priors from large-scale vision models. While recent advancements such as 3D Gaussian Splatting (3DGS) have demonstrated remarkable successes in 3D reconstruction, these methods typically necessitate hundreds of input images that densely capture the underlying scene, making them time-consuming and impractical for real-world applications. However, sparse-view reconstruction is inherently ill-posed and under-constrained, often resulting in inferior and incomplete outcomes. This is due to issues such as failed initialization, overfitting on input images, and a lack of details. To mitigate these challenges, we introduce LM-Gaussian, a method capable of generating high-quality reconstructions from a limited number of images. Specifically, we propose a robust initialization module that leverages stereo priors to aid in the recovery of camera poses and the reliable point clouds. Additionally, a diffusion-based refinement is iteratively applied to incorporate image diffusion priors into the Gaussian optimization process to preserve intricate scene details. Finally, we utilize video diffusion priors to further enhance the rendered images for realistic visual effects. Overall, our approach significantly reduces the data acquisition requirements compared to previous 3DGS methods. We validate the effectiveness of our framework through experiments on various public datasets, demonstrating its potential for high-quality 360-degree scene reconstruction. Visual results are on our website.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-18
# 希少なMIP課題解決のための大規模言語モデルの活用

Leveraging Large Language Models for Solving Rare MIP Challenges ( http://arxiv.org/abs/2409.04464v2 )

ライセンス: Link先を確認
Teng Wang, Wing-Yin Yu, Ruifeng She, Wenhan Yang, Taijie Chen, Jianping Zhang, (参考訳) MIP(Mixed Integer Programming)は、数学的な解法が厳密な時間制約の中で複雑なインスタンスに対処する必要がある領域で広く適用されている。 しかし、問題スケールが大きくなるにつれて、モデル定式化と実現可能な解の発見の複雑さは著しく増大する。 対照的に、大規模言語モデル(LLM)のようなエンド・ツー・エンドモデルのモデル構築コストは、パターン認識能力による問題スケールの影響をほとんど受けていない。 GPT-4のようなLPMは、微調整なしで、従来の中規模のMIP問題に対処できるが、通常ではない、あるいは高度に専門化されたMIPシナリオに苦しむ。 微調整LDMは中規模のMIPインスタンスに対して実現可能な解が得られるが、これらのモデルは通常、低温で一定の温度で制約された場合、様々な解を探索できず、性能が制限される。 本稿では,チェーン・オブ・シント・アプローチと統合された再帰的動的温度法を提案し,評価する。 以上の結果から,高温から徐々に低下すると,他の動的温度戦略と比較して,実現可能な解が得られることが示唆された。 また, LLM と Gurobi の結果を比較することにより, LLM が従来の解法を補完する解を生成できることを示した。

Mixed Integer Programming (MIP) has been extensively applied in areas requiring mathematical solvers to address complex instances within tight time constraints. However, as the problem scale increases, the complexity of model formulation and finding feasible solutions escalates significantly. In contrast, the model-building cost for end-to-end models, such as large language models (LLMs), remains largely unaffected by problem scale due to their pattern recognition capabilities. While LLMs, like GPT-4, without fine-tuning, can handle some traditional medium-scale MIP problems, they struggle with uncommon or highly specialized MIP scenarios. Fine-tuning LLMs can yield some feasible solutions for medium-scale MIP instances, but these models typically fail to explore diverse solutions when constrained by a low and constant temperature, limiting their performance. In this paper, we propose and evaluate a recursively dynamic temperature method integrated with a chain-of-thought approach. Our findings show that starting with a high temperature and gradually lowering it leads to better feasible solutions compared to other dynamic temperature strategies. Additionally, by comparing results generated by the LLM with those from Gurobi, we demonstrate that the LLM can produce solutions that complement traditional solvers by accelerating the pruning process and improving overall efficiency.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-18
# 肝硬変の検出精度向上のための2つの拡張法の比較検討

Comparison of Two Augmentation Methods in Improving Detection Accuracy of Hemarthrosis ( http://arxiv.org/abs/2409.05225v2 )

ライセンス: Link先を確認
Qianyu Fan, (参考訳) コンピュータ能力の増大に伴い、血液が正常に凝固できないまれな疾患である血友病のような医学的診断や検査に役立てるために、医療画像の機械学習モデルが導入された。 血友病を検知するボトルネックの1つは、アルゴリズムをトレーニングして精度を高めるデータがないことである。 そこで本研究では,データ合成による拡張データの導入や,従来の拡張技術がモデルの精度を向上し,疾患の診断に役立てるかどうかを検討した。 本研究では,VGG-16により超音波画像の特徴を抽出し,実画像,合成画像,拡張画像(Real vs. Real, Syn, Real vs. Different Batches of Syn, Real vs. Augmentation Techniques)の異なる分布の抽出特徴に基づくコサイン類似度尺度を用いて類似度を比較した。 EffientNet-B4を用いて2つの拡張手法で「血」画像を認識するモデルテスト性能について検討した。 さらに、勾配重み付きクラスアクティベーションマッピング(Grad-CAM)の可視化により、精度の低下などの予期せぬ結果を解釈した。 合成画像と実画像は高い類似度を示しておらず、平均類似度スコアは0.4737である。 合成バッチ1データセットと水平フリップによる画像は、オリジナルの画像とよりよく似ている。 古典的な拡張技術とデータ合成はモデルの精度を向上させることができ、従来の拡張技術によるデータは合成データよりも優れたパフォーマンスを持つ。 さらに、Grad-CAMのヒートマップでは、精度の低下はドメインの変化によるものであることが判明した。 全体として、データ合成と従来の拡張技術という2つの拡張法が、希少な疾患の診断に役立てるために、精度をある程度向上させることが判明した。

With the increase of computing power, machine learning models in medical imaging have been introduced to help in rending medical diagnosis and inspection, like hemophilia, a rare disorder in which blood cannot clot normally. Often, one of the bottlenecks of detecting hemophilia is the lack of data available to train the algorithm to increase the accuracy. As a possible solution, this research investigated whether introducing augmented data by data synthesis or traditional augmentation techniques can improve model accuracy, helping to diagnose the diseases. To tackle this research, features of ultrasound images were extracted by the pre-trained VGG-16, and similarities were compared by cosine similarity measure based on extracted features in different distributions among real images, synthetic images, and augmentation images (Real vs. Real, Syn vs. Syn, Real vs. Different Batches of Syn, Real vs. Augmentation Techniques). Model testing performance was investigated using EffientNet-B4 to recognize "blood" images with two augmentation methods. In addition, a gradient-weighted class activation mapping (Grad-CAM) visualization was used to interpret the unexpected results like loss of accuracy. Synthetic and real images do not show high similarity, with a mean similarity score of 0.4737. Synthetic batch 1 dataset and images by horizontal flip are more similar to the original images. Classic augmentation techniques and data synthesis can improve model accuracy, and data by traditional augmentation techniques have a better performance than synthetic data. In addition, the Grad-CAM heatmap figured out the loss of accuracy is due to a shift in the domain. Overall, this research found that two augmentation methods, data synthesis and traditional augmentation techniques, both can improve accuracy to a certain extent to help to diagnose rare diseases.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-18
# 大規模言語モデルを用いたロバストな知識集中型質問応答モデルの構築に向けて

Towards Building a Robust Knowledge Intensive Question Answering Model with Large Language Models ( http://arxiv.org/abs/2409.05385v3 )

ライセンス: Link先を確認
Xingyun Hong, Yan Shao, Zhilin Wang, Manni Duan, Jin Xiongnan, (参考訳) LLMの開発は質問応答のインテリジェンスと流布度を大幅に向上させ、検索強化の出現により、モデルが外部情報をよりよく活用できるようになった。 しかし、抽出された情報にノイズや誤りがあることは、LLMの堅牢性に困難をもたらす。 本研究では、複数の干渉下でモデルの性能を評価するために、まず、クリティカル情報欠如、ノイズ、コンフリクトなど、さまざまなシナリオをシミュレートした機械学習理解データセットに基づいてデータセットを構築する。 ノイズのある外部情報によるモデル精度低下の問題に対処するため,LLMのノイズに対する頑健性を高めるためのデータ拡張に基づく微調整手法を提案する。 さらに,外部情報の識別能力を維持するために,コントラスト学習手法を用いる。 その結果,提案手法はモデルの識別能力を高めつつ,モデルロバスト性を向上させることが示唆された。

The development of LLMs has greatly enhanced the intelligence and fluency of question answering, while the emergence of retrieval enhancement has enabled models to better utilize external information. However, the presence of noise and errors in retrieved information poses challenges to the robustness of LLMs. In this work, to evaluate the model's performance under multiple interferences, we first construct a dataset based on machine reading comprehension datasets simulating various scenarios, including critical information absence, noise, and conflicts. To address the issue of model accuracy decline caused by noisy external information, we propose a data augmentation-based fine-tuning method to enhance LLM's robustness against noise. Additionally, contrastive learning approach is utilized to preserve the model's discrimination capability of external information. We have conducted experiments on both existing LLMs and our approach, the results are evaluated by GPT-4, which indicates that our proposed methods improve model robustness while strengthening the model's discrimination capability.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-18
# 変圧器を用いた時間グラフニューラルネットワークの再構成

Retrofitting Temporal Graph Neural Networks with Transformer ( http://arxiv.org/abs/2409.05477v3 )

ライセンス: Link先を確認
Qiang Huang, Xiao Yan, Xin Wang, Susie Xi Rao, Zhichao Han, Fangcheng Fu, Wentao Zhang, Jiawei Jiang, (参考訳) テンポラルグラフニューラルネットワーク(TGNN)は、時間情報をグラフベースの操作に組み込むことで、通常のGNNより優れている。 しかし、TGNNは特別なモデル(TGN、TGAT、APANなど)を採用しており、適切なトレーニングフレームワーク(TGL、ETCなど)を必要とする。 本稿では,TGNNのバックボーンモデルとしてTransformerデコーダを用いたTF-TGNを提案する。 特にTransformerは言語モデリングにおいて大きな成功を収めており、コミュニティは高性能カーネル(例えば、フラッシュアテンションとメモリ効率の注意)と効率的な分散トレーニングスキーム(例えば、PyTorch FSDP、DeepSpeed、Megatron-LM)を開発した。 我々は,TGNNが言語モデリングに類似していること,すなわち,TGNNにおける時系列的に発生するノードとその隣接ノード間のメッセージアグリゲーション操作を,シーケンスモデリングとして構造化することができることを観察した。 この類似性に加えて、接尾辞の埋め込み、自己ループによる時間グラフの注意、TF-TGNを機能させるために因果マスキングの自己注意を含む一連のアルゴリズム設計も取り入れている。 トレーニング中、既存のシステムはグラフトポロジを変換し、グラフサンプリングを行うのが遅い。 そこで本研究では,CSRフォーマット変換とグラフサンプリングを並列化する手法を提案する。 また、Transformerのコードベースを適用して、TF-TGNを複数のGPUで効率的にトレーニングする。 9つのグラフを実験し、2つの最先端TGNNトレーニングフレームワークと比較した。 その結果、TF-TGNは既存のSOTA TGNNと同等またはそれ以上の精度でトレーニングを2.20以上加速できることがわかった。 TF-TGNはhttps://github.com/qianghuangwhu/TF-TGNで利用可能である。

Temporal graph neural networks (TGNNs) outperform regular GNNs by incorporating time information into graph-based operations. However, TGNNs adopt specialized models (e.g., TGN, TGAT, and APAN ) and require tailored training frameworks (e.g., TGL and ETC). In this paper, we propose TF-TGN, which uses Transformer decoder as the backbone model for TGNN to enjoy Transformer's codebase for efficient training. In particular, Transformer achieves tremendous success for language modeling, and thus the community developed high-performance kernels (e.g., flash-attention and memory-efficient attention) and efficient distributed training schemes (e.g., PyTorch FSDP, DeepSpeed, and Megatron-LM). We observe that TGNN resembles language modeling, i.e., the message aggregation operation between chronologically occurring nodes and their temporal neighbors in TGNNs can be structured as sequence modeling. Beside this similarity, we also incorporate a series of algorithm designs including suffix infilling, temporal graph attention with self-loop, and causal masking self-attention to make TF-TGN work. During training, existing systems are slow in transforming the graph topology and conducting graph sampling. As such, we propose methods to parallelize the CSR format conversion and graph sampling. We also adapt Transformer codebase to train TF-TGN efficiently with multiple GPUs. We experiment with 9 graphs and compare with 2 state-of-the-art TGNN training frameworks. The results show that TF-TGN can accelerate training by over 2.20 while providing comparable or even superior accuracy to existing SOTA TGNNs. TF-TGN is available at https://github.com/qianghuangwhu/TF-TGN.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-18
# Match-3ゲームにおける自動検証による条件レベル生成の改善

Improving Conditional Level Generation using Automated Validation in Match-3 Games ( http://arxiv.org/abs/2409.06349v2 )

ライセンス: Link先を確認
Monica Villanueva Aylagas, Joakim Bergdahl, Jonas Gillberg, Alessandro Sestini, Theodor Tolstoy, Linus Gisslén, (参考訳) レベル生成のための生成モデルは、ゲーム生産に大きな可能性を示している。 しかし、それらはしばしば生成を限定的に制御し、生成されたレベルの妥当性は信頼できない。 この事実にもかかわらず、既存のデータから学習するアプローチは、ユーザが生成を制御する方法を提供し、同時に解決不可能なレベルの生成に対処する。 自動化によって生成されたレベルが解決できないため、バリデーションが必要になる可能性がある。 常に関与し 挑戦し 解決できるわけではありません 本稿では,ゲームプレイから抽出した難易度統計を用いて,既存のレベル設計から学習するモデルを改善する新しい手法であるAvalonを提案する。 特に、条件付き変分オートエンコーダを用いて、Match-3レベルのレイアウトを生成し、難易度のようなゲーム力学や、サイズや対称性のような関連する視覚的特徴といった事前コンパイルされた統計にモデルを条件付けする。 我々の手法は、これらの統計を生成するために複数のアプローチを使用できるほど一般的である。 条件付けの困難さを伴わないアブレーションモデルと比較することにより,我々のアプローチを定量的に評価する。 さらに、データセットのスタイルが生成されたレベルに保存されているかどうかを定量的に、質的に分析する。 提案手法は条件付けを困難にすることなく,同じ手法よりも有効なレベルを生成する。

Generative models for level generation have shown great potential in game production. However, they often provide limited control over the generation, and the validity of the generated levels is unreliable. Despite this fact, only a few approaches that learn from existing data provide the users with ways of controlling the generation, simultaneously addressing the generation of unsolvable levels. %One of the main challenges it faces is that levels generated through automation may not be solvable thus requiring validation. are not always engaging, challenging, or even solvable. This paper proposes Avalon, a novel method to improve models that learn from existing level designs using difficulty statistics extracted from gameplay. In particular, we use a conditional variational autoencoder to generate layouts for match-3 levels, conditioning the model on pre-collected statistics such as game mechanics like difficulty and relevant visual features like size and symmetry. Our method is general enough that multiple approaches could potentially be used to generate these statistics. We quantitatively evaluate our approach by comparing it to an ablated model without difficulty conditioning. Additionally, we analyze both quantitatively and qualitatively whether the style of the dataset is preserved in the generated levels. Our approach generates more valid levels than the same method without difficulty conditioning.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-18
# コンピュータビジョンにおける倫理的課題: 公開データセットにおけるプライバシの確保とバイアスの緩和

Ethical Challenges in Computer Vision: Ensuring Privacy and Mitigating Bias in Publicly Available Datasets ( http://arxiv.org/abs/2409.10533v2 )

ライセンス: Link先を確認
Ghalib Ahmed Tahir, (参考訳) 本稿では,コンピュータビジョン技術の創造と展開に関する倫理的問題,特に公開データセットの利用に関して,光を当てることを目的としている。 機械学習と人工知能の急速な成長により、コンピュータビジョンは医療、セキュリティシステム、貿易など多くの産業において重要なツールとなっている。 しかし、その影響についての情報的な議論により、同意なく収集されることが多い視覚的データの広範な使用は、プライバシーと偏見に関する重大な懸念を提起する。 また、コンピュータビジョンモデルのトレーニングに通常使用されるCOCO、LFW、ImageNet、CelebA、PASCAL VOCなどの一般的なデータセットを分析して、これらの問題についても検討する。 我々は、個人の権利の保護、バイアスの最小化、開放性と責任に関するこれらの課題に対処する包括的な倫理的枠組みを提供する。 我々は、社会的な価値と倫理的基準を考慮に入れたAI開発を奨励し、公共の害を避けることを目指している。

This paper aims to shed light on the ethical problems of creating and deploying computer vision tech, particularly in using publicly available datasets. Due to the rapid growth of machine learning and artificial intelligence, computer vision has become a vital tool in many industries, including medical care, security systems, and trade. However, extensive use of visual data that is often collected without consent due to an informed discussion of its ramifications raises significant concerns about privacy and bias. The paper also examines these issues by analyzing popular datasets such as COCO, LFW, ImageNet, CelebA, PASCAL VOC, etc., that are usually used for training computer vision models. We offer a comprehensive ethical framework that addresses these challenges regarding the protection of individual rights, minimization of bias as well as openness and responsibility. We aim to encourage AI development that will take into account societal values as well as ethical standards to avoid any public harm.
翻訳日:2024-09-19 22:22:45 公開日:2024-09-18
# DrLLM: 大規模言語モデルを用いた Prompt-Enhanced Distributed Denial-of-Service resistance 法

DrLLM: Prompt-Enhanced Distributed Denial-of-Service Resistance Method with Large Language Models ( http://arxiv.org/abs/2409.10561v2 )

ライセンス: Link先を確認
Zhenyu Yin, Shang Liu, Guangyuan Xu, (参考訳) DDoS(Distributed Denial of Service)攻撃の増加はインターネットに大きな脅威をもたらし、DDoS緩和の重要性を強調している。 既存のアプローチのほとんどは、データの特徴を学習するために複雑なトレーニング方法を必要とし、アプリケーションの複雑さと汎用性を高めます。 本稿では,Large Language Models (LLM) を用いたゼロショットシナリオにおける異常なトラフィック情報のマイニングを目的としたDrLLMを提案する。 DrLLMと既存のアプローチのギャップを埋めるために、トラフィックデータのグローバルおよびローカル情報を推論パラダイムに組み込み、データ表現と推論のために、知識埋め込み、トークン埋め込み、プログレッシブロール推論という3つのモジュールを設計する。 さらに,DrLLMの分類能力を向上させるために,サイバーセキュリティ領域におけるプロンプトエンジニアリングの一般化について検討する。 我々のアブレーション実験は、ゼロショットシナリオにおけるDrLLMの適用性を実証し、ネットワーク領域におけるLLMの可能性をさらに実証する。 DrLLMの実装コードはhttps://github.com/liuup/DrLLMでオープンソース化された。

The increasing number of Distributed Denial of Service (DDoS) attacks poses a major threat to the Internet, highlighting the importance of DDoS mitigation. Most existing approaches require complex training methods to learn data features, which increases the complexity and generality of the application. In this paper, we propose DrLLM, which aims to mine anomalous traffic information in zero-shot scenarios through Large Language Models (LLMs). To bridge the gap between DrLLM and existing approaches, we embed the global and local information of the traffic data into the reasoning paradigm and design three modules, namely Knowledge Embedding, Token Embedding, and Progressive Role Reasoning, for data representation and reasoning. In addition we explore the generalization of prompt engineering in the cybersecurity domain to improve the classification capability of DrLLM. Our ablation experiments demonstrate the applicability of DrLLM in zero-shot scenarios and further demonstrate the potential of LLMs in the network domains. DrLLM implementation code has been open-sourced at https://github.com/liuup/DrLLM.
翻訳日:2024-09-19 22:12:27 公開日:2024-09-18
# CMOSを用いた時間領域アナログスパイクニューロンを用いた物理貯留層計算のハードウェアフレンドリーな実装

Hardware-Friendly Implementation of Physical Reservoir Computing with CMOS-based Time-domain Analog Spiking Neurons ( http://arxiv.org/abs/2409.11612v1 )

ライセンス: Link先を確認
Nanako Kimura, Ckristian Duran, Zolboo Byambadorj, Ryosho Nakane, Tetsuya Iizuka, (参考訳) 本稿では、2つの信号遷移の時間間隔とパルス幅という時間領域情報を利用するアナログスパイキングニューロンを導入し、相補的金属酸化物半導体(CMOS)プラットフォーム上でハードウェアフレンドリーな物理貯水池コンピューティング(RC)のためのスパイキングニューラルネットワーク(SNN)を構築する。 内部制御電圧と反対の感度を持つ2つの電圧制御発振器(VCOs)を用いて漏れた集積・発火のニューロンを実現し、2次元平面上の隣接する4つのニューロンのみを用いて、通常のネットワークトポロジを構築することにより、ニューロン接続構造を制限する。 このようなシステムにより、SNNのハードウェア実装を単純化したカウンタベースのリードアウト回路でSNNを構成することができる。 さらに、ボトムアップ統合による別の技術的利点は、ネットワーク内のすべてのニューロン状態を動的にキャプチャする能力であり、時間情報処理における様々な計算タスクのパフォーマンス向上に関するガイドラインの発見に大きく貢献することができる。 RCに必要な様々な非線形物理力学は、単純なネットワーク構造にもかかわらず、結合振動子のようなニューロン間の動的相互作用を通じて集団的挙動によって実現することができる。 行動システムレベルのシミュレーションでは、短期記憶と排他的ORタスクによる物理RCと、97.7%の精度で音声桁認識タスクを実演する。 また,本システムは実用的にも実現可能であり,物理RCのメカニズムを研究する上でも有用である。

This paper introduces an analog spiking neuron that utilizes time-domain information, i.e., a time interval of two signal transitions and a pulse width, to construct a spiking neural network (SNN) for a hardware-friendly physical reservoir computing (RC) on a complementary metal-oxide-semiconductor (CMOS) platform. A neuron with leaky integrate-and-fire is realized by employing two voltage-controlled oscillators (VCOs) with opposite sensitivities to the internal control voltage, and the neuron connection structure is restricted by the use of only 4 neighboring neurons on the 2-dimensional plane to feasibly construct a regular network topology. Such a system enables us to compose an SNN with a counter-based readout circuit, which simplifies the hardware implementation of the SNN. Moreover, another technical advantage thanks to the bottom-up integration is the capability of dynamically capturing every neuron state in the network, which can significantly contribute to finding guidelines on how to enhance the performance for various computational tasks in temporal information processing. Diverse nonlinear physical dynamics needed for RC can be realized by collective behavior through dynamic interaction between neurons, like coupled oscillators, despite the simple network structure. With behavioral system-level simulations, we demonstrate physical RC through short-term memory and exclusive OR tasks, and the spoken digit recognition task with an accuracy of 97.7% as well. Our system is considerably feasible for practical applications and also can be a useful platform for studying the mechanism of physical RC.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-18
# フレキシブルフォールトトレラントゲートガジェット

Flexible Fault Tolerant Gate Gadgets ( http://arxiv.org/abs/2409.11616v1 )

ライセンス: Link先を確認
Eric Kubischta, Ian Teixeira, (参考訳) 我々は、データとアンシラを異なるコードでエンコードできるフレキシブルなフォールトトレラントゲートガジェットを設計する。 アンシラの安定化符号を選択することで、安定化符号と非付加符号の両方を含む一般的な量子符号に対して、クリフォードゲートと非クリフォードゲートの両方のフォールトを許容できる。 これにより、非加法符号に対する最初のユニバーサルフォールトトレラントゲートセットを実演することができる。 我々は、デフォーカスチャネルとデポーラライズチャネルの両方に関して、フォールトトレランスを考慮する。

We design flexible fault tolerant gate gadgets that allow the data and the ancilla to be encoded using different codes. By picking a stabilizer code for the ancilla we are able to perform both Clifford and non-Clifford gates fault tolerantly on generic quantum codes, including both stabilizer and non-additive codes. This allows us to demonstrate the first universal fault tolerant gate set for non-additive codes. We consider fault tolerance both with respect to a dephasing channel and a depolarizing channel.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-18
# HRA:メタヒューリスティック最適化アルゴリズムのランク付けのための多言語フレームワーク

HRA: A Multi-Criteria Framework for Ranking Metaheuristic Optimization Algorithms ( http://arxiv.org/abs/2409.11617v1 )

ライセンス: Link先を確認
Evgenia-Maria K. Goula, Dimitris G. Sotiropoulos, (参考訳) メタヒューリスティックアルゴリズムは、異なる分野における複雑な最適化問題の解決に不可欠である。 しかしながら、これらのアルゴリズムの比較と評価の難しさは、通常発生する幅広いパフォーマンス指標と問題次元が原因である。 一方、非パラメトリックな統計手法やポストホックテストは時間を要する。 Hierarchical Rank Aggregation (HRA) アルゴリズムは、様々な基準や次元でその性能に基づいてメタヒューリスティックアルゴリズムを効率的にランク付けすることを目的としている。 HRAは階層的なフレームワークを採用しており、さまざまなベンチマーク機能やディメンションのパフォーマンス指標の収集から始まる。 ランクに基づく正規化は、コンパラビリティを確保するために各パフォーマンス尺度に使用され、ロバストなTOPSISアグリゲーションは、これらのランキングを複数の階層レベルで組み合わせるために適用され、結果としてアルゴリズムの総合的なランキングとなる。 我々は,CEC 2017コンペティションのデータを用いて,HRAフレームワークの堅牢性と有効性を示す。 30個のベンチマーク関数を調べ、4つの異なる次元の5つの性能指標で13個のメタヒューリスティックアルゴリズムの性能を評価する。 本発表は,特定の最適化問題に対して最も適切なアルゴリズムの実践者による選択を簡略化することにより,HRAが様々なアルゴリズムの比較上の利点と欠点の解釈を強化する可能性を強調するものである。

Metaheuristic algorithms are essential for solving complex optimization problems in different fields. However, the difficulty in comparing and rating these algorithms remains due to the wide range of performance metrics and problem dimensions usually involved. On the other hand, nonparametric statistical methods and post hoc tests are time-consuming, especially when we only need to identify the top performers among many algorithms. The Hierarchical Rank Aggregation (HRA) algorithm aims to efficiently rank metaheuristic algorithms based on their performance across many criteria and dimensions. The HRA employs a hierarchical framework that begins with collecting performance metrics on various benchmark functions and dimensions. Rank-based normalization is employed for each performance measure to ensure comparability and the robust TOPSIS aggregation is applied to combine these rankings at several hierarchical levels, resulting in a comprehensive ranking of the algorithms. Our study uses data from the CEC 2017 competition to demonstrate the robustness and efficacy of the HRA framework. It examines 30 benchmark functions and evaluates the performance of 13 metaheuristic algorithms across five performance indicators in four distinct dimensions. This presentation highlights the potential of the HRA to enhance the interpretation of the comparative advantages and disadvantages of various algorithms by simplifying practitioners' choices of the most appropriate algorithm for certain optimization problems.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-18
# PieClam: 重複する排他的コミュニティに基づくユニバーサルグラフ自動エンコーダ

PieClam: A Universal Graph Autoencoder Based on Overlapping Inclusive and Exclusive Communities ( http://arxiv.org/abs/2409.11618v1 )

ライセンス: Link先を確認
Daniel Zilberg, Ron Levie, (参考訳) そこで我々はPieClam (Prior Inclusive Exclusive Cluster Affiliation Model):任意のグラフを重なり合う一般化されたコミュニティとして表現するための確率的グラフモデルを提案する。 本手法はグラフオートエンコーダとして解釈できる:ノードをコード空間に埋め込むアルゴリズムにより、入力グラフを考慮すれば、デコードされたグラフのログ類似度を最大化する。 PieClamは、BigClamのような有名なメソッドを2つの主要な方法で拡張するコミュニティアフィリエイトモデルである。 まず、デコーダをコード空間内のノード間のペアワイズ相互作用によって定義するのではなく、コード空間内のノードの分布について学習した事前情報を組み込んで、メソッドをグラフ生成モデルに変換する。 第2に,強い接続性を持つノードの集合を包括的コミュニティと呼ぶだけでなく,排他的コミュニティと呼ばれる強い接続性を持つノードの集合を許容することで,コミュニティの概念を一般化する。 両タイプのコミュニティをモデル化するために,ローレンツ内積に基づく新しいタイプのデコーダを提案する。 ログカット距離と呼ばれる新しいグラフ類似度尺度を導入することにより、PieClamは普遍的なオートエンコーダであり、任意のグラフを一様に再構築することができることを示す。 本手法は,グラフ異常検出ベンチマークにおいて競合性能が得られることを示す。

We propose PieClam (Prior Inclusive Exclusive Cluster Affiliation Model): a probabilistic graph model for representing any graph as overlapping generalized communities. Our method can be interpreted as a graph autoencoder: nodes are embedded into a code space by an algorithm that maximizes the log-likelihood of the decoded graph, given the input graph. PieClam is a community affiliation model that extends well-known methods like BigClam in two main manners. First, instead of the decoder being defined via pairwise interactions between the nodes in the code space, we also incorporate a learned prior on the distribution of nodes in the code space, turning our method into a graph generative model. Secondly, we generalize the notion of communities by allowing not only sets of nodes with strong connectivity, which we call inclusive communities, but also sets of nodes with strong disconnection, which we call exclusive communities. To model both types of communities, we propose a new type of decoder based the Lorentz inner product, which we prove to be much more expressive than standard decoders based on standard inner products or norm distances. By introducing a new graph similarity measure, that we call the log cut distance, we show that PieClam is a universal autoencoder, able to uniformly approximately reconstruct any graph. Our method is shown to obtain competitive performance in graph anomaly detection benchmarks.
翻訳日:2024-09-19 19:39:45 公開日:2024-09-18
# 高速残差マルチブランチスパイクニューラルネットワークによるハイパースペクトル画像分類

Hyperspectral Image Classification Based on Faster Residual Multi-branch Spiking Neural Network ( http://arxiv.org/abs/2409.11619v1 )

ライセンス: Link先を確認
Yang Liu, Yahui Li, Rui Li, Liming Zhou, Lanxue Dang, Huiyu Mu, Qiang Ge, (参考訳) 畳み込みニューラルネットワーク(CNN)は、ハイパースペクトル画像(HSI)分類タスクにおいてよく機能するが、その高エネルギー消費と複雑なネットワーク構造により、エッジコンピューティングデバイスに直接適用することは困難である。 現在、スパイキングニューラルネットワーク(SNN)は、低エネルギー消費とイベント駆動特性のため、HSI分類タスクにおいて急速に発展している。 しかし、最適な精度を達成するには、通常、長い時間を要する。 以上の問題に対応して,HSI分類タスクのための漏洩統合火災ニューロンモデルに基づくスパイキングニューラルネットワーク(SNN-SWMR)を構築した。 ネットワークはスパイキング幅混合残差(SWMR)モジュールを基本単位として特徴抽出操作を行う。 スパイキング幅混合残差モジュールは、空間スペクトル特性を効果的に抽出できるスパイキング混合畳み込み(SMC)からなる。 第2に,ダイラック関数を適合させることによりスパイク発火の非微分不可能な問題を解く,単純で効率的なアルコシン近似微分(AAD)を設計する。 AADを通じて、教師付きスパイクニューラルネットワークを直接訓練することができる。 最後に、6つの公開ハイパースペクトルデータセット上のスパイクニューラルネットワークに基づく複数の高度なHSI分類アルゴリズムを用いて比較実験を行った。 実験の結果, AAD関数は強靭性を有し, 適合性も良好であった。 一方、他のアルゴリズムと比較して、SNN-SWMRでは、タイムステップの約84%、トレーニング時間、テスト時間の約63%と70%を同じ精度で削減する必要がある。 本研究では,SNNに基づくHSI分類アルゴリズムの課題を解決し,宇宙機や航空機などのエッジデバイスにおけるHSI分類アルゴリズムの実用化を促進する上で重要な実践的意義を有する。

Convolutional neural network (CNN) performs well in Hyperspectral Image (HSI) classification tasks, but its high energy consumption and complex network structure make it difficult to directly apply it to edge computing devices. At present, spiking neural networks (SNN) have developed rapidly in HSI classification tasks due to their low energy consumption and event driven characteristics. However, it usually requires a longer time step to achieve optimal accuracy. In response to the above problems, this paper builds a spiking neural network (SNN-SWMR) based on the leaky integrate-and-fire (LIF) neuron model for HSI classification tasks. The network uses the spiking width mixed residual (SWMR) module as the basic unit to perform feature extraction operations. The spiking width mixed residual module is composed of spiking mixed convolution (SMC), which can effectively extract spatial-spectral features. Secondly, this paper designs a simple and efficient arcsine approximate derivative (AAD), which solves the non-differentiable problem of spike firing by fitting the Dirac function. Through AAD, we can directly train supervised spike neural networks. Finally, this paper conducts comparative experiments with multiple advanced HSI classification algorithms based on spiking neural networks on six public hyperspectral data sets. Experimental results show that the AAD function has strong robustness and a good fitting effect. Meanwhile, compared with other algorithms, SNN-SWMR requires a time step reduction of about 84%, training time, and testing time reduction of about 63% and 70% at the same accuracy. This study solves the key problem of SNN based HSI classification algorithms, which has important practical significance for promoting the practical application of HSI classification algorithms in edge devices such as spaceborne and airborne devices.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# ブロックチェーンで実現可能なIoV:セキュアなコミュニケーションと信頼できる意思決定

Blockchain-Enabled IoV: Secure Communication and Trustworthy Decision-Making ( http://arxiv.org/abs/2409.11621v1 )

ライセンス: Link先を確認
Jingyi Sun, Qi Shi, Guodong Jin, Hao Xu, Erwu Liu, (参考訳) 車両、インフラ、環境間の相互作用を可能にするインターネット・オブ・ビークルズ(IoV)は、通信セキュリティと信頼性の高い自動決定を維持する上での課題に直面している。 本稿では,車間通信を管理する一次層と,車内通信をセキュアにするためのサブ層からなる分散化フレームワークを提案する。 Blockchain統合セキュア認証(BiSA)や分散ブロックチェーン名前解決(DBNR)といったブロックチェーンベースのプロトコルを実装することにより、セキュアで分散化されたID管理と信頼性の高いデータ交換が保証され、安全で効率的な自動運転車操作をサポートする。

The Internet of Vehicles (IoV), which enables interactions between vehicles, infrastructure, and the environment, faces challenges in maintaining communication security and reliable automated decisions. This paper introduces a decentralized framework comprising a primary layer for managing inter-vehicle communication and a sub-layer for securing intra-vehicle interactions. By implementing blockchain-based protocols like Blockchain-integrated Secure Authentication (BiSA) and Decentralized Blockchain Name Resolution (DBNR), the framework ensures secure, decentralized identity management and reliable data exchanges, thereby supporting safe and efficient autonomous vehicle operations.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# マルチモーダル一般化カテゴリー発見

Multimodal Generalized Category Discovery ( http://arxiv.org/abs/2409.11624v1 )

ライセンス: Link先を確認
Yuchang Su, Renping Zhou, Siyu Huang, Xingjian Li, Tianyang Wang, Ziyue Wang, Min Xu, (参考訳) Generalized Category Discovery (GCD)は、インプットを既知のカテゴリと新しいカテゴリの両方に分類することを目的としている。 しかし、現在のGCD法は、ほとんどの実世界のデータの本質的なマルチモーダルな性質を見越して、単調なデータに限られている。 本研究では,GCDをマルチモーダル・セッティングに拡張し,様々なモダリティからの入力がよりリッチで相補的な情報を提供する。 理論的解析と実証的検証を通じて、多モードGCDにおける鍵となる課題は、モーダル間の異種情報を効果的に整合させることにあると同定する。 そこで本稿では,コントラッシブラーニングと蒸留技術を用いて,異なるモードの特徴空間と出力空間を整合させる新しいフレームワークMM-GCDを提案する。 MM-GCD は UPMC-Food101 と N24News のデータセット上で,それぞれ 11.5\% と 4.7\% を達成している。

Generalized Category Discovery (GCD) aims to classify inputs into both known and novel categories, a task crucial for open-world scientific discoveries. However, current GCD methods are limited to unimodal data, overlooking the inherently multimodal nature of most real-world data. In this work, we extend GCD to a multimodal setting, where inputs from different modalities provide richer and complementary information. Through theoretical analysis and empirical validation, we identify that the key challenge in multimodal GCD lies in effectively aligning heterogeneous information across modalities. To address this, we propose MM-GCD, a novel framework that aligns both the feature and output spaces of different modalities using contrastive learning and distillation techniques. MM-GCD achieves new state-of-the-art performance on the UPMC-Food101 and N24News datasets, surpassing previous methods by 11.5\% and 4.7\%, respectively.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# オーストラリアSTV選挙カウントの慣用的特性

Idiosyncratic properties of Australian STV election counting ( http://arxiv.org/abs/2409.11627v1 )

ライセンス: Link先を確認
Andrew Conway, Michelle Blom, Alexander Ek, Peter J. Stuckey, Vanessa J. Teague, Damjan Vukcevic, (参考訳) シングル・トランスファーブル・ボイト(英: Single Transferable Vote、STV)は、オーストラリアのいくつかの司法管轄区域で使用される、候補者よりも有権者の選好に応じて複数の当選者を選ぶシステムである。 STVの様々なバージョンがオーストラリアで合法化および/または適用されている。 本稿では,これらのシステムの直観的特性について述べる。

Single Transferable Vote (STV) counting, used in several jurisdictions in Australia, is a system for choosing multiple election winners given voters' preferences over candidates. There are a variety of different versions of STV legislated and/or applied across Australia. This paper shows some of the unintuitive properties of some of these systems.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# ボゾン系およびフェルミオン系に対するガウスユニタリ変換の表現論

Representation theory of Gaussian unitary transformations for bosonic and fermionic systems ( http://arxiv.org/abs/2409.11628v1 )

ライセンス: Link先を確認
Tommaso Guaita, Lucas Hackl, Thomas Quella, (参考訳) ガウスのユニタリ変換は二次ハミルトニアヌス、すなわち生成と消滅作用素の二次項を含むハミルトニアヌスによって生成され、量子光学や凝縮物質理論から曲線時空における量子情報や量子場理論まで、多くの量子物理学の領域で広く用いられている。 これらはそれぞれ、ボソンとフェルミオンのメタプレクティック群とスピン群の表現を形成することが知られている。 これらの群はそれぞれシンプレクティック群と特殊直交群の二重被覆であり、これらの群とそれらの二重被覆の間を移動する際に対処する必要がある符号曖昧性の挙動を分析することが目的である。 この符号の曖昧さは、$\langle 0|\exp{(-i\hat{H})}|0\rangle$, ここで、$|0\rangle$はガウス状態であり、$\hat{H}$は任意の二次ハミルトン状態である。 我々は $\langle 0|\exp{(-i\hat{H})}|0\rangle$ に対して閉公式を提供し、指数的に大きいあるいは無限次元空間上で忠実な表現に行くことなく、二重被覆の群乗法を効率的に記述する方法を示す。 我々の構成は、ねじれた U(1) 群と共にシンプレクティックおよび直交群要素の観点でこれらの2つの群(メタプレクティック、スピン)の明示的なパラメトリゼーションに依存している。

Gaussian unitary transformations are generated by quadratic Hamiltonians, i.e., Hamiltonians containing quadratic terms in creations and annihilation operators, and are heavily used in many areas of quantum physics, ranging from quantum optics and condensed matter theory to quantum information and quantum field theory in curved spacetime. They are known to form a representation of the metaplectic and spin group for bosons and fermions, respectively. These groups are the double covers of the symplectic and special orthogonal group, respectively, and our goal is to analyze the behavior of the sign ambiguity that one needs to deal with when moving between these groups and their double cover. We relate this sign ambiguity to expectation values of the form $\langle 0|\exp{(-i\hat{H})}|0\rangle$, where $|0\rangle$ is a Gaussian state and $\hat{H}$ an arbitrary quadratic Hamiltonian. We provide closed formulas for $\langle 0|\exp{(-i\hat{H})}|0\rangle$ and show how we can efficiently describe group multiplications in the double cover without the need of going to a faithful representation on an exponentially large or even infinite-dimensional space. Our construction relies on an explicit parametrization of these two groups (metaplectic, spin) in terms of symplectic and orthogonal group elements together with a twisted U(1) group.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# 簡易SIRモデルによるパンデミック計画問題の解法のための計量ハイブリッド計画手法

A Metric Hybrid Planning Approach to Solving Pandemic Planning Problems with Simple SIR Models ( http://arxiv.org/abs/2409.11631v1 )

ライセンス: Link先を確認
Ari Gestetner, Buser Say, (参考訳) パンデミック(パンデミック)は、広範囲にわたる病気の拡散であり、健康、経済、社会の面で社会に壊滅的なコストをもたらす可能性がある。 このように、効果的なパンデミック緩和戦略の研究は、社会に大きな影響を与える可能性がある。 パンデミックは、Susceptible Infected Removed (SIR)モデルのようなコンパートメンタルモデルを用いて数学的に記述することができる。 本稿では,SIRモデルの解方程式をロックダウンを伴う状態遷移モデルに拡張する。 我々は、この状態遷移モデルに基づいて、計量ハイブリッド計画問題を定式化し、計量ハイブリッドプランナーを用いて解決する。 我々は,有効不等式の追加により,計量ハイブリッドプランナのランタイム性能を向上し,理論的にも実験的にも,様々な困難条件下でのアプローチの成功を実証する。

A pandemic is the spread of a disease across large regions, and can have devastating costs to the society in terms of health, economic and social. As such, the study of effective pandemic mitigation strategies can yield significant positive impact on the society. A pandemic can be mathematically described using a compartmental model, such as the Susceptible Infected Removed (SIR) model. In this paper, we extend the solution equations of the SIR model to a state transition model with lockdowns. We formalize a metric hybrid planning problem based on this state transition model, and solve it using a metric hybrid planner. We improve the runtime effectiveness of the metric hybrid planner with the addition of valid inequalities, and demonstrate the success of our approach both theoretically and experimentally under various challenging settings.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# 痛みの拡散:ロボットは痛みを表現できるか?

PainDiffusion: Can robot express pain? ( http://arxiv.org/abs/2409.11635v1 )

ライセンス: Link先を確認
Quang Tien Dam, Tri Tung Nguyen Nguyen, Dinh Tuan Tran, Joo-Ho Lee, (参考訳) 痛みは、より直感的でユーザーフレンドリーなコミュニケーション方法であり、リハビリテーション看護師のトレーニングロボットに特に有用である。 これまでのほとんどの方法は痛み表現の分類や認識に焦点を合わせてきたが、これらのアプローチはしばしば不自然なジグリングロボットの顔をもたらす。 痛みの刺激に反応して表情を生成するモデルであるPainDiffusionを導入し、痛みの表現力と感情状態を制御する。 PainDiffusionは拡散強制を利用して、条件付き時間的U-Netを用いて任意の長さで予測をロールアウトする。 EMOCAの表情潜在空間内の潜伏拡散モデルとして機能し、コンパクトなデータ表現と高速なレンダリング時間を保証する。 トレーニングデータには、BioVid Heatpain Databaseを処理し、表現コードと対象のアイデンティティ設定を抽出する。 また、痛みの表現を評価するための新しい指標セットを提案し、表現性、多様性、およびモデル生成出力の適切性に着目した。 最後に,PainDiffusionが定性的かつ定量的に自己回帰法より優れていることを示す。 コード、ビデオ、さらに分析は以下の通りである。 \href{https://damtien444.github.io/paindf/}{https://damtien444.github.io/paindf/}。

Pain is a more intuitive and user-friendly way of communicating problems, making it especially useful in rehabilitation nurse training robots. While most previous methods have focused on classifying or recognizing pain expressions, these approaches often result in unnatural, jiggling robot faces. We introduce PainDiffusion, a model that generates facial expressions in response to pain stimuli, with controllable pain expressiveness and emotion status. PainDiffusion leverages diffusion forcing to roll out predictions over arbitrary lengths using a conditioned temporal U-Net. It operates as a latent diffusion model within EMOCA's facial expression latent space, ensuring a compact data representation and quick rendering time. For training data, we process the BioVid Heatpain Database, extracting expression codes and subject identity configurations. We also propose a novel set of metrics to evaluate pain expressions, focusing on expressiveness, diversity, and the appropriateness of model-generated outputs. Finally, we demonstrate that PainDiffusion outperforms the autoregressive method, both qualitatively and quantitatively. Code, videos, and further analysis are available at: \href{https://damtien444.github.io/paindf/}{https://damtien444.github.io/paindf/}.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# 「女は男より文化的に有能か?」--LLMの文化規範解釈に対するペルソナの影響

"A Woman is More Culturally Knowledgeable than A Man?": The Effect of Personas on Cultural Norm Interpretation in LLMs ( http://arxiv.org/abs/2409.11636v1 )

ライセンス: Link先を確認
Mahammed Kamruzzaman, Hieu Nguyen, Nazmul Hassan, Gene Louis Kim, (参考訳) 大規模言語モデル(LLM)の展開が進むにつれ、パーソナライズされたLLMへの需要が高まっている。 これらのモデルのアウトプットをパーソナライズし、ガイドする1つの方法は、パーソナ – LLM(例えば、男性、女性、エンジニア)の期待される振る舞いを記述するロール – を割り当てることである。 本研究では, LLMの社会的規範に対する理解が, 割り当てられたペルソナによって異なるかを検討する。 理想的には、社会的規範の認識はペルソナによらず一貫していなければならない。なぜなら、社会的規範の受容性は、性別、体格、人種といった個々の特徴よりも、その規範が発する地域によって決定されるからである。 規範はその文化的文脈において普遍的である。 本研究は,12の社会デマグラフィーカテゴリー(例えば,年齢,性別,美しさ)から,36の個人を4つの異なるLDMで比較した。 LLMの文化的規範解釈は、使用するペルソナに基づいて変化し、その規範解釈は、より社会的に望ましいペルソナ(例えば、太った人や細い人など)が、より社会的に望ましいペルソナ(例えば、太った人)よりも社会的規範を正確に解釈するソシオデモグラフィーカテゴリー(例えば、太った人や細い人など)内でも変化している。 また、異なるタイプの社会的偏見が観察結果にどのように貢献するかについても論じる。

As the deployment of large language models (LLMs) expands, there is an increasing demand for personalized LLMs. One method to personalize and guide the outputs of these models is by assigning a persona -- a role that describes the expected behavior of the LLM (e.g., a man, a woman, an engineer). This study investigates whether an LLM's understanding of social norms varies across assigned personas. Ideally, the perception of a social norm should remain consistent regardless of the persona, since acceptability of a social norm should be determined by the region the norm originates from, rather than by individual characteristics such as gender, body size, or race. A norm is universal within its cultural context. In our research, we tested 36 distinct personas from 12 sociodemographic categories (e.g., age, gender, beauty) across four different LLMs. We find that LLMs' cultural norm interpretation varies based on the persona used and the norm interpretation also varies within a sociodemographic category (e.g., a fat person and a thin person as in physical appearance group) where an LLM with the more socially desirable persona (e.g., a thin person) interprets social norms more accurately than with the less socially desirable persona (e.g., a fat person). We also discuss how different types of social biases may contribute to the results that we observe.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# BanStereoSet:Stereotypeal Social Biases in LLMs for Bangla

BanStereoSet: A Dataset to Measure Stereotypical Social Biases in LLMs for Bangla ( http://arxiv.org/abs/2409.11638v1 )

ライセンス: Link先を確認
Mahammed Kamruzzaman, Abdullah Al Monsur, Shrabon Das, Enamul Hassan, Gene Louis Kim, (参考訳) 本研究は,Bangla言語用多言語LLMにおけるステレオタイプ的社会的バイアスを評価するためのデータセットであるBanStereoSetを提示する。 英語中心のデータセットを超えてバイアス研究の焦点を拡大するために、私たちはStereoSet、IndiBias、Kamruzzamanらのデータセットからコンテンツをローカライズし、バングラ語コミュニティで広く使われているバイアスを捉えるのに適したリソースを作成しました。 BanStereoSetデータセットは、人種、職業、性別、年齢、美しさ、職業、地域、キャスト、宗教の9つのカテゴリーにまたがる1,194の文で構成されています。 このデータセットは、多言語LLMにおけるバイアスを測定する重要なツールとして機能するだけでなく、様々な社会カテゴリーにわたるステレオタイプバイアスの探索にも役立ち、バングラデシュの文脈におけるより公平な言語技術の発展を導く可能性がある。 このデータセットを用いたいくつかの言語モデルの解析は、より公平な言語技術を開発するために、文化的かつ言語的に適応されたデータセットの必要性を補強する重要なバイアスを示している。

This study presents BanStereoSet, a dataset designed to evaluate stereotypical social biases in multilingual LLMs for the Bangla language. In an effort to extend the focus of bias research beyond English-centric datasets, we have localized the content from the StereoSet, IndiBias, and Kamruzzaman et. al.'s datasets, producing a resource tailored to capture biases prevalent within the Bangla-speaking community. Our BanStereoSet dataset consists of 1,194 sentences spanning 9 categories of bias: race, profession, gender, ageism, beauty, beauty in profession, region, caste, and religion. This dataset not only serves as a crucial tool for measuring bias in multilingual LLMs but also facilitates the exploration of stereotypical bias across different social categories, potentially guiding the development of more equitable language technologies in Bangladeshi contexts. Our analysis of several language models using this dataset indicates significant biases, reinforcing the necessity for culturally and linguistically adapted datasets to develop more equitable language technologies.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# KNN-SINDyハイブリッドモデルを用いた大気質モニタリングネットワークにおけるPM2.5データインプットと予測の強化

Enhancing PM2.5 Data Imputation and Prediction in Air Quality Monitoring Networks Using a KNN-SINDy Hybrid Model ( http://arxiv.org/abs/2409.11640v1 )

ライセンス: Link先を確認
Yohan Choi, Boaz Choi, Jachin Choi, (参考訳) 大気汚染、特に粒子状物質(PM2.5)は公衆衛生と環境に重大なリスクをもたらし、効果的な大気管理のために正確な予測と継続的な監視を必要とする。 しかしながら、空気質モニタリング(AQM)のデータは、様々な技術的困難のために欠落した記録に悩まされることが多い。 本研究では,2016年からのトレーニングデータを用いてPM2.5データの欠落を予測し,その性能を確立されたSoft Impute(SI)およびK-Nearest Neighbors(KNN)手法と比較することにより,非線形ダイナミクスのスパース同定(SINDy)の適用について検討する。

Air pollution, particularly particulate matter (PM2.5), poses significant risks to public health and the environment, necessitating accurate prediction and continuous monitoring for effective air quality management. However, air quality monitoring (AQM) data often suffer from missing records due to various technical difficulties. This study explores the application of Sparse Identification of Nonlinear Dynamics (SINDy) for imputing missing PM2.5 data by predicting, using training data from 2016, and comparing its performance with the established Soft Impute (SI) and K-Nearest Neighbors (KNN) methods.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# DAF-Net:赤外線・可視画像融合に適した領域適応型デュアルブランチ特徴分解融合ネットワーク

DAF-Net: A Dual-Branch Feature Decomposition Fusion Network with Domain Adaptive for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2409.11642v1 )

ライセンス: Link先を確認
Jian Xu, Xin He, (参考訳) 赤外線と可視画像の融合は、両モードの相補的な情報を組み合わせて、より包括的なシーン理解を提供することを目的としている。 しかし、この2つのモードの間に大きな違いがあるため、核融合過程における重要な特徴の保存は依然として課題である。 この問題に対処するために,マルチカーネルの最大平均離散値(MK-MMD)をベースエンコーダに導入し,赤外線と可視光の融合に適したハイブリッドカーネル関数を設計する,ドメイン適応型デュアルブランチ機能分解融合ネットワーク(DAF-Net)を提案する。 Restormerネットワーク上に構築されたベースエンコーダは、グローバルな構造情報をキャプチャし、Invertible Neural Networks (INN)に基づくディテールエンコーダは、ディテールテクスチャ情報の抽出に重点を置いている。 MK-MMDを組み込むことで、DAF-Netは可視画像と赤外線画像の潜在特徴空間を効果的に整列し、融合画像の品質を向上させる。 実験の結果,提案手法は複数のデータセットにまたがる既存の手法よりも優れており,視覚的品質と融合性能が著しく向上していることがわかった。 関連するPythonコードはhttps://github.com/xujian000/DAF-Netで公開されている。

Infrared and visible image fusion aims to combine complementary information from both modalities to provide a more comprehensive scene understanding. However, due to the significant differences between the two modalities, preserving key features during the fusion process remains a challenge. To address this issue, we propose a dual-branch feature decomposition fusion network (DAF-Net) with domain adaptive, which introduces Multi-Kernel Maximum Mean Discrepancy (MK-MMD) into the base encoder and designs a hybrid kernel function suitable for infrared and visible image fusion. The base encoder built on the Restormer network captures global structural information while the detail encoder based on Invertible Neural Networks (INN) focuses on extracting detail texture information. By incorporating MK-MMD, the DAF-Net effectively aligns the latent feature spaces of visible and infrared images, thereby improving the quality of the fused images. Experimental results demonstrate that the proposed method outperforms existing techniques across multiple datasets, significantly enhancing both visual quality and fusion performance. The related Python code is available at https://github.com/xujian000/DAF-Net.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# LLMによる携帯電話の盗聴:我々はどこに立つのか?

Combating Phone Scams with LLM-based Detection: Where Do We Stand? ( http://arxiv.org/abs/2409.11643v1 )

ライセンス: Link先を確認
Zitong Shen, Kangzhong Wang, Youqian Zhang, Grace Ngai, Eugene Y. Fu, (参考訳) 電話詐欺は個人やコミュニティに重大な脅威をもたらし、経済的損失と感情的な苦痛を引き起こしている。 これらの詐欺と闘う努力を続けているにもかかわらず、詐欺師は戦術を適応し、洗練し続けており、革新的な対策を探求することが不可欠である。 本研究では,大規模言語モデル(LLM)による不正通話の検出の可能性について検討する。 詐欺師と被害者の会話のダイナミクスを分析することで、LSMベースの検知器は潜在的な詐欺を検知し、即座にユーザーを保護することができる。 このようなアプローチは有望な結果を示す一方で、バイアス付きデータセットの課題、比較的低いリコール、そしてこの分野のさらなる進歩のために対処する必要がある幻覚も認識している。

Phone scams pose a significant threat to individuals and communities, causing substantial financial losses and emotional distress. Despite ongoing efforts to combat these scams, scammers continue to adapt and refine their tactics, making it imperative to explore innovative countermeasures. This research explores the potential of large language models (LLMs) to provide detection of fraudulent phone calls. By analyzing the conversational dynamics between scammers and victims, LLM-based detectors can identify potential scams as they occur, offering immediate protection to users. While such approaches demonstrate promising results, we also acknowledge the challenges of biased datasets, relatively low recall, and hallucinations that must be addressed for further advancement in this field
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# 胸部X線画像に基づく結核分類のFew-Shot Learningアプローチ

Few-Shot Learning Approach on Tuberculosis Classification Based on Chest X-Ray Images ( http://arxiv.org/abs/2409.11644v1 )

ライセンス: Link先を確認
A. A. G. Yogi Pramana, Faiz Ihza Permana, Muhammad Fazil Maulana, Dzikri Rahadian Fudholi, (参考訳) 結核は結核菌(Mycobacterium tuberculosis)によって引き起こされ、主に肺に影響を及ぼす。 早期発見は治療効果の向上と感染リスクの低減に不可欠である。 人工知能(AI)、特に胸部X線の画像分類により、TB検出を支援することができる。 しかし, TB胸部X線データセットのクラス不均衡は, 正確な分類が困難である。 本稿では,この問題に対処するために,プロトタイプネットワークアルゴリズムを用いた数ショット学習(FSL)手法を提案する。 TBX11K Chest X-rayデータセットからの特徴抽出におけるResNet-18,ResNet-50,VGG16の性能を比較した。 実験の結果、ResNet-18の98.93%、ResNet-50の98.60%、VGG16の33.33%の分類精度が確認された。 これらの結果から,本手法はデータ不均衡の軽減に他よりも優れており,特に疾患分類の応用に有用であることが示唆された。

Tuberculosis (TB) is caused by the bacterium Mycobacterium tuberculosis, primarily affecting the lungs. Early detection is crucial for improving treatment effectiveness and reducing transmission risk. Artificial intelligence (AI), particularly through image classification of chest X-rays, can assist in TB detection. However, class imbalance in TB chest X-ray datasets presents a challenge for accurate classification. In this paper, we propose a few-shot learning (FSL) approach using the Prototypical Network algorithm to address this issue. We compare the performance of ResNet-18, ResNet-50, and VGG16 in feature extraction from the TBX11K Chest X-ray dataset. Experimental results demonstrate classification accuracies of 98.93% for ResNet-18, 98.60% for ResNet-50, and 33.33% for VGG16. These findings indicate that the proposed method outperforms others in mitigating data imbalance, which is particularly beneficial for disease classification applications.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# ニューラルネットワークモデルのハードラベルクリプトアナライズ

Hard-Label Cryptanalytic Extraction of Neural Network Models ( http://arxiv.org/abs/2409.11646v1 )

ライセンス: Link先を確認
Yi Chen, Xiaoyang Dong, Jian Guo, Yantian Shen, Anyu Wang, Xiaoyun Wang, (参考訳) ニューラルネットワークパラメータを抽出する機械学習問題は、30年近く前から提案されている。 機能的に等価な抽出は、この問題の研究にとって重要な目標である。 敵がニューラルネットワークの生の出力にアクセスすると、CRYPTO 2020とEUROCRYPT 2024で提示された攻撃を含む様々な攻撃がこの目標を達成した。 しかし、ニューラルネットワークが生の出力にアクセスできないハードラベル設定の下で動作している場合、この目標は達成されない。 本稿では,ReLUニューラルネットワークに適用したハードラベル環境下で機能的に等価な抽出を理論的に達成した最初の攻撃を提案する。 我々の攻撃の有効性は、コンピュータビジョンで広く使われている2つの実ベンチマークデータセット(MNIST, CIFAR10)でトレーニングされたニューラルネットワークを含む、幅広いReLUニューラルネットワークの実践的な実験を通じて検証される。 10^5$パラメータからなるニューラルネットワークの場合、我々の攻撃は単一のコア上で数時間しか必要としない。

The machine learning problem of extracting neural network parameters has been proposed for nearly three decades. Functionally equivalent extraction is a crucial goal for research on this problem. When the adversary has access to the raw output of neural networks, various attacks, including those presented at CRYPTO 2020 and EUROCRYPT 2024, have successfully achieved this goal. However, this goal is not achieved when neural networks operate under a hard-label setting where the raw output is inaccessible. In this paper, we propose the first attack that theoretically achieves functionally equivalent extraction under the hard-label setting, which applies to ReLU neural networks. The effectiveness of our attack is validated through practical experiments on a wide range of ReLU neural networks, including neural networks trained on two real benchmarking datasets (MNIST, CIFAR10) widely used in computer vision. For a neural network consisting of $10^5$ parameters, our attack only requires several hours on a single core.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# 大規模モデルの量子化の芸術と科学 - 包括的概要

Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview ( http://arxiv.org/abs/2409.11650v1 )

ライセンス: Link先を確認
Yanshu Wang, Tong Yang, Xiyan Liang, Guoan Wang, Hanning Lu, Xu Zhe, Yaoming Li, Li Weitao, (参考訳) 本稿では,大規模ニューラルネットワークモデルの定量化に関わる原理,課題,方法論について概説する。 ニューラルネットワークはますます高度なタスクに対処するために、より大きく複雑なアーキテクチャへと進化してきたため、計算とエネルギーのコストは大幅に増大した。 モデルサイズ成長の必要性と影響を考察し、性能の利点と計算課題と環境配慮を強調した。 中心となる焦点はモデル量子化であり、モデルのサイズを減らし、精度を大幅に向上させることなく効率を向上させることでこれらの課題を軽減するための基本的なアプローチである。 ポストトレーニング量子化(PTQ)と量子化学習(QAT)の両方を含む様々な量子化手法を探索し、LLM-QAT、PEQA(L4Q)、ZeroQuant、SmoothQuantなどの最先端アルゴリズムを分析した。 比較分析を通じて,これらの手法が,アウトレーラや重み付け,アクティベーション量子化といった問題にどのように対処するかを検討する。

This paper provides a comprehensive overview of the principles, challenges, and methodologies associated with quantizing large-scale neural network models. As neural networks have evolved towards larger and more complex architectures to address increasingly sophisticated tasks, the computational and energy costs have escalated significantly. We explore the necessity and impact of model size growth, highlighting the performance benefits as well as the computational challenges and environmental considerations. The core focus is on model quantization as a fundamental approach to mitigate these challenges by reducing model size and improving efficiency without substantially compromising accuracy. We delve into various quantization techniques, including both post-training quantization (PTQ) and quantization-aware training (QAT), and analyze several state-of-the-art algorithms such as LLM-QAT, PEQA(L4Q), ZeroQuant, SmoothQuant, and others. Through comparative analysis, we examine how these methods address issues like outliers, importance weighting, and activation quantization, ultimately contributing to more sustainable and accessible deployment of large-scale models.
翻訳日:2024-09-19 19:29:58 公開日:2024-09-18
# Relax DARTS:眼球運動認識のための識別可能なアーキテクチャ探索の制約を緩和する

Relax DARTS: Relaxing the Constraints of Differentiable Architecture Search for Eye Movement Recognition ( http://arxiv.org/abs/2409.11652v1 )

ライセンス: Link先を確認
Hongyu Zhu, Xin Jin, Hongchao Liao, Yan Xiang, Mounim A. El-Yacoubi, Huafeng Qin, (参考訳) 眼球運動バイオメトリックスは安全で革新的な識別方法である。 ディープラーニング手法は優れた性能を示しているが、ネットワークアーキテクチャは手動設計と事前知識の組み合わせに依存している。 これらの課題に対処するために,視覚運動認識の分野にNASアルゴリズムを導入し,より効率的なネットワーク探索とトレーニングを実現するために,DARTSの改良であるRelax DARTSを提案する。 鍵となる考え方は、より正確なターゲットアーキテクチャを実現するために、アーキテクチャパラメータ$\alpha$を独立してトレーニングすることで、重量共有の問題を回避することである。 さらに、モジュール入力重み$\beta$を導入することで、セルが入力を選択し、オーバーフィッティング現象を緩和し、モデル性能を改善することができる。 4つの公開データベースの結果は、Relax DARTSが最先端の認識性能を達成することを示した。 特に、Relax DARTSは、他の多機能時間分類タスクへの適応性を示す。

Eye movement biometrics is a secure and innovative identification method. Deep learning methods have shown good performance, but their network architecture relies on manual design and combined priori knowledge. To address these issues, we introduce automated network search (NAS) algorithms to the field of eye movement recognition and present Relax DARTS, which is an improvement of the Differentiable Architecture Search (DARTS) to realize more efficient network search and training. The key idea is to circumvent the issue of weight sharing by independently training the architecture parameters $\alpha$ to achieve a more precise target architecture. Moreover, the introduction of module input weights $\beta$ allows cells the flexibility to select inputs, to alleviate the overfitting phenomenon and improve the model performance. Results on four public databases demonstrate that the Relax DARTS achieves state-of-the-art recognition performance. Notably, Relax DARTS exhibits adaptability to other multi-feature temporal classification tasks.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# 代表・複数サンプル選択による半教師付き学習の促進

Enhancing Semi-Supervised Learning via Representative and Diverse Sample Selection ( http://arxiv.org/abs/2409.11653v1 )

ライセンス: Link先を確認
Qian Shao, Jiangrui Kang, Qiyuan Chen, Zepeng Li, Hongxia Xu, Yiwen Cao, Jiajuan Liang, Jian Wu, (参考訳) 半監督学習(SSL)は、多くのディープラーニングタスクにおいて好まれるパラダイムとなり、人間の労働力の必要性を減らしている。 従来の研究は主に、ラベル付きデータやラベルなしデータを効果的に活用してパフォーマンスを向上させることに焦点を当てていた。 しかし,ラベル付けのためのサンプルの選択方法が,特に低予算環境下では,性能に大きな影響を及ぼすことが観察された。 SSLのサンプル選択タスクは、長い間検討されていない。 このギャップを埋めるために,代表サンプル選択法(RDSS)を提案する。 改良されたFrank-Wolfeアルゴリズムを採用して、新しい基準である$\alpha$-Maximum Mean Discrepancy (\alpha$-MMD)を最小化することで、RDSSはラベルなしデータから、代表的で多様なアノテーションのサブセットをサンプリングする。 我々は,$\alpha$-MMDの最小化が低予算学習の一般化能力を高めることを実証した。 実験の結果,RDSSはいくつかの一般的なSSLフレームワークの性能を一貫して改善し,制約付きアノテーション予算であっても,アクティブラーニング (AL) やセミスーパーバイザードアクティブラーニング (SSAL) で使用されている最先端のサンプル選択アプローチよりも優れていた。

Semi-Supervised Learning (SSL) has become a preferred paradigm in many deep learning tasks, which reduces the need for human labor. Previous studies primarily focus on effectively utilising the labelled and unlabeled data to improve performance. However, we observe that how to select samples for labelling also significantly impacts performance, particularly under extremely low-budget settings. The sample selection task in SSL has been under-explored for a long time. To fill in this gap, we propose a Representative and Diverse Sample Selection approach (RDSS). By adopting a modified Frank-Wolfe algorithm to minimise a novel criterion $\alpha$-Maximum Mean Discrepancy ($\alpha$-MMD), RDSS samples a representative and diverse subset for annotation from the unlabeled data. We demonstrate that minimizing $\alpha$-MMD enhances the generalization ability of low-budget learning. Experimental results show that RDSS consistently improves the performance of several popular SSL frameworks and outperforms the state-of-the-art sample selection approaches used in Active Learning (AL) and Semi-Supervised Active Learning (SSAL), even with constrained annotation budgets.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# 人工知能で仮想細胞を作る方法:優先事項と機会

How to Build the Virtual Cell with Artificial Intelligence: Priorities and Opportunities ( http://arxiv.org/abs/2409.11654v1 )

ライセンス: Link先を確認
Charlotte Bunne, Yusuf Roohani, Yanay Rosen, Ankit Gupta, Xikun Zhang, Marcel Roed, Theo Alexandrov, Mohammed AlQuraishi, Patricia Brennan, Daniel B. Burkhardt, Andrea Califano, Jonah Cool, Abby F. Dernburg, Kirsty Ewing, Emily B. Fox, Matthias Haury, Amy E. Herr, Eric Horvitz, Patrick D. Hsu, Viren Jain, Gregory R. Johnson, Thomas Kalil, David R. Kelley, Shana O. Kelley, Anna Kreshuk, Tim Mitchison, Stephani Otte, Jay Shendure, Nicholas J. Sofroniew, Fabian Theis, Christina V. Theodoris, Srigokul Upadhyayula, Marc Valer, Bo Wang, Eric Xing, Serena Yeung-Levy, Marinka Zitnik, Theofanis Karaletsos, Aviv Regev, Emma Lundberg, Jure Leskovec, Stephen R. Quake, (参考訳) 細胞はおそらく最小の生命単位であり、生物学の理解の中心である。 細胞の正確なモデリングは、病気の根本原因を決定するだけでなく、この理解にも重要である。 人工知能(AI)の最近の進歩は、大規模な実験データを生成する能力と相まって、細胞をモデル化する新たな機会を提供する。 ここでは、異なる条件下での細胞と細胞システムの堅牢な表現が、測定とスケールにわたる生物学的データから直接学習される、AIによる仮想セルのビジョンを提案する。 我々は,AI仮想セルの望まれる能力について論じる。例えば,大規模にまたがる生物学的実体の普遍的な表現の生成や,シリコ実験における解釈の容易化により,仮想インスツルメンツを用いた動作の予測と理解が可能である。 さらに、このビジョンを実現するための課題、機会、要件、例えば、データの要求、評価戦略、および、生物学的精度と幅広い実用性を保証するためのコミュニティ標準とエンゲージメントに対処する。 我々は、AI仮想細胞が新しい薬物標的を特定し、摂動に対する細胞反応を予測し、スケール仮説を探索する未来を想像する。 学術、慈善、バイオファーマ、AI産業を含むバイオメディカルエコシステム全体にわたるオープンサイエンスのコラボレーションによって、細胞機構と相互作用に関する包括的な予測的理解が到達範囲内にある。

The cell is arguably the smallest unit of life and is central to understanding biology. Accurate modeling of cells is important for this understanding as well as for determining the root causes of disease. Recent advances in artificial intelligence (AI), combined with the ability to generate large-scale experimental data, present novel opportunities to model cells. Here we propose a vision of AI-powered Virtual Cells, where robust representations of cells and cellular systems under different conditions are directly learned from growing biological data across measurements and scales. We discuss desired capabilities of AI Virtual Cells, including generating universal representations of biological entities across scales, and facilitating interpretable in silico experiments to predict and understand their behavior using Virtual Instruments. We further address the challenges, opportunities and requirements to realize this vision including data needs, evaluation strategies, and community standards and engagement to ensure biological accuracy and broad utility. We envision a future where AI Virtual Cells help identify new drug targets, predict cellular responses to perturbations, as well as scale hypothesis exploration. With open science collaborations across the biomedical ecosystem that includes academia, philanthropy, and the biopharma and AI industries, a comprehensive predictive understanding of cell mechanisms and interactions is within reach.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# 長期保存ブラウンSYKモデルにおける流体力学モードと演算子拡散

Hydrodynamic modes and operator spreading in a long-range center-of-mass-conserving Brownian SYK model ( http://arxiv.org/abs/2409.11655v1 )

ライセンス: Link先を確認
Bai-Lin Cheng, Shao-Kai Jian, Zhi-Cheng Yang, (参考訳) 我々は,1/r^\eta$を特徴とする長距離(大口径)相互作用を持つブラウン錯体Sachdev-Ye-Kitaevモデルについて検討した。 運動的制約と長距離相互作用は保存電荷に付随する豊かな流体力学を生じさせ、シュウィンガー・ケルディシュ効果の計算によって明らかとなる。 この系における電荷輸送は、$\eta$で制御される動的指数で、部分拡散、拡散、あるいは超拡散であることを示す。 さらに,光円錐が線形あるいは対数的な状態を示す位相図を得るために,時間外相関器(OTOC)の有効作用を導出するために,二重ヒルベルト空間法を用いる。 本研究は, 流体力学モードとOTOCを解析的に計算可能な, 運動的制約と長距離相互作用を有する量子多体系の具体例を示す。

We study a center-of-mass-conserving Brownian complex Sachdev-Ye-Kitaev model with long-range (power-law) interactions characterized by $1/r^\eta$. The kinetic constraint and long-range interactions conspire to yield rich hydrodynamics associated with the conserved charge, which we reveal by computing the Schwinger-Keldysh effective action. Our result shows that charge transport in this system can be subdiffusive, diffusive, or superdiffusive, with the dynamical exponent controlled by $\eta$. We further employ a doubled Hilbert space methodology to derive an effective action for the out-of-time-order correlator (OTOC), from which we obtain the phase diagram delineating regimes where the lightcone is linear or logarithmic. Our results provide a concrete example of a quantum many-body system with kinetic constraint and long-range interactions in which the emergent hydrodynamic modes and OTOC can be computed analytically.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# VL-Reader:視覚と言語再構成は効果的なシーンテキスト認識装置である

VL-Reader: Vision and Language Reconstructor is an Effective Scene Text Recognizer ( http://arxiv.org/abs/2409.11656v1 )

ライセンス: Link先を確認
Humen Zhong, Zhibo Yang, Zhaohai Li, Peng Wang, Jun Tang, Wenqing Cheng, Cong Yao, (参考訳) テキスト認識は視覚と言語の本質的な統合であり、ストロークパターンの視覚的テクスチャと、文字列間の意味的文脈を含んでいる。 高度なテキスト認識に向けては,(1)視覚的および意味的分布を表現可能なエンコーダ,(2)視覚と意味論の整合性を保証するデコーダ,(3)事前学習時のフレームワークの整合性,および微調整の3つの課題がある。 視覚と言語の両方においてトレーニング前戦略として成功したマスク付きオートエンコーディングに触発されて,VL-Readerという,革新的なシーンテキスト認識手法を提案する。 VL-Readerの新規性は、プロセス全体を通して視覚と言語の間の広範な相互作用にある。 具体的には,視覚情報と言語情報を同時にモデル化することを目的とした,Masked Visual-Linguistic Reconstruction (MVLR) の目的について紹介する。 次に,マスク付き視覚言語コンテキストを更に活用し,双方向の機能相互作用を実現するために,Masked Visual-Linguistic Decoder (MVLD) を設計する。 VL-Readerのアーキテクチャは、事前トレーニングから微調整までの一貫性を維持している。 トレーニング前の段階では、VL-Readerはマスクされたビジュアルトークンとテキストトークンの両方を再構築するが、微調整の段階では、ネットワークはマスクされた領域を使わずに画像からすべての文字を再構成する。 VLリーダーは6つの典型的なデータセットで平均97.1%の精度を達成し、SOTAを1.1%上回る。 この改善は、挑戦的なデータセットでさらに重要になった。 その結果,視覚と言語再構成器が効果的なシーンテキスト認識器として機能できることが示唆された。

Text recognition is an inherent integration of vision and language, encompassing the visual texture in stroke patterns and the semantic context among the character sequences. Towards advanced text recognition, there are three key challenges: (1) an encoder capable of representing the visual and semantic distributions; (2) a decoder that ensures the alignment between vision and semantics; and (3) consistency in the framework during pre-training, if it exists, and fine-tuning. Inspired by masked autoencoding, a successful pre-training strategy in both vision and language, we propose an innovative scene text recognition approach, named VL-Reader. The novelty of the VL-Reader lies in the pervasive interplay between vision and language throughout the entire process. Concretely, we first introduce a Masked Visual-Linguistic Reconstruction (MVLR) objective, which aims at simultaneously modeling visual and linguistic information. Then, we design a Masked Visual-Linguistic Decoder (MVLD) to further leverage masked vision-language context and achieve bi-modal feature interaction. The architecture of VL-Reader maintains consistency from pre-training to fine-tuning. In the pre-training stage, VL-Reader reconstructs both masked visual and text tokens, while in the fine-tuning stage, the network degrades to reconstruct all characters from an image without any masked regions. VL-reader achieves an average accuracy of 97.1% on six typical datasets, surpassing the SOTA by 1.1%. The improvement was even more significant on challenging datasets. The results demonstrate that vision and language reconstructor can serve as an effective scene text recognizer.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# 非IID分散データを用いたクラスインクリメンタル学習

Few-Shot Class-Incremental Learning with Non-IID Decentralized Data ( http://arxiv.org/abs/2409.11657v1 )

ライセンス: Link先を確認
Cuiwei Liu, Siang Xu, Huaijun Qiu, Jing Zhang, Zhi Liu, Liang Zhao, (参考訳) モデルがそれまで蓄積した知識を保護しながら、最小限の注釈付きデータで新しいクラスを取得できるようにするため、スケーラブルで適応的なインテリジェントなシステムを開発するには、クラスインクリメンタルな学習が不可欠である。 それでも、既存のメソッドは、データプライバシとセキュリティを優先するシナリオにおける適用性を制限し、集中的な方法で継続的データストリームを扱う。 そこで本研究では,複数のクライアントに分散する不足データから,新たなクラスを段階的に学習する分散型機械学習パラダイムである,フェデレートされたクラスインクリメンタルラーニングを提案する。 この学習パラダイムでは、クライアントはデータプライバシを保持しながらモデルを新しいクラスでローカルに更新し、モデル更新を中央サーバに送信し、グローバルに集約する。 しかし、このパラダイムは、少数ショット学習の難しさ、破滅的な忘れ込み、データの異質性など、いくつかの問題に直面している。 これらの課題に対処するため,既存の知識を維持し,新たな知識の獲得を促進するために,リプレイバッファデータを活用する合成データ駆動フレームワークを提案する。 このフレームワーク内では、新しいデータと再生データのバランスを保ったローカルモデルを微調整し、新しいクラスの合成データを生成し、将来のタスクのためにリプレイバッファをさらに拡張するノイズ対応生成再生モジュールが開発されている。 さらに,クラス固有のパラメータを局所モデルの性能に基づいて適応的に集約することで,データ不均一性に取り組むために,クラス固有の重み付け戦略を設計する。 これにより、クライアントデータに直接アクセスすることなく、効果的なグローバルモデル最適化が可能になる。 広く使われている3つのデータセットにわたる総合的な実験は、導入したフレームワークの有効性と優位性を示している。

Few-shot class-incremental learning is crucial for developing scalable and adaptive intelligent systems, as it enables models to acquire new classes with minimal annotated data while safeguarding the previously accumulated knowledge. Nonetheless, existing methods deal with continuous data streams in a centralized manner, limiting their applicability in scenarios that prioritize data privacy and security. To this end, this paper introduces federated few-shot class-incremental learning, a decentralized machine learning paradigm tailored to progressively learn new classes from scarce data distributed across multiple clients. In this learning paradigm, clients locally update their models with new classes while preserving data privacy, and then transmit the model updates to a central server where they are aggregated globally. However, this paradigm faces several issues, such as difficulties in few-shot learning, catastrophic forgetting, and data heterogeneity. To address these challenges, we present a synthetic data-driven framework that leverages replay buffer data to maintain existing knowledge and facilitate the acquisition of new knowledge. Within this framework, a noise-aware generative replay module is developed to fine-tune local models with a balance of new and replay data, while generating synthetic data of new classes to further expand the replay buffer for future tasks. Furthermore, a class-specific weighted aggregation strategy is designed to tackle data heterogeneity by adaptively aggregating class-specific parameters based on local models performance on synthetic data. This enables effective global model optimization without direct access to client data. Comprehensive experiments across three widely-used datasets underscore the effectiveness and preeminence of the introduced framework.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# 飛行可能スペースボーンビジョンのためのブリッジ領域ギャップ

Bridging Domain Gap for Flight-Ready Spaceborne Vision ( http://arxiv.org/abs/2409.11661v1 )

ライセンス: Link先を確認
Tae Ha Park, Simone D'Amico, (参考訳) この研究は、既知の非協力的なターゲット宇宙船の単眼的なポーズ推定のためのニューラルネットワーク(NN)であるSpacecraft Pose Network v3(SPNv3)を提示する。 既存の文献とは対照的に、SPNv3は、オフラインのトレーニングや地上での検証で観測されていない画像に対して堅牢性を提供しながら、計算的に効率的であるように設計され、訓練されている。 これらの特徴は、空間グレードのエッジデバイスにNNをデプロイするのに不可欠である。 それらはNN設計の慎重な選択を通じて達成され、データ拡張、トランスファーラーニング、ビジョントランスフォーマーアーキテクチャといった特徴を、堅牢性と計算オーバーヘッドの最小化に同時に貢献するものとして、広範なトレードオフ分析によって明らかにしている。 実験により、最終的なSPNv3は、コンピュータ生成合成画像のみを訓練しながら、ロボットテストベッドからのハードウェア・イン・ループ画像に対する最先端のポーズ精度を達成でき、合成画像と実際の画像のドメインギャップを効果的に埋めることができることが示された。 同時に、SPNv3は、飛行履歴を持つ代表的なグラフィカル処理ユニットシステムでテストする場合、現代の衛星ナビゲーションフィルタの更新周波数よりもはるかに高い速度で動作します。 全体として、SPNv3は効率よく飛行可能なNNモデルであり、広範囲の近距離ランデブーやターゲット空間オブジェクトとの近接操作に容易に適用できる。 SPNv3のコード実装は一般公開される予定だ。

This work presents Spacecraft Pose Network v3 (SPNv3), a Neural Network (NN) for monocular pose estimation of a known, non-cooperative target spacecraft. As opposed to existing literature, SPNv3 is designed and trained to be computationally efficient while providing robustness to spaceborne images that have not been observed during offline training and validation on the ground. These characteristics are essential to deploying NNs on space-grade edge devices. They are achieved through careful NN design choices, and an extensive trade-off analysis reveals features such as data augmentation, transfer learning and vision transformer architecture as a few of those that contribute to simultaneously maximizing robustness and minimizing computational overhead. Experiments demonstrate that the final SPNv3 can achieve state-of-the-art pose accuracy on hardware-in-the-loop images from a robotic testbed while having trained exclusively on computer-generated synthetic images, effectively bridging the domain gap between synthetic and real imagery. At the same time, SPNv3 runs well above the update frequency of modern satellite navigation filters when tested on a representative graphical processing unit system with flight heritage. Overall, SPNv3 is an efficient, flight-ready NN model readily applicable to a wide range of close-range rendezvous and proximity operations with target resident space objects. The code implementation of SPNv3 will be made publicly available.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# GReDP: グラディエント保存雑音低減型微分プライバシートレーニングのためのロバストなアプローチ

GReDP: A More Robust Approach for Differential Privacy Training with Gradient-Preserving Noise Reduction ( http://arxiv.org/abs/2409.11663v1 )

ライセンス: Link先を確認
Haodi Wang, Tangyu Jiang, Yu Guo, Xiaohua Jia, Chengjun Cai, (参考訳) ディープラーニングモデルは、訓練セットや手順に大きく依存する階層的な特徴を表現する能力のため、各地域で広く採用されている。 したがって、トレーニングプロセスとディープラーニングアルゴリズムを保護することは、プライバシ保護において最重要である。 強力な暗号プリミティブとしての差分プライバシー(DP)は、ディープラーニングトレーニングで満足な結果を得たが、既存のスキームはモデルユーティリティの保存に不足している。 以上の課題に対処するため,本論文では,GReDPと呼ばれるDPトレーニングに対して,より堅牢なアプローチを提案する。 具体的には、周波数領域におけるモデル勾配を計算し、ノイズレベルを低減するための新しいアプローチを採用する。 従来の研究と異なり、GReDPはDPSGD [1]に比べてノイズ尺度の半分しか必要とせず、全ての勾配情報をそのままに保っている。 理論的にも経験的にも,本手法の詳細な解析を行う。 実験の結果,GReDPはすべてのモデルやトレーニング設定のベースラインよりも一貫して動作することがわかった。

Deep learning models have been extensively adopted in various regions due to their ability to represent hierarchical features, which highly rely on the training set and procedures. Thus, protecting the training process and deep learning algorithms is paramount in privacy preservation. Although Differential Privacy (DP) as a powerful cryptographic primitive has achieved satisfying results in deep learning training, the existing schemes still fall short in preserving model utility, i.e., they either invoke a high noise scale or inevitably harm the original gradients. To address the above issues, in this paper, we present a more robust approach for DP training called GReDP. Specifically, we compute the model gradients in the frequency domain and adopt a new approach to reduce the noise level. Unlike the previous work, our GReDP only requires half of the noise scale compared to DPSGD [1] while keeping all the gradient information intact. We present a detailed analysis of our method both theoretically and empirically. The experimental results show that our GReDP works consistently better than the baselines on all models and training settings.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# スライディング画像解析のためのマスク認知機構を有するエージェントアグリゲータ

Agent Aggregator with Mask Denoise Mechanism for Histopathology Whole Slide Image Analysis ( http://arxiv.org/abs/2409.11664v1 )

ライセンス: Link先を確認
Xitong Ling, Minxi Ouyang, Yizhi Wang, Xinrui Chen, Renao Yan, Hongbo Chu, Junru Cheng, Tian Guan, Sufang Tian, Xiaoping Liu, Yonghong He, (参考訳) 病理組織学的解析は診断における金の基準である。 スライド画像全体(WSI)と関心領域(ROI)の正確な分類は、病理医の診断に役立てることができる。 WSIのギガピクセル解像度と細かいアノテーションの欠如は、直接的な分類と分析を困難にしている。 弱教師付き学習では、多重インスタンス学習(MIL)がWSI分類に有望なアプローチを示す。 一般的な戦略は、注意機構を使用して分類のインスタンスの重要性を測定することである。 しかし、注意機構はインスタンス間の情報を捉えることができず、自己注意は2次計算の複雑さを引き起こす。 これらの課題に対処するために,マスク認知機構を備えたエージェントアグリゲータであるAMD-MILを提案する。 エージェントトークンは、クエリとキーの間の中間変数として機能し、インスタンスの重要性を計算します。 エージェント集約値からマッピングされたマスクおよびデノナイジング行列は、低寄与率表現を動的にマスクし、ノイズを除去する。 AMD-MILは、特徴表現を調整し、がんのマイクロメタスターゼを捕捉し、解釈可能性を向上させることにより、より優れた注意配分を実現する。 CAMELYON-16, CAMELYON-17, TCGA-KIDNEY, TCGA-LUNGの大規模実験では, AMD-MILが最先端手法よりも優れていることが示された。

Histopathology analysis is the gold standard for medical diagnosis. Accurate classification of whole slide images (WSIs) and region-of-interests (ROIs) localization can assist pathologists in diagnosis. The gigapixel resolution of WSI and the absence of fine-grained annotations make direct classification and analysis challenging. In weakly supervised learning, multiple instance learning (MIL) presents a promising approach for WSI classification. The prevailing strategy is to use attention mechanisms to measure instance importance for classification. However, attention mechanisms fail to capture inter-instance information, and self-attention causes quadratic computational complexity. To address these challenges, we propose AMD-MIL, an agent aggregator with a mask denoise mechanism. The agent token acts as an intermediate variable between the query and key for computing instance importance. Mask and denoising matrices, mapped from agents-aggregated value, dynamically mask low-contribution representations and eliminate noise. AMD-MIL achieves better attention allocation by adjusting feature representations, capturing micro-metastases in cancer, and improving interpretability. Extensive experiments on CAMELYON-16, CAMELYON-17, TCGA-KIDNEY, and TCGA-LUNG show AMD-MIL's superiority over state-of-the-art methods.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# デジタル時代のコミュニティ形成:オンラインソーシャルネットワークにおける談話断片化の分析のための時間統合フレームワーク

Community Shaping in the Digital Age: A Temporal Fusion Framework for Analyzing Discourse Fragmentation in Online Social Networks ( http://arxiv.org/abs/2409.11665v1 )

ライセンス: Link先を確認
Amirhossein Dezhboro, Jose Emmanuel Ramirez-Marquez, Aleksandra Krstikj, (参考訳) 本研究では、テキストとネットワークデータの時間的融合を利用して、ソーシャルメディアプラットフォームにおけるオンラインコミュニティのダイナミクスを分析するためのフレームワークを提案する。 テキスト分類と動的ソーシャルネットワーク分析を組み合わせることで、コミュニティの形成と進化を駆動するメカニズムを明らかにし、現実世界の出来事の影響を明らかにする。 我々は、ソーシャルメディアのダイナミクスを評価するために、社会科学理論に基づく14のキー要素を導入し、2020年の米国の主要イベントにおけるTwitterデータのケーススタディを通じて、我々のフレームワークを検証した。 我々の分析は、差別的談話、性差別、人種差別、異性愛、能力主義、ホモフォビア、宗教的不寛容を主要な断片として同定することに焦点を当てている。 その結果,談話の断片を表すコミュニティの急速な出現と解散サイクルが示された。 実世界の状況が談話の優位性と、ソーシャルメディアがエコー室の形成と社会的分極にどのように貢献するかを明らかにする。 我々の包括的アプローチは、オンラインコミュニティにおける談話の断片化、意見のダイナミクス、構造的側面に関する洞察を提供し、オンラインインタラクションと社会的トレンドの間の複雑な相互作用を理解するための方法論を提供する。

This research presents a framework for analyzing the dynamics of online communities in social media platforms, utilizing a temporal fusion of text and network data. By combining text classification and dynamic social network analysis, we uncover mechanisms driving community formation and evolution, revealing the influence of real-world events. We introduced fourteen key elements based on social science theories to evaluate social media dynamics, validating our framework through a case study of Twitter data during major U.S. events in 2020. Our analysis centers on discrimination discourse, identifying sexism, racism, xenophobia, ableism, homophobia, and religious intolerance as main fragments. Results demonstrate rapid community emergence and dissolution cycles representative of discourse fragments. We reveal how real-world circumstances impact discourse dominance and how social media contributes to echo chamber formation and societal polarization. Our comprehensive approach provides insights into discourse fragmentation, opinion dynamics, and structural aspects of online communities, offering a methodology for understanding the complex interplay between online interactions and societal trends.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# 自動宣言型UIコード生成によるブリッジ設計と開発

Bridging Design and Development with Automated Declarative UI Code Generation ( http://arxiv.org/abs/2409.11667v1 )

ライセンス: Link先を確認
Ting Zhou, Yanjie Zhao, Xinyi Hou, Xiaoyu Sun, Kai Chen, Haoyu Wang, (参考訳) 宣言的なUIフレームワークはモバイルアプリ開発で広く採用されており、コード可読性の改善やメンテナンスの容易化といったメリットを提供している。 これらの利点にもかかわらず、UI設計を機能コードに変換するプロセスは困難で時間がかかる。 マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、ユーザインターフェース(UI)設計から直接モバイルアプリコードを生成することを約束している。 しかし、このタスクへのMLLMの直接適用は、UIコンポーネントを正確に認識し、インタラクションロジックを包括的にキャプチャする際の課題によって制限される。 これらの課題に対処するために、コンピュータビジョン(CV)、MLLM、反復コンパイラ駆動最適化を相乗化して宣言型UIコードを設計から生成・洗練する自動化アプローチであるDeclaUIを提案する。 DeclarUIは、正確なコンポーネントセグメンテーション、複雑なページ間の関係をモデル化するためのページ遷移グラフ(PTG)、反復最適化を通じて、視覚的忠実度、機能的完全性、コード品質を向上させる。 この評価では、広く採用されている宣言型UIフレームワークであるReact Nativeのベースラインを上回り、96.8%のPTGカバレッジ率と98%のコンパイル成功率を達成した。 特に、DeclaUIは最先端のMLLMよりも大幅に改善され、PTGカバレッジレートが123%増加し、視覚的類似度スコアが55%向上し、コンパイル成功率が29%向上した。 さらに、FlutterやArkUIフレームワークへのアプリケーションの成功を通じて、DeclaUIの汎用性を実証します。

Declarative UI frameworks have gained widespread adoption in mobile app development, offering benefits such as improved code readability and easier maintenance. Despite these advantages, the process of translating UI designs into functional code remains challenging and time-consuming. Recent advancements in multimodal large language models (MLLMs) have shown promise in directly generating mobile app code from user interface (UI) designs. However, the direct application of MLLMs to this task is limited by challenges in accurately recognizing UI components and comprehensively capturing interaction logic. To address these challenges, we propose DeclarUI, an automated approach that synergizes computer vision (CV), MLLMs, and iterative compiler-driven optimization to generate and refine declarative UI code from designs. DeclarUI enhances visual fidelity, functional completeness, and code quality through precise component segmentation, Page Transition Graphs (PTGs) for modeling complex inter-page relationships, and iterative optimization. In our evaluation, DeclarUI outperforms baselines on React Native, a widely adopted declarative UI framework, achieving a 96.8% PTG coverage rate and a 98% compilation success rate. Notably, DeclarUI demonstrates significant improvements over state-of-the-art MLLMs, with a 123% increase in PTG coverage rate, up to 55% enhancement in visual similarity scores, and a 29% boost in compilation success rate. We further demonstrate DeclarUI's generalizability through successful applications to Flutter and ArkUI frameworks.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# 確率ゲームにおけるオープンな反対者を予想する

Anticipating Oblivious Opponents in Stochastic Games ( http://arxiv.org/abs/2409.11671v1 )

ライセンス: Link先を確認
Shadi Tasdighi Kalat, Sriram Sankaranarayanan, Ashutosh Trivedi, (参考訳) 本稿では, 同時確率ゲームにおけるemph{oblivious}環境の行動とポリシーを体系的に予測し, 報酬関数を最大化する手法を提案する。 我々の主な貢献は、環境の作用を越えてアルファベットが広がる有限な \emph{information state machine} の合成である。 オートマトンの各状態は、環境が使用するポリシーに関する信念状態にマッピングされる。 我々は,我々のオートマトンによって追跡される信念状態が,完全な歴史の知識によって得られた正確な信念状態から一定の距離に留まることを保証する一貫性の概念を導入する。 本稿では、自動機械の整合性をチェックする方法と、終端が成功すると、そのような機械が生成される合成手法を提案する。 本稿では、情報状態マシンが、プレイ上で定義された報酬関数を最大化するための最適ポリシーを計算するための出発点となるMDPを生成する方法を示す。 本研究では,白内障手術や家具組み立てなどの作業に対する人的活動データを含むベンチマーク例に対する評価実験を行い,報奨を最大化するために,環境の方針や行動の予測に成功している。

We present an approach for systematically anticipating the actions and policies employed by \emph{oblivious} environments in concurrent stochastic games, while maximizing a reward function. Our main contribution lies in the synthesis of a finite \emph{information state machine} whose alphabet ranges over the actions of the environment. Each state of the automaton is mapped to a belief state about the policy used by the environment. We introduce a notion of consistency that guarantees that the belief states tracked by our automaton stays within a fixed distance of the precise belief state obtained by knowledge of the full history. We provide methods for checking consistency of an automaton and a synthesis approach which upon successful termination yields such a machine. We show how the information state machine yields an MDP that serves as the starting point for computing optimal policies for maximizing a reward function defined over plays. We present an experimental evaluation over benchmark examples including human activity data for tasks such as cataract surgery and furniture assembly, wherein our approach successfully anticipates the policies and actions of the environment in order to maximize the reward.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# RUIE:大規模言語モデルを用いた検索型統一情報抽出

RUIE: Retrieval-based Unified Information Extraction using Large Language Model ( http://arxiv.org/abs/2409.11673v1 )

ライセンス: Link先を確認
Xincheng Liao, Junwen Duan, Yixi Huang, Jianxin Wang, (参考訳) 統一情報抽出(UIE)は、単一のモデルまたはフレームワークを使用して全ての情報抽出タスクを完了することを目的としている。 これまでの研究は主に、構築されたデータセットを用いた命令チューニング大型言語モデル(LLM)に焦点を当ててきたが、これらの手法にはかなりの計算資源が必要であり、目に見えないタスクに一般化するのに苦労している。 これらの制約に対処するため,計算コストを削減しつつ,テキスト内学習を活用して迅速な一般化を実現するフレームワークRUIE(Retrieval-based Unified Information extract)を提案する。 RUIEの鍵となる課題は、多様なIEタスクを効果的に処理するために、LLMにとって最も有益なデモを選択することである。 これを実現するために,候補演示のランク付けのためのLLM選好を統合し,キーワード強化報酬モデルの設計を行い,クエリと実演の微妙な関係を捉える。 そして、対照的な学習と知識の蒸留を通じてUIEのためのバイエンコーダレトリバーを訓練する。 私たちの知る限りでは、RUIEはUIEのためのトレーニング可能な最初のフレームワークです。 8つのホールドアウトデータセットの実験結果から, RUIE が未確認タスクを一般化する効果が示され, 平均 F1 スコア改善率は, 命令チューニング法および他のレトリバーと比較して19.22 と 3.13 である。 RUIEのLLMへの適応性は、様々なサイズで確認され、キーコンポーネントの重要性も確認される。

Unified information extraction (UIE) aims to complete all information extraction tasks using a single model or framework. While previous work has primarily focused on instruction-tuning large language models (LLMs) with constructed datasets, these methods require significant computational resources and struggle to generalize to unseen tasks. To address these limitations, we propose RUIE (Retrieval-based Unified Information Extraction), a framework that leverages in-context learning to enable rapid generalization while reducing computational costs. The key challenge in RUIE is selecting the most beneficial demonstrations for LLMs to effectively handle diverse IE tasks. To achieve this, we integrate LLM preferences for ranking candidate demonstrations and design a keyword-enhanced reward model to capture fine-grained relationships between queries and demonstrations. We then train a bi-encoder retriever for UIE through contrastive learning and knowledge distillation. To the best of our knowledge, RUIE is the first trainable retrieval framework for UIE. Experimental results on 8 held-out datasets demonstrate RUIE's effectiveness in generalizing to unseen tasks, with average F1-score improvements of 19.22 and 3.13 compared to instruction-tuning methods and other retrievers, respectively. Further analysis confirms RUIE's adaptability to LLMs of varying sizes and the importance of its key components.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# ウェイト・オブ・エビデンス(WoE)を用いた説明可能なゴール認識に向けて : 人間中心アプローチ

Towards Explainable Goal Recognition Using Weight of Evidence (WoE): A Human-Centered Approach ( http://arxiv.org/abs/2409.11675v1 )

ライセンス: Link先を確認
Abeer Alshehri, Amal Abdulrahman, Hajar Alamri, Tim Miller, Mor Vered, (参考訳) ゴール認識(GR)は、一連の観察からエージェントの観測されていないゴールを推測することを含む。 これは、多様なアプリケーションを持つAIにおいて重要な問題である。 伝統的に、GRは「最良の説明への推論」または「誘拐」を用いて対処され、エージェントの目的に関する仮説が観察された行動の最も妥当な説明として生成される。 あるいは、エージェントの振る舞いがオブザーバーの期待に沿うことを保証するか、あるいは意思決定の背後にある推論をより透明にすることで、解釈可能性を高めるアプローチもある。 この研究では、人間にとって理解しやすい方法でGRプロセスを説明するという、別の課題に取り組みます。 本稿では,人間行動説明の基礎となる理論的枠組みと認知過程を基礎とした,GRエージェントのための説明可能なモデルの導入と評価を行う。 本研究では,2つの人間エージェント研究から得られた知見をもとに,GRの人間中心的説明のための概念的枠組みを提案する。 このフレームワークを用いてeXplainable Goal Recognition(XGR)モデルを構築し,なぜ疑問が持たないのかを説明する。 8つのGRベンチマークと3つのユーザスタディを通じて,このモデルを計算学的に評価した。 第1報では,ソコバンゲーム領域内での人間的な説明の効率を評価するとともに,第2報では同一領域における認知的説明可能性について検討し,第3報では違法漁獲検知における意思決定支援におけるモデルの有効性について検討した。 その結果、XGRモデルはベースラインモデルに比べてユーザ理解、信頼、意思決定を著しく向上させ、人間とエージェントのコラボレーションを改善する可能性を示している。

Goal recognition (GR) involves inferring an agent's unobserved goal from a sequence of observations. This is a critical problem in AI with diverse applications. Traditionally, GR has been addressed using 'inference to the best explanation' or abduction, where hypotheses about the agent's goals are generated as the most plausible explanations for observed behavior. Alternatively, some approaches enhance interpretability by ensuring that an agent's behavior aligns with an observer's expectations or by making the reasoning behind decisions more transparent. In this work, we tackle a different challenge: explaining the GR process in a way that is comprehensible to humans. We introduce and evaluate an explainable model for goal recognition (GR) agents, grounded in the theoretical framework and cognitive processes underlying human behavior explanation. Drawing on insights from two human-agent studies, we propose a conceptual framework for human-centered explanations of GR. Using this framework, we develop the eXplainable Goal Recognition (XGR) model, which generates explanations for both why and why not questions. We evaluate the model computationally across eight GR benchmarks and through three user studies. The first study assesses the efficiency of generating human-like explanations within the Sokoban game domain, the second examines perceived explainability in the same domain, and the third evaluates the model's effectiveness in aiding decision-making in illegal fishing detection. Results demonstrate that the XGR model significantly enhances user understanding, trust, and decision-making compared to baseline models, underscoring its potential to improve human-agent collaboration.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# 多モード相互作用関係推論を用いたハイパーグラフに基づく運動生成

Hypergraph-based Motion Generation with Multi-modal Interaction Relational Reasoning ( http://arxiv.org/abs/2409.11676v1 )

ライセンス: Link先を確認
Keshu Wu, Yang Zhou, Haotian Shi, Dominique Lord, Bin Ran, Xinyue Ye, (参考訳) 現実の運転環境の複雑な性質は、複数の車両間の動的かつ多様な相互作用とその将来的な状態によって特徴づけられ、車両の運動状態を正確に予測し、予測に固有の不確実性に対処する上で大きな課題が提示される。 これらの課題に対処するには、車両間の暗黙の関係とそれに対応する多様な振る舞いを捉えるために、包括的なモデリングと推論が必要である。 本研究では、リレーショナルハイパーグラフ相互作用インフォームドニューラルmOtionジェネレータ(RHINO)を用いて、これらの複雑さに対処するための自律走行車(AV)運動予測の統合フレームワークを提案する。 RHINOは、マルチスケールハイパーグラフニューラルネットワークを統合して、複数の車両間のグループワイドな相互作用と、そのマルチモーダルな運転動作をモデル化することにより、運動予測精度と信頼性を向上させることで、ハイパーグラフに基づく関係推論を活用する。 実世界のデータセットを用いた実験的検証は、このフレームワークの優れた性能を示し、予測精度を改善し、動的な交通シナリオにおける社会的に認識された自動運転を促進する。

The intricate nature of real-world driving environments, characterized by dynamic and diverse interactions among multiple vehicles and their possible future states, presents considerable challenges in accurately predicting the motion states of vehicles and handling the uncertainty inherent in the predictions. Addressing these challenges requires comprehensive modeling and reasoning to capture the implicit relations among vehicles and the corresponding diverse behaviors. This research introduces an integrated framework for autonomous vehicles (AVs) motion prediction to address these complexities, utilizing a novel Relational Hypergraph Interaction-informed Neural mOtion generator (RHINO). RHINO leverages hypergraph-based relational reasoning by integrating a multi-scale hypergraph neural network to model group-wise interactions among multiple vehicles and their multi-modal driving behaviors, thereby enhancing motion prediction accuracy and reliability. Experimental validation using real-world datasets demonstrates the superior performance of this framework in improving predictive accuracy and fostering socially aware automated driving in dynamic traffic scenarios.
翻訳日:2024-09-19 19:19:53 公開日:2024-09-18
# 階層的Detail-Focused Networkによる複素数式認識の強化

Enhancing Complex Formula Recognition with Hierarchical Detail-Focused Network ( http://arxiv.org/abs/2409.11677v1 )

ライセンス: Link先を確認
Jiale Wang, Junhui Yu, Huanyong Liu, Chenanran Kong, (参考訳) 階層的および複雑な数学的表現認識(MER)は、解析と評価の両方を複雑にし、複数の式を解釈できるため困難である。 本稿では,これらの問題に対処するために設計された最初のデータセットである階層的Detail-Focused Recognition dataset (HDR)を紹介する。 大規模なトレーニングセットであるHDR-100Mで構成され、前例のない規模と多様性を提供し、1億のトレーニングインスタンスを提供する。 テストセットであるHDR-Testには、包括的なモデル性能評価のための複雑な階層公式の複数の解釈が含まれている。 さらに、複素公式のパースはしばしば細かな詳細の誤りに悩まされる。 そこで本稿では,階層型サブフォーミュラモジュールを組み込んだHyerarchical Detail-Focused Recognition Network (HDNet)を提案する。 実験の結果、HDNetは様々なデータセットで既存のMERモデルより優れていることが示された。

Hierarchical and complex Mathematical Expression Recognition (MER) is challenging due to multiple possible interpretations of a formula, complicating both parsing and evaluation. In this paper, we introduce the Hierarchical Detail-Focused Recognition dataset (HDR), the first dataset specifically designed to address these issues. It consists of a large-scale training set, HDR-100M, offering an unprecedented scale and diversity with one hundred million training instances. And the test set, HDR-Test, includes multiple interpretations of complex hierarchical formulas for comprehensive model performance evaluation. Additionally, the parsing of complex formulas often suffers from errors in fine-grained details. To address this, we propose the Hierarchical Detail-Focused Recognition Network (HDNet), an innovative framework that incorporates a hierarchical sub-formula module, focusing on the precise handling of formula details, thereby significantly enhancing MER performance. Experimental results demonstrate that HDNet outperforms existing MER models across various datasets.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# 大規模リコメンダシステムにおけるマルチタスク融合のための強化状態強化学習アルゴリズム

An Enhanced-State Reinforcement Learning Algorithm for Multi-Task Fusion in Large-Scale Recommender Systems ( http://arxiv.org/abs/2409.11678v1 )

ライセンス: Link先を確認
Peng Liu, Jiawei Zhu, Cong Xu, Ming Zhao, Bin Wang, (参考訳) Recommender Systems(RS)の最終段階として、Multi-Task Fusion(MTF)は、Multi-Task Learning(MTL)によって予測される複数のスコアを最終スコアに組み合わせ、ユーザの満足度を最大化し、最終的な推奨結果を決定する。 近年,リコメンデーションセッションにおける長期的ユーザ満足度を最大化するために,大規模RSにおけるMDFには強化学習(Reinforcement Learning, RL)が広く用いられている。 しかしながら、モデリングパターンによって制限されている現在のRL-MTFメソッドは、各ユーザに対してアクションを生成する状態としてのみユーザ機能を利用することができるが、アイテム機能やその他の価値ある機能を利用できないため、最適以下の結果が得られる。 この問題に対処するには、現在のRL-MTFのモデリングパターンを破る必要がある。 この問題を解決するために,RSにおけるMTFのための拡張状態RL法を提案する。 上記の方法と異なり,提案手法はまず,ユーザの特徴,項目の特徴,その他の重要な特徴を拡張状態としてまとめて定義する。 我々の知る限り、このモデリングパターンはRL-MTFの分野で初めて提案されている。 大規模なRSで大規模なオフラインおよびオンライン実験を行う。 その結果,本モデルが他のモデルよりも優れていたことが示唆された。 拡張状態RLは半年以上にわたって我々のRSに完全にデプロイされ、ベースラインに比べて+3.84%のユーザ有効消費と+0.58%のユーザ持続時間が改善された。

As the last key stage of Recommender Systems (RSs), Multi-Task Fusion (MTF) is in charge of combining multiple scores predicted by Multi-Task Learning (MTL) into a final score to maximize user satisfaction, which decides the ultimate recommendation results. In recent years, to maximize long-term user satisfaction within a recommendation session, Reinforcement Learning (RL) is widely used for MTF in large-scale RSs. However, limited by their modeling pattern, all the current RL-MTF methods can only utilize user features as the state to generate actions for each user, but unable to make use of item features and other valuable features, which leads to suboptimal results. Addressing this problem is a challenge that requires breaking through the current modeling pattern of RL-MTF. To solve this problem, we propose a novel method called Enhanced-State RL for MTF in RSs. Unlike the existing methods mentioned above, our method first defines user features, item features, and other valuable features collectively as the enhanced state; then proposes a novel actor and critic learning process to utilize the enhanced state to make much better action for each user-item pair. To the best of our knowledge, this novel modeling pattern is being proposed for the first time in the field of RL-MTF. We conduct extensive offline and online experiments in a large-scale RS. The results demonstrate that our model outperforms other models significantly. Enhanced-State RL has been fully deployed in our RS more than half a year, improving +3.84% user valid consumption and +0.58% user duration time compared to baseline.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# 政策における差別的プライバシを考える

What to Consider When Considering Differential Privacy for Policy ( http://arxiv.org/abs/2409.11680v1 )

ライセンス: Link先を確認
Priyanka Nanayakkara, Jessica Hullman, (参考訳) 差分プライバシー(英: Differential privacy、DP)とは、データ公開時に広く適用されるプライバシーの数学的定義である。 DPは、様々なプライバシー関連の法的要件を遵守する潜在的な手段として認識されている。 しかし、DPが特定の文脈に適切かどうかを判断するのは、理論から実際に実現されたときに生じる緊張のためである。 プライバシー問題に関する政策立案を支援するために、政策立案者がその影響を予測するための潜在的な展開状況について質問できるような関連する質問とともに、DPを理解するための3つの課題のカテゴリを特定します。

Differential privacy (DP) is a mathematical definition of privacy that can be widely applied when publishing data. DP has been recognized as a potential means of adhering to various privacy-related legal requirements. However, it can be difficult to reason about whether DP may be appropriate for a given context due to tensions that arise when it is brought from theory into practice. To aid policymaking around privacy concerns, we identify three categories of challenges to understanding DP along with associated questions that policymakers can ask about the potential deployment context to anticipate its impacts.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# 2次元マスクを用いたガウス平板の勾配駆動型3次元分割と加速度移動

Gradient-Driven 3D Segmentation and Affordance Transfer in Gaussian Splatting Using 2D Masks ( http://arxiv.org/abs/2409.11681v1 )

ライセンス: Link先を確認
Joji Joseph, Bharadwaj Amrutur, Shalabh Bhatnagar, (参考訳) 3Dガウススプラッティングは強力な3Dシーン表現技術として登場し、高効率で細部を捉えている。 本稿では,2次元分割モデルを3次元ガウススプラットに拡張する投票方式を提案する。 提案手法は,入力2次元マスクによって勾配をフィルタリングするマスク勾配を利用して,精度の高いセグメンテーションを実現する。 副生成物として,推定時間勾配はガウスの発散にも有効であり,最大で21%の圧縮が得られることがわかった。 さらに,2次元画像からのアノテーションを効果的に3次元ガウススプラットに転送することのできる,わずかな手当転送についても検討する。 このアプローチの根底にある頑丈で単純な数学的定式化は、拡張現実(AR)、オブジェクト編集、ロボット工学など、多くの下流アプリケーションにとって非常に効果的なツールである。 プロジェクトコードと追加のリソースはhttps://jojijoseph.github.io/3dgs-segmentation.comで入手できる。

3D Gaussian Splatting has emerged as a powerful 3D scene representation technique, capturing fine details with high efficiency. In this paper, we introduce a novel voting-based method that extends 2D segmentation models to 3D Gaussian splats. Our approach leverages masked gradients, where gradients are filtered by input 2D masks, and these gradients are used as votes to achieve accurate segmentation. As a byproduct, we discovered that inference-time gradients can also be used to prune Gaussians, resulting in up to 21% compression. Additionally, we explore few-shot affordance transfer, allowing annotations from 2D images to be effectively transferred onto 3D Gaussian splats. The robust yet straightforward mathematical formulation underlying this approach makes it a highly effective tool for numerous downstream applications, such as augmented reality (AR), object editing, and robotics. The project code and additional resources are available at https://jojijoseph.github.io/3dgs-segmentation.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# SRIF:拡散型画像モーフィングとフロー推定を利用した意味的形状登録

SRIF: Semantic Shape Registration Empowered by Diffusion-based Image Morphing and Flow Estimation ( http://arxiv.org/abs/2409.11682v1 )

ライセンス: Link先を確認
Mingze Sun, Chen Guo, Puhua Jiang, Shiwei Mao, Yurun Chen, Ruqi Huang, (参考訳) 本稿では,拡散型画像モーフィングとフロー推定に基づく新しいセマンティック形状登録フレームワークSRIFを提案する。 より具体的には、外在的に整列した一対の形状を条件に、まず複数のビューからそれらを描画し、拡散モデルに基づく画像補間フレームワークを用いて中間画像列を生成する。 画像は後に動的3次元ガウススプレイティングフレームワークに入力され、画像モーフィング処理に関する中間点雲の再構成と後処理を行う。 最後に,本手法を応用した新たな登録モジュールを提案する。このモジュールはソース形状を目標に向かって一貫した変形をし,中間点雲を弱い誘導として利用する。 我々の重要な洞察は、大きな視覚モデル(LVM)を利用して形状を関連付けることで、アドホックな特徴抽出やアライメントよりも、形状間の関係に関するよりリッチな意味情報を得ることです。 その結果、SRIFは難解な形状対に関する高品質な密接な対応を達成できるだけでなく、その間に滑らかで意味論的に意味のある補間をもたらす。 経験的証拠は,本手法の有効性と優越性,および設計選択を正当化する。 コードはhttps://github.com/rqhuang88/SRIFで公開されている。

In this paper, we propose SRIF, a novel Semantic shape Registration framework based on diffusion-based Image morphing and Flow estimation. More concretely, given a pair of extrinsically aligned shapes, we first render them from multi-views, and then utilize an image interpolation framework based on diffusion models to generate sequences of intermediate images between them. The images are later fed into a dynamic 3D Gaussian splatting framework, with which we reconstruct and post-process for intermediate point clouds respecting the image morphing processing. In the end, tailored for the above, we propose a novel registration module to estimate continuous normalizing flow, which deforms source shape consistently towards the target, with intermediate point clouds as weak guidance. Our key insight is to leverage large vision models (LVMs) to associate shapes and therefore obtain much richer semantic information on the relationship between shapes than the ad-hoc feature extraction and alignment. As a consequence, SRIF achieves high-quality dense correspondences on challenging shape pairs, but also delivers smooth, semantically meaningful interpolation in between. Empirical evidence justifies the effectiveness and superiority of our method as well as specific design choices. The code is released at https://github.com/rqhuang88/SRIF.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# 確率的時系列予測のためのリカレント補間器

Recurrent Interpolants for Probabilistic Time Series Prediction ( http://arxiv.org/abs/2409.11684v1 )

ライセンス: Link先を確認
Yu Chen, Marin Biloš, Sarthak Mittal, Wei Deng, Kashif Rasul, Anderson Schneider, (参考訳) リカレントニューラルネットワークやトランスフォーマーベースモデルといったシークエンシャルモデルは、確率的手法で多変量時系列を予測するための「textit{de facto}」ツールとなり、金融、生物学、医学などの幅広いデータセットに適用された。 依存関係をキャプチャし、予測の不確実性を評価し、トレーニングの効率を評価できるにもかかわらず、高次元の複雑な分布と機能横断的な依存関係をモデル化する際の課題が浮かび上がっている。 これらの問題に対処するため、最近の研究は拡散モデルやフローベースモデルを用いて生成モデリングを探求している。 特に、確率微分方程式や確率フローの統合は、これらの手法を確率的時系列計算と予測に拡張することに成功している。 しかし、スケーラビリティの問題は、大規模生成モデルに基づく予測のための計算に優しいフレームワークを必要とする。 本研究は,繰り返しニューラルネットワークの計算効率と拡散モデルの高品質確率モデルとの融合による新しい手法を提案する。 提案手法は, 確率補間剤の基礎と, さらなる制御機能を備えたより広範な条件生成フレームワークへの拡張に依存し, このダイナミックな分野における今後の発展への洞察を提供する。

Sequential models such as recurrent neural networks or transformer-based models became \textit{de facto} tools for multivariate time series forecasting in a probabilistic fashion, with applications to a wide range of datasets, such as finance, biology, medicine, etc. Despite their adeptness in capturing dependencies, assessing prediction uncertainty, and efficiency in training, challenges emerge in modeling high-dimensional complex distributions and cross-feature dependencies. To tackle these issues, recent works delve into generative modeling by employing diffusion or flow-based models. Notably, the integration of stochastic differential equations or probability flow successfully extends these methods to probabilistic time series imputation and forecasting. However, scalability issues necessitate a computational-friendly framework for large-scale generative model-based predictions. This work proposes a novel approach by blending the computational efficiency of recurrent neural networks with the high-quality probabilistic modeling of the diffusion model, which addresses challenges and advances generative models' application in time series forecasting. Our method relies on the foundation of stochastic interpolants and the extension to a broader conditional generation framework with additional control features, offering insights for future developments in this dynamic field.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# アジャイルソフトウェア開発における原型的リーダーシップ

Prototypical Leadership in Agile Software Development ( http://arxiv.org/abs/2409.11685v1 )

ライセンス: Link先を確認
Jina Dawood, Lucas Gren, (参考訳) アジャイルチームにおけるリーダーシップは、チームメンバーが専門知識とスキルに基づいてリーダーシップの仕事を共有する、集合的な責任である。 しかし、この文脈におけるリーダーシップの理解は限られている。 本研究は,チームの代表的リーダとして認識されるリーダが,より効果的なリーダであるかどうかと方法を理解することを目的とした,原型的リーダシップの未調査領域について検討する。 さまざまな業界や規模のスウェーデン企業5社で、6つのアジャイルチームの11人のメンバによる質的なインタビューが行われた。 本研究では、チーム内から、あるいはリーダーがグループに同調する時に、リーダーシップの有効性がより高く認識された。 さらに、チームの共有価値と特性に合わせたマネージャの役割のリーダーは、より効果的であると認識され、チーム全体の成功に寄与した。

Leadership in agile teams is a collective responsibility where team members share leadership work based on expertise and skills. However, the understanding of leadership in this context is limited. This study explores the under-researched area of prototypical leadership, aiming to understand if and how leaders who are perceived as more representative of the team are more effective leaders. Qualitative interviews were conducted with eleven members of six agile software teams in five Swedish companies from various industries and sizes. In this study, the effectiveness of leadership was perceived as higher when it emerged from within the team or when leaders aligned with the group. In addition, leaders in managerial roles that align with the team's shared values and traits were perceived as more effective, contributing to overall team success.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# 深層学習型オポチュニスティックCTによる診断下医療状況の検出

Detecting Underdiagnosed Medical Conditions with Deep Learning-Based Opportunistic CT Imaging ( http://arxiv.org/abs/2409.11686v1 )

ライセンス: Link先を確認
Asad Aali, Andrew Johnston, Louis Blankemeier, Dave Van Veen, Laura T Derry, David Svec, Jason Hom, Robert D. Boutin, Akshay S. Chaudhari, (参考訳) 腹部CT検査は臨床現場で頻繁に行われている。 オポチュニティCTは、診断情報を抽出するために定期的なCT画像を再取得することを含み、サルコニア、肝脂肪症、腹水などの未診断状態を検出する新しいツールである。 本研究は、深層学習法を用いて、正確な診断と臨床文書の作成を促進する。 我々は,2,674個の患者CTスキャンを分析し,画像表現型(機会的CTスキャンから派生した特徴)とそれに対応するドキュメンテーションのラジオグラフィーレポートおよびICD符号化における相違点を同定した。 解析の結果, サルコニア, 肝脂肪症, 腹水と診断されたスキャンの0.5%, 3.2%, 30.7%のみがICDで診断された。 本研究は, 診断精度とリスク調整モデルの精度を高めるためのCTの有用性を示し, 精度医学の進歩を提供するものである。

Abdominal computed tomography (CT) scans are frequently performed in clinical settings. Opportunistic CT involves repurposing routine CT images to extract diagnostic information and is an emerging tool for detecting underdiagnosed conditions such as sarcopenia, hepatic steatosis, and ascites. This study utilizes deep learning methods to promote accurate diagnosis and clinical documentation. We analyze 2,674 inpatient CT scans to identify discrepancies between imaging phenotypes (characteristics derived from opportunistic CT scans) and their corresponding documentation in radiology reports and ICD coding. Through our analysis, we find that only 0.5%, 3.2%, and 30.7% of scans diagnosed with sarcopenia, hepatic steatosis, and ascites (respectively) through either opportunistic imaging or radiology reports were ICD-coded. Our findings demonstrate opportunistic CT's potential to enhance diagnostic precision and accuracy of risk adjustment models, offering advancements in precision medicine.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# 腹腔鏡下手術におけるSLAM支援3Dトラッキングシステム

SLAM assisted 3D tracking system for laparoscopic surgery ( http://arxiv.org/abs/2409.11688v1 )

ライセンス: Link先を確認
Jingwei Song, Ray Zhang, Wenwei Zhang, Hao Zhou, Maani Ghaffari, (参考訳) 最小侵襲手術の大きな制限は、触覚フィードバックと透明性の欠如により、標的臓器の内部解剖学的構造を正確に見つけるのが困難である。 拡張現実(AR)はこの課題を克服する有望なソリューションを提供する。 学習に基づく手法と幾何学的手法を組み合わせることで,術前および術中データの正確な登録が可能になることが,多くの研究で示されている。 本研究は,登録後タスクのためのリアルタイムモノクル3D追跡アルゴリズムを提案する。 ORB-SLAM2フレームワークは、事前ベースの3Dトラッキングに採用され、修正されている。 原始的な3D形状は単分子SLAMの高速初期化に用いられる。 追跡目的のために対象臓器を背景から分離するために擬分法戦略を用い、ポーズグラフに付加的な制約として3次元形状の幾何学的先行を組み込む。 in-vivo と ex-vivo の実験により、提案された3Dトラッキングシステムは堅牢な3Dトラッキングを提供し、高速な動き、視野外シナリオ、部分的な可視性、相対的な動きといった典型的な課題を効果的に処理することを示した。

A major limitation of minimally invasive surgery is the difficulty in accurately locating the internal anatomical structures of the target organ due to the lack of tactile feedback and transparency. Augmented reality (AR) offers a promising solution to overcome this challenge. Numerous studies have shown that combining learning-based and geometric methods can achieve accurate preoperative and intraoperative data registration. This work proposes a real-time monocular 3D tracking algorithm for post-registration tasks. The ORB-SLAM2 framework is adopted and modified for prior-based 3D tracking. The primitive 3D shape is used for fast initialization of the monocular SLAM. A pseudo-segmentation strategy is employed to separate the target organ from the background for tracking purposes, and the geometric prior of the 3D shape is incorporated as an additional constraint in the pose graph. Experiments from in-vivo and ex-vivo tests demonstrate that the proposed 3D tracking system provides robust 3D tracking and effectively handles typical challenges such as fast motion, out-of-field-of-view scenarios, partial visibility, and "organ-background" relative motion.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# GUNet: 安定・多様性ポッド生成のためのグラフ畳み込みネットワーク統一拡散モデル

GUNet: A Graph Convolutional Network United Diffusion Model for Stable and Diversity Pose Generation ( http://arxiv.org/abs/2409.11689v1 )

ライセンス: Link先を確認
Shuowen Liang, Sisi Li, Qingyun Wang, Cen Zhang, Kaiquan Zhu, Tian Yang, (参考訳) ポース骨格画像はポーズ制御可能な画像生成において重要な参照である。 骨格画像のソースを充実させるために,近年の研究では,自然言語に基づくポーズスケルトンの生成について検討している。 これらの手法は GAN に基づいている。 しかし、多種多様なテキスト入力による人間のポーズスケルトン生成を多様で、構造的に正しく、美的に喜ばせることは依然として困難である。 この問題に対処するため,GUNet をメインモデルとするフレームワーク PoseDiffusion を提案する。 拡散モデルに基づく最初の生成フレームワークであり、安定拡散モデルに基づいて微調整された一連の変種も含む。 PoseDiffusionは、既存のメソッドを上回るいくつかの望ましい特性を示している。 1)正しい骨格。 PoseDiffusionのデノベーションモデルであるGUNetは、グラフィカル畳み込みニューラルネットワークを組み込むように設計されている。 トレーニング中に骨格情報を導入することで、人間の骨格の空間的関係を学習することができる。 2)多様性。 我々は、骨格のキーポイントを分離し、それらを別々に特徴付け、テキスト条件の導入にクロスアテンションを使用する。 実験の結果,PoseDiffusionはテキスト駆動のポーズスケルトン生成の安定性と多様性の観点から,既存のSoTAアルゴリズムよりも優れていた。 定性的解析により、安定拡散における制御可能な生成の優位性がさらに証明された。

Pose skeleton images are an important reference in pose-controllable image generation. In order to enrich the source of skeleton images, recent works have investigated the generation of pose skeletons based on natural language. These methods are based on GANs. However, it remains challenging to perform diverse, structurally correct and aesthetically pleasing human pose skeleton generation with various textual inputs. To address this problem, we propose a framework with GUNet as the main model, PoseDiffusion. It is the first generative framework based on a diffusion model and also contains a series of variants fine-tuned based on a stable diffusion model. PoseDiffusion demonstrates several desired properties that outperform existing methods. 1) Correct Skeletons. GUNet, a denoising model of PoseDiffusion, is designed to incorporate graphical convolutional neural networks. It is able to learn the spatial relationships of the human skeleton by introducing skeletal information during the training process. 2) Diversity. We decouple the key points of the skeleton and characterise them separately, and use cross-attention to introduce textual conditions. Experimental results show that PoseDiffusion outperforms existing SoTA algorithms in terms of stability and diversity of text-driven pose skeleton generation. Qualitative analyses further demonstrate its superiority for controllable generation in Stable Diffusion.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# ORB-SfMLearner:選択的オンライン適応を用いたORB誘導型自己監督型視覚眼振

ORB-SfMLearner: ORB-Guided Self-supervised Visual Odometry with Selective Online Adaptation ( http://arxiv.org/abs/2409.11692v1 )

ライセンス: Link先を確認
Yanlin Jin, Rui-Yang Ju, Haojun Liu, Yuzhong Zhong, (参考訳) ディープ・ビジュアル・オドメトリーは広範な研究にもかかわらず、その幅広い応用を妨げる精度と一般化性の限界に直面している。 これらの課題に対処するため,ORB-SfMLearner という名前の選択的オンライン適応を用いた Oriented FAST と Rotated BRIEF (ORB) 誘導視覚計測手法を提案する。 我々は、学習に基づく自我運動推定にORBの新たな利用法を提案し、より堅牢で正確な結果をもたらす。 また、PoseNetの説明可能性を高めるためのクロスアテンション機構を導入し、車両の運転方向を注意重みによって説明できることを明らかにし、この領域での新たな探索を図った。 一般化性を向上させるため、選択的なオンライン適応により、ネットワークは異なるドメイン間で最適なパラメータを迅速かつ選択的に調整できる。 KITTIとvKITTIのデータセットによる実験結果から,本手法はエゴモーションの精度と一般化性の観点から,従来の最先端の深部視覚計測法よりも優れていた。

Deep visual odometry, despite extensive research, still faces limitations in accuracy and generalizability that prevent its broader application. To address these challenges, we propose an Oriented FAST and Rotated BRIEF (ORB)-guided visual odometry with selective online adaptation named ORB-SfMLearner. We present a novel use of ORB features for learning-based ego-motion estimation, leading to more robust and accurate results. We also introduce the cross-attention mechanism to enhance the explainability of PoseNet and have revealed that driving direction of the vehicle can be explained through attention weights, marking a novel exploration in this area. To improve generalizability, our selective online adaptation allows the network to rapidly and selectively adjust to the optimal parameters across different domains. Experimental results on KITTI and vKITTI datasets show that our method outperforms previous state-of-the-art deep visual odometry methods in terms of ego-motion accuracy and generalizability.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# 有限体上の数クラスのパワー関数の2階ゼロ微分特性について

On the second-order zero differential properties of several classes of power functions over finite fields ( http://arxiv.org/abs/2409.11693v1 )

ライセンス: Link先を確認
Huan Zhou, Xiaoni Du, Xingbin Qiao, Wenping Yuan, (参考訳) Feistel Boomerang Connectivity Table (FBCT)は、差動攻撃やブーメラン攻撃などの攻撃に対するFeistelネットワークベースの暗号の抵抗を分析するための重要な暗号解析手法である。 さらに、FBCT の係数は、偶数標数を持つ有限体上の函数 $F(x)$ の2階ゼロ微分スペクトルと密接に関連しており、Feistel boomerang の均一性は、$F(x)$ の2階ゼロ微分均一性である。 本稿では、有限体上の特定の方程式の解の数を計算することにより、偶標数を持つ有限体上の正の整数として$m>2$のパワー関数 $x^{2^m+3}$と$x^{2^m+5}$の2階ゼロ微分スペクトルを明示的に決定し、奇標数$p$の有限体上で$x^{p^k+1}$の整数 $k\geq1$の値を求める。 x^{2^m+3}$は$\mathbb{F}_{2^n}$上の置換であり、$m$が奇数であるときのみ、$x^{2^m+5}$は$\mathbb{F}_{2^n}$上の置換である。 副生成物として、$F(x)=x^4$ は PN であり、奇数$n$ を持つ $\mathbb{F}_{3^n}$ 上の 2階ゼロ微分的に $0$-ユニフォーム函数である。 これらのエントリと各テーブルの濃度の計算は、区別器や軌跡を研究する際に、Sボックスの微分とブーメランの暗号解析を容易にすることを目的としている。

Feistel Boomerang Connectivity Table (FBCT) is an important cryptanalytic technique on analysing the resistance of the Feistel network-based ciphers to power attacks such as differential and boomerang attacks. Moreover, the coefficients of FBCT are closely related to the second-order zero differential spectra of the function $F(x)$ over the finite fields with even characteristic and the Feistel boomerang uniformity is the second-order zero differential uniformity of $F(x)$. In this paper, by computing the number of solutions of specific equations over finite fields, we determine explicitly the second-order zero differential spectra of power functions $x^{2^m+3}$ and $x^{2^m+5}$ with $m>2$ being a positive integer over finite field with even characteristic, and $x^{p^k+1}$ with integer $k\geq1$ over finite field with odd characteristic $p$. It is worth noting that $x^{2^m+3}$ is a permutation over $\mathbb{F}_{2^n}$ and only when $m$ is odd, $x^{2^m+5}$ is a permutation over $\mathbb{F}_{2^n}$, where integer $n=2m$. As a byproduct, we find $F(x)=x^4$ is a PN and second-order zero differentially $0$-uniform function over $\mathbb{F}_{3^n}$ with odd $n$. The computation of these entries and the cardinalities in each table aimed to facilitate the analysis of differential and boomerang cryptanalysis of S-boxes when studying distinguishers and trails.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# 単項行列群同変ニューラルネットワーク

Monomial Matrix Group Equivariant Neural Functional Networks ( http://arxiv.org/abs/2409.11697v1 )

ライセンス: Link先を確認
Hoang V. Tran, Thieu N. Vo, Tho H. Tran, An T. Nguyen, Tan Minh Nguyen, (参考訳) ニューラルネットワーク(NFN)は,ネットワークの一般化やネットワーク編集の予測から暗黙のニューラル表現の分類に至るまで,さまざまな用途で注目されている。 以前のNFNの設計は、ニューラルネットワークの重みの置換対称性に依存することが多い。 しかしながら、これらの設計は、$\operatorname{ReLU}$ネットワークのウェイトスケーリング対称性と$\operatorname{sin}$または$\operatorname{tanh}$ネットワークのウェイトサイン反転対称性を考慮していない。 本稿では,ネットワーク重みに対する群作用の研究を,スケーリング・サイン・フリップ対称性を取り入れて,置換行列群から単項行列群へ拡張する。 特に、対応する同変層と不変層を設計することで、これらのスケーリング/サイン・フリップ対称性を符号化する。 我々はNFNの新しいファミリーをMonomial Matrix Group Equivariant Neural Functional Networks (Monomial-NFN)と名付けた。 対称性の拡大により、Monomial-NFNは文献のベースラインであるNFNに比べて、独立したトレーニング可能なパラメータがはるかに少ないため、モデルの効率が向上する。 さらに、完全連結および畳み込みニューラルネットワークの場合、重み空間上で作用しながらこれらのネットワークを離れるすべての群が単項行列群のいくつかの部分群であることが理論的に証明される。 既存のベースラインよりもモデルの利点を実証するための実証的な証拠を提供し、競争性能と効率性を達成する。

Neural functional networks (NFNs) have recently gained significant attention due to their diverse applications, ranging from predicting network generalization and network editing to classifying implicit neural representation. Previous NFN designs often depend on permutation symmetries in neural networks' weights, which traditionally arise from the unordered arrangement of neurons in hidden layers. However, these designs do not take into account the weight scaling symmetries of $\operatorname{ReLU}$ networks, and the weight sign flipping symmetries of $\operatorname{sin}$ or $\operatorname{tanh}$ networks. In this paper, we extend the study of the group action on the network weights from the group of permutation matrices to the group of monomial matrices by incorporating scaling/sign-flipping symmetries. Particularly, we encode these scaling/sign-flipping symmetries by designing our corresponding equivariant and invariant layers. We name our new family of NFNs the Monomial Matrix Group Equivariant Neural Functional Networks (Monomial-NFN). Because of the expansion of the symmetries, Monomial-NFN has much fewer independent trainable parameters compared to the baseline NFNs in the literature, thus enhancing the model's efficiency. Moreover, for fully connected and convolutional neural networks, we theoretically prove that all groups that leave these networks invariant while acting on their weight spaces are some subgroups of the monomial matrix group. We provide empirical evidences to demonstrate the advantages of our model over existing baselines, achieving competitive performance and efficiency.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# FLARE:リコメンダ強化のための言語モデルと協調アーキテクチャ

FLARE: Fusing Language Models and Collaborative Architectures for Recommender Enhancement ( http://arxiv.org/abs/2409.11699v1 )

ライセンス: Link先を確認
Liam Hebert, Marialena Kyriakidi, Hubert Pham, Krishna Sayana, James Pine, Sukhdeep Sodhi, Ambarish Jash, (参考訳) アイテムIDとテキスト記述を組み合わせたハイブリッドレコメンデータシステムは、精度を向上させる可能性を秘めている。 しかし、以前の研究は、より小さなデータセットとモデルアーキテクチャに重点を置いてきた。 本稿では,言語モデル (mT5) と協調フィルタリングモデル (Bert4Rec) をPerceiver ネットワークを用いて統合した新しいハイブリッドレコメンデータである Flare (Fusing Language model and collaborative Architectures for Recommender Enhancement) を紹介する。 このアーキテクチャにより、Frareは協力的な情報とコンテンツ情報を効果的に組み合わせて、レコメンデーションを強化できる。 2段階の評価を行い、まずFrareのパフォーマンスを、より小さなデータセット上で確立されたベースラインに対して評価し、競争精度を示す。 その後、より大きく、より現実的なデータセット上で、より大きな項目語彙でFrareを評価し、この設定に新たなベースラインを導入する。 最後に、ユーザがフィードバックを提供し、リコメンデーションを洗練できるように、フレアの固有の能力を紹介します。 さらに,モデルの言語理解とレコメンデーションタスクへの伝達性を評価するための評価手法として,クオリティクリングを活用している。

Hybrid recommender systems, combining item IDs and textual descriptions, offer potential for improved accuracy. However, previous work has largely focused on smaller datasets and model architectures. This paper introduces Flare (Fusing Language models and collaborative Architectures for Recommender Enhancement), a novel hybrid recommender that integrates a language model (mT5) with a collaborative filtering model (Bert4Rec) using a Perceiver network. This architecture allows Flare to effectively combine collaborative and content information for enhanced recommendations. We conduct a two-stage evaluation, first assessing Flare's performance against established baselines on smaller datasets, where it demonstrates competitive accuracy. Subsequently, we evaluate Flare on a larger, more realistic dataset with a significantly larger item vocabulary, introducing new baselines for this setting. Finally, we showcase Flare's inherent ability to support critiquing, enabling users to provide feedback and refine recommendations. We further leverage critiquing as an evaluation method to assess the model's language understanding and its transferability to the recommendation task.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# 音響物体に対する分析オントロジーテンプレートによる概念知識の発見

Discovering Conceptual Knowledge with Analytic Ontology Templates for Articulated Objects ( http://arxiv.org/abs/2409.11702v1 )

ライセンス: Link先を確認
Jianhua Sun, Yuxuan Li, Longfei Xu, Jiude Wei, Liang Chai, Cewu Lu, (参考訳) 人間の認知は、幾何学的知識やキネマティック知識のような基本的な概念的知識を利用して、新しい物体を適切に知覚し、理解し、相互作用することができる。 本研究の目的は, 複雑な幾何学的構造と多種多様な関節的物体の関節タイプにより, 特に新しいカテゴリーにおいて, 機械知能を概念レベルで理解し, 相互作用させることである。 この目的を達成するために、一般化概念オントロジーのパラメータ化および微分可能なプログラム記述であるAOT(Analytic Ontology Template)を提案する。 AOTsによって駆動されるAOTNetと呼ばれるベースラインアプローチは、これらの一般化された概念を知能エージェントに装備して設計され、それからエージェントに、調音対象の構造と余裕に関する概念的知識を効果的に発見する権限を与える。 AOT駆動のアプローチは、3つの重要な視点で利益をもたらす。 一 実際の訓練データに頼らずに、調音対象の概念レベルの理解を可能にすること。 二 分析構造情報の提供、及び 三 適切なインタラクションの方法を示す豊富な手当情報を導入すること。 我々は、徹底的な実験を行い、その成果は、理解における我々のアプローチの優位性を証明し、そして、明瞭な物体と相互作用することである。

Human cognition can leverage fundamental conceptual knowledge, like geometric and kinematic ones, to appropriately perceive, comprehend and interact with novel objects. Motivated by this finding, we aim to endow machine intelligence with an analogous capability through performing at the conceptual level, in order to understand and then interact with articulated objects, especially for those in novel categories, which is challenging due to the intricate geometric structures and diverse joint types of articulated objects. To achieve this goal, we propose Analytic Ontology Template (AOT), a parameterized and differentiable program description of generalized conceptual ontologies. A baseline approach called AOTNet driven by AOTs is designed accordingly to equip intelligent agents with these generalized concepts, and then empower the agents to effectively discover the conceptual knowledge on the structure and affordance of articulated objects. The AOT-driven approach yields benefits in three key perspectives: i) enabling concept-level understanding of articulated objects without relying on any real training data, ii) providing analytic structure information, and iii) introducing rich affordance information indicating proper ways of interaction. We conduct exhaustive experiments and the results demonstrate the superiority of our approach in understanding and then interacting with articulated objects.
翻訳日:2024-09-19 19:10:09 公開日:2024-09-18
# APIインタラクションのためのLLMのハーネス化: 分類と合成データ生成のためのフレームワーク

Harnessing LLMs for API Interactions: A Framework for Classification and Synthetic Data Generation ( http://arxiv.org/abs/2409.11703v1 )

ライセンス: Link先を確認
Chunliang Tao, Xiaojing Fan, Yahe Yang, (参考訳) 大きな言語モデル(LLM)が自然言語処理に進歩するにつれ、ソフトウェアインタラクションを単純化する能力を活用することへの関心が高まっている。 本稿では,自然言語入力を対応するAPI呼び出しに分類し,特定のAPI機能に適したサンプルデータセットの自動生成を行うLLMシステムを提案する。 自然言語コマンドを分類することで、ユーザは単純な入力で複雑なソフトウェア機能を呼び出すことができ、対話効率を向上し、ソフトウェア利用の障壁を低くすることができる。 当社のデータセット生成アプローチでは,API呼び出しの分類において,異なるLLMを効率よく,体系的に評価することが可能です。 各種API関数に対して生成されたサンプルデータセットを用いて,いくつかの顕著なLCMについて実験を行った。 その結果, GPT-4の分類精度は0.996, LLaMA-3-8Bは0.759。 これらの知見は, LLMがAPI管理を変革し, 様々なアプリケーションにわたるモデルテストと選択を導く上で, システムの有効性を検証する可能性を強調している。

As Large Language Models (LLMs) advance in natural language processing, there is growing interest in leveraging their capabilities to simplify software interactions. In this paper, we propose a novel system that integrates LLMs for both classifying natural language inputs into corresponding API calls and automating the creation of sample datasets tailored to specific API functions. By classifying natural language commands, our system allows users to invoke complex software functionalities through simple inputs, improving interaction efficiency and lowering the barrier to software utilization. Our dataset generation approach also enables the efficient and systematic evaluation of different LLMs in classifying API calls, offering a practical tool for developers or business owners to assess the suitability of LLMs for customized API management. We conduct experiments on several prominent LLMs using generated sample datasets for various API functions. The results show that GPT-4 achieves a high classification accuracy of 0.996, while LLaMA-3-8B performs much worse at 0.759. These findings highlight the potential of LLMs to transform API management and validate the effectiveness of our system in guiding model testing and selection across diverse applications.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# リストから絵文字へ - バイアスがモデルアライメントにどのように影響するか

From Lists to Emojis: How Format Bias Affects Model Alignment ( http://arxiv.org/abs/2409.11704v1 )

ライセンス: Link先を確認
Xuanchang Zhang, Wei Xiong, Lichang Chen, Tianyi Zhou, Heng Huang, Tong Zhang, (参考訳) 本稿では,人間からのフィードバック(RLHF)による強化学習における形式バイアスについて検討する。 RewardBenchベンチマークでは、人間評価器、GPT-4、上位モデルなど、広く使われている多くの嗜好モデルが、リスト、リンク、大胆なテキスト、絵文字などの特定のフォーマットパターンに対して強いバイアスを示す。 さらに、大きな言語モデル(LLM)は、これらのバイアスを利用して、AlpacaEvalやLMSYS Chatbot Arenaといった一般的なベンチマークで上位にランクインすることができる。 この顕著な例は冗長性バイアス(英語版)であり、現在の嗜好モデルでは、短い競合する応答よりも品質が等しい場合であっても、より包括的に見えるより長い応答が好まれる。 しかし、冗長性を超えた形式バイアスは、文学においてほとんど未発見のままである。 本研究は、広く認識されている長さバイアスを超えて、嗜好学習におけるバイアスの研究を拡張し、より広い範囲のフォーマットバイアスを包括的に分析する。 さらに、少量のバイアスデータ(1%未満)で、報酬モデルにかなりのバイアスを注入できることを示す。 さらに、これらのフォーマットバイアスは、ベスト・オブ・nサンプリングやオンライン反復DPOといった下流アライメントアルゴリズムによって容易に利用することができる。 本研究は,アライメントアルゴリズムの設計とモデル評価の両面において,フォーマットとコンテンツをアンタングルする必要性を強調した。

In this paper, we study format biases in reinforcement learning from human feedback (RLHF). We observe that many widely-used preference models, including human evaluators, GPT-4, and top-ranking models on the RewardBench benchmark, exhibit strong biases towards specific format patterns, such as lists, links, bold text, and emojis. Furthermore, large language models (LLMs) can exploit these biases to achieve higher rankings on popular benchmarks like AlpacaEval and LMSYS Chatbot Arena. One notable example of this is verbosity bias, where current preference models favor longer responses that appear more comprehensive, even when their quality is equal to or lower than shorter, competing responses. However, format biases beyond verbosity remain largely underexplored in the literature. In this work, we extend the study of biases in preference learning beyond the commonly recognized length bias, offering a comprehensive analysis of a wider range of format biases. Additionally, we show that with a small amount of biased data (less than 1%), we can inject significant bias into the reward model. Moreover, these format biases can also be easily exploited by downstream alignment algorithms, such as best-of-n sampling and online iterative DPO, as it is usually easier to manipulate the format than to improve the quality of responses. Our findings emphasize the need to disentangle format and content both for designing alignment algorithms and evaluating models.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# RopeBEV:Bird's-Eye-Viewのマルチカメラロードサイド知覚ネットワーク

RopeBEV: A Multi-Camera Roadside Perception Network in Bird's-Eye-View ( http://arxiv.org/abs/2409.11706v1 )

ライセンス: Link先を確認
Jinrang Jia, Guangqi Yi, Yifeng Shi, (参考訳) Bird's-Eye-View (BEV) におけるマルチカメラ認識手法は、自動運転に広く応用されている。 しかし、道路側と車両側のシナリオの違いにより、現在、道路側ではマルチカメラのBEVソリューションが欠落している。 本稿では,道路側シナリオに対するマルチカメラのBEV知覚における重要な課題を,車両側と比較して体系的に分析する。 これらの課題には、カメラポーズの多様性、カメラナンバーの不確実性、知覚領域の空間性、方向角のあいまいさなどが含まれる。 これに対して,最初の高密度マルチカメラBEVアプローチであるRopeBEVを紹介する。 RopeBEVは、多様なカメラポーズによるトレーニングバランスの問題に対処するために、BEVの拡張を導入している。 CamMaskとROIMask(Region of Interest Mask)を組み込むことで、それぞれ可変カメラ番号とスパース知覚をサポートする。 最後に、カメラ回転埋め込みを利用して方向のあいまいさを解消する。 提案手法は,50以上の交差点と600台のカメラをカバーするプライベートな都市データセットにおいて,実世界のハイウェイデータセットRoScenesの1位にランク付けし,その実用的価値を実証する。

Multi-camera perception methods in Bird's-Eye-View (BEV) have gained wide application in autonomous driving. However, due to the differences between roadside and vehicle-side scenarios, there currently lacks a multi-camera BEV solution in roadside. This paper systematically analyzes the key challenges in multi-camera BEV perception for roadside scenarios compared to vehicle-side. These challenges include the diversity in camera poses, the uncertainty in Camera numbers, the sparsity in perception regions, and the ambiguity in orientation angles. In response, we introduce RopeBEV, the first dense multi-camera BEV approach. RopeBEV introduces BEV augmentation to address the training balance issues caused by diverse camera poses. By incorporating CamMask and ROIMask (Region of Interest Mask), it supports variable camera numbers and sparse perception, respectively. Finally, camera rotation embedding is utilized to resolve orientation ambiguity. Our method ranks 1st on the real-world highway dataset RoScenes and demonstrates its practical value on a private urban dataset that covers more than 50 intersections and 600 cameras.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# LFIC-DRASC:アンタングル表現と非対称ストリップ畳み込みを用いた深部光場画像圧縮

LFIC-DRASC: Deep Light Field Image Compression Using Disentangled Representation and Asymmetrical Strip Convolution ( http://arxiv.org/abs/2409.11711v1 )

ライセンス: Link先を確認
Shiyu Feng, Yun Zhang, Linwei Zhu, Sam Kwong, (参考訳) 光ファイバー(LF)画像は、3Dシーンの空間的・角的な情報を現実的に提示できる光線の4Dデータを生み出している。 しかし、LF画像の膨大なデータ量は、リアルタイム処理、送信、ストレージにおいて最も難しい問題となっている。 本稿では、符号化効率を向上させるために、ディスタングル表現と非対称ストリップ畳み込み(LFIC-DRASC)を用いたエンドツーエンドの深いLF画像圧縮手法を提案する。 まず、不整合LF表現ネットワークと画像符号化復号ネットワークの学習として、LF画像圧縮問題を定式化する。 次に,異なる次元にまたがる特徴を統合することで,LFデータの構造的先行性を活用する2つの新しい特徴抽出器を提案する。 一方、アンタングル化されたLF表現ネットワークは、アンタングル化とデカップリングを向上するために提案されている。 第3に、LF画像圧縮のためのLFIC-DRASCを提案し、2つの非対称ストリップ畳み込み(ASC)演算子(水平および垂直)を提案し、LF特徴空間における長距離相関を捉える。 これら2つのASC演算子は正方形畳み込みと組み合わせてLF特徴をさらに分離し、複雑な空間関係を表現するモデル能力を高めることができる。 実験結果から,提案したLFIC-DRASCは,最先端手法と比較して平均20.5\%のビットレート削減を実現していることがわかった。

Light-Field (LF) image is emerging 4D data of light rays that is capable of realistically presenting spatial and angular information of 3D scene. However, the large data volume of LF images becomes the most challenging issue in real-time processing, transmission, and storage. In this paper, we propose an end-to-end deep LF Image Compression method Using Disentangled Representation and Asymmetrical Strip Convolution (LFIC-DRASC) to improve coding efficiency. Firstly, we formulate the LF image compression problem as learning a disentangled LF representation network and an image encoding-decoding network. Secondly, we propose two novel feature extractors that leverage the structural prior of LF data by integrating features across different dimensions. Meanwhile, disentangled LF representation network is proposed to enhance the LF feature disentangling and decoupling. Thirdly, we propose the LFIC-DRASC for LF image compression, where two Asymmetrical Strip Convolution (ASC) operators, i.e. horizontal and vertical, are proposed to capture long-range correlation in LF feature space. These two ASC operators can be combined with the square convolution to further decouple LF features, which enhances the model ability in representing intricate spatial relationships. Experimental results demonstrate that the proposed LFIC-DRASC achieves an average of 20.5\% bit rate reductions comparing with the state-of-the-art methods.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# 指数関数から有限・固定時間安定へ:最適化への応用

From exponential to finite/fixed-time stability: Applications to optimization ( http://arxiv.org/abs/2409.11713v1 )

ライセンス: Link先を確認
Ibrahim K. Ozaslan, Mihailo R. Jovanović, (参考訳) 有限時間安定最適化アルゴリズムの開発は、典型的には特定の問題事例の研究を伴う。 統一されたフレームワークの欠如は、例えば原始双対勾配流のダイナミクスのようなより洗練されたアルゴリズムの理解を妨げる。 本研究の目的は,指数関数的に安定な最適化アルゴリズムが与えられた場合,有限・固定時間安定なアルゴリズムが得られるか,という問題に対処することである。 我々は、元の力学の右辺の単純なスケーリングを通して、その解が有限時間間隔でどのように計算できるかを実証し、元の系の指数的安定性を証明したリアプノフ関数を用いて、修正アルゴリズムの所望の性質を証明した。 最後に,非滑らかな複合最適化問題と線形制約を伴う滑らかな問題を考察し,提案手法の利点を実証する。

The development of finite/fixed-time stable optimization algorithms typically involves study of specific problem instances. The lack of a unified framework hinders understanding of more sophisticated algorithms, e.g., primal-dual gradient flow dynamics. The purpose of this paper is to address the following question: Given an exponentially stable optimization algorithm, can it be modified to obtain a finite/fixed-time stable algorithm? We provide an affirmative answer, demonstrate how the solution can be computed on a finite-time interval via a simple scaling of the right-hand-side of the original dynamics, and certify the desired properties of the modified algorithm using the Lyapunov function that proves exponential stability of the original system. Finally, we examine nonsmooth composite optimization problems and smooth problems with linear constraints to demonstrate the merits of our approach.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# Free-VSC: 教師なしビデオセマンティック圧縮のためのVisual Foundation Modelsからのフリーセマンティック

Free-VSC: Free Semantics from Visual Foundation Models for Unsupervised Video Semantic Compression ( http://arxiv.org/abs/2409.11718v1 )

ライセンス: Link先を確認
Yuan Tian, Guo Lu, Guangtao Zhai, (参考訳) 教師なしビデオセマンティック圧縮(Unsupervised video semantic compression, UVSC)は、近年注目されている。 しかし,従来の手法のセマンティック・リッチネスは,単一のセマンティック・ラーニング目標,限られたトレーニングデータなどによって制限され続けている。 そこで本研究では,VFMから既製のリッチなセマンティクスを吸収することにより,UVSCタスクの強化を提案する。 具体的には、圧縮されたビデオと様々なVFM間のセマンティックスを柔軟に整合させるために、VFM固有のプロンプトを補完するVFM共有セマンティックアライメント層を導入する。 これにより、異なるVFMが相互に強化されたセマンティック空間を共同で構築し、圧縮モデルの学習を導くことができる。 さらに,動的トラジェクトリに基づくフレーム間圧縮方式を導入し,まず歴史的内容に基づいて意味的トラジェクトリを推定し,次にそのトラジェクトリに沿って進行して,将来的なセマンティクスを符号化コンテキストとして予測する。 これによりシステム全体のビットコストが削減され、圧縮効率が向上する。 提案手法は,3つのメインストリームタスクと6つのデータセットにおいて,従来のコーディング手法より優れている。

Unsupervised video semantic compression (UVSC), i.e., compressing videos to better support various analysis tasks, has recently garnered attention. However, the semantic richness of previous methods remains limited, due to the single semantic learning objective, limited training data, etc. To address this, we propose to boost the UVSC task by absorbing the off-the-shelf rich semantics from VFMs. Specifically, we introduce a VFMs-shared semantic alignment layer, complemented by VFM-specific prompts, to flexibly align semantics between the compressed video and various VFMs. This allows different VFMs to collaboratively build a mutually-enhanced semantic space, guiding the learning of the compression model. Moreover, we introduce a dynamic trajectory-based inter-frame compression scheme, which first estimates the semantic trajectory based on the historical content, and then traverses along the trajectory to predict the future semantics as the coding context. This reduces the overall bitcost of the system, further improving the compression efficiency. Our approach outperforms previous coding methods on three mainstream tasks and six datasets.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# TART: 説明可能なテーブルベースの推論のためのオープンソースのツール拡張フレームワーク

TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning ( http://arxiv.org/abs/2409.11724v1 )

ライセンス: Link先を確認
Xinyuan Lu, Liangming Pan, Yubo Ma, Preslav Nakov, Min-Yen Kan, (参考訳) 現在のLarge Language Models (LLMs) は、テーブル構造を理解し、正確な数値推論を適用する能力に限界があり、これはテーブル質問応答(TQA)やテーブルベースの事実検証(TFV)といったタスクに不可欠である。 これらの課題に対処するために、特殊なツールとLLMを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介します。 TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。 また、テーブル-ツール統合におけるLLMのトレーニングに特化して設計された新しいベンチマークであるTOOLTABデータセットも提示する。 実験の結果,データ処理の精度と推論プロセスの明確さを両立させることにより,既存の手法(例えばChain-of-Thought)よりも大幅に改善できることが示唆された。 特に、CodeLlamaと組み合わせたTARTは、クローズドソースのLCM GPT-3.5-turboの精度の90.0%を達成し、さまざまな実世界のシナリオにおける堅牢性を強調している。 すべてのコードとデータはhttps://github.com/XinyuanLu00/TARTで入手できる。

Current Large Language Models (LLMs) exhibit limited ability to understand table structures and to apply precise numerical reasoning, which is crucial for tasks such as table question answering (TQA) and table-based fact verification (TFV). To address these challenges, we introduce our Tool-Augmented Reasoning framework for Tables (TART), which integrates LLMs with specialized tools. TART contains three key components: a table formatter to ensure accurate data representation, a tool maker to develop specific computational tools, and an explanation generator to maintain explainability. We also present the TOOLTAB dataset, a new benchmark designed specifically for training LLMs in table-tool integration. Our experiments indicate that TART achieves substantial improvements over existing methods (e.g., Chain-of-Thought) by improving both the precision of data processing and the clarity of the reasoning process. Notably, TART paired with CodeLlama achieves 90.0% of the accuracy of the closed-sourced LLM GPT-3.5-turbo, highlighting its robustness in diverse real-world scenarios. All the code and data are available at https://github.com/XinyuanLu00/TART.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# LLMロールプレイングにおける文字知識誤り検出の課題

Revealing the Challenge of Detecting Character Knowledge Errors in LLM Role-Playing ( http://arxiv.org/abs/2409.11726v1 )

ライセンス: Link先を確認
Wenyuan Zhang, Jiawei Sheng, Shuaiyi Nie, Zefeng Zhang, Xinghua Zhang, Yongquan He, Tingwen Liu, (参考訳) 大言語モデル(LLM)のロールプレイングが注目され、現実的なLLMロールプレイティングエージェントの構築には、文字知識が不可欠である。 しかしながら、既存の研究は通常、キャラクターの既知の知識エラー(KKE)と未知の知識エラー(UKE)を検出する能力の探索を見落としている。 本稿では,KKE と UKE の誤り検出能力を評価するための探索データセットを提案する。 その結果、最近のLSMでさえこれらの2種類のエラーを効果的に検出するのに苦労していることが示唆された。 そこで我々は,様々な推論手法を実験し,誤り検出能力の向上の可能性を探るため,エージェントベースの推論手法であるSelf-Recollection and Self-Doubt (S2RD)を提案する。 実験の結果,LLMの誤り文字認識能力は向上するが,現在進行中の注意を要する問題である。

Large language model (LLM) role-playing has gained widespread attention, where the authentic character knowledge is crucial for constructing realistic LLM role-playing agents. However, existing works usually overlook the exploration of LLMs' ability to detect characters' known knowledge errors (KKE) and unknown knowledge errors (UKE) while playing roles, which would lead to low-quality automatic construction of character trainable corpus. In this paper, we propose a probing dataset to evaluate LLMs' ability to detect errors in KKE and UKE. The results indicate that even the latest LLMs struggle to effectively detect these two types of errors, especially when it comes to familiar knowledge. We experimented with various reasoning strategies and propose an agent-based reasoning method, Self-Recollection and Self-Doubt (S2RD), to further explore the potential for improving error detection capabilities. Experiments show that our method effectively improves the LLMs' ability to detect error character knowledge, but it remains an issue that requires ongoing attention.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# トレーニングコストの最小化によるリアルタイム会話の実現

Enabling Real-Time Conversations with Minimal Training Costs ( http://arxiv.org/abs/2409.11727v1 )

ライセンス: Link先を確認
Wang Xu, Shuo Wang, Weilin Zhao, Xu Han, Yukun Yan, Yudi Zhang, Zhe Tao, Zhiyuan Liu, Wanxiang Che, (参考訳) 大規模言語モデル(LLM)は、対話的相互作用によって人間の効率を改善する能力を示した。 従来のLLM方式の対話システムはターンベースで動作し、応答生成時のリアルタイム対話を妨げている。 この制限に対処するため、研究者は二重モデルを提案した。 これらのモデルは、ユーザの入力に動的に適応し、リアルタイムのインタラクティブなフィードバックを容易にします。 しかし、これらの手法は典型的には能力を得るためにかなりの計算資源を必要とする。 オーバヘッドを低減するため,新たな重複復号化手法を提案する。 具体的には、会話におけるクエリとレスポンスの並列デコーディングを採用し、チャネル分割多重デコーディング戦略を効果的に実装する。 実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。

Large language models (LLMs) have demonstrated the ability to improve human efficiency through conversational interactions. Conventional LLM-powered dialogue systems, operating on a turn-based paradigm, preclude real-time interaction during response generation. To address this limitation, researchers have proposed duplex models. These models can dynamically adapt to user input, facilitating real-time interactive feedback. However, these methods typically require substantial computational resources to acquire the ability. To reduce overhead, this paper presents a new duplex decoding approach that enhances LLMs with duplex ability, requiring minimal additional training. Specifically, our method employs parallel decoding of queries and responses in conversations, effectively implementing a channel-division-multiplexing decoding strategy. Experimental results indicate that our proposed method significantly enhances the naturalness and human-likeness of user-AI interactions with minimal training costs.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# DETECLAP:オブジェクト情報によるオーディオ・ビジュアル表現学習の強化

DETECLAP: Enhancing Audio-Visual Representation Learning with Object Information ( http://arxiv.org/abs/2409.11729v1 )

ライセンス: Link先を確認
Shota Nakada, Taichi Nishimura, Hokuto Munakata, Masayoshi Kondo, Tatsuya Komatsu, (参考訳) 現在の音声・視覚的表現学習は、粗い対象のカテゴリ(例: ``animals'' と ``instruments'')をキャプチャすることができるが、動物や楽器の ‘`dogs' や ``flutes' のような特定のカテゴリのような細かな詳細を認識できない。 この問題に対処するために,オブジェクト情報を用いた音声視覚表現学習法であるDETECLAPを導入する。 私たちのキーとなるアイデアは、既存のContrastive Audio-Visual Masked AutoEncoderに、視覚的ラベル予測の損失を導入して、オブジェクトの認識を高めることです。 コストのかかる手動アノテーションを避けるため,最先端の言語音響モデルとオブジェクト検出器を用いて,音声と視覚の両方からオブジェクトラベルを作成する。 VGGSoundとAudioSet20Kデータセットを用いて,音声・視覚的検索と分類の手法を評価する。 本手法は,音声・視覚・音声検索における+1.5%と+1.2%のリコール@10の改善と,音声・視覚分類における+0.6%の精度向上を実現している。

Current audio-visual representation learning can capture rough object categories (e.g., ``animals'' and ``instruments''), but it lacks the ability to recognize fine-grained details, such as specific categories like ``dogs'' and ``flutes'' within animals and instruments. To address this issue, we introduce DETECLAP, a method to enhance audio-visual representation learning with object information. Our key idea is to introduce an audio-visual label prediction loss to the existing Contrastive Audio-Visual Masked AutoEncoder to enhance its object awareness. To avoid costly manual annotations, we prepare object labels from both audio and visual inputs using state-of-the-art language-audio models and object detectors. We evaluate the method of audio-visual retrieval and classification using the VGGSound and AudioSet20K datasets. Our method achieves improvements in recall@10 of +1.5% and +1.2% for audio-to-visual and visual-to-audio retrieval, respectively, and an improvement in accuracy of +0.6% for audio-visual classification.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# 基礎モデルにおける人間のような感情認知

Human-like Affective Cognition in Foundation Models ( http://arxiv.org/abs/2409.11733v1 )

ライセンス: Link先を確認
Kanishk Gandhi, Zoe Lynch, Jan-Philipp Fränken, Kayla Patterson, Sharon Wambu, Tobias Gerstenberg, Desmond C. Ong, Noah D. Goodman, (参考訳) 感情を理解することは人間の相互作用と経験の基本である。 人間は、状況や表情から感情を推測しやすく、感情から状況を推測し、他の様々な「感情に影響を及ぼす認知」を行う。 これらの推論において、現代のAIはどの程度有効か? 基礎モデルにおける感情認知テストのための評価フレームワークを提案する。 心理学理論から、評価、感情、表現、結果の間の関係を探求する1,280の多様なシナリオを生成する。 基礎モデル(GPT-4, Claude-3, Gemini-1.5-Pro)とヒト(N = 567)を慎重に選択した条件で評価した。 以上の結果から,基礎モデルは人間の直感と一致しがちであることが明らかとなった。 ある条件下では、モデルは「超人」であり、平均的な人間よりも、モーダルな人間の判断を予測した方がよい。 すべてのモデルは、チェーン・オブ・シークレットの推論の恩恵を受ける。 このことは、基礎モデルが人間のような感情の理解を得て、信念や行動に影響を及ぼしたことを示唆している。

Understanding emotions is fundamental to human interaction and experience. Humans easily infer emotions from situations or facial expressions, situations from emotions, and do a variety of other \emph{affective cognition}. How adept is modern AI at these inferences? We introduce an evaluation framework for testing affective cognition in foundation models. Starting from psychological theory, we generate 1,280 diverse scenarios exploring relationships between appraisals, emotions, expressions, and outcomes. We evaluate the abilities of foundation models (GPT-4, Claude-3, Gemini-1.5-Pro) and humans (N = 567) across carefully selected conditions. Our results show foundation models tend to agree with human intuitions, matching or exceeding interparticipant agreement. In some conditions, models are ``superhuman'' -- they better predict modal human judgements than the average human. All models benefit from chain-of-thought reasoning. This suggests foundation models have acquired a human-like understanding of emotions and their influence on beliefs and behavior.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# InverseMeetInsert: ガイド拡散モデルにおける幾何学的累積インバージョンによるロバスト実画像編集

InverseMeetInsert: Robust Real Image Editing via Geometric Accumulation Inversion in Guided Diffusion Models ( http://arxiv.org/abs/2409.11734v1 )

ライセンス: Link先を確認
Yan Zheng, Lemeng Wu, (参考訳) 本稿では,Geometry-Inverse-Meet-Pixel-Insert(GEO)について紹介する。 本手法では,テキストプロンプトと画像プロンプトをシームレスに統合し,多種多様な正確な編集結果を得る。 特に,本手法はトレーニングを必要とせずに動作し,2つの重要なコントリビューションによって駆動される。 一 画素空間の幾何及び配置を忠実に保存するためにDDIM逆転を強化する新しい幾何蓄積損失 (II) テキストのみの逆変換のためのピクセルレベルの編集と、標準分類器なしの逆変換のための遅延空間幾何学的ガイダンスを組み合わせた革新的な画像プロンプト技術。 公開可能な安定拡散モデルを活用することで、様々な画像タイプに対して広範囲な評価を行い、編集シナリオに挑戦し、実際の画像に対して常に高忠実度な編集結果を提供する。

In this paper, we introduce Geometry-Inverse-Meet-Pixel-Insert, short for GEO, an exceptionally versatile image editing technique designed to cater to customized user requirements at both local and global scales. Our approach seamlessly integrates text prompts and image prompts to yield diverse and precise editing outcomes. Notably, our method operates without the need for training and is driven by two key contributions: (i) a novel geometric accumulation loss that enhances DDIM inversion to faithfully preserve pixel space geometry and layout, and (ii) an innovative boosted image prompt technique that combines pixel-level editing for text-only inversion with latent space geometry guidance for standard classifier-free reversion. Leveraging the publicly available Stable Diffusion model, our approach undergoes extensive evaluation across various image types and challenging prompt editing scenarios, consistently delivering high-fidelity editing results for real images.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# フーリエ圧縮センシングにおけるサンプリング再構成の適応的選択

Adaptive Selection of Sampling-Reconstruction in Fourier Compressed Sensing ( http://arxiv.org/abs/2409.11738v1 )

ライセンス: Link先を確認
Seongmin Hong, Jaehyeok Bae, Jongho Lee, Se Young Chun, (参考訳) 圧縮センシング(CS)は、ナイキストサンプリングの非効率性を克服するために出現している。 しかし、従来の最適化に基づく再構築は遅く、実際に正確な画像を得ることはできない。 ディープラーニングベースの再構築は、最適化ベースの再構築に代わる有望な代替手段であり、精度と計算速度で優れている。 深層学習に基づく再構成による効率的なサンプリング手法の発見は,特にフーリエCSの課題である。 サンプリング・再構成作業(H1)の既存の共同最適化は、サンプリングマスクを最適化するが、各データポイントに適応しないためポテンシャルは低い。 アダプティブサンプリング(H2)は、難しい最適化とパレート準最適性にも欠点がある。 本稿では,各入力データに対して最適なサンプリングマスクと再構成ネットワークを選択する,サンプリング・再構成(H1.5)フレームワークの適応的選択を提案する。 我々は,本手法がH1よりも高いポテンシャルを持つこと,サンプリング・リコンストラクションにおけるパレート準最適問題を,異なるサンプリングマスクに対して別々の再構成ネットワークを用いて効果的に解くことを定理として提案する。 最適なサンプリングマスクを選択するために,超高分解能空間生成モデルを用いて,入力の高周波ベイズ不確かさを定量化する。 提案手法は,複数のフーリエCS問題において有意な改善を達成し,サンプリング・再構成(H1)と適応サンプリング(H2)の併用最適化に優れる。

Compressed sensing (CS) has emerged to overcome the inefficiency of Nyquist sampling. However, traditional optimization-based reconstruction is slow and can not yield an exact image in practice. Deep learning-based reconstruction has been a promising alternative to optimization-based reconstruction, outperforming it in accuracy and computation speed. Finding an efficient sampling method with deep learning-based reconstruction, especially for Fourier CS remains a challenge. Existing joint optimization of sampling-reconstruction works (H1) optimize the sampling mask but have low potential as it is not adaptive to each data point. Adaptive sampling (H2) has also disadvantages of difficult optimization and Pareto sub-optimality. Here, we propose a novel adaptive selection of sampling-reconstruction (H1.5) framework that selects the best sampling mask and reconstruction network for each input data. We provide theorems that our method has a higher potential than H1 and effectively solves the Pareto sub-optimality problem in sampling-reconstruction by using separate reconstruction networks for different sampling masks. To select the best sampling mask, we propose to quantify the high-frequency Bayesian uncertainty of the input, using a super-resolution space generation model. Our method outperforms joint optimization of sampling-reconstruction (H1) and adaptive sampling (H2) by achieving significant improvements on several Fourier CS problems.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# HARP:多エージェント強化学習のための置換不変批判を用いた人間支援リグループ化

HARP: Human-Assisted Regrouping with Permutation Invariant Critic for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2409.11741v1 )

ライセンス: Link先を確認
Huawen Hu, Enze Shi, Chenxi Yue, Shuocun Yang, Zihao Wu, Yiwei Li, Tianyang Zhong, Tuo Zhang, Tianming Liu, Shu Zhang, (参考訳) ヒューマン・イン・ザ・ループ強化学習(Human-in-the-loop reinforcement learning)は、エージェント学習を加速するために人間の専門知識を統合し、複雑な分野において重要なガイダンスとフィードバックを提供する。 しかし、既存の多くのアプローチは、単一エージェントタスクに重点を置いており、トレーニングプロセス中に継続的な人間による関与を必要とし、人間のワークロードを大幅に増加させ、スケーラビリティを制限している。 本稿では,グループ指向タスクを対象としたマルチエージェント強化学習フレームワークHARPを提案する。 HARPは、展開中の戦略的人的支援と自動エージェント再編成を統合し、非専門家が最小限の介入で効果的なガイダンスを提供することを可能にしている。 訓練中、エージェントはグループ化を動的に調整し、協調作業の完了を最適化する。 配備されると、彼らは積極的に人的援助を求め、Permutation Invariant Group Criticを使って、人間が提案するグループを評価し、洗練し、非専門家のユーザーが価値ある提案を貢献できるようにする。 複数のコラボレーションシナリオにおいて、私たちのアプローチは、非専門家からの限られたガイダンスを活用でき、パフォーマンスを向上させることができます。 このプロジェクトはhttps://github.com/huawen-hu/HARPで見ることができる。

Human-in-the-loop reinforcement learning integrates human expertise to accelerate agent learning and provide critical guidance and feedback in complex fields. However, many existing approaches focus on single-agent tasks and require continuous human involvement during the training process, significantly increasing the human workload and limiting scalability. In this paper, we propose HARP (Human-Assisted Regrouping with Permutation Invariant Critic), a multi-agent reinforcement learning framework designed for group-oriented tasks. HARP integrates automatic agent regrouping with strategic human assistance during deployment, enabling and allowing non-experts to offer effective guidance with minimal intervention. During training, agents dynamically adjust their groupings to optimize collaborative task completion. When deployed, they actively seek human assistance and utilize the Permutation Invariant Group Critic to evaluate and refine human-proposed groupings, allowing non-expert users to contribute valuable suggestions. In multiple collaboration scenarios, our approach is able to leverage limited guidance from non-experts and enhance performance. The project can be found at https://github.com/huawen-hu/HARP.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# 自閉症児における視線パターンの探索 : クラスタリング,可視化,予測

Exploring Gaze Pattern in Autistic Children: Clustering, Visualization, and Prediction ( http://arxiv.org/abs/2409.11744v1 )

ライセンス: Link先を確認
Weiyan Shi, Haihong Zhang, Jin Yang, Ruiqing Ding, YongWei Zhu, Kenny Tsu Wei Choo, (参考訳) 自閉症スペクトラム障害(ASD)は、子どもの社会的・コミュニケーション能力に大きく影響を与え、眼球追跡は、関連する非典型的視線パターンを特定することで診断ツールとして一般的に用いられる。 従来の手法では、視線パターンにおける関心領域のマニュアル識別が要求され、視線行動解析の性能が低下する。 そこで本研究では,ALD児の視線行動を自動的に精度良く解析する手法を提案する。 具体的には、まず7つのクラスタリングアルゴリズムを適用して、視線点を自動的にグループ化し、典型的に発達しているASD被験者と比較する。 その後、パターンを完全に記述するために63の重要な特徴を抽出する。 これらの特徴は、ASD診断と視線パターンの相関を記述できる。 最後に,これらの特徴を事前知識として用いて,視線行動に基づいて複数の予測機械学習モデルをトレーニングし,ASDの予測と診断を行う。 提案手法を評価するために,本手法を3つのASDデータセットに適用する。 ASD児における独特の視線パターンの分析におけるクラスタリングアルゴリズムの改善を実験的および可視化的に示す。 さらに、これらの予測機械学習モデルは、ASD診断のために自動構築された視線点特徴の分野において、最先端の予測性能(81\%$AUC)を達成した。 私たちのコードは \url{https://github.com/username/projectname} で利用可能です。

Autism Spectrum Disorder (ASD) significantly affects the social and communication abilities of children, and eye-tracking is commonly used as a diagnostic tool by identifying associated atypical gaze patterns. Traditional methods demand manual identification of Areas of Interest in gaze patterns, lowering the performance of gaze behavior analysis in ASD subjects. To tackle this limitation, we propose a novel method to automatically analyze gaze behaviors in ASD children with superior accuracy. To be specific, we first apply and optimize seven clustering algorithms to automatically group gaze points to compare ASD subjects with typically developing peers. Subsequently, we extract 63 significant features to fully describe the patterns. These features can describe correlations between ASD diagnosis and gaze patterns. Lastly, using these features as prior knowledge, we train multiple predictive machine learning models to predict and diagnose ASD based on their gaze behaviors. To evaluate our method, we apply our method to three ASD datasets. The experimental and visualization results demonstrate the improvements of clustering algorithms in the analysis of unique gaze patterns in ASD children. Additionally, these predictive machine learning models achieved state-of-the-art prediction performance ($81\%$ AUC) in the field of automatically constructed gaze point features for ASD diagnosis. Our code is available at \url{https://github.com/username/projectname}.
翻訳日:2024-09-19 19:00:08 公開日:2024-09-18
# 強相関分子の量子シミュレーションのための高速初期状態準備

Rapid initial state preparation for the quantum simulation of strongly correlated molecules ( http://arxiv.org/abs/2409.11748v1 )

ライセンス: Link先を確認
Dominic W. Berry, Yu Tong, Tanuj Khattar, Alec White, Tae In Kim, Sergio Boixo, Lin Lin, Seunghoon Lee, Garnet Kin-Lic Chan, Ryan Babbush, Nicholas C. Rubin, (参考訳) 基底状態エネルギー推定のための量子アルゴリズムの研究は、しばしば完全な基底状態の準備を仮定するが、実際には初期状態は真の基底状態と完全な重複を持つ。 ここでは, 行列積状態(MPS)近似の高速な調製と, 基底状態エネルギーを求めるための準備状態のより効率的なフィルタリングという2つの方法でこの問題に対処する。 本稿では,Toffoliの複雑性を約7ドル(約780円)以下で実現し,それを用いてより効率的なMPS合成法を導出する方法について述べる。 フィルタリングにはサンプリングとバイナリ検索の2つのアプローチを提案する。 どちらもウィンドウ関数の理論を使い、大きな位相誤差を回避し、複雑さを最小限に抑える。 バイナリ検索アプローチは、より大きい定数係数のコストでオーバーラップすることで、より優れたスケーリングを可能にし、約0.003$以下のオーバーラップに好まれる。 最後に,FeMo係数を含むFe-Sクラスター系の基底状態エネルギー推定を行うための総資源を,外挿法を用いて異なるMPS初期状態とFeMo係数の潜在的基底状態との重なりを推定することにより推定する。 { 4000 の控えめな MPS 結合次元で、我々の手順は、FeMo の補因子の候補基底状態と重複する$\sim 0.9$のオーバーラップを推定し、総リソース推定7.3 \times 10^{10}$ Toffoli ゲートを生成し、候補の探索を無視し、外挿の精度を仮定し、完全基底状態を用いた事前推定を検証した。 このことは、計算に挑戦する化学システムにおいて高い重なり合う状態を作るための実践的な方法の例を示す。

Studies on quantum algorithms for ground state energy estimation often assume perfect ground state preparation; however, in reality the initial state will have imperfect overlap with the true ground state. Here we address that problem in two ways: by faster preparation of matrix product state (MPS) approximations, and more efficient filtering of the prepared state to find the ground state energy. We show how to achieve unitary synthesis with a Toffoli complexity about $7 \times$ lower than that in prior work, and use that to derive a more efficient MPS preparation method. For filtering we present two different approaches: sampling and binary search. For both we use the theory of window functions to avoid large phase errors and minimise the complexity. We find that the binary search approach provides better scaling with the overlap at the cost of a larger constant factor, such that it will be preferred for overlaps less than about $0.003$. Finally, we estimate the total resources to perform ground state energy estimation of Fe-S cluster systems, including the FeMo cofactor by estimating the overlap of different MPS initial states with potential ground-states of the FeMo cofactor using an extrapolation procedure. {With a modest MPS bond dimension of 4000, our procedure produces an estimate of $\sim 0.9$ overlap squared with a candidate ground-state of the FeMo cofactor, producing a total resource estimate of $7.3 \times 10^{10}$ Toffoli gates; neglecting the search over candidates and assuming the accuracy of the extrapolation, this validates prior estimates that used perfect ground state overlap. This presents an example of a practical path to prepare states of high overlap in a challenging-to-compute chemical system.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# RockTrack: 3Dロバストなマルチカメラケンマルチオブジェクト追跡フレームワーク

RockTrack: A 3D Robust Multi-Camera-Ken Multi-Object Tracking Framework ( http://arxiv.org/abs/2409.11749v1 )

ライセンス: Link先を確認
Xiaoyu Li, Peidong Li, Lijun Zhao, Dedong Liu, Jinghan Gao, Xian Wu, Yitao Wu, Dixiao Cui, (参考訳) 3D Multi-Object Tracking (MOT) は、特にコスト効率のよいマルチカメラセットアップにおいて、3Dオブジェクト検出の急速な進歩により、大幅な性能向上を実現している。 しかし、マルチカメラトラッカーのエンド・ツー・エンドのトレーニングアプローチは、検出器固有のモデルをもたらすため、その汎用性は制限される。 さらに、現在の一般的なトラッカーは、マルチカメラ検出器のユニークな特徴、すなわち、運動観測の信頼性の欠如と視覚情報の実現可能性を見落としている。 これらの課題に対処するため,マルチカメラ検出器のための3次元MOT法RockTrackを提案する。 Tracking-By-Detectionフレームワークに続いて、RockTrackは様々なオフザシェルフ検出器と互換性がある。 RockTrackには信頼性誘導前処理モジュールが組み込まれており、単一の検出器から異なる表現空間から信頼性の高い動きと画像観察を抽出する。 これらの観測は、幾何学的および外観的手がかりを利用してミスマッチを最小限に抑えるアソシエーションモジュールに融合される。 得られた一致は段階的推定プロセスを通じて伝播され、ヒューリスティックノイズモデリングの基礎を形成する。 さらに、マルチカメラ設定におけるオブジェクト親和性を明示的に特徴付ける新しい外観類似度指標を提案する。 RockTrackは、59.1%のAMOTAを持つnuScenesビジョンのみのトラッキングリーダーボード上での最先端のパフォーマンスを達成し、計算効率は著しく向上した。

3D Multi-Object Tracking (MOT) obtains significant performance improvements with the rapid advancements in 3D object detection, particularly in cost-effective multi-camera setups. However, the prevalent end-to-end training approach for multi-camera trackers results in detector-specific models, limiting their versatility. Moreover, current generic trackers overlook the unique features of multi-camera detectors, i.e., the unreliability of motion observations and the feasibility of visual information. To address these challenges, we propose RockTrack, a 3D MOT method for multi-camera detectors. Following the Tracking-By-Detection framework, RockTrack is compatible with various off-the-shelf detectors. RockTrack incorporates a confidence-guided preprocessing module to extract reliable motion and image observations from distinct representation spaces from a single detector. These observations are then fused in an association module that leverages geometric and appearance cues to minimize mismatches. The resulting matches are propagated through a staged estimation process, forming the basis for heuristic noise modeling. Additionally, we introduce a novel appearance similarity metric for explicitly characterizing object affinities in multi-camera settings. RockTrack achieves state-of-the-art performance on the nuScenes vision-only tracking leaderboard with 59.1% AMOTA while demonstrating impressive computational efficiency.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# 画像リコールのためのニューラルエンコーディング:ヒューマンライクなメモリ

Neural Encoding for Image Recall: Human-Like Memory ( http://arxiv.org/abs/2409.11750v1 )

ライセンス: Link先を確認
Virgile Foussereau, Robin Dumas, (参考訳) 人工システムにおける人間のようなメモリリコールを実現することは、コンピュータビジョンにおける挑戦的なフロンティアである。 人間は、何千もの画像が表示されても、単一の露出後にイメージをリコールする素晴らしい能力を示します。 しかし、ランダムなテクスチャのような非自然的な刺激に直面すると、この能力は著しく低下する。 本稿では,人工記憶システムと生体記憶システムとのギャップを埋めるために,人間の記憶プロセスにインスパイアされた手法を提案する。 本手法では,画像の符号化に焦点をあて,人間の脳が保持する高次情報を再現する。 符号化に先立って画像にノイズを加えることにより、人間のメモリ符号化の非決定論的性質に類似した可変性を導入する。 トレーニング済みモデルの埋め込みレイヤを活用して、異なるアーキテクチャがイメージをエンコードし、メモリリコールに与える影響を調査する。 その結果,自然画像の97%,テクスチャのほぼランダムな性能(52%)が得られた。 我々は、人間と人工知能のメモリ機構の並列性に光を当てる機械学習メモリシステムにおいて、符号化プロセスとその意味に関する洞察を提供する。

Achieving human-like memory recall in artificial systems remains a challenging frontier in computer vision. Humans demonstrate remarkable ability to recall images after a single exposure, even after being shown thousands of images. However, this capacity diminishes significantly when confronted with non-natural stimuli such as random textures. In this paper, we present a method inspired by human memory processes to bridge this gap between artificial and biological memory systems. Our approach focuses on encoding images to mimic the high-level information retained by the human brain, rather than storing raw pixel data. By adding noise to images before encoding, we introduce variability akin to the non-deterministic nature of human memory encoding. Leveraging pre-trained models' embedding layers, we explore how different architectures encode images and their impact on memory recall. Our method achieves impressive results, with 97% accuracy on natural images and near-random performance (52%) on textures. We provide insights into the encoding process and its implications for machine learning memory systems, shedding light on the parallels between human and artificial intelligence memory mechanisms.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# Rein to Fine-Tune Vision Foundation Model を用いたクロスオーガンおよびクロススキャン腺癌切除

Cross-Organ and Cross-Scanner Adenocarcinoma Segmentation using Rein to Fine-tune Vision Foundation Models ( http://arxiv.org/abs/2409.11752v1 )

ライセンス: Link先を確認
Pengzhou Cai, Xueyuan Zhang, Ze Zhao, (参考訳) 近年,デジタル病理学の分野において腫瘍の分節化が著しい進展を遂げている。 しかし, 臓器, 組織調製法, 画像取得過程の変動は, デジタル病理画像の領域差につながる可能性がある。 そこで本論文では,MICCAI 2024とCOSAS2024の様々な視覚基盤モデル(VFM)をパラメトリックかつ効率的に微調整する手法であるReinを用いた。 Reinのコアは学習可能なトークンのセットで構成されており、インスタンスに直接リンクされ、各レイヤのインスタンスレベルの機能が改善されている。 COSAS2024 Challengeのデータ環境において、ラインは良好な結果を得るためにVFMを微調整した。 具体的には、Reinを使ってConvNeXtとDINOv2を微調整しました。 予備試験では0.7719点,最終試験では0.7557点,最終試験では0.8848点,最終試験では0.8192点を得た。 コードはGitHubで入手できる。

In recent years, significant progress has been made in tumor segmentation within the field of digital pathology. However, variations in organs, tissue preparation methods, and image acquisition processes can lead to domain discrepancies among digital pathology images. To address this problem, in this paper, we use Rein, a fine-tuning method, to parametrically and efficiently fine-tune various vision foundation models (VFMs) for MICCAI 2024 Cross-Organ and Cross-Scanner Adenocarcinoma Segmentation (COSAS2024). The core of Rein consists of a set of learnable tokens, which are directly linked to instances, improving functionality at the instance level in each layer. In the data environment of the COSAS2024 Challenge, extensive experiments demonstrate that Rein fine-tuned the VFMs to achieve satisfactory results. Specifically, we used Rein to fine-tune ConvNeXt and DINOv2. Our team used the former to achieve scores of 0.7719 and 0.7557 on the preliminary test phase and final test phase in task1, respectively, while the latter achieved scores of 0.8848 and 0.8192 on the preliminary test phase and final test phase in task2. Code is available at GitHub.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# NPAT Null-Space Projected Adversarial Training to Zero Deterioration

NPAT Null-Space Projected Adversarial Training Towards Zero Deterioration ( http://arxiv.org/abs/2409.11754v1 )

ライセンス: Link先を確認
Hanyi Hu, Qiao Han, Kui Chen, Yao Yang, (参考訳) 敵の攻撃に対するニューラルネットワークの感受性を緩和するために、敵の訓練が一般的で効果的な防衛戦略として登場した。 本質的に、この対策は、通常のサンプルを処理する際のモデルの精度を犠牲にするため、トレードオフを引き起こします。 そこで我々は,Null-space Projected Data Augmentation (NPDA) とNull-space Projected Gradient Descent (NPGD) という2つの革新的なNull-space Projection based Adversarial Training (NPAT) アルゴリズムを提案する。 逆サンプルと摂動は、閉形式ヌル空間プロジェクタを用いて決定境界のヌル空間内に制約され、信頼できない特徴から生じる攻撃の脅威を効果的に軽減する。 その後、CIFAR10とSVHNデータセットの実験を行い、我々の方法論が敵の訓練手法とシームレスに結合し、高精度モデルに近い一般化を維持しつつ、同等の堅牢性を得ることができることを示した。

To mitigate the susceptibility of neural networks to adversarial attacks, adversarial training has emerged as a prevalent and effective defense strategy. Intrinsically, this countermeasure incurs a trade-off, as it sacrifices the model's accuracy in processing normal samples. To reconcile the trade-off, we pioneer the incorporation of null-space projection into adversarial training and propose two innovative Null-space Projection based Adversarial Training(NPAT) algorithms tackling sample generation and gradient optimization, named Null-space Projected Data Augmentation (NPDA) and Null-space Projected Gradient Descent (NPGD), to search for an overarching optimal solutions, which enhance robustness with almost zero deterioration in generalization performance. Adversarial samples and perturbations are constrained within the null-space of the decision boundary utilizing a closed-form null-space projector, effectively mitigating threat of attack stemming from unreliable features. Subsequently, we conducted experiments on the CIFAR10 and SVHN datasets and reveal that our methodology can seamlessly combine with adversarial training methods and obtain comparable robustness while keeping generalization close to a high-accuracy model.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# 自律システムのためのシンボリック表現の合成

Synthesizing Evolving Symbolic Representations for Autonomous Systems ( http://arxiv.org/abs/2409.11756v1 )

ライセンス: Link先を確認
Gabriele Sartor, Angelo Oddi, Riccardo Rasconi, Vieri Giuliano Santucci, Rosa Meo, (参考訳) 近年、AIシステムは様々なタスクにおいて顕著な進歩を遂げている。 深層強化学習(Deep Reinforcement Learning, DRL)は、エージェントが低レベルの状態空間でポリシーを学習し、高度に複雑なタスクを解くための効果的なツールである。 研究者は、エージェントの好奇心をシミュレートし、エージェントが環境の興味深い領域を探索することを奨励するRLメカニズムに固有のモチベーション(IM)を導入した。 この新機能は、特定の目標を与えられることなく、エージェントがポリシーを学習できるようにする上で不可欠であることが証明された。 しかしながら、DRLインテリジェンスはサブシンボリックモデルを通して現れるが、エージェントが収集した知識を理解するためのある種の抽象化が必要である。 この目的のために、従来の計画形式主義は、自律エージェントが獲得した知識を明確に表現し、外部目標を効果的に達成するために、近年研究で使用されている。 古典的な計画は通常、限られた表現能力を示すが、PDDLは、自律システムによって集められた知識をレビューし、明確な因果関係を作り、エージェントが経験中に直面するあらゆる状態に到達する計画を見つけるのに有効であることを示した。 本研究は, PPDDL表現をスクラッチから合成し, 時間とともに更新できるオープンエンド学習システムを実装した新しいアーキテクチャを提案する。 事前に定義された目標とタスクのセットがなければ、システムは本質的なモチベーションを統合して、自己指向的な方法で環境を探索し、経験中に得られた高いレベルの知識を活用する。 システムは環境と反復的に探索する。 a)選択肢を発見する。 (b)オプションを使って環境を探索する。 (c)収集した知識を抽象化し、 (d)計画。 本稿では,低レベルかつ高レベルな表現を活用して知識を希薄ループで拡張するオープンエンド学習アーキテクチャの代替手法を提案する。

Recently, AI systems have made remarkable progress in various tasks. Deep Reinforcement Learning(DRL) is an effective tool for agents to learn policies in low-level state spaces to solve highly complex tasks. Researchers have introduced Intrinsic Motivation(IM) to the RL mechanism, which simulates the agent's curiosity, encouraging agents to explore interesting areas of the environment. This new feature has proved vital in enabling agents to learn policies without being given specific goals. However, even though DRL intelligence emerges through a sub-symbolic model, there is still a need for a sort of abstraction to understand the knowledge collected by the agent. To this end, the classical planning formalism has been used in recent research to explicitly represent the knowledge an autonomous agent acquires and effectively reach extrinsic goals. Despite classical planning usually presents limited expressive capabilities, PPDDL demonstrated usefulness in reviewing the knowledge gathered by an autonomous system, making explicit causal correlations, and can be exploited to find a plan to reach any state the agent faces during its experience. This work presents a new architecture implementing an open-ended learning system able to synthesize from scratch its experience into a PPDDL representation and update it over time. Without a predefined set of goals and tasks, the system integrates intrinsic motivations to explore the environment in a self-directed way, exploiting the high-level knowledge acquired during its experience. The system explores the environment and iteratively: (a) discover options, (b) explore the environment using options, (c) abstract the knowledge collected and (d) plan. This paper proposes an alternative approach to implementing open-ended learning architectures exploiting low-level and high-level representations to extend its knowledge in a virtuous loop.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# シリコン空力スピンのための計算強化高次元量子ゲート

A Computation-Enhanced High-Dimensional Quantum Gate for Silicon-Vacancy Spins ( http://arxiv.org/abs/2409.11757v1 )

ライセンス: Link先を確認
Gang Fan, Fang-Fang Du, (参考訳) 高次元ヒルベルト空間における量子ゲートは、量子コンピューティングの速度を効果的に加速し、複雑な量子論理演算を実行するための実行可能な経路を提供することができる。 本稿では,シリコン空孔中心における電子スピン状態が制御量子ビットとして符号化され,他の電子スピン状態がターゲット量子ビットとして符号化された4つのシリコン空孔スピンのための2量子ビット4\times4$-dimensional Control-not (CNOT) ゲートを提案する。 提案プロトコルは4つの独立した光ナノキャビティに配置された4つの動きのないシリコン空隙スピンを連結する共通データバスとして機能する補助光子を用いて実装される。 さらに、CNOTゲートは、単光子検出器が補助光子に対して指向する様々な結果に対応するリレーショナルフィードフォワード操作を行うことにより、決定論的に機能する。 さらに、他の固体量子系にも一般化することができる。 現在の技術的条件下では、2量子CNOTゲートの効率性と忠実度は高い。

Qudit-based quantum gates in high-dimensional Hilbert space can provide a viable route towards effectively accelerating the speed of quantum computing and performing complex quantum logic operations. In the paper, we propose a 2-qudit $4\times4$-dimensional controlled-not (CNOT) gate for four silicon-vacancy spins, in which the first two electron-spin states in silicon-vacancy centers are encoded as the control qudits, and the other ones as the target qudits. The proposed protocol is implemented with assistance of an ancillary photon that serves as a common-data bus linking four motionless silicon-vacancy spins placed in four independent single-sided optical nanocavities. Moreover, the CNOT gate works in a deterministic manner by performing the relational feed-forward operations corresponding to the diverse outcomes of the single-photon detectors to be directed against the ancillary photon. Further, it can be potentially generalized to other solid-state quantum system. Under current technological conditions, both the efficiency and fidelity of the 2-qudit CNOT gate are high.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# 共分散行列間の距離の連続推定

Consistent Estimation of a Class of Distances Between Covariance Matrices ( http://arxiv.org/abs/2409.11761v1 )

ライセンス: Link先を確認
Roberto Pereira, Xavier Mestre, Davig Gregoratti, (参考訳) 本研究は,データから直接2つの共分散行列間の距離を推定する問題について考察する。 特に、各共分散行列に別々に適用される関数のトレースの和として表現できる距離の族に関心がある。 この距離の族は、共分散行列が正定行列のリーマン多様体にあるという事実を考慮すると特に有用であり、従ってユークリッド距離、ジェフリーズ発散、対数ユークリッド距離といった様々な一般的なメトリクスを含む。 また, この距離推定器の漸近挙動の統計的解析も行った。 具体的には、これらの推定器の漸近的なガウス性を確立し、対応する手段と分散に対する閉形式表現を提供する中心極限定理を示す。 多変量解析における従来のプラグイン推定器よりも一貫した推定器の方が優れていることを示す実証評価を行った。 さらに、本研究で導かれた中心極限定理は、これらの推定器の精度を評価するための頑健な統計的枠組みを提供する。

This work considers the problem of estimating the distance between two covariance matrices directly from the data. Particularly, we are interested in the family of distances that can be expressed as sums of traces of functions that are separately applied to each covariance matrix. This family of distances is particularly useful as it takes into consideration the fact that covariance matrices lie in the Riemannian manifold of positive definite matrices, thereby including a variety of commonly used metrics, such as the Euclidean distance, Jeffreys' divergence, and the log-Euclidean distance. Moreover, a statistical analysis of the asymptotic behavior of this class of distance estimators has also been conducted. Specifically, we present a central limit theorem that establishes the asymptotic Gaussianity of these estimators and provides closed form expressions for the corresponding means and variances. Empirical evaluations demonstrate the superiority of our proposed consistent estimator over conventional plug-in estimators in multivariate analytical contexts. Additionally, the central limit theorem derived in this study provides a robust statistical framework to assess of accuracy of these estimators.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# すべてを見つけるための1つのマップ: ゼロショットマルチオブジェクトナビゲーションのためのリアルタイムオープン語彙マッピング

One Map to Find Them All: Real-time Open-Vocabulary Mapping for Zero-shot Multi-Object Navigation ( http://arxiv.org/abs/2409.11764v1 )

ライセンス: Link先を確認
Finn Lukas Busch, Timon Homberger, Jesús Ortega-Peimbert, Quantao Yang, Olov Andersson, (参考訳) 複雑な環境下でオブジェクトを効率的に検索する能力は、多くの現実世界のロボットアプリケーションに欠かせない。 オープン語彙視覚モデルの最近の進歩は、ロボットが事前の訓練なしに任意の物体を探索できる意味的にインフォームドされたオブジェクトナビゲーション手法をもたらした。 しかし、これらのゼロショット法は、これまでのところ、連続したクエリ毎に環境を未知扱いしている。 本稿では,ゼロショット型マルチオブジェクトナビゲーションのための新しいベンチマークを提案する。 この問題に対処するために、リアルタイムオブジェクト検索に適した再利用可能なオープン語彙機能マップを構築した。 さらに,意味的特徴抽出における誤りの共通源を軽減し,この意味的不確実性を利用して情報的多目的探索を行う確率-意味マップの更新を提案する。 我々は,Jetson Orin AGX上でリアルタイムに動作している実ロボットとシミュレーションの両方において,オブジェクトナビゲーションタスクのセットについて評価を行った。 単一目的と多目的のナビゲーションタスクにおいて,既存の最先端のアプローチよりも優れていることを示す。 追加のビデオ、コード、マルチオブジェクトナビゲーションベンチマークがhttps://finnbsch.github.io/OneMap.comで利用可能になる。

The capability to efficiently search for objects in complex environments is fundamental for many real-world robot applications. Recent advances in open-vocabulary vision models have resulted in semantically-informed object navigation methods that allow a robot to search for an arbitrary object without prior training. However, these zero-shot methods have so far treated the environment as unknown for each consecutive query. In this paper we introduce a new benchmark for zero-shot multi-object navigation, allowing the robot to leverage information gathered from previous searches to more efficiently find new objects. To address this problem we build a reusable open-vocabulary feature map tailored for real-time object search. We further propose a probabilistic-semantic map update that mitigates common sources of errors in semantic feature extraction and leverage this semantic uncertainty for informed multi-object exploration. We evaluate our method on a set of object navigation tasks in both simulation as well as with a real robot, running in real-time on a Jetson Orin AGX. We demonstrate that it outperforms existing state-of-the-art approaches both on single and multi-object navigation tasks. Additional videos, code and the multi-object navigation benchmark will be available on https://finnbsch.github.io/OneMap.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# Few-Shot Class-Incremental Learningのための知識適応ネットワーク

Knowledge Adaptation Network for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2409.11770v1 )

ライセンス: Link先を確認
Ye Wang, Yaxiong Wang, Guoshuai Zhao, Xueming Qian, (参考訳) FSCIL(Few-shot class-incremental Learning)は、いくつかのサンプルを使用して新しいクラスを段階的に認識し、以前に学習したクラスのパフォーマンスを維持することを目的としている。 この問題を解決する効果的な方法の1つは、原型進化分類器を構築することである。 既存の手法の進歩にもかかわらず、分類器の重みは平均的特徴を用いて単純に初期化される。 新しいクラスの表現は弱で偏りがあるので、そのような戦略は準最適であると主張する。 本稿では,2つの側面からこの問題に対処する。 まず,基礎モデルの開発により,ネットワークの台座として基盤モデルであるCLIPを採用し,各クラスに汎用表現を提供する。 次に、より信頼性が高く包括的なインスタンス表現を生成するために、トレーニングデータからデータ固有の知識を要約し、汎用表現に融合する知識適応モジュールを提案する。 さらに,基本クラスから学習した知識を次のクラスに調整するために,実際のFSCILをシミュレートして,インクリメンタル擬似エピソード学習(IPEL)のメカニズムを提案する。 提案手法は,CIFAR100,CUB200,ImageNet-Rなど,幅広いデータセット上での競合性能を実現する。

Few-shot class-incremental learning (FSCIL) aims to incrementally recognize new classes using a few samples while maintaining the performance on previously learned classes. One of the effective methods to solve this challenge is to construct prototypical evolution classifiers. Despite the advancement achieved by most existing methods, the classifier weights are simply initialized using mean features. Because representations for new classes are weak and biased, we argue such a strategy is suboptimal. In this paper, we tackle this issue from two aspects. Firstly, thanks to the development of foundation models, we employ a foundation model, the CLIP, as the network pedestal to provide a general representation for each class. Secondly, to generate a more reliable and comprehensive instance representation, we propose a Knowledge Adapter (KA) module that summarizes the data-specific knowledge from training data and fuses it into the general representation. Additionally, to tune the knowledge learned from the base classes to the upcoming classes, we propose a mechanism of Incremental Pseudo Episode Learning (IPEL) by simulating the actual FSCIL. Taken together, our proposed method, dubbed as Knowledge Adaptation Network (KANet), achieves competitive performance on a wide range of datasets, including CIFAR100, CUB200, and ImageNet-R.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# ほぼ同変のネットワークに対する対称性に基づく構造行列

Symmetry-Based Structured Matrices for Efficient Approximately Equivariant Networks ( http://arxiv.org/abs/2409.11772v1 )

ライセンス: Link先を確認
Ashwin Samudre, Mircea Petrache, Brian D. Nord, Shubhendu Trivedi, (参考訳) 対称性を意識したニューラルネットワーク (NN) の設計には, ゆるやかな等価性を示すことへの関心が高まっている。 このようなNNは、正確に同変であることと、完全にフレキシブルであることの間に補間することを目的としており、一貫したパフォーマンスのメリットを提供する。 別系統の作業では、低位階(LDR)を特徴とする変位構造を持つ特定のパラメータ行列が、小型のフットプリントNNの設計に使用されている。 変位構造は高速機能と勾配評価を可能にするが、圧縮による正確な近似は古典的畳み込みニューラルネットワーク(CNN)に主に適用できる。 本研究では,対称性に基づく構造行列を新たに構築し,パラメータ数を大幅に削減したほぼ同変NNを構築するための一般フレームワークを提案する。 我々のフレームワークは、いわゆるグループ行列(GM)を用いることで、上記の2つの研究の行を統合する。 GMは、古典的CNNの巡回群から一般有限群とその同質空間への線型操作を一般化する構造行列(LDR行列に似た)の設計を可能にする。 GMは、CNNのすべての基本動作を一般的な離散グループに拡張するために使用できることを示す。 さらに、GM に基づく構造化行列の理論は、巡回構造を持つ行列に焦点をあてた LDR 理論の一般化を提供し、離散群に対して近似等式を実装するための道具を提供する。 我々は、緩和対称性の存在下で、様々なタスクでGMベースのアーキテクチャをテストする。 我々のフレームワークは、ほぼ同変のNNや、その他の構造化された行列ベースの圧縮フレームワークと、時として1~2桁のパラメータ数で、常に競合的に動作していることを報告します。

There has been much recent interest in designing symmetry-aware neural networks (NNs) exhibiting relaxed equivariance. Such NNs aim to interpolate between being exactly equivariant and being fully flexible, affording consistent performance benefits. In a separate line of work, certain structured parameter matrices -- those with displacement structure, characterized by low displacement rank (LDR) -- have been used to design small-footprint NNs. Displacement structure enables fast function and gradient evaluation, but permits accurate approximations via compression primarily to classical convolutional neural networks (CNNs). In this work, we propose a general framework -- based on a novel construction of symmetry-based structured matrices -- to build approximately equivariant NNs with significantly reduced parameter counts. Our framework integrates the two aforementioned lines of work via the use of so-called Group Matrices (GMs), a forgotten precursor to the modern notion of regular representations of finite groups. GMs allow the design of structured matrices -- resembling LDR matrices -- which generalize the linear operations of a classical CNN from cyclic groups to general finite groups and their homogeneous spaces. We show that GMs can be employed to extend all the elementary operations of CNNs to general discrete groups. Further, the theory of structured matrices based on GMs provides a generalization of LDR theory focussed on matrices with cyclic structure, providing a tool for implementing approximate equivariance for discrete groups. We test GM-based architectures on a variety of tasks in the presence of relaxed symmetry. We report that our framework consistently performs competitively compared to approximately equivariant NNs, and other structured matrix-based compression frameworks, sometimes with a one or two orders of magnitude lower parameter count.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# グループ心理学からソフトウェア工学研究へ - ボルボのチーム開発を計測する

From Group Psychology to Software Engineering Research to Automotive R&D: Measuring Team Development at Volvo Cars ( http://arxiv.org/abs/2409.11778v1 )

ライセンス: Link先を確認
Lucas Gren, Christian Jacobsson, (参考訳) 2019年から2022年にかけて、Volvo Cars氏は、アジャイルチーム内のグループのダイナミクスに関する私たちの研究成果を、広範な産業プラクティスに翻訳することに成功しました。 私たちは、サポートの獲得、トレーニングの提供、実装の実行、約700のチームと9000人の従業員が受け入れるツールの維持を通じて得られた洞察を照らすことを望んでいます。 このツールはアジャイルチームの強化と社内開発を促進するために設計された。 私たちの経験は、総合的なチームトレーニングの必要性、組織全体でのトレーナーの育成、新しいソフトウェアソリューションの創出を浮き彫りにしています。 本質的には、自動化された簡潔な調査ツールと行動可能な戦略のリポジトリが、アジャイルチームの成熟を育む大きな可能性を秘めていると推測しています。

From 2019 to 2022, Volvo Cars successfully translated our research discoveries regarding group dynamics within agile teams into widespread industrial practice. We wish to illuminate the insights gained through the process of garnering support, providing training, executing implementation, and sustaining a tool embraced by approximately 700 teams and 9,000 employees. This tool was designed to empower agile teams and propel their internal development. Our experiences underscore the necessity of comprehensive team training, the cultivation of a cadre of trainers across the organization, and the creation of a novel software solution. In essence, we deduce that an automated concise survey tool, coupled with a repository of actionable strategies, holds remarkable potential in fostering the maturation of agile teams, but we also share many of the challenges we encountered during the implementation.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# 定式化理論とデオン論理を用いた非単調ノルム推論の解説

Explaining Non-monotonic Normative Reasoning using Argumentation Theory with Deontic Logic ( http://arxiv.org/abs/2409.11780v1 )

ライセンス: Link先を確認
Zhe Yu, Yiwei Lu, (参考訳) これまでの研究では,設計過程において設計者に対して法的支援を行うために,議論理論に基づく推論システム(LeSAC)を提供していた。 そこで本研究では, 法的に関係のある設計決定に対して, 設計者に効果的な説明を与える方法について検討する。 我々は、規範と規範的文脈における行動の正当化のための重要な法的・倫理的原則を規定することによって、説明を提供するための以前のシステムを拡張した。 一階述語論理が強い表現力を持つことを考慮し、本論文ではデオン演算子と選好を持つ一階述語論理系を採用する。 本稿では、自律運転の文脈で2つのケースをモデル化することにより、デオン論理を導入し、LeSACの下で説明を設計することの利点と必要性を説明する。 特に, 規則に基づく議論フレームワークにおいて, 合理的性を保証するために更新されたLeSACの要件についても論じるとともに, 適切に定義されたLeSACが合理性を満たすことを証明している。 これにより、複雑な設計決定に対して、一貫性のある法的に妥当な説明をシステムに提供する能力が保証される。

In our previous research, we provided a reasoning system (called LeSAC) based on argumentation theory to provide legal support to designers during the design process. Building on this, this paper explores how to provide designers with effective explanations for their legally relevant design decisions. We extend the previous system for providing explanations by specifying norms and the key legal or ethical principles for justifying actions in normative contexts. Considering that first-order logic has strong expressive power, in the current paper we adopt a first-order deontic logic system with deontic operators and preferences. We illustrate the advantages and necessity of introducing deontic logic and designing explanations under LeSAC by modelling two cases in the context of autonomous driving. In particular, this paper also discusses the requirements of the updated LeSAC to guarantee rationality, and proves that a well-defined LeSAC can satisfy the rationality postulate for rule-based argumentation frameworks. This ensures the system's ability to provide coherent, legally valid explanations for complex design decisions.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# アジャイルの自動車再編成におけるチームの成熟度の調査

Investigating team maturity in an agile automotive reorganization ( http://arxiv.org/abs/2409.11781v1 )

ライセンス: Link先を確認
Lucas Gren, Niclas Pettersson, (参考訳) 約7年前、Volvo Carsは大規模なアジャイル変革を開始した。 この旅の途中でR&D部門の大幅な再編が行われた。 私たちの研究は、このような包括的な組織再編において、チームの成熟度レベルがどのように影響するかを照らすことを目的としています。 63チームからのデータを収集して、これらのアジャイルチームに対する組織的変化の影響を理解しました。 さらに、我々の発見を検証し、根底にある理由を探るため、質的なデータを収集した。 予想に反して、再編成はチームの成熟度の分布を大きく変えなかった。 高い転職率と頻繁な再編成は、成熟度の低いチームがチームの開発の初期段階に留まった理由の鍵となる要因として特定されました。 逆に、第2のカテゴリのチームは、成熟度の高い段階で安定したままだった。 結論として、再編成によって一部のチームの開発が妨げられる場合もありますが、それ以外は、実質的な管理上の変化にもかかわらず、より高い成熟度で安定性を維持します。

About seven years ago, Volvo Cars initiated a large-scale agile transformation. Midst this journey, a significant restructuring of the R&D department took place. Our study aims to illuminate how team maturity levels are impacted during such comprehensive reorganizations. We collected data from 63 teams to comprehend the effects of organizational changes on these agile teams. Additionally, qualitative data was gathered to validate our findings and explore underlying reasons. Contrary to what was expected, the reorganization did not significantly alter the distribution of team maturity. High turnover rates and frequent reorganizations were identified as key factors to why the less mature teams remained in the early stages of team development. Conversely, teams in the second category remained stable at a higher maturity stage, primarily because the teams themselves remained largely intact, with only management structures changing. In conclusion, while reorganizations may hinder some teams' development, others maintain stability at a higher level of maturity despite substantial managerial changes.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# SnO$_2$薄膜特性のスマートデータ駆動型GRU予測器

Smart Data-Driven GRU Predictor for SnO$_2$ Thin films Characteristics ( http://arxiv.org/abs/2409.11782v1 )

ライセンス: Link先を確認
Faiza Bouamra, Mohamed Sayah, Labib Sadek Terrissa, Noureddine Zerhouni, (参考訳) 材料物理学では、物性、構造、エレクトロニクス、磁気、光学、誘電体、分光特性に関する材料データを取得するために、キャラクタリゼーション技術が最も重要である。 しかし、多くの材料にとって、可用性と安全なアクセシビリティを確保することは必ずしも容易ではなく、完全に保証されているわけではない。 さらに、モデリングとシミュレーション技術の使用には、コストのかかる計算時間と大きな複雑さを伴うことに加えて、多くの理論的知識が必要である。 したがって、複数のサンプルを同時に分析する異なる手法で材料を分析することは、技術者や研究者にとって非常に困難である。 非常に危険であるにもかかわらず、X線回折は結晶性1d, 2d, 3d材料の構造特性からデータを収集する、よく知られ、広く使われているキャラクタリゼーション技術である。 本稿では, 酸化スズSnO$_2$(110) 薄膜の構造特性や特性を予測するための Gated Recurrent Unit モデルのためのスマート GRU を提案する。 実際、薄膜サンプルは実験的に精巧に管理され、収集されたデータ辞書は、スズ酸化物SnO$_2$(110)構造特性のキャラクタリゼーションのためのAI-人工知能-GRUモデルを生成するために使用される。

In material physics, characterization techniques are foremost crucial for obtaining the materials data regarding the physical properties as well as structural, electronics, magnetic, optic, dielectric, and spectroscopic characteristics. However, for many materials, ensuring availability and safe accessibility is not always easy and fully warranted. Moreover, the use of modeling and simulation techniques need a lot of theoretical knowledge, in addition of being associated to costly computation time and a great complexity deal. Thus, analyzing materials with different techniques for multiple samples simultaneously, still be very challenging for engineers and researchers. It is worth noting that although of being very risky, X-ray diffraction is the well known and widely used characterization technique which gathers data from structural properties of crystalline 1d, 2d or 3d materials. We propose in this paper, a Smart GRU for Gated Recurrent Unit model to forcast structural characteristics or properties of thin films of tin oxide SnO$_2$(110). Indeed, thin films samples are elaborated and managed experimentally and the collected data dictionary is then used to generate an AI -- Artificial Intelligence -- GRU model for the thin films of tin oxide SnO$_2$(110) structural property characterization.
翻訳日:2024-09-19 18:48:44 公開日:2024-09-18
# 低計算資源における日本語医学大言語モデルの開発とバイリンガル評価

Development and bilingual evaluation of Japanese medical large language model within reasonably low computational resources ( http://arxiv.org/abs/2409.11783v1 )

ライセンス: Link先を確認
Issey Sukeda, (参考訳) 近年の大規模言語モデル(LLM)の成功とスケーリング法則により、より大きなモデルが広く採用されている。 特に医療業界では、セキュリティ上の懸念から、ローカルで運用されるLSMの需要が高まっている。 しかし、高品質のオープンソース LLM の大半は70B のパラメータを持ち、GPU の準備と運用のユーザに対して多大な経済的負担を課している。 これらの課題を克服するため、近年の7Bモデルに基づく医療適応を提案し、低計算資源での運用を可能にする。 2言語(日本語と英語)の医学的質問答えベンチマークのパフォーマンスを比較し、そのスコアが10倍の既存の医学的LCMのスコアと同等あるいは同等であることを示す。 日本語医学データセットに基づく英語中心ベースモデルの微調整により,両言語のスコアが向上し,言語間知識伝達の効果が向上することがわかった。 この研究は、臨床機関がLLMを実際に活用するための足場として機能し、財政上の課題を軽減することを願っている。 評価コードはhttps://huggingface.co/stardust-coder/jmedllm-7b-v1.comで公開しています。

The recent success of large language models (LLMs) and the scaling law has led to a widespread adoption of larger models. Particularly in the healthcare industry, there is an increasing demand for locally operated LLMs due to security concerns. However, the majority of high quality open-source LLMs have a size of 70B parameters, imposing significant financial burdens on users for GPU preparation and operation. To overcome these issues, we present a medical adaptation based on the recent 7B models, which enables the operation in low computational resources. We compare the performance on medical question-answering benchmarks in two languages (Japanese and English), demonstrating that its scores reach parity with or surpass those of currently existing medical LLMs that are ten times larger. We find that fine-tuning an English-centric base model on Japanese medical dataset improves the score in both language, supporting the effect of cross-lingual knowledge transfer. We hope that this study will alleviate financial challenges, serving as a stepping stone for clinical institutions to practically utilize LLMs locally. Our evaluation code is available at https://huggingface.co/stardust-coder/jmedllm-7b-v1.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# ディープトラッキングのための蒸留チャネル

Distilling Channels for Efficient Deep Tracking ( http://arxiv.org/abs/2409.11785v1 )

ライセンス: Link先を確認
Shiming Ge, Zhao Luo, Chunhui Zhang, Yingying Hua, Dacheng Tao, (参考訳) ディープトラッカーは視覚的追跡に成功している。 通常、これらのトラッカーは最適に事前訓練されたディープネットワークを使用して、固定層からのマルチチャネル特徴を持つ全ての多様なオブジェクトを表現している。 採用されるディープネットワークは通常、オブジェクト分類で使用される大量のデータから豊富な知識を抽出するために訓練されるため、ジェネリックオブジェクトを非常にうまく表現することができる。 しかし、これらのネットワークは特定の移動物体を表すには複雑すぎるため、一般化が不十分であり、計算とメモリのコストが高い。 本稿では, ディープトラッカーを容易にするための新しい, 汎用的なチャネル蒸留法を提案する。 チャネル蒸留の有効性を検証するために, 判別相関フィルタ (DCF) と ECO を例に挙げる。 統合定式化により,特徴圧縮,応答マップ生成,モデル更新を統一エネルギー最小化問題に変換し,移動物体の追跡効率を向上する情報的特徴チャネルを適応的に選択できることを実証する。 チャネル蒸留は、良好なチャネルを正確に抽出し、ノイズのあるチャネルの影響を緩和し、一般的にチャネルの数を減らし、異なるチャネルやネットワークに適応的に一般化することができる。 その結果、ディープトラッカーは正確で高速で、メモリ要求が低い。 一般的なベンチマークに対する大規模な実験的評価は、我々のフレームワークの有効性と一般化性を明確に示している。

Deep trackers have proven success in visual tracking. Typically, these trackers employ optimally pre-trained deep networks to represent all diverse objects with multi-channel features from some fixed layers. The deep networks employed are usually trained to extract rich knowledge from massive data used in object classification and so they are capable to represent generic objects very well. However, these networks are too complex to represent a specific moving object, leading to poor generalization as well as high computational and memory costs. This paper presents a novel and general framework termed channel distillation to facilitate deep trackers. To validate the effectiveness of channel distillation, we take discriminative correlation filter (DCF) and ECO for example. We demonstrate that an integrated formulation can turn feature compression, response map generation, and model update into a unified energy minimization problem to adaptively select informative feature channels that improve the efficacy of tracking moving objects on the fly. Channel distillation can accurately extract good channels, alleviating the influence of noisy channels and generally reducing the number of channels, as well as adaptively generalizing to different channels and networks. The resulting deep tracker is accurate, fast, and has low memory requirements. Extensive experimental evaluations on popular benchmarks clearly demonstrate the effectiveness and generalizability of our framework.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# 橋梁蒸留による高効率低分解能顔認識

Efficient Low-Resolution Face Recognition via Bridge Distillation ( http://arxiv.org/abs/2409.11786v1 )

ライセンス: Link先を確認
Shiming Ge, Shengwei Zhao, Chenyu Li, Yu Zhang, Jia Li, (参考訳) 顔認識技術は現在、軽量モデル、高速推論速度、解像度適応機能に向けて進歩している。 本稿では,プライベートな高分解能顔に事前訓練された複雑な顔モデルを,低分解能顔認識のための軽量な顔に変換するための橋梁蒸留手法を提案する。 提案手法では, 2段階蒸留法を用いて, クロスデータセット分解能適応型知識伝達問題を解く。 第1段階では,従来の知識をプライベートな高解像度の顔からパブリックな高解像度の顔へ伝達し,コンパクトで識別可能な特徴を生成するクロスデータセット蒸留を行う。 第2段階では、先行知識をマルチタスク学習により合成された低解像度の顔に転送するために、分解能適応蒸留を行う。 低解像度の顔表現を学習し、適応された高解像度の知識を模倣することにより、低解像度の顔を認識する上で、高効率で有望な精度で軽量の学生モデルを構築することができる。 実験結果から,0.21Mパラメータと0.057MBメモリしか持たない低解像度顔を認識する上で,学生モデルが顕著に機能することが確認された。 一方、その速度は、GPU、CPU、携帯電話で毎秒14,705, ~934, 763顔に達する。

Face recognition in the wild is now advancing towards light-weight models, fast inference speed and resolution-adapted capability. In this paper, we propose a bridge distillation approach to turn a complex face model pretrained on private high-resolution faces into a light-weight one for low-resolution face recognition. In our approach, such a cross-dataset resolution-adapted knowledge transfer problem is solved via two-step distillation. In the first step, we conduct cross-dataset distillation to transfer the prior knowledge from private high-resolution faces to public high-resolution faces and generate compact and discriminative features. In the second step, the resolution-adapted distillation is conducted to further transfer the prior knowledge to synthetic low-resolution faces via multi-task learning. By learning low-resolution face representations and mimicking the adapted high-resolution knowledge, a light-weight student model can be constructed with high efficiency and promising accuracy in recognizing low-resolution faces. Experimental results show that the student model performs impressively in recognizing low-resolution faces with only 0.21M parameters and 0.057MB memory. Meanwhile, its speed reaches up to 14,705, ~934 and 763 faces per second on GPU, CPU and mobile phone, respectively.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# デジタルアセットをNFTで実現したビジュアルアーティスト

Empowering Visual Artists with Tokenized Digital Assets with NFTs ( http://arxiv.org/abs/2409.11790v1 )

ライセンス: Link先を確認
Ruiqiang Li, Brian Yecies, Qin Wang, Shiping Chen, Jun Shen, (参考訳) 非Fungible Tokens(NFT)は、アートプラクティスの強化とブロックチェーンテクノロジの活用の間のネクサスを調べることによって、視覚芸術産業に変革的な影響を与える。 まず、ブロックチェーンドメインの基本的な技術的側面と余裕を導入することで、この研究のコンテキストを確立します。 第二に、伝統的なアートワークの制作に関わる創造的な実践を再考し、様々な種類、生産プロセス、トレーディング、収益化手法を網羅する。 第3に、構造、コンセンサスアルゴリズム、スマートコントラクト、デジタルウォレットなど、ブロックチェーンエコシステムの重要な基盤を導入し、定義します。 第4に、NFTに焦点を絞り、その歴史、力学、ライフサイクル、標準、そして芸術の世界における応用について詳述する。 特に、さまざまな市場でNFTを鋳造・取引するための重要なプロセスを概説し、関連する市場動態と価格について論じる。 我々はまた、このドメインが直面している主要なサイバーセキュリティ問題の一部を明らかにするために、洗濯取引のような主要なセキュリティ上の懸念についても検討している。 最後に、今後の研究方針を検討し、ユーザエクスペリエンス、セキュリティ、プライバシの改善を強調して結論付けます。 クリエイティブな産業やサイバーセキュリティの専門知識からのインプットを含む、この革新的な研究概要を通じて、NFTがビジュアルアーティストに力を与え、より広い著作権産業を再生する方法について、新たな洞察を提供する。

The Non-Fungible Tokens (NFTs) has the transformative impact on the visual arts industry by examining the nexus between empowering art practices and leveraging blockchain technology. First, we establish the context for this study by introducing some basic but critical technological aspects and affordances of the blockchain domain. Second, we revisit the creative practices involved in producing traditional artwork, covering various types, production processes, trading, and monetization methods. Third, we introduce and define the key fundamentals of the blockchain ecosystem, including its structure, consensus algorithms, smart contracts, and digital wallets. Fourth, we narrow the focus to NFTs, detailing their history, mechanics, lifecycle, and standards, as well as their application in the art world. In particular, we outline the key processes for minting and trading NFTs in various marketplaces and discuss the relevant market dynamics and pricing. We also consider major security concerns, such as wash trading, to underscore some of the central cybersecurity issues facing this domain. Finally, we conclude by considering future research directions, emphasizing improvements in user experience, security, and privacy. Through this innovative research overview, which includes input from creative industry and cybersecurity sdomain expertise, we offer some new insights into how NFTs can empower visual artists and reshape the wider copyright industries.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# ヘリカルエッジ状態の複数対から生じるマルチフォールドMajoranaコーナーモード

Multifold Majorana corner modes arising from multiple pairs of helical edge states ( http://arxiv.org/abs/2409.11791v1 )

ライセンス: Link先を確認
Zhiwei Yin, Haoshu Li, Zhongbo Yan, Shaolong Wan, (参考訳) 一対のヘリカルエッジ状態と近接誘起超伝導を持つ量子スピンホール絶縁体は、マヨラナ角モードを持つ2階のトポロジカル超伝導体をサポートすることが示されている。 マヨラナコーナーモードは、量子スピンホール絶縁体のヘリカルエッジ状態に由来するため、複数対のヘリカルエッジ状態と近接誘起超伝導を持つ量子スピンホール絶縁体が、マルチフォールドマヨラナコーナーモードを持つ2階トポロジカル超伝導体を生じさせるかどうかが興味深い問題である。 本研究では、2対のヘリカルエッジ状態を持つ量子スピンホール絶縁体を考える。 ヘリカルエッジ状態が磁場と$s$-waveペアリング、または$s+p$混合パリティペアリングの複合作用によってギャップを空けると、ロバストな2倍Majoranaコーナーモードが得られる。 磁場の作用下での角あたりの2つのマヨラナゼロモードの安定性は、キラル対称性からの保護に起因する。 本研究は, 超伝導体と多対のヘリカルエッジ状態を持つ量子スピンホール絶縁体からなるヘテロ構造が, マルチフォールドマヨラナコーナーモードを追求するためのプラットフォームとして機能することを明らかにする。

Quantum spin Hall insulators with a pair of helical edge states and proximity-induced superconductivity have been shown to support second-order topological superconductors with Majorana corner modes. As the Majorana corner modes are originated from the helical edge states of the quantum spin Hall insulators, whether quantum spin Hall insulators with multiple pairs of helical edge states and proximity-induced superconductivity can give rise to second-order topological superconductors with multifold Majorana corner modes is an interesting question to address. In this work, we consider a quantum spin Hall insulator with two pairs of helical edge states. We find robust twofold Majorana corner modes can be achieved when the helical edge states are gapped by a combined action of a magnetic exchange field and an $s$-wave pairing, or an $s+p$ mixed-parity pairing. The stability of two Majorana zero modes per corner under the action of magnetic exchange fields is attributed to the protection from the chiral symmetry. Our study reveals that heterostructures composed of superconductors and quantum spin Hall insulators with multiple pairs of helical edge states could serve as a platform to pursue multifold Majorana corner modes.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# 計算複雑性に基づく逐次的および逆因果隠れ変数理論のノーゴー定理

A no-go theorem for sequential and retro-causal hidden-variable theories based on computational complexity ( http://arxiv.org/abs/2409.11792v1 )

ライセンス: Link先を確認
Doriano Brogioli, (参考訳) ベルのノーゴー定理(No-go theorem)は、量子相関-a-距離現象をモデル化することを要求することにより、局所性と因果性の仮説に該当する隠れ変数理論を定めている。 ここでは、量子 \emph{circuits} をモデル化する理論の能力を検査することで、独立なno-go定理を開発する。 理論が量子力学と互換性があるなら、その数学的モデルを解く問題は量子回路の出力を計算するのと同じくらい難しくなければならない。 厳密に、シーケンシャルな(因果的)理論とポスト選択に基づく(反因果的)理論からサンプリングするアイデアを捉えた複雑性クラスを提供し、これらのクラスが量子回路からのサンプリングの計算複雑性をカバーできないことを示した。 この結果は、古典的なコンピュータよりも量子コンピュータの方が優れているという広く受け入れられた予想に基づいている。 この結果は、シーケンシャルおよびポストセレクションに基づく理論の大きなファミリーを規定するノーゴー定理を表している。 ノーゴー定理の仮説とそれらを回避できる方法について論じる。 特に、Retro-Causalで量子相関-at-a-距離現象をモデル化できるSchulmanモデルとその拡張について論じる。

The celebrated Bell's no-go theorem rules out the hidden-variable theories falling in the hypothesis of locality and causality, by requiring the theory to model the quantum correlation-at-a-distance phenomena. Here I develop an independent no-go theorem, by inspecting the ability of a theory to model quantum \emph{circuits}. If a theory is compatible with quantum mechanics, then the problems of solving its mathematical models must be as hard as calculating the output of quantum circuits, i.e., as hard as quantum computing. Rigorously, I provide complexity classes capturing the idea of sampling from sequential (causal) theories and from post-selection-based (retro-causal) theories; I show that these classes fail to cover the computational complexity of sampling from quantum circuits. The result is based on widely accepted conjectures on the superiority of quantum computers over classical ones. The result represents a no-go theorem that rules out a large family of sequential and post-selection-based theories. I discuss the hypothesis of the no-go theorem and the possible ways to circumvent them. In particular, I discuss the Schulman model and its extensions, which is retro-causal and is able to model quantum correlation-at-a-distance phenomena: I provides clues suggesting that it escapes the hypothesis of the no-go theorem.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# 法律領域における大規模言語モデルの具体性

The Factuality of Large Language Models in the Legal Domain ( http://arxiv.org/abs/2409.11798v1 )

ライセンス: Link先を確認
Rajaa El Hamdani, Thomas Bonald, Fragkiskos Malliaros, Nils Holzenberger, Fabian Suchanek, (参考訳) 本稿では,法域における知識基盤としての大規模言語モデル(LLM)の現実性について,現実的な利用シナリオとして考察する。 まず、事例法と法律に関する多様な事実質問のデータセットを設計する。 次に、データセットを用いて、精度、エイリアス、ファジィマッチングなど、異なる評価手法で複数のLCMを評価する。 その結果,エイリアス法やファジィマッチング法では,性能が大幅に向上することがわかった。 さらに, 両戦略が精度を高めることから, 禁忌例や文脈内例の影響について検討した。 最後に、SailLMで見られるように、法的文書に事前訓練を加えることで、事実の精度が63%から81%に向上することを示した。

This paper investigates the factuality of large language models (LLMs) as knowledge bases in the legal domain, in a realistic usage scenario: we allow for acceptable variations in the answer, and let the model abstain from answering when uncertain. First, we design a dataset of diverse factual questions about case law and legislation. We then use the dataset to evaluate several LLMs under different evaluation methods, including exact, alias, and fuzzy matching. Our results show that the performance improves significantly under the alias and fuzzy matching methods. Further, we explore the impact of abstaining and in-context examples, finding that both strategies enhance precision. Finally, we demonstrate that additional pre-training on legal documents, as seen with SaulLM, further improves factual precision from 63% to 81%.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# 正確な栄養失調検出のための潜時指紋強調法

Latent fingerprint enhancement for accurate minutiae detection ( http://arxiv.org/abs/2409.11802v1 )

ライセンス: Link先を確認
Abdul Wahab, Tariq Mahmood Khan, Shahzaib Iqbal, Bandar AlShammari, Bandar Alhaqbani, Imran Razzak, (参考訳) 指紋の一部とスマッジされた指紋に基づく容疑者の同定は、指紋認識の分野において重要な課題である。 固定長の埋め込みは、ロール指紋やスラップ指紋の認識に効果があるが、潜伏指紋のマッチング方法は、主に、ミツバチによる局所的な埋め込みを中心に行われており、マッチング目的のグローバル表現を完全に活用することはできなかった。 その結果、潜伏指紋の増強は、法医学的な調査において堅牢な識別を確保するために重要となる。 現在のアプローチでは、しばしば隆起パターンの復元を優先し、正確な指紋認識に欠かせない微細なマクロ経済の細部を見下ろしている。 そこで本研究では,GAN(Generative Adversary Network)を用いてLFE(Latent Fingerprint Enhancement)を再定義する手法を提案する。 生成過程の微妙な情報を直接最適化することにより、このモデルは、地味な事例に対して例外的な忠実さを示す強化された潜伏指紋を生成する。 これにより、識別性能が大幅に向上する。 筆者らのフレームワークは, 微小な位置と配向場を統合し, 局所的および構造的指紋の特徴の保存を確実にする。 2つの公開データセットで実施された広範囲な評価は、我々の手法が既存の最先端技術よりも優位であることを示し、法医学的応用における潜伏指紋認識の精度を著しく向上させる可能性を強調した。

Identification of suspects based on partial and smudged fingerprints, commonly referred to as fingermarks or latent fingerprints, presents a significant challenge in the field of fingerprint recognition. Although fixed-length embeddings have shown effectiveness in recognising rolled and slap fingerprints, the methods for matching latent fingerprints have primarily centred around local minutiae-based embeddings, failing to fully exploit global representations for matching purposes. Consequently, enhancing latent fingerprints becomes critical to ensuring robust identification for forensic investigations. Current approaches often prioritise restoring ridge patterns, overlooking the fine-macroeconomic details crucial for accurate fingerprint recognition. To address this, we propose a novel approach that uses generative adversary networks (GANs) to redefine Latent Fingerprint Enhancement (LFE) through a structured approach to fingerprint generation. By directly optimising the minutiae information during the generation process, the model produces enhanced latent fingerprints that exhibit exceptional fidelity to ground-truth instances. This leads to a significant improvement in identification performance. Our framework integrates minutiae locations and orientation fields, ensuring the preservation of both local and structural fingerprint features. Extensive evaluations conducted on two publicly available datasets demonstrate our method's dominance over existing state-of-the-art techniques, highlighting its potential to significantly enhance latent fingerprint recognition accuracy in forensic applications.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# モデルチェッキングによるコンセントの実装

Model-Checking the Implementation of Consent ( http://arxiv.org/abs/2409.11803v1 )

ライセンス: Link先を確認
Raúl Pardo, Daniel Le Métayer, (参考訳) プライバシポリシは、個人データがデータコントローラによって収集され、処理される用語を定義します。 一般データ保護規則(GDPR)は、実装が困難なこれらのポリシーに要件を課している。 特に困難は,既存のシステム(IoT(Internet of Things)やWebテクノロジなど)の異質性によるものです。 )。 本稿では,インフォームドコンセンサスに対する高レベルのGDPRプライバシ要件を低レベルの計算モデルに洗練する手法を提案する。 この方法は、同意管理を必要とするシステムを実装するソフトウェア開発者を対象としている。 私たちはTLA+でモデルを機械化し、低レベルの計算モデルが高レベルのプライバシ要件を実装していることを証明するためにモデルチェックを使用します。 提案手法を実世界の2つのシナリオ – クッキーバナーの実装と,Bluetooth低エネルギーで通信するIoTシステム – で実証する。

Privacy policies define the terms under which personal data may be collected and processed by data controllers. The General Data Protection Regulation (GDPR) imposes requirements on these policies that are often difficult to implement. Difficulties arise in particular due to the heterogeneity of existing systems (e.g., the Internet of Things (IoT), web technology, etc.). In this paper, we propose a method to refine high level GDPR privacy requirements for informed consent into low-level computational models. The method is aimed at software developers implementing systems that require consent management. We mechanize our models in TLA+ and use model-checking to prove that the low-level computational models implement the high-level privacy requirements; TLA+ has been used by software engineers in companies such as Microsoft or Amazon. We demonstrate our method in two real world scenarios: an implementation of cookie banners and a IoT system communicating via Bluetooth low energy.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# 内面・内面・内面・内面・内面・内面・内面・内面・内面・内面・内面・内面・内面・内面・内面・内面・内面

Inside Out or Not: Privacy Implications of Emotional Disclosure ( http://arxiv.org/abs/2409.11805v1 )

ライセンス: Link先を確認
Elham Naghizade, Kaixin Ji, Benjamin Tag, Flora Salim, (参考訳) プライバシーは動的で、敏感で、文脈的です。 これまでの研究では、プライバシとコンテキスト、プライバシと感情、感情とコンテキストの相互作用について検討されてきた。 しかし、これらの側面の相互作用を同時に理解することには、大きなギャップが残っている。 本稿では,個人の情報共有行動,特に都市部や社会関係における感情の役割について予備的検討を行う。 我々は、文脈(位置と時間)、感情、個人の情報共有行動を統合する新しい方法論を採用し、文脈的感情がプライバシーにどのように影響するかを包括的に分析する。 感情は自己申告と電磁気活動(EDA)の両方で評価される。 以上の結果から,自己申告感情が遠隔社会集団と個人の情報共有行動に影響を及ぼすことが明らかとなった。一方,中立感情は個人に近縁な社会サークルとより正確でない情報を共有させる一方で,手首のEDAではパターンが検出できる可能性が示唆された。 我々の研究は、過度に共有されるリスクを軽減し、デジタル時代のユーザのプライバシーを高めるために、パーソナライズされた感情認識戦略の基礎を築くのに役立ちます。

Privacy is dynamic, sensitive, and contextual, much like our emotions. Previous studies have explored the interplay between privacy and context, privacy and emotion, and emotion and context. However, there remains a significant gap in understanding the interplay of these aspects simultaneously. In this paper, we present a preliminary study investigating the role of emotions in driving individuals' information sharing behaviour, particularly in relation to urban locations and social ties. We adopt a novel methodology that integrates context (location and time), emotion, and personal information sharing behaviour, providing a comprehensive analysis of how contextual emotions affect privacy. The emotions are assessed with both self-reporting and electrodermal activity (EDA). Our findings reveal that self-reported emotions influence personal information-sharing behaviour with distant social groups, while neutral emotions lead individuals to share less precise information with close social circles, a pattern is potentially detectable with wrist-worn EDA. Our study helps lay the foundation for personalised emotion-aware strategies to mitigate oversharing risks and enhance user privacy in the digital age.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# 機械条件モニタリングにおける条件指標推定と異常検出の協調最適化のための制約ガイド付きオートエンコーダ

Constraint Guided AutoEncoders for Joint Optimization of Condition Indicator Estimation and Anomaly Detection in Machine Condition Monitoring ( http://arxiv.org/abs/2409.11807v1 )

ライセンス: Link先を確認
Maarten Meire, Quinten Van Baelen, Ted Ooijevaar, Peter Karsmakers, (参考訳) マシン・コンディション・モニタリングの主な目標は、その名が示すように、産業アプリケーションの状態を監視することである。 このモニタリングの目的は、主に2つの問題に分けられる。 通常のデータと異常検出(AD)と呼ばれる異常データとを区別する診断問題や、その寿命を通して資産の状態が反映される条件指標(CI)の進化を予測することを目的とした予後問題である。 このCIは, 機械の状態が時間とともに徐々に劣化するにつれて, 単調な挙動を示すことが期待される。 本研究では,AD推定とCI推定の両方に使用可能な単一モデルの構築が可能な,堅牢なADメソッドであるConstraint Guided AutoEncoders(CGAE)の拡張を提案する。 改善されたCI推定のために、拡張には、モデルを時間とともに単調に増加するCI予測に強制する制約が組み込まれている。 実験の結果,提案アルゴリズムは,CIの単調な挙動を改善しつつ,ADに関してCGAEと似ているか,少し良く動作することがわかった。

The main goal of machine condition monitoring is, as the name implies, to monitor the condition of industrial applications. The objective of this monitoring can be mainly split into two problems. A diagnostic problem, where normal data should be distinguished from anomalous data, otherwise called Anomaly Detection (AD), or a prognostic problem, where the aim is to predict the evolution of a Condition Indicator (CI) that reflects the condition of an asset throughout its life time. When considering machine condition monitoring, it is expected that this CI shows a monotonic behavior, as the condition of a machine gradually degrades over time. This work proposes an extension to Constraint Guided AutoEncoders (CGAE), which is a robust AD method, that enables building a single model that can be used for both AD and CI estimation. For the purpose of improved CI estimation the extension incorporates a constraint that enforces the model to have monotonically increasing CI predictions over time. Experimental results indicate that the proposed algorithm performs similar, or slightly better, than CGAE, with regards to AD, while improving the monotonic behavior of the CI.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# 能動学習による強高調波材料に対する機械学習型原子間ポテンシャルの訓練と信頼性向上

Accelerating the Training and Improving the Reliability of Machine-Learned Interatomic Potentials for Strongly Anharmonic Materials through Active Learning ( http://arxiv.org/abs/2409.11808v1 )

ライセンス: Link先を確認
Kisung Kang, Thomas A. R. Purcell, Christian Carbogno, Matthias Scheffler, (参考訳) 機械学習型原子間ポテンシャル(MLIP)を用いた分子動力学(MD)は、ab initio molecular dynamics(aiMD)の効率的かつ緊急に必要な補体として機能する。 これらのポテンシャルを ab initio 法から生成されたデータに基づいてトレーニングすることにより、平均的な予測は ab initio 法と同等の性能をコストのごく一部で示すことができる。 しかし、トレーニングセットの不十分さは、強い無調和性材料における力学を不適切な説明に導く可能性がある、なぜなら、臨界効果は関連するケースで見過ごされるか、または誤って捕獲されるか、あるいは実際に存在しない場合にMLIPによって幻覚される可能性があるからである。 本研究では,MDとMLIP(MLIP-MD)との不確実性推定を組み合わせた能動的学習手法により,このような予測を回避できることを示す。 簡単に言えば、効率的なMLIP-MDは構成空間を迅速に探索するために使用され、不確実性推定とエネルギー的生存性に基づく取得関数を用いて、新たに生成されたデータの値を最大化し、位相空間の最もなじみの無い、合理的にアクセス可能な領域にフォーカスする。 本手法を検証するため,112以上の材料をスクリーニングし,上記の問題を経験する10の事例を同定した。 CuIとAgGaSe$_2$をこれらの問題素材のアーキタイプとして用いて、強無調和効果の物理的含意を論じ、これらの問題にどのように対処できるかを実証する。

Molecular dynamics (MD) employing machine-learned interatomic potentials (MLIPs) serve as an efficient, urgently needed complement to ab initio molecular dynamics (aiMD). By training these potentials on data generated from ab initio methods, their averaged predictions can exhibit comparable performance to ab initio methods at a fraction of the cost. However, insufficient training sets might lead to an improper description of the dynamics in strongly anharmonic materials, because critical effects might be overlooked in relevant cases, or only incorrectly captured, or hallucinated by the MLIP when they are not actually present. In this work, we show that an active learning scheme that combines MD with MLIPs (MLIP-MD) and uncertainty estimates can avoid such problematic predictions. In short, efficient MLIP-MD is used to explore configuration space quickly, whereby an acquisition function based on uncertainty estimates and on energetic viability is employed to maximize the value of the newly generated data and to focus on the most unfamiliar but reasonably accessible regions of phase space. To verify our methodology, we screen over 112 materials and identify 10 examples experiencing the aforementioned problems. Using CuI and AgGaSe$_2$ as archetypes for these problematic materials, we discuss the physical implications for strongly anharmonic effects and demonstrate how the developed active learning scheme can address these issues.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# EventAug: イベントベースの学習のための多面的時空間データ拡張手法

EventAug: Multifaceted Spatio-Temporal Data Augmentation Methods for Event-based Learning ( http://arxiv.org/abs/2409.11813v1 )

ライセンス: Link先を確認
Yukun Tian, Hao Chen, Yongjian Deng, Feihong Shen, Kepan Liu, Wei You, Ziyang Zhang, (参考訳) イベントカメラは、低レイテンシと高ダイナミックレンジのため、幅広い領域で大きな成功を収めている。 しかし、コミュニティはデータ不足や多様性の制限といった課題に直面しており、多くの場合、過度に適合し、機能学習が不十分になる。 特に、イベントコミュニティにおけるデータ拡張技術の調査は、依然として少ない。 本研究は,空間的時間的多様性を高めるためにEventAugという体系的な拡張スキームを導入することで,このギャップに対処することを目的としている。 特に,物体の運動速度を多様化するマルチスケールテンポラル統合(MSTI)を提案し,その上で,オブジェクトの変動を豊かにするために,Spatial-Salient Event Mask(SSEM)とTemporal-Salient Event Mask(TSEM)を導入する。 われわれのEventAugは、よりリッチな動きパターン、オブジェクトの変種、局所的な時空間関係で学習するモデルを促進することができる。 その結果,DVS128 Gestureの精度は4.87%向上した。 私たちのコードは、このコミュニティで公開されます。

The event camera has demonstrated significant success across a wide range of areas due to its low time latency and high dynamic range. However, the community faces challenges such as data deficiency and limited diversity, often resulting in over-fitting and inadequate feature learning. Notably, the exploration of data augmentation techniques in the event community remains scarce. This work aims to address this gap by introducing a systematic augmentation scheme named EventAug to enrich spatial-temporal diversity. In particular, we first propose Multi-scale Temporal Integration (MSTI) to diversify the motion speed of objects, then introduce Spatial-salient Event Mask (SSEM) and Temporal-salient Event Mask (TSEM) to enrich object variants. Our EventAug can facilitate models learning with richer motion patterns, object variants and local spatio-temporal relations, thus improving model robustness to varied moving speeds, occlusions, and action disruptions. Experiment results show that our augmentation method consistently yields significant improvements across different tasks and backbones (e.g., a 4.87% accuracy gain on DVS128 Gesture). Our code will be publicly available for this community.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# SymFace:ディープ・フェイス認識のための追加の顔面対称性損失

SymFace: Additional Facial Symmetry Loss for Deep Face Recognition ( http://arxiv.org/abs/2409.11816v1 )

ライセンス: Link先を確認
Pritesh Prakash, Koteswar Rao Jerripothula, Ashish Jacob Sam, Prinsh Kumar Singh, S Umamaheswaran, (参考訳) 過去10年間で、高度な機械学習手法を活用した顔認識アルゴリズムの強化が着実に進んでいる。 損失関数の役割は、顔認証問題に対処し、ゲームを変える役割を演じる上で重要なものである。 これらの損失関数は、主にクラス内またはクラス間分離のバリエーションを探索してきた。 本研究では,顔認証問題における顔対称性の自然現象について検討する。 左半球と右半球の対称性は、近年、多くの研究領域で広く利用されている。 本稿では、顔画像を垂直に2つの半角に分割することで、この単純なアプローチを巧みに採用する。 顔対称性の自然現象が顔の検証方法を強化することができるという仮定により、分割された顔の2つの出力埋め込みベクトルは、出力埋め込み空間において互いに近接して射影しなければならないという仮説を立てる。 この概念に触発されて、対称的な2対の分割面の埋め込みの相違に基づいて、ネットワークをペナルティ化する。 対称的損失は、表情や雷条件による小さな非対称な特徴を最小限に抑え、クラス間のクラス間差異を著しく増加させ、より信頼性の高い顔埋め込みをもたらす可能性がある。 この損失関数は、任意のネットワークにおいて、すべての既存のネットワークアーキテクチャや構成のベースライン性能を上回る性能を保ち、SoTA結果の達成を可能にします。

Over the past decade, there has been a steady advancement in enhancing face recognition algorithms leveraging advanced machine learning methods. The role of the loss function is pivotal in addressing face verification problems and playing a game-changing role. These loss functions have mainly explored variations among intra-class or inter-class separation. This research examines the natural phenomenon of facial symmetry in the face verification problem. The symmetry between the left and right hemi faces has been widely used in many research areas in recent decades. This paper adopts this simple approach judiciously by splitting the face image vertically into two halves. With the assumption that the natural phenomena of facial symmetry can enhance face verification methodology, we hypothesize that the two output embedding vectors of split faces must project close to each other in the output embedding space. Inspired by this concept, we penalize the network based on the disparity of embedding of the symmetrical pair of split faces. Symmetrical loss has the potential to minimize minor asymmetric features due to facial expression and lightning conditions, hence significantly increasing the inter-class variance among the classes and leading to more reliable face embedding. This loss function propels any network to outperform its baseline performance across all existing network architectures and configurations, enabling us to achieve SoTA results.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# EFCM: 医用画像解析における大規模モデルの展開のための圧縮モデルの効率的な微調整

EFCM: Efficient Fine-tuning on Compressed Models for deployment of large models in medical image analysis ( http://arxiv.org/abs/2409.11817v1 )

ライセンス: Link先を確認
Shaojie Li, Zhaoshuo Diao, (参考訳) 近年の医学における深層学習大型モデルの開発は, 画像解析や診断において顕著な性能を示したが, 多数のパラメータが記憶と推論遅延の課題を引き起こしている。 知識蒸留は解法を提供するが、高解像度の病理画像とスライドレベルのラベルのために、学生モデルの更新のためにスライドレベルの勾配を逆転することはできない。 本研究では,非監督的特徴蒸留と微調整の2段階からなる圧縮モデル(EFCM)フレームワークの効率的な微調整について述べる。 蒸留段階では, 学生モデルの知識吸収能力を高めるために, 適応的受容場調整のためのTransScanモジュールを用いて, FPD (Feature Projection Distillation) を提案する。 スライドレベルの微調整では、3つの戦略(リユースCLAM、リユースCLAM、エンド2エンドトレインCLAM(ETC))を比較した。 実験は、網膜用RETFound、胸部X線用MRM、病理組織学用BROWの3つの大きな医療モデルに関連する11の下流データセットで実施された。 実験の結果,EFCMフレームワークはスライドレベルの画像問題に対処する際の精度と効率を著しく向上し,大規模医療モデルを展開する上での課題に効果的に対処できることが示唆された。 具体的には、TGA-NSCLCとTGA-BRCAデータセットの大規模モデルBROWと比較してACCが4.33%増加し、AUCが5.2%増加した。 モデル推論効率の解析は蒸留微調整法の高効率性を強調する。

The recent development of deep learning large models in medicine shows remarkable performance in medical image analysis and diagnosis, but their large number of parameters causes memory and inference latency challenges. Knowledge distillation offers a solution, but the slide-level gradients cannot be backpropagated for student model updates due to high-resolution pathological images and slide-level labels. This study presents an Efficient Fine-tuning on Compressed Models (EFCM) framework with two stages: unsupervised feature distillation and fine-tuning. In the distillation stage, Feature Projection Distillation (FPD) is proposed with a TransScan module for adaptive receptive field adjustment to enhance the knowledge absorption capability of the student model. In the slide-level fine-tuning stage, three strategies (Reuse CLAM, Retrain CLAM, and End2end Train CLAM (ETC)) are compared. Experiments are conducted on 11 downstream datasets related to three large medical models: RETFound for retina, MRM for chest X-ray, and BROW for histopathology. The experimental results demonstrate that the EFCM framework significantly improves accuracy and efficiency in handling slide-level pathological image problems, effectively addressing the challenges of deploying large medical models. Specifically, it achieves a 4.33% increase in ACC and a 5.2% increase in AUC compared to the large model BROW on the TCGA-NSCLC and TCGA-BRCA datasets. The analysis of model inference efficiency highlights the high efficiency of the distillation fine-tuning method.
翻訳日:2024-09-19 18:34:01 公開日:2024-09-18
# 6DoFオブジェクトポス推定のためのエンドツーエンド確率的幾何誘導回帰

End-to-End Probabilistic Geometry-Guided Regression for 6DoF Object Pose Estimation ( http://arxiv.org/abs/2409.11819v1 )

ライセンス: Link先を確認
Thomas Pöllabauer, Jiayin Li, Volker Knauthe, Sarah Berkei, Arjan Kuijper, (参考訳) 6Dオブジェクトのポーズ推定は、現在のXRアプリケーションにおける中核技術である、選択された座標系に対するオブジェクトの位置と向きを特定する問題である。 最先端の6Dオブジェクトのポーズ推定器は、オブジェクト観察によってオブジェクトのポーズを直接予測する。 複数の異なるポーズが単一の観測に対応できるポーズ推定問題の誤った性質のため、観測毎に付加可能な推定値を生成することは有用である。 そこで我々は,最先端アルゴリズムであるGDRNPPを改訂し,EPRO-GDR(End-to-End Probabilistic Geometry-Guided Regression)を導入する。 検出毎に1つのポーズを予測する代わりに、ポーズの確率密度分布を推定する。 BOP (Benchmark for 6D Object Pose Estimation) Challenge を用いて,その中核となる4つのデータセットに対するアプローチを検証し, LM-O, YCB-V, ITODD上のEPRO-GDRに対して優れた定量的結果を示す。 我々の確率論的解は、ポーズ分布を1つのポーズではなく予測することで、複数の意味のあるポーズ候補をサンプリングできる付加的な利点を提供しながら、最先端のシングルビューポーズ推定を改善することができることを示している。

6D object pose estimation is the problem of identifying the position and orientation of an object relative to a chosen coordinate system, which is a core technology for modern XR applications. State-of-the-art 6D object pose estimators directly predict an object pose given an object observation. Due to the ill-posed nature of the pose estimation problem, where multiple different poses can correspond to a single observation, generating additional plausible estimates per observation can be valuable. To address this, we reformulate the state-of-the-art algorithm GDRNPP and introduce EPRO-GDR (End-to-End Probabilistic Geometry-Guided Regression). Instead of predicting a single pose per detection, we estimate a probability density distribution of the pose. Using the evaluation procedure defined by the BOP (Benchmark for 6D Object Pose Estimation) Challenge, we test our approach on four of its core datasets and demonstrate superior quantitative results for EPRO-GDR on LM-O, YCB-V, and ITODD. Our probabilistic solution shows that predicting a pose distribution instead of a single pose can improve state-of-the-art single-view pose estimation while providing the additional benefit of being able to sample multiple meaningful pose candidates.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# 家具産業におけるジョブショップスケジューリングの最適化:マシンセットアップ,バッチ可変性,およびイントラロジクスを考慮した強化学習アプローチ

Optimizing Job Shop Scheduling in the Furniture Industry: A Reinforcement Learning Approach Considering Machine Setup, Batch Variability, and Intralogistics ( http://arxiv.org/abs/2409.11820v1 )

ライセンス: Link先を確認
Malte Schneevogt, Karsten Binninger, Noah Klarmann, (参考訳) 本稿では,家具産業におけるDeep Reinforcement Learningの活用の可能性について考察する。 幅広い製品ポートフォリオを提供するため、ほとんどの家具メーカーはジョブショップとして組織されており、最終的にジョブショップスケジューリング問題(JSSP)に繋がる。 JSSPは、現実世界の運用環境の複雑さをよりよく表現するために、従来のモデルを拡張することに重点を置いている。 既存のアプローチでは、マシンの設定時間やバッチサイズの変化など、重要な要素を考慮できないことが多い。 スケジューリングの精度と効率を向上させるために,より詳細な情報を提供するモデルの概念を提案する。 この概念はDRLを生産計画に統合することを導入しており、特に家具産業のようなバッチ生産産業に向いている。 このモデルは、ジョブボリューム、バッファ管理、輸送時間、マシンセットアップ時間を含む、JSSPへの従来のアプローチを拡張している。 これにより、生産フローとプロセスのより正確な予測と分析が可能になり、実世界の製造プロセスに固有の変動性と複雑さを調節することができる。 RLエージェントはスケジューリング決定の最適化を学ぶ。 個別の行動空間内で動作し、詳細な観察に基づいて決定を行う。 報酬関数は、エージェントの意思決定プロセスをガイドし、効率的なスケジューリングと生産期限の達成を促進する。 RL エージェントの実装には,低自動環境に適したエピソード計画と高自動プラントに適した継続的計画という2つの統合戦略が論じられている。 エピソードプランニングはスタンドアロンのソリューションとして使用できるが、継続的プランニングアプローチでは、エージェントをERPと製造実行システムに統合する必要がある。 この統合により、動的変更に基づいた実運用スケジュールのリアルタイム調整が可能になる。

This paper explores the potential application of Deep Reinforcement Learning in the furniture industry. To offer a broad product portfolio, most furniture manufacturers are organized as a job shop, which ultimately results in the Job Shop Scheduling Problem (JSSP). The JSSP is addressed with a focus on extending traditional models to better represent the complexities of real-world production environments. Existing approaches frequently fail to consider critical factors such as machine setup times or varying batch sizes. A concept for a model is proposed that provides a higher level of information detail to enhance scheduling accuracy and efficiency. The concept introduces the integration of DRL for production planning, particularly suited to batch production industries such as the furniture industry. The model extends traditional approaches to JSSPs by including job volumes, buffer management, transportation times, and machine setup times. This enables more precise forecasting and analysis of production flows and processes, accommodating the variability and complexity inherent in real-world manufacturing processes. The RL agent learns to optimize scheduling decisions. It operates within a discrete action space, making decisions based on detailed observations. A reward function guides the agent's decision-making process, thereby promoting efficient scheduling and meeting production deadlines. Two integration strategies for implementing the RL agent are discussed: episodic planning, which is suitable for low-automation environments, and continuous planning, which is ideal for highly automated plants. While episodic planning can be employed as a standalone solution, the continuous planning approach necessitates the integration of the agent with ERP and Manufacturing Execution Systems. This integration enables real-time adjustments to production schedules based on dynamic changes.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# ディープラーニングシステムにおける自己充足型技術的負債の分類

A Taxonomy of Self-Admitted Technical Debt in Deep Learning Systems ( http://arxiv.org/abs/2409.11826v1 )

ライセンス: Link先を確認
Federica Pepe, Fiorella Zampetti, Antonio Mastropaolo, Gabriele Bavota, Massimiliano Di Penta, (参考訳) 機械学習(ML)-および最近では、ディープラーニング(DL)集約システムの開発には、技術、アルゴリズム、ハイパーパラメータといった適切な選択が必要である。 このような選択は、適切な実験だけでなく、開発者の経験にも依存します。 タイムアベイラビリティが制限されているため、開発者は、時に一時的な選択を最適化して、特にMLコードに関連する技術的負債(TD)を発生させることができる。 本稿では,DLシステムにおけるSATD(Self-Admitted Technical Debt)の存在を実証的に分析する。 人気のあるDLフレームワークを使って100のオープンソースPythonプロジェクトを選択した後、ソースコメントからSATDを特定し、手動で分析するために443のSATDの階層化されたサンプルを作成しました。 オープンコーディングにより, DL特異的SATDの分類を導出し, 7つのカテゴリと41の葉を特徴とした。 SATDカテゴリはDLモデルの異なる側面に関係しており、その一部は技術(例えば、ハードウェアやライブラリ)であり、DLプロセス、モデルの使用方法、構成における最適以下の選択に関係している。 以上の結果から, DL特異的SATDは, 機能的(排卵阻害)問題ではなく, 最適解に関係していることが示唆された。 最後に、最先端の静的解析ツールは、開発者がそのような問題を避けるのに役に立たないので、DL固有のSATDに対処するためには、特定のサポートが必要です。

The development of Machine Learning (ML)- and, more recently, of Deep Learning (DL)-intensive systems requires suitable choices, e.g., in terms of technology, algorithms, and hyper-parameters. Such choices depend on developers' experience, as well as on proper experimentation. Due to limited time availability, developers may adopt suboptimal, sometimes temporary choices, leading to a technical debt (TD) specifically related to the ML code. This paper empirically analyzes the presence of Self-Admitted Technical Debt (SATD) in DL systems. After selecting 100 open-source Python projects using popular DL frameworks, we identified SATD from their source comments and created a stratified sample of 443 SATD to analyze manually. We derived a taxonomy of DL-specific SATD through open coding, featuring seven categories and 41 leaves. The identified SATD categories pertain to different aspects of DL models, some of which are technological (e.g., due to hardware or libraries) and some related to suboptimal choices in the DL process, model usage, or configuration. Our findings indicate that DL-specific SATD differs from DL bugs found in previous studies, as it typically pertains to suboptimal solutions rather than functional (\eg blocking) problems. Last but not least, we found that state-of-the-art static analysis tools do not help developers avoid such problems, and therefore, specific support is needed to cope with DL-specific SATD.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# Extract-and-Abstract: Single Encoder-Decoder Framework内での抽出と抽象の要約を統一する

Extract-and-Abstract: Unifying Extractive and Abstractive Summarization within Single Encoder-Decoder Framework ( http://arxiv.org/abs/2409.11827v1 )

ライセンス: Link先を確認
Yuping Wu, Hao Li, Hongbo Zhu, Goran Nenadic, Xiao-Jun Zeng, (参考訳) Extract-then-Abstractは、抽出モデルによって識別された有能な情報の助けを借りて抽象的な要約を行う自然なコヒーレントなパラダイムである。 このパラダイムを採用する以前の作業は、抽出器と抽象器を別々に訓練し、抽出した塩分を抽象器に強調するために余分なパラメータを導入し、エラー蓄積と追加の訓練コストをもたらす。 本稿では、まず、エンコーダ・デコーダ・フレームワークにパラメータフリーハイライト手法を導入し、エンコーダ・アテンダ・マスクをクロスアテンションモジュールのサリエンシ・マスクに置き換え、デコーダを入力のサリエント部分にのみフォーカスするように強制する。 予備分析では,サリエンシマスクの有効性を実証し,異なるハイライト手法を比較した。 さらに,単一エンコーダ・デコーダモデルにおける抽出および抽象的要約タスクを協調的かつシームレスに実行し,エラーの蓄積を低減する新しい抽出・抽出パラダイムExtAbsを提案する。 ExtAbsでは、バニラエンコーダを増設して塩分を抽出し、バニラデコーダを提案された塩分マスクで修正してサマリーを生成する。 BARTとPEGASUSをベースとした3つのデータセットの実験では、ExtAbsは抽出タスクのベースラインよりも優れたパフォーマンスを達成でき、抽象タスクのバニラモデルよりも同等か、さらに優れていることが示されている。

Extract-then-Abstract is a naturally coherent paradigm to conduct abstractive summarization with the help of salient information identified by the extractive model. Previous works that adopt this paradigm train the extractor and abstractor separately and introduce extra parameters to highlight the extracted salients to the abstractor, which results in error accumulation and additional training costs. In this paper, we first introduce a parameter-free highlight method into the encoder-decoder framework: replacing the encoder attention mask with a saliency mask in the cross-attention module to force the decoder to focus only on salient parts of the input. A preliminary analysis compares different highlight methods, demonstrating the effectiveness of our saliency mask. We further propose the novel extract-and-abstract paradigm, ExtAbs, which jointly and seamlessly performs Extractive and Abstractive summarization tasks within single encoder-decoder model to reduce error accumulation. In ExtAbs, the vanilla encoder is augmented to extract salients, and the vanilla decoder is modified with the proposed saliency mask to generate summaries. Built upon BART and PEGASUS, experiments on three datasets show that ExtAbs can achieve superior performance than baselines on the extractive task and performs comparable, or even better than the vanilla models on the abstractive task.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# RaggeDi:拡散に基づく障害ラグ,シート,タオル,ブランケットの状態推定

RaggeDi: Diffusion-based State Estimation of Disordered Rags, Sheets, Towels and Blankets ( http://arxiv.org/abs/2409.11831v1 )

ライセンス: Link先を確認
Jikai Ye, Wanze Li, Shiraz Khan, Gregory S. Chirikjian, (参考訳) 衣服の状態推定はロボット工学において重要な問題である。 ロボットは、布を操り、ロボットドレッシング、縫製、隠蔽・発見といったタスクを実行するために、正確な状態を知ることが不可欠である。 しかし、高い柔軟性と自己排他性のため、正確な布の状態推定は難しいままである。 本稿では,布の状態推定を画像生成問題として定式化した拡散モデルに基づくパイプラインを提案する。 次に,条件付き拡散に基づく画像生成モデルを訓練し,観測結果に基づいて翻訳マップを予測する。 シミュレーションと実世界の両方で実験を行い,本手法の性能評価を行った。 その結果,本手法は精度と速度の両面で2つの手法より優れていることがわかった。

Cloth state estimation is an important problem in robotics. It is essential for the robot to know the accurate state to manipulate cloth and execute tasks such as robotic dressing, stitching, and covering/uncovering human beings. However, estimating cloth state accurately remains challenging due to its high flexibility and self-occlusion. This paper proposes a diffusion model-based pipeline that formulates the cloth state estimation as an image generation problem by representing the cloth state as an RGB image that describes the point-wise translation (translation map) between a pre-defined flattened mesh and the deformed mesh in a canonical space. Then we train a conditional diffusion-based image generation model to predict the translation map based on an observation. Experiments are conducted in both simulation and the real world to validate the performance of our method. Results indicate that our method outperforms two recent methods in both accuracy and speed.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# 一般化2レベルモデルによる真空対生成のためのスピン分解運動量スペクトル

Spin resolved momentum spectra for vacuum pair production via a generalized two level model ( http://arxiv.org/abs/2409.11833v1 )

ライセンス: Link先を確認
Orkash Amat, Hong-Hao Fan, Suo Tang, Yong-Feng Huang, Bai-Song Xie, (参考訳) 多次元時間依存電場におけるペア生成の研究のための一般化された2レベルモデルを構築した。 粒子と反粒子の全ての可能なスピン状態に対して、完全にスピン分解された成分を持つ運動量スペクトルを提供することができる。 さらに,2段階のフェルミオンモデル(スカラー粒子)の有効性についても検討し,同時期のディラック=ハイゼンベルク=ウィグナー形式(フェシュバッハ=ビラース=ハイゼンベルク=ウィグナー形式)との比較を行った。 結果は互いに一致していることが判明し、2レベルモデルの良好な近似が示唆された。 特に、2レベルモデルでは、粒子と反粒子のスピン状態が$S=1$と平行であるとき、粒子運動量スペクトルの寄与が最も大きい。 この2レベルモデルにより、徐々に変化する空間的時間的要因など、より異なる背景領域に対するペア生成の研究を拡張できると考えられている。 他にも、生成した対の分布関数の位相特徴に含まれるスピン解離渦構造を含む多くの興味深い現象が明らかになる。

We have formulated a generalized two level model for studying the pair production in multidimensional time-dependent electric fields. It can provide momentum spectra with fully spin resolved components for all possible combined spin states of the particle and anti-particle simultaneously. Moreover, we have also investigated the validity of the two level model for fermions (scalar particles) by comparing the results with those by equal-time Dirac-Heisenberg-Wigner (Feshbach-Villars-Heisenberg-Wigner) formalism in different regimes of pair creation, i.e., multiphoton and tunneling dominated mechanisms. It is found that the results are consistent with each other, indicating the good approximation of the two level model. In particular, in terms of the two level model, we found that the contribution of the particle momentum spectra is the greatest when the spin states of the particle and anti-particle are parallel with $S=1$. It is believed that by this two level model one can extend researches on pair production for more different background fields, such as a slowly varying spatial-temporal one. Many other interesting phenomena may also be revealed, including the spin-resolved vortex structure that is contained in the phase feature of the distribution function of the created pairs.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# DPI-TTS:テキスト音声における高速収束とスタイル時間モデリングのための方向的パッチインタラクション

DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech ( http://arxiv.org/abs/2409.11835v1 )

ライセンス: Link先を確認
Xin Qi, Ruibo Fu, Zhengqi Wen, Tao Wang, Chunyu Qiang, Jianhua Tao, Chenxing Li, Yi Lu, Shuchen Shi, Zhiyong Wang, Xiaopeng Wang, Yuankun Xie, Yukun Liu, Xuefei Liu, Guanjun Li, (参考訳) 近年,音声拡散モデルが急速に進展している。 広く使われているU-Netアーキテクチャに加えて、Diffusion Transformer (DiT)のようなトランスフォーマーベースのモデルも注目されている。 しかし、現在のDiT音声モデルは、メルスペクトルを一般画像として扱い、音声の特定の音響特性を見落としている。 このような制約に対処するため,DPI-TTS (Directional Patch Interaction for Text-to-Speech) という手法を提案する。 特に、DPI-TTSは低周波数・フレーム単位のプログレッシブ推論アプローチを採用し、音響特性とより密に一致させ、生成した音声の自然性を高める。 さらに、話者スタイルの類似性をさらに向上する、きめ細かいスタイルの時間的モデリング手法を提案する。 実験により,本手法はトレーニング速度を約2倍に向上し,ベースラインモデルよりも大幅に向上することが示された。

In recent years, speech diffusion models have advanced rapidly. Alongside the widely used U-Net architecture, transformer-based models such as the Diffusion Transformer (DiT) have also gained attention. However, current DiT speech models treat Mel spectrograms as general images, which overlooks the specific acoustic properties of speech. To address these limitations, we propose a method called Directional Patch Interaction for Text-to-Speech (DPI-TTS), which builds on DiT and achieves fast training without compromising accuracy. Notably, DPI-TTS employs a low-to-high frequency, frame-by-frame progressive inference approach that aligns more closely with acoustic properties, enhancing the naturalness of the generated speech. Additionally, we introduce a fine-grained style temporal modeling method that further improves speaker style similarity. Experimental results demonstrate that our method increases the training speed by nearly 2 times and significantly outperforms the baseline models.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# NT-ViT:脳波からfMRI合成のためのニューラルトランスコーディングビジョン変換器

NT-ViT: Neural Transcoding Vision Transformers for EEG-to-fMRI Synthesis ( http://arxiv.org/abs/2409.11836v1 )

ライセンス: Link先を確認
Romeo Lanzino, Federico Fontana, Luigi Cinque, Francesco Scarcello, Atsuto Maki, (参考訳) 本稿では,脳波同時計測(EEG)データから高分解能機能型磁気共鳴イメージング(fMRI)サンプルを推定するための生成モデルであるニューラルトランスコーディングビジョントランスフォーマ(\modelname)を提案する。 ドメインマッチング(DM)サブモジュールは、潜在するEEG表現とfMRIボリュームの表現を効果的に整合させ、モデルの精度と信頼性を高める。 画像の忠実さと再現性に苦しむ従来の方法とは異なり、 \modelnameは2つのベンチマークデータセットで広く評価することで、方法論的整合性と高品質な再構築を保証することでこれらの課題に対処する。 アブレーション調査はまた、モデル全体の有効性に対する各コンポーネントの貢献に関する洞察を提供する。 この開発は、一般的に高解像度の脳画像と結びつく時間と金銭的制約を減らし、神経疾患の迅速かつ正確な診断を支援する新しいアプローチを提供する上で重要である。 これは実際のfMRIの代替ではなく、そのような画像をよりアクセスしやすいものにするための一歩であるが、臨床および神経科学研究における重要な進歩であると考えている。 コードは \url{https://github.com/rom42pla/ntvit} で入手できる。

This paper introduces the Neural Transcoding Vision Transformer (\modelname), a generative model designed to estimate high-resolution functional Magnetic Resonance Imaging (fMRI) samples from simultaneous Electroencephalography (EEG) data. A key feature of \modelname is its Domain Matching (DM) sub-module which effectively aligns the latent EEG representations with those of fMRI volumes, enhancing the model's accuracy and reliability. Unlike previous methods that tend to struggle with fidelity and reproducibility of images, \modelname addresses these challenges by ensuring methodological integrity and higher-quality reconstructions which we showcase through extensive evaluation on two benchmark datasets; \modelname outperforms the current state-of-the-art by a significant margin in both cases, e.g. achieving a $10\times$ reduction in RMSE and a $3.14\times$ increase in SSIM on the Oddball dataset. An ablation study also provides insights into the contribution of each component to the model's overall effectiveness. This development is critical in offering a new approach to lessen the time and financial constraints typically linked with high-resolution brain imaging, thereby aiding in the swift and precise diagnosis of neurological disorders. Although it is not a replacement for actual fMRI but rather a step towards making such imaging more accessible, we believe that it represents a pivotal advancement in clinical practice and neuroscience research. Code is available at \url{https://github.com/rom42pla/ntvit}.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# クラメール・ラオのアプローチとボゾン状態のグローバル量子推定

The Cramér-Rao approach and global quantum estimation of bosonic states ( http://arxiv.org/abs/2409.11842v1 )

ライセンス: Link先を確認
Masahito Hayashi, Yingkai Ouyang, (参考訳) 量子状態推定は量子情報理論の基本的な課題であり、量子状態の族に連続的に埋め込まれた実パラメータを推定する。 量子状態推定の理論において、局所的な推定を考慮に入れた広く使われているCram\'er Raoアプローチは、量子フィッシャー情報の観点からの量子状態推定の究極の精度境界を与える。 しかし、実際のシナリオでは、推定されるパラメータに関する事前情報を提供する必要はなく、局所的な推定設定を適用する必要もない。 一般に、Clam\'er-Raoアプローチが局所的推定ではなく大域的推定に当てはまるかどうかは不明である。 本稿では,非IID条件下でのボソニック状態の族を含む量子状態推定問題に対して,Cram\'er-Rao 法が有効ではなく,多数のボソン条件でボソニック量子状態のコピーを1つだけ使用する場合について述べる。 この結果から,Clam\'er-Rao 法の結果をグローバルな推定条件に当てはめる際に,注意すべき点が浮き彫りにされた。

Quantum state estimation is a fundamental task in quantum information theory, where one estimates real parameters continuously embedded in a family of quantum states. In the theory of quantum state estimation, the widely used Cram\'er Rao approach which considers local estimation gives the ultimate precision bound of quantum state estimation in terms of the quantum Fisher information. However practical scenarios need not offer much prior information about the parameters to be estimated, and the local estimation setting need not apply. In general, it is unclear whether the Cram\'er-Rao approach is applicable for global estimation instead of local estimation. In this paper, we find situations where the Cram\'er-Rao approach does and does not work for quantum state estimation problems involving a family of bosonic states in a non-IID setting, where we only use one copy of the bosonic quantum state in the large number of bosons setting. Our result highlights the importance of caution when using the results of the Cram\'er-Rao approach to extrapolate to the global estimation setting.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# GNN-SPIB(Graph Neural Network-State Predictive Information Bottleneck)アプローチによる分子熱力学と動力学の学習

Graph Neural Network-State Predictive Information Bottleneck (GNN-SPIB) approach for learning molecular thermodynamics and kinetics ( http://arxiv.org/abs/2409.11843v1 )

ライセンス: Link先を確認
Ziyue Zou, Dedi Wang, Pratyush Tiwary, (参考訳) 分子動力学シミュレーションは原子運動に関する詳細な洞察を提供するが、時間スケールの制限はない。 強化されたサンプリング手法はこれらの課題に対処してきたが、機械学習でさえ、事前に選択された専門家ベースの機能に依存していることが多い。 本研究では,グラフニューラルネットワークと State Predictive Information Bottleneck を組み合わせて,原子座標から直接低次元表現を自動的に学習する Graph Neural Network-State Predictive Information Bottleneck (GNN-SPIB) フレームワークを提案する。 提案手法は,3つのベンチマークシステムで検証し,低速プロセスに必須な構造,熱力学,動力学的情報を予測し,多様なシステムにまたがる堅牢性を実証する。 この手法は複雑なシステムに対して有望であり、事前に定義された反応座標や入力特徴を必要としない効果的なサンプリングを可能にする。

Molecular dynamics simulations offer detailed insights into atomic motions but face timescale limitations. Enhanced sampling methods have addressed these challenges but even with machine learning, they often rely on pre-selected expert-based features. In this work, we present the Graph Neural Network-State Predictive Information Bottleneck (GNN-SPIB) framework, which combines graph neural networks and the State Predictive Information Bottleneck to automatically learn low-dimensional representations directly from atomic coordinates. Tested on three benchmark systems, our approach predicts essential structural, thermodynamic and kinetic information for slow processes, demonstrating robustness across diverse systems. The method shows promise for complex systems, enabling effective enhanced sampling without requiring pre-defined reaction coordinates or input features.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# メモリー監督のLLMアンラーニング(動画あり)

MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts ( http://arxiv.org/abs/2409.11844v1 )

ライセンス: Link先を確認
Tianle Gu, Kexin Huang, Ruilin Luo, Yuanqi Yao, Yujiu Yang, Yan Teng, Yingchun Wang, (参考訳) 大きな言語モデル(LLM)は機密情報を記憶し、潜在的な誤用に対する懸念を引き起こす。 LLM Unlearningは、トレーニングされたLSMからこの情報を除去するポストホックなアプローチで、これらのリスクを軽減するための有望なソリューションを提供する。 しかし、以前のプラクティスは3つの大きな課題に直面しています。 1. 実用性: 未学習の成功は、無関係なタスクに対して壊滅的な崩壊を引き起こすことが多い。 2. 効率性:多くのメソッドは、学習や推論を遅くする同様のサイズのモデルを追加するか、取得が困難なデータを保持する必要がある。 3.ロバスト性: 効果的な方法でさえも、抽出技術を介してデータをリークする可能性がある。 これらの課題に対処するため,簡単な勾配降下に基づくアンラーニング手法であるMEOWを提案する。 具体的には、オフラインのLCMを使用して、反転した事実の集合を生成する。 次に,LLMにおける記憶の定量化のための新しい指標MEMOを設計する。 最後に、MEMOの提供する信号に基づいて、最も適切な倒立事実の集合を選択し、それらに基づいてモデルを微調整する。 我々は、Llama2-7B-Chat と Phi-1.5B を用いて、一般に使われている未学習のベンチマークであるToFUでMEOWを評価し、NLU と NLG のタスクでテストした。 その結果、モデルユーティリティーの大幅な損失を伴わずに、品質を忘れることにおけるMEOWの大幅な改善が示された。 一方 MEOW は NLU や NLG の能力を著しく低下させておらず,NLU の性能も若干改善されている。

Large Language Models (LLMs) can memorize sensitive information, raising concerns about potential misuse. LLM Unlearning, a post-hoc approach to remove this information from trained LLMs, offers a promising solution to mitigate these risks. However, previous practices face three key challenges: 1. Utility: successful unlearning often causes catastrophic collapse on unrelated tasks. 2. Efficiency: many methods either involve adding similarly sized models, which slows down unlearning or inference, or require retain data that are difficult to obtain. 3. Robustness: even effective methods may still leak data via extraction techniques. To address these challenges, we propose MEOW, a simple yet effective gradient descent-based unlearning method. Specifically, we use an offline LLM to generate a set of inverted facts. Then, we design a new metric, MEMO, to quantify memorization in LLMs. Finally, based on the signals provided by MEMO, we select the most appropriate set of inverted facts and finetune the model based on them. We evaluate MEOW on the commonly used unlearn benchmark, ToFU, with Llama2-7B-Chat and Phi-1.5B, and test it on both NLU and NLG tasks. Results demonstrate significant improvement of MEOW in forget quality without substantial loss in model utility. Meanwhile, MEOW does not exhibit significant degradation in NLU or NLG capabilities, and there is even a slight improvement in NLU performance.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# 医療機器におけるプライバシー影響評価のための法に基づく標準的アプローチ--MedTechの弁護士、技術者、医療実践者を対象として

Law-based and standards-oriented approach for privacy impact assessment in medical devices: a topic for lawyers, engineers and healthcare practitioners in MedTech ( http://arxiv.org/abs/2409.11845v1 )

ライセンス: Link先を確認
Yuri R. Ladeia, David M. Pereira, (参考訳) 背景: 一般データ保護規則(GDPR)と医療機器規制(MDR)の統合は、医療機器に対するデータ保護影響評価(DPIA)を実施する際の複雑さを生じさせる。 ISOやIECのような非バインディング標準の採用は、設計による説明責任とプライバシを高めることで、これらのプロセスを調和させることができる。 方法:本研究は、個人健康データを処理する医療機器におけるGDPRとMDRの交差に着目した、多分野の文献レビューを用いている。 ISO/IEC 29134 や IEC 62304 といった主要な標準を評価し、法的および技術的な枠組みに沿ったDPIAの統一的なアプローチを提案する。 結果:ISO/IEC標準をDPIAに統合することで,医療機器に特有のプライバシ・バイ・プライバシ・アセスメント,リスクアセスメント,緩和戦略の詳細な指針が得られた。 このフレームワークは、DPIAが生きたドキュメントであり、進化するデータ保護の課題に適応するために継続的に更新されることを保証する。 結論:欧州連合(EU)の規制と国際標準を組み合わせた統一的なアプローチは、医療機器でDPIAを実施するための堅牢な枠組みを提供する。 この統合は、セキュリティ、イノベーション、プライバシのバランスをとり、コンプライアンスを強化し、医療技術の信頼を高める。 この研究は、医療機器の設計と運用におけるプライバシーと安全性を体系的に扱うために、ハード法と標準の両方を活用することを提唱し、それによってMedTechエコシステムの成熟度を高める。

Background: The integration of the General Data Protection Regulation (GDPR) and the Medical Device Regulation (MDR) creates complexities in conducting Data Protection Impact Assessments (DPIAs) for medical devices. The adoption of non-binding standards like ISO and IEC can harmonize these processes by enhancing accountability and privacy by design. Methods: This study employs a multidisciplinary literature review, focusing on GDPR and MDR intersection in medical devices that process personal health data. It evaluates key standards, including ISO/IEC 29134 and IEC 62304, to propose a unified approach for DPIAs that aligns with legal and technical frameworks. Results: The analysis reveals the benefits of integrating ISO/IEC standards into DPIAs, which provide detailed guidance on implementing privacy by design, risk assessment, and mitigation strategies specific to medical devices. The proposed framework ensures that DPIAs are living documents, continuously updated to adapt to evolving data protection challenges. Conclusions: A unified approach combining European Union (EU) regulations and international standards offers a robust framework for conducting DPIAs in medical devices. This integration balances security, innovation, and privacy, enhancing compliance and fostering trust in medical technologies. The study advocates for leveraging both hard law and standards to systematically address privacy and safety in the design and operation of medical devices, thereby raising the maturity of the MedTech ecosystem.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# 単一摂動問題に対する効率的なウェーブレットに基づく物理インフォームドニューラルネットワーク

An efficient wavelet-based physics-informed neural networks for singularly perturbed problems ( http://arxiv.org/abs/2409.11847v1 )

ライセンス: Link先を確認
Himanshu Pandey, Anshima Singh, Ratikanta Behera, (参考訳) 物理インフォームドニューラルネットワーク(英: Physics-informed Neural Network, PINN)は、物理を微分方程式として利用して複雑な問題に対処する深層学習モデルである。 しかし、振動や特異摂動や衝撃のような構造を持つ微分方程式の解に取り組むことは、PINNにとって困難である。 これらの課題を考慮し、単一摂動微分方程式を解くために、効率的なウェーブレットベースPINN(W-PINN)モデルを設計した。 ここでは、スムーズでコンパクトに支持されたウェーブレットの族を用いて、ウェーブレット空間における解を表す。 この枠組みは、複雑な物理現象の局所構造を捕捉、同定、解析し続けながら、はるかに少ない自由度を持つ微分方程式の解を表す。 このアーキテクチャにより、トレーニングプロセスはウェーブレット空間内のソリューションを探索することができ、プロセスがより速く、より正確になる。 提案モデルは微分方程式に係わる微分の微分に依存せず、急激な特徴の位置などの解の挙動に関する事前情報を必要としない。 したがって、PINNとウェーブレットを戦略的に融合させることにより、W-PINNは局所的な非線形情報を取得するのに優れ、特異摂動問題など特定の領域における急激な振る舞いを示す問題に適している。 提案したニューラルネットワークモデルの効率性と精度は、高特異な摂動非線形微分方程式、FitzHugh-Nagumo (FHN)、Predator-prey相互作用モデルなど、様々なテスト問題で実証される。 提案した設計モデルは, 非線形微分方程式の解法としてウェーブレットを活性化関数として用いた, 従来のPINNと最近開発されたウェーブレットベースPINNとの印象的な比較を示す。

Physics-informed neural networks (PINNs) are a class of deep learning models that utilize physics as differential equations to address complex problems, including ones that may involve limited data availability. However, tackling solutions of differential equations with oscillations or singular perturbations and shock-like structures becomes challenging for PINNs. Considering these challenges, we designed an efficient wavelet-based PINNs (W-PINNs) model to solve singularly perturbed differential equations. Here, we represent the solution in wavelet space using a family of smooth-compactly supported wavelets. This framework represents the solution of a differential equation with significantly fewer degrees of freedom while still retaining in capturing, identifying, and analyzing the local structure of complex physical phenomena. The architecture allows the training process to search for a solution within wavelet space, making the process faster and more accurate. The proposed model does not rely on automatic differentiations for derivatives involved in differential equations and does not require any prior information regarding the behavior of the solution, such as the location of abrupt features. Thus, through a strategic fusion of wavelets with PINNs, W-PINNs excel at capturing localized nonlinear information, making them well-suited for problems showing abrupt behavior in certain regions, such as singularly perturbed problems. The efficiency and accuracy of the proposed neural network model are demonstrated in various test problems, i.e., highly singularly perturbed nonlinear differential equations, the FitzHugh-Nagumo (FHN), and Predator-prey interaction models. The proposed design model exhibits impressive comparisons with traditional PINNs and the recently developed wavelet-based PINNs, which use wavelets as an activation function for solving nonlinear differential equations.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# 非ランベルト環境における物理ベース光束調整

Physically-Based Photometric Bundle Adjustment in Non-Lambertian Environments ( http://arxiv.org/abs/2409.11854v1 )

ライセンス: Link先を確認
Lei Cheng, Junpeng Hu, Haodong Yan, Mariia Gladkova, Tianyu Huang, Yun-Hui Liu, Daniel Cremers, Haoang Li, (参考訳) 光度バンドル調整(PBA)は、ランベルトの世界を仮定してカメラのポーズと3次元幾何学を推定するのに広く用いられる。 しかし、非拡散反射は実環境において一般的であるため、光度一貫性の仮定はしばしば違反する。 光度不整合は既存のPBA法の信頼性に大きく影響する。 そこで本研究では,物理量に基づく新しいPBA法を提案する。 具体的には,物質,照明,光路に関する物理量について紹介する。 これらの重みは、異なるレベルの測光不整合を持つ画素対を区別する。 また、逐次画像に基づく材料推定と点雲に基づく照明推定の対応モデルも設計する。 さらに,照明と素材の完全な真実を具現化した,非ランベルトシーンのSLAM関連データセットを初めて確立した。 PBA法は既存の手法よりも精度が高いことを示した。

Photometric bundle adjustment (PBA) is widely used in estimating the camera pose and 3D geometry by assuming a Lambertian world. However, the assumption of photometric consistency is often violated since the non-diffuse reflection is common in real-world environments. The photometric inconsistency significantly affects the reliability of existing PBA methods. To solve this problem, we propose a novel physically-based PBA method. Specifically, we introduce the physically-based weights regarding material, illumination, and light path. These weights distinguish the pixel pairs with different levels of photometric inconsistency. We also design corresponding models for material estimation based on sequential images and illumination estimation based on point clouds. In addition, we establish the first SLAM-related dataset of non-Lambertian scenes with complete ground truth of illumination and material. Extensive experiments demonstrated that our PBA method outperforms existing approaches in accuracy.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# エッジベースのグラフコンポーネントポーリング

Edge-Based Graph Component Pooling ( http://arxiv.org/abs/2409.11856v1 )

ライセンス: Link先を確認
T. Snelleman, B. M. Renting, H. H. Hoos, J. N. van Rijn, (参考訳) グラフ構造化データは、化学や社会学など、多くの研究分野において自然に発生する。 それに含まれる関係情報は、幾何学的深層学習を通じて統計学的にグラフ特性をモデル化するために利用することができる。 グラフニューラルネットワークは、グラフを通じて局所的な特徴を伝達するために、メッセージパッシング層のようなテクニックを用いる。 しかし、大きなグラフやスパースグラフを扱う場合、メッセージパッシング層は計算コストがかかる可能性がある。 グラフプーリング演算子は、そのようなグラフ内のノードを削除またはマージする可能性を提供し、計算コストを下げる。 しかし、ノードを削除するプーリング演算子はデータ損失を引き起こし、ノードをマージするプーリング演算子は計算コストがかかることが多い。 本稿では,データ損失を生じさせないようにノードをマージするプーリング演算子を提案する。 提案したプール演算子は、4つの人気のあるベンチマークデータセットのエッジプールよりも統計的に有意に優れた性能を示し、時間的複雑さとトレーニング可能なパラメータの数を平均70.6%削減した。 Graph Isomporhic Network(グラフイソポラリックネットワーク)という他の最大出力の手法と比較して、一般的なベンチマークデータセット2つよりも優れており、学習可能なパラメータの数は平均60.9%削減されている。

Graph-structured data naturally occurs in many research fields, such as chemistry and sociology. The relational information contained therein can be leveraged to statistically model graph properties through geometrical deep learning. Graph neural networks employ techniques, such as message-passing layers, to propagate local features through a graph. However, message-passing layers can be computationally expensive when dealing with large and sparse graphs. Graph pooling operators offer the possibility of removing or merging nodes in such graphs, thus lowering computational costs. However, pooling operators that remove nodes cause data loss, and pooling operators that merge nodes are often computationally expensive. We propose a pooling operator that merges nodes so as not to cause data loss but is also conceptually simple and computationally inexpensive. We empirically demonstrate that the proposed pooling operator performs statistically significantly better than edge pool on four popular benchmark datasets while reducing time complexity and the number of trainable parameters by 70.6% on average. Compared to another maximally powerful method named Graph Isomporhic Network, we show that we outperform them on two popular benchmark datasets while reducing the number of learnable parameters on average by 60.9%.
翻訳日:2024-09-19 18:23:34 公開日:2024-09-18
# 畳み込み層のスペクトルノルムの厚さと有効上界

Tight and Efficient Upper Bound on Spectral Norm of Convolutional Layers ( http://arxiv.org/abs/2409.11859v1 )

ライセンス: Link先を確認
Ekaterina Grishina, Mikhail Gorbunov, Maxim Rakhuba, (参考訳) 畳み込み演算に関連するヤコビ行列のスペクトルノルムの制御は、CNNの一般化、訓練安定性、堅牢性を改善することが示されている。 既存の計算法では、入力やカーネルのサイズが大きくなるにつれて、その性能が急速に悪化する傾向にある。 本稿では,4次元畳み込みカーネルのスペクトルノルムのテンソルバージョンが,畳み込み演算に関連するヤコビ行列のスペクトルノルムの上界として機能することを実証する。 この新たな上限は、入力画像解像度とは独立であり、微分可能であり、訓練中に効率的に計算することができる。 実験を通じて、この新たなバウンダリが、畳み込みアーキテクチャの性能向上にどのように役立つかを実証する。

Controlling the spectral norm of the Jacobian matrix, which is related to the convolution operation, has been shown to improve generalization, training stability and robustness in CNNs. Existing methods for computing the norm either tend to overestimate it or their performance may deteriorate quickly with increasing the input and kernel sizes. In this paper, we demonstrate that the tensor version of the spectral norm of a four-dimensional convolution kernel, up to a constant factor, serves as an upper bound for the spectral norm of the Jacobian matrix associated with the convolution operation. This new upper bound is independent of the input image resolution, differentiable and can be efficiently calculated during training. Through experiments, we demonstrate how this new bound can be used to improve the performance of convolutional architectures.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# Retrieve, Annotate, Evaluate, Repeat: 大規模製品検索評価のためのマルチモーダルLCMの活用

Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large-Scale Product Retrieval Evaluation ( http://arxiv.org/abs/2409.11860v1 )

ライセンス: Link先を確認
Kasra Hosseini, Thomas Kober, Josip Krapac, Roland Vollgraf, Weiwei Cheng, Ana Peleteiro Ramallo, (参考訳) 大規模な生産レベルの検索システムの評価は、十分に訓練された人間のアノテータの大きなプールが限られているため、非常に難しい課題である。 大きな言語モデル(LLM)は、このスケーリング問題に対処する可能性があり、多くのアノテーションタスクに対して、人間に代わる実行可能な選択肢を提供する。 本稿では,マルチモーダル LLM を利用した大規模eコマース環境における製品検索エンジン評価フレームワークを提案する。 一 個別の問合せのための調整済みのガイドラインを作成すること。 (ii) 後続のアノテーションタスクを実行する。 提案手法は,大規模なeコマースプラットフォームへの展開を通じて検証され,人間のアノテーションに匹敵する品質を示し,時間とコストを大幅に削減し,迅速な問題発見を可能にし,大規模生産レベルの品質管理に有効なソリューションを提供する。

Evaluating production-level retrieval systems at scale is a crucial yet challenging task due to the limited availability of a large pool of well-trained human annotators. Large Language Models (LLMs) have the potential to address this scaling issue and offer a viable alternative to humans for the bulk of annotation tasks. In this paper, we propose a framework for assessing the product search engines in a large-scale e-commerce setting, leveraging Multimodal LLMs for (i) generating tailored annotation guidelines for individual queries, and (ii) conducting the subsequent annotation task. Our method, validated through deployment on a large e-commerce platform, demonstrates comparable quality to human annotations, significantly reduces time and cost, facilitates rapid problem discovery, and provides an effective solution for production-level quality control at scale.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# EV充電サイトの位置に基づく確率的負荷予測:多成分時間畳み込みネットワークを用いた深層移動学習

Location based Probabilistic Load Forecasting of EV Charging Sites: Deep Transfer Learning with Multi-Quantile Temporal Convolutional Network ( http://arxiv.org/abs/2409.11862v1 )

ライセンス: Link先を確認
Mohammad Wazed Ali, Asif bin Mustafa, Md. Aukerul Moin Shuvo, Bernhard Sick, (参考訳) 自動車の電気化は化石燃料の使用を減らし、環境汚染を減らす潜在的方法である。 異なる輸送モード(空気、水、陸地を含む)の様々なタイプの電気自動車(EV)が進化している。 さらに、異なるEVユーザーグループ(通勤者、商業者または国内ユーザー、ドライバー)は、様々な時期に異なる充電インフラ(公共、プライベート、ホーム、職場)を使用することができる。 したがって、使用パターンとエネルギー需要は非常に確率的である。 これらの多様なEV利用プロファイルの充電需要の特性と予測は、停電を防ぐために不可欠である。 これまで開発されたデータ駆動ロードモデルは、特定のユースケースや場所に限定されていた。 いずれのモデルも、さまざまな場所のEV充電サイト間で、日頭予測に関する知識を伝達し、限られたデータで訓練し、コスト効率を上げるのに十分な適応性を持っていない。 本稿では, 従来モデルの限界を克服するために, MQ-TCN (Multi-Quantile Temporal Convolutional Network) を用いたEV充電サイトの位置に基づく負荷予測を行う。 我々は、学生、フルタイム、パートタイム、ランダムビジターなど多様なEVユーザータイプを持つ4つの充電サイト(Caltech、JPL、Office-1、NREL)のデータについて実験を行った。 予測区間被覆確率 (PICP) は93.62 %であり,提案した MQ-TCN モデルでは,JPL 充電場における日頭負荷予測のための XGBoost モデルよりも28.93 % 向上した。 インダクティブトランスファーラーニング(TL)アプローチで知識を伝達することにより、MQ-TCNモデルは、NRELサイトの負荷予測タスクに対して、わずか2週間のデータを使用して96.88.%のPICPスコアを達成した。

Electrification of vehicles is a potential way of reducing fossil fuel usage and thus lessening environmental pollution. Electric Vehicles (EVs) of various types for different transport modes (including air, water, and land) are evolving. Moreover, different EV user groups (commuters, commercial or domestic users, drivers) may use different charging infrastructures (public, private, home, and workplace) at various times. Therefore, usage patterns and energy demand are very stochastic. Characterizing and forecasting the charging demand of these diverse EV usage profiles is essential in preventing power outages. Previously developed data-driven load models are limited to specific use cases and locations. None of these models are simultaneously adaptive enough to transfer knowledge of day-ahead forecasting among EV charging sites of diverse locations, trained with limited data, and cost-effective. This article presents a location-based load forecasting of EV charging sites using a deep Multi-Quantile Temporal Convolutional Network (MQ-TCN) to overcome the limitations of earlier models. We conducted our experiments on data from four charging sites, namely Caltech, JPL, Office-1, and NREL, which have diverse EV user types like students, full-time and part-time employees, random visitors, etc. With a Prediction Interval Coverage Probability (PICP) score of 93.62\%, our proposed deep MQ-TCN model exhibited a remarkable 28.93\% improvement over the XGBoost model for a day-ahead load forecasting at the JPL charging site. By transferring knowledge with the inductive Transfer Learning (TL) approach, the MQ-TCN model achieved a 96.88\% PICP score for the load forecasting task at the NREL site using only two weeks of data.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# 多段階コンタクトリッチマニピュレーションのためのマルチモーダルデモからの学習課題計画

Learning Task Planning from Multi-Modal Demonstration for Multi-Stage Contact-Rich Manipulation ( http://arxiv.org/abs/2409.11863v1 )

ライセンス: Link先を確認
Kejia Chen, Zheng Shen, Yue Zhang, Lingyun Chen, Fan Wu, Zhenshan Bing, Sami Haddadin, Alois Knoll, (参考訳) 大規模言語モデル(LLM)は、長距離操作タスクのタスク計画において人気を集めている。 LLM生成計画の有効性を高めるため、視覚的なデモンストレーションやオンラインビデオが計画プロセスの指針として広く利用されている。 しかし、微妙な動きやリッチな接触相互作用を含む操作タスクでは、視覚的知覚だけでは実演を完全に解釈するには不十分である。 さらに、視覚データは力に関連したパラメータや条件に関する限られた情報を提供しており、実際のロボット上での効果的な実行には不可欠である。 本稿では,人間の実演による触覚情報と力覚情報を組み込んだコンテキスト内学習フレームワークを導入し,LLMが新たなタスクシナリオの計画を生成する能力を向上させる。 本稿では,各モダリティを包括的タスクプランに順次統合するブートストラップ型推論パイプラインを提案する。 このタスクプランは、新しいタスク設定のプランニングのリファレンスとして使用される。 2つの異なるシーケンシャルな操作タスクに関する実世界の実験は、LLMのマルチモーダルな実演理解を改善し、全体的な計画性能を向上させる上で、我々のフレームワークの有効性を実証している。

Large Language Models (LLMs) have gained popularity in task planning for long-horizon manipulation tasks. To enhance the validity of LLM-generated plans, visual demonstrations and online videos have been widely employed to guide the planning process. However, for manipulation tasks involving subtle movements but rich contact interactions, visual perception alone may be insufficient for the LLM to fully interpret the demonstration. Additionally, visual data provides limited information on force-related parameters and conditions, which are crucial for effective execution on real robots. In this paper, we introduce an in-context learning framework that incorporates tactile and force-torque information from human demonstrations to enhance LLMs' ability to generate plans for new task scenarios. We propose a bootstrapped reasoning pipeline that sequentially integrates each modality into a comprehensive task plan. This task plan is then used as a reference for planning in new task configurations. Real-world experiments on two different sequential manipulation tasks demonstrate the effectiveness of our framework in improving LLMs' understanding of multi-modal demonstrations and enhancing the overall planning performance.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# ソフトウェアエンジニアリングにおけるボットと会話エージェントのモチベーション、チャレンジ、ベストプラクティス、メリット

Motivations, Challenges, Best Practices, and Benefits for Bots and Conversational Agents in Software Engineering: A Multivocal Literature Review ( http://arxiv.org/abs/2409.11864v1 )

ライセンス: Link先を確認
Stefano Lambiase, Gemma Catolino, Fabio Palomba, Filomena Ferrucci, (参考訳) ボットとは、特定のプロセス、タスク、アクティビティを自動化することによって、ユーザをサポートするように設計されたソフトウェアシステムである。 このようなシステムがユーザと対話するための会話コンポーネントを実装する場合、会話エージェントとも呼ばれる。 ボット、特に会話指向バージョンとAI駆動のボットは、ソフトウェア開発とエンジニアリングの目的のために、時間とともに採用が増加している。 ジェネレーティブAI(Generative AI)とLarge Language Models(Large Language Models)の出現によって、そのエキサイティングなポテンシャルが強化されたにもかかわらず、実践者は、ボットが改善よりも悪化する可能性のある新たな課題を追加することを報告しているため、開発サイクルに開発と統合するためには、ボットを改善する必要がある。 本研究は,ボットを特徴付けるための分類学と,潜在的な緩和戦略に関連するソフトウェア工学の採用に関する一連の課題の提供を目的としている。 目的を達成するため,多言語文献のレビューを行い,研究と実践者の文献のレビューを行った。 このようなアプローチを通じて、我々は、まず、ソフトウェア工学の目的のためにボットの使用を改善するための一連の研究ルートを提供し、次に、研究分野から実践者への技術と知識の移転を実施するための戦略のリストを提供することで、研究者と実践者の両方に貢献したいと思っています。

Bots are software systems designed to support users by automating a specific process, task, or activity. When such systems implement a conversational component to interact with the users, they are also known as conversational agents. Bots, particularly in their conversation-oriented version and AI-powered, have seen their adoption increase over time for software development and engineering purposes. Despite their exciting potential, ulteriorly enhanced by the advent of Generative AI and Large Language Models, bots still need to be improved to develop and integrate into the development cycle since practitioners report that bots add additional challenges that may worsen rather than improve. In this work, we aim to provide a taxonomy for characterizing bots, as well as a series of challenges for their adoption for Software Engineering associated with potential mitigation strategies. To reach our objectives, we conducted a multivocal literature review, reviewing both research and practitioner's literature. Through such an approach, we hope to contribute to both researchers and practitioners by providing first, a series of future research routes to follow, second, a list of strategies to adopt for improving the use of bots for software engineering purposes, and third, enforce a technology and knowledge transfer from the research field to the practitioners one, that is one of the primary goal of multivocal literature reviews.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# ライドベルク状態における原子実験のための電界制御

Electric field control for experiments with atoms in Rydberg states ( http://arxiv.org/abs/2409.11865v1 )

ライセンス: Link先を確認
Aishik Panja, Yupeng Wang, Xinghan Wang, Junjie Wang, Sarthak Subhankar, Qi-Yu Liang, (参考訳) Rydbergの主張に興奮した原子は、最近量子計算、量子シミュレーション、量子情報処理のための中立原子プラットフォームに貴重な資源として出現した。 ライドベルク状態の原子は大きな偏光性を持ち、電場に非常に敏感である。 したがって、成層電場はこれらの原子を分解し、それら間の工学的相互作用の忠実さを損なう。 したがって、これらの不安定な電場をキャンセルすることが不可欠である。 ここでは, ガラスセルを用いた真空チャンバーの設計で実装された, 電界キャンセルのための, 新規で, シンプルで, 高精度な電極組立体について述べる。 電極アセンブリは、光学的アクセスをほとんどブロックすることなく、原子近傍の電界を完全に3D制御することができる。 この電極集合体を用いて10mV/cm以上での成層電界のキャンセルを実験的に実証した。

Atoms excited to Rydberg states have recently emerged as a valuable resource in neutral atom platforms for quantum computation, quantum simulation, and quantum information processing. Atoms in Rydberg states have large polarizabilities, making them highly sensitive to electric fields. Therefore, stray electric fields can decohere these atoms, in addition to compromising the fidelity of engineered interactions between them. It is therefore essential to cancel these stray electric fields. Here we present a novel, simple, and highly-compact electrode assembly, implemented in a glass cell-based vacuum chamber design, for stray electric field cancellation. The electrode assembly allows for full 3D control of the electric field in the vicinity of the atoms while blocking almost no optical access. We experimentally demonstrate the cancellation of stray electric fields to better than 10 mV/cm using this electrode assembly.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# 時空非可換性の確率的起源

A Stochastic Origin of Spacetime Non-Commutativity ( http://arxiv.org/abs/2409.11866v1 )

ライセンス: Link先を確認
Michele Arzano, Folkert Kuipers, (参考訳) 本稿では、量子力学的可換関係の経路積分定式化から始まる時空非可換性の確率論的解釈を提案する。 時空の非可換性は、経路積分の定式化における経路の連続性や不連続性と本質的にどのように関係しているかを論じる。 ウィナー過程を利用すると、連続経路が可換時空につながるのに対し、不連続経路は非可換時空構造に対応することを示す。 例えば、$\kappa$-Minkowski の時空通勤者が得られる不連続経路を導入する。 さらに、不連続軌跡に作用する微分に対するライプニッツ則の修正にも着目する。 ここでは、これらが変換生成子の変形作用とどのように関連するかを示し、例えば、$\kappa$-Poincar\'e 代数に焦点をあてる。 この結果は、時空の非可換性は、時空の基本的な離散性の結果として理解できることを示唆している。

We propose a stochastic interpretation of spacetime non-commutativity starting from the path integral formulation of quantum mechanical commutation relations. We discuss how the (non-)commutativity of spacetime is inherently related to the continuity or discontinuity of paths in the path integral formulation. Utilizing Wiener processes, we demonstrate that continuous paths lead to commutative spacetime, whereas discontinuous paths correspond to non-commutative spacetime structures. As an example we introduce discontinuous paths from which the $\kappa$-Minkowski spacetime commutators can be obtained. Moreover we focus on modifications of the Leibniz rule for differentials acting on discontinuous trajectories. We show how these can be related to the deformed action of translation generators focusing, as a working example, on the $\kappa$-Poincar\'e algebra. Our findings suggest that spacetime non-commutativity can be understood as a result of fundamental discreteness of spacetime.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# 画像・ビデオ用大型SSMの蒸留不要スケーリング

Distillation-free Scaling of Large SSMs for Images and Videos ( http://arxiv.org/abs/2409.11867v1 )

ライセンス: Link先を確認
Hamid Suleman, Syed Talal Wasim, Muzammal Naseer, Juergen Gall, (参考訳) S4で実証された状態空間モデル(SSM)は、状態空間技術を深層学習に組み込んだ新しい文脈モデリング手法を導入している。 しかし、データに依存しない行列のため、グローバルなコンテキストモデリングに苦慮している。 MambaモデルはS6選択スキャンアルゴリズムを通じてデータ依存の変種を用いてこの問題に対処し、特に長いシーケンスのコンテキストモデリングを強化した。 しかし、Mambaベースのアーキテクチャはパラメータの数に関してスケールが難しいため、ビジョンアプリケーションには大きな制限がある。 本稿では, 画像分類や行動認識における大規模SSMのスケーラビリティ問題について, 知識蒸留などの追加技術は不要である。 我々は、拡張性、堅牢性、パフォーマンスを向上させるMamba-Attentionインターリーブアーキテクチャを提案する。 安定的で効率的なインターリーブドアーキテクチャは、画像やビデオのMambaベースのアーキテクチャのスケーラビリティ問題を解決し、JPEG圧縮のような一般的なアーティファクトに対するロバスト性を高めることを実証する。 ImageNet-1K, Kinetics-400, Something-Something-v2ベンチマークの徹底的な評価は、我々のアプローチが最先端のMambaベースのアーキテクチャの精度を最大$+1.7$まで改善していることを示している。

State-space models (SSMs), exemplified by S4, have introduced a novel context modeling method by integrating state-space techniques into deep learning. However, they struggle with global context modeling due to their data-independent matrices. The Mamba model addressed this with data-dependent variants via the S6 selective-scan algorithm, enhancing context modeling, especially for long sequences. However, Mamba-based architectures are difficult to scale with respect to the number of parameters, which is a major limitation for vision applications. This paper addresses the scalability issue of large SSMs for image classification and action recognition without requiring additional techniques like knowledge distillation. We analyze the distinct characteristics of Mamba-based and Attention-based models, proposing a Mamba-Attention interleaved architecture that enhances scalability, robustness, and performance. We demonstrate that the stable and efficient interleaved architecture resolves the scalability issue of Mamba-based architectures for images and videos and increases robustness to common artifacts like JPEG compression. Our thorough evaluation on the ImageNet-1K, Kinetics-400 and Something-Something-v2 benchmarks demonstrates that our approach improves the accuracy of state-of-the-art Mamba-based architectures by up to $+1.7$.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# ロングアの原子パターンの識別性に関する実践的研究

Practical Investigation on the Distinguishability of Longa's Atomic Patterns ( http://arxiv.org/abs/2409.11868v1 )

ライセンス: Link先を確認
Sze Hei Li, Zoya Dyka, Alkistis Aikaterini Sigourou, Peter Langendoerfer, Ievgen Kabin, (参考訳) 本稿では,Longa が提案する楕円曲線点倍増と加算演算に対する原子パターンの識別可能性について検討する。 我々は,NIST楕円曲線P-256に対するLongaの原子パターンを用いた2値楕円曲線スカラー乗算kPアルゴリズムを実装し,マイクロコントローラ上での単一kP実行の電磁的トレースを測定し,解析した(TI Launchpad F28379ボード)。 様々な技術的制限のため、実行時間と原子ブロックの形状に大きな違いは決定できなかった。 本研究に基づいて, サイドチャネル解析抵抗に関するさらなる研究を行うことができる。 最後に,Longaが提唱した公式に対応するLongaの原子パターンを調査し,修正した。

This paper investigates the distinguishability of the atomic patterns for elliptic curve point doubling and addition operations proposed by Longa. We implemented a binary elliptic curve scalar multiplication kP algorithm with Longa's atomic patterns for the NIST elliptic curve P-256 using the open-source cryptographic library FLECC in C. We measured and analysed an electromagnetic trace of a single kP execution on a microcontroller (TI Launchpad F28379 board). Due to various technical limitations, significant differences in the execution time and the shapes of the atomic blocks could not be determined. Further investigations of the side channel analysis-resistance can be performed based on this work. Last but not least, we examined and corrected Longa's atomic patterns corresponding to formulae proposed by Longa.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# SpheriGait:LiDARに基づく歩行認識のための球面投影による空間表現の強化

SpheriGait: Enriching Spatial Representation via Spherical Projection for LiDAR-based Gait Recognition ( http://arxiv.org/abs/2409.11869v1 )

ライセンス: Link先を確認
Yanxi Wang, Zhigang Chang, Chen Wu, Zihao Cheng, Hongmin Gao, (参考訳) 歩行認識は、個人を遠隔で識別する技術として急速に進歩している。 これまでは、歩行データを収集するために2Dセンサーを用いた研究が目覚ましい進歩を遂げてきたが、しかしながら、認識に対する3D動的特性の影響は避けられないほど無視されてきた。 本稿では,LiDAR 3Dポイントクラウドを用いた歩行認識において,3次元空間的特徴を直接キャプチャするだけでなく,照明条件の影響を低減し,プライバシ保護を確保しつつ,点クラウドから識別的3Dダイナミック表現を効果的に抽出する方法が課題となっている。 具体的には、従来の点雲面投影法を球面投影法に置き換え、動的特徴の知覚を高めるとともに、DAM-Lと呼ばれるネットワークブロックを提案し、投影された点雲データから歩行手がかりを抽出する。 本研究では,SUSTech1Kデータセット上でSpheriGaitの最先端性能を実証し,球面投影法が汎用データ前処理技術として機能し,他のLiDARベースの歩行認識手法の性能を向上し,卓越した柔軟性と実用性を示した。

Gait recognition is a rapidly progressing technique for the remote identification of individuals. Prior research predominantly employing 2D sensors to gather gait data has achieved notable advancements; nonetheless, they have unavoidably neglected the influence of 3D dynamic characteristics on recognition. Gait recognition utilizing LiDAR 3D point clouds not only directly captures 3D spatial features but also diminishes the impact of lighting conditions while ensuring privacy protection.The essence of the problem lies in how to effectively extract discriminative 3D dynamic representation from point clouds.In this paper, we proposes a method named SpheriGait for extracting and enhancing dynamic features from point clouds for Lidar-based gait recognition. Specifically, it substitutes the conventional point cloud plane projection method with spherical projection to augment the perception of dynamic feature.Additionally, a network block named DAM-L is proposed to extract gait cues from the projected point cloud data. We conducted extensive experiments and the results demonstrated the SpheriGait achieved state-of-the-art performance on the SUSTech1K dataset, and verified that the spherical projection method can serve as a universal data preprocessing technique to enhance the performance of other LiDAR-based gait recognition methods, exhibiting exceptional flexibility and practicality.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# 時間変化媒体におけるマクロQEDとノイズ電流

Macroscopic QED and noise currents in time-varying media ( http://arxiv.org/abs/2409.11873v1 )

ライセンス: Link先を確認
S. A. R. Horsley, B. Baker, (参考訳) マクロスコピックQED(英: Macroscopic QED)は、分散媒体における量子電磁効果の場の理論である。 ここでは、MQDを拡張して、時間変化のある分散メディアを扱います。 時間依存のドルーデモデルでは、標準 MQED 内の ${\epsilon}({\omega}) {\to} {\epsilon}(t,{\omega})$ が非物理的偏極電流となり、キャリア密度のステップ変化の極限において特異となる。 この特異な挙動は、貯留層力学を変更し、その結果の理論を定量化し、非平衡な時間変化ノイズ電流を発見し、物質力学における時間的反射による余分な相関を示すことによって取り除くことができる。

Macroscopic QED (MQED) is the field theory for computing quantum electromagnetic effects in dispersive media. Here we extend MQD to treat time-varying, dispersive media. For a time dependent Drude model, we find that the expected replacement ${\epsilon}({\omega}) {\to} {\epsilon}(t,{\omega})$ within standard MQED leads to nonphysical polarization currents, becoming singular in the limit of a step change in the carrier density. We show this singular behaviour can be removed through modifying the reservaoir dynamics, quantizing the resulting theory and finding the non-equilibrium, time-varying noise currents, which exhibit extra correlations due to temporal reflections within the material dynamics.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# ABHINAW:AI生成画像におけるタイポグラフィの自動評価方法

ABHINAW: A method for Automatic Evaluation of Typography within AI-Generated Images ( http://arxiv.org/abs/2409.11874v1 )

ライセンス: Link先を確認
Abhinaw Jagtap, Nachiket Tapas, R. G. Brajesh, (参考訳) Generative AIの急速に進化する分野では、MidJourney、DALL-E、Stable Diffusionといったプラットフォームが、Text-to-Image(T2I)生成を変革している。 しかし、高品質な画像を作成するという印象的な能力にもかかわらず、これらの画像の中で正確なテキストを生成するのに苦労することが多い。 理論的には、AI画像の正確なテキスト生成を‘ゼロショット’で達成できれば、AI生成した画像をより意味のあるものにするだけでなく、グラフィックデザイン産業を民主化することが可能になるでしょう。 この目標に向けての最初のステップは、AI生成画像のテキスト精度を評価するための堅牢なスコアリングマトリックスを作ることである。 CLIP SCOREやT2I-CompBench++のような既存のベンチマーキング手法はあるが、AI生成画像のテキストとタイポグラフィーを体系的に評価する面ではまだギャップがある。 本稿では,AI生成画像中のテキストとタイポグラフィ生成の性能を明示的に定量化するための新しい評価行列を提案する。 我々は、レター・バイ・レター・マッチング・ストラテジーを用いて、参照テキストからAI生成テキストへの正確なマッチングスコアを計算した。 本手法では, 単語の繰り返し, ケース感度, 単語の混合, 文字の不規則な取り込みなど, 複数の冗長性に対処する。 さらに,余分なテキストを扱うための簡潔な調整法を開発した。 また、頻繁に使われる単語やあまり使われていない単語による頻繁な誤りを定量的に分析した。 プロジェクトページはhttps://github.com/Abhinaw3906/ABHINAW-MATRIX.comで公開されている。

In the fast-evolving field of Generative AI, platforms like MidJourney, DALL-E, and Stable Diffusion have transformed Text-to-Image (T2I) Generation. However, despite their impressive ability to create high-quality images, they often struggle to generate accurate text within these images. Theoretically, if we could achieve accurate text generation in AI images in a ``zero-shot'' manner, it would not only make AI-generated images more meaningful but also democratize the graphic design industry. The first step towards this goal is to create a robust scoring matrix for evaluating text accuracy in AI-generated images. Although there are existing bench-marking methods like CLIP SCORE and T2I-CompBench++, there's still a gap in systematically evaluating text and typography in AI-generated images, especially with diffusion-based methods. In this paper, we introduce a novel evaluation matrix designed explicitly for quantifying the performance of text and typography generation within AI-generated images. We have used letter by letter matching strategy to compute the exact matching scores from the reference text to the AI generated text. Our novel approach to calculate the score takes care of multiple redundancies such as repetition of words, case sensitivity, mixing of words, irregular incorporation of letters etc. Moreover, we have developed a Novel method named as brevity adjustment to handle excess text. In addition we have also done a quantitative analysis of frequent errors arise due to frequently used words and less frequently used words. Project page is available at: https://github.com/Abhinaw3906/ABHINAW-MATRIX.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# 実QPUにおけるクレジットカード不正検出のためのQUBOに基づくSVM

QUBO-based SVM for credit card fraud detection on a real QPU ( http://arxiv.org/abs/2409.11876v1 )

ライセンス: Link先を確認
Ettore Canonici, Filippo Caruso, (参考訳) 量子処理ユニット(QPU)を実現するためのすべての物理プラットフォームの中で、中性原子デバイスが主要なプレイヤーの1つとして登場している。 スケーラビリティ、長いコヒーレンス時間、製造エラーの欠如により、実現可能な候補となる。 と。 ここでは、準非拘束バイナリ最適化(QUBO)問題としてトレーニングを再構成し、中性原子QPU上に実装したバイナリ分類器モデルを用いる。 特に、CCF(Credit Card Fraud)データセットでテストしています。 我々は、アンサンブル学習方式でモデルを利用するなど、モデルのいくつかのバージョンを提案する。 提案したバージョンのうちの1つは高い性能と低いエラーを達成でき、最も人気のある機械学習(ML)モデルとQUBO SVMモデルを比較してクレームを検証できることを示します。 さらに、実際のQPUによって得られたデータは24個の原子まで拡張され、モデルのノイズの堅牢性を確認する。 また, 数値シミュレーションにより, 一定量の雑音が驚くべき結果をもたらすことを示す。 我々の結果は、サイバーセキュリティアプリケーションのための中立原子QPU上で動作する新しい量子MLアルゴリズムへのさらなる一歩を示している。

Among all the physical platforms for the realization of a Quantum Processing Unit (QPU), neutral atom devices are emerging as one of the main players. Their scalability, long coherence times, and the absence of manufacturing errors make them a viable candidate.. Here, we use a binary classifier model whose training is reformulated as a Quadratic Unconstrained Binary Optimization (QUBO) problem and implemented on a neutral atom QPU. In particular, we test it on a Credit Card Fraud (CCF) dataset. We propose several versions of the model, including exploiting the model in ensemble learning schemes. We show that one of our proposed versions seems to achieve higher performance and lower errors, validating our claims by comparing the most popular Machine Learning (ML) models with QUBO SVM models trained with ideal, noisy simulations and even via a real QPU. In addition, the data obtained via real QPU extend up to 24 atoms, confirming the model's noise robustness. We also show, by means of numerical simulations, how a certain amount of noise leads surprisingly to enhanced results. Our results represent a further step towards new quantum ML algorithms running on neutral atom QPUs for cybersecurity applications.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# OOD検出の最近の進歩:問題とアプローチ

Recent Advances in OOD Detection: Problems and Approaches ( http://arxiv.org/abs/2409.11884v1 )

ライセンス: Link先を確認
Shuo Lu, YingSheng Wang, LuJun Sheng, AiHua Zheng, LinXiao He, Jian Liang, (参考訳) アウト・オブ・ディストリビューション(OOD)検出は、信頼性の高い機械学習システムを構築する上で不可欠な要素であるトレーニングカテゴリ空間外のテストサンプルを検出することを目的としている。 OOD検出に関する既存のレビューは、主にメソッド分類に焦点を当て、様々なアプローチを分類して分野を調査している。 しかし、近年の多くの研究は、テスト時間適応、マルチモーダルデータソース、その他の新しいコンテキストなど、従来のOOD検出シナリオに重点を置いている。 本調査では,OOD検出の最近の進歩を,問題シナリオの観点から初めて考察した。 トレーニングプロセスが完全に制御されているかに応じて、OOD検出方法をトレーニング駆動およびトレーニング非依存に分割する。 また,事前学習モデルの開発が急速に進んでいることを考えると,事前学習モデルに基づく大規模なOOD検出も重要なカテゴリと見なされ,個別に議論される。 さらに,評価シナリオ,様々な応用,今後の研究方向性について論じる。 本調査は,新たな手法の提案と,より実践的なシナリオの拡充に寄与すると考えられる。 関連論文のキュレートされたリストはGithubリポジトリに掲載されている。

Out-of-distribution (OOD) detection aims to detect test samples outside the training category space, which is an essential component in building reliable machine learning systems. Existing reviews on OOD detection primarily focus on method taxonomy, surveying the field by categorizing various approaches. However, many recent works concentrate on non-traditional OOD detection scenarios, such as test-time adaptation, multi-modal data sources and other novel contexts. In this survey, we uniquely review recent advances in OOD detection from the problem scenario perspective for the first time. According to whether the training process is completely controlled, we divide OOD detection methods into training-driven and training-agnostic. Besides, considering the rapid development of pre-trained models, large pre-trained model-based OOD detection is also regarded as an important category and discussed separately. Furthermore, we provide a discussion of the evaluation scenarios, a variety of applications, and several future research directions. We believe this survey with new taxonomy will benefit the proposal of new methods and the expansion of more practical scenarios. A curated list of related papers is provided in the Github repository: \url{https://github.com/shuolucs/Awesome-Out-Of-Distribution-Detection}
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# DocMamba: ステートスペースモデルによる効果的なドキュメント事前トレーニング

DocMamba: Efficient Document Pre-training with State Space Model ( http://arxiv.org/abs/2409.11887v1 )

ライセンス: Link先を確認
Pengfei Hu, Zhenrong Zhang, Jiefeng Ma, Shuhang Liu, Jun Du, Jianshu Zhang, (参考訳) 近年,視覚的に豊かな文書理解が注目されている。 トランスフォーマーベースの事前訓練モデルが主流のアプローチとなり、この分野で大きなパフォーマンス向上をもたらした。 しかし、自己認識機構の2次計算の複雑さは、その効率性と長いドキュメントの処理能力を妨げている。 本稿では,状態空間モデルに基づく新しいフレームワークであるDocMambaを紹介する。 グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。 文書処理におけるその効率をさらに高めるため、連続した意味情報を取得するために、Segment-First Bidirectional Scan (SFBS)を導入する。 実験の結果,DocMambaはFUNSD, CORD, SORIEなどの下流データセット上で, 高速化とメモリ使用量の削減を実現している。 特にHRDocの実験では、DocMambaの長さ外挿の可能性が確認されている。 コードはオンラインで入手できる。

In recent years, visually-rich document understanding has attracted increasing attention. Transformer-based pre-trained models have become the mainstream approach, yielding significant performance gains in this field. However, the self-attention mechanism's quadratic computational complexity hinders their efficiency and ability to process long documents. In this paper, we present DocMamba, a novel framework based on the state space model. It is designed to reduce computational complexity to linear while preserving global modeling capabilities. To further enhance its effectiveness in document processing, we introduce the Segment-First Bidirectional Scan (SFBS) to capture contiguous semantic information. Experimental results demonstrate that DocMamba achieves new state-of-the-art results on downstream datasets such as FUNSD, CORD, and SORIE, while significantly improving speed and reducing memory usage. Notably, experiments on the HRDoc confirm DocMamba's potential for length extrapolation. The code will be available online.
翻訳日:2024-09-19 18:09:15 公開日:2024-09-18
# Log2graphs: 効率的な特徴抽出によるログ異常検出のための教師なしフレームワーク

Log2graphs: An Unsupervised Framework for Log Anomaly Detection with Efficient Feature Extraction ( http://arxiv.org/abs/2409.11890v1 )

ライセンス: Link先を確認
Caihong Wang, Du Xu, Zonghang Li, (参考訳) インターネットの急速な発展期には、ログデータはコンピュータ機器やソフトウェアの操作を記録するのに欠かせないものとなっている。 これらのデータは、システムの振る舞いに関する貴重な洞察を与え、徹底的な分析を必要とします。 近年のテキスト解析の進歩により、深層学習はログ異常検出において大きなブレークスルーを達成している。 しかし、手動アノテーションの高コストと使用シナリオの動的な性質は、効果的なログ分析に大きな課題をもたらしている。 本研究では,様々なシナリオに対応するために設計されたDualGCN-LogAEと呼ばれる新しいログ特徴抽出モデルを提案する。 これは、ログコンテンツ分析のための大規模モデルの表現力と、ログ間の相関をカプセル化するグラフ構造の能力を利用する。 キーログ情報を保持しながら、ログ間の因果関係を統合し、効果的な特徴抽出を実現する。 さらに,特徴抽出器に基づく教師なしログ異常検出手法であるLog2graphsを導入する。 ログ異常検出にグラフクラスタリングアルゴリズムを用いることで、ラベル付きデータを必要としない異常なログの識別が可能になる。 我々は,DualGCN-LogAEの特徴抽出能力と,5つのシナリオにわたる公開ログデータセットを用いたLog2graphの異常検出性能を総合的に評価した。 評価指標には,検出精度とグラフクラスタリングの品質スコアが含まれる。 実験の結果,DualGCN-LogAEが抽出したログ機能は,古典的分類器の他の手法よりも優れていることがわかった。 さらに、Log2graphsは既存の教師なしログ検出手法を超越し、ログ異常検出研究を進めるための堅牢なツールを提供する。

In the era of rapid Internet development, log data has become indispensable for recording the operations of computer devices and software. These data provide valuable insights into system behavior and necessitate thorough analysis. Recent advances in text analysis have enabled deep learning to achieve significant breakthroughs in log anomaly detection. However, the high cost of manual annotation and the dynamic nature of usage scenarios present major challenges to effective log analysis. This study proposes a novel log feature extraction model called DualGCN-LogAE, designed to adapt to various scenarios. It leverages the expressive power of large models for log content analysis and the capability of graph structures to encapsulate correlations between logs. It retains key log information while integrating the causal relationships between logs to achieve effective feature extraction. Additionally, we introduce Log2graphs, an unsupervised log anomaly detection method based on the feature extractor. By employing graph clustering algorithms for log anomaly detection, Log2graphs enables the identification of abnormal logs without the need for labeled data. We comprehensively evaluate the feature extraction capability of DualGCN-LogAE and the anomaly detection performance of Log2graphs using public log datasets across five different scenarios. Our evaluation metrics include detection accuracy and graph clustering quality scores. Experimental results demonstrate that the log features extracted by DualGCN-LogAE outperform those obtained by other methods on classic classifiers. Moreover, Log2graphs surpasses existing unsupervised log detection methods, providing a robust tool for advancing log anomaly detection research.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# サイバー攻撃に対する自律型クアドロレータの安全制御システム

Secure Control Systems for Autonomous Quadrotors against Cyber-Attacks ( http://arxiv.org/abs/2409.11897v1 )

ライセンス: Link先を確認
Samuel Belkadi, (参考訳) ロボットシステムの安全性の問題は広く研究されている。 しかし,3次元システムのセキュリティ問題,例えば四角形などの問題にはほとんど注意が払われていない。 悪意のある敵はロボットのセンサーや通信ネットワークを侵害し、事故を引き起こしたり、違法な目的を達成したり、人を傷つけたりすることができる。 本研究はまず,自律型四元系のためのインテリジェント制御系を設計する。 そこで,無人航空機における最適な偽データ注入攻撃スケジューリングと対策設計の問題点について検討した。 最先端の深層学習に基づく手法を用いて,攻撃エネルギーに制限のある四重項追跡性能を劣化させるために,最適偽データ注入攻撃法を提案する。 その後、攻撃を緩和し、四重項追跡性能を回復する最適な追跡制御戦略が学習される。 私たちは最近、自律的な設定のためにデプロイされた最先端の4倍体であるAgiliciousをベースとしています。 本論文は、イギリスで初めてこの四角子を配備し、そのプラットフォームに強化学習を実装したものである。 そこで,本研究では,(1)ソフトウェアスタックやハードウェアの代替品を含む,この4倍体を包括的に分解し,(2)Agiliciousエージェント上で自律的なコントローラを訓練するための詳細な強化学習フレームワーク,(3)PyFlyt上に構築された新たなオープンソース環境を,今後のAgiliciousプラットフォーム上での強化学習研究のために提供する。 シミュレーションおよび実世界の実験を行い,提案手法の有効性を第5章2節で示す。

The problem of safety for robotic systems has been extensively studied. However, little attention has been given to security issues for three-dimensional systems, such as quadrotors. Malicious adversaries can compromise robot sensors and communication networks, causing incidents, achieving illegal objectives, or even injuring people. This study first designs an intelligent control system for autonomous quadrotors. Then, it investigates the problems of optimal false data injection attack scheduling and countermeasure design for unmanned aerial vehicles. Using a state-of-the-art deep learning-based approach, an optimal false data injection attack scheme is proposed to deteriorate a quadrotor's tracking performance with limited attack energy. Subsequently, an optimal tracking control strategy is learned to mitigate attacks and recover the quadrotor's tracking performance. We base our work on Agilicious, a state-of-the-art quadrotor recently deployed for autonomous settings. This paper is the first in the United Kingdom to deploy this quadrotor and implement reinforcement learning on its platform. Therefore, to promote easy reproducibility with minimal engineering overhead, we further provide (1) a comprehensive breakdown of this quadrotor, including software stacks and hardware alternatives; (2) a detailed reinforcement-learning framework to train autonomous controllers on Agilicious agents; and (3) a new open-source environment that builds upon PyFlyt for future reinforcement learning research on Agilicious platforms. Both simulated and real-world experiments are conducted to show the effectiveness of the proposed frameworks in section 5.2.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# 自己注意型マルチグリッドグラフニューラルネットワークの計算力学への応用

Multi-Grid Graph Neural Networks with Self-Attention for Computational Mechanics ( http://arxiv.org/abs/2409.11899v1 )

ライセンス: Link先を確認
Paul Garnier, Jonathan Viquerat, Elie Hachem, (参考訳) 有限要素法の進歩は、様々な分野、特に計算流体力学(CFD)において欠かせないものとなり、精度と効率を向上させるための研究を推進している。 畳み込みニューラルネットワーク(CNN)は、メッシュをイメージにマッピングすることでCFDで成功したが、最近の注目は、直接メッシュ処理にグラフニューラルネットワーク(GNN)を活用することにある。 本稿では,GNNにおける自己注意とメッセージパッシングを融合した新しいモデルを提案する。 さらに,自己注意に基づく動的メッシュプルーニング手法が提案され,GNNベースのマルチグリッドアプローチの堅牢化とRMSEの15.5%削減を実現している。 また,BERTをベースとした新たな自己教師型トレーニング手法が提案され,RMSEの25%削減が達成された。 この論文はアブレーション研究を含み、いくつかの挑戦的なデータセット上で最先端のモデルを上回り、最近自然言語や画像処理で達成されたような進歩を約束する。 最後に,メッシュを用いたデータセットを,少なくとも1桁の規模で導入する。 Code and Datasetsはhttps://github.com/DonsetPG/multigrid-gnn.comでリリースされる。

Advancement in finite element methods have become essential in various disciplines, and in particular for Computational Fluid Dynamics (CFD), driving research efforts for improved precision and efficiency. While Convolutional Neural Networks (CNNs) have found success in CFD by mapping meshes into images, recent attention has turned to leveraging Graph Neural Networks (GNNs) for direct mesh processing. This paper introduces a novel model merging Self-Attention with Message Passing in GNNs, achieving a 15\% reduction in RMSE on the well known flow past a cylinder benchmark. Furthermore, a dynamic mesh pruning technique based on Self-Attention is proposed, that leads to a robust GNN-based multigrid approach, also reducing RMSE by 15\%. Additionally, a new self-supervised training method based on BERT is presented, resulting in a 25\% RMSE reduction. The paper includes an ablation study and outperforms state-of-the-art models on several challenging datasets, promising advancements similar to those recently achieved in natural language and image processing. Finally, the paper introduces a dataset with meshes larger than existing ones by at least an order of magnitude. Code and Datasets will be released at https://github.com/DonsetPG/multigrid-gnn.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# LLMs + Persona-Plug = Personalized LLMs

LLMs + Persona-Plug = Personalized LLMs ( http://arxiv.org/abs/2409.11901v1 )

ライセンス: Link先を確認
Jiongnan Liu, Yutao Zhu, Shuting Wang, Xiaochi Wei, Erxue Min, Yu Lu, Shuaiqiang Wang, Dawei Yin, Zhicheng Dou, (参考訳) パーソナライゼーションは多くの言語タスクやアプリケーションにおいて重要な役割を担っている。 これにより、大きな言語モデル(LLM)を適用して、ユーザの好みに合わせてカスタマイズされたアウトプットを生成する、さまざまなパーソナライズされたアプローチが開発された。 ユーザごとにパーソナライズされた独自のLLMを微調整する場合もある。 代替的なアプローチは、ユーザの関連する歴史的テキストをデモとして検索することで、プラグアンドプレイ方式でパーソナライズ情報を導入する。 しかし、この検索ベースの戦略は、ユーザ履歴の連続性を損なう可能性があり、ユーザの全体的なスタイルやパターンをキャプチャできないため、サブ最適パフォーマンスにつながる。 これらの課題に対処するために,新たにパーソナライズされた LLM モデルである \ours{} を提案する。 軽量なプラグインユーザ埋め込みモジュールを通じて、過去のコンテキストをすべてモデル化することで、個々の個人に固有の埋め込みを構築する。 この埋め込みをタスク入力にアタッチすることで、LLMはユーザの習慣や好みをよりよく理解し、よりパーソナライズされたアウトプットを生成することができる。 言語モデルパーソナライゼーション(LaMP)ベンチマークにおける多種多様なタスクに関する大規模な実験により、提案モデルが既存のパーソナライズされたLCMアプローチを著しく上回ることを示した。

Personalization plays a critical role in numerous language tasks and applications, since users with the same requirements may prefer diverse outputs based on their individual interests. This has led to the development of various personalized approaches aimed at adapting large language models (LLMs) to generate customized outputs aligned with user preferences. Some of them involve fine-tuning a unique personalized LLM for each user, which is too expensive for widespread application. Alternative approaches introduce personalization information in a plug-and-play manner by retrieving the user's relevant historical texts as demonstrations. However, this retrieval-based strategy may break the continuity of the user history and fail to capture the user's overall styles and patterns, hence leading to sub-optimal performance. To address these challenges, we propose a novel personalized LLM model, \ours{}. It constructs a user-specific embedding for each individual by modeling all her historical contexts through a lightweight plug-in user embedder module. By attaching this embedding to the task input, LLMs can better understand and capture user habits and preferences, thereby producing more personalized outputs without tuning their own parameters. Extensive experiments on various tasks in the language model personalization (LaMP) benchmark demonstrate that the proposed model significantly outperforms existing personalized LLM approaches.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# 少ないメモリはGPUを小さくする:圧縮されたアクティベーションによるバックプロパゲーション

Less Memory Means smaller GPUs: Backpropagation with Compressed Activations ( http://arxiv.org/abs/2409.11902v1 )

ライセンス: Link先を確認
Daniel Barley, Holger Fröning, (参考訳) 深層ニューラルネットワーク(DNN)の規模は、計算リソースの要件が等しく急速に増大している。 最近の多くのアーキテクチャ、特にLarge Language Modelsは、GPUやTPUといった数千のアクセラレータを持つスーパーコンピュータを使って訓練する必要がある。 大量の浮動小数点演算に加えて、DNNのメモリフットプリントも爆発的だ。 対照的に、GPUアーキテクチャはメモリが不足していることが知られている。 EfficientNetのような比較的小さなアーキテクチャでさえ、適切なミニバッチサイズで単一のコンシューマグレードGPUでトレーニングすることはできない。 トレーニング中は、勾配計算のバックプロパゲーションまで中間入力アクティベーションを格納する必要がある。 これらはメモリフットプリントの大部分を占めています。 そこで本研究では, メモリフットプリントとデータ移動量の両方を削減できる, プールを用いた後方パスのアクティベーションマップの圧縮について検討する。 フォワード計算は未だに圧縮されていない。 本稿では、共通ビジョンアーキテクチャResNetの例において、コンバージェンスと研究が特徴検出に与える影響を実証的に示す。 このアプローチにより、圧縮されていないベースラインと比較して予測精度を維持しながら、トレーニングスケジュールの長いコストでピークメモリ消費を29%削減できる。

The ever-growing scale of deep neural networks (DNNs) has lead to an equally rapid growth in computational resource requirements. Many recent architectures, most prominently Large Language Models, have to be trained using supercomputers with thousands of accelerators, such as GPUs or TPUs. Next to the vast number of floating point operations the memory footprint of DNNs is also exploding. In contrast, GPU architectures are notoriously short on memory. Even comparatively small architectures like some EfficientNet variants cannot be trained on a single consumer-grade GPU at reasonable mini-batch sizes. During training, intermediate input activations have to be stored until backpropagation for gradient calculation. These make up the vast majority of the memory footprint. In this work we therefore consider compressing activation maps for the backward pass using pooling, which can reduce both the memory footprint and amount of data movement. The forward computation remains uncompressed. We empirically show convergence and study effects on feature detection at the example of the common vision architecture ResNet. With this approach we are able to reduce the peak memory consumption by 29% at the cost of a longer training schedule, while maintaining prediction accuracy compared to an uncompressed baseline.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# 主観的真実を見つける:総合的ゲン・AIモデル評価のための200万票の収集

Finding the Subjective Truth: Collecting 2 Million Votes for Comprehensive Gen-AI Model Evaluation ( http://arxiv.org/abs/2409.11904v1 )

ライセンス: Link先を確認
Dimitrios Christodoulou, Mads Kuhlmann-Jørgensen, (参考訳) テキスト・ツー・イメージ・モデルの性能を効果的に評価することは、本質的に主観的判断と人間の嗜好を必要とするため困難であり、異なるモデルを比較して最先端の状態を定量化することは困難である。 Rapidataの技術を活用することで、多様なグローバルなアノテータプールから人間のフィードバックを発信する効率的なアノテーションフレームワークを提供する。 我々は4,512枚の画像に200万以上のアノテーションを収集し、スタイルの好み、コヒーレンス、テキスト・ツー・イメージのアライメントについて、DALL-E, Flux.1, MidJourney, Stable Diffusionの4つの顕著なモデル(DALL-E, Flux.1, Staable Diffusion)を評価した。 提案手法は,膨大なアノテータのプールに基づいて画像生成モデルを包括的にランク付けし,多彩なアノテータ人口層が世界人口を反映し,バイアスのリスクを大幅に減少させることを示す。

Efficiently evaluating the performance of text-to-image models is difficult as it inherently requires subjective judgment and human preference, making it hard to compare different models and quantify the state of the art. Leveraging Rapidata's technology, we present an efficient annotation framework that sources human feedback from a diverse, global pool of annotators. Our study collected over 2 million annotations across 4,512 images, evaluating four prominent models (DALL-E 3, Flux.1, MidJourney, and Stable Diffusion) on style preference, coherence, and text-to-image alignment. We demonstrate that our approach makes it feasible to comprehensively rank image generation models based on a vast pool of annotators and show that the diverse annotator demographics reflect the world population, significantly decreasing the risk of biases.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# AlignBot: 家庭用ロボットのファインチューニングによるユーザリマインダーによるVLMによるカスタマイズタスク計画の調整

AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots ( http://arxiv.org/abs/2409.11905v1 )

ライセンス: Link先を確認
Zhaxizhuoma, Pengan Chen, Ziniu Wu, Jiawei Sun, Dong Wang, Peng Zhou, Nieqing Cao, Yan Ding, Bin Zhao, Xuelong Li, (参考訳) 本稿では,ユーザのリマインダーを効果的に整合させて,VLMを活用した家庭用ロボットのタスクプランニングを最適化する新しいフレームワークであるAlignBotを提案する。 国内環境では、リマインダーの量、多様性、マルチモーダル性により、タスクプランニングとユーザリマインダーの連携が重大な課題となる。 これらの課題に対処するため、AlignBotは細調整のLLaVA-7Bモデルを採用し、GPT-4oのアダプタとして機能している。 このアダプタモデルは、パーソナライズされた嗜好、修正ガイダンス、構造化された命令形式キューへのコンテキスト支援などの多様なユーザリマインダーを内在化し、カスタマイズされたタスクプランを生成するための GPT-4o を誘導する。 さらに、AlignBotは、タスク関連過去の成功をGPT-4oのプロンプトとして選択する動的検索機構を統合し、タスク計画の精度をさらに高める。 AlignBotの有効性を検証するために、実験室内で典型的な家庭用環境を再現するために構築された実世界の家庭用環境において実験が行われる。 ボランティアリマインダーから1500以上のエントリを抽出したマルチモーダルデータセットをトレーニングと評価に使用する。 その結果、AlignBotはカスタマイズされたタスク計画を大幅に改善し、ユーザリマインダーを解釈・整合させ、バニラ GPT-4o ベースラインの 21.6% に対して86.8% の成功率を実現し、既存の LLM- と VLM のプランナーを上回り、65% の改善と 4 倍以上の有効性を反映した。 追加資料は、https://yding25.com/AlignBot/.comで入手できる。

This paper presents AlignBot, a novel framework designed to optimize VLM-powered customized task planning for household robots by effectively aligning with user reminders. In domestic settings, aligning task planning with user reminders poses significant challenges due to the limited quantity, diversity, and multimodal nature of the reminders. To address these challenges, AlignBot employs a fine-tuned LLaVA-7B model, functioning as an adapter for GPT-4o. This adapter model internalizes diverse forms of user reminders-such as personalized preferences, corrective guidance, and contextual assistance-into structured instruction-formatted cues that prompt GPT-4o in generating customized task plans. Additionally, AlignBot integrates a dynamic retrieval mechanism that selects task-relevant historical successes as prompts for GPT-4o, further enhancing task planning accuracy. To validate the effectiveness of AlignBot, experiments are conducted in real-world household environments, which are constructed within the laboratory to replicate typical household settings. A multimodal dataset with over 1,500 entries derived from volunteer reminders is used for training and evaluation. The results demonstrate that AlignBot significantly improves customized task planning, outperforming existing LLM- and VLM-powered planners by interpreting and aligning with user reminders, achieving 86.8% success rate compared to the vanilla GPT-4o baseline at 21.6%, reflecting a 65% improvement and over four times greater effectiveness. Supplementary materials are available at: https://yding25.com/AlignBot/
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# 肺癌に合併したCT画像の腫瘍認識における患者間変形性画像登録

Tumor aware recurrent inter-patient deformable image registration of computed tomography scans with lung cancer ( http://arxiv.org/abs/2409.11910v1 )

ライセンス: Link先を確認
Jue Jiang, Chloe Min Seo Choi, Maria Thor, Joseph O. Deasy, Harini Veeraraghavan, (参考訳) 背景:Voxel-based analysis (VBA) for population level radiotherapy (RT) outcomes modeling hasserving inter- patient deformable image registration (DIR) that retaining tumors on moving image while avoid unrealistic deformations due by tumors caused to certain image。 目的: 腫瘍認識型再帰型深層学習法(TRACER)を開発した。 方法:TRACERは3次元畳み込み長寿命メモリネットワーク(3D-CLSTM)で実装されたエンコーダ層とデコーダ層と空間変換層から構成され、密度変形ベクトル場(DVF)を計算する。 変形の進行列を計算するために、複数のCLSTMステップが使用される。 入力条件付けは3次元画像対を入力チャネルとする腫瘍セグメンテーションを応用した。 双方向の腫瘍剛性, 画像類似性, 変形スムースネスの損失は, 教師なしの方法でネットワークを最適化するために用いられた。 肺がん(LC)患者204例の3次元CT画像ペアを用いてTRACERおよび複数DL法を訓練し, 評価した。 (a)DLセグメントLC付きデータセットI(N = 308ペア) b)手作業によるLCによるデータセットII(N = 765 対)及び (c) RTで治療した42例のLC患者のデータセットIII。 結果:TRACERは正常組織と正確に一致した。 腫瘍容積差0.24\%、0.40\%、0.13 \%、CT強度0.005、0.005、0.004で黒色化され、それぞれデータセットI、II、IIIの原画像と再サンプリングされた画像の腫瘍間で計算される。 その結果、女性と男性の基準を用いて、オリジナル画像と再サンプリング画像の0.01Gyと0.013Gyの最小のRT腫瘍線量差が計算された。

Background: Voxel-based analysis (VBA) for population level radiotherapy (RT) outcomes modeling requires topology preserving inter-patient deformable image registration (DIR) that preserves tumors on moving images while avoiding unrealistic deformations due to tumors occurring on fixed images. Purpose: We developed a tumor-aware recurrent registration (TRACER) deep learning (DL) method and evaluated its suitability for VBA. Methods: TRACER consists of encoder layers implemented with stacked 3D convolutional long short term memory network (3D-CLSTM) followed by decoder and spatial transform layers to compute dense deformation vector field (DVF). Multiple CLSTM steps are used to compute a progressive sequence of deformations. Input conditioning was applied by including tumor segmentations with 3D image pairs as input channels. Bidirectional tumor rigidity, image similarity, and deformation smoothness losses were used to optimize the network in an unsupervised manner. TRACER and multiple DL methods were trained with 204 3D CT image pairs from patients with lung cancers (LC) and evaluated using (a) Dataset I (N = 308 pairs) with DL segmented LCs, (b) Dataset II (N = 765 pairs) with manually delineated LCs, and (c) Dataset III with 42 LC patients treated with RT. Results: TRACER accurately aligned normal tissues. It best preserved tumors, blackindicated by the smallest tumor volume difference of 0.24\%, 0.40\%, and 0.13 \% and mean square error in CT intensities of 0.005, 0.005, 0.004, computed between original and resampled moving image tumors, for Datasets I, II, and III, respectively. It resulted in the smallest planned RT tumor dose difference computed between original and resampled moving images of 0.01 Gy and 0.013 Gy when using a female and a male reference.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# LLMs in Education: New Perspectives, Challenges, and Opportunities

LLMs in Education: Novel Perspectives, Challenges, and Opportunities ( http://arxiv.org/abs/2409.11917v1 )

ライセンス: Link先を確認
Bashar Alhafni, Sowmya Vajjala, Stefano Bannò, Kaushal Kumar Maurya, Ekaterina Kochmar, (参考訳) 教育における大規模言語モデル(LLM)の役割は、教育、学習、評価のための新たな機会を考えると、今日では関心の領域が増えている。 この最先端のチュートリアルは、NLPの教育応用の概要と、最近のLLMの進歩がこの分野に与える影響を説明している。 我々は,LLMがもたらす重要な課題と機会について,読み書き,話し方,知的学習システム(ITS)の4つの主要な教育的応用の文脈で論じる。 この2025年のチュートリアルは、NLPの教育的応用とLLMの役割に関心のある研究者や実践者向けにデザインされている。 このタイムリーな話題に対処するのは、今回が初めてである。

The role of large language models (LLMs) in education is an increasing area of interest today, considering the new opportunities they offer for teaching, learning, and assessment. This cutting-edge tutorial provides an overview of the educational applications of NLP and the impact that the recent advances in LLMs have had on this field. We will discuss the key challenges and opportunities presented by LLMs, grounding them in the context of four major educational applications: reading, writing, and speaking skills, and intelligent tutoring systems (ITS). This COLING 2025 tutorial is designed for researchers and practitioners interested in the educational applications of NLP and the role LLMs have to play in this area. It is the first of its kind to address this timely topic.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# LLMラッパー:視覚言語基礎モデルのブラックボックスセマンティックアウェア適応

LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models ( http://arxiv.org/abs/2409.11919v1 )

ライセンス: Link先を確認
Amaia Cardiel, Eloi Zablocki, Oriane Siméoni, Elias Ramzi, Matthieu Cord, (参考訳) 視覚言語モデル(VLM)は、多くのタスクにおいて印象的なパフォーマンスを示しているが、そのゼロショット能力は、専用または微調整されたモデルと比較して制限される可能性がある。 しかし、微調整のVLMには、モデルのアーキテクチャと重みへの"ホワイトボックス"アクセスと、細調整の目的を設計し、各VLMおよび下流タスクに特有のハイパーパラメータを最適化する専門知識が必要とされるため、制限が伴う。 本研究では,大規模な言語モデル(LLM)を活用して,VLMをブラックボックス方式で適応する新しい手法 LLM-wrapper を提案する。 空間的・意味的推論を必要とするオープン語彙課題であるReferring Expression Comprehension (REC) に対する LLM-wrapper の有効性を示す。 提案手法は市販モデルの性能を大幅に向上させ,古典的な微調整と比較して競争力のある結果をもたらす。

Vision Language Models (VLMs) have shown impressive performances on numerous tasks but their zero-shot capabilities can be limited compared to dedicated or fine-tuned models. Yet, fine-tuning VLMs comes with limitations as it requires `white-box' access to the model's architecture and weights as well as expertise to design the fine-tuning objectives and optimize the hyper-parameters, which are specific to each VLM and downstream task. In this work, we propose LLM-wrapper, a novel approach to adapt VLMs in a `black-box' manner by leveraging large language models (LLMs) so as to reason on their outputs. We demonstrate the effectiveness of LLM-wrapper on Referring Expression Comprehension (REC), a challenging open-vocabulary task that requires spatial and semantic reasoning. Our approach significantly boosts the performance of off-the-shelf models, resulting in competitive results when compared with classic fine-tuning.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# 拡散モデルの時間的・空間的構成による複雑な3次元人体運動の生成

Generation of Complex 3D Human Motion by Temporal and Spatial Composition of Diffusion Models ( http://arxiv.org/abs/2409.11920v1 )

ライセンス: Link先を確認
Lorenzo Mandelli, Stefano Berretti, (参考訳) 本稿では,訓練期間中に一度も見られなかったアクションクラスに対して,現実的な3次元人間の動作を生成するという課題に対処する。 我々のアプローチでは、GPTモデルに含まれる人間の動きの知識を活用することによって、複雑な動作をより単純な動き、特に訓練中に観察するものに分解する。 これらの単純な動きは、拡散モデルの性質を用いて単一の現実的なアニメーションに結合される。 我々の主張は、この分解とその後の単純な動きの組換えは、複雑な入力動作を正確に表現するアニメーションを合成できるというものである。 この方法は、推論フェーズ中に動作し、事前訓練された拡散モデルと統合することができ、トレーニングデータに存在しない運動クラスの合成を可能にする。 本研究では,2つの人間の動作データセットを基本的な動作と複雑な動作に分割して評価し,その性能を最先端の動作と比較する。

In this paper, we address the challenge of generating realistic 3D human motions for action classes that were never seen during the training phase. Our approach involves decomposing complex actions into simpler movements, specifically those observed during training, by leveraging the knowledge of human motion contained in GPTs models. These simpler movements are then combined into a single, realistic animation using the properties of diffusion models. Our claim is that this decomposition and subsequent recombination of simple movements can synthesize an animation that accurately represents the complex input action. This method operates during the inference phase and can be integrated with any pre-trained diffusion model, enabling the synthesis of motion classes not present in the training data. We evaluate our method by dividing two benchmark human motion datasets into basic and complex actions, and then compare its performance against the state-of-the-art.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# 集約型トークンクラスタリング

Agglomerative Token Clustering ( http://arxiv.org/abs/2409.11923v1 )

ライセンス: Link先を確認
Joakim Bruslund Haurum, Sergio Escalera, Graham W. Taylor, Thomas B. Moeslund, (参考訳) 本稿では,画像分類,画像合成,オブジェクト検出・セグメンテーションタスクにまたがって,従来のトークンマージ・プルーニング手法を一貫して上回る新しいトークンマージ手法であるAgglomerative Token Clustering(ATC)を提案する。 ATCは、追加の学習可能なパラメータを導入することなく、ボトムアップ階層的なクラスタリングを通じてクラスタをマージする。 ATCはすべてのタスクで最先端のパフォーマンスを達成でき、事前の最先端に匹敵する性能、すなわち微調整なしでも性能を発揮できることがわかった。 ATCは低い保持率で適用すると特に有効であり、トークンのごく一部の保持とタスク性能の維持が特に困難である。

We present Agglomerative Token Clustering (ATC), a novel token merging method that consistently outperforms previous token merging and pruning methods across image classification, image synthesis, and object detection & segmentation tasks. ATC merges clusters through bottom-up hierarchical clustering, without the introduction of extra learnable parameters. We find that ATC achieves state-of-the-art performance across all tasks, and can even perform on par with prior state-of-the-art when applied off-the-shelf, i.e. without fine-tuning. ATC is particularly effective when applied with low keep rates, where only a small fraction of tokens are kept and retaining task performance is especially difficult.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# 交通事故死亡率予測のための説明可能な機械学習手法

An Explainable Machine Learning Approach to Traffic Accident Fatality Prediction ( http://arxiv.org/abs/2409.11929v1 )

ライセンス: Link先を確認
Md. Asif Khan Rifat, Ahmedul Kabir, Armana Sabiha Huq, (参考訳) 道路交通事故(RTA)は、世界中の公衆衛生上の脅威となり、生命と経済的負担が著しく減少する。 これはバングラデシュのような発展途上国では特に深刻である。 衝突結果を予測するための信頼性の高いモデルの構築は、効果的な予防措置を実施する上で不可欠である。 本研究は,2017年から2022年までのダッカ大都市圏交通事故データベースのデータを用いて,致命的・非致命的道路事故を分類する機械学習手法を提案する。 本フレームワークでは,ロジスティック回帰,サポートベクトルマシン,ネイブベイズ,ランダムフォレスト,決定木,グラディエントブースティング,LightGBM,人工ニューラルネットワークなど,さまざまな機械学習分類アルゴリズムを利用している。 我々は,事故事故の致命的な要因を解明するSHAP (SHapley Additive exPlanations) 手法を用いて,モデル解釈可能性の優先順位付けを行う。 その結果, LightGBM は他のモデルよりも優れており, ROC-AUC スコアは 0.72 であることがわかった。 モデルの振る舞いに関するより深い洞察を得るために、グローバル、ローカル、および機能依存分析を行う。 SHAP分析により、死亡リスクを決定する上で、死亡者数、事故時刻、場所、車両タイプ、道路タイプが重要な役割を担っていることが明らかとなった。 これらの知見は、発展途上国の政策立案者や道路安全実践者に貴重な洞察を与え、エビデンスに基づく戦略の実施により、交通事故死者の削減を可能にした。

Road traffic accidents (RTA) pose a significant public health threat worldwide, leading to considerable loss of life and economic burdens. This is particularly acute in developing countries like Bangladesh. Building reliable models to forecast crash outcomes is crucial for implementing effective preventive measures. To aid in developing targeted safety interventions, this study presents a machine learning-based approach for classifying fatal and non-fatal road accident outcomes using data from the Dhaka metropolitan traffic crash database from 2017 to 2022. Our framework utilizes a range of machine learning classification algorithms, comprising Logistic Regression, Support Vector Machines, Naive Bayes, Random Forest, Decision Tree, Gradient Boosting, LightGBM, and Artificial Neural Network. We prioritize model interpretability by employing the SHAP (SHapley Additive exPlanations) method, which elucidates the key factors influencing accident fatality. Our results demonstrate that LightGBM outperforms other models, achieving a ROC-AUC score of 0.72. The global, local, and feature dependency analyses are conducted to acquire deeper insights into the behavior of the model. SHAP analysis reveals that casualty class, time of accident, location, vehicle type, and road type play pivotal roles in determining fatality risk. These findings offer valuable insights for policymakers and road safety practitioners in developing countries, enabling the implementation of evidence-based strategies to reduce traffic crash fatalities.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# 開量子系と孤立量子系における熱化の差について : ケーススタディ

On the difference between thermalization in open and isolated quantum systems: a case study ( http://arxiv.org/abs/2409.11932v1 )

ライセンス: Link先を確認
Archak Purkayastha, Giacomo Guarnieri, Janet Anders, Marco Merkli, (参考訳) 孤立量子系と開量子系の熱化は広く研究されている。 しかし、異なる科学コミュニティによる調査の対象であり、異なる数学的ツールを用いて分析されているため、分離された(IQS)とオープンな(OQS)アプローチの関連性はいまだに不透明である。 ここでは、2つのパラダイムの根本的な違いは、長い時間と熱力学の限界が取られる順序であることを示す。 この違いは、大きく異なる時間と長さのスケールで物理学を記述することを意味する。 フェミオン鉛に結合した二重量子ドット(DQD)の場合,数値解析を行った。 このモデルでは,OQSとIQSの双方の温度分布を等温で調べることができ,両者を公平に比較できることを示す。 四重結合(自由結合)DQDは孤立した熱化を経験しないが、もちろんオープンな熱化を経験している。 フェルミオン鉛に結合した非線形相互作用DQDについて、スペクトル形状係数とレベル間隔分布を特徴付けることにより、系が可積分状態と非可積分状態の間のトワイライトゾーンに落ちることを示す。 さらに、一部は非可積分であり、したがって標準固有状態熱化仮説の限界外にあるにもかかわらず、OQS熱化と同様にIQSを経験することを示す。

Thermalization of isolated and open quantum systems has been studied extensively. However, being the subject of investigation by different scientific communities and being analysed using different mathematical tools, the connection between the isolated (IQS) and open (OQS) approaches to thermalization has remained opaque. Here we demonstrate that the fundamental difference between the two paradigms is the order in which the long time and the thermodynamic limits are taken. This difference implies that they describe physics on widely different time and length scales. Our analysis is carried out numerically for the case of a double quantum dot (DQD) coupled to a fermionic lead. We show how both OQS and IQS thermalization can be explored in this model on equal footing, allowing a fair comparison between the two. We find that while the quadratically coupled (free) DQD experiences no isolated thermalization, it of course does experience open thermalization. For the non-linearly interacting DQD coupled to fermionic lead, we show by characterizing its spectral form factor and level spacing distribution, that the system falls in the twilight zone between integrable and non-integrable regimes, which we call partially non-integrable. We further evidence that, despite being only partially non-integrable and thereby falling outside the remit of the standard eigenstate thermalization hypothesis, it nevertheless experiences IQS as well as OQS thermalization.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# 実世界の生産スケジューリングのための改良的ヒューリスティックとしての強化学習

Reinforcement Learning as an Improvement Heuristic for Real-World Production Scheduling ( http://arxiv.org/abs/2409.11933v1 )

ライセンス: Link先を確認
Arthur Müller, Lukas Vollenkemper, (参考訳) Reinforcement Learning(RL)とヒューリスティックな手法の統合は、RLが探索プロセス中に生成されたデータから学習する能力を活用することで、最適化問題を解決するための新たなトレンドである。 1つの有望なアプローチは、RLエージェントを改善ヒューリスティック(英語版)として訓練し、小さな変化を適用して反復的に改善する最適化解から始めることである。 本手法を実世界の多目的生産スケジューリング問題に適用する。 本手法では、Transformerエンコーディングを含むネットワークアーキテクチャを用いて、ジョブ間の関係を学習する。 その後、確率行列が生成され、各ジョブのペアがサンプリングされ、その解を改善するために交換される。 当社のアプローチを、業界パートナの本当のデータを使って、他のヒューリスティックな人たちに対してベンチマークし、その優れたパフォーマンスを実証しました。

The integration of Reinforcement Learning (RL) with heuristic methods is an emerging trend for solving optimization problems, which leverages RL's ability to learn from the data generated during the search process. One promising approach is to train an RL agent as an improvement heuristic, starting with a suboptimal solution that is iteratively improved by applying small changes. We apply this approach to a real-world multiobjective production scheduling problem. Our approach utilizes a network architecture that includes Transformer encoding to learn the relationships between jobs. Afterwards, a probability matrix is generated from which pairs of jobs are sampled and then swapped to improve the solution. We benchmarked our approach against other heuristics using real data from our industry partner, demonstrating its superior performance.
翻訳日:2024-09-19 17:50:39 公開日:2024-09-18
# ロボットのためのLie Group Orientationsを用いた強化学習

Reinforcement Learning with Lie Group Orientations for Robotics ( http://arxiv.org/abs/2409.11935v1 )

ライセンス: Link先を確認
Martin Schuck, Jan Brüdigam, Sandra Hirche, Angela Schoellig, (参考訳) ロボットとオブジェクトの向きを扱うことは、多くのアプリケーションにおいて重要な側面である。 しかし、多くの場合、特に人工ニューラルネットワークを含む学習パイプラインにおいて、配向を扱う際に数学的正しさが欠如している。 本稿では,配向を用いた強化学習について検討し,配向のリー群構造に固執するネットワークの入力と出力の簡易な修正を提案する。 その結果、既存の学習ライブラリで直接利用でき、他の共通の向き表現よりもはるかに優れた性能を実現する、簡単かつ効率的な実装が得られた。 ロボット工学におけるオリエンテーションのためのLie理論を簡潔に紹介し、我々のアプローチを動機づけ、概説する。 その後、状態と行動に対する配向表現の異なる組み合わせを徹底的に評価することにより、直接配向制御、エンドエフェクタ配向制御、ピック・アンド・プレイス・タスクを含む様々なシナリオにおいて、提案手法の優れた性能を示す。

Handling orientations of robots and objects is a crucial aspect of many applications. Yet, ever so often, there is a lack of mathematical correctness when dealing with orientations, especially in learning pipelines involving, for example, artificial neural networks. In this paper, we investigate reinforcement learning with orientations and propose a simple modification of the network's input and output that adheres to the Lie group structure of orientations. As a result, we obtain an easy and efficient implementation that is directly usable with existing learning libraries and achieves significantly better performance than other common orientation representations. We briefly introduce Lie theory specifically for orientations in robotics to motivate and outline our approach. Subsequently, a thorough empirical evaluation of different combinations of orientation representations for states and actions demonstrates the superior performance of our proposed approach in different scenarios, including: direct orientation control, end effector orientation control, and pick-and-place tasks.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# 脱カップリングを考慮した衝突促進歯列アレンジメントネットワーク

Differentiable Collision-Supervised Tooth Arrangement Network with a Decoupling Perspective ( http://arxiv.org/abs/2409.11937v1 )

ライセンス: Link先を確認
Zhihui He, Chengyuan Wang, Shidong Yang, Li Chen, Yanheng Zhou, Shuo Wang, (参考訳) 歯のアレンジメントは、デジタル矯正計画プロセスにおいて不可欠なステップである。 既存の学習ベースの手法では、隠れた歯の特徴を使って直接歯の動きを抑える。 これは3次元変換の認識不良につながる可能性がある。 また、予測された歯の重なり合いやギャップも無視するが、一般的には受け入れられない。 そこで本研究では, 衝突制御型歯列配置ネットワークであるDTANを提案し, 予測タスクと特徴モデリングを分離する。 DTANは、まず最後の歯のポーズの隠れた特徴を予測し、それを使って開始歯とターゲット歯の間の動きを後退させる。 隠れた特徴をよりよく学習するために、DTANは歯に隠された特徴を幾何学的特徴と位置的特徴に分離する。 さらに,他の3次元点群に容易に拡張可能な,歯間のジェスチャーを制約する点群データに対する新たな微分可能な衝突損失関数を提案する。 我々はC-DTANという名前のアーチ幅案内歯列配置ネットワークを提案し、その結果を制御可能にした。 3つの異なる歯列データセットを構築し、既存の方法と比較して精度と速度を大幅に改善した。

Tooth arrangement is an essential step in the digital orthodontic planning process. Existing learning-based methods use hidden teeth features to directly regress teeth motions, which couples target pose perception and motion regression. It could lead to poor perceptions of three-dimensional transformation. They also ignore the possible overlaps or gaps between teeth of predicted dentition, which is generally unacceptable. Therefore, we propose DTAN, a differentiable collision-supervised tooth arrangement network, decoupling predicting tasks and feature modeling. DTAN decouples the tooth arrangement task by first predicting the hidden features of the final teeth poses and then using them to assist in regressing the motions between the beginning and target teeth. To learn the hidden features better, DTAN also decouples the teeth-hidden features into geometric and positional features, which are further supervised by feature consistency constraints. Furthermore, we propose a novel differentiable collision loss function for point cloud data to constrain the related gestures between teeth, which can be easily extended to other 3D point cloud tasks. We propose an arch-width guided tooth arrangement network, named C-DTAN, to make the results controllable. We construct three different tooth arrangement datasets and achieve drastically improved performance on accuracy and speed compared with existing methods.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# ガウシアンヘッド:粗大な表現から得られるガウシアンヘッドアバターのエンド・ツー・エンド学習

GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations ( http://arxiv.org/abs/2409.11951v1 )

ライセンス: Link先を確認
Kartik Teotia, Hyeongwoo Kim, Pablo Garrido, Marc Habermann, Mohamed Elgharib, Christian Theobalt, (参考訳) 人間の頭アバターのリアルタイムレンダリングは、拡張現実、ビデオゲーム、映画など、多くのコンピュータグラフィックスアプリケーションの基盤となっている。 近年のアプローチでは、計算効率のよい幾何プリミティブを用いて、慎重に校正されたマルチビュー設定でこの問題に対処している。 フォトリアリスティックなヘッドレンダリングを生成するが、口内や強く変化するヘッドポーズのような複雑な動きの変化を表現できないことが多い。 マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。 本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。 まず、生の入力フレームから抽出された豊富な顔の特徴から、テンプレートメッシュの粗い顔形状を変形させることを学ぶ。 そして、変形した表面上で3次元ガウスを初期化し、その位置を微細なステップで洗練する。 我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。 これにより、ビデオ入力による顔のアニメーションを制御できるだけでなく、舌の変形や大きな動きの変化によるきめ細かな歯の構造といった挑戦的な表情を高忠実に表現できる。 さらに、学習した頭部アバターは、推論時に新しい表情や頭部ポーズに向けて一般化することを奨励する。 提案手法の性能を,異なるデータセット上の関連手法と比較し,複数のIDにまたがる難解な表情列にまたがって示す。 また, 顔の異性間性能伝達アプリケーションの実証により, 提案手法の応用の可能性を示す。

Real-time rendering of human head avatars is a cornerstone of many computer graphics applications, such as augmented reality, video games, and films, to name a few. Recent approaches address this challenge with computationally efficient geometry primitives in a carefully calibrated multi-view setup. Albeit producing photorealistic head renderings, it often fails to represent complex motion changes such as the mouth interior and strongly varying head poses. We propose a new method to generate highly dynamic and deformable human head avatars from multi-view imagery in real-time. At the core of our method is a hierarchical representation of head models that allows to capture the complex dynamics of facial expressions and head movements. First, with rich facial features extracted from raw input frames, we learn to deform the coarse facial geometry of the template mesh. We then initialize 3D Gaussians on the deformed surface and refine their positions in a fine step. We train this coarse-to-fine facial avatar model along with the head pose as a learnable parameter in an end-to-end framework. This enables not only controllable facial animation via video inputs, but also high-fidelity novel view synthesis of challenging facial expressions, such as tongue deformations and fine-grained teeth structure under large motion changes. Moreover, it encourages the learned head avatar to generalize towards new facial expressions and head poses at inference time. We demonstrate the performance of our method with comparisons against the related methods on different datasets, spanning challenging facial expression sequences across multiple identities. We also show the potential application of our approach by demonstrating a cross-identity facial performance transfer application.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# 高フレームレートでのフレームイベント融合ネットワークによる任意の点の追跡

Tracking Any Point with Frame-Event Fusion Network at High Frame Rate ( http://arxiv.org/abs/2409.11953v1 )

ライセンス: Link先を確認
Jiaxiong Liu, Bo Wang, Zhen Tan, Jinpu Zhang, Hui Shen, Dewen Hu, (参考訳) 画像フレームに基づく任意の点の追跡はフレームレートによって制限され、高速なシナリオでは不安定になり、現実のアプリケーションでは限定的な一般化となる。 これらの制約を克服するために,画像フレームからのコンテキスト情報とイベントの高時間分解能を組み合わせ,様々な困難条件下で高いフレームレートとロバストな点追跡を実現するイメージイベント融合点追跡器FE-TAPを提案する。 具体的には、イベントによってガイドされる画像生成プロセスをモデル化する進化融合モジュール(EvoFusion)を設計した。 このモジュールは、異なる周波数で動作する両方のモダリティから有用な情報を効果的に統合することができる。 よりスムーズなポイントトラジェクトリを実現するために,ポイントトラジェクトリと特徴を反復的に更新するトランスフォーマーベースの洗練戦略を採用した。 大規模な実験により,提案手法は最先端の手法よりも優れており,特にEDSデータセット上での期待特徴年齢を24$\%向上させることができた。 最後に、我々のカスタム設計した高解像度画像イベント同期装置を用いて、実走行シナリオにおけるアルゴリズムの頑健さを質的に検証した。 ソースコードはhttps://github.com/ljx1002/FE-TAP.comで公開されます。

Tracking any point based on image frames is constrained by frame rates, leading to instability in high-speed scenarios and limited generalization in real-world applications. To overcome these limitations, we propose an image-event fusion point tracker, FE-TAP, which combines the contextual information from image frames with the high temporal resolution of events, achieving high frame rate and robust point tracking under various challenging conditions. Specifically, we designed an Evolution Fusion module (EvoFusion) to model the image generation process guided by events. This module can effectively integrate valuable information from both modalities operating at different frequencies. To achieve smoother point trajectories, we employed a transformer-based refinement strategy that updates the point's trajectories and features iteratively. Extensive experiments demonstrate that our method outperforms state-of-the-art approaches, particularly improving expected feature age by 24$\%$ on EDS datasets. Finally, we qualitatively validated the robustness of our algorithm in real driving scenarios using our custom-designed high-resolution image-event synchronization device. Our source code will be released at https://github.com/ljx1002/FE-TAP.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# 実システムにおけるスピン増幅

Spin amplification in realistic systems ( http://arxiv.org/abs/2409.11956v1 )

ライセンス: Link先を確認
Ivan Iakoupov, Victor M. Bastidas, Yuichiro Matsuzaki, Shiro Saito, William J. Munro, (参考訳) スピン増幅は、1つの励起スピンがある場合、理想的には励起スピンの数を増やすプロセスである。 古典的な駆動パルス形状を見つけるための最適制御手法を用いて、ハミルトニアンの相互作用項によって設定された時間スケールに匹敵する増幅時間でスピン増幅を行うことができることを示す。 これは以前のプロトコルよりも桁違いに高速で、スピン系において大きなデコヒーレンスや不均一性を伴ってもスピン増幅を可能にする。 初期スピン励起はアンサンブル全体にわたって非局在化することができ、光子がスピンに集合的に吸収されるときのより典型的な状況である。 我々は超伝導の持続電流人工原子をスピンとして重視するが、この手法はリュードベルク原子を含む他の種類の強い相互作用を持つスピンにも適用できる。

Spin amplification is the process that ideally increases the number of excited spins if there was one excited spin to begin with. Using optimal control techniques to find classical drive pulse shapes, we show that spin amplification can be done in the previously unexplored regime with amplification times comparable to the timescale set by the interaction terms in the Hamiltonian. This is an order of magnitude faster than the previous protocols and makes spin amplification possible even with significant decoherence and inhomogeneity in the spin system. The initial spin excitation can be delocalized over the entire ensemble, which is a more typical situation when a photon is collectively absorbed by the spins. We focus on the superconducting persistent-current artificial atoms as spins, but this approach can be applied to other kinds of strongly-interacting spins, including the Rydberg atoms.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# 複雑環境に基づく中国語連続手話データセット

A Chinese Continuous Sign Language Dataset Based on Complex Environments ( http://arxiv.org/abs/2409.11960v1 )

ライセンス: Link先を確認
Qidan Zhu, Jing Li, Fei Yuan, Jiaojiao Fan, Quan Gan, (参考訳) 連続手話認識(CSLR)研究の現在のボトルネックは、ほとんどの公開データセットが実験室環境やテレビ番組の録画に限られているという事実にある。 この課題に対処するため、複雑な環境をベースとした中国語連続手話データセット(CSL)を新たに構築し、中国手話データセット(CE-CSL)と呼ぶ。 このデータセットは、日常生活シーンから収集された5,988の連続CSLビデオクリップを含み、代表性と一般化能力を確保するために70以上の複雑な背景を特徴としている。 複雑な背景がCSLRの性能に与える影響を解決するために,連続手話認識のための時間周波数ネットワーク(TFNet)モデルを提案する。 本モデルは,フレームレベルの特徴を抽出し,時間情報とスペクトル情報の両方を用いて,融合前のシーケンス特徴を分離し,効率的かつ正確なCSLRを実現する。 実験により,CE-CSLの性能改善が図られ,複雑な背景条件下での有効性が検証された。 さらに,提案手法は3つの公開CSLデータセットに適用した場合,高い競争力が得られる。

The current bottleneck in continuous sign language recognition (CSLR) research lies in the fact that most publicly available datasets are limited to laboratory environments or television program recordings, resulting in a single background environment with uniform lighting, which significantly deviates from the diversity and complexity found in real-life scenarios. To address this challenge, we have constructed a new, large-scale dataset for Chinese continuous sign language (CSL) based on complex environments, termed the complex environment - chinese sign language dataset (CE-CSL). This dataset encompasses 5,988 continuous CSL video clips collected from daily life scenes, featuring more than 70 different complex backgrounds to ensure representativeness and generalization capability. To tackle the impact of complex backgrounds on CSLR performance, we propose a time-frequency network (TFNet) model for continuous sign language recognition. This model extracts frame-level features and then utilizes both temporal and spectral information to separately derive sequence features before fusion, aiming to achieve efficient and accurate CSLR. Experimental results demonstrate that our approach achieves significant performance improvements on the CE-CSL, validating its effectiveness under complex background conditions. Additionally, our proposed method has also yielded highly competitive results when applied to three publicly available CSL datasets.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# 教師インフォームド・コンユース・クラス・インストラクションを用いたデータ効率の良い音響シーン分類

Data Efficient Acoustic Scene Classification using Teacher-Informed Confusing Class Instruction ( http://arxiv.org/abs/2409.11964v1 )

ライセンス: Link先を確認
Jin Jie Sean Yeo, Ee-Leng Tan, Jisheng Bai, Santi Peksi, Woon-Seng Gan, (参考訳) 本技術報告では,SNTL-NTUチームによるタスク1データ効率の低い音響シーンの分類と音響シーン・イベントの検出・分類(DCASE)2024課題について述べる。 異なるサイズのトレーニング分割に取り組むために、3つのシステムが導入されている。 小規模なトレーニング分割のために,提案するベースラインモデルの複雑さを減らし,ベースチャネルの数を減らして検討した。 トレーニングサンプルの多様性を高めるために,データ拡張をミックスアップ形式で導入する。 より大きなトレーニング分割のために、FocusNetを使用して、複数のPatchout faSt Spectrogram Transformer(PaSST)モデルと、元のサンプリングレート44.1kHzでトレーニングされたベースラインモデルのアンサンブルに、混乱したクラス情報を提供する。 我々は知識蒸留を用いてアンサンブルモデルをベースラインの学生モデルに蒸留する。 2022年のTAUアーバン・アコースティック・シーンのシステムのトレーニングでは、3つのシステムでそれぞれ(100, 50, 25, 10, 5)%で(62.21, 59.82, 56.81, 53.03, 47.97)%の平均テスト精度が得られた。

In this technical report, we describe the SNTL-NTU team's submission for Task 1 Data-Efficient Low-Complexity Acoustic Scene Classification of the detection and classification of acoustic scenes and events (DCASE) 2024 challenge. Three systems are introduced to tackle training splits of different sizes. For small training splits, we explored reducing the complexity of the provided baseline model by reducing the number of base channels. We introduce data augmentation in the form of mixup to increase the diversity of training samples. For the larger training splits, we use FocusNet to provide confusing class information to an ensemble of multiple Patchout faSt Spectrogram Transformer (PaSST) models and baseline models trained on the original sampling rate of 44.1 kHz. We use Knowledge Distillation to distill the ensemble model to the baseline student model. Training the systems on the TAU Urban Acoustic Scene 2022 Mobile development dataset yielded the highest average testing accuracy of (62.21, 59.82, 56.81, 53.03, 47.97)% on split (100, 50, 25, 10, 5)% respectively over the three systems.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# ベンチマークとしての合成データの有効性

Efficacy of Synthetic Data as a Benchmark ( http://arxiv.org/abs/2409.11968v1 )

ライセンス: Link先を確認
Gaurav Maheshwari, Dmitry Ivanov, Kevin El Haddad, (参考訳) 大規模言語モデル(LLM)は、トレーニングとテストのための合成データセットの生成を含む、ゼロショットおよび少数ショットの学習設定での幅広いアプリケーションを可能にした。 しかし、これらの合成データセットを確実に利用するためには、実際のデータがどのように代表的であるかを理解することが不可欠である。 本研究では,LLMによる合成データ生成の有効性を評価し,様々なNLPタスクのベンチマークとして利用する。 6つのデータセットと3つの異なるタスクにわたる実験により、合成データは、インテント分類のようなより単純なタスクのために、様々なメソッドのパフォーマンスを効果的にキャプチャできるが、名前付きエンティティ認識のようなより複雑なタスクには不足していることが示された。 さらに、ベンチマークデータの生成とタスク実行の両方にLLMが使用される場合に導入されたバイアスを評価する、バイアス係数と呼ばれる新しい指標を提案する。 より小さな LLM が生成したデータに対してバイアスを示すのに対して、より大きなモデルはそうではない。 概して,ベンチマークとしての合成データの有効性はタスクによって異なり,実践者は可能な限り,複数の大規模モデルから生成されたデータに頼るべきである。

Large language models (LLMs) have enabled a range of applications in zero-shot and few-shot learning settings, including the generation of synthetic datasets for training and testing. However, to reliably use these synthetic datasets, it is essential to understand how representative they are of real-world data. We investigate this by assessing the effectiveness of generating synthetic data through LLM and using it as a benchmark for various NLP tasks. Our experiments across six datasets, and three different tasks, show that while synthetic data can effectively capture performance of various methods for simpler tasks, such as intent classification, it falls short for more complex tasks like named entity recognition. Additionally, we propose a new metric called the bias factor, which evaluates the biases introduced when the same LLM is used to both generate benchmarking data and to perform the tasks. We find that smaller LLMs exhibit biases towards their own generated data, whereas larger models do not. Overall, our findings suggest that the effectiveness of synthetic data as a benchmark varies depending on the task, and that practitioners should rely on data generated from multiple larger models whenever possible.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# ブラックボックスの公開:鳥の視点知覚モデルのための独立機能モジュール評価

Unveiling the Black Box: Independent Functional Module Evaluation for Bird's-Eye-View Perception Model ( http://arxiv.org/abs/2409.11969v1 )

ライセンス: Link先を確認
Ludan Zhang, Xiaokang Ding, Yuqi Dai, Lei He, Keqiang Li, (参考訳) 自動運転車の認識において、エンド・ツー・エンドのモデルが主流になりつつある。 しかし、その内部メカニズムを慎重に分解できないことは、開発効率を低下させ、信頼の確立を妨げる。 本稿では,鳥の眼視知覚モデル(BEV-IFME)の独立機能モジュール評価について述べる。これはモジュールの機能マップを統一意味表現空間内でグラウンドトゥルースに対してジャクサプリメントし,それらの類似性を定量化し,個々の機能モジュールのトレーニング成熟度を評価する新しいフレームワークである。 このフレームワークの中核は,2段階のアライメントオートエンコーダによって促進される特徴マップエンコーディングと表現整合のプロセスにある。 機能モジュールのトレーニング成熟度を評価するための指標であるSimisity Scoreは、評価のためのフレームワークの信頼性を示す平均相関係数0.9387で、BEVメトリクスと強い正の相関を示す。

End-to-end models are emerging as the mainstream in autonomous driving perception. However, the inability to meticulously deconstruct their internal mechanisms results in diminished development efficacy and impedes the establishment of trust. Pioneering in the issue, we present the Independent Functional Module Evaluation for Bird's-Eye-View Perception Model (BEV-IFME), a novel framework that juxtaposes the module's feature maps against Ground Truth within a unified semantic Representation Space to quantify their similarity, thereby assessing the training maturity of individual functional modules. The core of the framework lies in the process of feature map encoding and representation aligning, facilitated by our proposed two-stage Alignment AutoEncoder, which ensures the preservation of salient information and the consistency of feature structure. The metric for evaluating the training maturity of functional modules, Similarity Score, demonstrates a robust positive correlation with BEV metrics, with an average correlation coefficient of 0.9387, attesting to the framework's reliability for assessment purposes.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# LLM-Derived Embedding Representation を用いた潜時材料情報のサンプリング

Sampling Latent Material-Property Information From LLM-Derived Embedding Representations ( http://arxiv.org/abs/2409.11971v1 )

ライセンス: Link先を確認
Luke P. J. Gilligan, Matteo Cobelli, Hasan M. Sayeed, Taylor D. Sparks, Stefano Sanvito, (参考訳) 大規模言語モデル(LLM)から派生したベクトル埋め込みは、文献から潜伏した情報を取得することを約束している。 興味深いことに、これらは材料埋め込みに統合することができ、材料特性のデータ駆動予測に有用である可能性がある。 本研究では, LLM由来ベクトルが所望の情報を捕捉する範囲と, 付加的なトレーニングを伴わずに材料特性に関する洞察を提供する可能性について検討する。 その結果, LLMは特定の特性情報を反映した表現を生成するのに有効であるが, 埋め込みを抽出するには, 最適な文脈的手がかりと適切なコンパレータの同定が必要であることがわかった。 この制限にもかかわらず、LLMは有意義な物質科学表現を生成するのに有用である可能性がある。

Vector embeddings derived from large language models (LLMs) show promise in capturing latent information from the literature. Interestingly, these can be integrated into material embeddings, potentially useful for data-driven predictions of materials properties. We investigate the extent to which LLM-derived vectors capture the desired information and their potential to provide insights into material properties without additional training. Our findings indicate that, although LLMs can be used to generate representations reflecting certain property information, extracting the embeddings requires identifying the optimal contextual clues and appropriate comparators. Despite this restriction, it appears that LLMs still have the potential to be useful in generating meaningful materials-science representations.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# グラフニューラルネットワークを用いたメトリック・セマンティック因子グラフ生成

Metric-Semantic Factor Graph Generation based on Graph Neural Networks ( http://arxiv.org/abs/2409.11972v1 )

ライセンス: Link先を確認
Jose Andres Millan-Romera, Hriday Bavle, Muhammad Shaheer, Holger Voos, Jose Luis Sanchez-Lopez, (参考訳) 幾何学構造と意味概念の関係を理解することは、複雑な環境の正確なモデルを構築する上で重要である。 屋内では、平面の相対的な位置決めのような空間的制約は、レイアウトのばらつきにもかかわらず一貫している。 本稿では,空間や壁といった高次概念を表現し,最適化可能な因子グラフを通じて平面などの幾何学的要素にリンクすることにより,これらの不変関係をグラフSLAMフレームワークで捉える方法について検討する。 いくつかの取り組みは、各概念生成のためのアドホックなソリューションと、手動で定義された要素によってこの問題に対処してきた。 本稿では,意味的シーングラフの定義,幾何学的情報の統合,およびグラフニューラルネットワーク(GNN)に基づく相互接続因子の学習を含む,メトリック・セマンティック・ファクターグラフ生成のための新しい手法を提案する。 エッジ分類ネットワーク(G-GNN)は、平面間のエッジを同じ部屋、同じ壁、または全くのタイプに分類する。 結果として生成された関係はクラスタ化され、各クラスタの部屋や壁を生成する。 第2のネットワークファミリー(F-GNN)は、新しいノードの幾何学的起源を推測する。 因子の定義は、生成されたノードのメートル法属性に使用されるのと同じF-GNNを使用する。 さらに、新しい因子グラフをS-Graphs+アルゴリズムと共有し、そのグラフ表現性とシーン表現を拡張し、SLAM性能を改善するという究極の目標を達成した。 環境の複雑さは、L字型の部屋のネットワークを訓練することで、N面の部屋へと増大する。 このフレームワークは、複雑なレイアウトの実際のデータセットが利用できないため、合成およびシミュレートされたシナリオで評価される。

Understanding the relationships between geometric structures and semantic concepts is crucial for building accurate models of complex environments. In indoors, certain spatial constraints, such as the relative positioning of planes, remain consistent despite variations in layout. This paper explores how these invariant relationships can be captured in a graph SLAM framework by representing high-level concepts like rooms and walls, linking them to geometric elements like planes through an optimizable factor graph. Several efforts have tackled this issue with add-hoc solutions for each concept generation and with manually-defined factors. This paper proposes a novel method for metric-semantic factor graph generation which includes defining a semantic scene graph, integrating geometric information, and learning the interconnecting factors, all based on Graph Neural Networks (GNNs). An edge classification network (G-GNN) sorts the edges between planes into same room, same wall or none types. The resulting relations are clustered, generating a room or wall for each cluster. A second family of networks (F-GNN) infers the geometrical origin of the new nodes. The definition of the factors employs the same F-GNN used for the metric attribute of the generated nodes. Furthermore, share the new factor graph with the S-Graphs+ algorithm, extending its graph expressiveness and scene representation with the ultimate goal of improving the SLAM performance. The complexity of the environments is increased to N-plane rooms by training the networks on L-shaped rooms. The framework is evaluated in synthetic and simulated scenarios as no real datasets of the required complex layouts are available.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# MitoSeg: Mitochondriaセグメンテーションツール

MitoSeg: Mitochondria Segmentation Tool ( http://arxiv.org/abs/2409.11974v1 )

ライセンス: Link先を確認
Faris Serdar Taşel, Efe Çiftci, (参考訳) 最近の研究では、ミトコンドリアの物理的構造と神経変性疾患の関連性が示唆されている。 電子顕微鏡技術の進歩により、ミトコンドリアの境界と内部膜構造を詳細に可視化することが可能になった。 これらの画像からミトコンドリアを自動的に分離し、ミトコンドリアと疾患の関係を調べることが重要である。 本稿では,ミトコンドリアセグメンテーションのためのソフトウェアソリューションを提案し,電子顕微鏡トモグラフィー画像のミトコンドリア境界を強調表示し,対応する3Dメッシュを生成する。

Recent studies suggest a potential link between the physical structure of mitochondria and neurodegenerative diseases. With advances in Electron Microscopy techniques, it has become possible to visualize the boundary and internal membrane structures of mitochondria in detail. It is crucial to automatically segment mitochondria from these images to investigate the relationship between mitochondria and diseases. In this paper, we present a software solution for mitochondrial segmentation, highlighting mitochondria boundaries in electron microscopy tomography images and generating corresponding 3D meshes.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# クロスモーダル逆ニューラルレンダリングによる術中レジストレーション

Intraoperative Registration by Cross-Modal Inverse Neural Rendering ( http://arxiv.org/abs/2409.11983v1 )

ライセンス: Link先を確認
Maximilian Fehrentz, Mohammad Farid Azampour, Reuben Dorent, Hassan Rasheed, Colin Galvin, Alexandra Golby, William M. Wells, Sarah Frisken, Nassir Navab, Nazim Haouchine, (参考訳) 本稿では, クロスモーダル逆ニューラルレンダリングによる神経外科手術における術中3D/2Dレジストレーションのための新しいアプローチを提案する。 本手法では,暗黙の神経表現を2つの構成要素に分離し,術前および術中における解剖学的構造について検討した。 この歪みは、マルチスタイルのハイパーネットワークを用いてニューラルレイディアンスフィールドの外観を制御することで達成される。 トレーニングが完了すると、暗黙の神経表現は、そのレンダリング画像と対象の術中画像との相違を最小化することにより、手術用カメラのポーズを推定するために使用できる、微分可能なレンダリングエンジンとして機能する。 臨床症例の振り返りデータを用いて本法の有効性を検証し,現在の登録基準を満たした状態での最先端の検査成績を示した。 コードと追加のリソースはhttps://maxfehrentz.github.io/style-ngp/で見ることができる。

We present in this paper a novel approach for 3D/2D intraoperative registration during neurosurgery via cross-modal inverse neural rendering. Our approach separates implicit neural representation into two components, handling anatomical structure preoperatively and appearance intraoperatively. This disentanglement is achieved by controlling a Neural Radiance Field's appearance with a multi-style hypernetwork. Once trained, the implicit neural representation serves as a differentiable rendering engine, which can be used to estimate the surgical camera pose by minimizing the dissimilarity between its rendered images and the target intraoperative image. We tested our method on retrospective patients' data from clinical cases, showing that our method outperforms state-of-the-art while meeting current clinical standards for registration. Code and additional resources can be found at https://maxfehrentz.github.io/style-ngp/.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# データ制限ペドメトリ応用における不確実性推定の効率的なモデル-非依存的手法

An Efficient Model-Agnostic Approach for Uncertainty Estimation in Data-Restricted Pedometric Applications ( http://arxiv.org/abs/2409.11985v1 )

ライセンス: Link先を確認
Viacheslav Barkov, Jonas Schmidinger, Robin Gebbers, Martin Atzmueller, (参考訳) 本稿では,土壌特性の予測モデルにおける不確実性評価の促進を目的としたモデル非依存手法を提案する。 土壌研究におけるデータ不足の典型的な課題に対処するため,不確実性評価のための改良手法を提案する。 この手法は回帰タスクの分類問題への変換に基づいており、これは信頼性の高い不確実性推定を生成できるだけでなく、まだペドメトリで使われていない競合性能を持つ確立された機械学習アルゴリズムの適用を可能にする。 ドイツの2つの農業分野から収集されたデータセットから得られた経験的結果は,提案手法の実践的応用を示している。 提案手法は, ペドメトリックスでよく用いられるモデルよりも, 精度の高い不確実性を推定できる可能性が示唆された。

This paper introduces a model-agnostic approach designed to enhance uncertainty estimation in the predictive modeling of soil properties, a crucial factor for advancing pedometrics and the practice of digital soil mapping. For addressing the typical challenge of data scarcity in soil studies, we present an improved technique for uncertainty estimation. This method is based on the transformation of regression tasks into classification problems, which not only allows for the production of reliable uncertainty estimates but also enables the application of established machine learning algorithms with competitive performance that have not yet been utilized in pedometrics. Empirical results from datasets collected from two German agricultural fields showcase the practical application of the proposed methodology. Our results and findings suggest that the proposed approach has the potential to provide better uncertainty estimation than the models commonly used in pedometrics.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# 付加機能属性法:流体力学と熱伝達のための説明可能な人工知能について

Additive-feature-attribution methods: a review on explainable artificial intelligence for fluid dynamics and heat transfer ( http://arxiv.org/abs/2409.11992v1 )

ライセンス: Link先を確認
Andrés Cremades, Sergio Hoyas, Ricardo Vinuesa, (参考訳) 流体力学におけるデータ駆動手法の使用は、乱流の複雑で多スケールな性質に適応する能力や、大規模シミュレーションや実験実験のパターンを検出する能力により、近年劇的に急増している。 トレーニングプロセス中にモデルで生成された関係を解釈するためには、数値属性を入力特徴に割り当てる必要がある。 重要な例として、加法-特徴-帰属法がある。 これらの説明可能性法は入力特徴とモデル予測を結びつけ、モデルの線形定式化に基づく解釈を提供する。 SHAP(SHapley Additive exPlanations)は、モデルを理解するためのユニークなソリューションを提供する唯一の可能な解釈として定式化されている。 本論文では,カーネルSHAP,ツリーSHAP,勾配SHAP,ディープSHAPの4つの共通実装について述べる。 次に, 乱流モデリング, 流体力学の基礎, 流体力学, 熱伝達の応用の3つの主要なグループに分割して, 加法-機能-寄与法の主な適用法を紹介した。 本稿では,流体力学の分野において,説明可能性技術,特に加法-機能-属性手法が解釈可能および物理に適合したディープラーニングモデルの実装に不可欠であることを示す。

The use of data-driven methods in fluid mechanics has surged dramatically in recent years due to their capacity to adapt to the complex and multi-scale nature of turbulent flows, as well as to detect patterns in large-scale simulations or experimental tests. In order to interpret the relationships generated in the models during the training process, numerical attributions need to be assigned to the input features. One important example are the additive-feature-attribution methods. These explainability methods link the input features with the model prediction, providing an interpretation based on a linear formulation of the models. The SHapley Additive exPlanations (SHAP values) are formulated as the only possible interpretation that offers a unique solution for understanding the model. In this manuscript, the additive-feature-attribution methods are presented, showing four common implementations in the literature: kernel SHAP, tree SHAP, gradient SHAP, and deep SHAP. Then, the main applications of the additive-feature-attribution methods are introduced, dividing them into three main groups: turbulence modeling, fluid-mechanics fundamentals, and applied problems in fluid dynamics and heat transfer. This review shows thatexplainability techniques, and in particular additive-feature-attribution methods, are crucial for implementing interpretable and physics-compliant deep-learning models in the fluid-mechanics field.
翻訳日:2024-09-19 17:36:39 公開日:2024-09-18
# Hessian:Loss Functionのランドスケープにおけるスムーズな収束の鍵

Unraveling the Hessian: A Key to Smooth Convergence in Loss Function Landscapes ( http://arxiv.org/abs/2409.11995v1 )

ライセンス: Link先を確認
Nikita Kiselev, Andrey Grabovoy, (参考訳) ニューラルネットワークのロスランドスケープは、トレーニングの重要な側面であり、その特性を理解することが、パフォーマンス向上に不可欠である。 本稿では,サンプルサイズが大きくなると損失面がどう変化するかを検討する。 我々は、完全に連結されたニューラルネットワークにおける損失景観の収束を理論的に解析し、新しいオブジェクトをサンプルに追加する際の損失関数値の差について上限を導出する。 画像分類作業における損失関数面の収束を実証し,これらの結果を様々なデータセットで検証した。 本研究は, ニューラルロスランドスケープの局所的形状に関する知見を提供し, サンプルサイズ決定技術の発展に寄与するものである。

The loss landscape of neural networks is a critical aspect of their training, and understanding its properties is essential for improving their performance. In this paper, we investigate how the loss surface changes when the sample size increases, a previously unexplored issue. We theoretically analyze the convergence of the loss landscape in a fully connected neural network and derive upper bounds for the difference in loss function values when adding a new object to the sample. Our empirical study confirms these results on various datasets, demonstrating the convergence of the loss function surface for image classification tasks. Our findings provide insights into the local geometry of neural loss landscapes and have implications for the development of sample size determination techniques.
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# 「技術的に印象的であるかもしれないが、実際は役に立たない」:ニュース業界におけるAIを中心としたクロスファンクションコラボレーションの実践、挑戦、そして機会

"It Might be Technically Impressive, But It's Practically Useless to Us": Practices, Challenges, and Opportunities for Cross-Functional Collaboration around AI within the News Industry ( http://arxiv.org/abs/2409.12000v1 )

ライセンス: Link先を確認
Qing Xiao, Xianzhe Fan, Felix M. Simon, Bingbing Zhang, Motahhare Eslami, (参考訳) 近年、人工知能(AI)をワークフローに統合するニュース組織が増えているため、ニュース業界にAI技術者やデータワーカーがさらに流入している。 これにより、これらの専門家とジャーナリストの間でクロスファンクショナルなコラボレーションが始まった。 これまでの研究では、ニュース業界におけるAI関連の役割の影響について検討されてきたが、AI専門家とジャーナリストの間のクロスファンクショナルなコラボレーションがいかに広がるかについての研究が不足している。 主要なニュース組織からのクロスファンクショナルな経験を持つ17人のジャーナリスト、6人のAI技術者、3人のAIワーカーとのインタビューを通じて、今日のニュース業界におけるAIを中心としたクロスファンクショナルなコラボレーションの現在の実践、課題、機会について調査する。 ジャーナリストやAI専門家が、いかに既存のクロスコラボレーション戦略を知覚するかを最初に研究する。 我々はまた、ニュース産業において、クロスファンクショナルなコラボレーションの課題を探求し、AIに関する将来のクロスファンクショナルなコラボレーションを強化するためのレコメンデーションを提供する。

Recently, an increasing number of news organizations have integrated artificial intelligence (AI) into their workflows, leading to a further influx of AI technologists and data workers into the news industry. This has initiated cross-functional collaborations between these professionals and journalists. While prior research has explored the impact of AI-related roles entering the news industry, there is a lack of studies on how cross-functional collaboration unfolds between AI professionals and journalists. Through interviews with 17 journalists, 6 AI technologists, and 3 AI workers with cross-functional experience from leading news organizations, we investigate the current practices, challenges, and opportunities for cross-functional collaboration around AI in today's news industry. We first study how journalists and AI professionals perceive existing cross-collaboration strategies. We further explore the challenges of cross-functional collaboration and provide recommendations for enhancing future cross-functional collaboration around AI in the news industry.
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# オフラインマルチエージェント強化学習センターにおけるデータ提供

Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2409.12001v1 )

ライセンス: Link先を確認
Claude Formanek, Louise Beyers, Callum Rhys Tilbury, Jonathan P. Shock, Arnu Pretorius, (参考訳) オフラインマルチエージェント強化学習(英語版)(MARL)は、静的データセットを使用してマルチエージェントシステムの最適制御ポリシーを見つける研究のエキサイティングな方向である。 この分野は定義上はデータ駆動型だが、これまでのところ、最先端の結果を達成するための努力は、データを無視してきた。 この主張をまず文献を調査し、一貫した方法論を使わずにいかに多くの作品が独自のデータセットを生成するかを示し、これらのデータセットの特徴について疎密な情報を提供する。 次に、データの性質を無視することが問題となる理由を、アルゴリズム的なパフォーマンスが使われているデータセットとどのように密結合されているかという健全な例を通して示し、この分野における実験の共通基盤を必要としている。 1)新しいデータセットを生成するための明確なガイドライン、(2)公開リポジトリにホストされている80以上の既存のデータセットの標準化、3)一貫性のあるストレージフォーマットと使いやすいAPI、(3)これらのデータセットをよりよく理解し、さらなる開発を支援するための分析ツールのスイートである。

Offline multi-agent reinforcement learning (MARL) is an exciting direction of research that uses static datasets to find optimal control policies for multi-agent systems. Though the field is by definition data-driven, efforts have thus far neglected data in their drive to achieve state-of-the-art results. We first substantiate this claim by surveying the literature, showing how the majority of works generate their own datasets without consistent methodology and provide sparse information about the characteristics of these datasets. We then show why neglecting the nature of the data is problematic, through salient examples of how tightly algorithmic performance is coupled to the dataset used, necessitating a common foundation for experiments in the field. In response, we take a big step towards improving data usage and data awareness in offline MARL, with three key contributions: (1) a clear guideline for generating novel datasets; (2) a standardisation of over 80 existing datasets, hosted in a publicly available repository, using a consistent storage format and easy-to-use API; and (3) a suite of analysis tools that allow us to understand these datasets better, aiding further development.
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# マルチモーダルオブジェクトインスタンス再同定によるグローバルなローカライゼーションに向けて

Towards Global Localization using Multi-Modal Object-Instance Re-Identification ( http://arxiv.org/abs/2409.12002v1 )

ライセンス: Link先を確認
Aneesh Chavan, Vaibhav Agrawal, Vineeth Bhat, Sarthak Chittawar, Siddharth Srivastava, Chetan Arora, K Madhava Krishna, (参考訳) 再識別(ReID)はコンピュータビジョンにおいて重要な課題であり、主に歩行者や車両の文脈で研究されている。 しかし, 自律探索, 長期認識, シーン理解といったタスクに重要な意味を持つ頑健なオブジェクトインスタンスReIDは, 未探索のままである。 本研究では,マルチモーダルRGBと深度情報を統合した新しいデュアルパスオブジェクト-インスタンス再識別トランスフォーマアーキテクチャを提案する。 深度データを活用することで,照度条件が変化したり散らばったりしたシーンにおけるReIDの改善を実演する。 さらに,ReIDに基づくカメラの正確なローカライズと,異なる視点で識別を行うことのできるローカライズフレームワークを開発した。 2つのカスタムビルドされたRGB-Dデータセットと、オープンソースのTUM RGB-Dデータセットからの複数のシーケンスを用いて、本手法の有効性を検証する。 提案手法はオブジェクトインスタンスReID(mAPは75.18)とローカライズ精度(83%はTUM-RGBD)の両方において有意な改善を示し,ロボット知覚の進展におけるオブジェクトReIDの重要性を強調した。 私たちのモデル、フレームワーク、データセットが公開されています。

Re-identification (ReID) is a critical challenge in computer vision, predominantly studied in the context of pedestrians and vehicles. However, robust object-instance ReID, which has significant implications for tasks such as autonomous exploration, long-term perception, and scene understanding, remains underexplored. In this work, we address this gap by proposing a novel dual-path object-instance re-identification transformer architecture that integrates multimodal RGB and depth information. By leveraging depth data, we demonstrate improvements in ReID across scenes that are cluttered or have varying illumination conditions. Additionally, we develop a ReID-based localization framework that enables accurate camera localization and pose identification across different viewpoints. We validate our methods using two custom-built RGB-D datasets, as well as multiple sequences from the open-source TUM RGB-D datasets. Our approach demonstrates significant improvements in both object instance ReID (mAP of 75.18) and localization accuracy (success rate of 83% on TUM-RGBD), highlighting the essential role of object ReID in advancing robotic perception. Our models, frameworks, and datasets have been made publicly available.
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# オブジェクト操作のための生成世界モデルにおける位置情報表現

Representing Positional Information in Generative World Models for Object Manipulation ( http://arxiv.org/abs/2409.12005v1 )

ライセンス: Link先を確認
Stefano Ferraro, Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Sai Rajeswar, (参考訳) オブジェクト操作能力は、特にロボット工学の領域において、世界に関わるエンボディエージェントを分離するために必要なスキルである。 この設定では、オブジェクトとの相互作用の結果を予測する能力が最重要である。 モデルに基づく制御手法が操作タスクの処理に使われ始めているが、それらはオブジェクトを正確に操作する際の課題に直面している。 この制限の原因を分析することで、現在の世界モデルが重要な位置情報を表現する方法、特に対象位置決めタスクの目標仕様について、過度なパフォーマンスの原因を特定する。 我々は、世界モデルに基づくエージェントがオブジェクト配置タスクを効果的に解くための一般的なアプローチを導入する。 本稿では, 位置条件付き (PCP) と潜在条件付き (LCP) の2つの政策学習手法を提案する。 特にLCPでは、目標仕様のためのオブジェクトの位置情報を明示的にキャプチャするオブジェクト中心の潜在表現を採用している。 このことは自然にマルチモーダル能力の出現につながり、空間座標や視覚的目標を通じて目標の指定を可能にする。 提案手法は複数の操作環境にまたがって厳密に評価され,現行のモデルベース制御手法と比較して良好な性能を示した。

Object manipulation capabilities are essential skills that set apart embodied agents engaging with the world, especially in the realm of robotics. The ability to predict outcomes of interactions with objects is paramount in this setting. While model-based control methods have started to be employed for tackling manipulation tasks, they have faced challenges in accurately manipulating objects. As we analyze the causes of this limitation, we identify the cause of underperformance in the way current world models represent crucial positional information, especially about the target's goal specification for object positioning tasks. We introduce a general approach that empowers world model-based agents to effectively solve object-positioning tasks. We propose two declinations of this approach for generative world models: position-conditioned (PCP) and latent-conditioned (LCP) policy learning. In particular, LCP employs object-centric latent representations that explicitly capture object positional information for goal specification. This naturally leads to the emergence of multimodal capabilities, enabling the specification of goals through spatial coordinates or a visual goal. Our methods are rigorously evaluated across several manipulation environments, showing favorable performance compared to current model-based control approaches.
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# Panoptic-Depth Forecasting

Panoptic-Depth Forecasting ( http://arxiv.org/abs/2409.12008v1 )

ライセンス: Link先を確認
Juana Valeria Hurtado, Riya Mohan, Abhinav Valada, (参考訳) シーンのセマンティクスと3D構造を予測することは、ロボットが安全に行動し、計画する上で不可欠である。 近年,セマンティック・パノプティック・シーンの予測手法が研究されているが,これらの手法はシーンの幾何学を考慮していない。 本研究では、単眼カメラ画像から、観測されていない将来のフレームのパノプティックセグメンテーションと深度マップを共同で予測するためのパノプティックディープス予測タスクを提案する。 この作業を容易にするために、LiDARポイントクラウドからの深度マップを計算し、シーケンシャルなラベル付きデータを活用することで、人気のあるKITTI-360とCityscapesベンチマークを拡張した。 また,コヒーレントな手法で予測の汎視的品質と深度推定の精度を定量化する適切な評価指標も導入する。 さらに、2つのベースラインを提案し、トランスフォーマーベースのエンコーダ、予測モジュール、タスク固有のデコーダを組み込むことで、より豊かな時空間表現を学習する新しいPDcastアーキテクチャを提案する。 大規模な評価では、2つのデータセットと3つの予測タスクにまたがるPDcastの有効性が示され、主要な課題に一貫して対処している。 コードはhttps://pdcast.cs.uni-freiburg.deで公開しています。

Forecasting the semantics and 3D structure of scenes is essential for robots to navigate and plan actions safely. Recent methods have explored semantic and panoptic scene forecasting; however, they do not consider the geometry of the scene. In this work, we propose the panoptic-depth forecasting task for jointly predicting the panoptic segmentation and depth maps of unobserved future frames, from monocular camera images. To facilitate this work, we extend the popular KITTI-360 and Cityscapes benchmarks by computing depth maps from LiDAR point clouds and leveraging sequential labeled data. We also introduce a suitable evaluation metric that quantifies both the panoptic quality and depth estimation accuracy of forecasts in a coherent manner. Furthermore, we present two baselines and propose the novel PDcast architecture that learns rich spatio-temporal representations by incorporating a transformer-based encoder, a forecasting module, and task-specific decoders to predict future panoptic-depth outputs. Extensive evaluations demonstrate the effectiveness of PDcast across two datasets and three forecasting tasks, consistently addressing the primary challenges. We make the code publicly available at https://pdcast.cs.uni-freiburg.de.
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# ChefFusion: レシピと食品画像生成を統合したマルチモーダルファンデーションモデル

ChefFusion: Multimodal Foundation Model Integrating Recipe and Food Image Generation ( http://arxiv.org/abs/2409.12010v1 )

ライセンス: Link先を確認
Peiyu Li, Xiaobao Huang, Yijun Tian, Nitesh V. Chawla, (参考訳) 食品コンピューティング分野において重要な研究がなされているが、これらの研究は一般的に、t2t(食品のタイトルや材料からの指示生成)、i2t(食品画像からのレシピ生成)、t2i(レシピからの食品画像生成)のような単一のタスクに焦点を当てている。 これらのアプローチはいずれも同時にすべてのモダリティを統合するものではない。 このギャップに対処するため、我々は、t2t, t2i, i2t, it2t, t2tiといったタスクを含む、真のマルチモーダルを実現する新しい食品コンピューティング基盤モデルを導入する。 大規模言語モデル(LLM)と事前学習画像エンコーダモデル、デコーダモデルを活用することで、食品理解、食品認識、レシピ生成、食品画像生成など、さまざまな食品処理関連タスクを実行できる。 これまでのモデルと比較すると, ファンデーションモデルは非常に幅広い機能を示し, 特に食品画像生成やレシピ生成において, 優れた性能を示す。 私たちはGitHubでChefFusionをオープンソース化しました。

Significant work has been conducted in the domain of food computing, yet these studies typically focus on single tasks such as t2t (instruction generation from food titles and ingredients), i2t (recipe generation from food images), or t2i (food image generation from recipes). None of these approaches integrate all modalities simultaneously. To address this gap, we introduce a novel food computing foundation model that achieves true multimodality, encompassing tasks such as t2t, t2i, i2t, it2t, and t2ti. By leveraging large language models (LLMs) and pre-trained image encoder and decoder models, our model can perform a diverse array of food computing-related tasks, including food understanding, food recognition, recipe generation, and food image generation. Compared to previous models, our foundation model demonstrates a significantly broader range of capabilities and exhibits superior performance, particularly in food image generation and recipe generation tasks. We open-sourced ChefFusion at GitHub.
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# 視覚言語モデルのためのプロンプト学習の混合

Mixture of Prompt Learning for Vision Language Models ( http://arxiv.org/abs/2409.12011v1 )

ライセンス: Link先を確認
Yu Du, Tong Niu, Rong Zhao, (参考訳) CLIPのような強力な事前学習型視覚言語モデル(VLM)が普及するにつれて、多くの研究がVLMを下流タスクに組み合わせようと試みている。 これらのうち、素早い学習は、少数のパラメータしか必要としない新しいタスクに適応するための効果的な方法として検証されている。 しかしながら、現在のプロンプト学習手法では、データセット内のさまざまなスタイルやパターンをキャプチャするために、ひとつがソフトプロンプトで苦労する、もうひとつは、微調整されたソフトプロンプトが過度に適合する傾向がある、という2つの課題に直面している。 これらの課題に対処するために、ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。 このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。 さらに、ハードプロンプトテンプレートとの類似性に基づいてルータがプロンプトを選択することを保証する新しいゲーティング機構を導入し、ハードプロンプトからの知識を保持し、選択精度を向上させる。 また,手動で設計したテンプレートのトークン埋め込みによって各ソフトプロンプトを初期化し,結果のテキスト特徴とハードプロンプトエンコードされたテキスト特徴との対比的損失を適用した。 この監督は、ソフトプロンプトから派生したテキスト特徴が、対応するハードプロンプトに近づき、初期知識を保ち、過度な適合を緩和する。 提案手法は11のデータセットで検証され,既存のベースラインと比較して,ショットラーニング,ドメインの一般化,ベース・ツー・ニューな一般化のシナリオが明らかに改善されている。 コードは \url{https://anonymous.4open.science/r/mocoop-6387} で入手できる。

As powerful pre-trained vision-language models (VLMs) like CLIP gain prominence, numerous studies have attempted to combine VLMs for downstream tasks. Among these, prompt learning has been validated as an effective method for adapting to new tasks, which only requiring a small number of parameters. However, current prompt learning methods face two challenges: first, a single soft prompt struggles to capture the diverse styles and patterns within a dataset; second, fine-tuning soft prompts is prone to overfitting. To address these challenges, we propose a mixture of soft prompt learning method incorporating a routing module. This module is able to capture a dataset's varied styles and dynamically selects the most suitable prompts for each instance. Additionally, we introduce a novel gating mechanism to ensure the router selects prompts based on their similarity to hard prompt templates, which both retaining knowledge from hard prompts and improving selection accuracy. We also implement semantically grouped text-level supervision, initializing each soft prompt with the token embeddings of manually designed templates from its group and applied a contrastive loss between the resulted text feature and hard prompt encoded text feature. This supervision ensures that the text features derived from soft prompts remain close to those from their corresponding hard prompts, preserving initial knowledge and mitigating overfitting. Our method has been validated on 11 datasets, demonstrating evident improvements in few-shot learning, domain generalization, and base-to-new generalization scenarios compared to existing baselines. The code will be available at \url{https://anonymous.4open.science/r/mocoop-6387}
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# シャノンエントロピーは、ユーザのフィードバック処理におけるカテゴリとセンチメントよりも優れている

Shannon Entropy is better Feature than Category and Sentiment in User Feedback Processing ( http://arxiv.org/abs/2409.12012v1 )

ライセンス: Link先を確認
Andres Rojas Paredes, Brenda Mareco, (参考訳) モバイルアプリストアのアプリレビューには、アプリケーションの改善とソフトウェアの進化を促進するために使用される有用な情報が含まれている。 この情報はレビューを優先する自動ツールによって処理される。 この優先順位付けを実行するために、レビューはカテゴリや感情といった機能に分解される。 そして、重み付き関数が各特徴に重みを割り当て、レビューランキングが算出される。 残念ながら、レビューからカテゴリと感情を抽出するためには、少なくとも注釈付きコーパスで訓練された分類器が必要である。 したがって、このタスクは計算要求である。 そこで本研究では,Shannon Entropyを標準機能を置き換えるシンプルな機能として提案する。 以上の結果から, シャノンエントロピーに基づくランキングは, NDCGの基準値よりも優れていることがわかった。 この結果はアルゴリズムバイアスによって公平性を必要とするとしても有望である。 最後に,最良ランキングの探索に現れる計算限界を強調した。

App reviews in mobile app stores contain useful information which is used to improve applications and promote software evolution. This information is processed by automatic tools which prioritize reviews. In order to carry out this prioritization, reviews are decomposed into features like category and sentiment. Then, a weighted function assigns a weight to each feature and a review ranking is calculated. Unfortunately, in order to extract category and sentiment from reviews, its is required at least a classifier trained in an annotated corpus. Therefore this task is computational demanding. Thus, in this work, we propose Shannon Entropy as a simple feature which can replace standard features. Our results show that a Shannon Entropy based ranking is better than a standard ranking according to the NDCG metric. This result is promising even if we require fairness by means of algorithmic bias. Finally, we highlight a computational limit which appears in the search of the best ranking.
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# BRDF-NeRF:光衛星画像とBRDFモデリングを用いたニューラルラジアンス場

BRDF-NeRF: Neural Radiance Fields with Optical Satellite Images and BRDF Modelling ( http://arxiv.org/abs/2409.12014v1 )

ライセンス: Link先を確認
Lulin Zhang, Ewelina Rupnik, Tri Dung Nguyen, Stéphane Jacquemoud, Yann Klinger, (参考訳) 衛星画像から複雑な地球表面の異方性反射を理解することは、多くの応用に不可欠である。 ニューラルレイディアンス場(NeRF)は、複数の画像からシーンの双方向反射率分布関数(BRDF)を推定できる機械学習技術として人気がある。 しかし、従来の研究はNeRFを近距離画像に適用することに集中しており、多くの地球表面で不足している基礎的なMicrofacet BRDFモデルを推定している。 さらに、高品質のNeRFは、一般的に複数の画像を同時に撮影する必要がある。 これらの制約に対処するために,遠隔センシングによく用いられる半経験的BRDFモデルであるRahman-Pinty-Verstraete(RPV)モデルを明示的に推定するために開発されたBRDF-NeRFを提案する。 我々は,(1) ジブチ,(2) ラン州,および(2) 異なる視角と太陽位置の複数のエポック上で捕獲された1つのエポックに捕獲されたジブチの2つのデータセットを用いて,アプローチを評価する。 その結果, BRDF-NeRFは, トレーニングデータから遠く離れた方向からの新たなビューを効果的に合成し, 高品質なデジタル表面モデル(DSM)を作成できることが実証された。

Understanding the anisotropic reflectance of complex Earth surfaces from satellite imagery is crucial for numerous applications. Neural radiance fields (NeRF) have become popular as a machine learning technique capable of deducing the bidirectional reflectance distribution function (BRDF) of a scene from multiple images. However, prior research has largely concentrated on applying NeRF to close-range imagery, estimating basic Microfacet BRDF models, which fall short for many Earth surfaces. Moreover, high-quality NeRFs generally require several images captured simultaneously, a rare occurrence in satellite imaging. To address these limitations, we propose BRDF-NeRF, developed to explicitly estimate the Rahman-Pinty-Verstraete (RPV) model, a semi-empirical BRDF model commonly employed in remote sensing. We assess our approach using two datasets: (1) Djibouti, captured in a single epoch at varying viewing angles with a fixed Sun position, and (2) Lanzhou, captured over multiple epochs with different viewing angles and Sun positions. Our results, based on only three to four satellite images for training, demonstrate that BRDF-NeRF can effectively synthesize novel views from directions far removed from the training data and produce high-quality digital surface models (DSMs).
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# 量子化学レベルで学習するオールインワン基礎モデル

All-in-one foundational models learning across quantum chemical levels ( http://arxiv.org/abs/2409.12015v1 )

ライセンス: Link先を確認
Yuxinxin Chen, Pavlo O. Dral, (参考訳) 機械学習(ML)ポテンシャルは典型的には1つの量子化学(QC)レベルをターゲットにしているが、多要素学習のために開発されたMLモデルは基礎モデルのスケーラブルなソリューションを提供するために示されていない。 本稿では,任意のQCレベルを学習可能なマルチモーダル学習に基づくオールインワン(AIO)ANIモデルアーキテクチャを提案する。 私たちのオールインワンの学習アプローチは、トランスファーラーニングよりも汎用的で使いやすい代替手段を提供します。 我々はAIO-ANI-UIPの基礎モデルを半経験的GFN2-xTBとDFTに匹敵する一般化能力と有機分子の二重ゼータ基底セットで訓練する。 AIO-ANIモデルは、半経験的から密度汎関数理論から結合クラスタまで、様々なQCレベルにわたって学習可能であることを示す。 また、AIOモデルを用いて、AIO-AINI-UIPと比較して精度と堅牢性を高めた基礎モデル(Delta}-AIO-AINI)を設計する。 コードと基礎モデルはhttps://github.com/dralgroup/aio-aniで利用可能で、汎用的で高機能なAI拡張QM(UAIQM)ライブラリに統合され、MLatomパッケージで利用可能になり、XACSクラウドコンピューティングプラットフォームでオンラインで使用できるようになる(更新はhttps://github.com/dralgroup/mlatomを参照)。

Machine learning (ML) potentials typically target a single quantum chemical (QC) level while the ML models developed for multi-fidelity learning have not been shown to provide scalable solutions for foundational models. Here we introduce the all-in-one (AIO) ANI model architecture based on multimodal learning which can learn an arbitrary number of QC levels. Our all-in-one learning approach offers a more general and easier-to-use alternative to transfer learning. We use it to train the AIO-ANI-UIP foundational model with the generalization capability comparable to semi-empirical GFN2-xTB and DFT with a double-zeta basis set for organic molecules. We show that the AIO-ANI model can learn across different QC levels ranging from semi-empirical to density functional theory to coupled cluster. We also use AIO models to design the foundational model {\Delta}-AIO-ANI based on {\Delta}-learning with increased accuracy and robustness compared to AIO-ANI-UIP. The code and the foundational models are available at https://github.com/dralgroup/aio-ani; they will be integrated into the universal and updatable AI-enhanced QM (UAIQM) library and made available in the MLatom package so that they can be used online at the XACS cloud computing platform (see https://github.com/dralgroup/mlatom for updates).
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# 太陽放射の長期予測のための計算イメージング

Computational Imaging for Long-Term Prediction of Solar Irradiance ( http://arxiv.org/abs/2409.12016v1 )

ライセンス: Link先を確認
Leron Julian, Haejoon Lee, Soummya Kar, Aswin C. Sankaranarayanan, (参考訳) 太陽の雲による隠蔽は、太陽発電における主要な不確実性の源の1つであり、太陽エネルギーを一次エネルギー源として広く利用することに影響を与える要因である。 雲の動きをリアルタイムに予測し、その結果、グリッドに接続された太陽光発電システム間でのエネルギーのスケジュールと割り当てには太陽放射が必要である。 それまでの作業では、空の広角視野を用いた雲の動きを監視していた。 しかし、このような画像は地平線付近に現れる雲の解像度が低く、太陽閉塞の長期予測の有効性を低下させる。 具体的には、長期間にわたって太陽の衝突を予測するためには、地平線に近い雲を検出し、その速度を正確に推定する必要がある。 このようなシステムを実現するために,一様空間分解能の広角画像を視野に配置するカタディオプトリシステムの設計と展開を行った。 より長い時間的地平面上での予測を可能にするため、推定風向と速度を入力として、画像の時空間スライスを慎重に選択したアルゴリズムを設計する。 レイトレーシングシミュレーションと実際のテストベッドを屋外に配置することにより、太陽の遮蔽だけでなく、将来の数十分間の照射も予測できることが示され、これは以前の作業よりも大幅に改善されている。

The occlusion of the sun by clouds is one of the primary sources of uncertainties in solar power generation, and is a factor that affects the wide-spread use of solar power as a primary energy source. Real-time forecasting of cloud movement and, as a result, solar irradiance is necessary to schedule and allocate energy across grid-connected photovoltaic systems. Previous works monitored cloud movement using wide-angle field of view imagery of the sky. However, such images have poor resolution for clouds that appear near the horizon, which reduces their effectiveness for long term prediction of solar occlusion. Specifically, to be able to predict occlusion of the sun over long time periods, clouds that are near the horizon need to be detected, and their velocities estimated precisely. To enable such a system, we design and deploy a catadioptric system that delivers wide-angle imagery with uniform spatial resolution of the sky over its field of view. To enable prediction over a longer time horizon, we design an algorithm that uses carefully selected spatio-temporal slices of the imagery using estimated wind direction and velocity as inputs. Using ray-tracing simulations as well as a real testbed deployed outdoors, we show that the system is capable of predicting solar occlusion as well as irradiance for tens of minutes in the future, which is an order of magnitude improvement over prior work.
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# 演算子計画型変分量子イマジナリー時間進化

Operator-Projected Variational Quantum Imaginary Time Evolution ( http://arxiv.org/abs/2409.12018v1 )

ライセンス: Link先を確認
Aeishah Ameera Anuar, Francois Jamet, Fabio Gironella, Fedor Simkovic IV, Riccardo Rossi, (参考訳) 変分量子Imaginary Time Evolution (VQITE) は、量子コンピュータ上での基底状態生成の最先端技術である。 VQITEの重要な計算課題は、量子幾何テンソルの決定である。 選択した演算子に投影された場合のみ、虚数時間進化を要求することは、忠実度推定を回避して回路深さを2倍に減らし、パラメータ数において2次から線形に測定複雑性を減少させることを示す。 我々は, 逆場イジングモデルのシミュレーションにより, 同じ精度で測定する数に対して, 数桁の精度向上を達成できることを示した。

Variational Quantum Imaginary Time Evolution (VQITE) is a leading technique for ground state preparation on quantum computers. A significant computational challenge of VQITE is the determination of the quantum geometric tensor. We show that requiring the imaginary-time evolution to be correct only when projected onto a chosen set of operators allows to achieve a twofold reduction in circuit depth by bypassing fidelity estimations, and reduces measurement complexity from quadratic to linear in the number of parameters. We demonstrate by a simulation of the transverse-field Ising model that our algorithm achieves a several orders of magnitude improvement in the number of measurements required for the same accuracy.
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# 協調コード生成モデルの約束と成功:有効性と記憶のバランスをとる

Promise and Peril of Collaborative Code Generation Models: Balancing Effectiveness and Memorization ( http://arxiv.org/abs/2409.12020v1 )

ライセンス: Link先を確認
Zhi Chen, Lingxiao Jiang, (参考訳) 機械学習の分野では、さまざまな場所や組織のデータセットを用いたトレーニングモデルが、プライバシや法的懸念による重大な課題を提起している。 分散および分離されたデータセットから貴重な知識を活用することができる効果的な協調トレーニング設定の探索は、ますます重要になっている。 本研究では,コードの次点予測における協調学習手法の有効性と,生成したコードの正確性や有用性に影響を及ぼす重要な要因について検討し,そのような手法の可能性を実証する。 さらに,集中トレーニング,フェデレーショントレーニング,インクリメンタルトレーニングなど,さまざまな協調トレーニング環境における参加者の異なるトレーニングデータの記憶を評価することで,データ漏洩の潜在的なリスクを浮き彫りにしている。 この結果から,コードデータセットのサイズと多様性が,協調的に訓練されたコードモデルの成功に影響を及ぼす重要な要因であることが示唆された。 また,フェデレーション学習は,データ保護を向上しつつ,集中学習と比較して競争性能が向上することを示す。 しかし、フェデレートされた学習は、隠れたトレーニングデータから冗長なコードスニペットを生成することができ、プライバシーや著作権を侵害する可能性がある。 本研究は,個々の参加者データセットが導入されたシーケンスを強調することで,漸進学習における有効性と記憶パターンをさらに探求する。 また、組織横断的なクローンは、中央集権的な学習シナリオと連合的な学習シナリオの両方において、一般的な課題であると見なしている。 この結果から,トレーニングデータに見当たらない場合でも,推論中のデータ漏洩の持続的リスクが浮き彫りになった。 我々は、実践者や研究者がマルチソースデータセットを最適化し、組織間のコラボレーションを前進させるよう推奨することで締めくくります。

In the rapidly evolving field of machine learning, training models with datasets from various locations and organizations presents significant challenges due to privacy and legal concerns. The exploration of effective collaborative training settings capable of leveraging valuable knowledge from distributed and isolated datasets is increasingly crucial. This study investigates key factors that impact the effectiveness of collaborative training methods in code next-token prediction, as well as the correctness and utility of the generated code, demonstrating the promise of such methods. Additionally, we evaluate the memorization of different participant training data across various collaborative training settings, including centralized, federated, and incremental training, highlighting their potential risks in leaking data. Our findings indicate that the size and diversity of code datasets are pivotal factors influencing the success of collaboratively trained code models. We show that federated learning achieves competitive performance compared to centralized training while offering better data protection, as evidenced by lower memorization ratios in the generated code. However, federated learning can still produce verbatim code snippets from hidden training data, potentially violating privacy or copyright. Our study further explores effectiveness and memorization patterns in incremental learning, emphasizing the sequence in which individual participant datasets are introduced. We also identify cross-organizational clones as a prevalent challenge in both centralized and federated learning scenarios. Our findings highlight the persistent risk of data leakage during inference, even when training data remains unseen. We conclude with recommendations for practitioners and researchers to optimize multisource datasets, propelling cross-organizational collaboration forward.
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# 簡易優先キューによる完全セキュリティを備えた最適オフラインORAM

Optimal Offline ORAM with Perfect Security via Simple Oblivious Priority Queues ( http://arxiv.org/abs/2409.12021v1 )

ライセンス: Link先を確認
Thore Thießen, Jan Vahrenhold, (参考訳) ORAM(Oblivious RAM)は、RAM計算のメモリアクセスパターンを隠すための、よく研究されているプリミティブである。 本稿では,メモリアクセスのシーケンスを事前に把握している,いわゆるオフラインORAMについて検討する。 その理論的な重要性とは別に、オフラインのORAMは効率の悪いアルゴリズムを構築するのに使える。 我々は、時間フォワード処理により、不要な優先度待ち行列から完全なセキュリティを備えた、最初の最適オフラインORAMを得る。 そこで本研究では,完全なセキュリティを備えた不要な優先度待ち行列を簡易に構築する。 我々の構成は、一演算あたりの$\Theta(\log N)$の漸近的に最適な(アモタイズされた)ランタイムを、N$要素のキャパシティに対して達成し、独立した関心を持つ。 キャッシュを意識した設定では、$\Theta(\frac{1}{B} \log \frac{N}{M})$ per operation (amortized) の最適I/O複雑性にマッチし、キャッシュ公開設定では、ほぼ最適の$O(\frac{1}{B} \log \frac{N}{M} \log\log_M N)$ per operation(amortized)を達成します。

Oblivious RAM (ORAM) is a well-researched primitive to hide the memory access pattern of a RAM computation; it has a variety of applications in trusted computing, outsourced storage, and multiparty computation. In this paper, we study the so-called offline ORAM in which the sequence of memory access locations to be hidden is known in advance. Apart from their theoretical significance, offline ORAMs can be used to construct efficient oblivious algorithms. We obtain the first optimal offline ORAM with perfect security from oblivious priority queues via time-forward processing. For this, we present a simple construction of an oblivious priority queue with perfect security. Our construction achieves an asymptotically optimal (amortized) runtime of $\Theta(\log N)$ per operation for a capacity of $N$ elements and is of independent interest. Building on our construction, we additionally present efficient external-memory instantiations of our oblivious, perfectly-secure construction: For the cache-aware setting, we match the optimal I/O complexity of $\Theta(\frac{1}{B} \log \frac{N}{M})$ per operation (amortized), and for the cache-oblivious setting we achieve a near-optimal I/O complexity of $O(\frac{1}{B} \log \frac{N}{M} \log\log_M N)$ per operation (amortized).
翻訳日:2024-09-19 17:24:06 公開日:2024-09-18
# LEMON: メッシュ最適化とニューラルシェーダによるローカル編集

LEMON: Localized Editing with Mesh Optimization and Neural Shaders ( http://arxiv.org/abs/2409.12024v1 )

ライセンス: Link先を確認
Furkan Mert Algan, Umut Yazgan, Driton Salihu, Cem Eteke, Eckehard Steinbach, (参考訳) 実際のユースケースでは、ポリゴンメッシュの編集は、新しいものを生成するよりも高速だが、ユーザにとって依然として困難で時間を要する可能性がある。 この問題の既存のソリューションは、幾何学的または新しいビュー合成という単一のタスクにフォーカスする傾向があり、しばしばメッシュとビューの間に相容れない結果をもたらす。 本研究では,ニューラル遅延シェーディングと局所メッシュ最適化を組み合わせたメッシュ編集パイプラインLEMONを提案する。 当社のアプローチはまず、これらの重要な領域にフォーカスするためにセグメンテーションモデルを利用することで、メッシュの編集において最も重要な頂点を特定することから始まります。 対象物のマルチビュー画像が与えられた場合、各ビューから正常な地図と描画された画像を抽出しながら、ニューラルシェーダとポリゴンメッシュを最適化する。 これらの出力を条件付けデータとして使用することにより、入力画像をテキストから画像への拡散モデルで編集し、メッシュを変形しながらデータセットを反復的に更新する。 このプロセスにより、与えられたテキスト命令に従って編集された多角形メッシュが、最も重要な領域に着目しながら初期メッシュの幾何学的特性を保存する。 DTUデータセットを用いてパイプラインを評価し、現在の最先端手法よりも高速に微細に編集されたメッシュを生成することを示す。 補足資料にコードと追加結果を含めます。

In practical use cases, polygonal mesh editing can be faster than generating new ones, but it can still be challenging and time-consuming for users. Existing solutions for this problem tend to focus on a single task, either geometry or novel view synthesis, which often leads to disjointed results between the mesh and view. In this work, we propose LEMON, a mesh editing pipeline that combines neural deferred shading with localized mesh optimization. Our approach begins by identifying the most important vertices in the mesh for editing, utilizing a segmentation model to focus on these key regions. Given multi-view images of an object, we optimize a neural shader and a polygonal mesh while extracting the normal map and the rendered image from each view. By using these outputs as conditioning data, we edit the input images with a text-to-image diffusion model and iteratively update our dataset while deforming the mesh. This process results in a polygonal mesh that is edited according to the given text instruction, preserving the geometric characteristics of the initial mesh while focusing on the most significant areas. We evaluate our pipeline using the DTU dataset, demonstrating that it generates finely-edited meshes more rapidly than the current state-of-the-art methods. We include our code and additional results in the supplementary material.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# サイドスキャンソナー画像の分類課題に対する視覚変換器について

On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery ( http://arxiv.org/abs/2409.12026v1 )

ライセンス: Link先を確認
BW Sheffield, Jeffrey Ellen, Ben Whitmore, (参考訳) サイドスキャンソナー (SSS) 画像は、複雑で多様な水中環境のために海底で人工の物体を分類する際、ユニークな課題を示す。 歴史的に、専門家は手作業で手作業でSSSイメージを解釈し、手作りの特徴を持つ従来の機械学習技術に依存してきた。 畳み込みニューラルネットワーク(CNN)はこの領域における自動分類を著しく進歩させたが、岩やリップル砂底のような多様な海底テクスチャを扱う場合、偽陽性率が増加する場合、しばしば不足する。 近年、ビジョントランスフォーマー(ViT)は、画像パッチ内のグローバル情報をキャプチャする自己認識機構を利用して、空間階層処理の柔軟性を高めることにより、これらの制限に対処する可能性を示している。 本稿では、SSS画像のバイナリ分類タスクに対して、ResNetやConvNextといった一般的なCNNアーキテクチャと並行して、ViTモデルの性能を厳格に比較する。 データセットは多様な地理的海底型を含み、人工物の存在と不在の間にバランスを取っている。 ViTベースのモデルはf1スコア、精度、リコール、精度の指標で優れた分類性能を示すが、計算資源は大きい。 誘導バイアスのあるCNNは、より優れた計算効率を示し、水中車両のような資源に制約のある環境に展開するのに適している。 今後の研究の方向性には、ViTの自己教師型学習や、挑戦的な水中環境におけるパフォーマンス向上のためのマルチモーダル融合などが含まれる。

Side-scan sonar (SSS) imagery presents unique challenges in the classification of man-made objects on the seafloor due to the complex and varied underwater environments. Historically, experts have manually interpreted SSS images, relying on conventional machine learning techniques with hand-crafted features. While Convolutional Neural Networks (CNNs) significantly advanced automated classification in this domain, they often fall short when dealing with diverse seafloor textures, such as rocky or ripple sand bottoms, where false positive rates may increase. Recently, Vision Transformers (ViTs) have shown potential in addressing these limitations by utilizing a self-attention mechanism to capture global information in image patches, offering more flexibility in processing spatial hierarchies. This paper rigorously compares the performance of ViT models alongside commonly used CNN architectures, such as ResNet and ConvNext, for binary classification tasks in SSS imagery. The dataset encompasses diverse geographical seafloor types and is balanced between the presence and absence of man-made objects. ViT-based models exhibit superior classification performance across f1-score, precision, recall, and accuracy metrics, although at the cost of greater computational resources. CNNs, with their inductive biases, demonstrate better computational efficiency, making them suitable for deployment in resource-constrained environments like underwater vehicles. Future research directions include exploring self-supervised learning for ViTs and multi-modal fusion to further enhance performance in challenging underwater environments.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# CEF: 協力的な連邦政府のQKDネットワークを接続

CEF: Connecting Elaborate Federal QKD Networks ( http://arxiv.org/abs/2409.12027v1 )

ライセンス: Link先を確認
Alin-Bogdan Popa, Pantelimon Popescu, (参考訳) QKDのインフラは、異なるアクター(通常、国家政府)によって開発されながら複雑化するにつれて、高度に自律性を維持する非常に精巧なサブネットワークの連合ネットワークに相互接続することは、ユニークな課題をもたらす。 このような課題を識別し,集中型研究,対象ネットワーク計画,最適QKD設計,プロトコル適用に基づく4段階のオーケストレーションフレームワークを提案する。

As QKD infrastructure becomes increasingly complex while being developed by different actors (typically national governments), interconnecting them into a federated network of very elaborate sub-networks that maintain a high degree of autonomy will pose unique challenges. We identify several such challenges and propose a 4-step orchestration framework to address them based on centralized research, target network planning, optimal QKD design, and protocol enforcement.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# PhysMamba: Slowfast Temporal difference Mambaを用いた効率的な遠隔生理計測

PhysMamba: Efficient Remote Physiological Measurement with SlowFast Temporal Difference Mamba ( http://arxiv.org/abs/2409.12031v1 )

ライセンス: Link先を確認
Chaoqi Luo, Yiping Xie, Zitong Yu, (参考訳) 顔画像を用いた遠隔胸腺造影(rPPG)は, 生理的信号を測定し, 接触なく心臓活動を監視することを目的としており, 様々な応用に有意な可能性を秘めている。 従来のディープラーニングに基づくrPPG測定は主にCNNとTransformerに基づいている。 しかし、CNNの制限された受容的フィールドは、長距離の時空間依存性をキャプチャする能力を制限する一方で、トランスフォーマーは、複雑さの高い長いビデオシーケンスのモデリングにも苦労する。 近年、Mambaによって表現された状態空間モデル(SSM)は、長いシーケンスから長距離依存関係をキャプチャする際の優れた性能で知られている。 本稿では,マンバをベースとしたフレームワークであるPhysMambaを提案する。 具体的には,時間的差分マンバブロックを導入し,まず局所的な動的差分を増大させ,さらに長距離時空間をモデル化する。 さらに、デュアルストリームのSlowFastアーキテクチャを使用して、マルチスケールの時間的特徴を融合する。 PhysMambaの優位性と効率性を示すために、3つのベンチマークデータセットで大規模な実験を行った。 コードはhttps://github.com/Chaoqi31/PhysMambaで入手できる。

Facial-video based Remote photoplethysmography (rPPG) aims at measuring physiological signals and monitoring heart activity without any contact, showing significant potential in various applications. Previous deep learning based rPPG measurement are primarily based on CNNs and Transformers. However, the limited receptive fields of CNNs restrict their ability to capture long-range spatio-temporal dependencies, while Transformers also struggle with modeling long video sequences with high complexity. Recently, the state space models (SSMs) represented by Mamba are known for their impressive performance on capturing long-range dependencies from long sequences. In this paper, we propose the PhysMamba, a Mamba-based framework, to efficiently represent long-range physiological dependencies from facial videos. Specifically, we introduce the Temporal Difference Mamba block to first enhance local dynamic differences and further model the long-range spatio-temporal context. Moreover, a dual-stream SlowFast architecture is utilized to fuse the multi-scale temporal features. Extensive experiments are conducted on three benchmark datasets to demonstrate the superiority and efficiency of PhysMamba. The codes are available at https://github.com/Chaoqi31/PhysMamba
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# 状態空間モデルを用いたトポロジカル深層学習:単純複素数に対するマンバアプローチ

Topological Deep Learning with State-Space Models: A Mamba Approach for Simplicial Complexes ( http://arxiv.org/abs/2409.12033v1 )

ライセンス: Link先を確認
Marco Montagna, Simone Scardapane, Lev Telyatnikov, (参考訳) メッセージパッシング(MP)機構に基づくグラフニューラルネットワークは,グラフ構造化データを扱う上で重要なアプローチである。 しかし、それらは本質的に対の相互作用のみをモデル化することに限定されており、$n$body関係を持つシステムの複雑さを明示的に捉えることは困難である。 これを解決するために、トポロジカル・ディープ・ラーニングは、単純・細胞複合体のような様々なトポロジカル・ドメインを用いて高次相互作用を研究・モデル化するための有望な分野として登場した。 これらの新しいドメインは強力な表現を提供するが、高階MPを通して高階構造間の相互作用を効果的にモデル化するなど、新しい課題を導入する。 一方、構造化状態空間シーケンスモデルはシーケンスモデリングに有効であることが証明され、最近はノードの近傍をシーケンスとして符号化することでグラフデータに適応し、MP機構を回避することができる。 本研究では,Mamba状態空間モデルをバックボーンとして利用して,単純な複素数を扱うように設計された新しいアーキテクチャを提案する。 提案手法は, 隣接セルをベースとしたノードのシーケンスを生成し, ランクに関わらず, 上位構造間の直接通信を可能にする。 我々は, 単純複素数に対して開発された最先端のモデルと比較して, 競争性能が向上することを示すとともに, モデルの有効性を広く検証した。

Graph Neural Networks based on the message-passing (MP) mechanism are a dominant approach for handling graph-structured data. However, they are inherently limited to modeling only pairwise interactions, making it difficult to explicitly capture the complexity of systems with $n$-body relations. To address this, topological deep learning has emerged as a promising field for studying and modeling higher-order interactions using various topological domains, such as simplicial and cellular complexes. While these new domains provide powerful representations, they introduce new challenges, such as effectively modeling the interactions among higher-order structures through higher-order MP. Meanwhile, structured state-space sequence models have proven to be effective for sequence modeling and have recently been adapted for graph data by encoding the neighborhood of a node as a sequence, thereby avoiding the MP mechanism. In this work, we propose a novel architecture designed to operate with simplicial complexes, utilizing the Mamba state-space model as its backbone. Our approach generates sequences for the nodes based on the neighboring cells, enabling direct communication between all higher-order structures, regardless of their rank. We extensively validate our model, demonstrating that it achieves competitive performance compared to state-of-the-art models developed for simplicial complexes.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# 氷河マッピングのためのマルチセンサ深層学習

Multi-Sensor Deep Learning for Glacier Mapping ( http://arxiv.org/abs/2409.12034v1 )

ライセンス: Link先を確認
Codruţ-Andrei Diaconu, Konrad Heidler, Jonathan L. Bamber, Harry Zekollari, (参考訳) 氷床の外にある20万人以上の氷河は、海面上昇、水資源管理、自然災害、生物多様性、観光に影響を与え、社会に重要な役割を担っている。 しかし、これらの氷河のほんの一部だけが、その状態と経年変化を評価することができる、一貫した詳細なその場観測の恩恵を受けている。 この制限は、部分的には衛星ベースの地球観測技術に頼ることで克服できる。 衛星ベースの氷河マッピングアプリケーションは歴史的に主に手動および半自動検出法に依存してきたが、近年はディープラーニング技術への高速かつ顕著な移行が始まっている。 この章では、マルチセンサーのリモートセンシングデータと深層学習を組み合わせることで、氷河(すなわち地図)をより明確にし、その時間的変化を検出する方法についてレビューする。 氷河を地図化するための深層学習型マルチセンサーフレームワークの活用は, 地域およびグローバル氷河の在庫が広範囲に利用可能であることから, どのようなメリットがあるかを説明する。 また、氷河マッピングの背景にある理論的根拠、深層学習手法の利点、深層学習アルゴリズムとマルチセンサー地球観測データを統合する際の固有の課題についても分析する。 本稿では,氷河マッピングの取り組みを概観することを目的としているが,深層学習型マルチセンサリモートセンシングアプリケーションにかなりの付加価値が期待できる,いくつかの設定を強調した。 これには、周囲と区別が難しい破片で覆われた氷河や岩盤氷河、海に接する氷河などが含まれる。 これらの特定のケースは、一連の視覚的イメージを通して説明され、季節的な積雪の扱い、破片の被覆の変化、周囲の海氷との氷河前線の区別など、氷河の変化を検出する際のいくつかの大きな利点と課題を浮き彫りにしている。

The more than 200,000 glaciers outside the ice sheets play a crucial role in our society by influencing sea-level rise, water resource management, natural hazards, biodiversity, and tourism. However, only a fraction of these glaciers benefit from consistent and detailed in-situ observations that allow for assessing their status and changes over time. This limitation can, in part, be overcome by relying on satellite-based Earth Observation techniques. Satellite-based glacier mapping applications have historically mainly relied on manual and semi-automatic detection methods, while recently, a fast and notable transition to deep learning techniques has started. This chapter reviews how combining multi-sensor remote sensing data and deep learning allows us to better delineate (i.e. map) glaciers and detect their temporal changes. We explain how relying on deep learning multi-sensor frameworks to map glaciers benefits from the extensive availability of regional and global glacier inventories. We also analyse the rationale behind glacier mapping, the benefits of deep learning methodologies, and the inherent challenges in integrating multi-sensor earth observation data with deep learning algorithms. While our review aims to provide a broad overview of glacier mapping efforts, we highlight a few setups where deep learning multi-sensor remote sensing applications have a considerable potential added value. This includes applications for debris-covered and rock glaciers that are visually difficult to distinguish from surroundings and for calving glaciers that are in contact with the ocean. These specific cases are illustrated through a series of visual imageries, highlighting some significant advantages and challenges when detecting glacier changes, including dealing with seasonal snow cover, changing debris coverage, and distinguishing glacier fronts from the surrounding sea ice.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# 時間によるニューラルネットワークと学習のための統一フレームワーク

A Unified Framework for Neural Computation and Learning Over Time ( http://arxiv.org/abs/2409.12038v1 )

ライセンス: Link先を確認
Stefano Melacci, Alessandro Betti, Michele Casoni, Tommaso Guidi, Matteo Tiezzi, Marco Gori, (参考訳) 本稿では,ニューラルネットワークを「時間とともに」学習するための新しい統合フレームワークであるハミルトン学習を提案する。 既存の作業は、ストリームが既知の有限長またはより小さなシーケンスに分割された単純化された設定に焦点を当て、統計的機械学習から確立された学習戦略を活用する。 本稿では,時間的学習の問題をスクラッチから再考し,ニューラルネットワークと学習の時間的ダイナミクスを統一的に把握する最適制御理論からツールを活用する。 ハミルトン学習は、次の微分方程式に基づいている。 i)外部ソフトウェアソルバを必要とせずに統合することができる。 (II)フィードフォワードおよびリカレントネットワークにおける勾配学習の確立された概念を一般化すること。 (三)斬新な視点に通じる。 提案したフレームワークは、勾配ベースの学習を回復する方法を実験的に証明し、アウトオブザボックスオプティマイザと比較し、アクティベーションを格納しないBackPropagationを、完全にローカルから部分的に非ローカルに切り替えることのできる柔軟性について説明した。 ハミルトニアン・ラーニングは実装が容易で、研究者が時間とともに学習する問題を原則的かつ革新的な方法でアプローチするのに役立ちます。

This paper proposes Hamiltonian Learning, a novel unified framework for learning with neural networks "over time", i.e., from a possibly infinite stream of data, in an online manner, without having access to future information. Existing works focus on the simplified setting in which the stream has a known finite length or is segmented into smaller sequences, leveraging well-established learning strategies from statistical machine learning. In this paper, the problem of learning over time is rethought from scratch, leveraging tools from optimal control theory, which yield a unifying view of the temporal dynamics of neural computations and learning. Hamiltonian Learning is based on differential equations that: (i) can be integrated without the need of external software solvers; (ii) generalize the well-established notion of gradient-based learning in feed-forward and recurrent networks; (iii) open to novel perspectives. The proposed framework is showcased by experimentally proving how it can recover gradient-based learning, comparing it to out-of-the box optimizers, and describing how it is flexible enough to switch from fully-local to partially/non-local computational schemes, possibly distributed over multiple devices, and BackPropagation without storing activations. Hamiltonian Learning is easy to implement and can help researches approach in a principled and innovative manner the problem of learning over time.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# SFDA-rPPG : 時空間整合性を用いた自由領域適応型遠隔生理学的測定

SFDA-rPPG: Source-Free Domain Adaptive Remote Physiological Measurement with Spatio-Temporal Consistency ( http://arxiv.org/abs/2409.12040v1 )

ライセンス: Link先を確認
Yiping Xie, Zitong Yu, Bingjie Wu, Weicheng Xie, Linlin Shen, (参考訳) リモート光胸腺造影法(Remote Photoplethysmography, RPPG)は、顔画像を用いて血液量の変化を予測し、生理的測定を可能にする非接触法である。 伝統的なrPPGモデルは、目に見えない領域における一般化能力の不足に悩まされることが多い。 この問題に対する現在の解決策は、ドメイン一般化(DG)またはドメイン適応(DA)を通じて、ターゲットドメインの一般化を改善することである。 しかし、どちらの手法もソースドメインデータとターゲットドメインデータの両方へのアクセスを必要としており、ソースデータへのアクセスが制限されたシナリオでは実装できない。 本稿では、ソースドメインデータにアクセスせずに効果的なドメイン適応を可能にすることにより、これらの制限を克服する、RPPG測定のための最初のソースフリードメイン適応ベンチマーク(SFDA-rPPG)を提案する。 本フレームワークでは,3分岐時空間整合性ネットワーク(TSTC-Net)を導入し,ドメイン間の機能整合性を向上させる。 さらに、周波数領域Wasserstein Distance(FWD)に基づく新しいrPPG分布アライメント損失を提案する。 広範にわたるクロスドメイン実験とアブレーション実験により,提案手法の有効性が実証された。 本研究は,FWD損失が分布アライメントに大きく寄与していることを明らかにするとともに,今後の研究や応用に有益であることを示すものである。 ソースコードはhttps://github.com/XieYiping66/SFDA-rPPGで入手できる。

Remote Photoplethysmography (rPPG) is a non-contact method that uses facial video to predict changes in blood volume, enabling physiological metrics measurement. Traditional rPPG models often struggle with poor generalization capacity in unseen domains. Current solutions to this problem is to improve its generalization in the target domain through Domain Generalization (DG) or Domain Adaptation (DA). However, both traditional methods require access to both source domain data and target domain data, which cannot be implemented in scenarios with limited access to source data, and another issue is the privacy of accessing source domain data. In this paper, we propose the first Source-free Domain Adaptation benchmark for rPPG measurement (SFDA-rPPG), which overcomes these limitations by enabling effective domain adaptation without access to source domain data. Our framework incorporates a Three-Branch Spatio-Temporal Consistency Network (TSTC-Net) to enhance feature consistency across domains. Furthermore, we propose a new rPPG distribution alignment loss based on the Frequency-domain Wasserstein Distance (FWD), which leverages optimal transport to align power spectrum distributions across domains effectively and further enforces the alignment of the three branches. Extensive cross-domain experiments and ablation studies demonstrate the effectiveness of our proposed method in source-free domain adaptation settings. Our findings highlight the significant contribution of the proposed FWD loss for distributional alignment, providing a valuable reference for future research and applications. The source code is available at https://github.com/XieYiping66/SFDA-rPPG
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# ASRベンチマーク: より代表的な会話データセットの必要性

ASR Benchmarking: Need for a More Representative Conversational Dataset ( http://arxiv.org/abs/2409.12042v1 )

ライセンス: Link先を確認
Gaurav Maheshwari, Dmitry Ivanov, Théo Johannet, Kevin El Haddad, (参考訳) 自動音声認識(ASR)システムは、LibriSpeechやFleursといった広く使われているベンチマークで顕著な性能を実現している。 しかし、これらのベンチマークは実際の会話環境の複雑さを十分に反映していない。 本研究では、大人同士の非構造化音声会話からなるTalkBankから派生した多言語会話データセットを提案する。 その結果,会話環境下でのテストでは,様々な最先端のASRモデルに対して顕著な性能低下がみられた。 さらに,単語誤り率と発話不一致の有無の相関を観察し,より現実的な会話型ASRベンチマークの必要性を強調した。

Automatic Speech Recognition (ASR) systems have achieved remarkable performance on widely used benchmarks such as LibriSpeech and Fleurs. However, these benchmarks do not adequately reflect the complexities of real-world conversational environments, where speech is often unstructured and contains disfluencies such as pauses, interruptions, and diverse accents. In this study, we introduce a multilingual conversational dataset, derived from TalkBank, consisting of unstructured phone conversation between adults. Our results show a significant performance drop across various state-of-the-art ASR models when tested in conversational settings. Furthermore, we observe a correlation between Word Error Rate and the presence of speech disfluencies, highlighting the critical need for more realistic, conversational ASR benchmarks.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# Baidu-ULTRロギングポリシーが2towerモデルに及ぼす影響の理解

Understanding the Effects of the Baidu-ULTR Logging Policy on Two-Tower Models ( http://arxiv.org/abs/2409.12043v1 )

ライセンス: Link先を確認
Morris de Haan, Philipp Hager, (参考訳) アンバイアスド・ラーニング・ to・ランク(ULTR)タスクに対する2-towerモデルの人気にもかかわらず、最近の研究は、ロギングポリシーの問題点である、業界応用の崩壊につながる大きな制限に悩まされていることを示唆している。 いくつかの潜在的な解も提案されているが、これらの手法の評価は主に半合成シミュレーション実験を用いて行われた。 本稿では,最大規模の実世界のデータセットであるBaidu-ULTRの共起問題を調べることによって,理論と実践のギャップを埋める。 私たちの主な貢献は3倍です。 1) Baidu-ULTRにおいて, 共起問題の条件が与えられることを示す。 2)共起問題は,2towerモデルに有意な影響を及ぼさない。 3) 専門家アノテーション,ULTRの黄金標準,ユーザクリック動作のミスマッチを指摘する。

Despite the popularity of the two-tower model for unbiased learning to rank (ULTR) tasks, recent work suggests that it suffers from a major limitation that could lead to its collapse in industry applications: the problem of logging policy confounding. Several potential solutions have even been proposed; however, the evaluation of these methods was mostly conducted using semi-synthetic simulation experiments. This paper bridges the gap between theory and practice by investigating the confounding problem on the largest real-world dataset, Baidu-ULTR. Our main contributions are threefold: 1) we show that the conditions for the confounding problem are given on Baidu-ULTR, 2) the confounding problem bears no significant effect on the two-tower model, and 3) we point to a potential mismatch between expert annotations, the golden standard in ULTR, and user click behavior.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# リドベルク原子系における準周期的フロケ・ギブス状態

Quasiperiodic Floquet-Gibbs states in Rydberg atomic systems ( http://arxiv.org/abs/2409.12044v1 )

ライセンス: Link先を確認
Wilson S. Martins, Federico Carollo, Kay Brandner, Igor Lesanovsky, (参考訳) 熱環境に弱結合し、高速で周期的に振動する場によって駆動される開系は、一般に、切り離されたフロケ・マグナス・ハミルトン状態に対して平衡のような定常状態に近づくと仮定される。 フェルミの黄金律に基づく一般論証を用いて、これらのフロケ・ギブス状態が周期的に変調されたリドベルク原子系において自然に現れることを示す。 提案手法は,高次Rydberg励起の維持に必要なシステム固有のボーア周波数,変調周波数,駆動レーザの周波数を十分に分離している限り適用できる。 解析結果を相関づけるため, 周期的に変化したリドベルク原子を最大5個まで相互作用する現実的なモデルの解析を行った。 このシステムの2次フロケ・ギブズ状態は、変調および駆動周波数が十分に大きい場合、対応するレッドフィールド方程式の定常状態と本質的に区別できないことを数値的に示す。

Open systems that are weakly coupled to a thermal environment and driven by fast, periodically oscillating fields are commonly assumed to approach an equilibrium-like steady state with respect to a truncated Floquet-Magnus Hamiltonian. Using a general argument based on Fermi's golden rule, we show that such Floquet-Gibbs states emerge naturally in periodically modulated Rydberg atomic systems, whose lab-frame Hamiltonian is a quasiperiodic function of time. Our approach applies as long as the inherent Bohr frequencies of the system, the modulation frequency and the frequency of the driving laser, which is necessary to uphold high-lying Rydberg excitations, are well separated. To corroborate our analytical results, we analyze a realistic model of up to five interacting Rydberg atoms with periodically changing detuning. We demonstrate numerically that the second-order Floquet-Gibbs state of this system is essentially indistinguishable from the steady state of the corresponding Redfield equation if the modulation and driving frequencies are sufficiently large.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# 安全強化学習における長期安全と不確かさの扱い

Handling Long-Term Safety and Uncertainty in Safe Reinforcement Learning ( http://arxiv.org/abs/2409.12045v1 )

ライセンス: Link先を確認
Jonas Günster, Puze Liu, Jan Peters, Davide Tateo, (参考訳) 安全性は、現実世界のロボットに強化学習技術が配備されるのを防ぐ重要な問題の1つだ。 Safe Reinforcement Learning領域のほとんどのアプローチは、制約やロボットキネマティクスに関する事前の知識を必要とせず、データのみに依存している。 代わりに、制約やダイナミクスの事前知識を学習フレームワークに組み込んだモデルベースのアプローチは、学習アルゴリズムを実際のロボットに直接デプロイできることを証明している。 残念ながら、ロボット力学の近似モデルがしばしば利用可能であるが、安全性の制約はタスク固有のものであり入手が困難である。 本稿では,安全探査手法であるATACOMを学習可能な制約で拡張することにより,このギャップを埋める。 我々のアプローチは、トレーニング中により安全な動作を維持しながら、最終性能において最先端の手法よりも優れているか、あるいは優れている。

Safety is one of the key issues preventing the deployment of reinforcement learning techniques in real-world robots. While most approaches in the Safe Reinforcement Learning area do not require prior knowledge of constraints and robot kinematics and rely solely on data, it is often difficult to deploy them in complex real-world settings. Instead, model-based approaches that incorporate prior knowledge of the constraints and dynamics into the learning framework have proven capable of deploying the learning algorithm directly on the real robot. Unfortunately, while an approximated model of the robot dynamics is often available, the safety constraints are task-specific and hard to obtain: they may be too complicated to encode analytically, too expensive to compute, or it may be difficult to envision a priori the long-term safety requirements. In this paper, we bridge this gap by extending the safe exploration method, ATACOM, with learnable constraints, with a particular focus on ensuring long-term safety and handling of uncertainty. Our approach is competitive or superior to state-of-the-art methods in final performance while maintaining safer behavior during training.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# 大規模言語モデルを用いた臨床試験表と図表の作成

Using Large Language Models to Generate Clinical Trial Tables and Figures ( http://arxiv.org/abs/2409.12046v1 )

ライセンス: Link先を確認
Yumeng Yang, Peter Krusche, Kristyn Pantoja, Cheng Shi, Ethan Ludmir, Kirk Roberts, Gen Zhu, (参考訳) テーブル、フィギュア、リスト(TFL)は臨床試験データを要約するための重要なツールである。 報告活動のためのTFLの作成は、しばしば臨床試験の実行中に日常的に遭遇する時間を要する課題である。 本研究では,TFLの自動生成における大規模言語モデル (LLM) の利用について,素早い工学的手法と数発の転写学習を用いて検討した。 ADaM形式での公的な臨床試験データを用いて, LLMはプロンプトによるTFLを効率よく生成し, 本領域におけるその可能性を示した。 さらに, ユーザクエリと予め定義されたプロンプトとをマッチングし, 特定のTFLを生成するために, カスタマイズされたプログラムを生成する, 保存エージェントであるCitical Trial TFL Generation Agentを開発した。

Tables, figures, and listings (TFLs) are essential tools for summarizing clinical trial data. Creation of TFLs for reporting activities is often a time-consuming task encountered routinely during the execution of clinical trials. This study explored the use of large language models (LLMs) to automate the generation of TFLs through prompt engineering and few-shot transfer learning. Using public clinical trial data in ADaM format, our results demonstrated that LLMs can efficiently generate TFLs with prompt instructions, showcasing their potential in this domain. Furthermore, we developed a conservational agent named Clinical Trial TFL Generation Agent: An app that matches user queries to predefined prompts that produce customized programs to generate specific predefined TFLs.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# サイバーセキュリティ専門家のストレス要因とその影響に関する調査に基づく定量的分析

A Survey-Based Quantitative Analysis of Stress Factors and Their Impacts Among Cybersecurity Professionals ( http://arxiv.org/abs/2409.12047v1 )

ライセンス: Link先を確認
Sunil Arora, John D. Hastings, (参考訳) 本研究では,ジョブ・デマンド・リソーシング・モデルによる定量的調査手法を用いて,サイバーセキュリティ専門家の作業関連ストレスやバーンアウトの頻度と原因について検討した。 44%が重度の労働関連のストレスとバーンアウトを経験し、さらに28%が彼らの状態について不透明だ。 サイバーセキュリティの役割、非現実的な期待、非支援的な組織文化の要求の性質がこの危機を刺激する主要な要因として現れている。 回答者の66%は、サイバーセキュリティの仕事が他のIT職よりもストレスが大きいと認識しており、84%がパンデミックや近年の注目を浴びているため、さらなる課題に直面している。 研究によると、ほとんどのサイバーセキュリティ専門家は、経営陣に苦戦を報告し、沈黙と無視のサイクルを永続させることに消極的だ。 この重要な問題に対処するため、この論文では、組織が支援的な作業環境を育み、マインドフルネスプログラムを実装し、体系的な課題に対処することを推奨している。 サイバーセキュリティの専門家のメンタルヘルスを優先することで、組織はよりレジリエントで効果的な労働力を育成し、絶え間なく進化する脅威の風景から守ることができる。

This study investigates the prevalence and underlying causes of work-related stress and burnout among cybersecurity professionals using a quantitative survey approach guided by the Job Demands-Resources model. Analysis of responses from 50 cybersecurity practitioners reveals an alarming reality: 44% report experiencing severe work-related stress and burnout, while an additional 28% are uncertain about their condition. The demanding nature of cybersecurity roles, unrealistic expectations, and unsupportive organizational cultures emerge as primary factors fueling this crisis. Notably, 66% of respondents perceive cybersecurity jobs as more stressful than other IT positions, with 84% facing additional challenges due to the pandemic and recent high-profile breaches. The study finds that most cybersecurity experts are reluctant to report their struggles to management, perpetuating a cycle of silence and neglect. To address this critical issue, the paper recommends that organizations foster supportive work environments, implement mindfulness programs, and address systemic challenges. By prioritizing the mental health of cybersecurity professionals, organizations can cultivate a more resilient and effective workforce to protect against an ever-evolving threat landscape.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# 周波数工学的古典光を用いた量子的非線形干渉法

Quantum-like nonlinear interferometry with frequency-engineered classical light ( http://arxiv.org/abs/2409.12049v1 )

ライセンス: Link先を確認
Romain Dalidet, Anthony Martin, Grégory Sauder, Laurent Labonté, Sébastien Tanzilli, (参考訳) 量子干渉法は、フォトニックエンタングルメントのような量子資源を利用して、古典的な限界を超えた位相推定を強化する。 非線形光学は、絡み合った光子対の生成のためのワークホースとして機能し、エネルギーと位相の保存の両方を確保するが、レーザーベースの干渉法と比較して、制限レートと劣化した信号-雑音比のコストがかかる。 単一光子検出方式で超高分解能を実現する「量子様」非線形光学法を提案する。 これは光子対を光のコヒーレントな状態に置き換え、古典的な非線形光学過程を通じて量子特性を模倣することで達成される。 我々の方式は2つの高輝度レーザーを利用する。 この結果、量子対向比は量子対向比よりもかなり大きい。 このようなアプローチは、取得時間を著しく短縮する方法を舗装し、幅広い帯域幅で信号を探索する道を提供する。 量子センサの周波数帯域を増やす必要性は、この経路の潜在的な応用を大いに動機付けている。

Quantum interferometry methods exploit quantum resources, such as photonic entanglement, to enhance phase estimation beyond classical limits. Nonlinear optics has served as a workhorse for the generation of entangled photon pairs, ensuring both energy and phase conservation, but at the cost of limited rate and degraded signal-to-noise ratio compared to laser-based interferometry approaches. We present a "quantum-like" nonlinear optical method that reaches super-resolution in single-photon detection regime. This is achieved by replacing photon-pairs by coherent states of light, mimicking quantum properties through classical nonlinear optics processes. Our scheme utilizes two high-brightness lasers. This results in a substantially greater signal-to-noise ratio compared to its quantum counterpart. Such an approach paves the way to significantly reduced acquisition times, providing a pathway to explore signals across a broader range of bandwidth. The need to increase the frequency bandwidth of the quantum sensor significantly motivates the potential applications of this pathway.
翻訳日:2024-09-19 17:10:23 公開日:2024-09-18
# 拡張深部部分モジュラー関数

Extended Deep Submodular Functions ( http://arxiv.org/abs/2409.12053v1 )

ライセンス: Link先を確認
Seyed Mohammad Hosseini, Arash Jamshid, Seyed Mahdi Noormousavi, Mahdi Jafari Siavoshani, Naeimeh Omidvar, (参考訳) 本稿では,ニューラルネットワークを表現可能なEDSF(Extended Deep Submodular Function)という,集合関数の新たなカテゴリを紹介する。 EDSFはDeep Submodular Functions(DSF)の拡張として機能し、生来の制限に対処しながら、DSFから重要なプロパティを継承する。 DSFは部分モジュラ函数の極限部分集合を表現することが知られている。 対照的に、ポリマトロイド特性の解析により、EDSFは全てのモノトン部分モジュラー関数を表現できる能力を有しており、DSFと比較して顕著に拡張されている。 さらに,EDSFは任意の単調集合関数を表現でき,EDSFの族はすべての単調集合関数の族と同値であることを示す。 さらに、入力ベクトルの成分が非負の実数である場合、EDSFはDSFに固有の凹凸を維持できることを示す。 広範な実験を通して,EDSF はカバレッジ関数の学習において DSF よりも有意に低い経験的一般化誤差を示すことを示した。 このことは、EDSFが一般化能力を向上した集合関数の表現と学習において有望な進歩をもたらすことを示唆している。

We introduce a novel category of set functions called Extended Deep Submodular functions (EDSFs), which are neural network-representable. EDSFs serve as an extension of Deep Submodular Functions (DSFs), inheriting crucial properties from DSFs while addressing innate limitations. It is known that DSFs can represent a limiting subset of submodular functions. In contrast, through an analysis of polymatroid properties, we establish that EDSFs possess the capability to represent all monotone submodular functions, a notable enhancement compared to DSFs. Furthermore, our findings demonstrate that EDSFs can represent any monotone set function, indicating the family of EDSFs is equivalent to the family of all monotone set functions. Additionally, we prove that EDSFs maintain the concavity inherent in DSFs when the components of the input vector are non-negative real numbers-an essential feature in certain combinatorial optimization problems. Through extensive experiments, we illustrate that EDSFs exhibit significantly lower empirical generalization error than DSFs in the learning of coverage functions. This suggests that EDSFs present a promising advancement in the representation and learning of set functions with improved generalization capabilities.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# Artemis: zkMLの効率的なコミット&プロブSNARK

Artemis: Efficient Commit-and-Prove SNARKs for zkML ( http://arxiv.org/abs/2409.12055v1 )

ライセンス: Link先を確認
Hidde Lycklama, Alexander Viand, Nikolay Avramov, Nicolas Küchler, Anwar Hithnawi, (参考訳) 医療から自律システムまで、さまざまな重要なアプリケーションに機械学習(ML)が広く採用されていることで、プライバシ、説明責任、信頼性に関する大きな懸念が持ち上がっている。 これらの問題に対処するため、最近の研究では、機密情報を明らかにすることなくMLモデルの様々な側面の検証を可能にするゼロ知識機械学習(zkML)技術の開発に重点を置いている。 zkMLの最近の進歩は、効率を大幅に改善しているが、これらの取り組みは主にML計算を正しく証明するプロセスを最適化しており、しばしばモデルとデータに対する必要なコミットメントを検証することに伴うかなりのオーバーヘッドを見落としている。 このギャップに対処するため,本研究では,zkMLパイプラインにおけるコミットメント検証の課題を効果的に解決する2つの新しいコミット・アンド・プローブSNARK (CP-SNARK) 構造 (Apollo と Artemis) を提案する。 アポロはKZGのコミットメントに基づいており、基礎となる証明体系をホワイトボックスで使う必要があるが、アルテミスは任意の同型多項式のコミットメントと互換性があり、証明体系をブラックボックスでのみ利用する。 その結果、Artemisは信頼性の高いセットアップなしで最先端の証明システムと互換性がある。 本稿では,これらのCP-SNARKを初めて実装し,様々なMLモデル上での性能評価を行い,既存の手法よりも大幅に向上し,証明コストの大幅な削減と大規模モデルにおいても効率の維持を実現した。 例えば、VGGモデルでは、コミットメントチェックに関連するオーバーヘッドを11.5xから1.2xに削減する。 以上の結果から,これらのコントリビューションは,特に大規模かつ複雑なMLモデルを含むシナリオにおいて,zkMLを実践的なデプロイメントへと移行させることが可能であることが示唆された。

The widespread adoption of machine learning (ML) in various critical applications, from healthcare to autonomous systems, has raised significant concerns about privacy, accountability, and trustworthiness. To address these concerns, recent research has focused on developing zero-knowledge machine learning (zkML) techniques that enable the verification of various aspects of ML models without revealing sensitive information. Recent advances in zkML have substantially improved efficiency; however, these efforts have primarily optimized the process of proving ML computations correct, often overlooking the substantial overhead associated with verifying the necessary commitments to the model and data. To address this gap, this paper introduces two new Commit-and-Prove SNARK (CP-SNARK) constructions (Apollo and Artemis) that effectively address the emerging challenge of commitment verification in zkML pipelines. Apollo operates on KZG commitments and requires white-box use of the underlying proof system, whereas Artemis is compatible with any homomorphic polynomial commitment and only makes black-box use of the proof system. As a result, Artemis is compatible with state-of-the-art proof systems without trusted setup. We present the first implementation of these CP-SNARKs, evaluate their performance on a diverse set of ML models, and show substantial improvements over existing methods, achieving significant reductions in prover costs and maintaining efficiency even for large-scale models. For example, for the VGG model, we reduce the overhead associated with commitment checks from 11.5x to 1.2x. Our results suggest that these contributions can move zkML towards practical deployment, particularly in scenarios involving large and complex ML models.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# 古典的量子カオスとボヘミアの量子カオスの比較

A comparison between classical and Bohmian quantum chaos ( http://arxiv.org/abs/2409.12056v1 )

ライセンス: Link先を確認
Athanasios C. Tzemos, George Contopoulos, (参考訳) 古典ハミルトニアン系 $V= \frac{1}{2}(\omega_x^2x^2+\omega_y^2y^2)+\epsilon xy^2$ に対応する 2d 系のカオスの出現について検討し、古典的およびボヘミア量子軌道の比較を行い、$\epsilon$ の値を増加させる。 特に、2つのコヒーレントな状態からなる初期量子状態が$x$と$y$で、相互作用がない場合は順序軌跡(リッサホス図形)が生成され、初期状態は$\epsilon=0$に対して {chaotic and order} トラジェクトリを含む。 どちらの場合も、ボヘミア軌道は長期的にはカオスとなるが、振動子間の相互作用の強さに依存するカオスが発生する。

We study the emergence of chaos in a 2d system corresponding to a classical Hamiltonian system $V= \frac{1}{2}(\omega_x^2x^2+\omega_y^2y^2)+\epsilon xy^2$ consisting of two interacting harmonic oscillators and compare the classical and the Bohmian quantum trajectories for increasing values of $\epsilon$. In particular we present an initial quantum state composed of two coherent states in $x$ and $y$, which in the absence of interaction produces ordered trajectories (Lissajous figures) and an initial state which contains {both chaotic and ordered} trajectories for $\epsilon=0$. In both cases we find that, in general, Bohmian trajectories become chaotic in the long run, but chaos emerges at times which depend on the strength of the interaction between the oscillators.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# カルタン移動フレームとデータ多様体

Cartan moving frames and the data manifolds ( http://arxiv.org/abs/2409.12057v1 )

ライセンス: Link先を確認
Eliot Tron, Rita Fioresi, Nicolas Couellan, Stéphane Puechmorel, (参考訳) 本研究の目的は,データ情報量とデータ点の曲率を用いて,カルタン移動フレームの言語を用いて,データ多様体とそのリーマン構造の幾何学を研究することである。 このフレームワークと実験を通じて、ニューラルネットワークの応答に関する説明は、与えられた入力から容易に到達可能な出力クラスを指摘することによって与えられる。 このことは、ネットワークの出力と入力の幾何学との間の数学的関係が、説明可能な人工知能ツールとしてどのように活用できるかを強調している。

The purpose of this paper is to employ the language of Cartan moving frames to study the geometry of the data manifolds and its Riemannian structure, via the data information metric and its curvature at data points. Using this framework and through experiments, explanations on the response of a neural network are given by pointing out the output classes that are easily reachable from a given input. This emphasizes how the proposed mathematical relationship between the output of the network and the geometry of its inputs can be exploited as an explainable artificial intelligence tool.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# 思考と発話を同時に行う大規模言語モデルの2層学習と復号化

Dual-Layer Training and Decoding of Large Language Model with Simultaneously Thinking and Speaking ( http://arxiv.org/abs/2409.12059v1 )

ライセンス: Link先を確認
Ningyuan Xi, Xiaoyu Wang, Yetao Wu, Teng Chen, Qingqing Gu, Jinxian Qu, Zhonglin Jiang, Yong Chen, Luo Ji, (参考訳) 大規模言語モデルは、人間の表現を合理的に理解し、生成することができるが、完全な思考と推論機構が欠如している可能性がある。 近年,言語モデルの思考能力を高める研究がいくつか行われているが,そのほとんどはデータ駆動や訓練に基づくものではない。 本稿では,自然界における認知的メカニズムに動機付けられ,まず思考を考察し,クエリに基づいて応答を表現できるTaSと呼ばれる新しいモデルアーキテクチャを設計する。 我々は,素早い応答サンプルから思考内容を注釈付けしたり生成したりするために,いくつかのパイプラインを設計し,その後,思考層として振る舞う中間層に言語ヘッドを付加する。 思考強化データを用いて言語モデルを訓練し、思考層が合理的な思考を自動的に生成し、最終的にはより合理的な応答を出力することに成功した。 定性的な例と定量的な結果の両方がTaSの有効性と性能を検証した。 私たちのコードはhttps://anonymous.4open.science/r/TadE.comで利用可能です。

Large Language Model can reasonably understand and generate human expressions but may lack of thorough thinking and reasoning mechanisms. Recently there have been several studies which enhance the thinking ability of language models but most of them are not data-driven or training-based. In this paper, we are motivated by the cognitive mechanism in the natural world, and design a novel model architecture called TaS which allows it to first consider the thoughts and then express the response based upon the query. We design several pipelines to annotate or generate the thought contents from prompt-response samples, then add language heads in a middle layer which behaves as the thinking layer. We train the language model by the thoughts-augmented data and successfully let the thinking layer automatically generate reasonable thoughts and finally output more reasonable responses. Both qualitative examples and quantitative results validate the effectiveness and performance of TaS. Our code is available at https://anonymous.4open.science/r/TadE.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# PARAPHRASUS : パラフレーズ検出モデル評価のための総合ベンチマーク

PARAPHRASUS : A Comprehensive Benchmark for Evaluating Paraphrase Detection Models ( http://arxiv.org/abs/2409.12060v1 )

ライセンス: Link先を確認
Andrianos Michail, Simon Clematide, Juri Opitz, (参考訳) 2つのテキストがパラフレーズであるかどうかを決定するという課題は、NLPにおける長年の課題である。 しかし、一般的なパラフレーズの概念は、しばしば非常に単純であり、パラフレーズ現象の幅広いスペクトルの限られた見方しか提供しない。 実際、パラフレーズデータセットでモデルを評価することは、それらの真の意味的理解について不確実性を残す可能性がある。 これを軽減するために,パラフレーズ検出モデルの多次元評価とモデル選択のためのベンチマークであるparaphrasus をリリースする。 詳細な評価レンズ下でのパラフレーズ検出モデルは,単一分類データセットでは取得できないトレードオフを示す。

The task of determining whether two texts are paraphrases has long been a challenge in NLP. However, the prevailing notion of paraphrase is often quite simplistic, offering only a limited view of the vast spectrum of paraphrase phenomena. Indeed, we find that evaluating models in a paraphrase dataset can leave uncertainty about their true semantic understanding. To alleviate this, we release paraphrasus, a benchmark designed for multi-dimensional assessment of paraphrase detection models and finer model selection. We find that paraphrase detection models under a fine-grained evaluation lens exhibit trade-offs that cannot be captured through a single classification dataset.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# 汎用ロボット学習フレームワーク

Generalized Robot Learning Framework ( http://arxiv.org/abs/2409.12061v1 )

ライセンス: Link先を確認
Jiahuan Yan, Zhouyang Hong, Yu Zhao, Yu Tian, Yunxin Liu, Travis Davies, Luhui Hu, (参考訳) 模倣に基づくロボット学習は、移動可能性と一般化可能性の理論的可能性から、ロボット分野において近年大きな注目を集めている。 しかし、ハードウェアとデータ収集の両面では依然として費用がかかることで知られており、実際の環境での展開にはロボットの精密なセットアップと正確な実験条件が必要である。 本稿では,様々なロボットや環境に容易に再現可能かつ伝達可能な,低コストなロボット学習フレームワークを提案する。 我々は、高価な協調ロボットアームだけでなく、産業レベルのロボットにも、デプロイ可能な模倣学習をうまく適用できることを実証した。 さらに,本研究の結果から,マルチタスク型ロボット学習は単純なネットワークアーキテクチャで実現可能であり,従来考えられていたよりもデモが少ないことが示唆された。 実世界の操作タスクに関しては,現在の評価手法はほぼ主観的であるため,より客観的な評価方法であるVPR(Voting Positive Rate)を提案する。 我々は、アプローチを検証するために、様々な自己設計タスク間で成功率を広範囲に比較する。 ロボット学習コミュニティにおけるコラボレーションの促進と支援を目的として,Huggingface.co/ZhiChengAIで利用可能な,関連するすべてのデータセットとモデルチェックポイントをオープンソース化した。

Imitation based robot learning has recently gained significant attention in the robotics field due to its theoretical potential for transferability and generalizability. However, it remains notoriously costly, both in terms of hardware and data collection, and deploying it in real-world environments demands meticulous setup of robots and precise experimental conditions. In this paper, we present a low-cost robot learning framework that is both easily reproducible and transferable to various robots and environments. We demonstrate that deployable imitation learning can be successfully applied even to industrial-grade robots, not just expensive collaborative robotic arms. Furthermore, our results show that multi-task robot learning is achievable with simple network architectures and fewer demonstrations than previously thought necessary. As the current evaluating method is almost subjective when it comes to real-world manipulation tasks, we propose Voting Positive Rate (VPR) - a novel evaluation strategy that provides a more objective assessment of performance. We conduct an extensive comparison of success rates across various self-designed tasks to validate our approach. To foster collaboration and support the robot learning community, we have open-sourced all relevant datasets and model checkpoints, available at huggingface.co/ZhiChengAI.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# 多段階因子モデルに適合する

Fitting Multilevel Factor Models ( http://arxiv.org/abs/2409.12067v1 )

ライセンス: Link先を確認
Tetiana Parshakova, Trevor Hastie, Stephen Boyd, (参考訳) マルチレベル低ランク行列~\cite{parshakova2023factor} で与えられる共分散を持つ多レベル因子モデルの特別な場合について検討する。 我々は,観測データの可能性を最大化するために,多レベル因子モデルに適した予測最大化(EM)アルゴリズムを高速に実装する。 この方法は任意の階層構造を許容し、反復ごとに線形時間と保存の複雑さを維持する。 これは、正定値MLR行列の逆数を計算するための新しい効率的な手法によって達成される。 逆 PSD MLR 行列の逆行列は因子の間隔が同じである MLR 行列でもあることを示し、逆行列の因子を得るために、再帰的シャーマン・モリソン・ウードベリー行列恒等式を用いる。 さらに、線形時間と空間の複素量を持つ拡張行列のコレスキー分解を計算し、共分散行列をシュア補数とするアルゴリズムを提案する。 本稿では,提案手法を実装したオープンソースパッケージを添付する。

We examine a special case of the multilevel factor model, with covariance given by multilevel low rank (MLR) matrix~\cite{parshakova2023factor}. We develop a novel, fast implementation of the expectation-maximization (EM) algorithm, tailored for multilevel factor models, to maximize the likelihood of the observed data. This method accommodates any hierarchical structure and maintains linear time and storage complexities per iteration. This is achieved through a new efficient technique for computing the inverse of the positive definite MLR matrix. We show that the inverse of an invertible PSD MLR matrix is also an MLR matrix with the same sparsity in factors, and we use the recursive Sherman-Morrison-Woodbury matrix identity to obtain the factors of the inverse. Additionally, we present an algorithm that computes the Cholesky factorization of an expanded matrix with linear time and space complexities, yielding the covariance matrix as its Schur complement. This paper is accompanied by an open-source package that implements the proposed methods.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# PAD-FT:データ浄化と微調整によるバックドア攻撃の軽量防御

PAD-FT: A Lightweight Defense for Backdoor Attacks via Data Purification and Fine-Tuning ( http://arxiv.org/abs/2409.12072v1 )

ライセンス: Link先を確認
Yukai Xu, Yujie Gu, Kouichi Sakurai, (参考訳) バックドア攻撃はディープニューラルネットワークにとって重大な脅威となり、特に最近の進歩により微妙な移植が進み、防御はより困難になっている。 既存の防御メカニズムは、通常、標準参照として追加のクリーンデータセットに依存し、補助モデルを再トレーニングしたり、犠牲者モデル全体を微調整する。 しかし、これらのアプローチはしばしば計算コストが高く、実用上は必ずしも実現不可能である。 本稿では,PAD-FTと呼ばれる新規で軽量な防御機構を提案する。 これを実現するために,本手法ではまず,有毒なトレーニングデータセットから最もクリーンなデータを特定し,選択するための簡易なデータ浄化プロセスを導入する。 次に、自己精製されたクリーンデータセットを使用して、アクティベーションクリッピングと、被害者モデルの最後の分類層のみを微調整する。 PAD-FTは,データ浄化,アクティベーションクリッピング,分類器の微調整を統合することで,複数のバックドア攻撃手法やデータセットに対して優れた性能を示す。

Backdoor attacks pose a significant threat to deep neural networks, particularly as recent advancements have led to increasingly subtle implantation, making the defense more challenging. Existing defense mechanisms typically rely on an additional clean dataset as a standard reference and involve retraining an auxiliary model or fine-tuning the entire victim model. However, these approaches are often computationally expensive and not always feasible in practical applications. In this paper, we propose a novel and lightweight defense mechanism, termed PAD-FT, that does not require an additional clean dataset and fine-tunes only a very small part of the model to disinfect the victim model. To achieve this, our approach first introduces a simple data purification process to identify and select the most-likely clean data from the poisoned training dataset. The self-purified clean dataset is then used for activation clipping and fine-tuning only the last classification layer of the victim model. By integrating data purification, activation clipping, and classifier fine-tuning, our mechanism PAD-FT demonstrates superior effectiveness across multiple backdoor attack methods and datasets, as confirmed through extensive experimental evaluation.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# 眼科眼科領域におけるオンライン屈折型カメラモデル校正

Online Refractive Camera Model Calibration in Visual Inertial Odometry ( http://arxiv.org/abs/2409.12074v1 )

ライセンス: Link先を確認
Mohit Singh, Kostas Alexis, (参考訳) 本稿では, 一般的な屈折率カメラモデルとオドメトリーのオンライン共同推定, 未知メディアの屈折率について述べる。 これにより、空気中のカメラキャリブレーションのみを考慮し、多種多様な屈折流体での操作が可能となる。 提案したカメラモデルを用いた反復的定式化において, 屈折率を単眼視覚慣性オドメトリーフレームワークの状態変数としてオンラインに推定する。 本手法は,プール内を走行する水中ロボットを用いて収集したデータに基づいて検証した。 これらの評価は,初期化における大きな摂動に拘わらず,水に対する理想的な屈折率に収束することを示す。 同時に、この手法は屈折率や媒体固有のカメラキャリブレーションの要件を事前に知ることなく、屈折媒体のオンパー視覚慣性計測性能を実現する。

This paper presents a general refractive camera model and online co-estimation of odometry and the refractive index of unknown media. This enables operation in diverse and varying refractive fluids, given only the camera calibration in air. The refractive index is estimated online as a state variable of a monocular visual-inertial odometry framework in an iterative formulation using the proposed camera model. The method was verified on data collected using an underwater robot traversing inside a pool. The evaluations demonstrate convergence to the ideal refractive index for water despite significant perturbations in the initialization. Simultaneously, the approach enables on-par visual-inertial odometry performance in refractive media without prior knowledge of the refractive index or requirement of medium-specific camera calibration.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# データプルーニングによる教師なしドメイン適応

Unsupervised Domain Adaptation Via Data Pruning ( http://arxiv.org/abs/2409.12076v1 )

ライセンス: Link先を確認
Andrea Napoli, Paul White, (参考訳) 機械学習モデルのロバスト性を改善する効果的な方法として、トレーニングデータから慎重に選択されたサンプルを除去する手法が最近登場した。 しかし、これらの例を選択する最良の方法は、未解決の問題である。 本稿では,非教師なし領域適応(UDA)の観点から問題を考察する。 本稿では,UDAのトレーニング例を取り除き,トレーニング分布を対象データと整合させる手法であるAdaPruneを提案する。 最適平均誤差(MMD)をアライメントの基準として採用することにより、問題を巧みに定式化し、整数二次プログラムとして解くことができる。 生体音響事象検出のための実世界のドメインシフトタスクに対するアプローチを評価する。 UDAの手法として、AdaPruneは関連する技術より優れており、CoRALなどの他のUDAアルゴリズムと相補的であることを示す。 我々は,MDとモデル精度の関係をt-SNEプロットとともに解析し,提案手法をデータプルーニングの原理的かつ十分に確立された方法として検証した。

The removal of carefully-selected examples from training data has recently emerged as an effective way of improving the robustness of machine learning models. However, the best way to select these examples remains an open question. In this paper, we consider the problem from the perspective of unsupervised domain adaptation (UDA). We propose AdaPrune, a method for UDA whereby training examples are removed to attempt to align the training distribution to that of the target data. By adopting the maximum mean discrepancy (MMD) as the criterion for alignment, the problem can be neatly formulated and solved as an integer quadratic program. We evaluate our approach on a real-world domain shift task of bioacoustic event detection. As a method for UDA, we show that AdaPrune outperforms related techniques, and is complementary to other UDA algorithms such as CORAL. Our analysis of the relationship between the MMD and model accuracy, along with t-SNE plots, validate the proposed method as a principled and well-founded way of performing data pruning.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# 高分解能顕微鏡画像復元のためのデノジング拡散モデル

Denoising diffusion models for high-resolution microscopy image restoration ( http://arxiv.org/abs/2409.12078v1 )

ライセンス: Link先を確認
Pamela Osuna-Vargas, Maren H. Wehrheim, Lucas Zinz, Johanna Rahm, Ashwin Balakrishnan, Alexandra Kaminer, Mike Heilemann, Matthias Kaschube, (参考訳) 顕微鏡画像の進歩により、研究者はナノスケールのレベルで構造を可視化し、複雑な生物学的組織の詳細を明らかにすることができる。 しかし, 画像ノイズ, フルオロフォアの光漂白, 生体試料の高光線に対する耐性の低下などの課題が残っており, 時間分解能や実験期間が制限されている。 レーザー線量を減らすことで、低分解能と高ノイズのコストでより長い測定が可能になるため、正確な下流分析が妨げられる。 ここでは,低分解能情報にモデルを条件付け,高分解能画像を予測するために拡散確率モデル(DDPM)を訓練する。 さらに、DDPMの確率的側面は、信号対雑音比をさらに増大させる傾向にある画像の繰り返し生成を可能にする。 このモデルでは,4つの高度に多種多様なデータセットに対して,これまでで最も優れた性能を示す手法に近い性能を達成できることが示される。 重要な点として,従来の手法では,すべてのデータセットに対して競合的な性能を示すものもあったが,本手法は4つのデータセットすべてに対して常に高い性能を達成しており,高い一般化性を示している。

Advances in microscopy imaging enable researchers to visualize structures at the nanoscale level thereby unraveling intricate details of biological organization. However, challenges such as image noise, photobleaching of fluorophores, and low tolerability of biological samples to high light doses remain, restricting temporal resolutions and experiment durations. Reduced laser doses enable longer measurements at the cost of lower resolution and increased noise, which hinders accurate downstream analyses. Here we train a denoising diffusion probabilistic model (DDPM) to predict high-resolution images by conditioning the model on low-resolution information. Additionally, the probabilistic aspect of the DDPM allows for repeated generation of images that tend to further increase the signal-to-noise ratio. We show that our model achieves a performance that is better or similar to the previously best-performing methods, across four highly diverse datasets. Importantly, while any of the previous methods show competitive performance for some, but not all datasets, our method consistently achieves high performance across all four data sets, suggesting high generalizability.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# 量子貯留層計算と量子エクストリーム学習におけるクリロフ表現性

Krylov Expressivity in Quantum Reservoir Computing and Quantum Extreme Learning ( http://arxiv.org/abs/2409.12079v1 )

ライセンス: Link先を確認
Saud Čindrak, Lina Jaurigue, Kathy Lüdge, (参考訳) 量子機械学習は量子システムの高次元空間を利用しており、重要な研究の関心を集めている。 この研究は、量子機械学習におけるタスクパフォーマンスの分析にKrylovの複雑さを用いる。 クリロフ空間の拡散複雑性と有効次元を計算し、実効次元を計算し易く、測定可能で、上界表現度尺度として導入する。 我々の分析では,量子貯水池コンピュータと量子極端学習マシンを網羅し,有効次元の増大と性能の向上が相関していることを示した。 我々はロレンツクロス予測タスクでこれを検証し、高い有効次元の誤差を観測した。 最後に, 拡散複雑性, 有効次元, 忠実度を表現度の測定値として比較し, 拡散複雑性がタスク性能を質的に説明できる一方で, 忠実度が適切でないことを示す。 有効次元のみが位相空間を正確に捉え、同様の進化時間におけるタスク性能と同じ飽和度を示す。

Quantum machine learning utilizes the high-dimensional space of quantum systems, attracting significant research interest. This study employs Krylov complexity to analyze task performance in quantum machine learning. We calculate the spread complexity and effective dimension of the Krylov space, introducing the effective dimension as an easy-to-compute, measurable, and upper-bounded expressivity measure. Our analysis covers quantum reservoir computers and quantum extreme learning machines, showing that increasing effective dimension correlates with improved performance. We validate this with the Lorenz cross-prediction task, observing reduced error with higher effective dimensions. Lastly, we compare the spread complexity, the effective dimension, and the fidelity as expressivity measures and show that fidelity is not suitable, while spread complexity can qualitatively explain task performance. Only the effective dimension captures the phase space accurately and exhibits the same saturation as task performance for similar evolution times.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# 解釈可能なエンドステージ腎疾患(ESRD)予測に向けて : 説明可能なAI技術を用いた管理的クレームデータの利用

Towards Interpretable End-Stage Renal Disease (ESRD) Prediction: Utilizing Administrative Claims Data with Explainable AI Techniques ( http://arxiv.org/abs/2409.12087v1 )

ライセンス: Link先を確認
Yubo Li, Saba Al-Sayouri, Rema Padman, (参考訳) 本研究は,慢性腎臓病(CKD)から末期腎疾患(ESRD)への進行を予測するために,高度な機械学習とディープラーニング技術を組み合わせた管理クレームデータを活用する可能性を検討する。 我々は、ランダムフォレストやXGBoostといった従来の機械学習手法とLong Short-Term Memory(LSTM)ネットワークのようなディープラーニングアプローチを用いて、大手医療保険会社が提供した包括的10年間のデータセットを分析し、複数の観測窓の予測モデルを開発する。 その結果、LSTMモデル、特に24ヶ月の観測窓は、ESRDの進行予測において優れた性能を示し、文献における既存モデルよりも優れていた。 さらに、SHAP分析を応用して解釈可能性を高め、個々の特徴が患者レベルでの予測に与える影響について考察する。 本研究は, CKD管理とESRD進行予測に行政請求データを活用することの価値を浮き彫りにする。

This study explores the potential of utilizing administrative claims data, combined with advanced machine learning and deep learning techniques, to predict the progression of Chronic Kidney Disease (CKD) to End-Stage Renal Disease (ESRD). We analyze a comprehensive, 10-year dataset provided by a major health insurance organization to develop prediction models for multiple observation windows using traditional machine learning methods such as Random Forest and XGBoost as well as deep learning approaches such as Long Short-Term Memory (LSTM) networks. Our findings demonstrate that the LSTM model, particularly with a 24-month observation window, exhibits superior performance in predicting ESRD progression, outperforming existing models in the literature. We further apply SHapley Additive exPlanations (SHAP) analysis to enhance interpretability, providing insights into the impact of individual features on predictions at the individual patient level. This study underscores the value of leveraging administrative claims data for CKD management and predicting ESRD progression.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# EL素子の発注が加工性能に及ぼす影響

The Impact of Element Ordering on LM Agent Performance ( http://arxiv.org/abs/2409.12089v1 )

ライセンス: Link先を確認
Wayne Chi, Ameet Talwalkar, Chris Donahue, (参考訳) Webやデスクトップなどの仮想環境をナビゲートできる言語モデルエージェントへの関心が高まっている。 このような環境をナビゲートするために、エージェントは、様々な要素(例えば、ボタン、テキスト、画像)に関する情報から恩恵を受ける。 特にグラフィカルな表現(ピクセル)のみを提供する環境では、どの要素属性がエージェントのパフォーマンスに最も大きな影響を与えるのかは不明だ。 ここでは,言語モデルに要素が提示される順序付けが驚くほど影響を受けており,Webページ内のランダム化要素の順序付けはエージェントの状態表現からすべての可視テキストを削除することで,エージェントのパフォーマンスを両立させる。 ウェブページは要素の階層的な順序付けを提供するが、ピクセルから直接要素を解析する際にそのような順序付けは存在しない。 さらに、タスクがより困難になり、モデルがより洗練されるにつれて、我々の実験は注文の影響が増加することを示唆している。 効果的な注文を見つけることは簡単ではない。 ウェブおよびデスクトップ環境における各種要素順序付け手法の影響について検討する。 我々は, 画素のみの環境において, 次元の減少が実効的な順序付けをもたらすことを見出した。 UI要素の検出モデルをトレーニングして、ピクセルから要素を抽出し、その結果をエージェントベンチマーク(OmniACT)に適用します。 本手法は,従来の最先端技術と比較して平均2倍以上のタスクを完了させる。

There has been a surge of interest in language model agents that can navigate virtual environments such as the web or desktop. To navigate such environments, agents benefit from information on the various elements (e.g., buttons, text, or images) present. It remains unclear which element attributes have the greatest impact on agent performance, especially in environments that only provide a graphical representation (i.e., pixels). Here we find that the ordering in which elements are presented to the language model is surprisingly impactful--randomizing element ordering in a webpage degrades agent performance comparably to removing all visible text from an agent's state representation. While a webpage provides a hierarchical ordering of elements, there is no such ordering when parsing elements directly from pixels. Moreover, as tasks become more challenging and models more sophisticated, our experiments suggest that the impact of ordering increases. Finding an effective ordering is non-trivial. We investigate the impact of various element ordering methods in web and desktop environments. We find that dimensionality reduction provides a viable ordering for pixel-only environments. We train a UI element detection model to derive elements from pixels and apply our findings to an agent benchmark--OmniACT--where we only have access to pixels. Our method completes more than two times as many tasks on average relative to the previous state-of-the-art.
翻訳日:2024-09-19 16:55:29 公開日:2024-09-18
# IMRL:食物獲得のための視覚・身体・時間・幾何学的表現の統合

IMRL: Integrating Visual, Physical, Temporal, and Geometric Representations for Enhanced Food Acquisition ( http://arxiv.org/abs/2409.12092v1 )

ライセンス: Link先を確認
Rui Liu, Zahiruddin Mahammad, Amisha Bhaskar, Pratap Tokekar, (参考訳) ロボット補助給餌は、摂食障害を持つ個人の生活の質を向上させるための重要な約束である。 しかし、さまざまな条件下で多様な食品を入手し、目に見えない食品に一般化することは、ユニークな課題である。 視覚的手がかり(例えば、色、形、テクスチャ)から得られる表面レベルの幾何学的情報(例えば、境界箱、ポーズ)に依存する既存の方法は、適応性と堅牢性に欠けることが多い。 食品購入政策の学習には模倣学習(IL)を用いる。 既存の手法では、ResNet-50のような既製のイメージエンコーダに基づいてポリシーを学ぶために、IL(Reinforcement Learning)またはReinforcement Learning(RL)を採用している。 しかし、そのような表現は堅牢ではなく、多様な獲得シナリオにまたがる一般化に苦慮している。 これらの制約に対処するために、食品取得におけるILの堅牢性と一般化性を高めるために、視覚的、物理的、時間的、幾何学的表現を統合した新しいアプローチであるIMRL(Integrated Multi-dimensional Representation Learning)を提案する。 提案手法は, 食品の種類や物性(固形, 半固形, 粒状, 液状, 混合)を把握し, 獲得行動の時間的ダイナミクスをモデル化し, 最適スクーピング点を決定するための幾何学的情報を導入し, ボウルフルネスを評価する。 IMRLにより、ILはコンテキストに基づいてスクーピング戦略を適応的に調整し、多様な食品取得シナリオを扱うロボットの能力を改善することができる。 実際のロボットの実験では、ゼロショットの一般化から目に見えない設定まで、さまざまな食品やボウルの構成に対して、アプローチの堅牢性と適応性を示す。 提案手法は, 最高性能のベースラインと比較して, 最大35 % の成果率向上を実現している。

Robotic assistive feeding holds significant promise for improving the quality of life for individuals with eating disabilities. However, acquiring diverse food items under varying conditions and generalizing to unseen food presents unique challenges. Existing methods that rely on surface-level geometric information (e.g., bounding box and pose) derived from visual cues (e.g., color, shape, and texture) often lacks adaptability and robustness, especially when foods share similar physical properties but differ in visual appearance. We employ imitation learning (IL) to learn a policy for food acquisition. Existing methods employ IL or Reinforcement Learning (RL) to learn a policy based on off-the-shelf image encoders such as ResNet-50. However, such representations are not robust and struggle to generalize across diverse acquisition scenarios. To address these limitations, we propose a novel approach, IMRL (Integrated Multi-Dimensional Representation Learning), which integrates visual, physical, temporal, and geometric representations to enhance the robustness and generalizability of IL for food acquisition. Our approach captures food types and physical properties (e.g., solid, semi-solid, granular, liquid, and mixture), models temporal dynamics of acquisition actions, and introduces geometric information to determine optimal scooping points and assess bowl fullness. IMRL enables IL to adaptively adjust scooping strategies based on context, improving the robot's capability to handle diverse food acquisition scenarios. Experiments on a real robot demonstrate our approach's robustness and adaptability across various foods and bowl configurations, including zero-shot generalization to unseen settings. Our approach achieves improvement up to $35\%$ in success rate compared with the best-performing baseline.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# スケールでのスキルマッチング:効率的な多言語候補検索のためのフリーランサー・プロジェクトアライメント

Skill matching at scale: freelancer-project alignment for efficient multilingual candidate retrieval ( http://arxiv.org/abs/2409.12097v1 )

ライセンス: Link先を確認
Warren Jouanneau, Marc Palyart, Emma Jouffroy, (参考訳) ジョブの提案とフリーランサーのセットの完全な一致を見つけることは、特に複数の言語において、大規模に実行するのが簡単ではない。 本稿では,この問題を解決する新しいニューラルレトリバーアーキテクチャを提案する。 本手法は,事前学習した多言語言語モデルを利用して,プロジェクト記述とフリーランサープロファイルを符号化する。 後者はプロファイルとプロジェクトの構造を維持することを目的としたカスタムトランスフォーマーアーキテクチャのバックボーンとして使用される。 このモデルは、歴史的データに対して対照的な損失を伴って訓練される。 いくつかの実験により, この手法は, スキルマッチングの類似性を効果的に捉え, 従来の手法よりも効率よくマッチングし, 性能を向上することを示した。

Finding the perfect match between a job proposal and a set of freelancers is not an easy task to perform at scale, especially in multiple languages. In this paper, we propose a novel neural retriever architecture that tackles this problem in a multilingual setting. Our method encodes project descriptions and freelancer profiles by leveraging pre-trained multilingual language models. The latter are used as backbone for a custom transformer architecture that aims to keep the structure of the profiles and project. This model is trained with a contrastive loss on historical data. Thanks to several experiments, we show that this approach effectively captures skill matching similarity and facilitates efficient matching, outperforming traditional methods.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# 脳ストリーム:マルチモーダル誘導を用いたfMRI画像再構成

Brain-Streams: fMRI-to-Image Reconstruction with Multi-modal Guidance ( http://arxiv.org/abs/2409.12099v1 )

ライセンス: Link先を確認
Jaehoon Joo, Taejin Jeong, Seongjae Hwang, (参考訳) 人間が視覚情報をどう処理するかを理解することは、脳活動の基盤となるメカニズムを解明するための重要なステップの1つです。 近年,この好奇心がfMRIから画像への再構成作業のモチベーションとなり,視覚刺激からのfMRIデータから,対応する視覚刺激の再構築を目指している。 驚くべきことに、Latent Diffusion Model (LDM)のような強力な生成モデルを活用することで、視覚データセットから高解像度の自然画像のような複雑な視覚刺激を再構成する有望な結果が示されている。 これらの復元の印象的な構造的忠実さにもかかわらず、それらはしばしば小さな物体、曖昧な形、意味的なニュアンスの詳細を欠いている。 結果として、単なる視覚的知識を超えて、追加的な意味知識を取り入れることが必須となる。 そこで,本稿では,現代LDMにマルチモーダルガイダンス(テキスト誘導,視覚誘導,画像レイアウト)を効果的に取り入れ,構造的かつ意味論的に可能な画像生成に活用する。 具体的には、知覚情報と意味情報は異なる脳領域で処理されるという2つのストリーム仮説にインスパイアされ、私たちのフレームワークであるBrain-Streamsは、これらの脳領域からのfMRI信号を適切な埋め込みにマッピングします。 すなわち、意味情報領域からテキストガイダンスを抽出し、知覚情報領域から視覚的ガイダンスを抽出することにより、Brain-StreamsはLDMに対して正確なマルチモーダルガイダンスを提供する。 我々は,自然画像刺激とfMRIデータからなる実fMRIデータセット上で,Brain-Streamsの定量的および定性的に再構成能力を検証する。

Understanding how humans process visual information is one of the crucial steps for unraveling the underlying mechanism of brain activity. Recently, this curiosity has motivated the fMRI-to-image reconstruction task; given the fMRI data from visual stimuli, it aims to reconstruct the corresponding visual stimuli. Surprisingly, leveraging powerful generative models such as the Latent Diffusion Model (LDM) has shown promising results in reconstructing complex visual stimuli such as high-resolution natural images from vision datasets. Despite the impressive structural fidelity of these reconstructions, they often lack details of small objects, ambiguous shapes, and semantic nuances. Consequently, the incorporation of additional semantic knowledge, beyond mere visuals, becomes imperative. In light of this, we exploit how modern LDMs effectively incorporate multi-modal guidance (text guidance, visual guidance, and image layout) for structurally and semantically plausible image generations. Specifically, inspired by the two-streams hypothesis suggesting that perceptual and semantic information are processed in different brain regions, our framework, Brain-Streams, maps fMRI signals from these brain regions to appropriate embeddings. That is, by extracting textual guidance from semantic information regions and visual guidance from perceptual information regions, Brain-Streams provides accurate multi-modal guidance to LDMs. We validate the reconstruction ability of Brain-Streams both quantitatively and qualitatively on a real fMRI dataset comprising natural image stimuli and fMRI data.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# 対称性に富んだ学習:ロバスト機械学習モデルのためのカテゴリー論的フレームワーク

Symmetry-Enriched Learning: A Category-Theoretic Framework for Robust Machine Learning Models ( http://arxiv.org/abs/2409.12100v1 )

ライセンス: Link先を確認
Ronald Katende, (参考訳) 本写本は,高次対称性とカテゴリー理論を機械学習に統合する新しい枠組みを提示する。 学習アルゴリズムにおける複雑な変換をモデル化するために,超対称性のカテゴリや関手表現を含む新しい数学的構成を導入する。 我々の貢献には、対称性に富んだ学習モデルの設計、カテゴリー対称性を利用した高度な最適化手法の開発、モデルロバスト性、一般化、収束に関する理論分析が含まれる。 厳密な証明と実践的応用を通じて、高次元の分類構造を取り入れることで、現代の機械学習アルゴリズムの理論的基礎と実用的能力が強化され、研究と革新のための新たな方向が開かれたことを実証する。

This manuscript presents a novel framework that integrates higher-order symmetries and category theory into machine learning. We introduce new mathematical constructs, including hyper-symmetry categories and functorial representations, to model complex transformations within learning algorithms. Our contributions include the design of symmetry-enriched learning models, the development of advanced optimization techniques leveraging categorical symmetries, and the theoretical analysis of their implications for model robustness, generalization, and convergence. Through rigorous proofs and practical applications, we demonstrate that incorporating higher-dimensional categorical structures enhances both the theoretical foundations and practical capabilities of modern machine learning algorithms, opening new directions for research and innovation.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# 半古典的光を用いた実用的なセキュアデリゲート量子コンピューティングを目指して

Towards practical secure delegated quantum computing with semi-classical light ( http://arxiv.org/abs/2409.12103v1 )

ライセンス: Link先を確認
Boris Bourdoncle, Pierre-Emmanuel Emeriau, Paul Hilaire, Shane Mansfield, Luka Music, Stephen Wein, (参考訳) セキュアなDelegated Quantum Computation(SDQC)プロトコルは、エンドユーザが悪意のある量子サービスプロバイダやeavesdropperがデータやアルゴリズムに関する情報を取得することを恐れずに、リモート量子サーバ上で貴重な計算を実行できるようにするため、将来の量子情報処理グローバルアーキテクチャの重要な部分である。 また、エンドユーザは、その計算が指定されたときに実行されたかどうかを確認することもできる。 しかし、既存のプロトコルには、実世界での使用を制限する欠点がある。 ほとんどの場合、クライアントは単一量子ビットのソースを操作するか、単一量子ビットの測定を行う必要があるため、量子技術能力は制限されているが、サーバは実際のハードウェアで実装が難しい操作を行う必要がある(例えば、単一光子をレーザーパルスから分離し、光子数の量子非破壊測定を行う)。 量子通信の必要性を完全に取り除くものもいるが、これはセキュリティ保証とサーバ側のメモリオーバーヘッドの点でコストがかかる。 本稿では,情報理論的構成可能なセキュリティを提供しながら,クライアントとサーバの両方の技術的要件を大幅に削減するSDQCプロトコルを提案する。 より正確には、クライアントは減衰レーザーパルスのみを操作し、サーバはスピン光子絡みを発生できる構造で相互作用する量子エミッターのみを処理します。 量子エミッタは、コヒーレントレーザーパルスから偏光符号化量子ビットへの変換器および絡み合わせ発生器として機能する。 このようなデバイスは近年,これまでで最大の絡み合ったフォトニック状態を示すために使われてきた。

Secure Delegated Quantum Computation (SDQC) protocols are a vital piece of the future quantum information processing global architecture since they allow end-users to perform their valuable computations on remote quantum servers without fear that a malicious quantum service provider or an eavesdropper might acquire some information about their data or algorithm. They also allow end-users to check that their computation has been performed as they have specified it. However, existing protocols all have drawbacks that limit their usage in the real world. Most require the client to either operate a single-qubit source or perform single-qubit measurements, thus requiring them to still have some quantum technological capabilities albeit restricted, or require the server to perform operations which are hard to implement on real hardware (e.g isolate single photons from laser pulses and polarisation-preserving photon-number quantum non-demolition measurements). Others remove the need for quantum communications entirely but this comes at a cost in terms of security guarantees and memory overhead on the server's side. We present an SDQC protocol which drastically reduces the technological requirements of both the client and the server while providing information-theoretic composable security. More precisely, the client only manipulates an attenuated laser pulse, while the server only handles interacting quantum emitters with a structure capable of generating spin-photon entanglement. The quantum emitter acts as both a converter from coherent laser pulses to polarisation-encoded qubits and an entanglement generator. Such devices have recently been used to demonstrate the largest entangled photonic state to date, thus hinting at the readiness of our protocol for experimental implementations.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# 量子誤差検出による量子近似最適化の性能評価

Performance of Quantum Approximate Optimization with Quantum Error Detection ( http://arxiv.org/abs/2409.12104v1 )

ライセンス: Link先を確認
Zichang He, David Amaro, Ruslan Shaydulin, Marco Pistoia, (参考訳) 量子アルゴリズムは、現実世界のアプリケーションに取り組むためにスケールアップされなければならない。 そのためには、今日のハードウェアにあるノイズを克服する必要がある。 量子近似最適化アルゴリズム(QAOA)は、その質素なリソース要求と、いくつかの問題に対する最先端の古典的アルゴリズムに対する漸近的な高速化により、スケールアップの候補として期待できる。 しかし、QAOAでより優れた古典的な性能を達成するには耐障害性が必要であると考えられている。 本稿では,$[[k+2,k,2]]$`Iceberg''エラー検出コードを用いて,QAOAの部分的にフォールトトレラントな実装を示す。 トラップイオン量子コンピュータ上で20ドル以上の論理量子ビットを持つ問題に対して、Iceberg符号で回路を符号化することで、未符号化回路と比較してアルゴリズムの性能が向上する。 さらに,コード性能予測モデルの提案と校正を行い,Iceberg符号の限界を特徴付けるとともに,その性能を将来のハードウェアに拡張し,エラー率を向上させる。 特に,QAOAが将来のハードウェア上でのGoemans-Williamsonアルゴリズムに勝るために必要な条件を決定するために,我々のモデルをどのように利用できるかを示す。 提案手法は, 量子コンピュータによる現実の応用への道筋をたどるとともに, 実用的応用において, 部分的にフォールトトレラントな量子エラー検出によって保護される最大の普遍量子コンピューティングアルゴリズムを示すものである。

Quantum algorithms must be scaled up to tackle real-world applications. Doing so requires overcoming the noise present on today's hardware. The quantum approximate optimization algorithm (QAOA) is a promising candidate for scaling up due to its modest resource requirements and documented asymptotic speedup over state-of-the-art classical algorithms for some problems. However, achieving better-than-classical performance with QAOA is believed to require fault tolerance. In this paper, we demonstrate a partially fault-tolerant implementation of QAOA using the $[[k+2,k,2]]$ ``Iceberg'' error detection code. We observe that encoding the circuit with the Iceberg code improves the algorithmic performance as compared to the unencoded circuit for problems with up to $20$ logical qubits on a trapped-ion quantum computer. Additionally, we propose and calibrate a model for predicting the code performance, and use it to characterize the limits of the Iceberg code and extrapolate its performance to future hardware with improved error rates. In particular, we show how our model can be used to determine necessary conditions for QAOA to outperform Goemans-Williamson algorithm on future hardware. Our results demonstrate the largest universal quantum computing algorithm protected by partially fault-tolerant quantum error detection on practical applications to date, paving the way towards solving real-world applications with quantum computers.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# FedLF:Federated Long-Tailed Learningにおける適応ロジット調整と特徴最適化

FedLF: Adaptive Logit Adjustment and Feature Optimization in Federated Long-Tailed Learning ( http://arxiv.org/abs/2409.12105v1 )

ライセンス: Link先を確認
Xiuhua Lu, Peng Li, Xuefeng Jiang, (参考訳) フェデレーション学習は、分散機械学習におけるプライバシの保護という課題にパラダイムを提供する。 しかし、現実の世界で各クライアントに分散するデータセットは必然的に異種であり、もしデータセットがグローバルに集約できるなら、長い尾の分散になりがちであり、モデルの性能に大きな影響を及ぼす。 従来のフェデレーション学習のアプローチは、主にクライアント間のデータの不均一性に対処するが、グローバルな長期データにおけるクラスワイドバイアスの現象には対処できない。 その結果、トレーニングされたモデルは、同様に重要なテールクラスを無視しながら、ヘッドクラスにフォーカスします。 したがって、クラスを全体観的に考える方法論を開発することが不可欠である。 上記の問題に対処するために,適応ロジット調整,連続クラス中心最適化,特徴デコリレーションという,局所的なトレーニングフェーズに3つの修正を加えた新しいFedLFを提案する。 我々は、7つの最先端手法と、データの異質性や長い尾の分布の度合いを比較した。 ベンチマークデータセット CIFAR-10-LT と CIFAR-100-LT の大規模な実験により,データの不均一性と長期分布によるモデル性能劣化の問題を効果的に軽減できることを示した。 我々のコードはhttps://github.com/18sym/FedLF.comで入手できる。

Federated learning offers a paradigm to the challenge of preserving privacy in distributed machine learning. However, datasets distributed across each client in the real world are inevitably heterogeneous, and if the datasets can be globally aggregated, they tend to be long-tailed distributed, which greatly affects the performance of the model. The traditional approach to federated learning primarily addresses the heterogeneity of data among clients, yet it fails to address the phenomenon of class-wise bias in global long-tailed data. This results in the trained model focusing on the head classes while neglecting the equally important tail classes. Consequently, it is essential to develop a methodology that considers classes holistically. To address the above problems, we propose a new method FedLF, which introduces three modifications in the local training phase: adaptive logit adjustment, continuous class centred optimization, and feature decorrelation. We compare seven state-of-the-art methods with varying degrees of data heterogeneity and long-tailed distribution. Extensive experiments on benchmark datasets CIFAR-10-LT and CIFAR-100-LT demonstrate that our approach effectively mitigates the problem of model performance degradation due to data heterogeneity and long-tailed distribution. our code is available at https://github.com/18sym/FedLF.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# 大規模言語モデルを用いた生成心理学に基づく人間とAIの価値の測定

Measuring Human and AI Values based on Generative Psychometrics with Large Language Models ( http://arxiv.org/abs/2409.12106v1 )

ライセンス: Link先を確認
Haoran Ye, Yuhang Xie, Yuanyi Ren, Hanjun Fang, Xin Zhang, Guojie Song, (参考訳) 人間の価値観とその測定は、長年にわたる学際的な調査である。 AIの最近の進歩は、この領域に新たな関心を喚起し、大きな言語モデル(LLM)がツールと価値測定の対象の両方として登場した。 この研究は、LLMに基づくデータ駆動価値測定パラダイムであるGPV(Generative Psychometrics for Values)を導入する。 まず,LLMを精密な知覚レベルの値測定のために微調整し,LLMがテキストを認識に解析し,GPVパイプラインのコアを形成する能力を検証することから始める。 GPVを人間によるブログに適用することにより、従来の心理学的ツールよりも安定性、妥当性、優越性を実証する。 そして、GPVをLLM値測定に拡張し、現在の技術を前進させる。 1) スケーラブルで自由な出力に基づいてLCM値を計測し、文脈特異的な測定を可能にする心理学的方法論。 2)先行手法の応答バイアスを示す測定パラダイムの比較分析,及び 3) LLM の価値と安全性を橋渡しし, 異なる価値体系の予測力と, 様々な価値が LLM の安全性に与える影響を明らかにする。 学際的な取り組みを通じて、我々は、AIを次世代の心理測定や、価値に整合したAIの心理測定に活用することを目指している。

Human values and their measurement are long-standing interdisciplinary inquiry. Recent advances in AI have sparked renewed interest in this area, with large language models (LLMs) emerging as both tools and subjects of value measurement. This work introduces Generative Psychometrics for Values (GPV), an LLM-based, data-driven value measurement paradigm, theoretically grounded in text-revealed selective perceptions. We begin by fine-tuning an LLM for accurate perception-level value measurement and verifying the capability of LLMs to parse texts into perceptions, forming the core of the GPV pipeline. Applying GPV to human-authored blogs, we demonstrate its stability, validity, and superiority over prior psychological tools. Then, extending GPV to LLM value measurement, we advance the current art with 1) a psychometric methodology that measures LLM values based on their scalable and free-form outputs, enabling context-specific measurement; 2) a comparative analysis of measurement paradigms, indicating response biases of prior methods; and 3) an attempt to bridge LLM values and their safety, revealing the predictive power of different value systems and the impacts of various values on LLM safety. Through interdisciplinary efforts, we aim to leverage AI for next-generation psychometrics and psychometrics for value-aligned AI.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# マンバを用いた内視鏡下粘膜下郭清術におけるSPRMamba

SPRMamba: Surgical Phase Recognition for Endoscopic Submucosal Dissection with Mamba ( http://arxiv.org/abs/2409.12108v1 )

ライセンス: Link先を確認
Xiangning Zhang, Jinnan Chen, Qingwei Zhang, Chengfeng Zhou, Zhengjie Zhang, Xiaobo Li, Dahong Qian, (参考訳) 内視鏡的粘膜下郭清術 (ESD) は, 早期胃癌の治療を目的とした最小侵襲の手術である。 コンピュータ支援手術システムはESD手術の精度と安全性を向上させる上で重要な役割を担っているが、その効果は手術段階の正確な認識によって制限されている。 病変の特徴や組織構造が異なるESDの複雑な性質は、リアルタイムの外科的位相認識アルゴリズムの課題を提起する。 既存の外科的位相認識アルゴリズムは、ビデオベースのシナリオで時間的コンテキストを効率的に捉えるのに苦労し、性能は不十分である。 これらの課題に対処するために,ESD手術相認識のための新しいMambaベースのフレームワークであるSPRMambaを提案する。 SPRMambaは、テンポラル・コンボリューショナル・ネットワーク(英語版)やトランスフォーマー(英語版)といった伝統的なテンポラル・テンポラル・モデル(英語版)の限界を克服し、きめ細かな細部を捉えるためにスケールド・リシダル・トランマバ・ブロックを導入しながら、長期のテンポラル・モデリングにマンバの強みを活用している。 さらに, リアルタイムの位相認識に欠かせない処理を加速するために, 時間サンプル戦略を導入している。 ESD385データセットと胆嚢摘出術のColec80データセットの大規模なテストは、SPRMambaが既存の最先端の手法を超越し、様々な外科的位相認識タスクにおいてより堅牢性を示すことを示している。

Endoscopic Submucosal Dissection (ESD) is a minimally invasive procedure initially designed for the treatment of early gastric cancer but is now widely used for various gastrointestinal lesions. Computer-assisted Surgery systems have played a crucial role in improving the precision and safety of ESD procedures, however, their effectiveness is limited by the accurate recognition of surgical phases. The intricate nature of ESD, with different lesion characteristics and tissue structures, presents challenges for real-time surgical phase recognition algorithms. Existing surgical phase recognition algorithms struggle to efficiently capture temporal contexts in video-based scenarios, leading to insufficient performance. To address these issues, we propose SPRMamba, a novel Mamba-based framework for ESD surgical phase recognition. SPRMamba leverages the strengths of Mamba for long-term temporal modeling while introducing the Scaled Residual TranMamba block to enhance the capture of fine-grained details, overcoming the limitations of traditional temporal models like Temporal Convolutional Networks and Transformers. Moreover, a Temporal Sample Strategy is introduced to accelerate the processing, which is essential for real-time phase recognition in clinical settings. Extensive testing on the ESD385 dataset and the cholecystectomy Cholec80 dataset demonstrates that SPRMamba surpasses existing state-of-the-art methods and exhibits greater robustness across various surgical phase recognition tasks.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# リモートセンシングにおける知識蒸留の応用

Applications of Knowledge Distillation in Remote Sensing: A Survey ( http://arxiv.org/abs/2409.12111v1 )

ライセンス: Link先を確認
Yassine Himeur, Nour Aburaed, Omar Elharrouss, Iraklis Varlamis, Shadi Atalla, Wathiq Mansoor, Hussain Al Ahmad, (参考訳) リモートセンシング(RS)分野におけるモデルの複雑さの増大に伴い、モデル精度と計算効率のバランスをとるソリューションの需要が高まっている。 知識蒸留(KD)は、このニーズを満たす強力なツールとして登場し、大規模で複雑なモデルからより小さく、より効率的なものへの知識の伝達を可能にし、性能を著しく損なうことなく実現している。 本稿では, RSにおけるKDとその革新的な応用について概観する。 複雑な、しばしば面倒なモデル(教師)からよりコンパクトで効率的なモデル(学生)へ知識を伝達するために開発された技術であるKDは、様々な領域にわたって大きな進化と応用が見られた。 まず,KD法の基本概念と歴史的進展を紹介する。 KDを採用する利点は、特にモデル圧縮、計算効率の向上、性能向上といった点で強調され、RSシナリオの実践的な展開に欠かせない。 この記事では,KD手法の包括的分類について紹介し,各カテゴリを批判的に分析し,選択肢の幅と深さを検証し,事例分割やオブジェクト検出など,RSタスクにおけるKD手法の実践的実装を示す,特定のケーススタディを示す。 さらに, RSにおけるKDの課題と限界, 実践的制約, 今後の方向性などについて論じ, RSの分野における研究者や実践者の包括的概要を提供する。 この組織を通じて、本論文は、KDにおける研究の現状を解明するだけでなく、今後の研究機会のステージを設定し、学術研究と実世界の応用の両方に大きく貢献する。

With the ever-growing complexity of models in the field of remote sensing (RS), there is an increasing demand for solutions that balance model accuracy with computational efficiency. Knowledge distillation (KD) has emerged as a powerful tool to meet this need, enabling the transfer of knowledge from large, complex models to smaller, more efficient ones without significant loss in performance. This review article provides an extensive examination of KD and its innovative applications in RS. KD, a technique developed to transfer knowledge from a complex, often cumbersome model (teacher) to a more compact and efficient model (student), has seen significant evolution and application across various domains. Initially, we introduce the fundamental concepts and historical progression of KD methods. The advantages of employing KD are highlighted, particularly in terms of model compression, enhanced computational efficiency, and improved performance, which are pivotal for practical deployments in RS scenarios. The article provides a comprehensive taxonomy of KD techniques, where each category is critically analyzed to demonstrate the breadth and depth of the alternative options, and illustrates specific case studies that showcase the practical implementation of KD methods in RS tasks, such as instance segmentation and object detection. Further, the review discusses the challenges and limitations of KD in RS, including practical constraints and prospective future directions, providing a comprehensive overview for researchers and practitioners in the field of RS. Through this organization, the paper not only elucidates the current state of research in KD but also sets the stage for future research opportunities, thereby contributing significantly to both academic research and real-world applications.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# Pareto Data Framework: 最小生存データ(MVD)を用いたリソース効率の高い意思決定に向けてのステップ

Pareto Data Framework: Steps Towards Resource-Efficient Decision Making Using Minimum Viable Data (MVD) ( http://arxiv.org/abs/2409.12112v1 )

ライセンス: Link先を確認
Tashfain Ahmed, Josh Siegel, (参考訳) 本稿では,組込みシステムやモバイルデバイス,IoT(Internet of Things)デバイスなどの制約のあるプラットフォーム上での機械学習アプリケーションを実現するために必要となる,最小生存データ(MVD)を特定し,選択するためのアプローチであるPareto Data Frameworkを紹介する。 戦略的データ削減は、帯域幅、エネルギ、計算、ストレージコストを大幅に削減しつつ、高いパフォーマンスを維持することができることを示す。 このフレームワークは、最小生存データ(MVD)を特定し、パフォーマンスを犠牲にすることなく、リソース制約のある環境をまたいだ効率を最適化する。 センサのオーバープロビジョンや過剰精度、信号のオーバーサンプリング、最適なセンサ選択のためのスケーラブルなソリューションの提案、信号抽出と送信、データ表現など、IoTアプリケーションにおける一般的な非効率なプラクティスに対処する。 実験により, ダウンサンプリング, 量子化, トランケーション後の有効音響データのキャラクタリゼーションにより, 精度の低下したセンサやネットワーク, ストレージの制約をシミュレートし, サンプルレートを75 %, ビット深さとクリップ長を50 %まで低減して, 性能を95 %まで維持できることを示した。 これらの知見は制約系の設計と開発に影響を及ぼす。 また、このフレームワークは、IoTアプリケーションや農業、輸送、製造業といった分野にまたがる先進的なAI技術を民主化し、アクセスを改善し、データ駆動型洞察のメリットを乗算する可能性を含む、幅広い意味についても論じている。

This paper introduces the Pareto Data Framework, an approach for identifying and selecting the Minimum Viable Data (MVD) required for enabling machine learning applications on constrained platforms such as embedded systems, mobile devices, and Internet of Things (IoT) devices. We demonstrate that strategic data reduction can maintain high performance while significantly reducing bandwidth, energy, computation, and storage costs. The framework identifies Minimum Viable Data (MVD) to optimize efficiency across resource-constrained environments without sacrificing performance. It addresses common inefficient practices in an IoT application such as overprovisioning of sensors and overprecision, and oversampling of signals, proposing scalable solutions for optimal sensor selection, signal extraction and transmission, and data representation. An experimental methodology demonstrates effective acoustic data characterization after downsampling, quantization, and truncation to simulate reduced-fidelity sensors and network and storage constraints; results shows that performance can be maintained up to 95\% with sample rates reduced by 75\% and bit depths and clip length reduced by 50\% which translates into substantial cost and resource reduction. These findings have implications on the design and development of constrained systems. The paper also discusses broader implications of the framework, including the potential to democratize advanced AI technologies across IoT applications and sectors such as agriculture, transportation, and manufacturing to improve access and multiply the benefits of data-driven insights.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# 強力なベースラインモデル - 臨床応用による機械学習研究の調整のための重要な要件

Stronger Baseline Models -- A Key Requirement for Aligning Machine Learning Research with Clinical Utility ( http://arxiv.org/abs/2409.12116v1 )

ライセンス: Link先を確認
Nathan Wolfrath, Joel Wolfrath, Hengrui Hu, Anjishnu Banerjee, Anai N. Kothari, (参考訳) 機械学習(ML)の研究は、様々なアプリケーションドメインにわたる予測モデリングの成功により、近年大幅に増加している。 しかしながら、MLモデルをハイテイクにデプロイしようとする場合、モデル透明性の欠如(あるいは推論プロセスの監査ができない)、サイロ化されたデータソースによる大規模なトレーニングデータ要求、モデルユーティリティを測定するための複雑なメトリクスなど、よく知られた障壁が存在する。 本研究は,医療ML評価において,より強力なベースラインモデルを含めることによって,実践者がこれらの課題に対処する上で重要な下流効果があることを実証的に示す。 一連のケーススタディを通じて、ベースラインを省略したり、弱いベースラインモデル(例えば最適化のない線形モデル)と比較する一般的な実践は、研究文献で提案されているML手法の価値を曖昧にしている。 これらの知見を用いて,臨床現場でMLモデルをより効果的に研究・展開するためのベストプラクティスを提案する。

Machine Learning (ML) research has increased substantially in recent years, due to the success of predictive modeling across diverse application domains. However, well-known barriers exist when attempting to deploy ML models in high-stakes, clinical settings, including lack of model transparency (or the inability to audit the inference process), large training data requirements with siloed data sources, and complicated metrics for measuring model utility. In this work, we show empirically that including stronger baseline models in healthcare ML evaluations has important downstream effects that aid practitioners in addressing these challenges. Through a series of case studies, we find that the common practice of omitting baselines or comparing against a weak baseline model (e.g. a linear model with no optimization) obscures the value of ML methods proposed in the research literature. Using these insights, we propose some best practices that will enable practitioners to more effectively study and deploy ML models in clinical settings.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# 低フレームレート音声コーデック:高速LLM訓練と推論のためのコーデック

Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference ( http://arxiv.org/abs/2409.12117v1 )

ライセンス: Link先を確認
Edresson Casanova, Ryan Langman, Paarth Neekhara, Shehzeen Hussain, Jason Li, Subhankar Ghosh, Ante Jukić, Sang-gil Lee, (参考訳) 大規模言語モデル (LLM) は、音声コーデックによって音声を個別のトークンに変換することにより、言語モデリング技術のオーディオデータへの応用を可能にする。 しかし、オーディオコーデックは高いフレームレートで動作し、特に自己回帰モデルではトレーニングや推論が遅くなる。 この課題に対処するために,大きな言語モデルを用いた有限スカラー量子化と対角トレーニングを活用し,1.89kbpsのビットレートと21.5フレーム毎秒の高品質な音声圧縮を実現するニューラルオーディオコーデック,LFSC(Lolow Frame-rate Speech Codec)を提案する。 我々の新しいコーデックは、従来のモデルに匹敵する品質を保ちながら、LLMベースのテキスト音声モデルの約3倍高速に推定できることを示した。

Large language models (LLMs) have significantly advanced audio processing through audio codecs that convert audio into discrete tokens, enabling the application of language modeling techniques to audio data. However, audio codecs often operate at high frame rates, resulting in slow training and inference, especially for autoregressive models. To address this challenge, we present the Low Frame-rate Speech Codec (LFSC): a neural audio codec that leverages finite scalar quantization and adversarial training with large speech language models to achieve high-quality audio compression with a 1.89 kbps bitrate and 21.5 frames per second. We demonstrate that our novel codec can make the inference of LLM-based text-to-speech models around three times faster while improving intelligibility and producing quality comparable to previous models.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# Qwen2.5-Math Technical Report: toward Mathematical Expert Model via Self-Improvement

Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement ( http://arxiv.org/abs/2409.12122v1 )

ライセンス: Link先を確認
An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jianhong Tu, Jingren Zhou, Junyang Lin, Keming Lu, Mingfeng Xue, Runji Lin, Tianyu Liu, Xingzhang Ren, Zhenru Zhang, (参考訳) 本稿では,Qwen2.5-MathとQwen2.5-Math-Instruct-1.5B/7B/72Bという,数学固有の大規模言語モデルについて述べる。 Qwen2.5シリーズの中核的な革新は、事前学習やポストトレーニングから推論まで、パイプライン全体を通して自己改善の哲学を統合することである。 2) 訓練後の段階では,Qwen2-Math-Instructから大量サンプリングを行うことで報奨モデル(RM)を開発する。 このRMは、教師付き微調整(SFT)におけるデータの反復的進化に適用される。 より強力なSFTモデルでは、RMを反復的にトレーニングし、更新することが可能です。 最終SFTモデルでは、最終的なRMを用いて強化学習を行い、Qwen2.5-Math-Instructとなる。 (3) 推論段階では, RMを用いてサンプリングを誘導し, モデルの性能を最適化する。 Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、Chain-of-Thought (CoT)やTool-Integrated Reasoning (TIR)などの高度な数学的推論能力を持っている。 GSM8K, MATH, GaoKao, AMC23, AIME24 など,英語と中国語の数学データセットを10種類評価し,小学校レベルの問題から数学の競争問題まで幅広い課題について考察した。

In this report, we present a series of math-specific large language models: Qwen2.5-Math and Qwen2.5-Math-Instruct-1.5B/7B/72B. The core innovation of the Qwen2.5 series lies in integrating the philosophy of self-improvement throughout the entire pipeline, from pre-training and post-training to inference: (1) During the pre-training phase, Qwen2-Math-Instruct is utilized to generate large-scale, high-quality mathematical data. (2) In the post-training phase, we develop a reward model (RM) by conducting massive sampling from Qwen2-Math-Instruct. This RM is then applied to the iterative evolution of data in supervised fine-tuning (SFT). With a stronger SFT model, it's possible to iteratively train and update the RM, which in turn guides the next round of SFT data iteration. On the final SFT model, we employ the ultimate RM for reinforcement learning, resulting in the Qwen2.5-Math-Instruct. (3) Furthermore, during the inference stage, the RM is used to guide sampling, optimizing the model's performance. Qwen2.5-Math-Instruct supports both Chinese and English, and possess advanced mathematical reasoning capabilities, including Chain-of-Thought (CoT) and Tool-Integrated Reasoning (TIR). We evaluate our models on 10 mathematics datasets in both English and Chinese, such as GSM8K, MATH, GaoKao, AMC23, and AIME24, covering a range of difficulties from grade school level to math competition problems.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# 高ヒューリスティックな決定規則を用いた最適ビジュアルサーチ

Optimal Visual Search with Highly Heuristic Decision Rules ( http://arxiv.org/abs/2409.12124v1 )

ライセンス: Link先を確認
Anqi Zhang, Wilson S. Geisler, (参考訳) 視覚探索は人間や他の動物にとって基本的な自然課題である。 そこで,本研究では,対象物の位置がよく区切られたショートディスプレイを検索する際に,人間が使用する決定プロセスについて検討した。 性能はベイズ最適決定プロセスと比較され、異なる候補位置からの情報が統計的に独立であるという仮定で比較された。 驚くべきことに、ヒトは胎児の感度が著しく低下し、ヒトの脳が最適な計算を複製できないにもかかわらず、最適な成績を収めた。 これらのパラドックス的な結果について,3つの要因が定量的に説明できることが示唆された。 最も重要なことは、単純で固定的なヒューリスティックな決定ルールが、ほぼ最適な検索性能に達することである。 第二に、卵胞の無視は、主に中心の電位的位置のみに影響を与える。 最後に、空間的に相関したニューラルノイズは、独立雑音の予測を上回る探索性能をもたらす。 これらの発見は、人間や他の動物における視覚探索タスクやその他の識別タスクを理解するために、はるかに重要な意味を持つ。

Visual search is a fundamental natural task for humans and other animals. We investigated the decision processes humans use when searching briefly presented displays having well-separated potential target-object locations. Performance was compared with the Bayesian-optimal decision process under the assumption that the information from the different potential target locations is statistically independent. Surprisingly, humans performed slightly better than optimal, despite humans' substantial loss of sensitivity in the fovea, and the implausibility of the human brain replicating the optimal computations. We show that three factors can quantitatively explain these seemingly paradoxical results. Most importantly, simple and fixed heuristic decision rules reach near optimal search performance. Secondly, foveal neglect primarily affects only the central potential target location. Finally, spatially correlated neural noise causes search performance to exceed that predicted for independent noise. These findings have far-reaching implications for understanding visual search tasks and other identification tasks in humans and other animals.
翻訳日:2024-09-19 16:45:43 公開日:2024-09-18
# Linguini:言語に依存しない言語推論のためのベンチマーク

Linguini: A benchmark for language-agnostic linguistic reasoning ( http://arxiv.org/abs/2409.12126v1 )

ライセンス: Link先を確認
Eduardo Sánchez, Belen Alastruey, Christophe Ropers, Pontus Stenetorp, Mikel Artetxe, Marta R. Costa-jussà, (参考訳) 本稿では,既存の言語固有の知識に頼らずに,言語モデルの言語推論スキルを測定するための新しいベンチマークを提案する。 このテストは、国際言語オリンピアドコーパスから抽出された75言語(ほとんどが)の超低リソース言語にまたがる160の問題でグループ化された864の質問をカバーしている。 このベンチマークで高い精度を達成するために、モデルはテストされた言語の以前の知識を必要としない。 すべての分析されたモデルは25%以下の精度でランク付けされているが、オープンモデルとクローズドモデルの間には大きなギャップがあり、最高のパフォーマンスのプロプライエタリモデルが24.05%、最高のパフォーマンスのオープンモデルが8.84%である。

We propose a new benchmark to measure a language model's linguistic reasoning skills without relying on pre-existing language-specific knowledge. The test covers 894 questions grouped in 160 problems across 75 (mostly) extremely low-resource languages, extracted from the International Linguistic Olympiad corpus. To attain high accuracy on this benchmark, models don't need previous knowledge of the tested language, as all the information needed to solve the linguistic puzzle is presented in the context. We find that, while all analyzed models rank below 25% accuracy, there is a significant gap between open and closed models, with the best-performing proprietary model at 24.05% and the best-performing open model at 8.84%.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# BERT-VBD:ベトナムの多文書要約フレームワーク

BERT-VBD: Vietnamese Multi-Document Summarization Framework ( http://arxiv.org/abs/2409.12134v1 )

ライセンス: Link先を確認
Tuan-Cuong Vuong, Trang Mai Xuan, Thien Van Luong, (参考訳) MDS(Multi-Document Summarization)の課題に対処するために,抽出および抽象的な要約技術にまたがる多くの手法が提案されている。 しかし、それぞれのアプローチには独自の制限があり、どちらのアプローチにも依存することができない。 新しくて有望な戦略は、抽出的および抽象的要約法の相乗的融合を含む。 この領域での多くの研究にもかかわらず、統合された方法論の研究は、特にベトナム語処理の文脈ではほとんど行われていない。 本稿では,抽出・抽象化技術を統合した2成分パイプラインアーキテクチャを利用したベトナムのMDSフレームワークを提案する。 第1のコンポーネントは、各ドキュメント内のキー文を特定するための抽出アプローチを採用している。 これは、シアムと三重項ネットワーク構造を用いた意味的に意味のあるフレーズ埋め込みを導出する、事前訓練されたBERTネットワークの修正によって達成される。 第2のコンポーネントは、VBD-LLaMA2-7B-50bモデルを使用して抽象的な要約を行い、最終的な要約文書を生成する。 提案手法は,VN-MDSデータセットにおけるROUGE-2スコアの39.6%を達成し,最先端のベースラインよりも優れた性能を示す。

In tackling the challenge of Multi-Document Summarization (MDS), numerous methods have been proposed, spanning both extractive and abstractive summarization techniques. However, each approach has its own limitations, making it less effective to rely solely on either one. An emerging and promising strategy involves a synergistic fusion of extractive and abstractive summarization methods. Despite the plethora of studies in this domain, research on the combined methodology remains scarce, particularly in the context of Vietnamese language processing. This paper presents a novel Vietnamese MDS framework leveraging a two-component pipeline architecture that integrates extractive and abstractive techniques. The first component employs an extractive approach to identify key sentences within each document. This is achieved by a modification of the pre-trained BERT network, which derives semantically meaningful phrase embeddings using siamese and triplet network structures. The second component utilizes the VBD-LLaMA2-7B-50b model for abstractive summarization, ultimately generating the final summary document. Our proposed framework demonstrates a positive performance, attaining ROUGE-2 scores of 39.6% on the VN-MDS dataset and outperforming the state-of-the-art baselines.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# 任意特徴をもつ線形時間差学習のほぼ確実な収束

Almost Sure Convergence of Linear Temporal Difference Learning with Arbitrary Features ( http://arxiv.org/abs/2409.12135v1 )

ライセンス: Link先を確認
Jiuqi Wang, Shangtong Zhang, (参考訳) 線形関数近似を用いた時間差分学習(TD)は、強化学習における古典的で強力な予測アルゴリズムである。 線型TDがほぼ確実に一意点に収束することはよく理解されているが、この収束は伝統的に近似器で使われる特徴が線型独立であるという仮定を必要とする。 しかし、この線形独立仮定は多くの現実的なシナリオでは成立しない。 この研究は、線形独立な特徴を必要とせず、線形TDのほぼ確実に収束を確立する最初のものである。 実際、私たちはその機能について何の仮定もしていません。 近似値関数が一意点に収束し、重みが集合に収束することを証明する。 また、重みの局所安定性の概念も確立する。 重要なことに、他の仮定を導入する必要はなく、線形TDアルゴリズムを変更する必要もない。 解析の鍵となるのは、線形TDの平均ODEの有界不変集合の新たな特徴付けである。

Temporal difference (TD) learning with linear function approximation, abbreviated as linear TD, is a classic and powerful prediction algorithm in reinforcement learning. While it is well understood that linear TD converges almost surely to a unique point, this convergence traditionally requires the assumption that the features used by the approximator are linearly independent. However, this linear independence assumption does not hold in many practical scenarios. This work is the first to establish the almost sure convergence of linear TD without requiring linearly independent features. In fact, we do not make any assumptions on the features. We prove that the approximated value function converges to a unique point and the weight iterates converge to a set. We also establish a notion of local stability of the weight iterates. Importantly, we do not need to introduce any other additional assumptions and do not need to make any modification to the linear TD algorithm. Key to our analysis is a novel characterization of bounded invariant sets of the mean ODE of linear TD.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# GRIN: GRANDient-Informed MoE

GRIN: GRadient-INformed MoE ( http://arxiv.org/abs/2409.12136v1 )

ライセンス: Link先を確認
Liyuan Liu, Young Jin Kim, Shuohang Wang, Chen Liang, Yelong Shen, Hao Cheng, Xiaodong Liu, Masahiro Tanaka, Xiaoxia Wu, Wenxiang Hu, Vishrav Chaudhary, Zeqi Lin, Chenruidong Zhang, Jilong Xue, Hany Awadalla, Jianfeng Gao, Weizhu Chen, (参考訳) Mixture-of-Experts (MoE)モデルは、エキスパートルーティングによるスパース計算により、高密度モデルよりも効果的にスケールし、専門家モジュールの小さなサブセットのみを選択的に活性化する。 しかし、離散的な専門家のルーティングが標準のバックプロパゲーションを妨げることや、ディープラーニングの基盤となる勾配に基づく最適化を妨げているため、スパース計算は従来のトレーニングプラクティスに挑戦する。 MoEのスケーリング能力を向上するために,専門家のルーティングにスパース勾配推定を組み込んだGRIN(GRadient-Informed MoE Training)を導入し,トークンのドロップを回避するためにモデル並列性を設定する。 自己回帰型言語モデリングにGRINを適用することで、トップ216$\times$3.8B MoEモデルを開発する。 我々のモデルは6.6Bの活性化パラメータしか持たないが、7Bの密度モデルより優れており、同じデータで訓練された14Bの密度モデルの性能と一致している。 様々なタスクにわたる広範囲な評価は、GRINがMoEの有効性を大幅に向上させる可能性を示し、MMLUでは79.4、HellaSwagでは83.7、HumanEvalでは74.4、MATHでは58.9を達成している。

Mixture-of-Experts (MoE) models scale more effectively than dense models due to sparse computation through expert routing, selectively activating only a small subset of expert modules. However, sparse computation challenges traditional training practices, as discrete expert routing hinders standard backpropagation and thus gradient-based optimization, which are the cornerstone of deep learning. To better pursue the scaling power of MoE, we introduce GRIN (GRadient-INformed MoE training), which incorporates sparse gradient estimation for expert routing and configures model parallelism to avoid token dropping. Applying GRIN to autoregressive language modeling, we develop a top-2 16$\times$3.8B MoE model. Our model, with only 6.6B activated parameters, outperforms a 7B dense model and matches the performance of a 14B dense model trained on the same data. Extensive evaluations across diverse tasks demonstrate the potential of GRIN to significantly enhance MoE efficacy, achieving 79.4 on MMLU, 83.7 on HellaSwag, 74.4 on HumanEval, and 58.9 on MATH.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# 非合意的親密メディアの報告:ディープフェイクの聴取調査

Reporting Non-Consensual Intimate Media: An Audit Study of Deepfakes ( http://arxiv.org/abs/2409.12138v1 )

ライセンス: Link先を確認
Li Qiwei, Shihui Zhang, Andrew Timothy Kasper, Joshua Ashkinaze, Asia A. Eaton, Sarita Schoenebeck, Eric Gilbert, (参考訳) NCIM(non-consensual intimate media)は、重大なダメージを与える。 現在、被害者の生き残りはNCIMを非合意のヌード違反または著作権侵害として報告する2つのメカニズムを使用することができる。 両メカニズムのX(旧Twitter)に報告したNCIMの削除速度の監査を行った。 我々は、50個のAI生成ヌード画像をアップロードし、Xの「合意なしヌード」報告メカニズムと、その「著作権侵害」メカニズムの半数を報告しました。 著作権条件は全画像に対して25時間以内に画像除去を成功させ(100%除去率)、非合意ヌード報告は3週間以上は画像除去を行わなかった(0%除去率)。 NCIMの削除をオンラインで規制するターゲット法の必要性を強調します。 また,社会プラットフォーム上でのNCIM監査に関する倫理的考察についても論じる。

Non-consensual intimate media (NCIM) inflicts significant harm. Currently, victim-survivors can use two mechanisms to report NCIM - as a non-consensual nudity violation or as copyright infringement. We conducted an audit study of takedown speed of NCIM reported to X (formerly Twitter) of both mechanisms. We uploaded 50 AI-generated nude images and reported half under X's "non-consensual nudity" reporting mechanism and half under its "copyright infringement" mechanism. The copyright condition resulted in successful image removal within 25 hours for all images (100% removal rate), while non-consensual nudity reports resulted in no image removal for over three weeks (0% removal rate). We stress the need for targeted legislation to regulate NCIM removal online. We also discuss ethical considerations for auditing NCIM on social platforms.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# Takin: 高品質ゼロショット音声生成モデルのコホート

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models ( http://arxiv.org/abs/2409.12139v1 )

ライセンス: Link先を確認
EverestAI, :, Sijin Chen, Yuan Feng, Laipeng He, Tianwei He, Wendi He, Yanni Hu, Bin Lin, Yiting Lin, Pengfei Tan, Chengwei Tian, Chen Wang, Zhicheng Wang, Ruoye Xie, Jingjing Yin, Jianhao Ye, Jixun Yao, Quanlei Yan, Yuguang Yang, (参考訳) ビッグデータと大規模言語モデルの出現により、パーソナライズされたパーソナライズされた迅速なカスタマイズが重要なトレンドとなっている。 本稿では,Takin TTS,Takin VC,Takin Morphingなどの一連の技術とモデルを紹介する。 これらのモデルはゼロショット音声生成が可能であり、実際の人間の発話とほとんど区別できない高品質な音声を生成し、個人が自身のニーズに応じて音声コンテンツをカスタマイズできるようにする。 具体的には、強化されたニューラルスピーチコーデックとマルチタスクトレーニングフレームワークの上に構築された、ゼロショット方式で高忠実な自然言語を生成するニューラルネットワークモデルであるTakin TTSを紹介する。 本研究では,Takin VCに対して,話者類似性を改善するための効果的なコンテンツと音色の関節モデリング手法を提案し,さらに自然性や表現性を高めるための条件付きフローマッチングに基づくデコーダを提案する。 最後に,高度に分離された先進的な音色と韻律のモデリングアプローチを用いたタケインモーフィングシステムを提案する。 大規模な実験により,Takin AudioLLMシリーズモデルの有効性とロバスト性を検証した。 詳細なデモについては、https://takinaudiollm.github.ioを参照してください。

With the advent of the big data and large language model era, zero-shot personalized rapid customization has emerged as a significant trend. In this report, we introduce Takin AudioLLM, a series of techniques and models, mainly including Takin TTS, Takin VC, and Takin Morphing, specifically designed for audiobook production. These models are capable of zero-shot speech production, generating high-quality speech that is nearly indistinguishable from real human speech and facilitating individuals to customize the speech content according to their own needs. Specifically, we first introduce Takin TTS, a neural codec language model that builds upon an enhanced neural speech codec and a multi-task training framework, capable of generating high-fidelity natural speech in a zero-shot way. For Takin VC, we advocate an effective content and timbre joint modeling approach to improve the speaker similarity, while advocating for a conditional flow matching based decoder to further enhance its naturalness and expressiveness. Last, we propose the Takin Morphing system with highly decoupled and advanced timbre and prosody modeling approaches, which enables individuals to customize speech production with their preferred timbre and prosody in a precise and controllable manner. Extensive experiments validate the effectiveness and robustness of our Takin AudioLLM series models. For detailed demos, please refer to https://takinaudiollm.github.io.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# MoRAG -- マルチフュージョン検索による人体運動生成

MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion ( http://arxiv.org/abs/2409.12140v1 )

ライセンス: Link先を確認
Kalakonda Sai Shashank, Shubh Maheshwari, Ravi Kiran Sarvadevabhatla, (参考訳) そこで本研究では,テキストベースのヒューマンモーション生成のための多部融合に基づく検索強化生成戦略であるMoRAGを紹介する。 この方法は、改良された動き検索プロセスを通じて得られた追加知識を活用することにより、動き拡散モデルを強化する。 大規模言語モデル(LLM)を効果的に推進することにより,動作検索におけるスペルエラーや言い換え問題に対処する。 提案手法は,多部探索手法を用いて,言語空間における運動検索の一般化性を向上させる。 得られた動きの空間的組成から多様なサンプルを作成する。 さらに,低レベルな部分特異的な動作情報を利用することで,未知のテキスト記述のための動作サンプルを構築することができる。 実験により,我々のフレームワークはプラグイン・アンド・プレイモジュールとして機能し,運動拡散モデルの性能向上を図っている。 コード、事前訓練されたモデル、サンプルビデオは、https://motion-rag.github.io/で利用可能になる。

We introduce MoRAG, a novel multi-part fusion based retrieval-augmented generation strategy for text-based human motion generation. The method enhances motion diffusion models by leveraging additional knowledge obtained through an improved motion retrieval process. By effectively prompting large language models (LLMs), we address spelling errors and rephrasing issues in motion retrieval. Our approach utilizes a multi-part retrieval strategy to improve the generalizability of motion retrieval across the language space. We create diverse samples through the spatial composition of the retrieved motions. Furthermore, by utilizing low-level, part-specific motion information, we can construct motion samples for unseen text descriptions. Our experiments demonstrate that our framework can serve as a plug-and-play module, improving the performance of motion diffusion models. Code, pretrained models and sample videos will be made available at: https://motion-rag.github.io/
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# MAgICoRe:マルチエージェント,イテレーティブ,粗孔リファイン化

MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning ( http://arxiv.org/abs/2409.12147v1 )

ライセンス: Link先を確認
Justin Chih-Yao Chen, Archiki Prasad, Swarnadeep Saha, Elias Stengel-Eskin, Mohit Bansal, (参考訳) 大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。 これらは性能を向上させるが、しばしば飽和点に達する。 Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。 しかし、改善には3つの重要な課題がある。 (1) 過剰な改善: すべてのインスタンスを一様に精製することは、過剰に修正され、全体的なパフォーマンスが低下する可能性がある。 2) エラーのローカライズと対処ができない: LLMは自己修正能力に限界があり、自分自身の誤りを特定し修正するのに苦労する。 (3) 不十分な改善: 改善の繰り返しが何回必要かを決めることは簡単ではない。 これらの問題に対処するために,問題難易度を難易度と難易度に分類し,難易度を粗い凝集度と難易度を細粒度かつ反復的マルチエージェント精細度で解決し,過度な精細化を回避するMagICoReを提案する。 誤差ローカライゼーションを改善するために,外部ステップワイド報酬モデル(RM)スコアを組み込んだ。 さらに,有効な改善を実現するために,ソルバー,レビュアー(段階的RMスコアに基づいて目標フィードバックを生成する),リファイナ(フィードバックを組み込んだ)という3つのエージェントからなるマルチエージェントループを採用している。 十分な改善を確保するため、我々は更新されたソリューションを再評価し、さらなる改良ラウンドを反復的に開始する。 我々は,Llama-3-8BおよびGPT-3.5上でMAgICoReを評価し,その有効性を示した。 MAgICoReの1回でさえ、サンプルの半分未満を使用しながら、自己一貫性を3.4%、Best-of-kを3.2%、Self-Refineを4.0%上回る。 ベースラインによる反復的な改善とは異なり、MagICoReはさらなるイテレーションで改善を続けている。 最後に,MAgICoReのRMとマルチエージェント通信の重要性を強調した。

Large Language Models' (LLM) reasoning can be improved using test-time aggregation strategies, i.e., generating multiple samples and voting among generated samples. While these improve performance, they often reach a saturation point. Refinement offers an alternative by using LLM-generated feedback to improve solution quality. However, refinement introduces 3 key challenges: (1) Excessive refinement: Uniformly refining all instances can over-correct and reduce the overall performance. (2) Inability to localize and address errors: LLMs have a limited ability to self-correct and struggle to identify and correct their own mistakes. (3) Insufficient refinement: Deciding how many iterations of refinement are needed is non-trivial, and stopping too soon could leave errors unaddressed. To tackle these issues, we propose MAgICoRe, which avoids excessive refinement by categorizing problem difficulty as easy or hard, solving easy problems with coarse-grained aggregation and hard ones with fine-grained and iterative multi-agent refinement. To improve error localization, we incorporate external step-wise reward model (RM) scores. Moreover, to ensure effective refinement, we employ a multi-agent loop with three agents: Solver, Reviewer (which generates targeted feedback based on step-wise RM scores), and the Refiner (which incorporates feedback). To ensure sufficient refinement, we re-evaluate updated solutions, iteratively initiating further rounds of refinement. We evaluate MAgICoRe on Llama-3-8B and GPT-3.5 and show its effectiveness across 5 math datasets. Even one iteration of MAgICoRe beats Self-Consistency by 3.4%, Best-of-k by 3.2%, and Self-Refine by 4.0% while using less than half the samples. Unlike iterative refinement with baselines, MAgICoRe continues to improve with more iterations. Finally, our ablations highlight the importance of MAgICoRe's RMs and multi-agent communication.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# ダイヤモンドスピン機械ラム波共振器のメカニカルワニエスタークラダー

Mechanical Wannier-Stark Ladder of Diamond Spin-Mechanical Lamb Wave Resonators ( http://arxiv.org/abs/2409.12149v1 )

ライセンス: Link先を確認
Philip Andrango, Hailin Wang, (参考訳) 超低減衰率の圧縮モードと光・スピン特性の優れたホストスピン量子ビットを特徴付けるダイヤモンドラム波共振器(LWR)のワニエ・スタークはしごの設計と理論的解析を行った。 LWRのワニエ・スターク・ラグの実現のために、異なる幾何学的構成と幅広い結合率を持つ3つの最も近い隣り合う結合スキームが検討され、機械振動との相互作用を通じてスピンキュービット間の長距離接続を可能にする可能性がある。 障害の影響に関するさらなる分析は、提案されたワニエ・スターク・はしごが現実的な実験上の欠陥に対して堅牢であることを示している。 長距離接続を持つスピン量子ビットの機械的量子ネットワークの開発は、固体系における新しい量子的低密度パリティチェック符号の実装への扉を開くことができる。

We report the design and theoretical analysis of Wannier-Stark ladders of diamond Lamb wave resonators (LWRs) that can feature compression modes with ultralow damping rates and host spin qubits with excellent optical and spin properties. Three nearest-neighbor coupling schemes with distinct geometric configurations and a large range of coupling rates have been explored for the realization of Wannier-Stark ladders of LWRs, potentially enabling long-range connectivity between spin qubits through their interactions with mechanical vibrations. Additional analysis on the effects of disorder indicates that the proposed Wannier-Stark ladder can be robust against realistic experimental imperfections. The development of mechanical quantum networks of spin qubits with long-range connectivity can open the door to the implementation of newly developed quantum low-density parity-check codes in solid-state systems.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# デコードスタイル: 画像誘導型アウトフィットレコメンデーションのためのLLMの効率的な微調整

Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference ( http://arxiv.org/abs/2409.12150v1 )

ライセンス: Link先を確認
Najmeh Forouzandehmehr, Nima Farrokhsiar, Ramin Giahi, Evren Korpeoglu, Kannan Achan, (参考訳) パーソナライズされた服装のレコメンデーションは、ファッション互換性の理解とトレンドの認識の両方を要求する、複雑な課題である。 本稿では,大規模言語モデル(LLM)の表現力を利用して,その「ブラックボックス」と静的な特性を微調整と直接フィードバック統合により緩和する枠組みを提案する。 画像キャプションをMLLM(Multimodal Large Language Model)を用いた画像キャプションを用いて,項目記述の視覚的・テキスト的ギャップを橋渡しする。 これにより、LLMは人造ファッション画像からスタイルや色の特徴を抽出し、パーソナライズされたレコメンデーションの基礎を形成することができる。 LLMは、キュレートされたファッション画像のオープンソースのPolyvoreデータセットを効率的に微調整し、スタイリッシュな服装を推奨する能力を最適化している。 負の例を用いた直接選好機構を用いてLCMの意思決定プロセスを強化する。 これにより、季節的なファッショントレンドに合わせてレコメンデーションを継続的に洗練する、自己改善型のAIフィードバックループが生成される。 本フレームワークはPolyvoreデータセットを用いて評価し,その有効性を示す2つの重要なタスクであるフィ・イン・ザ・ブランクと補足項目検索である。 これらの評価は、フレームワークがスタイリッシュでトレンドに整合した服装提案を生成する能力の基盤となり、直接的なフィードバックを通じて継続的に改善される。 評価の結果,提案手法はLLMよりも優れており,より密着性が高いことがわかった。 これらのタスクの性能向上は、バニラLCMベースの衣服生成に対する有効性を示すとともに、正確な提案によってショッピング体験を向上させるためのフレームワークの可能性を示している。

Personalized outfit recommendation remains a complex challenge, demanding both fashion compatibility understanding and trend awareness. This paper presents a novel framework that harnesses the expressive power of large language models (LLMs) for this task, mitigating their "black box" and static nature through fine-tuning and direct feedback integration. We bridge the item visual-textual gap in items descriptions by employing image captioning with a Multimodal Large Language Model (MLLM). This enables the LLM to extract style and color characteristics from human-curated fashion images, forming the basis for personalized recommendations. The LLM is efficiently fine-tuned on the open-source Polyvore dataset of curated fashion images, optimizing its ability to recommend stylish outfits. A direct preference mechanism using negative examples is employed to enhance the LLM's decision-making process. This creates a self-enhancing AI feedback loop that continuously refines recommendations in line with seasonal fashion trends. Our framework is evaluated on the Polyvore dataset, demonstrating its effectiveness in two key tasks: fill-in-the-blank, and complementary item retrieval. These evaluations underline the framework's ability to generate stylish, trend-aligned outfit suggestions, continuously improving through direct feedback. The evaluation results demonstrated that our proposed framework significantly outperforms the base LLM, creating more cohesive outfits. The improved performance in these tasks underscores the proposed framework's potential to enhance the shopping experience with accurate suggestions, proving its effectiveness over the vanilla LLM based outfit generation.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# 制約下の分類器の帰納的説明:複雑さと性質

Abductive explanations of classifiers under constraints: Complexity and properties ( http://arxiv.org/abs/2409.12154v1 )

ライセンス: Link先を確認
Martin Cooper, Leila Amgoud, (参考訳) 帰納的説明(AXp)は、分類器の決定を理解するために広く使われている。 既存の定義は、機能が独立している場合に適しています。 しかし,特徴間の制約を無視すると,冗長あるいは過剰なAXpの数が爆発的に増加する可能性が示唆された。 制約を考慮に入れ、機能空間全体から、あるいはサンプル(データセットなど)から生成できる3つの新しいタイプの説明を提案する。 それらは、説明のカバレッジという重要な概念、すなわちその説明するインスタンスの集合に基づいている。 我々は、冗長で過剰なAXpを捨てるには、カバレッジが十分であることを示す。 各タイプについて、説明を見つける複雑さを分析し、その形式的性質を調べる。 最終的な結果は、異なる複雑さと異なる正式な保証を持つ異なる形式のAXpのカタログである。

Abductive explanations (AXp's) are widely used for understanding decisions of classifiers. Existing definitions are suitable when features are independent. However, we show that ignoring constraints when they exist between features may lead to an explosion in the number of redundant or superfluous AXp's. We propose three new types of explanations that take into account constraints and that can be generated from the whole feature space or from a sample (such as a dataset). They are based on a key notion of coverage of an explanation, the set of instances it explains. We show that coverage is powerful enough to discard redundant and superfluous AXp's. For each type, we analyse the complexity of finding an explanation and investigate its formal properties. The final result is a catalogue of different forms of AXp's with different complexities and different formal guarantees.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# Autopet III 課題 : PET/CTにおける病変セグメンテーションのための nnUNet への解剖学的知識の取り込み

Autopet III challenge: Incorporating anatomical knowledge into nnUNet for lesion segmentation in PET/CT ( http://arxiv.org/abs/2409.12155v1 )

ライセンス: Link先を確認
Hamza Kalisch, Fabian Hörst, Ken Herrmann, Jens Kleesiek, Constantin Seibold, (参考訳) PET/CT画像における病変のセグメンテーションは、腫瘍の正確な特徴付けに不可欠であり、個別の治療計画をサポートし、腫瘍学における診断精度を高める。 しかし、正確な手動による病変の分割は時間を要するため、サーバ間の変動が難しくなる。 PET/CTの需要の高まりと臨床利用を考えると、自動化セグメンテーション法、特にディープラーニングベースのアプローチはますます関連性が高まっている。 AutoPET III Challengeは、PET/CT画像における腫瘍病変の自動分離をマルチトラックで進めることに焦点を当て、定量的で堅牢で一般化可能なソリューションに対する臨床ニーズに対処する。 以前の課題に基づいて、AutoPETチャレンジの第3イテレーションでは、2つの臨床センターから2つの異なるトレーサ(FDGとPSMA)を特徴とする、より多様なデータセットが導入されている。 そこで我々は,PETスキャンの最大強度投影に基づいて,与えられたPET/CTのトレーサーを識別する分類器を開発した。 モデルの性能を高めるために,解剖学的ラベルをマルチラベルタスクとして含むトレーサ毎に2つのnnUNetアンサンブルを訓練した。 我々の最終提出は、公開FDGデータセットとPSMAデータセットでそれぞれ76.90%と61.33%のクロスバリデーションDiceスコアを達成している。 コードはhttps://github.com/hakal104/autoPETIII/ で公開されている。

Lesion segmentation in PET/CT imaging is essential for precise tumor characterization, which supports personalized treatment planning and enhances diagnostic precision in oncology. However, accurate manual segmentation of lesions is time-consuming and prone to inter-observer variability. Given the rising demand and clinical use of PET/CT, automated segmentation methods, particularly deep-learning-based approaches, have become increasingly more relevant. The autoPET III Challenge focuses on advancing automated segmentation of tumor lesions in PET/CT images in a multitracer multicenter setting, addressing the clinical need for quantitative, robust, and generalizable solutions. Building on previous challenges, the third iteration of the autoPET challenge introduces a more diverse dataset featuring two different tracers (FDG and PSMA) from two clinical centers. To this extent, we developed a classifier that identifies the tracer of the given PET/CT based on the Maximum Intensity Projection of the PET scan. We trained two individual nnUNet-ensembles for each tracer where anatomical labels are included as a multi-label task to enhance the model's performance. Our final submission achieves cross-validation Dice scores of 76.90% and 61.33% for the publicly available FDG and PSMA datasets, respectively. The code is available at https://github.com/hakal104/autoPETIII/ .
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# JEAN: 共同表現と音声誘導型NeRFベースのトーキングフェイスジェネレーション

JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation ( http://arxiv.org/abs/2409.12156v1 )

ライセンス: Link先を確認
Sai Tanmay Reddy Chakkera, Aggelina Chatziagapi, Dimitris Samaras, (参考訳) 共同表現と音声誘導による発話顔生成のための新しい手法を提案する。 最近のアプローチでは、話者のアイデンティティを維持するのに苦労するか、忠実な表情を作り出すのに失敗する。 これらの課題に対処するために、我々はNeRFベースのネットワークを提案する。 基礎的な真実を示さずにモノクロビデオでネットワークを訓練するため、音声と表現の非絡み合い表現を学習することが不可欠である。 複数の被験者からの発声を考慮し,まず音声特徴を自己指導的に学習する。 対照的な学習手法を取り入れることで、学習した音声特徴が唇の動きと一致し、他の顔の筋肉の動きから遠ざかることを保証する。 次に, 表情特徴を学習し, 長距離表情を捉え, 音声固有の口の動きから切り離すトランスフォーマーに基づくアーキテクチャを考案する。 定量的および質的評価により,本手法は高忠実度音声音声を合成し,唇の同期とともに最先端の表情伝達を達成できることが実証された。

We introduce a novel method for joint expression and audio-guided talking face generation. Recent approaches either struggle to preserve the speaker identity or fail to produce faithful facial expressions. To address these challenges, we propose a NeRF-based network. Since we train our network on monocular videos without any ground truth, it is essential to learn disentangled representations for audio and expression. We first learn audio features in a self-supervised manner, given utterances from multiple subjects. By incorporating a contrastive learning technique, we ensure that the learned audio features are aligned to the lip motion and disentangled from the muscle motion of the rest of the face. We then devise a transformer-based architecture that learns expression features, capturing long-range facial expressions and disentangling them from the speech-specific mouth movements. Through quantitative and qualitative evaluation, we demonstrate that our method can synthesize high-fidelity talking face videos, achieving state-of-the-art facial expression transfer along with lip synchronization to unseen audio.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# 空間ワープによる空画像の精密予測

Precise Forecasting of Sky Images Using Spatial Warping ( http://arxiv.org/abs/2409.12162v1 )

ライセンス: Link先を確認
Leron Julian, Aswin C. Sankaranarayanan, (参考訳) 太陽エネルギーの断続性は、雲に覆われているため、商業用と住宅用の両方で広く使われることを妨げている重要な要因の1つである。 したがって、グリッドに接続された太陽光発電システムの太陽放射のリアルタイム予測は、グリッド全体の資源をスケジュールし割り当てるために必要である。 空の広い視野の画像を撮影する地上撮影装置は、太陽の光を予測するために、特定の場所周辺の雲の動きを監視するために一般的に使用される。 しかし、これらの広いFOV画像は、地平線付近の領域が強く圧縮されている空像の歪んだ像を捉えている。 これにより、特に長い時間的地平線上の予測に影響を及ぼす地平線付近の雲の動きを正確に予測する能力が妨げられる。 本研究では,従来の手法よりも高解像度で将来の天空画像フレームを予測する深層学習手法を導入することで,上記の制約に対処する。 我々の主な貢献は、地平線における雲の悪影響に対処する最適なワープ法を導出し、より長い時間地平線で雲の進化をより正確に決定する将来の天空画像予測の枠組みを学ぶことである。

The intermittency of solar power, due to occlusion from cloud cover, is one of the key factors inhibiting its widespread use in both commercial and residential settings. Hence, real-time forecasting of solar irradiance for grid-connected photovoltaic systems is necessary to schedule and allocate resources across the grid. Ground-based imagers that capture wide field-of-view images of the sky are commonly used to monitor cloud movement around a particular site in an effort to forecast solar irradiance. However, these wide FOV imagers capture a distorted image of sky image, where regions near the horizon are heavily compressed. This hinders the ability to precisely predict cloud motion near the horizon which especially affects prediction over longer time horizons. In this work, we combat the aforementioned constraint by introducing a deep learning method to predict a future sky image frame with higher resolution than previous methods. Our main contribution is to derive an optimal warping method to counter the adverse affects of clouds at the horizon, and learn a framework for future sky image prediction which better determines cloud evolution for longer time horizons.
翻訳日:2024-09-19 16:35:11 公開日:2024-09-18
# MultiPI-TransBTS:マルチ物理情報に基づく脳腫瘍画像分割のためのマルチパス学習フレームワーク

multiPI-TransBTS: A Multi-Path Learning Framework for Brain Tumor Image Segmentation Based on Multi-Physical Information ( http://arxiv.org/abs/2409.12167v1 )

ライセンス: Link先を確認
Hongjun Zhu, Jiaohang Huang, Kuo Chen, Xuehui Ying, Ying Qian, (参考訳) 脳腫瘍分離(BraTS)は、臨床診断、治療計画、脳腫瘍の進行のモニタリングにおいて重要な役割を担っている。 しかし, 腫瘍の出現, サイズ, 強度の変動により, 自動セグメンテーションは難しい課題である。 本研究では,マルチ物理情報を統合し,セグメンテーション精度を向上させるトランスフォーマーベースの新しいフレームワークである MultiPI-TransBTS を提案する。 このモデルは、空間情報、意味情報、マルチモーダルイメージングデータを活用し、脳腫瘍の特徴に固有の不均一性に対処する。 MultiPI-TransBTSフレームワークは、エンコーダ、Adaptive Feature Fusion (AFF)モジュール、マルチソースのマルチスケール機能デコーダで構成される。 エンコーダはマルチブランチアーキテクチャを組み込んで、異なるMRIシーケンスからモダリティ固有の特徴を別々に抽出する。 AFFモジュールは、チャネルワイドおよび要素ワイドの注意を用いて複数のソースからの情報を融合し、効果的な特徴の校正を保証する。 このデコーダは、タスク特化機能導入(TSFI)戦略を通じて、共通機能とタスク特化機能を組み合わせて、全腫瘍(WT)、腫瘍コア(TC)、腫瘍(ET)領域の正確なセグメンテーション出力を生成する。 BraTS2019とBraTS2020データセットの総合的な評価は、最先端の手法よりもマルチPI-TransBTSの方が優れていることを示している。 このモデルは、より優れたDice係数、ハウスドルフ距離、感度スコアを一貫して達成し、BraTSの課題に対処する上での有効性を強調している。 また,ETセグメンテーションタスクにおける精度とリコールのバランスについて,さらなる検討の必要性が示唆された。 提案フレームワークはBraTSの大幅な進歩を示し,脳腫瘍患者に対する臨床効果の向上に寄与する可能性が示唆された。

Brain Tumor Segmentation (BraTS) plays a critical role in clinical diagnosis, treatment planning, and monitoring the progression of brain tumors. However, due to the variability in tumor appearance, size, and intensity across different MRI modalities, automated segmentation remains a challenging task. In this study, we propose a novel Transformer-based framework, multiPI-TransBTS, which integrates multi-physical information to enhance segmentation accuracy. The model leverages spatial information, semantic information, and multi-modal imaging data, addressing the inherent heterogeneity in brain tumor characteristics. The multiPI-TransBTS framework consists of an encoder, an Adaptive Feature Fusion (AFF) module, and a multi-source, multi-scale feature decoder. The encoder incorporates a multi-branch architecture to separately extract modality-specific features from different MRI sequences. The AFF module fuses information from multiple sources using channel-wise and element-wise attention, ensuring effective feature recalibration. The decoder combines both common and task-specific features through a Task-Specific Feature Introduction (TSFI) strategy, producing accurate segmentation outputs for Whole Tumor (WT), Tumor Core (TC), and Enhancing Tumor (ET) regions. Comprehensive evaluations on the BraTS2019 and BraTS2020 datasets demonstrate the superiority of multiPI-TransBTS over the state-of-the-art methods. The model consistently achieves better Dice coefficients, Hausdorff distances, and Sensitivity scores, highlighting its effectiveness in addressing the BraTS challenges. Our results also indicate the need for further exploration of the balance between precision and recall in the ET segmentation task. The proposed framework represents a significant advancement in BraTS, with potential implications for improving clinical outcomes for brain tumor patients.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# You Only Read Once (YORO): Text-to-SQLのためのデータベース知識の内部化を学ぶ

You Only Read Once (YORO): Learning to Internalize Database Knowledge for Text-to-SQL ( http://arxiv.org/abs/2409.12172v1 )

ライセンス: Link先を確認
Hideo Kobayashi, Wuwei Lan, Peng Shi, Shuaichen Chang, Jiang Guo, Henghui Zhu, Zhiguo Wang, Patrick Ng, (参考訳) テキストからSQLへのタスクでは大きな進歩があったが、最近のソリューションでは、すべての質問に対して同じデータベーススキーマを繰り返しエンコードしているため、不要な高推論コストが発生し、しばしば重要なデータベース知識を見落としている。 これらの問題に対処するために、トレーニング中にデータベース知識を直接パラメトリックな知識として内部化し、推論中にスキーマエンコーディングを不要にする新しいパラダイムであるYou Only Read Once (YORO)を提案する。 YOROは入力トークン長を66%~98%削減する。 より短いインプットにもかかわらず、3つのベンチマークで従来のシステムと競合する性能を示し、大規模なデータベースでは顕著な性能を示した。 さらに、YOROは、省略のような挑戦的な値検索による質問の処理に長けている。

While significant progress has been made on the text-to-SQL task, recent solutions repeatedly encode the same database schema for every question, resulting in unnecessary high inference cost and often overlooking crucial database knowledge. To address these issues, we propose You Only Read Once (YORO), a novel paradigm that directly internalizes database knowledge into the parametric knowledge of a text-to-SQL model during training and eliminates the need for schema encoding during inference. YORO significantly reduces the input token length by 66%-98%. Despite its shorter inputs, our empirical results demonstrate YORO's competitive performances with traditional systems on three benchmarks as well as its significant outperformance on large databases. Furthermore, YORO excels in handling questions with challenging value retrievals such as abbreviation.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# 保護量子測定の利点

Performance advantage of protective quantum measurements ( http://arxiv.org/abs/2409.12174v1 )

ライセンス: Link先を確認
Maximilian Schlosshauer, (参考訳) 保護量子測定性能と標準射影測定性能を比較した。 測定された期待値の不確実性の観点から、性能を定量化する。 これらの2種類の量子測定の相対的性能の式を導出し、保護測定が標準射影測定よりも大きな性能上の利点をもたらすことを示す。

We compare the performance of protective quantum measurements to that of standard projective measurements. Performance is quantified in terms of the uncertainty in the measured expectation value. We derive an expression for the relative performance of these two types of quantum measurements and show explicitly that protective measurements can provide a significant performance advantage over standard projective measurements.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# 計算力学系

Computational Dynamical Systems ( http://arxiv.org/abs/2409.12179v1 )

ライセンス: Link先を確認
Jordan Cotler, Semon Rezchikov, (参考訳) 滑らかな有限次元力学系の計算複雑性理論について検討する。 これまでの研究を基に、チューリングマシンをシミュレートするスムーズな力学系について、その意味について定義する。 次に、「カオス」力学系(より正確には Axiom A 系)と「可積分」力学系(より一般的には測度保存系)は普遍チューリングマシンを頑健にシミュレートすることはできないが、そのような機械は他の種類の力学系によって頑健にシミュレートできることを示した。 その後、構造的に安定な1次元力学系に符号化できるチューリングマシンは、決定可能な停止問題を持ち、その上、停止するインスタンスに有界な明示的な時間複雑性を持つことが示される。 より広義に、我々の研究は、ある「機械」が別の「機械」をシミュレートする意味を解明し、シミュレーションのダイナミクスとシミュレートされるシステムのダイナミクスを翻訳するために、低複雑さの「エンコーダ」と「デコーダ」を定義する必要性を強調している。 計算力学系の概念が、計算複雑性理論、力学系理論、および実代数幾何学の交点における疑問にどのように結びつくかを強調する。

We study the computational complexity theory of smooth, finite-dimensional dynamical systems. Building off of previous work, we give definitions for what it means for a smooth dynamical system to simulate a Turing machine. We then show that 'chaotic' dynamical systems (more precisely, Axiom A systems) and 'integrable' dynamical systems (more generally, measure-preserving systems) cannot robustly simulate universal Turing machines, although such machines can be robustly simulated by other kinds of dynamical systems. Subsequently, we show that any Turing machine that can be encoded into a structurally stable one-dimensional dynamical system must have a decidable halting problem, and moreover an explicit time complexity bound in instances where it does halt. More broadly, our work elucidates what it means for one 'machine' to simulate another, and emphasizes the necessity of defining low-complexity 'encoders' and 'decoders' to translate between the dynamics of the simulation and the system being simulated. We highlight how the notion of a computational dynamical system leads to questions at the intersection of computational complexity theory, dynamical systems theory, and real algebraic geometry.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# 不確かさの言語表現を省略する言語モデル

Finetuning Language Models to Emit Linguistic Expressions of Uncertainty ( http://arxiv.org/abs/2409.12180v1 )

ライセンス: Link先を確認
Arslan Chaudhry, Sridhar Thiagarajan, Dilan Gorur, (参考訳) 大規模言語モデル(LLM)は情報検索や意思決定のタスクにますます採用されている。 幅広い実用性にもかかわらず、LLMは現実世界の事実と矛盾する情報を生成する傾向にあり、その説得的なスタイルはこれらの不正確さを自信と説得力に見せかける。 その結果、エンドユーザはLSMによって表現される信頼と予測の正確さを一貫して整合させることに苦慮し、多くの場合、すべてのアウトプットに対する盲目な信頼またはその信頼性を完全に無視する。 本研究では,不確実性の言語表現を生成するモデルを開発する手法として,不確実性拡張予測の教師付き微調整について検討する。 具体的には、事前訓練されたモデルと微調整された言語モデルの校正を計測し、不確実性の校正された言語表現を生成する。 様々な質問応答データセットの実験を通して、LLMは予測を評価するのに十分な校正がなされており、モデル自体の信頼度に基づいて微調整を監督することは、不確実性、特に単文の回答に対して、よく校正された表現をもたらすことを実証する。

Large language models (LLMs) are increasingly employed in information-seeking and decision-making tasks. Despite their broad utility, LLMs tend to generate information that conflicts with real-world facts, and their persuasive style can make these inaccuracies appear confident and convincing. As a result, end-users struggle to consistently align the confidence expressed by LLMs with the accuracy of their predictions, often leading to either blind trust in all outputs or a complete disregard for their reliability. In this work, we explore supervised finetuning on uncertainty-augmented predictions as a method to develop models that produce linguistic expressions of uncertainty. Specifically, we measure the calibration of pre-trained models and then fine-tune language models to generate calibrated linguistic expressions of uncertainty. Through experiments on various question-answering datasets, we demonstrate that LLMs are well-calibrated in assessing their predictions, and supervised finetuning based on the model's own confidence leads to well-calibrated expressions of uncertainty, particularly for single-claim answers.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# LLMの長期拡張と一般化に関する制御学的研究

A Controlled Study on Long Context Extension and Generalization in LLMs ( http://arxiv.org/abs/2409.12181v1 )

ライセンス: Link先を確認
Yi Lu, Jing Nathan Yan, Songlin Yang, Justin T. Chiu, Siyu Ren, Fei Yuan, Wenting Zhao, Zhiyong Wu, Alexander M. Rush, (参考訳) 広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。 長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。 しかし、データとモデルクラスの違いにより、これらのアプローチを比較することは困難であり、長文性能の評価方法や、それが標準評価と異なるかどうかの不確実性につながっている。 我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。 我々の研究は、長期の文脈行動に関するいくつかの洞察をもたらす。 まず、長文タスクにおいても、汎用的なパフォーマンス指標としてパープレキシティが重要な役割を担っていることを再確認する。 第二に、現在の近似的注意法は、長文タスクにおいて体系的に過小評価されている。 最後に,厳密な微調整法が拡張範囲で一般的に有効であることを確認し,外挿は依然として困難である。 すべてのコードベース、モデル、チェックポイントがオープンソースとして公開され、透明性を促進し、AI開発におけるこの重要な領域におけるさらなる研究を促進する。

Broad textual understanding and in-context learning require language models that utilize full document contexts. Due to the implementation challenges associated with directly training long-context models, many methods have been proposed for extending models to handle long contexts. However, owing to differences in data and model classes, it has been challenging to compare these approaches, leading to uncertainty as to how to evaluate long-context performance and whether it differs from standard evaluation. We implement a controlled protocol for extension methods with a standardized evaluation, utilizing consistent base models and extension data. Our study yields several insights into long-context behavior. First, we reaffirm the critical role of perplexity as a general-purpose performance indicator even in longer-context tasks. Second, we find that current approximate attention methods systematically underperform across long-context tasks. Finally, we confirm that exact fine-tuning based methods are generally effective within the range of their extension, whereas extrapolation remains challenging. All codebases, models, and checkpoints will be made available open-source, promoting transparency and facilitating further research in this critical area of AI development.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# CoTにせよCoTにせよ? チェーン・オブ・シンクは数学と記号的推論を主役とする

To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning ( http://arxiv.org/abs/2409.12183v1 )

ライセンス: Link先を確認
Zayne Sprague, Fangcong Yin, Juan Diego Rodriguez, Dongwei Jiang, Manya Wadhwa, Prasann Singhal, Xinyu Zhao, Xi Ye, Kyle Mahowald, Greg Durrett, (参考訳) CoT(Chain-of- Thought)は、大規模言語モデル(LLM)から推論能力を引き出すための事実上の方法である。 しかし、この余分な‘考え’が本当に役に立つのはどんなタスクなのか? これを分析するために,CoTを用いた100以上の論文を対象とした定量的メタ分析を行い,14モデルにまたがる20データセットの評価を行った。 以上の結果から,CoTは数学や論理学に関わるタスクに対して,他のタスクよりもはるかに少ないパフォーマンス上のメリットをもたらすことが示唆された。 MMLUでは、CoTなしで直接答えを生成することは、質問やモデルの応答が等しく、記号的な操作と推論を含まない限り、CoTとほぼ同一の精度をもたらす。 次に,これらの問題に対するCoTの挙動を,計画と実行を分離し,ツール拡張LDMと比較することにより解析する。 CoTの利益の多くはシンボリックな実行の改善によるものだが、シンボリックな解法に比べて性能は劣っている。 この結果から,COTを選択的に適用し,推論コストを抑えながら性能を維持できることが示唆された。 さらに彼らは、プロンプトベースのCoTを超えて、LLMアプリケーション全体にわたって中間計算をよりよく活用する新しいパラダイムに移行する必要性を示唆している。

Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# Qwen2.5-Coderテクニカルレポート

Qwen2.5-Coder Technical Report ( http://arxiv.org/abs/2409.12186v1 )

ライセンス: Link先を確認
Binyuan Hui, Jian Yang, Zeyu Cui, Jiaxi Yang, Dayiheng Liu, Lei Zhang, Tianyu Liu, Jiajun Zhang, Bowen Yu, Kai Dang, An Yang, Rui Men, Fei Huang, Xingzhang Ren, Xuancheng Ren, Jingren Zhou, Junyang Lin, (参考訳) 本稿では、前任のCodeQwen1.5から大幅にアップグレードしたQwen2.5-Coderシリーズを紹介する。 このシリーズには、Qwen2.5-Coder-1.5BとQwen2.5-Coder-7Bの2つのモデルが含まれている。 コード固有のモデルとして、Qwen2.5-CoderはQwen2.5アーキテクチャに基づいて構築され、5.5兆以上のトークンからなる巨大なコーパスで事前訓練されている。 巧妙なデータクリーニング、スケーラブルな合成データ生成、バランスの取れたデータミキシングを通じて、Qwen2.5-Coderは、汎用性を維持しながら、印象的なコード生成機能を示す。 このモデルは、コード生成、完了、推論、修復を含む10以上のベンチマークで、最先端(SOTA)のパフォーマンスを達成し、同じモデルサイズのより大きなモデルよりも一貫して優れている、幅広いコード関連タスクで評価されてきた。 Qwen2.5-Coderシリーズのリリースは、コードインテリジェンスの研究の境界を推し進めるだけでなく、その寛容なライセンスを通じて、現実世界のアプリケーションにおける開発者による広範な採用を促進するだろうと考えています。

In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes two models: Qwen2.5-Coder-1.5B and Qwen2.5-Coder-7B. As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general versatility. The model has been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will not only push the boundaries of research in code intelligence but also, through its permissive licensing, encourage broader adoption by developers in real-world applications.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# シーンコンテキストによる大規模マルチパーソン3次元人間の動作予測

Massively Multi-Person 3D Human Motion Forecasting with Scene Context ( http://arxiv.org/abs/2409.12189v1 )

ライセンス: Link先を確認
Felix B Mueller, Julian Tanke, Juergen Gall, (参考訳) 人間の行動の確率性は、入力シーケンスだけでは現実的な人間の動きを生成するのを難しくする。 現場環境や近隣の人々の動きに関する情報は、生成過程を大いに助けることができる。 本研究では、長期(10秒)の人間の動きを予測するために、シーン認識型ソーシャルトランスフォーマーモデル(SAST)を提案する。 従来のモデルとは異なり、我々の手法はシーン内のさまざまな人や物体の相互作用をモデル化することができる。 我々は、時間的畳み込みエンコーダ・デコーダアーキテクチャとTransformerベースのボトルネックを組み合わせることで、動きとシーン情報を効率的に組み合わせることができる。 雑音拡散モデルを用いて条件運動分布をモデル化する。 このデータセットは1~16人、29~50人のオブジェクトを同時に表示しています。 我々のモデルは、さまざまなメトリクスやユーザスタディにおいて、リアリズムや多様性の観点から、他のアプローチよりも優れています。 コードはhttps://github.com/felixbmuller/SASTで入手できる。

Forecasting long-term 3D human motion is challenging: the stochasticity of human behavior makes it hard to generate realistic human motion from the input sequence alone. Information on the scene environment and the motion of nearby people can greatly aid the generation process. We propose a scene-aware social transformer model (SAST) to forecast long-term (10s) human motion motion. Unlike previous models, our approach can model interactions between both widely varying numbers of people and objects in a scene. We combine a temporal convolutional encoder-decoder architecture with a Transformer-based bottleneck that allows us to efficiently combine motion and scene information. We model the conditional motion distribution using denoising diffusion models. We benchmark our approach on the Humans in Kitchens dataset, which contains 1 to 16 persons and 29 to 50 objects that are visible simultaneously. Our model outperforms other approaches in terms of realism and diversity on different metrics and in a user study. Code is available at https://github.com/felixbmuller/SAST.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# イーガーモードにおけるバンドル調整

Bundle Adjustment in the Eager Mode ( http://arxiv.org/abs/2409.12190v1 )

ライセンス: Link先を確認
Zitong Zhan, Huan Xu, Zihang Fang, Xinpeng Wei, Yaoyu Hu, Chen Wang, (参考訳) バンドル調整(BA)は、同時ローカライゼーションとマッピング(SLAM)、拡張現実(AR)、フォトグラムメトリーなど、さまざまなロボットアプリケーションにおいて重要な技術である。 BAは、カメラのポーズや3Dランドマークなどのパラメータを最適化して、それらを観察と整合させる。 認識システムにおけるディープラーニングの重要性の高まりに伴い、信頼性とパフォーマンスを向上させるために、BAとディープラーニングフレームワークを統合する必要性が高まっている。 しかし、GTSAM、g$^2$o、Ceresといった広く使われているC++ベースのBAフレームワークは、PyTorchのようなモダンなディープラーニングライブラリとネイティブに統合されていない。 この制限は、柔軟性、適応性、デバッグの容易さ、全体的な実装効率に影響を与える。 このギャップに対処するため、我々はPyPoseとシームレスに統合された熱心なBAフレームワークを導入し、PyTorch互換インタフェースを高効率で提供する。 提案手法は,2次最適化のために設計されたGPUアクセラレーション,微分可能,スパース演算,リー群およびリー代数演算,線形解法を含む。 GTSAM, g$^2$o, Ceres と比較して平均 18.5$\times$, 22$\times$, 23$\times$ となる。

Bundle adjustment (BA) is a critical technique in various robotic applications, such as simultaneous localization and mapping (SLAM), augmented reality (AR), and photogrammetry. BA optimizes parameters such as camera poses and 3D landmarks to align them with observations. With the growing importance of deep learning in perception systems, there is an increasing need to integrate BA with deep learning frameworks for enhanced reliability and performance. However, widely-used C++-based BA frameworks, such as GTSAM, g$^2$o, and Ceres, lack native integration with modern deep learning libraries like PyTorch. This limitation affects their flexibility, adaptability, ease of debugging, and overall implementation efficiency. To address this gap, we introduce an eager-mode BA framework seamlessly integrated with PyPose, providing PyTorch-compatible interfaces with high efficiency. Our approach includes GPU-accelerated, differentiable, and sparse operations designed for 2nd-order optimization, Lie group and Lie algebra operations, and linear solvers. Our eager-mode BA on GPU demonstrates substantial runtime efficiency, achieving an average speedup of 18.5$\times$, 22$\times$, and 23$\times$ compared to GTSAM, g$^2$o, and Ceres, respectively.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# Qwen2-VL: どんな解像度でもビジョンランゲージモデルの世界の知覚を高める

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution ( http://arxiv.org/abs/2409.12191v1 )

ライセンス: Link先を確認
Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin, (参考訳) Qwen2-VLシリーズは以前のQwen-VLモデルの先進的なアップグレードであり、視覚処理における従来の所定の解像度のアプローチを再定義する。 Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。 このアプローチにより、モデルはより効率的で正確な視覚表現を生成し、人間の知覚過程と密接に一致させることができる。 また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。 我々は、画像とビデオの両方を処理する統一パラダイムを採用し、モデルの視覚知覚能力を高める。 大規模マルチモーダルモデルの可能性を探るため、Qwen2-VLは大規模視覚言語モデル(LVLM)のスケーリング法則を調査した。 Qwen2-VLシリーズは、2B、8B、72Bパラメータのモデルサイズとトレーニングデータの量の両方をスケールすることで、非常に競争力のあるパフォーマンスを実現している。 特に、Qwen2-VL-72Bモデルは、GPT-4oやClaude3.5-Sonnetのような主要なモデルに匹敵する結果を得る。 コードは \url{https://github.com/QwenLM/Qwen2-VL} で入手できる。

We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL models that redefines the conventional predetermined-resolution approach in visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism, which enables the model to dynamically process images of varying resolutions into different numbers of visual tokens. This approach allows the model to generate more efficient and accurate visual representations, closely aligning with human perceptual processes. The model also integrates Multimodal Rotary Position Embedding (M-RoPE), facilitating the effective fusion of positional information across text, images, and videos. We employ a unified paradigm for processing both images and videos, enhancing the model's visual perception capabilities. To explore the potential of large multimodal models, Qwen2-VL investigates the scaling laws for large vision-language models (LVLMs). By scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the amount of training data, the Qwen2-VL Series achieves highly competitive performance. Notably, the Qwen2-VL-72B model achieves results comparable to leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal benchmarks, outperforming other generalist models. Code is available at \url{https://github.com/QwenLM/Qwen2-VL}.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# DynaMo: Visuo-Motorコントロールのためのドメイン内ダイナミクス事前トレーニング

DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control ( http://arxiv.org/abs/2409.12192v1 )

ライセンス: Link先を確認
Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto, (参考訳) 模倣学習は、複雑なビジュモータポリシーを訓練するための強力なツールであることが証明されている。 しかし、現在の手法では、高次元の視覚的観察を扱うために数百から数千の専門家によるデモンストレーションが必要となることが多い。 この貧弱なデータ効率の重要な理由は、視覚的表現がドメイン外のデータで事前訓練されているか、行動クローニングの目的を通じて直接訓練されていることである。 本研究では、視覚表現を学習するための新しいドメイン内自己教師型DynaMoを提案する。 一組の専門的な実演が与えられた場合、画像埋め込みの列上で潜在逆動力学モデルと前方動力学モデルを共同で学習し、拡張、コントラストサンプリング、接地真理行動へのアクセスなしに次のフレームを潜時空間で予測する。 重要なのは、DynaMoは、インターネットデータセットやクロスエボダイドデータセットのようなドメイン外のデータを必要としないことだ。 6つのシミュレーションおよび実環境において、DynaMoで学習した表現は、従来の自己教師付き学習目標や事前訓練された表現よりも、下流での模倣学習性能を著しく向上することを示す。 DynaMoの使用による利益は、振舞い変換器、拡散ポリシー、MLP、および最も近い隣人といったポリシークラスにまたがる。 最後に、DynaMoの重要なコンポーネントを吸収し、下流ポリシーのパフォーマンスへの影響を測定します。 ロボットビデオはhttps://dynamo-ssl.github.ioでよく見られる。

Imitation learning has proven to be a powerful tool for training complex visuomotor policies. However, current methods often require hundreds to thousands of expert demonstrations to handle high-dimensional visual observations. A key reason for this poor data efficiency is that visual representations are predominantly either pretrained on out-of-domain data or trained directly through a behavior cloning objective. In this work, we present DynaMo, a new in-domain, self-supervised method for learning visual representations. Given a set of expert demonstrations, we jointly learn a latent inverse dynamics model and a forward dynamics model over a sequence of image embeddings, predicting the next frame in latent space, without augmentations, contrastive sampling, or access to ground truth actions. Importantly, DynaMo does not require any out-of-domain data such as Internet datasets or cross-embodied datasets. On a suite of six simulated and real environments, we show that representations learned with DynaMo significantly improve downstream imitation learning performance over prior self-supervised learning objectives, and pretrained representations. Gains from using DynaMo hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP, and nearest neighbors. Finally, we ablate over key components of DynaMo and measure its impact on downstream policy performance. Robot videos are best viewed at https://dynamo-ssl.github.io
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# Vista3D:1枚の画像から3Dのダークサイドを解き明かす

Vista3D: Unravel the 3D Darkside of a Single Image ( http://arxiv.org/abs/2409.12193v1 )

ライセンス: Link先を確認
Qiuhong Shen, Xingyi Yang, Michael Bi Mi, Xinchao Wang, (参考訳) 私たちは古き良き探求に乗り出し、目に見える部分のただの視界から、物体の隠れた次元を明らかにする。 この問題に対処するため、わずか5分で高速で一貫した3D生成を実現するVista3Dを提案する。 Vista3Dの中心には、粗い相と細かい相という2相のアプローチがある。 粗い位相では、1つの画像からガウススプラッティングで初期幾何学を高速に生成する。 微細相では、学習したガウススプラッティングから直接符号付き距離関数(SDF)を抽出し、異面表現で最適化する。 さらに、2つの独立な暗黙関数を持つ非交叉表現を用いて、オブジェクトの可視的側面と隠蔽的側面の両方をキャプチャすることで、生成の質を高める。 さらに、3次元拡散前の2次元拡散からの勾配を角拡散前の組成によって調和させる。 広範囲な評価により,Vista3Dは生成した3Dオブジェクトの一貫性と多様性のバランスを効果的に維持できることを示した。 デモとコードはhttps://github.com/florinshen/Vista3D.comで公開される。

We embark on the age-old quest: unveiling the hidden dimensions of objects from mere glimpses of their visible parts. To address this, we present Vista3D, a framework that realizes swift and consistent 3D generation within a mere 5 minutes. At the heart of Vista3D lies a two-phase approach: the coarse phase and the fine phase. In the coarse phase, we rapidly generate initial geometry with Gaussian Splatting from a single image. In the fine phase, we extract a Signed Distance Function (SDF) directly from learned Gaussian Splatting, optimizing it with a differentiable isosurface representation. Furthermore, it elevates the quality of generation by using a disentangled representation with two independent implicit functions to capture both visible and obscured aspects of objects. Additionally, it harmonizes gradients from 2D diffusion prior with 3D-aware diffusion priors by angular diffusion prior composition. Through extensive evaluation, we demonstrate that Vista3D effectively sustains a balance between the consistency and diversity of the generated 3D objects. Demos and code will be available at https://github.com/florinshen/Vista3D.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# インド公務員のモックインタビューにおけるジェンダー表現とバイアス

Gender Representation and Bias in Indian Civil Service Mock Interviews ( http://arxiv.org/abs/2409.12194v1 )

ライセンス: Link先を確認
Somonnoy Banerjee, Sujan Dutta, Soumyajit Datta, Ashiqur R. KhudaBukhsh, (参考訳) この論文は3つの重要な貢献をする。 まず、インドの市民サービス候補者の模擬インタビューを888件のYouTubeビデオから引用した51,278件のインタビューのコーパスを通じて、男女の候補者に質問する質問の幅広い性質において、男女の偏見を示す。 第2に、大きな言語モデルを用いた実験は、性別推定タスクにおけるLSMによる説明において、性別バイアスが強く存在することを示す。 最後に,今後の社会科学研究に影響を及ぼすことのできる51,278の面接質問のデータセットを提示する。

This paper makes three key contributions. First, via a substantial corpus of 51,278 interview questions sourced from 888 YouTube videos of mock interviews of Indian civil service candidates, we demonstrate stark gender bias in the broad nature of questions asked to male and female candidates. Second, our experiments with large language models show a strong presence of gender bias in explanations provided by the LLMs on the gender inference task. Finally, we present a novel dataset of 51,278 interview questions that can inform future social science studies.
翻訳日:2024-09-19 16:21:44 公開日:2024-09-18
# 等方性フォトニック結晶中のV型原子の量子コヒーレンスと量子フィッシャー情報のダイナミクス

Dynamics of Quantum Coherence and Quantum Fisher Information of a V-type Atom in Isotropic Photonic Crystal ( http://arxiv.org/abs/2312.09910v3 )

ライセンス: Link先を確認
Ghafar Ahmadi, Shahpoor Saeidian, Ghasem Naeimi, (参考訳) 自由空間やフォトニックバンドギャップ結晶に埋め込まれたV型3レベル原子の量子フィッシャー情報の時間進化、量子コヒーレンス、非マルコビアン性について検討した。 フォトニックバンドギャップ結晶は、構造された環境として、これらの量子的特徴の保存と強化に大きな影響を与えることが示されている。 さらに、原子状態に符号化された初期相対位相値と、禁止されたギャップ内の上層階の相対位置を操作することにより、量子的特徴のダイナミクスを制御できることが観察された。 これらの知見は、量子系におけるフォトニックバンドギャップ結晶の利用による潜在的な利点を強調し、量子情報の保存と操作を改善した。 量子機能を制御する能力は、量子情報処理および関連する技術への応用のための新しい道を開く。

The time evolution of quantum Fisher information, quantum coherence, and non-Markovianity of a V-type three-level atom embedded in free space or a photonic band gap crystal have been investigated. It has been demonstrated that the photonic band gap crystal, as a structured environment, significantly influences the preservation and enhancement of these quantum features. Additionally, we observe that by manipulating the initial relative phase values encoded in the atomic state and the relative positions of the upper levels within the forbidden gap, control over the dynamics of quantum features can be achieved. These findings highlight the potential benefits of utilizing photonic band gap crystals in quantum systems, offering improved preservation and manipulation of quantum information. The ability to control quantum features opens new avenues for applications in quantum information processing and related technologies.
翻訳日:2024-09-19 12:25:48 公開日:2024-09-18
# プリンシプリズムを超えて : 研究実践における倫理的AI活用の実践戦略

Beyond principlism: Practical strategies for ethical AI use in research practices ( http://arxiv.org/abs/2401.15284v4 )

ライセンス: Link先を確認
Zhicheng Lin, (参考訳) 科学研究、特に大規模言語モデル(LLM)における生成的人工知能(AI)の急速な採用は、倫理的ガイドラインの開発を上回り、トリプルトイニシアチブ(トリプルトイニシアチブ)へと繋がる。 既存のアプローチとしては、プリンシプル主義(抽象的倫理的原則への信頼)、フォーマリズム(規則の厳格な適用)、技術的解決主義(技術的修正の過大評価)などがあり、科学研究の実践においてAIの倫理的課題に対処するための実践的なガイダンスはほとんどない。 抽象的な原則と日々の研究実践のギャップを埋めるために、ユーザ中心の現実主義に触発されたアプローチを提案する。 倫理的AI利用のための5つの具体的な目標を概説している。 1) バイアス緩和戦略を含むモデルトレーニングとアウトプットの理解 2 プライバシー、秘密、及び著作権を尊重すること。 3 盗作及び政策違反を避けること。 4)AIを代替品と比較して有益に適用すること。 5) 透過的かつ再現的にAIを使用する。 それぞれの目標には、実行可能な戦略と、誤用と修正措置の現実的なケースが伴っている。 倫理的AIアプリケーションは、独立したパフォーマンスメトリクスではなく、既存の選択肢に対してそのユーティリティを評価する必要があります。 さらに、AI支援研究における透明性と再現性を高めるためのドキュメントガイドラインを提案する。 今後は、イノベーションを育みながら責任あるAI利用を促進するために、プロフェッショナルな開発、トレーニングプログラム、バランスのとれた執行メカニズムを目標にする必要があります。 これらの倫理的ガイドラインを洗練し、新たなAI能力に適合させることで、研究の完全性を損なうことなく、科学的進歩を加速することができる。

The rapid adoption of generative artificial intelligence (AI) in scientific research, particularly large language models (LLMs), has outpaced the development of ethical guidelines, leading to a Triple-Too problem: too many high-level ethical initiatives, too abstract principles lacking contextual and practical relevance, and too much focus on restrictions and risks over benefits and utilities. Existing approaches, including principlism (reliance on abstract ethical principles), formalism (rigid application of rules), and technical solutionism (overemphasis on technological fixes), offer little practical guidance for addressing ethical challenges of AI in scientific research practices. To bridge the gap between abstract principles and day-to-day research practices, a user-centered, realism-inspired approach is proposed here. It outlines five specific goals for ethical AI use: 1) understanding model training and output, including bias mitigation strategies; 2) respecting privacy, confidentiality, and copyright; 3) avoiding plagiarism and policy violations; 4) applying AI beneficially compared to alternatives; and 5) using AI transparently and reproducibly. Each goal is accompanied by actionable strategies and realistic cases of misuse and corrective measures. I argue that ethical AI application requires evaluating its utility against existing alternatives rather than isolated performance metrics. Additionally, I propose documentation guidelines to enhance transparency and reproducibility in AI-assisted research. Moving forward, we need targeted professional development, training programs, and balanced enforcement mechanisms to promote responsible AI use while fostering innovation. By refining these ethical guidelines and adapting them to emerging AI capabilities, we can accelerate scientific progress without compromising research integrity.
翻訳日:2024-09-19 12:25:48 公開日:2024-09-18
# MURRE: Open-Domain Text-to-SQL を削除したマルチホップテーブル検索

MURRE: Multi-Hop Table Retrieval with Removal for Open-Domain Text-to-SQL ( http://arxiv.org/abs/2402.10666v5 )

ライセンス: Link先を確認
Xuanliang Zhang, Dingzirui Wang, Longxu Dou, Qingfu Zhu, Wanxiang Che, (参考訳) オープンドメインのテキスト・トゥ・SQLタスクは、巨大なデータベースから質問関連テーブルを取得し、SQLを生成することを目的としている。 しかし、現在の手法の性能はシングルホップ検索によって制限されており、既存のオープンドメイン質問応答のマルチホップ検索は、検索されたものと類似したテーブルを検索する傾向のため、直接適用されないが、質問とは無関係である。 テキストからSQLへの質問は、通常すべての必要な情報を含んでいるが、以前のマルチホップ検索は、検索されたドキュメントで質問を補完する。 そこで,本論文では,検索対象を検索対象から削除し,検索対象を検索対象に誘導するマルチホップテーブル検索(MURRE)を提案する。 2つのオープンドメインのテキスト・トゥ・SQLデータセットに対する実験は、過去の最先端結果よりも平均5.7%改善したことを示している。

The open-domain text-to-SQL task aims to retrieve question-relevant tables from massive databases and generate SQL. However, the performance of current methods is constrained by single-hop retrieval, and existing multi-hop retrieval of open-domain question answering is not directly applicable due to the tendency to retrieve tables similar to the retrieved ones but irrelevant to the question. Since the questions in text-to-SQL usually contain all required information, while previous multi-hop retrieval supplements the questions with retrieved documents. Therefore, we propose the multi-hop table retrieval with removal (MURRE), which removes previously retrieved information from the question to guide the retriever towards unretrieved relevant tables. Our experiments on two open-domain text-to-SQL datasets demonstrate an average improvement of 5.7% over the previous state-of-the-art results.
翻訳日:2024-09-19 12:25:48 公開日:2024-09-18
# Explore-Go: 深層強化学習における一般化のための探索の活用

Explore-Go: Leveraging Exploration for Generalisation in Deep Reinforcement Learning ( http://arxiv.org/abs/2406.08069v3 )

ライセンス: Link先を確認
Max Weltevrede, Felix Kaubek, Matthijs T. J. Spaan, Wendelin Böhmer, (参考訳) 強化学習における残りの課題の1つは、一度デプロイされた場合に遭遇する可能性のある新しいシナリオに一般化可能なエージェントを開発することである。 この課題は、エージェントが一定のタスクセットでトレーニングし、新しいタスクに一般化しなければならない、マルチタスク設定で表されることが多い。 近年の研究では, エージェントの一般化性能を高めるために, トレーニング中の探索量の増加を活用できることが示されている。 これは、テスト中に遭遇した状態が実際にトレーニング中に探索できる場合に意味がある。 本稿では,探索が訓練中に明示的に遭遇できない状態への一般化にも有効である理由を直感的に述べる。 さらに,エージェントが訓練する状態の数を増やすことにより,この直感を生かした探索語法を提案する。 Explore-Goはエージェントの開始状態分布を効果的に増加させ、その結果、既存のほとんどのオン・ポリティクスまたはオフ・ポリティクス・強化学習アルゴリズムと併用することができる。 本稿では,本手法が実演環境やProcgenベンチマーク上での一般化性能を向上させることを実証的に示す。

One of the remaining challenges in reinforcement learning is to develop agents that can generalise to novel scenarios they might encounter once deployed. This challenge is often framed in a multi-task setting where agents train on a fixed set of tasks and have to generalise to new tasks. Recent work has shown that in this setting increased exploration during training can be leveraged to increase the generalisation performance of the agent. This makes sense when the states encountered during testing can actually be explored during training. In this paper, we provide intuition why exploration can also benefit generalisation to states that cannot be explicitly encountered during training. Additionally, we propose a novel method Explore-Go that exploits this intuition by increasing the number of states on which the agent trains. Explore-Go effectively increases the starting state distribution of the agent and as a result can be used in conjunction with most existing on-policy or off-policy reinforcement learning algorithms. We show empirically that our method can increase generalisation performance in an illustrative environment and on the Procgen benchmark.
翻訳日:2024-09-19 12:25:48 公開日:2024-09-18
# 計算病理学の新しい時代:基礎モデルと視覚言語モデルに関する調査

A New Era in Computational Pathology: A Survey on Foundation and Vision-Language Models ( http://arxiv.org/abs/2408.14496v3 )

ライセンス: Link先を確認
Dibaloke Chanda, Milan Aryal, Nasim Yahya Soltani, Masoud Ganji, (参考訳) ディープラーニングの最近の進歩は、計算病理学(CPath)の領域を完全に変えた。 より具体的には、基礎モデル(FM)と視覚言語モデル(VLM)をその評価と意思決定プロセスに統合することにより、病理医の診断ワークフローを変更した。 CPathにおける既存のディープラーニングアプローチの限界は、明示的な監督なしに様々な下流タスクに適応可能な表現空間を学習することで、FMによって克服することができる。 VLMの展開により、自然言語で書かれた病理報告をリッチなセマンティック情報ソースとして使用して、既存のモデルを改善し、自然言語形式で予測を生成することができる。 本調査では,近年のFM, VLM, CPathの総合的, 体系的な技術革新について概説する。 さらに、これらのモデルのツール、データセット、トレーニングスキームを要約し、異なるグループに分類する。 この広範な調査は、将来におけるFMとVLMの使用によるCPathの現在のトレンドと、その革命の可能性を強調している。

Recent advances in deep learning have completely transformed the domain of computational pathology (CPath). More specifically, it has altered the diagnostic workflow of pathologists by integrating foundation models (FMs) and vision-language models (VLMs) in their assessment and decision-making process. The limitations of existing deep learning approaches in CPath can be overcome by FMs through learning a representation space that can be adapted to a wide variety of downstream tasks without explicit supervision. Deploying VLMs allow pathology reports written in natural language be used as rich semantic information sources to improve existing models as well as generate predictions in natural language form. In this survey, a holistic and systematic overview of recent innovations in FMs and VLMs in CPath is presented. Furthermore, the tools, datasets and training schemes for these models are summarized in addition to categorizing them into distinct groups. This extensive survey highlights the current trends in CPath and its possible revolution through the use of FMs and VLMs in the future.
翻訳日:2024-09-19 12:25:48 公開日:2024-09-18
# 非相反量子吸収のための時空間光子遮断

Spatiotemporal Photon Blockade for Nonreciprocal Quantum Absorption ( http://arxiv.org/abs/2409.08137v3 )

ライセンス: Link先を確認
Sajjad Taravati, (参考訳) 光子の流れを制御することは、量子技術の進歩に不可欠である。 時空間-周期的準曲面を用いた非相互量子吸収のための時空間光子遮断の概念を導入する。 本研究では, この効果を実験的に実現するための方法論を提案し, 準曲面の時空間変調と光子周波数のコヒーレンスにより, 片方向量子吸収が可能となることを示した。 本システムでは、前方移動光子はスラブ内でエネルギー的に変調・吸収され、後方移動光子は相互作用なく伝達される。 我々の分析には、バンド構造、等周波図、非相互吸収結果が含まれる。 これらの発見は、ミリケルビン温度量子系における非相互量子デバイスの開発と光子管理の強化の基礎となった。

Controlling the flow of photons is crucial for advancing quantum technologies. We introduce the concept of spatiotemporal photon blockade for nonreciprocal quantum absorption, utilizing space-time-periodic metasurfaces. Our study presents a methodology for experimentally realizing this effect, where photon frequency coherence with the metasurface's space-time modulation enables one-way quantum absorption. In this system, forward-traveling photons are energetically modulated and absorbed within the slab, while backward-traveling photons are transmitted without interaction. Our analysis includes band structure, isofrequency diagrams, and nonreciprocal absorption results. These findings lay the groundwork for developing nonreciprocal quantum devices and enhancing photon management in milli-Kelvin temperature quantum systems.
翻訳日:2024-09-19 12:25:48 公開日:2024-09-18
# AnySkin:ロボットタッチのためのプラグ&プレイスキンセンシング

AnySkin: Plug-and-play Skin Sensing for Robotic Touch ( http://arxiv.org/abs/2409.08276v2 )

ライセンス: Link先を確認
Raunaq Bhirangi, Venkatesh Pattabiraman, Enes Erciyes, Yifeng Cao, Tess Hellebrekers, Lerrel Pinto, (参考訳) 触覚は、重要かつ有用な感覚モダリティとして広く受け入れられているが、視覚やプロプレセプションといった他の感覚モダリティと比べて、青くなっている。 AnySkinは、触覚センシング -- 汎用性、置換性、データ再利用性 -- を阻害する重要な課題に対処する。 AnySkinは、ReSkinをシンプルにデザインし、センサーインターフェースからセンサーエレクトロニクスを分離することで、電話ケースを装着して充電器を接続するのと同じくらい簡単に統合できる。 さらに、AnySkinは、学習された操作ポリシーのクロスインスタンスの一般化性を持つ最初の非校正触覚センサである。 まず,AnySkinセンサーを用いたスリップ検出とポリシー学習を特徴付けるとともに,AnySkinのインスタンス上でトレーニングされたモデルのゼロショット一般化を新しいインスタンスに適用し,DIGITやReSkin.https://any-skin.github.io/ReSkin.github.ioのような既存の触覚ソリューションと比較する。

While tactile sensing is widely accepted as an important and useful sensing modality, its use pales in comparison to other sensory modalities like vision and proprioception. AnySkin addresses the critical challenges that impede the use of tactile sensing -- versatility, replaceability, and data reusability. Building on the simplistic design of ReSkin, and decoupling the sensing electronics from the sensing interface, AnySkin simplifies integration making it as straightforward as putting on a phone case and connecting a charger. Furthermore, AnySkin is the first uncalibrated tactile-sensor with cross-instance generalizability of learned manipulation policies. To summarize, this work makes three key contributions: first, we introduce a streamlined fabrication process and a design tool for creating an adhesive-free, durable and easily replaceable magnetic tactile sensor; second, we characterize slip detection and policy learning with the AnySkin sensor; and third, we demonstrate zero-shot generalization of models trained on one instance of AnySkin to new instances, and compare it with popular existing tactile solutions like DIGIT and ReSkin.https://any-skin.github.io/
翻訳日:2024-09-19 12:19:06 公開日:2024-09-18
# Mamba-YOLO-World: オープン語彙検出のためのYoLO-WorldとMamba

Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary Detection ( http://arxiv.org/abs/2409.08513v3 )

ライセンス: Link先を確認
Haoxuan Wang, Qingdong He, Jinlong Peng, Hao Yang, Mingmin Chi, Yabiao Wang, (参考訳) Open-vocabulary Detection (OVD)は、事前に定義されたカテゴリのセットを越えてオブジェクトを検出することを目的としている。 YOLOシリーズをOVDに取り入れた先駆的なモデルとして、YOLO-Worldはスピードと効率を優先するシナリオに適している。 しかし、その性能は首の特徴融合機構によって妨げられ、これは二次的な複雑さと限定的な誘導受容野を引き起こす。 これらの制約に対処するために,提案するMambaFusion Path Aggregation Network(MambaFusion-PAN)をネックアーキテクチャとして用いた,YOLOベースの新しいOVDモデルであるMamba-YOLO-Worldを紹介する。 具体的には,Parallel-Guided Selective ScanアルゴリズムとSerial-Guided Selective Scanアルゴリズムと,線形複雑度と世界規模で誘導される受容場からなる,革新的な状態空間モデルに基づく特徴融合機構を導入する。 マルチモーダルな入力シーケンスとmamba隠された状態を利用して選択的スキャンプロセスを導出する。 実験により,本モデルはCOCOおよびLVISベンチマークにおいて,比較パラメータとFLOPを維持しつつ,ゼロショットおよび微調整設定の両方において,元のYOLO-Worldよりも優れた性能を示した。 さらに、パラメータやFLOPが少なく、既存の最先端のOVDメソッドを超越している。

Open-vocabulary detection (OVD) aims to detect objects beyond a predefined set of categories. As a pioneering model incorporating the YOLO series into OVD, YOLO-World is well-suited for scenarios prioritizing speed and efficiency. However, its performance is hindered by its neck feature fusion mechanism, which causes the quadratic complexity and the limited guided receptive fields. To address these limitations, we present Mamba-YOLO-World, a novel YOLO-based OVD model employing the proposed MambaFusion Path Aggregation Network (MambaFusion-PAN) as its neck architecture. Specifically, we introduce an innovative State Space Model-based feature fusion mechanism consisting of a Parallel-Guided Selective Scan algorithm and a Serial-Guided Selective Scan algorithm with linear complexity and globally guided receptive fields. It leverages multi-modal input sequences and mamba hidden states to guide the selective scanning process. Experiments demonstrate that our model outperforms the original YOLO-World on the COCO and LVIS benchmarks in both zero-shot and fine-tuning settings while maintaining comparable parameters and FLOPs. Additionally, it surpasses existing state-of-the-art OVD methods with fewer parameters and FLOPs.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-18
# Autoregressive + Chain of Thought $\simeq$ Recurrent: Recurrence's Role in Language Models' Computability and a Recurrent Transformer Revisit of Recurrent Transformer

Autoregressive + Chain of Thought $\simeq$ Recurrent: Recurrence's Role in Language Models' Computability and a Revisit of Recurrent Transformer ( http://arxiv.org/abs/2409.09239v2 )

ライセンス: Link先を確認
Xiang Zhang, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, (参考訳) Transformerアーキテクチャはさまざまな言語モデリングタスクに優れ、RNNやLSTMといった従来のニューラルネットワークアーキテクチャよりも優れています。 これは部分的には、並列トレーニングと勾配のスムーズな流れを可能にする再帰接続の除去によるものである。 しかし、これは再帰構造から離れて、トランスフォーマーモデルをチョムスキーの計算階層の下端に配置し、計算能力に制限を与える。 その結果、高度なTransformerベースのモデルでさえ、カウント、文字列反転、乗算といったタスクでかなりの困難に直面している。 これらのタスクは、一見初等的なように見えるが、Transformerアーキテクチャの能力を超える計算複雑性のレベルを必要とする。 同時に、"Chain of Thought"(CoT)のプロンプトの出現により、トランスフォーマーベースの言語モデルでは、以前は不可能あるいは不十分であったタスクに対処することが可能になった。本研究では、ニューラルネットワークの推論能力と計算可能性に対する、ニューラルネットワークにおけるリカレント構造の影響を徹底的に調査し、ニューラルネットワークの計算能力において自己回帰が果たす役割を対比する。そして、CoTアプローチがリカレントな計算を模倣し、言語モデルのコンテキストにおける自己回帰と再帰の間の橋渡しとして機能する方法について光を当てた。この近似反復は、モデルの性能と計算能力を特に向上する。さらに、最近のリカレントベースのトランスフォーマーモデルの設計は、我々の「完全性」の概念によって、その計算能力に焦点を絞ったものである。 これを通じて、ニューラルモデルアーキテクチャに関する洞察を提供し、より良いモデル設計を促進することを目指している。

The Transformer architecture excels in a variety of language modeling tasks, outperforming traditional neural architectures such as RNN and LSTM. This is partially due to its elimination of recurrent connections, which allows for parallel training and a smoother flow of gradients. However, this move away from recurrent structures places the Transformer model at the lower end of Chomsky's computational hierarchy, imposing limitations on its computational abilities. Consequently, even advanced Transformer-based models face considerable difficulties in tasks like counting, string reversal, and multiplication. These tasks, though seemingly elementary, require a level of computational complexity that exceeds the capabilities of the Transformer architecture. Concurrently, the emergence of ``Chain of Thought" (CoT) prompting has enabled Transformer-based language models to tackle tasks that were previously impossible or poorly executed. In this work, we thoroughly investigate the influence of recurrent structures in neural models on their reasoning abilities and computability, contrasting the role autoregression plays in the neural models' computational power. We then shed light on how the CoT approach can mimic recurrent computation and act as a bridge between autoregression and recurrence in the context of language models. It is this approximated recurrence that notably improves the model's performance and computational capacity. Moreover, we revisit recent recurrent-based Transformer model designs, focusing on their computational abilities through our proposed concept of ``recurrence-completeness" and identify key theoretical limitations in models like Linear Transformer and RWKV. Through this, we aim to provide insight into the neural model architectures and prompt better model design.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-18
# NovAScore: ドキュメントレベルの新規性を評価するための新しい自動化メトリック

NovAScore: A New Automated Metric for Evaluating Document Level Novelty ( http://arxiv.org/abs/2409.09249v2 )

ライセンス: Link先を確認
Lin Ai, Ziwei Gong, Harshsaiprasad Deshpande, Alexander Johnson, Emmy Phung, Ahmad Emami, Julia Hirschberg, (参考訳) オンラインコンテンツの急速な拡大は情報冗長性の問題を強化し、真に新しい情報を識別できるソリューションの必要性を浮き彫りにした。 この課題にもかかわらず、研究コミュニティは、特に大きな言語モデル(LLM)の台頭により、新規性の検出に焦点を絞っている。 さらに、従来のアプローチは人間のアノテーションに大きく依存しており、これは時間がかかり、コストがかかり、特にアノテータがターゲット文書と大量の歴史的文書を比較する必要がある場合、特に困難である。 本研究では,文書レベルのノベルティを評価するための自動尺度であるNovAScore(Novelty Evaluation in Atomicity Score)を紹介する。 NovAScoreは、原子情報の新規性とサリエンススコアを集約し、高い解釈可能性と文書の新規性に関する詳細な分析を提供する。 NovAScoreの動的重量調整スキームでは、柔軟性が向上し、ドキュメント内の新規性レベルと情報の重要性の両方を評価するための追加の次元が提供される。 実験の結果,NovAScoreは新規性判断と強く相関し,TAP-DLND 1.0データセットの0.626点-双対相関,および内部の人間アノテーションデータセットの0.920ピアソン相関が得られた。

The rapid expansion of online content has intensified the issue of information redundancy, underscoring the need for solutions that can identify genuinely new information. Despite this challenge, the research community has seen a decline in focus on novelty detection, particularly with the rise of large language models (LLMs). Additionally, previous approaches have relied heavily on human annotation, which is time-consuming, costly, and particularly challenging when annotators must compare a target document against a vast number of historical documents. In this work, we introduce NovAScore (Novelty Evaluation in Atomicity Score), an automated metric for evaluating document-level novelty. NovAScore aggregates the novelty and salience scores of atomic information, providing high interpretability and a detailed analysis of a document's novelty. With its dynamic weight adjustment scheme, NovAScore offers enhanced flexibility and an additional dimension to assess both the novelty level and the importance of information within a document. Our experiments show that NovAScore strongly correlates with human judgments of novelty, achieving a 0.626 Point-Biserial correlation on the TAP-DLND 1.0 dataset and a 0.920 Pearson correlation on an internal human-annotated dataset.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-18
# ハイブリッドMLモデルによるチリ電力セクターの風速予測

Operational Wind Speed Forecasts for Chile's Electric Power Sector Using a Hybrid ML Model ( http://arxiv.org/abs/2409.09263v3 )

ライセンス: Link先を確認
Dhruv Suri, Praneet Dutta, Flora Xue, Ines Azevedo, Ravi Jain, (参考訳) チリの電力部門は再生可能エネルギーを動力とする未来に向かって進んでいるため、電力網の運営には再生可能エネルギーの正確な予測が不可欠である。 再生可能エネルギー源の統合は、化石燃料源と比較して非常に変動し、クリーンエネルギーの入手が遅れる、その発電を管理するという運用上の困難のため、特に困難である。 これを軽減するために、チリの火力発電所における風と太陽からの断続的な発電の増加の影響を定量化し、チリの2つのカスタムMLモデルを組み合わせたハイブリッド風速予測手法を導入する。 第1のモデルは短期予測のためのMLモデルであるTiDEをベースとし、第2のモデルはグラフニューラルネットワークであるGraphCastをベースとして、中期予測は最大10日である。 本手法は, 短期予測では4-21%, 中長期予測では5-23%, チリの温暖化, 削減, システムレベルの排出に対する風力発電の影響を直接的に低減できる。

As Chile's electric power sector advances toward a future powered by renewable energy, accurate forecasting of renewable generation is essential for managing grid operations. The integration of renewable energy sources is particularly challenging due to the operational difficulties of managing their power generation, which is highly variable compared to fossil fuel sources, delaying the availability of clean energy. To mitigate this, we quantify the impact of increasing intermittent generation from wind and solar on thermal power plants in Chile and introduce a hybrid wind speed forecasting methodology which combines two custom ML models for Chile. The first model is based on TiDE, an MLP-based ML model for short-term forecasts, and the second is based on a graph neural network, GraphCast, for medium-term forecasts up to 10 days. Our hybrid approach outperforms the most accurate operational deterministic systems by 4-21% for short-term forecasts and 5-23% for medium-term forecasts and can directly lower the impact of wind generation on thermal ramping, curtailment, and system-level emissions in Chile.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-18
# DreamMover: 大きな動きを持つ画像補間のための拡散モデルの事前活用

DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion ( http://arxiv.org/abs/2409.09605v2 )

ライセンス: Link先を確認
Liao Shen, Tianqi Liu, Huiqiang Sun, Xinyi Ye, Baopu Li, Jianming Zhang, Zhiguo Cao, (参考訳) 意味的一貫性を維持しつつ大きな動きを持つ画像対から中間画像を生成する問題について検討する。 大きな動きのため、中間的な意味情報は入力画像に欠落する可能性がある。 既存の手法は小さな動きに制限されるか、トポロジカルに類似した物体に焦点を合わせるかのいずれかであり、人工物や補間結果の不整合につながる。 この課題を克服するために、意味認識と表現能力に関する事前学習された画像拡散モデルを探索し、中間的意味表現の不備を入力と整合的に表現する。 この目的のために,3つの主要コンポーネントを持つ新しい画像補間フレームワークであるDreamMoverを提案する。 1)2つの画像間の意味的対応を暗黙的に推論できる拡散モデルに基づく自然流推定器。 2) 核融合時に詳細な情報が失われることを避けるため, 高次空間と低次空間の2つの部分で情報を融合することが重要視される。 3) 生成した画像と入力の整合性を高めるために, 自己注意結合と置換アプローチを提案する。 最後に、生成された結果のセマンティック一貫性を評価するために、ベンチマークデータセットInterpBenchを提案する。 大規模な実験により,本手法の有効性が示された。 私たちのプロジェクトはhttps://dreamm0ver.github.ioで公開されています。

We study the problem of generating intermediate images from image pairs with large motion while maintaining semantic consistency. Due to the large motion, the intermediate semantic information may be absent in input images. Existing methods either limit to small motion or focus on topologically similar objects, leading to artifacts and inconsistency in the interpolation results. To overcome this challenge, we delve into pre-trained image diffusion models for their capabilities in semantic cognition and representations, ensuring consistent expression of the absent intermediate semantic representations with the input. To this end, we propose DreamMover, a novel image interpolation framework with three main components: 1) A natural flow estimator based on the diffusion model that can implicitly reason about the semantic correspondence between two images. 2) To avoid the loss of detailed information during fusion, our key insight is to fuse information in two parts, high-level space and low-level space. 3) To enhance the consistency between the generated images and input, we propose the self-attention concatenation and replacement approach. Lastly, we present a challenging benchmark dataset InterpBench to evaluate the semantic consistency of generated results. Extensive experiments demonstrate the effectiveness of our method. Our project is available at https://dreamm0ver.github.io .
翻訳日:2024-09-19 12:19:06 公開日:2024-09-18
# アメリカにおける人工オピオイド危機の空間的ダイナミクスの追跡と解析のための移動型グラフ畳み込みネットワーク

Mobility-GCN: a human mobility-based graph convolutional network for tracking and analyzing the spatial dynamics of the synthetic opioid crisis in the USA, 2013-2020 ( http://arxiv.org/abs/2409.09945v3 )

ライセンス: Link先を確認
Zhiyue Xia, Kathleen Stewart, (参考訳) 合成オピオイド(英: Synthetic opioids)は、アメリカ合衆国で最も一般的な薬物である。 疾病予防管理センターは2018年、薬物過剰摂取死の約70%がオピオイド、オピオイド関連死亡の67%が合成オピオイドによるものであると報告した。 本研究では,米国における2013年から2020年にかけての合成オピオイドの拡散について検討した。 合成オピオイドが関与する死の時空間パターンと他の重要なオピオイド,ヘロインとの関係を解析し,この2種類の薬物による死亡パターンの比較を行った。 郡間の空間的つながりと人的移動性をグラフ畳み込みニューラルネットワークモデルに組み込んで,前回のヘロイン関連死パターンの文脈における合成オピオイド関連死の拡散を表現・解析した。

Synthetic opioids are the most common drugs involved in drug-involved overdose mortalities in the U.S. The Center for Disease Control and Prevention reported that in 2018, about 70% of all drug overdose deaths involved opioids and 67% of all opioid-involved deaths were accounted for by synthetic opioids. In this study, we investigated the spread of synthetic opioids between 2013 and 2020 in the U.S. We analyzed the relationship between the spatiotemporal pattern of synthetic opioid-involved deaths and another key opioid, heroin, and compared patterns of deaths involving these two types of drugs during this period. Spatial connections and human mobility between counties were incorporated into a graph convolutional neural network model to represent and analyze the spread of synthetic opioid-involved deaths in the context of previous heroin-involved death patterns.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-18
# ReflectDiffu:RL-Diffusion Frameworkによる情緒的反応生成のための感情インテリジェント・コンタテクションとミミリーの相互関係

ReflectDiffu:Reflect between Emotion-intent Contagion and Mimicry for Empathetic Response Generation via a RL-Diffusion Framework ( http://arxiv.org/abs/2409.10289v2 )

ライセンス: Link先を確認
Jiahao Yuan, Zixiang Di, Zhiqing Cui, Guisong Yang, Usman Naseem, (参考訳) 共感的反応生成は、意味のある相互作用を促進するために感情的および意図的なダイナミクスの統合を必要とする。 既存の研究は感情と意図の複雑な相互作用を無視し、共感の最適下制御に繋がるか、あるいは大きな言語モデル(LLM)に頼り、計算オーバーヘッドが大幅に増加する。 本稿では,共感応答生成のための軽量で包括的なフレームワークであるReflectDiffuを紹介する。 この枠組みは感情の伝染を組み込んで感情表現を増強し、感情表現マスクを用いて批判的な感情的要素を識別する。 さらに、拡散中の洗練のための強化学習に意図の模倣を統合する。 リフレクションディッフルは、探索・サンプリング・修正のメカニズムを2回反映して、感情的な意思決定を正確に意図の行動に変換することにより、感情的な誤認識に起因する共感的な反応の不一致に対処する。 リフレクションを通じて、このフレームワークは感情状態と意図をマッピングし、反応の共感と柔軟性の両方を著しく強化する。 総合的な実験により、リフレクションディッフルは、関連性、制御可能性、情報性に関する既存のモデルより優れており、自動評価と人的評価の両方において最先端の結果が得られていることが明らかとなった。

Empathetic response generation necessitates the integration of emotional and intentional dynamics to foster meaningful interactions. Existing research either neglects the intricate interplay between emotion and intent, leading to suboptimal controllability of empathy, or resorts to large language models (LLMs), which incur significant computational overhead. In this paper, we introduce ReflectDiffu, a lightweight and comprehensive framework for empathetic response generation. This framework incorporates emotion contagion to augment emotional expressiveness and employs an emotion-reasoning mask to pinpoint critical emotional elements. Additionally, it integrates intent mimicry within reinforcement learning for refinement during diffusion. By harnessing an intent twice reflect the mechanism of Exploring-Sampling-Correcting, ReflectDiffu adeptly translates emotional decision-making into precise intent actions, thereby addressing empathetic response misalignments stemming from emotional misrecognition. Through reflection, the framework maps emotional states to intents, markedly enhancing both response empathy and flexibility. Comprehensive experiments reveal that ReflectDiffu outperforms existing models regarding relevance, controllability, and informativeness, achieving state-of-the-art results in both automatic and human evaluations.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-18
# RetrievalAttention: Vector Retrievalによる長期LLM推論の高速化

RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval ( http://arxiv.org/abs/2409.10516v2 )

ライセンス: Link先を確認
Di Liu, Meng Chen, Baotong Lu, Huiqiang Jiang, Zhenhua Han, Qianxi Zhang, Qi Chen, Chengruidong Zhang, Bailu Ding, Kai Zhang, Chen Chen, Fan Yang, Yuqing Yang, Lili Qiu, (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)がますます重要になっている。 しかし、注意計算の二次的な時間的複雑さのため、LLMを長いコンテキストにスケールすることは、キー値(KV)ベクトルをキャッシュする際の推論遅延と高いGPUメモリ消費を極端に遅くする。 本稿では、注意計算の高速化とGPUメモリ消費の削減を両立させるトレーニング不要な手法であるRetrievalAttentionを提案する。 RetrievalAttentionは、注意機構の動的間隔を活用することにより、CPUメモリ内のKVベクトルに近似した近接探索(ANNS)インデックスを使用することを提案し、生成中のベクトル探索と最も関連性の高いものを検索する。 残念なことに,市販のANNSインデックスは,クエリベクトルと注目機構におけるキーベクトルとの間のアウト・オブ・ディストリビューション(OOD)のため,このような検索タスクには有効ではないことが多い。 RetrievalAttentionは、クエリベクトルの分布に適応可能な注意認識ベクトル探索アルゴリズムを設計することで、OODの課題に対処する。 評価の結果,RetrievalAttentionは高いモデル精度を維持しながら1-3%のデータにのみアクセスする必要があることがわかった。 これにより、GPUメモリフットプリントが大幅に低い長文LLMの推論コストが大幅に削減される。 特にRetrievalAttentionは、LLMで128Kトークンを8Bパラメータで提供するために、1つのNVIDIA RTX4090 (24GB)しか必要とせず、0.188秒で1トークンを生成することができる。

Transformer-based Large Language Models (LLMs) have become increasingly important. However, due to the quadratic time complexity of attention computation, scaling LLMs to longer contexts incurs extremely slow inference latency and high GPU memory consumption for caching key-value (KV) vectors. This paper proposes RetrievalAttention, a training-free approach to both accelerate attention computation and reduce GPU memory consumption. By leveraging the dynamic sparsity of attention mechanism, RetrievalAttention proposes to use approximate nearest neighbor search (ANNS) indexes for KV vectors in CPU memory and retrieves the most relevant ones with vector search during generation. Unfortunately, we observe that the off-the-shelf ANNS indexes are often ineffective for such retrieval tasks due to the out-of-distribution (OOD) between query vectors and key vectors in attention mechanism. RetrievalAttention addresses the OOD challenge by designing an attention-aware vector search algorithm that can adapt to the distribution of query vectors. Our evaluation shows that RetrievalAttention only needs to access 1--3% of data while maintaining high model accuracy. This leads to significant reduction in the inference cost of long-context LLMs with much lower GPU memory footprint. In particular, RetrievalAttention only needs a single NVIDIA RTX4090 (24GB) for serving 128K tokens in LLMs with 8B parameters, which is capable of generating one token in 0.188 seconds.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-18
# 自動構造化データ抽出のための言語モデルと検索拡張生成

Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports ( http://arxiv.org/abs/2409.10576v2 )

ライセンス: Link先を確認
Mohamed Sobhi Jabal, Pranav Warman, Jikai Zhang, Kartikeye Gupta, Ayush Jain, Maciej Mazurowski, Walter Wiggins, Kirti Magudia, Evan Calabrese, (参考訳) 目的:オープンウェイトな大規模言語モデル(LM)と検索拡張生成(RAG)を用いて、構造化されていない放射線学・病理学報告から構造化された臨床情報を抽出する自動システムを開発し、評価し、モデル構成変数が抽出性能に与える影響を評価する。 方法と材料:本研究では,脳腫瘍報告・データシステム(BT-RADS)スコアに注釈付き7,294件の放射線学レポートと,isocitrate dehydrogenase(IDH)変異ステータスに注釈付き2,154件の病理学レポートを使用した。 様々なLMとRAG構成のパフォーマンスをベンチマークするために、自動パイプラインが開発された。 モデルサイズ,量子化,プロンプト戦略,出力フォーマット,推論パラメータの影響を体系的に評価した。 結果: 診断結果からBT-RADSスコアの98%以上を抽出し, 病理所見からIDH変異の90%以上を抽出した。 最上位モデルは医療用微調整のラマ3である。 より大きく、より新しく、より細調整されたモデルは、古いモデルやより小さなモデルよりも一貫して優れていた。 モデル量子化はパフォーマンスに最小限の影響を及ぼした。 精度は大幅に向上した。 RAGは、複雑な病理報告では改善したが、短い放射線診断では改善しなかった。 結論: オープンLMは, 局所プライバシー保護アプリケーションを用いた非構造化臨床報告から構造化臨床データを自動抽出する可能性を示す。 注意深いモデル選択、プロンプトエンジニアリング、アノテートデータを用いた半自動最適化は、最適なパフォーマンスに不可欠である。 これらのアプローチは、医療データ抽出における人間と機械のコラボレーションの可能性を強調し、研究ワークフローで実用的に十分な信頼性を持つ可能性がある。

Purpose: To develop and evaluate an automated system for extracting structured clinical information from unstructured radiology and pathology reports using open-weights large language models (LMs) and retrieval augmented generation (RAG), and to assess the effects of model configuration variables on extraction performance. Methods and Materials: The study utilized two datasets: 7,294 radiology reports annotated for Brain Tumor Reporting and Data System (BT-RADS) scores and 2,154 pathology reports annotated for isocitrate dehydrogenase (IDH) mutation status. An automated pipeline was developed to benchmark the performance of various LMs and RAG configurations. The impact of model size, quantization, prompting strategies, output formatting, and inference parameters was systematically evaluated. Results: The best performing models achieved over 98% accuracy in extracting BT-RADS scores from radiology reports and over 90% for IDH mutation status extraction from pathology reports. The top model being medical fine-tuned llama3. Larger, newer, and domain fine-tuned models consistently outperformed older and smaller models. Model quantization had minimal impact on performance. Few-shot prompting significantly improved accuracy. RAG improved performance for complex pathology reports but not for shorter radiology reports. Conclusions: Open LMs demonstrate significant potential for automated extraction of structured clinical data from unstructured clinical reports with local privacy-preserving application. Careful model selection, prompt engineering, and semi-automated optimization using annotated data are critical for optimal performance. These approaches could be reliable enough for practical use in research workflows, highlighting the potential for human-machine collaboration in healthcare data extraction.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-18
# コンパスを用いたテンポラルトピー埋め込みの可視化

Visualizing Temporal Topic Embeddings with a Compass ( http://arxiv.org/abs/2409.10649v2 )

ライセンス: Link先を確認
Daniel Palamarchuk, Lemara Williams, Brian Mayer, Thomas Danielson, Rebecca Faust, Larry Deschaine, Chris North, (参考訳) 動的トピックモデリングは、時間とともに潜在トピックの開発と変更を発見するのに役立ちます。 しかし、本手法は文書と単語の表現を分離するアルゴリズムに依存している。 これにより、単語使用量や文書の変更を直接時間的文脈で分析できる意味のある埋め込み空間が作成できない。 本稿では,コンパス整列時相Word2Vec手法を動的トピックモデリングに拡張することを提案する。 このような手法により、動的トピックにおける時間にわたって単語と文書の埋め込みを直接比較することができる。 これにより、文書のコンテキストに時間的な単語の埋め込みを組み込んだ視覚化をトピックの可視化に組み込むことができる。 提案手法は,現在の最先端技術に対する実験において,トピックの関連性や時間的データセットの多様性において,総合的な競争性能を示す。 同時に、グローバルトピックの進化によって提供される洞察を維持しながら、時間とともにトピックがどのように進化するかの理解を深めながら、時間的単語の埋め込みに焦点を当てた洞察に富んだ可視化を提供する。

Dynamic topic modeling is useful at discovering the development and change in latent topics over time. However, present methodology relies on algorithms that separate document and word representations. This prevents the creation of a meaningful embedding space where changes in word usage and documents can be directly analyzed in a temporal context. This paper proposes an expansion of the compass-aligned temporal Word2Vec methodology into dynamic topic modeling. Such a method allows for the direct comparison of word and document embeddings across time in dynamic topics. This enables the creation of visualizations that incorporate temporal word embeddings within the context of documents into topic visualizations. In experiments against the current state-of-the-art, our proposed method demonstrates overall competitive performance in topic relevancy and diversity across temporal datasets of varying size. Simultaneously, it provides insightful visualizations focused on temporal word embeddings while maintaining the insights provided by global topic evolution, advancing our understanding of how topics evolve over time.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-18
# コンテキストリーチ:トランスフォーマーベースのQAモデルのロバスト性を評価する

Contextual Breach: Assessing the Robustness of Transformer-based QA Models ( http://arxiv.org/abs/2409.10997v2 )

ライセンス: Link先を確認
Asir Saadat, Nahian Ibn Asad, Md Farhan Ishmam, (参考訳) 文脈問合せモデルは、現実のシナリオでよく見られる、入力コンテキストに対する敵の摂動に影響を受けやすい。 これらの逆方向ノイズは、テキスト入力を歪ませることで、モデルの性能を劣化させるように設計されている。 我々は,SQuADデータセット上の5つの異なる強度レベルをそれぞれ適用し,異なる7種類の逆方向ノイズを文脈に組み込んだユニークなデータセットを提案する。 このロバスト性を定量化するために、様々なノイズタイプやレベルにわたってモデル性能を評価するための標準化された尺度を提供するロバストネス指標を利用する。 トランスフォーマーに基づく質問応答モデルの実験は、現実的なテキスト入力におけるモデルの性能に関する堅牢性脆弱性と重要な洞察を明らかにしている。

Contextual question-answering models are susceptible to adversarial perturbations to input context, commonly observed in real-world scenarios. These adversarial noises are designed to degrade the performance of the model by distorting the textual input. We introduce a unique dataset that incorporates seven distinct types of adversarial noise into the context, each applied at five different intensity levels on the SQuAD dataset. To quantify the robustness, we utilize robustness metrics providing a standardized measure for assessing model performance across varying noise types and levels. Experiments on transformer-based question-answering models reveal robustness vulnerabilities and important insights into the model's performance in realistic textual input.
翻訳日:2024-09-19 12:19:06 公開日:2024-09-18
# キーフレーズ選択のための微調整生成モデル探索:ロシア語を事例として

Exploring Fine-tuned Generative Models for Keyphrase Selection: A Case Study for Russian ( http://arxiv.org/abs/2409.10640v2 )

ライセンス: Link先を確認
Anna Glazkova, Dmitry Morozov, (参考訳) キーフレーズの選択は学術テキストの領域において重要な役割を担い、効率的な情報検索、要約、索引付けを容易にする。 本研究では,ロシアの科学文献におけるキーフレーズ選択の特定の課題に対して,微調整型生成トランスフォーマーモデルを適用する方法について検討した。 我々は,ruT5,ruGPT,mT5,mBARTの4つの異なる生成モデルを用いて実験を行った。 この実験は、数学とコンピュータ科学、歴史、医学、言語学という4つの領域のロシアの科学的抽象のテキストに基づいて行われた。 生成モデル、すなわちmBARTの使用は、ロシア語の3つのキーフレーズ抽出ベースラインよりも、ドメイン内のパフォーマンス(BERTScoreが4.9%、ROUGE-1が9.0%、F1スコアが12.2%)が向上した。 クロスドメイン利用の成果は著しく低かったが、いくつかのケースでベースライン性能を上回る能力を示しており、この研究分野におけるさらなる探索と改良の可能性を秘めている。

Keyphrase selection plays a pivotal role within the domain of scholarly texts, facilitating efficient information retrieval, summarization, and indexing. In this work, we explored how to apply fine-tuned generative transformer-based models to the specific task of keyphrase selection within Russian scientific texts. We experimented with four distinct generative models, such as ruT5, ruGPT, mT5, and mBART, and evaluated their performance in both in-domain and cross-domain settings. The experiments were conducted on the texts of Russian scientific abstracts from four domains: mathematics & computer science, history, medicine, and linguistics. The use of generative models, namely mBART, led to gains in in-domain performance (up to 4.9% in BERTScore, 9.0% in ROUGE-1, and 12.2% in F1-score) over three keyphrase extraction baselines for the Russian language. Although the results for cross-domain usage were significantly lower, they still demonstrated the capability to surpass baseline performances in several cases, underscoring the promising potential for further exploration and refinement in this research field.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# 情報戦士としてのLLM : LLMを利用したチャットボットがウクライナにおけるロシアの戦争に関する偽情報にどのように取り組むか

LLMs as information warriors? Auditing how LLM-powered chatbots tackle disinformation about Russia's war in Ukraine ( http://arxiv.org/abs/2409.10697v2 )

ライセンス: Link先を確認
Mykola Makhortykh, Ani Baghumyan, Victoria Vziatysheva, Maryna Sydorova, Elizaveta Kuznetsova, (参考訳) 大規模言語モデル(LLM)の台頭は情報戦争に大きな影響を及ぼす。 偽情報やプロパガンダキャンペーンに関連するコンテンツの制作を容易にすることで、LLMはさまざまな種類の情報操作を増幅し、オンラインユーザを誤解させることができる。 本研究では,Google,Microsoft,Perplexityによって開発されたLLMを利用したチャットボットが,ウクライナにおけるロシアの戦争や,そのトピックに関する正確な情報を提供するチャットボットの能力が言語や時間によって異なるかどうかを実証的に検討した。 その結果,いくつかのチャットボット (Perplexity) では,いくつかの言語では時間とともにパフォーマンスが大幅に向上している(Gemini) が,その性能は英語でのみ改善されているが,低リソース言語では低下していることがわかった。

The rise of large language models (LLMs) has a significant impact on information warfare. By facilitating the production of content related to disinformation and propaganda campaigns, LLMs can amplify different types of information operations and mislead online users. In our study, we empirically investigate how LLM-powered chatbots, developed by Google, Microsoft, and Perplexity, handle disinformation about Russia's war in Ukraine and whether the chatbots' ability to provide accurate information on the topic varies across languages and over time. Our findings indicate that while for some chatbots (Perplexity), there is a significant improvement in performance over time in several languages, for others (Gemini), the performance improves only in English but deteriorates in low-resource languages.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# 空間コンピューティングアプリケーションのためのコンテキスト依存型対話型グラフィカルユーザインタフェース要素検出

Context-Dependent Interactable Graphical User Interface Element Detection for Spatial Computing Applications ( http://arxiv.org/abs/2409.10811v2 )

ライセンス: Link先を確認
Shuqing Li, Binchang Li, Yepang Liu, Cuiyun Gao, Jianping Zhang, Shing-Chi Cheung, Michael R. Lyu, (参考訳) 近年、空間コンピューティングのバーチャルリアリティ(VR)は、様々な仮想環境にまたがって、没入的でインタラクティブな体験を提供するトランスフォーメーション技術として出現している。 ユーザは立体3Dグラフィカルユーザインタフェース(GUI)上で対話可能なGUI要素(IGE)を介してVRアプリと対話することができる。 これらのIGEの正確な認識は、自動テストや効果的なGUI検索など、多くのソフトウェアエンジニアリングタスクの基盤として機能する。 2Dモバイルアプリの最新のIGE検出アプローチは、通常、ボタンやスピナーのようなクリック可能なGUI要素カテゴリのセットで、手動で大規模にラベル付けされたGUIデータセットに基づいて、教師付きオブジェクト検出モデルをトレーニングする。 オープンボキャブラリとヘテロジニアスなIGEカテゴリによる複雑度、文脈に敏感な相互作用性の複雑さ、正確なIGE検出結果のための正確な空間知覚と視覚的セマンティックアライメントの必要性など、VRアプリのIGE検出にはこのようなアプローチが適用できない。 したがって、VRアプリに適したIGE研究を始める必要がある。 本稿では,仮想現実感アプリのための最初のゼロショットcOntext-sensitive inteRactable GUI ElemeNT dEtectionフレームワークOrienterを提案する。 人間の振る舞いを模倣することで、OrienterはまずVRアプリのシーンの意味的コンテキストを観察し、理解し、次に検出を実行する。 検出プロセスは、フィードバック指向のバリデーションとリフレクションループ内で反復される。 具体的には,(1)セマンティックコンテキスト理解,(2)リフレクション指向IGE候補検出,(3)コンテキスト依存的対話性分類の3つのコンポーネントを含む。 大規模な実験により、Orienterは最先端のGUI要素検出アプローチよりも効果的であることが示された。

In recent years, spatial computing Virtual Reality (VR) has emerged as a transformative technology, offering users immersive and interactive experiences across diversified virtual environments. Users can interact with VR apps through interactable GUI elements (IGEs) on the stereoscopic three-dimensional (3D) graphical user interface (GUI). The accurate recognition of these IGEs is instrumental, serving as the foundation of many software engineering tasks, including automated testing and effective GUI search. The most recent IGE detection approaches for 2D mobile apps typically train a supervised object detection model based on a large-scale manually-labeled GUI dataset, usually with a pre-defined set of clickable GUI element categories like buttons and spinners. Such approaches can hardly be applied to IGE detection in VR apps, due to a multitude of challenges including complexities posed by open-vocabulary and heterogeneous IGE categories, intricacies of context-sensitive interactability, and the necessities of precise spatial perception and visual-semantic alignment for accurate IGE detection results. Thus, it is necessary to embark on the IGE research tailored to VR apps. In this paper, we propose the first zero-shot cOntext-sensitive inteRactable GUI ElemeNT dEtection framework for virtual Reality apps, named Orienter. By imitating human behaviors, Orienter observes and understands the semantic contexts of VR app scenes first, before performing the detection. The detection process is iterated within a feedback-directed validation and reflection loop. Specifically, Orienter contains three components, including (1) Semantic context comprehension, (2) Reflection-directed IGE candidate detection, and (3) Context-sensitive interactability classification. Extensive experiments demonstrate that Orienter is more effective than the state-of-the-art GUI element detection approaches.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# 推進:ティニーファインチューニング付きステアリングLDM

Propulsion: Steering LLM with Tiny Fine-Tuning ( http://arxiv.org/abs/2409.10927v2 )

ライセンス: Link先を確認
Md Kowsher, Nusrat Jahan Prottasha, Prakash Bhat, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、自然言語処理(NLP)とその関連分野に革命をもたらした。 しかし、これらのモデルを特定のタスクのために微調整することは、計算的に高価であり、事前学習された特徴を劣化させるリスクがある。 これらの課題に対処するために,計算オーバーヘッドを大幅に削減しつつ,タスク固有の性能を最適化する新しいパラメータ効率的な微調整法であるPropulsionを提案する。 物理運動の制御調整の概念に触発されて、Propulsionは、事前訓練されたモデルの特定の次元を選択的に再スケールし、モデルのパラメータを変更することなく、タスク目標に向けて出力予測を誘導する。 事前学習層に軽量で訓練可能な推進パラメータを導入することで、微調整時に更新されるパラメータの数を最小化し、既存の知識の過度な適合や上書きを防止する。 我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。 実証的に、Propulsionはパラメータ数を355.3百万から0.086百万に減らし、ベンチマーク間の競争性能を維持しながら、LoRAのような標準的なアプローチに比べて10倍の削減を実現している。

The rapid advancements in Large Language Models (LLMs) have revolutionized natural language processing (NLP) and related fields. However, fine-tuning these models for specific tasks remains computationally expensive and risks degrading pre-learned features. To address these challenges, we propose Propulsion, a novel parameter efficient fine-tuning (PEFT) method designed to optimize task-specific performance while drastically reducing computational overhead. Inspired by the concept of controlled adjustments in physical motion, Propulsion selectively re-scales specific dimensions of a pre-trained model, guiding output predictions toward task objectives without modifying the model's parameters. By introducing lightweight, trainable Propulsion parameters at the pre-trained layer, we minimize the number of parameters updated during fine-tuning, preventing overfitting or overwriting of existing knowledge. Our theoretical analysis, supported by Neural Tangent Kernel (NTK) theory, shows that Propulsion approximates the performance of full fine-tuning with far fewer trainable parameters. Empirically, Propulsion reduces the parameter count from 355.3 million to just 0.086 million, achieving over a 10x reduction compared to standard approaches like LoRA while maintaining competitive performance across benchmarks.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# スマートグリッドとエネルギー貯蔵システムを用いた公開鍵基盤のオンライン認証プロトコル

An Enhanced Online Certificate Status Protocol for Public Key Infrastructure with Smart Grid and Energy Storage System ( http://arxiv.org/abs/2409.10929v2 )

ライセンス: Link先を確認
Hong-Sheng Huang, Cheng-Che Chuang, Jhih-Zen Shih, Hsuan-Tung Chen, Hung-Min Sun, (参考訳) 証明書のステータスチェックの効率性は、公開鍵インフラストラクチャ(PKI)における重要な指標の1つである。 これにより、RFC 6960 で定義された Online Certificate Status Protocol (OCSP) 標準を設計し、OCSP コンポーネントの実装に開発者を導くことになった。 しかし,PKIによる認証がますます普及しているため,クライアントとサーバ間の通信を不正な要素から保護することが不可欠である。 これはSSL/TLS技術を使用してセキュアなチャネルを確立することで実現でき、認証機関(CA)は証明書のステータス情報を安全に転送することができる。 本研究では,我々のスマートグリッド環境におけるOCSPクエリコストを最適化するOCSPステープリング手法を提案する。 このアプローチは、デバイス言語メッセージ仕様(DLMS)サーバからOCSPサーバへのクエリ数を削減します。 実験の結果,OCSPステープリングにより効率とセキュリティが向上し,スマートグリッドのより堅牢なアーキテクチャが実現された。

The efficiency of checking certificate status is one of the key indicators in the public key infrastructure (PKI). This prompted researchers to design the Online Certificate Status Protocol (OCSP) standard, defined in RFC 6960, to guide developers in implementing OCSP components. However, as the environment increasingly relies on PKI for identity authentication, it is essential to protect the communication between clients and servers from rogue elements. This can be achieved by using SSL/TLS techniques to establish a secure channel, allowing Certificate Authorities (CAs) to safely transfer certificate status information. In this work, we introduce the OCSP Stapling approach to optimize OCSP query costs in our smart grid environment. This approach reduces the number of queries from the Device Language Message Specification (DLMS) server to the OCSP server. Our experimental results show that OCSP stapling increases both efficiency and security, creating a more robust architecture for the smart grid.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# エネルギーに基づく抗体最適化とスクリーニング強化のためのアクティブラーニング

Active learning for energy-based antibody optimization and enhanced screening ( http://arxiv.org/abs/2409.10964v2 )

ライセンス: Link先を確認
Kairi Furui, Masahito Ohue, (参考訳) タンパク質結合性アフィニティの正確な予測と最適化は、治療用抗体の開発に不可欠である。 機械学習に基づく予測法$\Delta\Delta G$は大規模な突然変異スクリーニングに適しているが、既存のバインダーを使わずにターゲットに対する複数の突然変異の効果を予測するのに苦労している。 エネルギー関数に基づく手法は、より正確ではあるが、時間がかかり、大規模なスクリーニングには理想的ではない。 そこで本研究では,深層学習モデルを効率よく訓練し,特定の目標に対するエネルギー関数を学習する能動的学習ワークフローを提案する。 本手法はRDE-NetworkディープラーニングモデルとRosetaのエネルギー関数に基づくFlex ddGを統合し,突然変異体を効率的に探索する。 HER2結合型Trastuzumab変異体を標的としたケーススタディでは,ランダム選択よりもスクリーニング性能が有意に向上し,実験的な$\Delta\Delta G$データなしでより優れた結合特性を持つ変異体を同定できることが実証された。 このワークフローは、より効率的な抗体開発を実現するために、機械学習、物理ベースの計算、アクティブな学習を組み合わせることで、計算抗体設計を前進させる。

Accurate prediction and optimization of protein-protein binding affinity is crucial for therapeutic antibody development. Although machine learning-based prediction methods $\Delta\Delta G$ are suitable for large-scale mutant screening, they struggle to predict the effects of multiple mutations for targets without existing binders. Energy function-based methods, though more accurate, are time consuming and not ideal for large-scale screening. To address this, we propose an active learning workflow that efficiently trains a deep learning model to learn energy functions for specific targets, combining the advantages of both approaches. Our method integrates the RDE-Network deep learning model with Rosetta's energy function-based Flex ddG to efficiently explore mutants. In a case study targeting HER2-binding Trastuzumab mutants, our approach significantly improved the screening performance over random selection and demonstrated the ability to identify mutants with better binding properties without experimental $\Delta\Delta G$ data. This workflow advances computational antibody design by combining machine learning, physics-based computations, and active learning to achieve more efficient antibody development.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# GEIC:大規模言語モデルを用いたユニバーサルおよび多言語名付きエンティティ認識

GEIC: Universal and Multilingual Named Entity Recognition with Large Language Models ( http://arxiv.org/abs/2409.11022v2 )

ライセンス: Link先を確認
Hanjun Luo, Yingbin Jin, Xuecheng Liu, Tong Shang, Ruizhe Chen, Zuozhu Liu, (参考訳) 大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて従来の手法に取って代わっている。 それでも、名前付きエンティティ認識(NER)では、既存のLCMベースのメソッドはベースラインよりも性能が低く、計算リソースが大幅に必要であり、アプリケーションを制限する。 本稿では,NER タスクに対する LLM の事前知識と自己認識機構を活用するために設計された,ジェネレーションベース抽出とインコンテキスト分類(GEIC)の課題を紹介する。 次に,多言語GEICフレームワークであるCascadeNERを提案する。 CascadeNER はモデルカスケードを用いて2つの小パラメータ LLM を独立に抽出・分類し、精度を高めながら資源消費を減らす。 また、LLM用に特別に設計された最初のNERデータセットであるAnythingNERについても紹介する。 実験によると、CascadeNERはCrossNERやFewNERDなど、低リソースできめ細かいシナリオで最先端のパフォーマンスを実現している。 私たちの仕事は公然とアクセスできます。

Large Language Models (LLMs) have supplanted traditional methods in numerous natural language processing tasks. Nonetheless, in Named Entity Recognition (NER), existing LLM-based methods underperform compared to baselines and require significantly more computational resources, limiting their application. In this paper, we introduce the task of generation-based extraction and in-context classification (GEIC), designed to leverage LLMs' prior knowledge and self-attention mechanisms for NER tasks. We then propose CascadeNER, a universal and multilingual GEIC framework for few-shot and zero-shot NER. CascadeNER employs model cascading to utilize two small-parameter LLMs to extract and classify independently, reducing resource consumption while enhancing accuracy. We also introduce AnythingNER, the first NER dataset specifically designed for LLMs, including 8 languages, 155 entity types and a novel dynamic categorization system. Experiments show that CascadeNER achieves state-of-the-art performance on low-resource and fine-grained scenarios, including CrossNER and FewNERD. Our work is openly accessible.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# Cobotのノーコードプログラミングに向けて:会話型プログラミングのための大規模コードモデルによるコード合成実験

Towards No-Code Programming of Cobots: Experiments with Code Synthesis by Large Code Models for Conversational Programming ( http://arxiv.org/abs/2409.11041v2 )

ライセンス: Link先を確認
Chalamalasetti Kranti, Sherzod Hakimov, David Schlangen, (参考訳) 最近、家庭環境におけるロボットの研究が盛んに行われているが、現在、ほとんどのロボットが店の床で発見されており、人間とロボットの相互作用はそこで起きている。 組立ライン上で人間と一緒に働くように設計された「協調ロボット」(コボット)は、伝統的に専門家のプログラミングを必要とし、変更を行う能力や手動指導を制限し、その結果のプログラムの表現力を制限する。 これらの制約に対処するために,Large Language Models (LLMs) と,特に会話コード生成のためのコンテキスト内学習能力について検討する。 最初のステップとして、業界アセンブリのシナリオをシミュレートするための基盤となるように設計された2Dビルディングタスクである‘反復アセンブリタスク’であるRATSを定義します。 このタスクでは、‘プログラマ’は、自然言語を使って、あるアセンブリをどのように構築するかについて、コボットに指示する。 ターゲット構造と、さまざまな例示(ヒューマンライサード、テンプレートベース、モデル生成)と、サンプルコードとをペアリングするデータセットを作成します。 そこで本研究では,テキスト内例から,このようなコードを合成するための最先端のLLMの能力を体系的に評価する。 シミュレーション環境での評価では,LLMは正確な「第1次コード」を生成することができるが,「高次コード」を生成する問題(関数やループの使用など)がある。

While there has been a lot of research recently on robots in household environments, at the present time, most robots in existence can be found on shop floors, and most interactions between humans and robots happen there. ``Collaborative robots'' (cobots) designed to work alongside humans on assembly lines traditionally require expert programming, limiting ability to make changes, or manual guidance, limiting expressivity of the resulting programs. To address these limitations, we explore using Large Language Models (LLMs), and in particular, their abilities of doing in-context learning, for conversational code generation. As a first step, we define RATS, the ``Repetitive Assembly Task'', a 2D building task designed to lay the foundation for simulating industry assembly scenarios. In this task, a `programmer' instructs a cobot, using natural language, on how a certain assembly is to be built; that is, the programmer induces a program, through natural language. We create a dataset that pairs target structures with various example instructions (human-authored, template-based, and model-generated) and example code. With this, we systematically evaluate the capabilities of state-of-the-art LLMs for synthesising this kind of code, given in-context examples. Evaluating in a simulated environment, we find that LLMs are capable of generating accurate `first order code' (instruction sequences), but have problems producing `higher-order code' (abstractions such as functions, or use of loops).
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# OneEncoder: モダリティの進行的アライメントのための軽量フレームワーク

OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities ( http://arxiv.org/abs/2409.11059v2 )

ライセンス: Link先を確認
Bilal Faye, Hanane Azzag, Mustapha Lebbah, (参考訳) クロスモーダルアライメント 学習は、テキスト、画像、オーディオ、ビデオなどのさまざまなモダリティからの情報を統合して、統一されたモデルを作成する。 このアプローチは共有表現を開発し、モダリティ間の相関関係を学習し、視覚的質問応答や視覚的コンテンツ分析などの応用を可能にする。 現在のテクニックは、大規模なモダリティ固有のエンコーダに依存しており、広範囲な整列したデータセット(例えば、テキストイメージ、テキストオーディオ、画像オーディオ)をスクラッチから微調整またはトレーニングする必要がある。 このアプローチには制限があります。 (i)大規模なエンコーダを広範囲のデータセットで訓練する必要があるため、非常に高価である。 二 整列した大データセットの取得は困難であり、 (iii)新しいモダリティを追加するには、これらのモダリティを組み込むためにフレームワーク全体をトレーニングする必要がある。 これらの問題に対処するために、我々は4つのモダリティ(画像、テキスト、オーディオ、ビデオ)を段階的に表現し整列する軽量フレームワークであるOneEncoderを提案する。 当初私たちは、画像とテキストのモダリティを調整するために、軽量のユニバーサルプロジェクションモジュール(UP)をトレーニングしました。 そして、事前訓練されたUPを凍結し、将来的なモダリティを、すでに整列しているものへ徐々に調整する。 OneEncoderは、軽量な設計のため、膨大なアライメントデータセットが利用できないシナリオであっても、効率的かつ費用対効果で運用する。 小さなペアデータセットに基づいてトレーニングされ、分類、クエリ、視覚的な質問応答といったタスクにおいて、大きなデータセットや特殊なエンコーダに依存するメソッドを超越したパフォーマンスを示す。

Cross-modal alignment Learning integrates information from different modalities like text, image, audio and video to create unified models. This approach develops shared representations and learns correlations between modalities, enabling applications such as visual question answering and audiovisual content analysis. Current techniques rely on large modality-specific encoders, necessitating fine-tuning or training from scratch on vast aligned datasets (e.g., text-image, text-audio, image-audio). This approach has limitations: (i) it is very expensive due to the need for training large encoders on extensive datasets, (ii) acquiring aligned large paired datasets is challenging, and (iii) adding new modalities requires retraining the entire framework to incorporate these modalities. To address these issues, we propose OneEncoder, a lightweight framework that progressively represents and aligns four modalities (image, text, audio, video). Initially, we train a lightweight Universal Projection module (UP) to align image and text modalities. Then, we freeze the pretrained UP and progressively align future modalities to those already aligned. OneEncoder operates efficiently and cost-effectively, even in scenarios where vast aligned datasets are unavailable, due to its lightweight design. Trained on small paired datasets, it shows strong performance in tasks like classification, querying, and visual question answering, surpassing methods that rely on large datasets and specialized encoders.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# Annealed Winner-Takes-All for Motion Forecasting

Annealed Winner-Takes-All for Motion Forecasting ( http://arxiv.org/abs/2409.11172v2 )

ライセンス: Link先を確認
Yihong Xu, Victor Letzelter, Mickaël Chen, Éloi Zablocki, Matthieu Cord, (参考訳) 自律運転では、運動予測は、近くのエージェントの将来の軌跡を予測し、エゴ車両が行動を予測し、安全に運転するのを助けることを目的としている。 重要な課題は、MCL(Multiple Choice Learning)アーキテクチャとWinner-Takes-All(WTA)トレーニング目標を備えたデータ駆動モデルを使って、さまざまな将来の予測を生成することだ。 しかし、これらの手法は初期化感度と訓練不安定性に直面している。 さらに、限られた性能を補うために、いくつかのアプローチでは、予測数を著しく減少させるために、推論中に選択後のステップを必要とする、大量の仮説によるトレーニングに依存している。 これらの問題に対処するため、最近導入されたMCL法により、Winner-Takes-All Los (aWTA) によるMCL法の収束性を向上する手法である。 本稿では,AWTAの損失を最先端の動作予測モデルに統合して,最小限の仮説のみを用いて性能を向上させる方法を示す。 我々の手法は、通常WTAを用いて訓練された任意の軌道予測モデルに容易に組み込むことができ、大幅な改善をもたらす。 将来の動き予測モデルへの我々のアプローチの適用を容易にするため、コードは受理時に公開される。

In autonomous driving, motion prediction aims at forecasting the future trajectories of nearby agents, helping the ego vehicle to anticipate behaviors and drive safely. A key challenge is generating a diverse set of future predictions, commonly addressed using data-driven models with Multiple Choice Learning (MCL) architectures and Winner-Takes-All (WTA) training objectives. However, these methods face initialization sensitivity and training instabilities. Additionally, to compensate for limited performance, some approaches rely on training with a large set of hypotheses, requiring a post-selection step during inference to significantly reduce the number of predictions. To tackle these issues, we take inspiration from annealed MCL, a recently introduced technique that improves the convergence properties of MCL methods through an annealed Winner-Takes-All loss (aWTA). In this paper, we demonstrate how the aWTA loss can be integrated with state-of-the-art motion forecasting models to enhance their performance using only a minimal set of hypotheses, eliminating the need for the cumbersome post-selection step. Our approach can be easily incorporated into any trajectory prediction model normally trained using WTA and yields significant improvements. To facilitate the application of our approach to future motion forecasting models, the code will be made publicly available upon acceptance: https://github.com/valeoai/MF_aWTA.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# 交通力学の高度表現のための高次進化グラフ

High-Order Evolving Graphs for Enhanced Representation of Traffic Dynamics ( http://arxiv.org/abs/2409.11206v2 )

ライセンス: Link先を確認
Aditya Humnabadkar, Arindam Sikdar, Benjamin Cave, Huaizhong Zhang, Paul Bakaki, Ardhendu Behera, (参考訳) 本稿では,自律運転環境における時空間表現の改善を目的とした高次進化グラフを用いた交通動態解析のための革新的なフレームワークを提案する。 提案手法は,リアルタイムに交通シーン内の複雑な相互作用を効果的にモデル化する,時間的双方向二部グラフを構築する。 グラフニューラルネットワーク(GNN)と高次多重集約戦略を統合することにより,交通シーンのダイナミックスモデリングを大幅に強化し,これらのインタラクションをより正確かつ詳細に分析する。 さらに、GraphSAGEフレームワークにインスパイアされた帰納的学習技術を導入し、再トレーニングを必要とせず、新しい交通シナリオに適応できるようにし、堅牢な一般化を実現する。 ROADおよびROAD Waymoデータセットに関する広範な実験を通じて、さらなる開発のための包括的なベースラインを確立し、トラフィックの挙動を正確に把握する手法の可能性を示す。 本研究は,交通行動解析における高次統計モーメントの価値と特徴有意な注意機構を強調し,自動運転技術の進歩に向けた基礎を築いた。 私たちのソースコードは、https://github.com/Addy-1998/High_Order_Graphs.comで公開されています。

We present an innovative framework for traffic dynamics analysis using High-Order Evolving Graphs, designed to improve spatio-temporal representations in autonomous driving contexts. Our approach constructs temporal bidirectional bipartite graphs that effectively model the complex interactions within traffic scenes in real-time. By integrating Graph Neural Networks (GNNs) with high-order multi-aggregation strategies, we significantly enhance the modeling of traffic scene dynamics, providing a more accurate and detailed analysis of these interactions. Additionally, we incorporate inductive learning techniques inspired by the GraphSAGE framework, enabling our model to adapt to new and unseen traffic scenarios without the need for retraining, thus ensuring robust generalization. Through extensive experiments on the ROAD and ROAD Waymo datasets, we establish a comprehensive baseline for further developments, demonstrating the potential of our method in accurately capturing traffic behavior. Our results emphasize the value of high-order statistical moments and feature-gated attention mechanisms in improving traffic behavior analysis, laying the groundwork for advancing autonomous driving technologies. Our source code is available at: https://github.com/Addy-1998/High_Order_Graphs
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# ストーリーテリングのアート:動的マルチモーダルナラティブのためのマルチエージェント生成AI

The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives ( http://arxiv.org/abs/2409.11261v2 )

ライセンス: Link先を確認
Samee Arif, Taimoor Arif, Aamina Jamal Khan, Muhammad Saad Haroon, Agha Ali Raza, Awais Athar, (参考訳) 本稿では,ジェネレーティブ・人工知能(GenAI)を利用した子ども向けのストーリーテリングを支援する教育ツールのコンセプトを紹介する。 このシステムは、GenAIによる物語の共創、テキストから音声への変換、およびテキストからビデオへの生成を組み合わせることで、学習者にとって魅力的な体験を生み出す。 本稿では,共同創造過程,テキスト音声モデルを用いた話し言葉への物語の適応,およびテキスト音声技術による文脈関連視覚への変換について述べる。 本評価では,生成した物語の言語学,テキストから音声への変換品質,生成した視覚の精度について検討する。

This paper introduces the concept of an education tool that utilizes Generative Artificial Intelligence (GenAI) to enhance storytelling for children. The system combines GenAI-driven narrative co-creation, text-to-speech conversion, and text-to-video generation to produce an engaging experience for learners. We describe the co-creation process, the adaptation of narratives into spoken words using text-to-speech models, and the transformation of these narratives into contextually relevant visuals through text-to-video technology. Our evaluation covers the linguistics of the generated stories, the text-to-speech conversion quality, and the accuracy of the generated visuals.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# クロスValidated Targeted Maximum Likelihood Estimation の性能評価

Performance of Cross-Validated Targeted Maximum Likelihood Estimation ( http://arxiv.org/abs/2409.11265v2 )

ライセンス: Link先を確認
Matthew J. Smith, Rachael V. Phillips, Camille Maringe, Miguel Angel Luque-Fernandez, (参考訳) 背景: 目的最大推定(TMLE)のような因果推論の高度な手法は、統計的推論に一定の条件を必要とする。 しかし、データの疎度や近陽性違反による差別性がない状況では、Donskerクラス条件が違反される。 このような状況では、TMLEのばらつきはI型エラーのインフレーションやカバー不足に悩まされ、保守的な信頼区間につながる。 TMLEアルゴリズム(CVTMLE)のクロスバリデーションは, 肯定性やDonskerクラス違反の設定において, TMLEに比べて性能が向上することが示唆されている。 本研究の目的は, CVTMLE と TMLE を比較し, CVTMLE の性能について検討することである。 方法: 我々はLeger et al (2022)に記載されているデータ生成機構を用いて,モンテカルロ実験を異なるDonskerクラス違反下で実行した。 そこで我々は,回帰木法と非回帰木法を併用した超学習者ライブラリを用いたTMLEとCVTMLEの統計的性能について検討した。 結果: CVTMLEは, 偏差に悪影響を及ぼすことなく, 信頼性区間を著しく改善し, 特に試料サイズが小さかったり, ほぼ肯定的であったりした場合に有意な影響が認められた。 さらに、標準TMLEとアンサンブル超学習者に基づく初期推定を用いた回帰木の導入により、バイアスと分散が増加し、統計的推測が無効になる。 結論: CVTMLEを使用する場合, 回帰木を用いたり, データの疎度, ほぼ正当性違反のどちらの下でも, 有効な統計的推測を得るためには, ドンスカークラス条件が不要であることが示されている。 CVTMLEは,超学習者ライブラリの選択に対してはるかに敏感であり,超学習者ライブラリがより柔軟な候補を用いており,過度に適合する傾向にある場合に,より優れた推定と推測を提供することを示す。

Background: Advanced methods for causal inference, such as targeted maximum likelihood estimation (TMLE), require certain conditions for statistical inference. However, in situations where there is not differentiability due to data sparsity or near-positivity violations, the Donsker class condition is violated. In such situations, TMLE variance can suffer from inflation of the type I error and poor coverage, leading to conservative confidence intervals. Cross-validation of the TMLE algorithm (CVTMLE) has been suggested to improve on performance compared to TMLE in settings of positivity or Donsker class violations. We aim to investigate the performance of CVTMLE compared to TMLE in various settings. Methods: We utilised the data-generating mechanism as described in Leger et al. (2022) to run a Monte Carlo experiment under different Donsker class violations. Then, we evaluated the respective statistical performances of TMLE and CVTMLE with different super learner libraries, with and without regression tree methods. Results: We found that CVTMLE vastly improves confidence interval coverage without adversely affecting bias, particularly in settings with small sample sizes and near-positivity violations. Furthermore, incorporating regression trees using standard TMLE with ensemble super learner-based initial estimates increases bias and variance leading to invalid statistical inference. Conclusions: It has been shown that when using CVTMLE the Donsker class condition is no longer necessary to obtain valid statistical inference when using regression trees and under either data sparsity or near-positivity violations. We show through simulations that CVTMLE is much less sensitive to the choice of the super learner library and thereby provides better estimation and inference in cases where the super learner library uses more flexible candidates and is prone to overfitting.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# オープンソースの多言語大規模言語モデルLOLA

LOLA -- An Open-Source Massively Multilingual Large Language Model ( http://arxiv.org/abs/2409.11272v2 )

ライセンス: Link先を確認
Nikit Srivastava, Denis Kuchelev, Tatiana Moteu, Kshitij Shetty, Michael Röder, Diego Moussallem, Hamada Zahera, Axel-Cyrille Ngonga Ngomo, (参考訳) 本稿では,160言語以上で訓練された多言語多言語大言語モデルLOLAについて,Sparse Mixture-of-Experts Transformerアーキテクチャを用いて述べる。 我々のアーキテクチャと実装の選択は、効率を維持しつつ言語多様性を活用することの課題に対処し、多言語性の共通の落とし穴を避ける。 評価結果を解析した結果,自然言語生成と理解タスクにおける競合性能が示された。 さらに、学習した専門家引き抜き機構は、暗黙の系統的言語パターンを利用して、多言語性の呪いを和らげる可能性を実証する。 トレーニングプロセスの詳細、データセットの分析、モデルの強みと制限のバランスの取れた探索などを提供しています。 オープンソースモデルとして、LOLAは再現性を促進し、将来の研究の堅牢な基盤として機能する。 この結果から,言語間での強力なスケーラブルな性能を持つ計算効率のよい多言語モデルの開発が可能となった。

This paper presents LOLA, a massively multilingual large language model trained on more than 160 languages using a sparse Mixture-of-Experts Transformer architecture. Our architectural and implementation choices address the challenge of harnessing linguistic diversity while maintaining efficiency and avoiding the common pitfalls of multilinguality. Our analysis of the evaluation results shows competitive performance in natural language generation and understanding tasks. Additionally, we demonstrate how the learned expert-routing mechanism exploits implicit phylogenetic linguistic patterns to potentially alleviate the curse of multilinguality. We provide an in-depth look at the training process, an analysis of the datasets, and a balanced exploration of the model's strengths and limitations. As an open-source model, LOLA promotes reproducibility and serves as a robust foundation for future research. Our findings enable the development of compute-efficient multilingual models with strong, scalable performance across languages.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18
# グラフベース文脈知識トリプルモデリングによるテキスト生成のためのゼロリソース幻覚検出

Zero-resource Hallucination Detection for Text Generation via Graph-based Contextual Knowledge Triples Modeling ( http://arxiv.org/abs/2409.11283v2 )

ライセンス: Link先を確認
Xinyue Fang, Zhen Huang, Zhiliang Tian, Minghui Fang, Ziyi Pan, Quntian Fang, Zhihua Wen, Hengyue Pan, Dongsheng Li, (参考訳) LLMは優れたパフォーマンスを得るが、幻覚に悩まされる。 幻覚の検出に関するほとんどの研究は、忠実さの確認が容易な簡潔で具体的な正解の質問に焦点を当てている。 オープンな回答を持つテキスト生成のための幻覚検出はより困難である。 一部の研究者は、生成したテキストの幻覚を検出するために外部知識を使用しているが、特定のシナリオに対する外部リソースへのアクセスは困難である。 外部資源のない長文テキストにおける幻覚検出に関する最近の研究は、複数のサンプル出力の整合性比較を行っている。 長いテキストを扱うために、研究者は長いテキストを複数の事実に分割し、それぞれの事実の一貫性を個別に比較した。 しかし,これらの手法は(1)複数の事実間の一致をほとんど達成しておらず,(2)複数の事実間の依存関係を見落としている。 本稿では,テキスト生成のためのグラフベースの文脈認識(GCA)幻覚検出手法を提案する。 特に,複数の事実を整列させるために,複数の知識を抽出する三方向応答セグメンテーションを行う。 文脈知識三重項(ファクト)間の依存関係をモデル化するため、文脈三重項をグラフ内に構築し、RGCNを介してメッセージパッシングや集約を通じて三重項の相互作用を強化する。 長文における知識三重項の欠落を回避するため,知識三重項の再構成によりLLMに基づく逆検証を行う。 実験により,本モデルは幻覚検出を増強し,全てのベースラインを抜粋することが示された。

LLMs obtain remarkable performance but suffer from hallucinations. Most research on detecting hallucination focuses on the questions with short and concrete correct answers that are easy to check the faithfulness. Hallucination detections for text generation with open-ended answers are more challenging. Some researchers use external knowledge to detect hallucinations in generated texts, but external resources for specific scenarios are hard to access. Recent studies on detecting hallucinations in long text without external resources conduct consistency comparison among multiple sampled outputs. To handle long texts, researchers split long texts into multiple facts and individually compare the consistency of each pairs of facts. However, these methods (1) hardly achieve alignment among multiple facts; (2) overlook dependencies between multiple contextual facts. In this paper, we propose a graph-based context-aware (GCA) hallucination detection for text generations, which aligns knowledge facts and considers the dependencies between contextual knowledge triples in consistency comparison. Particularly, to align multiple facts, we conduct a triple-oriented response segmentation to extract multiple knowledge triples. To model dependencies among contextual knowledge triple (facts), we construct contextual triple into a graph and enhance triples' interactions via message passing and aggregating via RGCN. To avoid the omission of knowledge triples in long text, we conduct a LLM-based reverse verification via reconstructing the knowledge triples. Experiments show that our model enhances hallucination detection and excels all baselines.
翻訳日:2024-09-19 12:04:00 公開日:2024-09-18