このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230924となっている論文です。

PDF登録状況(公開日: 20230924)

TitleAuthorsAbstract論文公表日・翻訳日
# GCNIDS:CANバスにおけるグラフ畳み込みネットワークによる侵入検知システム

GCNIDS: Graph Convolutional Network-Based Intrusion Detection System for CAN Bus ( http://arxiv.org/abs/2309.10173v2 )

ライセンス: Link先を確認
Maloy Kumar Devnath, (参考訳) コントロールエリアネットワーク(CAN)バスは、現代の車両における様々な電子制御ユニット(ECU)間の通信を容易にするための標準プロトコルである。 しかし、CANバスは遠隔攻撃の影響を受けやすいことが示されており、車両の安全性と機能にリスクが生じる。 この問題に対処するため、研究者は侵入検知システム(IDS)を導入し、そのような攻撃を検知し阻止した。 本論文では,2019年にZhang,Tong,Xu,Maciejewskiが導入したGraph Convolutional Network(GCN)技術を利用して,CANバス内の侵入者検出に革新的なアプローチを提案する。 深層学習の能力を生かして,手動機能工学の要件を最小化しつつ,攻撃検出精度を高めることを目指す。 実験結果から,提案手法が既存のIDSよりも精度,精度,リコールに優れていることが確認された。 さらに,本手法は単一攻撃よりも同定が難しい混合攻撃の検出に有効であることを示す。 さらに、広範な機能エンジニアリングの必要性を低減し、特にリアルタイム検知システムに適している。 我々の知る限り、これは侵入検知のためのCANデータへのGCNの先駆的な応用である。 提案手法は、現代の車両の安全性と安全性を強化し、攻撃を防ぎ、車両の機能を損なうのを防ぐ上で大きな可能性を秘めている。

The Controller Area Network (CAN) bus serves as a standard protocol for facilitating communication among various electronic control units (ECUs) within contemporary vehicles. However, it has been demonstrated that the CAN bus is susceptible to remote attacks, which pose risks to the vehicle's safety and functionality. To tackle this concern, researchers have introduced intrusion detection systems (IDSs) to identify and thwart such attacks. In this paper, we present an innovative approach to intruder detection within the CAN bus, leveraging Graph Convolutional Network (GCN) techniques as introduced by Zhang, Tong, Xu, and Maciejewski in 2019. By harnessing the capabilities of deep learning, we aim to enhance attack detection accuracy while minimizing the requirement for manual feature engineering. Our experimental findings substantiate that the proposed GCN-based method surpasses existing IDSs in terms of accuracy, precision, and recall. Additionally, our approach demonstrates efficacy in detecting mixed attacks, which are more challenging to identify than single attacks. Furthermore, it reduces the necessity for extensive feature engineering and is particularly well-suited for real-time detection systems. To the best of our knowledge, this represents the pioneering application of GCN to CAN data for intrusion detection. Our proposed approach holds significant potential in fortifying the security and safety of modern vehicles, safeguarding against attacks and preventing them from undermining vehicle functionality.
翻訳日:2024-03-19 04:30:16 公開日:2023-09-24
# Poster: 報告された街路問題のアカウンタブル処理

Poster: Accountable Processing of Reported Street Problems ( http://arxiv.org/abs/2309.11146v2 )

ライセンス: Link先を確認
Roman Matzutt, Jan Pennekamp, Klaus Wehrle, (参考訳) 市町村は、対応時間を改善するために、ポットホールや違法ゴミ捨て場などの問題について、市民にデジタルレポートを提出するようますます頼りにしている。 しかし、責任ある当局は、高コストに対処する際、例えば、ある報告を無視するインセンティブを与えるかもしれない。 本研究では,提出された報告について当局に説明責任を負わせるためのブロックチェーン技術の適用性について検討する。 最初の評価は、我々のアプローチが将来市民や当局に利益をもたらす可能性があることを示唆している。

Municipalities increasingly depend on citizens to file digital reports about issues such as potholes or illegal trash dumps to improve their response time. However, the responsible authorities may be incentivized to ignore certain reports, e.g., when addressing them inflicts high costs. In this work, we explore the applicability of blockchain technology to hold authorities accountable regarding filed reports. Our initial assessment indicates that our approach can be extended to benefit citizens and authorities in the future.
翻訳日:2024-03-19 04:20:31 公開日:2023-09-24
# デジタル双生児の左シフトと右シフトサイバーセキュリティ事業の将来

Digital Twins and the Future of their Use Enabling Shift Left and Shift Right Cybersecurity Operations ( http://arxiv.org/abs/2309.13612v1 )

ライセンス: Link先を確認
Ahmad Mohsin, Helge Janicke, Surya Nepal, David Holmes, (参考訳) Digital Twins (DT) – スマートグリッドや製造などのスマートクリティカルシステム(SCS)ドメインにおけるオペレーションの最適化とパフォーマンス監視。 DTベースのサイバーセキュリティソリューションは初期段階にあり、今後30年から50年にわたる課題を克服するための統一的な戦略が欠如している。 これらの課題には、予測不可能な環境でのCPS(Cyber-Physical Systems)からの信頼性の高いデータアクセシビリティが含まれる。 信頼性のあるデータソースは、DTを必要とするSCSライフサイクル全体にわたって基盤となるモデリング機能によって支援されるインテリジェントなサイバーセキュリティ運用において重要なものだ。 これらの課題に対処するために、我々は、CPSからリアルタイムデータを収集するSecurity Digital Twins (SDT)を提案し、SDTの設計時間と実行時サイバーセキュリティ操作の両方を実装するために、SLSR(Shift Left and Shift Right)設計パラダイムを必要とする。 Cloud/Edgeに仮想CPSコンポーネント(VC)を組み込んだSDTモデルへのデータ統合は、高い信頼性で実現され、脅威の洞察とサイバーレジリエンスの向上を提供する。 VC対応のSDTは、設計と実行の両方のセキュリティ監視のための正確なデータフィードを保証する。 この設計パラダイムシフトは、将来のクリティカルシステムを確保するために革新的なSDTモデリングと分析を促進する。 このビジョンペーパーは、データ駆動型およびルールベースセマンティックSDTモデルによるハイブリッドインテリジェンスを探索し、革新的な技術を通してインテリジェントなSDT設計の概要を示す。 基礎となるモデリングと分析機能を通じて、スマートクリティカルシステムを保護するためのさまざまな運用ユースケースについて議論する。

Digital Twins (DTs), optimize operations and monitor performance in Smart Critical Systems (SCS) domains like smart grids and manufacturing. DT-based cybersecurity solutions are in their infancy, lacking a unified strategy to overcome challenges spanning next three to five decades. These challenges include reliable data accessibility from Cyber-Physical Systems (CPS), operating in unpredictable environments. Reliable data sources are pivotal for intelligent cybersecurity operations aided with underlying modeling capabilities across the SCS lifecycle, necessitating a DT. To address these challenges, we propose Security Digital Twins (SDTs) collecting realtime data from CPS, requiring the Shift Left and Shift Right (SLSR) design paradigm for SDT to implement both design time and runtime cybersecurity operations. Incorporating virtual CPS components (VC) in Cloud/Edge, data fusion to SDT models is enabled with high reliability, providing threat insights and enhancing cyber resilience. VC-enabled SDT ensures accurate data feeds for security monitoring for both design and runtime. This design paradigm shift propagates innovative SDT modeling and analytics for securing future critical systems. This vision paper outlines intelligent SDT design through innovative techniques, exploring hybrid intelligence with data-driven and rule-based semantic SDT models. Various operational use cases are discussed for securing smart critical systems through underlying modeling and analytics capabilities.
翻訳日:2024-03-19 03:51:14 公開日:2023-09-24
# Uniswapプロトコルにおけるスワッピングのコスト

The Costs of Swapping on the Uniswap Protocol ( http://arxiv.org/abs/2309.13648v1 )

ライセンス: Link先を確認
Austin Adams, Benjamin Y Chan, Sarit Markovich, Xin Wan, (参考訳) 本稿では、分散取引所(DEX)における取引コストの詳細な評価について述べる。 2つのプール(USDC-ETH(5bps)とPEPE-ETH(30bps))のUnixwap Labsインターフェースからの引用価格を利用して、DEXの取引効率を評価します。 また、リオーダースリップ(reordering slippage)と呼ばれるトランザクションの再注文によるスリップの定量化と識別を行う方法も提案する。 取引コストの構成は、取引の特性によって大きく異なることが分かりました。 特に小さなスワップでは、ガスコストがコストを上回りますが、大きなスワップでは価格への影響と滑り込みが大部分を占めています。 また,PEPEを取引する際には,USDCのような成熟した資産を取引する場合よりも,対向すべりの確率が約80%高い。 全体として、私たちの結果は、デジタル資産を取引するための中央集権的な取引所に対して、DECが説得力のある信頼のない代替手段を提供するという予備的な証拠を提供する。

We present the first in-depth empirical characterization of the costs of trading on a decentralized exchange (DEX). Using quoted prices from the Uniswap Labs interface for two pools -- USDC-ETH (5bps) and PEPE-ETH (30bps) -- we evaluate the efficiency of trading on DEXs. Our main tool is slippage -- the difference between the realized execution price of a trade, and its quoted price -- which we breakdown into its benign and adversarial components. We also present an alternative way to quantify and identify slippage due to adversarial reordering of transactions, which we call reordering slippage, that does not require quoted prices or mempool data to calculate. We find that the composition of transaction costs varies tremendously with the trade's characteristics. Specifically, while for small swaps, gas costs dominate costs, for large swaps price-impact and slippage account for the majority of it. Moreover, when trading PEPE, a popular 'memecoin', the probability of adversarial slippage is about 80% higher than when trading a mature asset like USDC. Overall, our results provide preliminary evidence that DEXs offer a compelling trust-less alternative to centralized exchanges for trading digital assets.
翻訳日:2024-03-19 03:51:14 公開日:2023-09-24
# de novo薬物設計における探索性向上のための自己監督的手法としての好奇心

Curiosity as a Self-Supervised Method to Improve Exploration in De novo Drug Design ( http://arxiv.org/abs/2401.06771v1 )

ライセンス: Link先を確認
Mohamed-Amine Chadi, Hajar Mousannif, Ahmed Aamouche(参考訳) 近年, 深層学習はド・ノボの薬物設計において有望な成果を示した。 しかし、提案手法は依然として大規模な化学空間の効率的な探索を欠いている。 これらの手法のほとんどは、既知の薬物の化学空間の小さな断片を探索するが、もし所望の分子が見つからなかったら、プロセスは終了する。 そこで本研究では,化学空間の多くの部分の移動を強要する好奇心駆動方式を導入し,高い所望性と多様性を実現する。 まず、リカレントニューラルネットワークベースの一般分子発生器(g)を訓練し、gを微調整して好奇心と望遠性を最大化します。 好奇性は、2つの生成分子の谷本類似性、Gが生成する第1分子、G(Gcopy)が生成する第2分子と定義する。 gcopyを変更せずに、gを通して損失をバックプロパゲートするだけです。 我々は, 薬物類似性に関連する2つの望ましい化学的性質に対する我々のアプローチをベンチマークし, 検出された化学空間を著しく拡張できることを示し, より多様性が高く, 合成が容易なより多くの分子を発見した。 この論文で使用されるコードとデータは、https://github.com/amine179/Curiosity-RL-for-Drug-Designで公開されている。

In recent years, deep learning has demonstrated promising results in de novo drug design. However, the proposed techniques still lack an efficient exploration of the large chemical space. Most of these methods explore a small fragment of the chemical space of known drugs, if the desired molecules were not found, the process ends. In this work, we introduce a curiosity-driven method to force the model to navigate many parts of the chemical space, therefore, achieving higher desirability and diversity as well. At first, we train a recurrent neural network-based general molecular generator (G), then we fine-tune G to maximize curiosity and desirability. We define curiosity as the Tanimoto similarity between two generated molecules, a first molecule generated by G, and a second one generated by a copy of G (Gcopy). We only backpropagate the loss through G while keeping Gcopy unchanged. We benchmarked our approach against two desirable chemical properties related to drug-likeness and showed that the discovered chemical space can be significantly expanded, thus, discovering a higher number of desirable molecules with more diversity and potentially easier to synthesize. All Code and data used in this paper are available at https://github.com/amine179/Curiosity-RL-for-Drug-Design.
翻訳日:2024-01-22 12:39:20 公開日:2023-09-24
# メタバースのためのセマンティック顔圧縮:コンパクトな3次元記述子に基づくアプローチ

Semantic Face Compression for Metaverse: A Compact 3D Descriptor Based Approach ( http://arxiv.org/abs/2311.12817v1 )

ライセンス: Link先を確認
Binzhe Li, Bolin Chen, Zhao Wang, Shiqi Wang, Yan Ye(参考訳) 本稿では,仮想アバター顔のための新しいメタバース通信パラダイムを考案し,コンパクトな3次元顔記述子を用いたセマンティック顔圧縮を開発する。 基本的な原理は、仮想アバターのコミュニケーションが主に意味情報の伝達を強調することである。 これを踏まえ、提案手法は高い柔軟性、効率性、意味論的意味を持つという利点を提供する。 人工知能に基づく理解のための記述子のコミュニケーションを可能にするセマンティック顔圧縮は、メタバースに人間の関与なしに多数の応用を促進することができる。 提案するパラダイムの約束は、最先端のビデオ符号化標準であるVersatile Video Codingと性能比較によっても示される。 レート精度の面での大幅な改善が達成されている。 提案手法は,機械解析に基づくデジタルヒューマンコミュニケーションなど,多数の応用が可能であり,メタバースにおけるインタラクションとコミュニケーションの基盤となることが期待されている。

In this letter, we envision a new metaverse communication paradigm for virtual avatar faces, and develop the semantic face compression with compact 3D facial descriptors. The fundamental principle is that the communication of virtual avatar faces primarily emphasizes the conveyance of semantic information. In light of this, the proposed scheme offers the advantages of being highly flexible, efficient and semantically meaningful. The semantic face compression, which allows the communication of the descriptors for artificial intelligence based understanding, could facilitate numerous applications without the involvement of humans in metaverse. The promise of the proposed paradigm is also demonstrated by performance comparisons with the state-of-the-art video coding standard, Versatile Video Coding. A significant improvement in terms of rate-accuracy performance has been achieved. The proposed scheme is expected to enable numerous applications, such as digital human communication based on machine analysis, and to form the cornerstone of interaction and communication in the metaverse.
翻訳日:2024-01-15 15:49:05 公開日:2023-09-24
# 畳み込みニューラルネットワーク(CNN)の進化:エッジAIの計算とメモリ帯域幅

Evolution of Convolutional Neural Network (CNN): Compute vs Memory bandwidth for Edge AI ( http://arxiv.org/abs/2311.12816v1 )

ライセンス: Link先を確認
Dwith Chenna(参考訳) 畳み込みニューラルネットワーク(CNN)は、リソース制約されたデバイス上で強力な機械学習機能を実現するために、組み込みビジョンとエッジ人工知能(AI)の分野に大きな影響を与えている。 この記事では、Edge AIのコンテキストにおけるCNN計算要求とメモリ帯域幅の関係について説明する。 我々は、初期のパイオニアモデルから現在の最先端設計まで、cnnアーキテクチャの歴史的進歩を掘り下げ、計算集約型オペレーションの進歩を強調する。 モデル複雑性が計算要求とメモリアクセスパターンの両方に与える影響を検討する。 本稿では,cnnにおける計算要求とメモリ帯域幅要求のトレードオフを比較検討する。 この分析は、効率的なアーキテクチャと潜在的なハードウェアアクセラレータの設計に関する洞察を提供し、エッジデバイスでのcnnパフォーマンスを向上させる。

Convolutional Neural Networks (CNNs) have greatly influenced the field of Embedded Vision and Edge Artificial Intelligence (AI), enabling powerful machine learning capabilities on resource-constrained devices. This article explores the relationship between CNN compute requirements and memory bandwidth in the context of Edge AI. We delve into the historical progression of CNN architectures, from the early pioneering models to the current state-of-the-art designs, highlighting the advancements in compute-intensive operations. We examine the impact of increasing model complexity on both computational requirements and memory access patterns. The paper presents a comparison analysis of the evolving trade-off between compute demands and memory bandwidth requirements in CNNs. This analysis provides insights into designing efficient architectures and potential hardware accelerators in enhancing CNN performance on edge devices.
翻訳日:2024-01-15 15:48:49 公開日:2023-09-24
# グラフニューラルネットワークを用いたインテリジェントメッシュ平滑化手法の提案

Proposing an intelligent mesh smoothing method with graph neural networks ( http://arxiv.org/abs/2311.12815v1 )

ライセンス: Link先を確認
Zhichao Wang, Xinhai Chen, Junjun Yan, Jie Liu(参考訳) CFDでは、メッシュの平滑化法はメッシュの品質を改良し、高精度な数値シミュレーションを実現するために一般的に用いられている。 具体的には、最適化ベースの平滑化は高品質なメッシュ平滑化に使用されるが、大きな計算オーバーヘッドが発生する。 Pioneerは、教師付き学習を採用して、高品質なメッシュからスムーズな方法を学ぶことで、スムーズな効率を改善する。 しかし、メッシュノードを様々な程度に平滑化することは困難であり、ノードの入力シーケンス問題に対処するためにデータ拡張が必要である。 さらに,ラベル付き高品質メッシュは,提案手法の適用性をさらに制限する。 本稿では,インテリジェントメッシュ平滑化のための軽量ニューラルネットワークモデルであるGMSNetを提案する。 gmsnetはグラフニューラルネットワークを採用し、隣接ノードの特徴を抽出し、最適なノード位置を出力する。 また, 平滑化時にGMSNetが負の体積要素を発生させないよう耐故障機構を導入する。 軽量モデルでは、gmsnetはさまざまな程度でメッシュノードを効果的に平滑化することができ、入力データの順序に影響されない。 新たな損失関数MetricLossも、トレーニング中に安定かつ迅速な収束を提供する高品質メッシュの必要性を排除するために開発された。 GMSNetと2次元三角形メッシュのメッシュ平滑化法を比較した。 実験の結果,gmsnetは,前モデルより5%のモデルパラメータでメッシュ平滑化性能が向上し,最適化に基づく平滑化よりも8.62倍高速になった。

In CFD, mesh smoothing methods are commonly utilized to refine the mesh quality to achieve high-precision numerical simulations. Specifically, optimization-based smoothing is used for high-quality mesh smoothing, but it incurs significant computational overhead. Pioneer works improve its smoothing efficiency by adopting supervised learning to learn smoothing methods from high-quality meshes. However, they pose difficulty in smoothing the mesh nodes with varying degrees and also need data augmentation to address the node input sequence problem. Additionally, the required labeled high-quality meshes further limit the applicability of the proposed method. In this paper, we present GMSNet, a lightweight neural network model for intelligent mesh smoothing. GMSNet adopts graph neural networks to extract features of the node's neighbors and output the optimal node position. During smoothing, we also introduce a fault-tolerance mechanism to prevent GMSNet from generating negative volume elements. With a lightweight model, GMSNet can effectively smoothing mesh nodes with varying degrees and remain unaffected by the order of input data. A novel loss function, MetricLoss, is also developed to eliminate the need for high-quality meshes, which provides a stable and rapid convergence during training. We compare GMSNet with commonly used mesh smoothing methods on two-dimensional triangle meshes. The experimental results show that GMSNet achieves outstanding mesh smoothing performances with 5% model parameters of the previous model, and attains 8.62 times faster than optimization-based smoothing.
翻訳日:2024-01-15 15:48:36 公開日:2023-09-24
# 特異な鎖をサンプリングするためのマニフォールドパスガイド

Manifold Path Guiding for Importance Sampling Specular Chains ( http://arxiv.org/abs/2311.12818v1 )

ライセンス: Link先を確認
Zhimin Fan, Pengpei Hong, Jie Guo, Changqing Zou, Yanwen Guo, Ling-Qi Yan(参考訳) 因果関係のような複雑な視覚効果は、モンテカルロのレンダリングにおいて不偏推定に挑戦する複数の連続した特異頂点を含む光経路によってしばしば生じる。 本研究では,特異鎖と2つの非特異分離子からなるサブパス内の光移動挙動について検討する。 すべての部分パスによって形成される鏡面多様体は、部分パス間のコヒーレンスを提供するために活用できることを示した。 歴史的およびコヒーレントなサブパスから連続的なエネルギー分布を再構成することにより、シード鎖は重要サンプリングの文脈で生成され、多様体ウォークを通じて許容鎖に収束する。 連続空間におけるシード鎖のサンプリングの重要性が、離散許容特異鎖のサンプリングの重要性の目標に達することを検証した。 これらの観測と理論解析に基づいて、長い特異な鎖を特徴とするサンプル挑戦経路を重要視するために、プログレッシブパイプライン、多様体経路案内器を設計、実装する。 我々の知る限りでは、これは正則モンテカルロレンダリングにおいて離散特異鎖をサンプリングする重要性を示す最初の一般的なフレームワークである。 広範にわたる実験により,本手法は最大40倍の分散低減を伴い,最先端の非偏差解よりも優れており,特に長鎖と複雑な視認性を有する典型的場面では顕著である。

Complex visual effects such as caustics are often produced by light paths containing multiple consecutive specular vertices (dubbed specular chains), which pose a challenge to unbiased estimation in Monte Carlo rendering. In this work, we study the light transport behavior within a sub-path that is comprised of a specular chain and two non-specular separators. We show that the specular manifolds formed by all the sub-paths could be exploited to provide coherence among sub-paths. By reconstructing continuous energy distributions from historical and coherent sub-paths, seed chains can be generated in the context of importance sampling and converge to admissible chains through manifold walks. We verify that importance sampling the seed chain in the continuous space reaches the goal of importance sampling the discrete admissible specular chain. Based on these observations and theoretical analyses, a progressive pipeline, manifold path guiding, is designed and implemented to importance sample challenging paths featuring long specular chains. To our best knowledge, this is the first general framework for importance sampling discrete specular chains in regular Monte Carlo rendering. Extensive experiments demonstrate that our method outperforms state-of-the-art unbiased solutions with up to 40x variance reduction, especially in typical scenes containing long specular chains and complex visibility.
翻訳日:2024-01-15 15:32:10 公開日:2023-09-24
# Process Mining $\unicode{x2013}$ A Systematic Literature Review によるロボットプロセスの自動化

Robotic Process Automation Using Process Mining $\unicode{x2013}$ A Systematic Literature Review ( http://arxiv.org/abs/2204.00751v2 )

ライセンス: Link先を確認
Najah Mary El-Gharib and Daniel Amyot(参考訳) プロセスマイニング(pm)は、イベントログから、組織プロセスの発見、自動化、改善、監視を支援するプロセスマップを構築することを目的としている。 ロボットプロセス自動化(rpa)は、ソフトウェアロボットを使用して、通常人間が実行するタスクを実行する。 特にRPAでは、どのプロセスとステップを自動化するかを決定するのは通常困難です。 PMはそのような困難に対処する方法の1つと見なされている。 本稿では,rpa実施の加速と改善におけるプロセスマイニングの適用性と,プロジェクトライフサイクルを通じて発生する課題について評価することを目的とする。 ソフトウェアロボットで自動化できるas-isプロセスを理解するためにpm技術を用いたアプローチを検討するため、体系的な文献レビューを行った。 このトピックに関する論文を識別するために7つのデータベースが使用された。 合計32の論文が2018年以降に出版され、605のユニークな候補論文から選ばれ、分析された。 この領域における出版物の数は着実に増加しており、特に2022年にはPMとRPAの併用への関心が高まっている。 文献は主に、アプリケーションとのユーザインタラクションのレベルで発生するイベントを記録する方法と、自動化可能なステップでルーチンを発見するのに必要な事前処理方法に焦点を当てている。 このようなイベントログの事前処理において重要な課題が直面しており、自動化プロジェクトのライフサイクルステップの多くは、さらなる注意を要する研究領域を示唆する既存のアプローチによって弱い支持を受けている。

Process mining (PM) aims to construct, from event logs, process maps that can help discover, automate, improve, and monitor organizational processes. Robotic process automation (RPA) uses software robots to perform some tasks usually executed by humans. It is usually difficult to determine what processes and steps to automate, especially with RPA. PM is seen as one way to address such difficulty. This paper aims to assess the applicability of process mining in accelerating and improving the implementation of RPA, along with the challenges encountered throughout project lifecycle. A systematic literature review was conducted to examine the approaches where PM techniques were used to understand the as-is processes that can be automated with software robots. Seven databases were used to identify papers on this topic. A total of 32 papers, all published since 2018, were selected from 605 unique candidate papers and then analyzed. There is a steady increase in the number of publications in this domain, especially during the year 2022, which suggests a raising interest in the combined use of PM with RPA. The literature mainly focuses on the methods to record the events that occur at the level of user interactions with the application, and on the preprocessing methods that are needed to discover routines with the steps that can be automated. Important challenges are faced with preprocessing such event logs, and many lifecycle steps of automation projects are weakly supported by existing approaches suggesting corresponding research areas in need of further attention.
翻訳日:2023-10-24 15:39:59 公開日:2023-09-24
# 常にニッチで信頼し、時には間違っている」: 生成型AIチャットボットを人間力のQ&Aプラットフォームに導入した開発者の経験

"Always Nice and Confident, Sometimes wrong": Developer's Experiences Engaging Generative AI Chatbots Versus Human-Powered Q&A Platforms ( http://arxiv.org/abs/2309.13684v1 )

ライセンス: Link先を確認
Jiachen Li, Elizabeth Mynatt, Varun Mishra, Jonathan Bell(参考訳) ソフトウェアエンジニアは歴史的に、コーディング支援としてstack overflow(so)のような人力q&aプラットフォームに依存してきた。 生成AIの台頭により、開発者はソフトウェア開発プロセスにChatGPTのようなAIチャットボットを採用した。 人間によるQ&AプラットフォームとAIによる質問ベースのチャットボットの潜在的な類似性を認識し、Reddit投稿のテーマ分析を行うことで、開発者がこのアシストを現実のコーディング体験に統合する方法を調べ、比較する。 soとchatgptの比較研究を通じて,各プラットフォームの強み,ユースケース,バリアを特定した。 以上の結果から,ChatGPTは高速で明瞭で包括的な応答を提供し,SOよりも優美な環境を育むことが示唆された。 しかし、ChatGPTの信頼性に関する懸念は、その過度な自信とSOの投票システムのような検証メカニズムの欠如に起因する。 これらの調査結果に基づいて、私たちは各プラットフォームのユニークな機能を活用して、将来的な開発者エクスペリエンスを改善することを推奨します。

Software engineers have historically relied on human-powered Q&A platforms, like Stack Overflow (SO), as coding aids. With the rise of generative AI, developers have adopted AI chatbots, such as ChatGPT, in their software development process. Recognizing the potential parallels between human-powered Q&A platforms and AI-powered question-based chatbots, we investigate and compare how developers integrate this assistance into their real-world coding experiences by conducting thematic analysis of Reddit posts. Through a comparative study of SO and ChatGPT, we identified each platform's strengths, use cases, and barriers. Our findings suggest that ChatGPT offers fast, clear, comprehensive responses and fosters a more respectful environment than SO. However, concerns about ChatGPT's reliability stem from its overly confident tone and the absence of validation mechanisms like SO's voting system. Based on these findings, we recommend leveraging each platform's unique features to improve developer experiences in the future.
翻訳日:2023-10-23 06:26:20 公開日:2023-09-24
# テストスクリプトの生成と移行のためのllm - 課題、能力、機会

LLM for Test Script Generation and Migration: Challenges, Capabilities, and Opportunities ( http://arxiv.org/abs/2309.13574v1 )

ライセンス: Link先を確認
Shengcheng Yu, Chunrong Fang, Yuchen Ling, Chentian Wu, Zhenyu Chen(参考訳) 本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。 テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。 しかし、既存の世代のアプローチは、様々なデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。 これらの課題は、画面サイズ、入力モダリティ、プラットフォームの振る舞い、APIの不整合、アプリケーションアーキテクチャの違いによって生じる。 これらの制限を克服することは、堅牢で包括的なテスト自動化を達成する上で非常に重要です。 LLMの機能を活用することで、これらの課題に対処し、テスト自動化のための汎用ツールとしての可能性を探ることを目指している。 LLMがテストスクリプトを正確にキャプチャし、生成しながら、多様なデバイスやシステムにどの程度適応できるかを検討する。 さらに,オペレーティングシステムのバリエーションやプラットフォーム固有の振る舞いを扱う能力を評価することにより,そのクロスプラットフォーム生成能力を評価する。 さらに,既存のスクリプトに基づいて,さまざまなアプリケーションやソフトウェア環境にまたがってテストスクリプトを生成するクロスアプリケーション移行におけるllmの適用について検討する。 調査を通じて,さまざまなユーザインターフェース,アプリアーキテクチャ,インタラクションパターンへの適応性を解析し,スクリプト生成と互換性の保証を行う。 本研究の成果は,テスト自動化におけるLLMの能力の理解に寄与する。 究極的には、この研究はソフトウェアテストのプラクティスを強化することを目的としており、アプリ開発者がより高いレベルのソフトウェア品質と開発効率を達成できるようにする。

This paper investigates the application of large language models (LLM) in the domain of mobile application test script generation. Test script generation is a vital component of software testing, enabling efficient and reliable automation of repetitive test tasks. However, existing generation approaches often encounter limitations, such as difficulties in accurately capturing and reproducing test scripts across diverse devices, platforms, and applications. These challenges arise due to differences in screen sizes, input modalities, platform behaviors, API inconsistencies, and application architectures. Overcoming these limitations is crucial for achieving robust and comprehensive test automation. By leveraging the capabilities of LLMs, we aim to address these challenges and explore its potential as a versatile tool for test automation. We investigate how well LLMs can adapt to diverse devices and systems while accurately capturing and generating test scripts. Additionally, we evaluate its cross-platform generation capabilities by assessing its ability to handle operating system variations and platform-specific behaviors. Furthermore, we explore the application of LLMs in cross-app migration, where it generates test scripts across different applications and software environments based on existing scripts. Throughout the investigation, we analyze its adaptability to various user interfaces, app architectures, and interaction patterns, ensuring accurate script generation and compatibility. The findings of this research contribute to the understanding of LLMs' capabilities in test automation. Ultimately, this research aims to enhance software testing practices, empowering app developers to achieve higher levels of software quality and development efficiency.
翻訳日:2023-10-23 06:26:01 公開日:2023-09-24
# ビデオレコメンデーションにおけるロバストなマルチArmed Banditフレームワークの設計原理

Design Principles of Robust Multi-Armed Bandit Framework in Video Recommendations ( http://arxiv.org/abs/2310.01419v1 )

ライセンス: Link先を確認
Belhassen Bayar, Phanideep Gampa, Ainur Yessenalina, Zhen Wen(参考訳) 現在、レコメンデーションシステム(RS)におけるマルチアームバンディットアプローチは、効率的な探索手法の考案に重点を置いているが、分布の変化やアイテムの共食いに関する一般的な搾取課題には十分に対処していない。 RSにおけるこれらの頻繁な課題に対処できる堅牢なバンディットフレームワークの設計をガイドする作業はほとんどない。 本稿では,新しい設計原則を提案する。 (i)帯域モデルを時変メタデータ信号に対して堅牢にする。 (ii)食品の共食いが少ないこと、及び (iii)データスパーシティによる体重変動を防止する。 一連の実験を通じて,いくつかの重要なバンディット設計選択の影響を体系的に検討した。 我々は,バンディットモデルを動的動作変化に頑健なものにするための設計原則の利点を,詳細な分析を通じて実証する。 特に, ROC-AUC と PR-AUC では, 設計選択の最大 $11.88\% と 444.85\% を含まないベースラインバンディットモデルと比較して, 相対的な利得が向上した。 特定の人気タイトルや不人気タイトルを推薦する際の公正性に関するケーススタディを提示し,人気バイアスに対処する上で,提案したデザインの堅牢性を示す。

Current multi-armed bandit approaches in recommender systems (RS) have focused more on devising effective exploration techniques, while not adequately addressing common exploitation challenges related to distributional changes and item cannibalization. Little work exists to guide the design of robust bandit frameworks that can address these frequent challenges in RS. In this paper, we propose a new design principles to (i) make bandit models robust to time-variant metadata signals, (ii) less prone to item cannibalization, and (iii) prevent their weights fluctuating due to data sparsity. Through a series of experiments, we systematically examine the influence of several important bandit design choices. We demonstrate the advantage of our proposed design principles at making bandit models robust to dynamic behavioral changes through in-depth analyses. Noticeably, we show improved relative gain compared to a baseline bandit model not incorporating our design choices of up to $11.88\%$ and $44.85\%$, respectively in ROC-AUC and PR-AUC. Case studies about fairness in recommending specific popular and unpopular titles are presented, to demonstrate the robustness of our proposed design at addressing popularity biases.
翻訳日:2023-10-23 05:18:13 公開日:2023-09-24
# MRIを用いた脳腫瘍分類における転写学習の比較検討

Comparative Evaluation of Transfer Learning for Classification of Brain Tumor Using MRI ( http://arxiv.org/abs/2310.02270v1 )

ライセンス: Link先を確認
Abu Kaisar Mohammad Masum, Nusrat Badhon, S.M. Saiful Islam Badhon, Nushrat Jahan Ria, Sheikh Abujar, Muntaser Mansur Syed, and Naveed Mahmud(参考訳) 脳とその周辺組織における細胞の異常増殖は、脳腫瘍として知られている。 2つのタイプがあり、1つは良性(非悪性)、もう1つは悪性(無悪性)で死を引き起こす。 放射線医が悪性腫瘍を診断する能力はMRI(MRI)によって大いに助けられている。 脳がんの診断は、特に機械学習やディープラーニングにおいて、コンピュータ支援診断の分野によって大幅に速められている。 本研究では,4つのトランスファー学習手法を用いて3種類の脳腫瘍を分類した。 私たちのモデルは、3種類の脳がんを表す3064ドルのMRI画像のベンチマークデータセットでテストされました。 特にResNet-50は99.06\%の精度で他のモデルより優れていた。 拡張手法を使わずに精度を向上させるためのバランスデータセットの重要性を強調した。 さらに,本手法を実験的に検証し,F1スコア,AUC,精度,リコールなどの評価を用いてCE-MRIデータセット上の他の分類アルゴリズムと比較した。

Abnormal growth of cells in the brain and its surrounding tissues is known as a brain tumor. There are two types, one is benign (non-cancerous) and another is malignant (cancerous) which may cause death. The radiologists' ability to diagnose malignancies is greatly aided by magnetic resonance imaging (MRI). Brain cancer diagnosis has been considerably expedited by the field of computer-assisted diagnostics, especially in machine learning and deep learning. In our study, we categorize three different kinds of brain tumors using four transfer learning techniques. Our models were tested on a benchmark dataset of $3064$ MRI pictures representing three different forms of brain cancer. Notably, ResNet-50 outperformed other models with a remarkable accuracy of $99.06\%$. We stress the significance of a balanced dataset for improving accuracy without the use of augmentation methods. Additionally, we experimentally demonstrate our method and compare with other classification algorithms on the CE-MRI dataset using evaluations like F1-score, AUC, precision and recall.
翻訳日:2023-10-23 04:56:26 公開日:2023-09-24
# 構造対応レコメンデーションインベディング進化のためのグラフ付最適化器

Graph-enhanced Optimizers for Structure-aware Recommendation Embedding Evolution ( http://arxiv.org/abs/2310.03032v1 )

ライセンス: Link先を確認
Cong Xu, Jun Wang, Jianyong Wang, Wei Zhang(参考訳) 組込みは、現実世界の実体の仮想表現であり、その後の決定モデルの基礎であるため、現代のレコメンデーションシステムにおいて重要な役割を果たす。 本稿では,新しい組込み更新機構である structure-aware embedded evolution (sevo) を提案する。 通常、中間部として機能するGNN(Graph Neural Network)とは異なり、SEvoはグラフ構造情報を直接注入して、トレーニングにおいて無視できる計算オーバーヘッドを埋め込むことができる。 sevoの収束特性とその可能な変種は理論的に解析され、設計の有効性が正当化される。 さらに、SEvoは最先端のパフォーマンスのために既存のオプティマイザにシームレスに統合できる。 特に、モーメント推定補正を施したSevo強化AdamWは、モデルとデータセットの範囲で一貫した改善を示し、明示的なGNNモジュールを超えてグラフ構造情報を効果的に活用するための新たな技術ルートを示唆している。

Embedding plays a critical role in modern recommender systems because they are virtual representations of real-world entities and the foundation for subsequent decision models. In this paper, we propose a novel embedding update mechanism, Structure-aware Embedding Evolution (SEvo for short), to encourage related nodes to evolve similarly at each step. Unlike GNN (Graph Neural Network) that typically serves as an intermediate part, SEvo is able to directly inject the graph structure information into embedding with negligible computational overhead in training. The convergence properties of SEvo as well as its possible variants are theoretically analyzed to justify the validity of the designs. Moreover, SEvo can be seamlessly integrated into existing optimizers for state-of-the-art performance. In particular, SEvo-enhanced AdamW with moment estimate correction demonstrates consistent improvements across a spectrum of models and datasets, suggesting a novel technical route to effectively utilize graph structure information beyond explicit GNN modules.
翻訳日:2023-10-23 04:46:00 公開日:2023-09-24
# Google Colabと互換性のある2次元過渡問題のための物理情報ニューラルネットワークコード(PINN-2DT)

Physics Informed Neural Network Code for 2D Transient Problems (PINN-2DT) Compatible with Google Colab ( http://arxiv.org/abs/2310.03755v1 )

ライセンス: Link先を確認
Pawe{\l} Maczuga, Maciej Skocze\'n, Przemys{\l}aw Ro\.znawski, Filip T{\l}uszcz, Marcin Szubert, Marcin {\L}o\'s, Witold Dzwinel, Keshav Pingali, Maciej Paszy\'nski(参考訳) We present an open-source Physics Informed Neural Network environment for simulations of transient phenomena on two-dimensional rectangular domains, with the following features: (1) it is compatible with Google Colab which allows automatic execution on cloud environment; (2) it supports two dimensional time-dependent PDEs; (3) it provides simple interface for definition of the residual loss, boundary condition and initial loss, together with their weights; (4) it support Neumann and Dirichlet boundary conditions; (5) it allows for customizing the number of layers and neurons per layer, as well as for arbitrary activation function; (6) the learning rate and number of epochs are available as parameters; (7) it automatically differentiates PINN with respect to spatial and temporal variables; (8) it provides routines for plotting the convergence (with running average), initial conditions learnt, 2D and 3D snapshots from the simulation and movies (9) it includes a library of problems: (a)非定常熱伝達 (b)津波をモデル化する波動方程式 (c)熱インバージョンを含む大気シミュレーション (d)腫瘍増殖シミュレーション。

We present an open-source Physics Informed Neural Network environment for simulations of transient phenomena on two-dimensional rectangular domains, with the following features: (1) it is compatible with Google Colab which allows automatic execution on cloud environment; (2) it supports two dimensional time-dependent PDEs; (3) it provides simple interface for definition of the residual loss, boundary condition and initial loss, together with their weights; (4) it support Neumann and Dirichlet boundary conditions; (5) it allows for customizing the number of layers and neurons per layer, as well as for arbitrary activation function; (6) the learning rate and number of epochs are available as parameters; (7) it automatically differentiates PINN with respect to spatial and temporal variables; (8) it provides routines for plotting the convergence (with running average), initial conditions learnt, 2D and 3D snapshots from the simulation and movies (9) it includes a library of problems: (a) non-stationary heat transfer; (b) wave equation modeling a tsunami; (c) atmospheric simulations including thermal inversion; (d) tumor growth simulations.
翻訳日:2023-10-23 04:23:13 公開日:2023-09-24
# Smart OMVI: 新しいデータセットを用いた難読マルウェアの同定

Smart OMVI: Obfuscated Malware Variant Identification using a novel dataset ( http://arxiv.org/abs/2310.10670v1 )

ライセンス: Link先を確認
Suleman Qamar(参考訳) サイバーセキュリティは、日々のコンピュータ使用の増加により、デジタル時代において重要な問題となっている。 サイバー犯罪者は現在、ウイルスの配布やコンピューターハッキング以上の活動を行っている。 サイバーウォーフェアは国家の生存の脅威となったため発展してきた。 マルウェア分析は、攻撃に対する防御の第一線であり、サイバー犯罪の重要な構成要素である。 毎日、マルウェア攻撃は大量のコンピュータユーザー、企業、政府機関を標的にしており、数十億ドルの損失をもたらしている。 マルウェアが複数のAVソフトウェアを避けるには、セキュリティの専門家がそれを識別するためのさまざまなツールを持っているにもかかわらず、設計者による微妙な手直しが必要だ。 この課題に対処するため、Obfuscated Malware Dataset (OMD)と呼ばれる新しいデータセットが開発された。 このデータセットは、21924のサンプルを持つ40の異なるマルウェアファミリーで構成されており、マルウェア作成者がマルウェアのバリエーションを元のサンプルとは異なるものにするための戦略を模倣する難読化技術が組み込まれている。 このデータセットの目的は、マルウェア分析技術の有効性を評価するためのよりリアルで代表的な環境を提供することである。 Support Vector Machine(SVM)、Random Forrest(RF)、Extreme Gradient Boosting(XGBOOST)など、従来の機械学習アルゴリズムが適用され、対比される。 その結果、xgboostは他のアルゴリズムよりも優れており、精度はf82%、精度88%、リコール80%、f1-scoreは83%であった。

Cybersecurity has become a significant issue in the digital era as a result of the growth in everyday computer use. Cybercriminals now engage in more than virus distribution and computer hacking. Cyberwarfare has developed as a result because it has become a threat to a nation's survival. Malware analysis serves as the first line of defence against an attack and is a significant component of cybercrime. Every day, malware attacks target a large number of computer users, businesses, and governmental agencies, causing billions of dollars in losses. Malware may evade multiple AV software with a very minor, cunning tweak made by its designers, despite the fact that security experts have a variety of tools at their disposal to identify it. To address this challenge, a new dataset called the Obfuscated Malware Dataset (OMD) has been developed. This dataset comprises 40 distinct malware families having 21924 samples, and it incorporates obfuscation techniques that mimic the strategies employed by malware creators to make their malware variations different from the original samples. The purpose of this dataset is to provide a more realistic and representative environment for evaluating the effectiveness of malware analysis techniques. Different conventional machine learning algorithms including but not limited to Support Vector Machine (SVM), Random Forrest (RF), Extreme Gradient Boosting (XGBOOST) etc are applied and contrasted. The results demonstrated that XGBoost outperformed the other algorithms, achieving an accuracy of f 82%, precision of 88%, recall of 80%, and an F1-Score of 83%.
翻訳日:2023-10-23 02:19:44 公開日:2023-09-24
# 自己・横断的注意機構を有するコマトーデス患者の神経予後不良に対する多チャンネル脳波データ解析

A Multi-channel EEG Data Analysis for Poor Neuro-prognostication in Comatose Patients with Self and Cross-channel Attention Mechanism ( http://arxiv.org/abs/2310.03756v1 )

ライセンス: Link先を確認
Hemin Ali Qadir, Naimahmed Nesaragi, Per Steiner Halvorsen, Ilangko Balasingham(参考訳) 両極性脳波(bipolar electroencephalogram:eeg)記録の予後不良の効率的な予測に向けての予測可能性について検討した。 ハイブリッド・ディープ・ラーニング・アプローチを用いた振り返り設計を用いて,高い特異性,すなわち偽陽性を低減した真の正率(TPR)を目標とする目的関数を最適化する(0.05)。 ランダムに選択された5分セグメントから18対のバイポーラチャネルペアからなるマルチチャネルEEGアレイを1時間で保持する。 結果予測を決定するために、特徴エンコーダと1次元畳み込み層の組み合わせ、学習可能な位置符号化、注意機構を備えたコンテキストネットワーク、最後に回帰器と分類器ブロックを使用する。 特徴エンコーダは局所的時間的特徴と空間的特徴を拡張し、次の位置エンコーディングとアテンション機構はグローバルな時間的依存関係を捕捉しようとする。 結果: 我々のチームによる提案したフレームワークであるOUS IVSは,隠れた検証データを検証した結果,0.57のスコアを示した。

This work investigates the predictive potential of bipolar electroencephalogram (EEG) recordings towards efficient prediction of poor neurological outcomes. A retrospective design using a hybrid deep learning approach is utilized to optimize an objective function aiming for high specificity, i.e., true positive rate (TPR) with reduced false positives (< 0.05). A multi-channel EEG array of 18 bipolar channel pairs from a randomly selected 5-minute segment in an hour is kept. In order to determine the outcome prediction, a combination of a feature encoder with 1-D convolutional layers, learnable position encoding, a context network with attention mechanisms, and finally, a regressor and classifier blocks are used. The feature encoder extricates local temporal and spatial features, while the following position encoding and attention mechanisms attempt to capture global temporal dependencies. Results: The proposed framework by our team, OUS IVS, when validated on the challenge hidden validation data, exhibited a score of 0.57.
翻訳日:2023-10-15 14:59:38 公開日:2023-09-24
# 深層学習による3次元CO$2$Plumesモニタリングのための時空表面重力と地震データの共同インバージョン

Joint inversion of Time-Lapse Surface Gravity and Seismic Data for Monitoring of 3D CO$_2$ Plumes via Deep Learning ( http://arxiv.org/abs/2310.04430v1 )

ライセンス: Link先を確認
Adrian Celaya, Mauricio Araya-Polo(参考訳) 本研究では,3次元深層学習に基づく時間経過表面重力と地震探査データの統合インバージョンによる地下密度・速度モデル再構成手法を提案する。 提案手法の目的は,CO2の隔離配置を監視するための補完ツールとして,地下CO2プラムの予測である。 我々の共同インバージョン技術は, 深層学習に基づく重力のみおよび地震のみのインバージョンモデルより優れ, 密度と速度の再構築, 正確なセグメンテーション, 高いR二乗係数を実現している。 これらの結果から,深層学習による関節逆転はCO$2$ストレージモニタリングに有効なツールであることが示唆された。 今後の研究は、より大きなデータセットによるアプローチの検証、他の地質ストレージサイトによるシミュレーション、そして最終的にはフィールドデータに集中する。

We introduce a fully 3D, deep learning-based approach for the joint inversion of time-lapse surface gravity and seismic data for reconstructing subsurface density and velocity models. The target application of this proposed inversion approach is the prediction of subsurface CO2 plumes as a complementary tool for monitoring CO2 sequestration deployments. Our joint inversion technique outperforms deep learning-based gravity-only and seismic-only inversion models, achieving improved density and velocity reconstruction, accurate segmentation, and higher R-squared coefficients. These results indicate that deep learning-based joint inversion is an effective tool for CO$_2$ storage monitoring. Future work will focus on validating our approach with larger datasets, simulations with other geological storage sites, and ultimately field data.
翻訳日:2023-10-15 14:48:20 公開日:2023-09-24
# Cordyceps@LT-EDI:Redditによる抑うつ検出と自己学習

Cordyceps@LT-EDI: Depression Detection with Reddit and Self-training ( http://arxiv.org/abs/2310.01418v1 )

ライセンス: Link先を確認
Dean Ninalga(参考訳) うつ病は弱く、珍しいことではありません。 実際、過度のソーシャルメディア利用者の研究は、うつ病、ADHD、その他のメンタルヘルスの懸念と相関している。 ソーシャルメディアの利用が過度に多い人が多いことを考えると、潜在的に診断されていないユーザーや投稿の数がかなりの数を占めている。 本稿では,重度,中等度,低(非診断的)なうつ病を経験しているユーザからの投稿を予測するために,半教師付き学習技術を用いたうつ病重症度検出システムを提案する。 つまり、訓練されたモデルを使ってredditから大量の未表示のソーシャルメディア投稿を分類し、生成されたラベルを使ってより強力な分類器を訓練します。 我々は,ソーシャルメディアからうつ病の兆候を検出するためのフレームワークであるtextlt-edi@ranlp 2023共有タスクを示す。

Depression is debilitating, and not uncommon. Indeed, studies of excessive social media users show correlations with depression, ADHD, and other mental health concerns. Given that there is a large number of people with excessive social media usage, then there is a significant population of potentially undiagnosed users and posts that they create. In this paper, we propose a depression severity detection system using a semi-supervised learning technique to predict if a post is from a user who is experiencing severe, moderate, or low (non-diagnostic) levels of depression. Namely, we use a trained model to classify a large number of unlabelled social media posts from Reddit, then use these generated labels to train a more powerful classifier. We demonstrate our framework on Detecting Signs of Depression from Social Media Text - LT-EDI@RANLP 2023 shared task, where our framework ranks 3rd overall.
翻訳日:2023-10-08 11:08:19 公開日:2023-09-24
# dpa-wno:確率力学問題のクラスのためのグレーボックスモデル

DPA-WNO: A gray box model for a class of stochastic mechanics problem ( http://arxiv.org/abs/2309.15128v1 )

ライセンス: Link先を確認
Tushar and Souvik Chakraborty(参考訳) 科学と工学におけるよく知られた支配物理学は、しばしばある仮定と近似に基づいている。 したがって、これらの方程式に基づく解析や設計も近似である。 データ駆動モデルの出現は、ある程度この課題に対処しているが、純粋にデータ駆動モデルはしばしば対処している。 a)解釈可能性の欠如 (b)データ格納であり、 (c) トレーニングウィンドウ以外は一般化しない。 オペレータ学習は、最近、上記の課題に対処する潜在的な代替案として提案されているが、課題はまだ持続的である。 ここでは、可能な解決策の1つは、データ駆動モデルを使用して、欠落した物理を修正・特定するデータ物理融合にあると論じる。 そこで我々は,新しい微分可能物理拡張ウェーブレットニューラル演算子(DPA-WNO)を提案する。 提案したDPA-WNOは、異なる物理解法とウェーブレットニューラル演算子(WNO)をブレンドし、WNOの役割は、欠落した物理をモデル化することである。 これにより、物理学ベースの解法に関連する解釈可能性と一般化性を保ちながら、データから学習するwnoの能力を活用できるフレームワークが提案されている。 初期条件におけるランダム性に起因する時間依存不確かさの定量化問題に対する提案手法の適用性を示す。 提案手法を用いて, 各種科学・工学分野の4つのベンチマーク不確実性定量化および信頼性解析例を解く。 結果は

The well-known governing physics in science and engineering is often based on certain assumptions and approximations. Therefore, analyses and designs carried out based on these equations are also approximate. The emergence of data-driven models has, to a certain degree, addressed this challenge; however, the purely data-driven models often (a) lack interpretability, (b) are data-hungry, and (c) do not generalize beyond the training window. Operator learning has recently been proposed as a potential alternative to address the aforementioned challenges; however, the challenges are still persistent. We here argue that one of the possible solutions resides in data-physics fusion, where the data-driven model is used to correct/identify the missing physics. To that end, we propose a novel Differentiable Physics Augmented Wavelet Neural Operator (DPA-WNO). The proposed DPA-WNO blends a differentiable physics solver with the Wavelet Neural Operator (WNO), where the role of WNO is to model the missing physics. This empowers the proposed framework to exploit the capability of WNO to learn from data while retaining the interpretability and generalizability associated with physics-based solvers. We illustrate the applicability of the proposed approach in solving time-dependent uncertainty quantification problems due to randomness in the initial condition. Four benchmark uncertainty quantification and reliability analysis examples from various fields of science and engineering are solved using the proposed approach. The results presented
翻訳日:2023-09-28 18:28:47 公開日:2023-09-24
# Kmスケール大気下降の残留拡散モデル

Generative Residual Diffusion Modeling for Km-scale Atmospheric Downscaling ( http://arxiv.org/abs/2309.15214v1 )

ライセンス: Link先を確認
Morteza Mardani, Noah Brenowitz, Yair Cohen, Jaideep Pathak, Chieh-Yu Chen, Cheng-Chin Liu, Arash Vahdat, Karthik Kashinath, Jan Kautz, and Mike Pritchard(参考訳) 気象や気候から物理的ハザードを予測する技術は、より粗い解像度のグローバル入力によって駆動される高価なkmスケールの数値シミュレーションを必要とする。 ここでは、コスト効率の良い代替手段として、kmスケールダウンスケール拡散モデルを示す。 このモデルは台湾上空の高解像度気象モデルから訓練され、ERA5の再解析データに基づく。 ダウンスケールの不確実性、大解像度比(25km〜2km)、異なるスケールでの異なる物理量、入力データにないチャネルを予測するために、2段階のアプローチ(\textit{resdiff})を採用し、(不均一な)回帰が第1ステップの平均を予測し、拡散モデルが第2ステップの残差を予測する。 \textit{ResDiff} は RMSE と CRPS のスコアで励まされるスキルを示す。 ResDiffの予測スペクトルと分布は、風と雨の極端を規制する重要な電力法関係を忠実に回復する。 コヒーレント気象現象のケーススタディは、学習物理学を連想させる適切な多変量関係を示す。 これには、寒冷な前線で激しい降雨と共存する鋭い風と温度の変動、台風の眼壁を囲む極端な風と降雨帯が含まれる。 同時バイアス補正の証拠がいくつか発見されている。 運用上のグローバル予測モデルから直接ダウンスケールする最初の試みは、これらのメリットの多くを成功裏に維持する。 その意味するところは、完全にエンドツーエンドでグローバルな機械学習の天気予報の新しい時代が間近に迫っているということだ。

The state of the art for physical hazard prediction from weather and climate requires expensive km-scale numerical simulations driven by coarser resolution global inputs. Here, a km-scale downscaling diffusion model is presented as a cost effective alternative. The model is trained from a regional high-resolution weather model over Taiwan, and conditioned on ERA5 reanalysis data. To address the downscaling uncertainties, large resolution ratios (25km to 2km), different physics involved at different scales and predict channels that are not in the input data, we employ a two-step approach (\textit{ResDiff}) where a (UNet) regression predicts the mean in the first step and a diffusion model predicts the residual in the second step. \textit{ResDiff} exhibits encouraging skill in bulk RMSE and CRPS scores. The predicted spectra and distributions from ResDiff faithfully recover important power law relationships regulating damaging wind and rain extremes. Case studies of coherent weather phenomena reveal appropriate multivariate relationships reminiscent of learnt physics. This includes the sharp wind and temperature variations that co-locate with intense rainfall in a cold front, and the extreme winds and rainfall bands that surround the eyewall of typhoons. Some evidence of simultaneous bias correction is found. A first attempt at downscaling directly from an operational global forecast model successfully retains many of these benefits. The implication is that a new era of fully end-to-end, global-to-regional machine learning weather prediction is likely near at hand.
翻訳日:2023-09-28 18:00:02 公開日:2023-09-24
# Detlef D\"urr, arrival-time distributions, and spin in Bohmian mechanics: Personal Recollections and State-of-the-art

Detlef D\"urr, arrival-time distributions, and spin in Bohmian mechanics: Personal recollections and state-of-the-art ( http://arxiv.org/abs/2309.15815v1 )

ライセンス: Link先を確認
Siddhant Das(参考訳) I recount here my association with Prof. Detlef D\"urr leading to our memorable research collaboration on arrival-time distributions in quantum mechanics. He influenced my life, both personally and professionally, as few others have or ever will. Detlef is my role model for what a brilliant, discerning scientist, academic, and mentor can and should be. The "arrival-time problem" in quantum mechanics is examined selectively, with an emphasis on the arrival-time distributions of Bohmian particles. In what follows, the "exotic" Bohmian arrival-time distributions of spin-polarized electrons accelerating down a cylindrical waveguide [S. das と d. d\"urr, sci。 9:2242(2019)]及びいくつかのバリエーションについて論じる。 私は、重要な結果を綴り出すのに必要な以上の数学的処理には入らない。 その意図は、アイデアの基礎となる状況と動機を文書化することである。

I recount here my association with Prof. Detlef D\"urr leading to our memorable research collaboration on arrival-time distributions in quantum mechanics. He influenced my life, both personally and professionally, as few others have or ever will. Detlef is my role model for what a brilliant, discerning scientist, academic, and mentor can and should be. The "arrival-time problem" in quantum mechanics is examined selectively, with an emphasis on the arrival-time distributions of Bohmian particles. In what follows, the "exotic" Bohmian arrival-time distributions of spin-polarized electrons accelerating down a cylindrical waveguide [S. Das and D. D\"urr, Sci. Rep. 9: 2242 (2019)], and some variations thereof are discussed. I shall not go into the mathematical treatment more than is necessary to spell out the key results. The intention is to document the circumstances and motivations underlying the ideas.
翻訳日:2023-09-28 12:33:07 公開日:2023-09-24
# 量子波と地球物理波における位相指数公式の表出

Manifestation of the topological index formula in quantum waves and geophysical waves ( http://arxiv.org/abs/1901.10592v3 )

ライセンス: Link先を確認
Fr\'ed\'eric Faure(参考訳) 半古典的解析を $\mathbb{R}^{n}$ で用い、Atiyah-Singer のトポロジカル指数式は、クラスター(エネルギーバンド)間の有限個の固有値の遷移を伴うスペクトルフローを予測する、非常に一般的なモデルを示す。 このモデルは、小分子の量子エネルギーレベル(faure_zhilinskii_2000,2001)、海洋または大気赤道波(Matsuno_1966, Delplace_Marston_Venaille_2017)の物理物理学でよく観測され、プラズマ物理学(Qin, Fu 2022)で観測されると予想される物理現象に対応する。

Using semi-classical analysis in $\mathbb{R}^{n}$ we present a quite general model for which the topological index formula of Atiyah-Singer predicts a spectral flow with the transition of a finite number of eigenvalues between clusters (energy bands). This model corresponds to physical phenomena that are well observed for quantum energy levels of small molecules [faure_zhilinskii_2000,2001], also in geophysics for the oceanic or atmospheric equatorial waves [Matsuno_1966, Delplace_Marston_Venaille_2017] and expected to be observed in plasma physics [Qin, Fu 2022].
翻訳日:2023-09-27 20:59:54 公開日:2023-09-24
# 注意に基づくマルチモーダル画像マッチング

Attention-Based Multimodal Image Matching ( http://arxiv.org/abs/2103.11247v2 )

ライセンス: Link先を確認
Aviad Moreshet, Yosi Keller(参考訳) マルチスケールのシームズCNNの特徴マップに付随するTransformerエンコーダを用いたマルチモーダル画像パッチマッチングのためのアテンションベースアプローチを提案する。 マルチスケール画像埋め込みを効率よく集約し,タスク固有の外観不変画像キューを強調する。 また,エンコーダをバイパスする残差接続を用いたアテンション残差アーキテクチャも導入する。 この追加の学習信号は、エンドツーエンドのトレーニングをスクラッチから促進する。 提案手法は,マルチモーダルベンチマークと単一モーダリティベンチマークの両方において,その汎用性を示す新しい精度を実現するために実験的に示された。 我々の知る限り、これはTransformerエンコーダアーキテクチャをマルチモーダル画像パッチマッチングタスクに実装した最初の成功例である。

We propose an attention-based approach for multimodal image patch matching using a Transformer encoder attending to the feature maps of a multiscale Siamese CNN. Our encoder is shown to efficiently aggregate multiscale image embeddings while emphasizing task-specific appearance-invariant image cues. We also introduce an attention-residual architecture, using a residual connection bypassing the encoder. This additional learning signal facilitates end-to-end training from scratch. Our approach is experimentally shown to achieve new state-of-the-art accuracy on both multimodal and single modality benchmarks, illustrating its general applicability. To the best of our knowledge, this is the first successful implementation of the Transformer encoder architecture to the multimodal image patch matching task.
翻訳日:2023-09-27 18:45:18 公開日:2023-09-24
# ディジタル量子シミュレーションにおける物理法則上のランダム化項群

Randomized term grouping over physical law on digital quantum simulation ( http://arxiv.org/abs/2309.14378v1 )

ライセンス: Link先を確認
Songqinghao Yang(参考訳) 我々は、デジタル量子コンピュータ上でハミルトン力学を計算するために、qDriftに基づくランダム化アルゴリズムを導入する。 物理の保存法則は任意の量子状態の進化の過程で従うからである。 実験により,水素鎖モデルによるスペクトル誤差の低減を実現した。 ノイズモデルについても検討し,回路の深さを同じに保ち,非偏極誤差を無作為に印加したパウリゲートでシミュレートすることで,測定された期待値の減衰を固定する回路を特徴付ける。 これにより、現在のノイズの多いハードウェアの実装とテストが特に可能である。

We introduce a randomized algorithm based on qDrift to compute Hamiltonian dynamics on digital quantum computers. We frame it as physDrift because conservation laws in physics are obeyed during evolution of arbitrary quantum states. Empirically we achieved better spectral error reduction with hydrogen chain model compared to previous protocols. Noisy model are investigated as well and we characterised them in the circuit with different schemes, i.e. an attenuation of the measured expectation value is fixed by keeping the circuit depth the same and depolarising error is simulated with randomly applied Pauli gates. This makes it our proposal particularly feasible for implementing and testing on present-day noisy hardware.
翻訳日:2023-09-27 16:57:45 公開日:2023-09-24
# テキスト分類に基づく建物コードの機械解釈可能性の評価・向上手法

A Text Classification-Based Approach for Evaluating and Enhancing the Machine Interpretability of Building Codes ( http://arxiv.org/abs/2309.14374v1 )

ライセンス: Link先を確認
Zhe Zheng, Yu-Cheng Zhou, Ke-Yin Chen, Xin-Zheng Lu, Zhong-Tian She, Jia-Rui Lin(参考訳) 規制文書や建築コードをコンピュータ処理可能なフォーマットに解釈することは、建物やインフラのインテリジェントな設計と構築に不可欠である。 自動ルール解釈(ARI)法は長年研究されてきたが、そのほとんどは、ビルコードから解釈可能な節を早期かつ手動でフィルタリングすることに依存している。 コンピュータ処理可能なフォーマットに変換される可能性を表す機械解釈性は,文節レベルと文書レベルの両方から考えられたものはほとんどない。 そこで本研究では,単一節と構築コードの機械解釈性を自動的に評価し,拡張するための新しい手法を提案する。 まず、ルール解釈の要件を考慮したビルディングコードの各節を分類するためにいくつかのカテゴリを導入し、モデルトレーニング用のデータセットを開発する。 そして、事前学習されたドメイン固有言語モデルと転送学習技術に基づいて、効率的なテキスト分類モデルを構築する。 最後に, 建築コード全体の解釈可能性を評価するための定量的評価手法を提案する。 実験の結果、提案したテキスト分類アルゴリズムは既存のCNN法やRNN法よりも優れており、F1スコアは72.16%から93.60%に向上した。 また, 提案手法により, 下流ARI法を4%改善できることを示した。 さらに、中国の150以上の建築コードの結果から、その平均解釈性は34.40%であり、規制文書全体をコンピュータ処理可能なフォーマットに完全に変換することは依然として困難であることが示された。 また、人間の側と機械側の両方から、コード構築の解釈可能性をさらに改善すべきだとも主張されている。

Interpreting regulatory documents or building codes into computer-processable formats is essential for the intelligent design and construction of buildings and infrastructures. Although automated rule interpretation (ARI) methods have been investigated for years, most of them highly depend on the early and manual filtering of interpretable clauses from a building code. While few of them considered machine interpretability, which represents the potential to be transformed into a computer-processable format, from both clause- and document-level. Therefore, this research aims to propose a novel approach to automatically evaluate and enhance the machine interpretability of single clause and building codes. First, a few categories are introduced to classify each clause in a building code considering the requirements for rule interpretation, and a dataset is developed for model training. Then, an efficient text classification model is developed based on a pretrained domain-specific language model and transfer learning techniques. Finally, a quantitative evaluation method is proposed to assess the overall interpretability of building codes. Experiments show that the proposed text classification algorithm outperforms the existing CNN- or RNN-based methods, improving the F1-score from 72.16% to 93.60%. It is also illustrated that the proposed classification method can enhance downstream ARI methods with an improvement of 4%. Furthermore, analyzing the results of more than 150 building codes in China showed that their average interpretability is 34.40%, which implies that it is still hard to fully transform the entire regulatory document into computer-processable formats. It is also argued that the interpretability of building codes should be further improved both from the human side and the machine side.
翻訳日:2023-09-27 16:57:32 公開日:2023-09-24
# 人間の転写品質の改善

Human Transcription Quality Improvement ( http://arxiv.org/abs/2309.14372v1 )

ライセンス: Link先を確認
Jian Gao, Hanbo Sun, Cheng Cao, Zheng Du(参考訳) 高品質な転写データは自動音声認識(ASR)システムの訓練に不可欠である。 しかし、既存の業界レベルのデータ収集パイプラインは研究者にとって高価であり、クラウドソースによる書き起こしの品質は低い。 本稿では,音声の書き起こしを確実に収集する手法を提案する。 本稿では,ラベリング段階における信頼度推定に基づく再処理と,ポストラベル段階における自動単語誤り訂正という2つの手法を提案する。 LibriCrowd - 大規模なクラウドソースによる、100時間の英語音声の音声書き起こしデータセット。 実験では、転写WERは50%以上削減されている。 さらに,書き起こし誤りがASRモデルの性能に及ぼす影響について検討し,強い相関関係を見出した。 転写品質の改善は、ASRモデルに対して10%以上の相対的なWER削減をもたらす。 研究コミュニティのためにデータセットとコードを公開しています。

High quality transcription data is crucial for training automatic speech recognition (ASR) systems. However, the existing industry-level data collection pipelines are expensive to researchers, while the quality of crowdsourced transcription is low. In this paper, we propose a reliable method to collect speech transcriptions. We introduce two mechanisms to improve transcription quality: confidence estimation based reprocessing at labeling stage, and automatic word error correction at post-labeling stage. We collect and release LibriCrowd - a large-scale crowdsourced dataset of audio transcriptions on 100 hours of English speech. Experiment shows the Transcription WER is reduced by over 50%. We further investigate the impact of transcription error on ASR model performance and found a strong correlation. The transcription quality improvement provides over 10% relative WER reduction for ASR models. We release the dataset and code to benefit the research community.
翻訳日:2023-09-27 16:57:06 公開日:2023-09-24
# 人工知能を活用した呼吸器疾患診断へのcoughの利用に向けて

Towards using Cough for Respiratory Disease Diagnosis by leveraging Artificial Intelligence: A Survey ( http://arxiv.org/abs/2309.14383v1 )

ライセンス: Link先を確認
Aneeqa Ijaz, Muhammad Nabeel, Usama Masood, Tahir Mahmood, Mydah Sajid Hashmi, Iryna Posokhova, Ali Rizwan, and Ali Imran(参考訳) coughアコースティックスには呼吸器系の病態変化に関する重要な情報が多く含まれている。 根底にある潜伏性特徴と疾患の診断を調査し、信頼性と精度の確認は、医療実践の活性化に欠かせない役割を担っている。 人工知能(AI)の最近の応用と、呼吸器疾患予測のためのユビキタスコンピューティングの進歩は、医療分野における目覚ましいトレンドと無数の将来可能性を生み出している。 特に、機械学習(ml)とディープラーニング(dl)ベースのcoughシグネチャを活用した診断アルゴリズムが急速に出現している。 AIアルゴリズムに関する膨大な文献は、これらのモデルが特定の呼吸器疾患の発症を検出する重要な役割を担っていることを示している。 しかし、医療専門家やAI科学者がAI/MLの決定的な役割を分析するために、関連するすべての研究から情報を徹底的に収集することが重要である。 このサーベイは、Coughデータ駆動型ML/DL検出および予備診断フレームワークの概要と、重要な機能の詳細なリストを提供する。 本研究は, 呼吸様相の枯渇, 潜伏を誘発するメカニズムについて検討した。 また、カスタマイズされたコークスモニタリングアプリケーションとそのAIによる認識アルゴリズムも分析する。 実用的で堅牢でユビキタスなソリューションを開発するための課題と今後の研究方向についても詳細に論じる。

Cough acoustics contain multitudes of vital information about pathomorphological alterations in the respiratory system. Reliable and accurate detection of cough events by investigating the underlying cough latent features and disease diagnosis can play an indispensable role in revitalizing the healthcare practices. The recent application of Artificial Intelligence (AI) and advances of ubiquitous computing for respiratory disease prediction has created an auspicious trend and myriad of future possibilities in the medical domain. In particular, there is an expeditiously emerging trend of Machine learning (ML) and Deep Learning (DL)-based diagnostic algorithms exploiting cough signatures. The enormous body of literature on cough-based AI algorithms demonstrate that these models can play a significant role for detecting the onset of a specific respiratory disease. However, it is pertinent to collect the information from all relevant studies in an exhaustive manner for the medical experts and AI scientists to analyze the decisive role of AI/ML. This survey offers a comprehensive overview of the cough data-driven ML/DL detection and preliminary diagnosis frameworks, along with a detailed list of significant features. We investigate the mechanism that causes cough and the latent cough features of the respiratory modalities. We also analyze the customized cough monitoring application, and their AI-powered recognition algorithms. Challenges and prospective future research directions to develop practical, robust, and ubiquitous solutions are also discussed in detail.
翻訳日:2023-09-27 16:44:44 公開日:2023-09-24
# 同意する、同意する

Agree To Disagree ( http://arxiv.org/abs/2309.14382v1 )

ライセンス: Link先を確認
Abhinav Raghuvanshi, Siddhesh Pawar, Anirudh Mittal(参考訳) サービス登録、ソフトウェアのインストール、webサイトへのアクセスに進む前に、各人が規約や条件を徹底的にレビューする頻度はどのくらいか? インターネット利用者の大多数は、この慣行に携わっていない。 この傾向は、用語と条件が典型的には、複雑な法的用語と複雑な文に反する長い文書から成り立っていることを考えると、驚くべきことではない。 本稿では,ユーザフレンドリーな方法で重要な情報を自動解析・要約する機械学習方式を提案する。 この技術は、ユーザーが合意に達する前に熟考すべき関連する詳細を蒸留することに焦点を当てている。

How frequently do individuals thoroughly review terms and conditions before proceeding to register for a service, install software, or access a website? The majority of internet users do not engage in this practice. This trend is not surprising, given that terms and conditions typically consist of lengthy documents replete with intricate legal terminology and convoluted sentences. In this paper, we introduce a Machine Learning-powered approach designed to automatically parse and summarize critical information in a user-friendly manner. This technology focuses on distilling the pertinent details that users should contemplate before committing to an agreement.
翻訳日:2023-09-27 16:44:21 公開日:2023-09-24
# 視覚・言語モデルにおける社会バイアス調査

Survey of Social Bias in Vision-Language Models ( http://arxiv.org/abs/2309.14381v1 )

ライセンス: Link先を確認
Nayeon Lee, Yejin Bang, Holy Lovenia, Samuel Cahyawijaya, Wenliang Dai, Pascale Fung(参考訳) 近年、機械学習(ML)モデルの急速な進歩、特にトランスフォーマーベースの事前訓練モデルが、自然言語処理(NLP)とコンピュータビジョン(CV)の分野に革命をもたらした。 しかし、これらのモデルがトレーニングデータセットに存在する社会的バイアスを不注意に捉えて強化し、不均一なリソース配分や特定の社会的グループの不公平な表現といった社会的害をもたらす可能性があることを研究者は発見している。 これらのバイアスに対処し、人工知能(AI)システムの公正性を確保することは、MLコミュニティにおいて重要な関心事となっている。 最近のマルチモーダル分野における事前学習型視覚言語(VL)モデルの導入は、これらのモデルに存在する潜在的な社会的バイアスにも注意を促している。 VLモデルは社会的偏見に影響を受けやすいが、NLPとCVの偏見に関する広範な議論に比べれば、理解は限られている。 本調査は,NLP,CV,VLを対象とする事前学習モデルにおける社会バイアス研究の類似点と相違点について,研究者に高いレベルの知見を提供することを目的とする。 これらの視点を調べることで、この調査は、ユニモーダルとマルチモーダルの両方の設定において、社会バイアスのアプローチと軽減に関する貴重なガイドラインを提供することを目的としている。 ここで提示された発見とレコメンデーションは、MLコミュニティの利益となり、さまざまなアプリケーションや研究の取り組みにおいて、より公平で偏見のないAIモデルの開発を促進する。

In recent years, the rapid advancement of machine learning (ML) models, particularly transformer-based pre-trained models, has revolutionized Natural Language Processing (NLP) and Computer Vision (CV) fields. However, researchers have discovered that these models can inadvertently capture and reinforce social biases present in their training datasets, leading to potential social harms, such as uneven resource allocation and unfair representation of specific social groups. Addressing these biases and ensuring fairness in artificial intelligence (AI) systems has become a critical concern in the ML community. The recent introduction of pre-trained vision-and-language (VL) models in the emerging multimodal field demands attention to the potential social biases present in these models as well. Although VL models are susceptible to social bias, there is a limited understanding compared to the extensive discussions on bias in NLP and CV. This survey aims to provide researchers with a high-level insight into the similarities and differences of social bias studies in pre-trained models across NLP, CV, and VL. By examining these perspectives, the survey aims to offer valuable guidelines on how to approach and mitigate social bias in both unimodal and multimodal settings. The findings and recommendations presented here can benefit the ML community, fostering the development of fairer and non-biased AI models in various applications and research endeavors.
翻訳日:2023-09-27 16:44:11 公開日:2023-09-24
# 機械支援混合手法:人工知能による人文科学と社会科学の強化

Machine-assisted mixed methods: augmenting humanities and social sciences with artificial intelligence ( http://arxiv.org/abs/2309.14379v1 )

ライセンス: Link先を確認
Andres Karjus(参考訳) 大規模言語モデル(LLM)の能力の増大は、人文科学や社会科学におけるデータ分析をスケールアップする前例のない機会となり、以前は人間の労働に割り当てられていた定性的分析タスクを増強し自動化する。 この貢献は、透明性と再現性に注目して、質的分析的専門知識、機械のスケーラビリティ、厳密な定量化を活用するための体系的混合手法フレームワークを提案する。 16の機械支援ケーススタディが概念実証として紹介されている。 課題には、言語的・言論的分析、語彙的意味変化の検出、インタビュー分析、歴史的事象原因推論とテキストマイニング、政治的スタンスの検出、テキストとアイデアの再利用、文学と映画のジャンル構成、ソーシャルネットワーク推論、自動語彙分析、メタデータの不足、マルチモーダル視覚文化分析が含まれる。 新興LLM適用可能性文学における英語の焦点とは対照的に、この例では、より小さな言語や歴史的テキストがデジタル化の歪みを引き起こすシナリオを扱うことが多い。 専門家の知識を必要とする最も難しい作業を除いて、生成的LLMは、明らかに実行可能な研究機器として機能する。 LLM(および人間)アノテーションはエラーやバリエーションを含むことがあるが、後続の統計モデルでは合意率を考慮すべきであり、ブートストラッピングのアプローチが議論されている。 ケーススタディのレプリケーションは、以前チームの取り組みと複雑な計算パイプラインが必要だったタスクが、短期間でllmの支援を受けた研究者によって達成可能になったことを示しています。 重要なのは、このアプローチは代替ではなく、研究者の知識とスキルを増強することである。 こうした機会を目の当たりにして、質的な専門知識と洞察に富んだ質問に答える能力は、間違いなくそれ以上に重要ではない。

The increasing capacities of large language models (LLMs) present an unprecedented opportunity to scale up data analytics in the humanities and social sciences, augmenting and automating qualitative analytic tasks previously typically allocated to human labor. This contribution proposes a systematic mixed methods framework to harness qualitative analytic expertise, machine scalability, and rigorous quantification, with attention to transparency and replicability. 16 machine-assisted case studies are showcased as proof of concept. Tasks include linguistic and discourse analysis, lexical semantic change detection, interview analysis, historical event cause inference and text mining, detection of political stance, text and idea reuse, genre composition in literature and film; social network inference, automated lexicography, missing metadata augmentation, and multimodal visual cultural analytics. In contrast to the focus on English in the emerging LLM applicability literature, many examples here deal with scenarios involving smaller languages and historical texts prone to digitization distortions. In all but the most difficult tasks requiring expert knowledge, generative LLMs can demonstrably serve as viable research instruments. LLM (and human) annotations may contain errors and variation, but the agreement rate can and should be accounted for in subsequent statistical modeling; a bootstrapping approach is discussed. The replications among the case studies illustrate how tasks previously requiring potentially months of team effort and complex computational pipelines, can now be accomplished by an LLM-assisted scholar in a fraction of the time. Importantly, this approach is not intended to replace, but to augment researcher knowledge and skills. With these opportunities in sight, qualitative expertise and the ability to pose insightful questions have arguably never been more critical.
翻訳日:2023-09-27 16:43:49 公開日:2023-09-24
# llmsを用いた自然言語に基づく文脈モデリングと推論:チュートリアル

Natural Language based Context Modeling and Reasoning with LLMs: A Tutorial ( http://arxiv.org/abs/2309.15074v1 )

ライセンス: Link先を確認
Haoyi Xiong and Jiang Bian and Sijia Yang and Xiaofei Zhang and Linghe Kong and Daqing Zhang(参考訳) 大規模言語モデル(llm)は、コンピュータシステムにコンテキスト認識を導入した後、2018年から20年で驚くほど急増している。 ユビキタスデバイス、ユーザ、社会の状況を考慮することで、コンテキスト対応コンピューティングは、生活支援、位置情報ベースのソーシャルネットワークサービスなど、幅広い革新的な応用を可能にしている。 文脈を認識し、それに従って行動を決定するために、オントロジーやOWLといった様々な人工知能技術がコンテキストモデリングや推論の表現として採用されている。 近年、LLMの台頭と、その改良された自然言語理解と推論能力により、自然言語を用いて文脈をモデル化し、ChatGPTやGPT-4といったLLMと相互作用して文脈推論を行うことが可能になった。 このチュートリアルでは、モデルの微調整を必要とせずに、llmがコンテキストモデリングと推論を実行できるテキスト、プロンプト、自律エージェント(自動エージェント)の使用例を示す。 我々は関連する分野の研究を整理し、導入し、このコンピューティングパラダイムを llm-driven context-aware computing (lcac) と命名する。 LCaCパラダイムでは、ユーザの要求、データを読み取るセンサー、アクチュエータへのコマンドはテキストとして表現されなければならない。 ユーザの要求とセンサデータのテキストを考えると、オートエージェントはコンテキスト推論のためにllmにプロンプトおよび送信することでコンテキストをモデル化する。 llmはアクションのプランを生成し、オートエージェントに応答します。 この概念を証明するために,(1)集合住宅における移動型zアーム操作による生活支援,(2)旅行の計画とスケジュールのコンテキスト認識とパーソナライズによるスケジューリングという2つのショーケースを用いた。

Large language models (LLMs) have become phenomenally surging, since 2018--two decades after introducing context-awareness into computing systems. Through taking into account the situations of ubiquitous devices, users and the societies, context-aware computing has enabled a wide spectrum of innovative applications, such as assisted living, location-based social network services and so on. To recognize contexts and make decisions for actions accordingly, various artificial intelligence technologies, such as Ontology and OWL, have been adopted as representations for context modeling and reasoning. Recently, with the rise of LLMs and their improved natural language understanding and reasoning capabilities, it has become feasible to model contexts using natural language and perform context reasoning by interacting with LLMs such as ChatGPT and GPT-4. In this tutorial, we demonstrate the use of texts, prompts, and autonomous agents (AutoAgents) that enable LLMs to perform context modeling and reasoning without requiring fine-tuning of the model. We organize and introduce works in the related field, and name this computing paradigm as the LLM-driven Context-aware Computing (LCaC). In the LCaC paradigm, users' requests, sensors reading data, and the command to actuators are supposed to be represented as texts. Given the text of users' request and sensor data, the AutoAgent models the context by prompting and sends to the LLM for context reasoning. LLM generates a plan of actions and responds to the AutoAgent, which later follows the action plan to foster context-awareness. To prove the concepts, we use two showcases--(1) operating a mobile z-arm in an apartment for assisted living, and (2) planning a trip and scheduling the itinerary in a context-aware and personalized manner.
翻訳日:2023-09-27 12:41:13 公開日:2023-09-24
# エッジ上でバイナリニューラルネットワークトレーニングを実現する

Enabling Binary Neural Network Training on the Edge ( http://arxiv.org/abs/2102.04270v6 )

ライセンス: Link先を確認
Erwei Wang, James J. Davis, Daniele Moro, Piotr Zielinski, Jia Jie Lim, Claudionor Coelho, Satrajit Chatterjee, Peter Y. K. Cheung, George A. Constantinides(参考訳) ますます複雑化する機械学習モデルの継続的な計算需要は、トレーニングに強力なクラウドベースのインフラストラクチャを使用する必要がしばしばある。 バイナリニューラルネットワークは、高い精度の代替よりも極端な計算とメモリ節約のために、デバイス上の推論に有望な候補であることが知られている。 しかしながら、既存のトレーニング手法では、すべてのレイヤに対して高精度なアクティベーションを同時に保存する必要がある。 本稿では,バイナリニューラルネットワークトレーニングに必要な後方伝播操作が量子化に強く寄与していることを示し,現代のモデルを用いた最先端学習を実践的課題とする。 本稿では,courbariaux と bengio の標準アプローチに対する精度の低下をほとんど起こさず,メモリフットプリントの大幅な削減を示す,低コストなバイナリニューラルネットワークトレーニング戦略を提案する。 これらの減少は、主にバイナリ形式のみのアクティベーションの保持によって実現される。 後者のアルゴリズムに対して、我々のドロップイン置換は、一般的なデータセットを分類するために訓練された様々な小規模モデルに対して、同等の時間で同様のテスト精度に達する一方で、メモリ要求の3-5$\times$を削減します。 また,2値化resnet-18のscratchイメージネットトレーニングを実演し,3.78$\times$メモリ削減を実現する。 私たちの仕事はオープンソースで、モデルメモリの減少と関連するエネルギー損失のキャプチャに使用したraspberry piターゲットのプロトタイプが含まれています。 このような節約によって、不要なクラウドオフロードの回避、レイテンシの低減、エネルギー効率の向上、エンドユーザのプライバシ保護が可能になる。

The ever-growing computational demands of increasingly complex machine learning models frequently necessitate the use of powerful cloud-based infrastructure for their training. Binary neural networks are known to be promising candidates for on-device inference due to their extreme compute and memory savings over higher-precision alternatives. However, their existing training methods require the concurrent storage of high-precision activations for all layers, generally making learning on memory-constrained devices infeasible. In this article, we demonstrate that the backward propagation operations needed for binary neural network training are strongly robust to quantization, thereby making on-the-edge learning with modern models a practical proposition. We introduce a low-cost binary neural network training strategy exhibiting sizable memory footprint reductions while inducing little to no accuracy loss vs Courbariaux & Bengio's standard approach. These decreases are primarily enabled through the retention of activations exclusively in binary format. Against the latter algorithm, our drop-in replacement sees memory requirement reductions of 3--5$\times$, while reaching similar test accuracy in comparable time, across a range of small-scale models trained to classify popular datasets. We also demonstrate from-scratch ImageNet training of binarized ResNet-18, achieving a 3.78$\times$ memory reduction. Our work is open-source, and includes the Raspberry Pi-targeted prototype we used to verify our modeled memory decreases and capture the associated energy drops. Such savings will allow for unnecessary cloud offloading to be avoided, reducing latency, increasing energy efficiency, and safeguarding end-user privacy.
翻訳日:2023-09-27 05:31:25 公開日:2023-09-24
# クライアント分散低減による圧縮連合学習の高速化

Faster Rates for Compressed Federated Learning with Client-Variance Reduction ( http://arxiv.org/abs/2112.13097v3 )

ライセンス: Link先を確認
Haoyu Zhao, Konstantin Burlachenko, Zhize Li, Peter Richt\'arik(参考訳) 分散学習および連合学習アプリケーションの通信ボトルネックにより、通信圧縮を用いたアルゴリズムが注目され、実際に広く使われている。 さらに、膨大な数、高い異質性、クライアントの可用性の制限により、クライアントのばらつきが高まる。 本稿では,COFIGとFRECONの圧縮およびクライアント分散低減手法を提案する。 我々は、$O(\frac{(1+\omega)^{3/2}\sqrt{N}}{S\epsilon^2}+\frac{(1+\omega)N^{2/3}}{S\epsilon^2})$を非凸設定におけるCOFIGの通信ラウンド数に限定し、$N$はクライアントの総数、$S$は各ラウンドに参加しているクライアント数、$\epsilon$は収束エラー、$\omega$は圧縮演算子に関連する分散パラメータであることを示す。 FRECONの場合、通信ラウンドの数で$O(\frac{(1+\omega)\sqrt{N}}{S\epsilon^2})$を証明します。 凸設定では、COFIGは$O(\frac{(1+\omega)\sqrt{N}}{S\epsilon})$通信ラウンドに収束する。 私たちは、COFIGもFRECONもすべてのクライアントと通信する必要はなく、コンベックスや非凸型学習において、コンベックスや非凸型学習の最初の、あるいはより速い収束結果を楽しむことを強調します。 実験結果からCOFIGとFRECONが既存のベースラインよりも優れていることが示唆された。

Due to the communication bottleneck in distributed and federated learning applications, algorithms using communication compression have attracted significant attention and are widely used in practice. Moreover, the huge number, high heterogeneity and limited availability of clients result in high client-variance. This paper addresses these two issues together by proposing compressed and client-variance reduced methods COFIG and FRECON. We prove an $O(\frac{(1+\omega)^{3/2}\sqrt{N}}{S\epsilon^2}+\frac{(1+\omega)N^{2/3}}{S\epsilon^2})$ bound on the number of communication rounds of COFIG in the nonconvex setting, where $N$ is the total number of clients, $S$ is the number of clients participating in each round, $\epsilon$ is the convergence error, and $\omega$ is the variance parameter associated with the compression operator. In case of FRECON, we prove an $O(\frac{(1+\omega)\sqrt{N}}{S\epsilon^2})$ bound on the number of communication rounds. In the convex setting, COFIG converges within $O(\frac{(1+\omega)\sqrt{N}}{S\epsilon})$ communication rounds, which, to the best of our knowledge, is also the first convergence result for compression schemes that do not communicate with all the clients in each round. We stress that neither COFIG nor FRECON needs to communicate with all the clients, and they enjoy the first or faster convergence results for convex and nonconvex federated learning in the regimes considered. Experimental results point to an empirical superiority of COFIG and FRECON over existing baselines.
翻訳日:2023-09-27 05:24:14 公開日:2023-09-24
# 情報完全測定の射影性

Projectivities of informationally complete measurements ( http://arxiv.org/abs/2112.13052v6 )

ライセンス: Link先を確認
Hao Shu(参考訳) 情報完全(IC)測定の背後にある物理的問題は、状態トモグラフィと呼ばれる測定結果によって統計的に未知の状態を決定することである。 チャネル推定、デバイステスト、量子鍵分布などの量子情報処理において重要な役割を担っている。 しかし,良質な測定器の構築は長年の課題である。 本研究では,IC計測の射影的実現について検討する。 情報完全性の条件はまず証明で示される。 そこで, 極小射影IC測定(MPICM)を素数次元のシステムで構築するなど, IC測定の射影的実現と, 大規模システムにおいて, ある種の最適性を持つ単一の射影的測定により, C^{n}$の未知の状態を決定することを含む, IC測定の射影的実現について検討した。 最後に、結果は局所状態トモグラフィに拡張できる。 複数種類の最適性の導入についても議論する。

The physical problem behind informationally complete (IC) measurements is determining an unknown state statistically by measurement outcomes, known as state tomography. It is of central importance in quantum information processing such as channel estimating, device testing, quantum key distribution, etc. However, constructing such measurements with good properties is a long-standing problem. In this work, we investigate projective realizations of IC measurements. Conditions of informational completeness are presented with proofs first. Then the projective realizations of IC measurements, including proposing the first general construction of minimal projective IC measurements (MPICM) in no prime power dimensional systems, as well as determining an unknown state in $C^{n}$ via a single projective measurement with some kinds of optimalities in a larger system, are investigated. Finally, The results can be extended to local state tomography. Some discussions on employing several kinds of optimalities are also provided.
翻訳日:2023-09-27 05:23:37 公開日:2023-09-24
# 機械による人的決定の公正性について

On the Fairness of Machine-Assisted Human Decisions ( http://arxiv.org/abs/2110.15310v2 )

ライセンス: Link先を確認
Talia Gillis, Bryce McLaughlin, Jann Spiess(参考訳) 機械学習アルゴリズムが高精度な意思決定に使用される場合、そのデプロイメントが公平で公平な結果をもたらすようにしたいと思っています。 この懸念は、機械予測における格差の診断と対処に焦点を当てた、急速に成長する文献の動機となっている。 しかしながら、人間の意思決定者が最終的な決定権限を保持する決定を支援するために、多くの機械予測が展開される。 そこで本論文では,機械の予測特性が人間の判断にどう影響するかを,フォーマルなモデルと実験室で検討する。 統計的意思決定の形式的モデルでは、偏りのある人間の意思決定者を含めることで、アルゴリズムの構造と結果決定の質との間の共通関係を逆転させることができることを示す。 具体的には、予測から保護されたグループに関する情報を除くと、減少せず、究極的な格差が増大する可能性があることを文書化します。 実験室実験では,性別別情報による予測が,意思決定における平均性差を減少させることを示す。 具体的な理論結果は、データ、アルゴリズム、意思決定者に関する特定の仮定に依存し、実験は特定の予測タスクに焦点を当てているが、より広い範囲において、機械支援の人間の決定の公平性のような複雑な決定システムの重要な特性の研究は、孤立したアルゴリズム的な予測に焦点を合わせるべきである。

When machine-learning algorithms are used in high-stakes decisions, we want to ensure that their deployment leads to fair and equitable outcomes. This concern has motivated a fast-growing literature that focuses on diagnosing and addressing disparities in machine predictions. However, many machine predictions are deployed to assist in decisions where a human decision-maker retains the ultimate decision authority. In this article, we therefore consider in a formal model and in a lab experiment how properties of machine predictions affect the resulting human decisions. In our formal model of statistical decision-making, we show that the inclusion of a biased human decision-maker can revert common relationships between the structure of the algorithm and the qualities of resulting decisions. Specifically, we document that excluding information about protected groups from the prediction may fail to reduce, and may even increase, ultimate disparities. In the lab experiment, we demonstrate how predictions informed by gender-specific information can reduce average gender disparities in decisions. While our concrete theoretical results rely on specific assumptions about the data, algorithm, and decision-maker, and the experiment focuses on a particular prediction task, our findings show more broadly that any study of critical properties of complex decision systems, such as the fairness of machine-assisted human decisions, should go beyond focusing on the underlying algorithmic predictions in isolation.
翻訳日:2023-09-27 05:22:12 公開日:2023-09-24
# エンドツーエンドのワンショットパーシング

End-to-end One-shot Human Parsing ( http://arxiv.org/abs/2105.01241v3 )

ライセンス: Link先を確認
Haoyu He, Bohan Zhuang, Jing Zhang, Jianfei Cai, Dacheng Tao(参考訳) 従来の人間の構文解析法は、人間が定義済みのクラスにパースすることに限定されており、新しいファッションアイテムクラスを持つ実用的なファッションアプリケーションには柔軟性がない。 本稿では,人間を任意のテスト例で定義されたクラスのオープンセットにパースする必要がある,新しいone-shot human parse (oshp)タスクを定義する。 トレーニング中は、ベースクラスのみが公開され、テスト時間クラスの一部にのみ重複する。 oshpの3つの主な課題、すなわち小さなサイズ、テストバイアス、および類似部分に対処するために、エンドツーエンドのワンショット人間解析ネットワーク(eop-net)を考案する。 まず、エンド・ツー・エンドのヒューマン・パース・フレームワークが、クエリ・イメージを粗粒度と細粒度の両方のヒューマン・クラスに解析するために提案されている。 そして、トレーニング時の静的プロトタイプを徐々にスムーズにして、堅牢なクラス表現を得る。 さらに,初期訓練段階ではネットワークの表現能力の向上を奨励し,後期訓練段階では特徴の伝達性を向上させるために動的目標を用いる。 そこで本手法は,新しいクラスに迅速に適応し,テストバイアスを軽減できる。 さらに,クラス間距離を強制するために,プロトタイプレベルでの対比的損失を追加し,類似部分の識別を行う。 新しいタスクに関する総合的な評価のために、既存の3つのヒトパースベンチマークをOSHPタスクに調整する。 実験により、eop-netは代表的なワンショットセグメンテーションモデルを大きなマージンで上回り、さらなる研究の基盤となることが示されている。 ソースコードはhttps://github.com/Charleshhy/One-shot-Human-Parsingで入手できる。

Previous human parsing methods are limited to parsing humans into pre-defined classes, which is inflexible for practical fashion applications that often have new fashion item classes. In this paper, we define a novel one-shot human parsing (OSHP) task that requires parsing humans into an open set of classes defined by any test example. During training, only base classes are exposed, which only overlap with part of the test-time classes. To address three main challenges in OSHP, i.e., small sizes, testing bias, and similar parts, we devise an End-to-end One-shot human Parsing Network (EOP-Net). Firstly, an end-to-end human parsing framework is proposed to parse the query image into both coarse-grained and fine-grained human classes, which embeds rich semantic information that is shared across different granularities to identify the small-sized human classes. Then, we gradually smooth the training-time static prototypes to get robust class representations. Moreover, we employ a dynamic objective to encourage the network's enhancing features' representational capability in the early training phase while improving features' transferability in the late training phase. Therefore, our method can quickly adapt to the novel classes and mitigate the testing bias issue. In addition, we add a contrastive loss at the prototype level to enforce inter-class distances, thereby discriminating the similar parts. For comprehensive evaluations on the new task, we tailor three existing popular human parsing benchmarks to the OSHP task. Experiments demonstrate that EOP-Net outperforms representative one-shot segmentation models by large margins and serves as a strong baseline for further research. The source code is available at https://github.com/Charleshhy/One-shot-Human-Parsing.
翻訳日:2023-09-27 05:21:22 公開日:2023-09-24
# ラベル雑音学習によるラベル比率からの学習

Learning from Label Proportions by Learning with Label Noise ( http://arxiv.org/abs/2203.02496v2 )

ライセンス: Link先を確認
Jianxin Zhang, Yutong Wang, Clayton Scott(参考訳) ラベルパーセンテージ(LLP)からの学習は、データポイントをバッグに分類し、各バッグ内のラベルパーセンテージをインスタンスレベルのラベルの代わりに観測する弱い教師付き分類問題である。 タスクは分類器を学習し、将来の個々のインスタンスの個々のラベルを予測することである。 マルチクラスデータに対するLPPに関する以前の研究は、理論的に基礎付けられたアルゴリズムをまだ開発していない。 本研究では,ラベルノイズによる学習の削減に基づくLLPに対する理論的基礎的なアプローチを提案する。 我々は、我々のアプローチに対して過剰なリスク境界と一般化誤差解析を確立し、また独立性のあるFC損失の理論を拡張した。 提案手法は,既存手法と比較して,複数のデータセットやアーキテクチャにわたるディープラーニングシナリオにおける経験的パフォーマンスの向上を実証する。

Learning from label proportions (LLP) is a weakly supervised classification problem where data points are grouped into bags, and the label proportions within each bag are observed instead of the instance-level labels. The task is to learn a classifier to predict the individual labels of future individual instances. Prior work on LLP for multi-class data has yet to develop a theoretically grounded algorithm. In this work, we provide a theoretically grounded approach to LLP based on a reduction to learning with label noise, using the forward correction (FC) loss of \citet{Patrini2017MakingDN}. We establish an excess risk bound and generalization error analysis for our approach, while also extending the theory of the FC loss which may be of independent interest. Our approach demonstrates improved empirical performance in deep learning scenarios across multiple datasets and architectures, compared to the leading existing methods.
翻訳日:2023-09-27 05:13:55 公開日:2023-09-24
# S$^{5}$Mars: 火星セマンティックセグメンテーションのための半教師付き学習

S$^{5}$Mars: Semi-Supervised Learning for Mars Semantic Segmentation ( http://arxiv.org/abs/2207.01200v3 )

ライセンス: Link先を確認
Jiahang Zhang, Lilang Lin, Zejia Fan, Wenjing Wang, Jiaying Liu(参考訳) 深層学習は火星探査の強力なツールとなっている。 火星の地形セマンティックセグメンテーションは、ローバーの自律計画と安全な運転の基盤となる重要な火星の視覚タスクである。 しかし、優れたモデルを得るためには、ほとんどのディープラーニングメソッドが正確に必要とする、十分な詳細な高信頼データアノテーションが欠如している。 この問題に対処するため,共同データと手法設計の観点から提案する手法を提案する。 まず,火星のセマンティクスセグメンテーションにおける半教師付き学習のための新しいデータセット s5mars を提案する。 そして、このスパースデータから学習するために、限定ラベル付きデータから表現を学ぶために、火星画像セマンティックセグメンテーションのための半教師付き学習(SSL)フレームワークを提案する。 地球画像データを対象としている既存のSSL方式と異なり、火星データの特徴を考慮に入れている。 具体的には,現在広く利用されている火星画像に対する自然画像拡張の影響を最初に検討した。 分析に基づいて, モデル性能向上のための強力な拡張として, 火星セグメンテーションのsslに対する2つの新規かつ効果的な拡張法, auginとsam-mixを提案した。 一方,ラベルのないデータを完全に活用するために,予測信頼度に基づいて異なる目標から学習するソフト・トゥ・ハード・一貫性学習戦略を導入する。 実験の結果,本手法は最先端sslアプローチを著しく上回ることがわかった。 提案されたデータセットはhttps://jhang2020.github.io/s5mars.github.io/で利用可能です。

Deep learning has become a powerful tool for Mars exploration. Mars terrain semantic segmentation is an important Martian vision task, which is the base of rover autonomous planning and safe driving. However, there is a lack of sufficient detailed and high-confidence data annotations, which are exactly required by most deep learning methods to obtain a good model. To address this problem, we propose our solution from the perspective of joint data and method design. We first present a newdataset S5Mars for Semi-SuperviSed learning on Mars Semantic Segmentation, which contains 6K high-resolution images and is sparsely annotated based on confidence, ensuring the high quality of labels. Then to learn from this sparse data, we propose a semi-supervised learning (SSL) framework for Mars image semantic segmentation, to learn representations from limited labeled data. Different from the existing SSL methods which are mostly targeted at the Earth image data, our method takes into account Mars data characteristics. Specifically, we first investigate the impact of current widely used natural image augmentations on Mars images. Based on the analysis, we then proposed two novel and effective augmentations for SSL of Mars segmentation, AugIN and SAM-Mix, which serve as strong augmentations to boost the model performance. Meanwhile, to fully leverage the unlabeled data, we introduce a soft-to-hard consistency learning strategy, learning from different targets based on prediction confidence. Experimental results show that our method can outperform state-of-the-art SSL approaches remarkably. Our proposed dataset is available at https://jhang2020.github.io/S5Mars.github.io/.
翻訳日:2023-09-27 05:04:29 公開日:2023-09-24
# cc-riddle:漢字の謎の質問応答データセット

CC-Riddle: A Question Answering Dataset of Chinese Character Riddles ( http://arxiv.org/abs/2206.13778v2 )

ライセンス: Link先を確認
Fan Xu and Yunxiang Zhang and Xiaojun Wan(参考訳) 漢字リドル(英: chinese character riddle)は、中国語特有の文化芸能の一種である。 典型的には、謎の説明と解の2つの部分からなる。 謎の解法は単一の文字であり、謎の解法の記述は解法のグリフを主に記述し、時にはその説明と発音を補う。 漢字の謎を解くことは、文字のグリフ、一般的な知識、そして比喩的な言語を理解することを要求する難しい課題である。 本稿では, CC-Riddle という, 簡体字のほとんどを網羅した, テキストbf{C}hinese \textbf{C}haracter riddle データセットを構築した。 構築プロセスは、Webクローリング、言語モデル生成、手動フィルタリングの組み合わせである。 生成段階では,中国語の音韻アルファベット,グリフ,および解文字の意味を生成モデルに入力し,複数の滑稽な記述を生成する。 生成されたリドルは手動でフィルタリングされ、最終CC-Riddleデータセットは、人書きのリドルと、このフィルターで生成されたリドルの両方で構成されている。 文字の謎を解くタスクにおいて,言語モデルの性能を評価するために,検索ベース,生成型および複数選択型QA戦略を用いて,BERT,ChatGPT,ChatGLMの3つの言語モデルをテストする。 その結果、現在の言語モデルは漢字の謎を解くのに苦戦していることがわかった。 CC-Riddle は \url{https://github.com/pku0xff/CC-Riddle} で公開されている。

The Chinese character riddle is a unique form of cultural entertainment specific to the Chinese language. It typically comprises two parts: the riddle description and the solution. The solution to the riddle is a single character, while the riddle description primarily describes the glyph of the solution, occasionally supplemented with its explanation and pronunciation. Solving Chinese character riddles is a challenging task that demands understanding of character glyph, general knowledge, and a grasp of figurative language. In this paper, we construct a \textbf{C}hinese \textbf{C}haracter riddle dataset named CC-Riddle, which covers the majority of common simplified Chinese characters. The construction process is a combination of web crawling, language model generation and manual filtering. In generation stage, we input the Chinese phonetic alphabet, glyph and meaning of the solution character into the generation model, which then produces multiple riddle descriptions. The generated riddles are then manually filtered and the final CC-Riddle dataset is composed of both human-written riddles and these filtered, generated riddles. In order to assess the performance of language models on the task of solving character riddles, we use retrieval-based, generative and multiple-choice QA strategies to test three language models: BERT, ChatGPT and ChatGLM. The test results reveal that current language models still struggle to solve Chinese character riddles. CC-Riddle is publicly available at \url{https://github.com/pku0xff/CC-Riddle}.
翻訳日:2023-09-27 05:03:38 公開日:2023-09-24
# 説明的かつ高性能なヘイトと攻撃的音声検出

Explainable and High-Performance Hate and Offensive Speech Detection ( http://arxiv.org/abs/2206.12983v2 )

ライセンス: Link先を確認
Marzieh Babaeianjelodar, Gurram Poorna Prudhvi, Stephen Lorenz, Keyu Chen, Sumona Mondal, Soumyabrata Dey, and Navin Kumar(参考訳) ソーシャルメディアプラットフォームを通じた情報の拡散は、潜在的に脆弱なコミュニティに敵対的な環境を作り、社会の特定のグループを黙らせることができる。 このような事例を緩和するために、ヘイトや攻撃的なスピーチを検出するために、いくつかのモデルが開発されている。 ソーシャルメディアプラットフォームにおけるヘイトや不快な発言の検出は、不正確に個人をソーシャルメディアプラットフォームから排除する可能性があるため、説明可能で解釈可能なモデルを作成する必要がある。 そこで本研究では,Twitterデータに基づくXGBoostアルゴリズムに基づく,説明可能な,解釈可能なハイパフォーマンスモデルを構築した。 バランスの取れていないTwitterデータに対して、XGboostはLSTM、AutoGluon、ULMFiTモデルでそれぞれ0.38、0.37、0.38のF1スコアでヘイトスピーチ検出を上回った。 XGBoostはLSTM、AutoGluon、ULMFiTの3つのクラスにデータをダウンサンプリングすると、それぞれ0.79対0.69、0.77、0.66のヘイトスピーチ検出でF1スコアが得られた。 XGBoostはLSTM、AutoGluon、ULMFiTよりも、それぞれ0.83対0.88対0.79対0.79の攻撃的音声検出のためのダウンサンプリング版で性能が向上した。 我々は、XGBoostモデルの出力にShapley Additive Explanations (SHAP)を使用し、ブラックボックスモデルであるLSTM、AutoGluon、ULMFiTと比較して説明可能で解釈可能である。

The spread of information through social media platforms can create environments possibly hostile to vulnerable communities and silence certain groups in society. To mitigate such instances, several models have been developed to detect hate and offensive speech. Since detecting hate and offensive speech in social media platforms could incorrectly exclude individuals from social media platforms, which can reduce trust, there is a need to create explainable and interpretable models. Thus, we build an explainable and interpretable high performance model based on the XGBoost algorithm, trained on Twitter data. For unbalanced Twitter data, XGboost outperformed the LSTM, AutoGluon, and ULMFiT models on hate speech detection with an F1 score of 0.75 compared to 0.38 and 0.37, and 0.38 respectively. When we down-sampled the data to three separate classes of approximately 5000 tweets, XGBoost performed better than LSTM, AutoGluon, and ULMFiT; with F1 scores for hate speech detection of 0.79 vs 0.69, 0.77, and 0.66 respectively. XGBoost also performed better than LSTM, AutoGluon, and ULMFiT in the down-sampled version for offensive speech detection with F1 score of 0.83 vs 0.88, 0.82, and 0.79 respectively. We use Shapley Additive Explanations (SHAP) on our XGBoost models' outputs to makes it explainable and interpretable compared to LSTM, AutoGluon and ULMFiT that are black-box models.
翻訳日:2023-09-27 05:03:10 公開日:2023-09-24
# inexact admmによる連合学習

Federated Learning via Inexact ADMM ( http://arxiv.org/abs/2204.10607v4 )

ライセンス: Link先を確認
Shenglong Zhou and Geoffrey Ye Li(参考訳) 連合学習における重要な問題の一つは、効率的な最適化アルゴリズムの開発方法である。 現在のもののほとんどは、完全なデバイス参加と/または収束の強い仮定を必要とする。 本稿では,広範に使われている勾配降下に基づくアルゴリズムと異なり,計算および通信効率の両面においてトラグラー効果に対抗し,緩やかな条件下で収束する乗算器の非接触交互方向法(ADMM)を開発する。 さらに、フェデレーション学習のための最先端アルゴリズムと比較して高い数値的性能を示す。

One of the crucial issues in federated learning is how to develop efficient optimization algorithms. Most of the current ones require full device participation and/or impose strong assumptions for convergence. Different from the widely-used gradient descent-based algorithms, in this paper, we develop an inexact alternating direction method of multipliers (ADMM), which is both computation- and communication-efficient, capable of combating the stragglers' effect, and convergent under mild conditions. Furthermore, it has a high numerical performance compared with several state-of-the-art algorithms for federated learning.
翻訳日:2023-09-27 05:01:38 公開日:2023-09-24
# SwinFIR: 高速フーリエ変換によるスイナー再考と画像超解法トレーニングの改善

SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and Improved Training for Image Super-Resolution ( http://arxiv.org/abs/2208.11247v3 )

ライセンス: Link先を確認
Dafeng Zhang, Feiyu Huang, Shizhuo Liu, Xiaobing Wang, Zhezhu Jin(参考訳) トランスベース方式は,cnn方式に比べて長距離依存性をモデル化できるため,画像復元性能が向上した。 しかし、swiinirのような進歩は、パフォーマンスと計算オーバーヘッドのバランスをとるためにウィンドウベースおよびローカルアテンション戦略を採用しており、グローバル情報をキャプチャし、初期層に長い依存関係を確立するために大きな受容フィールドを採用することを制限している。 本研究では,FFC(Fast Fourier Convolution, 高速フーリエ・コンボリューション)コンポーネントをイメージワイドな受容場に置き換えることで,SwinIRを拡張できるSwinFIRを提案する。 また,画像再構成の効果を改善するために,データ拡張,事前学習,特徴アンサンブルといった他の高度な手法についても検討した。 また,本手法では,学習時間やテスト時間を増やすことなく,モデルの性能を大幅に向上させることができる。 提案アルゴリズムを複数の大規模ベンチマークに適用し,既存手法と比較して最先端性能を実現した。 例えば、我々のSwinFIRはManga109データセット上で32.83dBのPSNRを達成しています。

Transformer-based methods have achieved impressive image restoration performance due to their capacities to model long-range dependency compared to CNN-based methods. However, advances like SwinIR adopts the window-based and local attention strategy to balance the performance and computational overhead, which restricts employing large receptive fields to capture global information and establish long dependencies in the early layers. To further improve the efficiency of capturing global information, in this work, we propose SwinFIR to extend SwinIR by replacing Fast Fourier Convolution (FFC) components, which have the image-wide receptive field. We also revisit other advanced techniques, i.e, data augmentation, pre-training, and feature ensemble to improve the effect of image reconstruction. And our feature ensemble method enables the performance of the model to be considerably enhanced without increasing the training and testing time. We applied our algorithm on multiple popular large-scale benchmarks and achieved state-of-the-art performance comparing to the existing methods. For example, our SwinFIR achieves the PSNR of 32.83 dB on Manga109 dataset, which is 0.8 dB higher than the state-of-the-art SwinIR method.
翻訳日:2023-09-27 04:54:54 公開日:2023-09-24
# DenseShift: 高精度で効率的な2ビットの量子化を目指す

DenseShift: Towards Accurate and Efficient Low-Bit Power-of-Two Quantization ( http://arxiv.org/abs/2208.09708v2 )

ライセンス: Link先を確認
Xinlin Li, Bang Liu, Rui Heng Yang, Vanessa Courville, Chao Xing, Vahid Partovi Nia(参考訳) 低リソースのエッジデバイスにディープニューラルネットワークを効率的にデプロイするのは、リソース要件の増大が原因で難しい。 この問題に対処するため、研究者は2つの量子化のパワーや、メモリ使用量の削減と計算の簡素化を目的としたシフトネットワークなど、乗算フリーなニューラルネットワークを提案している。 しかし、既存の低ビットシフトネットワークはフル精度のネットワークほど正確ではなく、通常は制限されたウェイトレンジ符号化スキームと量子化損失に悩まされている。 本稿では,シフトネットワークの精度を大幅に向上し,視覚・音声アプリケーションのための全精度ネットワークと競合する性能を実現する高密度シフトネットワークを提案する。 さらに,非量子化浮動小数点アクティベーションを用いた効率的なDenseShiftネットワークのデプロイ手法を導入し,既存手法の1.6倍の高速化を実現した。 これを実現するために,低ビットシフトネットワークにおけるゼロウェイト値がモデルのキャパシティに寄与せず,推論計算に悪影響を及ぼすことを実証する。 そこで本研究では,モデルキャパシティの向上と推論を簡略化するゼロフリーシフト機構を提案する。 さらに,学習効率を向上させるための符号スケール分解設計と,モデルの伝達学習性能を向上させるための低分散ランダム初期化戦略を提案する。 様々なコンピュータビジョンおよび音声タスクに関する広範な実験により,高密度シフトは既存の低ビット乗算フリーネットワークよりも優れており,全精度ネットワークに比べて競争性能が向上することが示された。 さらに,提案手法は,精度を低下させることなく強い転送学習性能を示す。 私たちのコードはGitHubでリリースされました。

Efficiently deploying deep neural networks on low-resource edge devices is challenging due to their ever-increasing resource requirements. To address this issue, researchers have proposed multiplication-free neural networks, such as Power-of-Two quantization, or also known as Shift networks, which aim to reduce memory usage and simplify computation. However, existing low-bit Shift networks are not as accurate as their full-precision counterparts, typically suffering from limited weight range encoding schemes and quantization loss. In this paper, we propose the DenseShift network, which significantly improves the accuracy of Shift networks, achieving competitive performance to full-precision networks for vision and speech applications. In addition, we introduce a method to deploy an efficient DenseShift network using non-quantized floating-point activations, while obtaining 1.6X speed-up over existing methods. To achieve this, we demonstrate that zero-weight values in low-bit Shift networks do not contribute to model capacity and negatively impact inference computation. To address this issue, we propose a zero-free shifting mechanism that simplifies inference and increases model capacity. We further propose a sign-scale decomposition design to enhance training efficiency and a low-variance random initialization strategy to improve the model's transfer learning performance. Our extensive experiments on various computer vision and speech tasks demonstrate that DenseShift outperforms existing low-bit multiplication-free networks and achieves competitive performance compared to full-precision networks. Furthermore, our proposed approach exhibits strong transfer learning performance without a drop in accuracy. Our code was released on GitHub.
翻訳日:2023-09-27 04:54:32 公開日:2023-09-24
# 脳波を用いた脳電位予測のための畳み込みスパイクニューラルネットワーク

Convolutional Spiking Neural Networks for Detecting Anticipatory Brain Potentials Using Electroencephalogram ( http://arxiv.org/abs/2208.06900v2 )

ライセンス: Link先を確認
Nathan Lutes, Venkata Sriram Siddhardh Nadendla and K. Krishnamurthy(参考訳) スパイキングニューラルネットワーク(SNN)は、生物学的に妥当な機械学習モデルを開発する手段として注目を集めている。 これらのネットワークは人間の脳のシナプス接続を模倣し、二進数で近似できるスパイクトレインを生成し、浮動小数点演算回路による高い計算コストを予測している。 近年,畳み込みネットワークの特徴抽出能力とSNNの計算効率を組み合わせた畳み込み層が導入された。 本研究では,畳み込みスパイキングニューラルネットワーク(csnn)を分類器として使用することで,脳波(eeg)を用いた被験者の制動意図に関連する予測的緩い皮質電位を検出できる可能性について検討した。 脳波データは、被験者が都市環境をシミュレートしたテストベッド上で遠隔操作車を操作する実験中に収集された。 参加者は、音声カウントダウンを通じて入ってくるブレーキイベントに警告され、脳波を用いて測定された予測電位を導き出す。 CSNNのパフォーマンスは、10倍のクロスバリデーションによる標準畳み込みニューラルネットワーク(CNN)と3つのグラフニューラルネットワーク(GNN)と比較された。 その結果、CSNNは他のニューラルネットワークよりも優れていた。

Spiking neural networks (SNNs) are receiving increased attention as a means to develop "biologically plausible" machine learning models. These networks mimic synaptic connections in the human brain and produce spike trains, which can be approximated by binary values, precluding high computational cost with floating-point arithmetic circuits. Recently, the addition of convolutional layers to combine the feature extraction power of convolutional networks with the computational efficiency of SNNs has been introduced. In this paper, the feasibility of using a convolutional spiking neural network (CSNN) as a classifier to detect anticipatory slow cortical potentials related to braking intention in human participants using an electroencephalogram (EEG) was studied. The EEG data was collected during an experiment wherein participants operated a remote controlled vehicle on a testbed designed to simulate an urban environment. Participants were alerted to an incoming braking event via an audio countdown to elicit anticipatory potentials that were then measured using an EEG. The CSNN's performance was compared to a standard convolutional neural network (CNN) and three graph neural networks (GNNs) via 10-fold cross-validation. The results showed that the CSNN outperformed the other neural networks.
翻訳日:2023-09-27 04:54:04 公開日:2023-09-24
# Momentum Tracking:不均一データに基づく分散ディープラーニングのためのMomentumAcceleration

Momentum Tracking: Momentum Acceleration for Decentralized Deep Learning on Heterogeneous Data ( http://arxiv.org/abs/2209.15505v2 )

ライセンス: Link先を確認
Yuki Takezawa, Han Bao, Kenta Niwa, Ryoma Sato, Makoto Yamada(参考訳) 運動量を持つSGDは、ニューラルネットワークの性能向上の鍵となるコンポーネントの1つである。 分散学習において、運動量を用いた簡単なアプローチは、運動量を持つ分散SGD(DSGD)である。 しかし、DSGDmは統計学的に不均一な場合、DSGDよりも悪い。 近年,DSGDmよりもデータの不均一性に強いモーメントを持つ手法が提案されているが,データ分布が不均一である場合,その収束速度はデータの不均一性や劣化に依存している。 本研究では,データの不均質性に依存しない収束速度が証明される運動量を持つ手法である運動量追跡を提案する。 より具体的には、目的関数が非凸で確率勾配が用いられるような環境で、モーメント追跡の収束率を分析する。 すると、それは任意の運動量係数$\beta \in [0, 1)$に対するデータ不均一性とは独立である。 実験により、運動量追跡は、既存の分散学習法よりもデータ不均質性に頑健であり、データ分布が異質である場合、既存の方法よりも一貫して優れることを示した。

SGD with momentum is one of the key components for improving the performance of neural networks. For decentralized learning, a straightforward approach using momentum is Distributed SGD (DSGD) with momentum (DSGDm). However, DSGDm performs worse than DSGD when the data distributions are statistically heterogeneous. Recently, several studies have addressed this issue and proposed methods with momentum that are more robust to data heterogeneity than DSGDm, although their convergence rates remain dependent on data heterogeneity and deteriorate when the data distributions are heterogeneous. In this study, we propose Momentum Tracking, which is a method with momentum whose convergence rate is proven to be independent of data heterogeneity. More specifically, we analyze the convergence rate of Momentum Tracking in the setting where the objective function is non-convex and the stochastic gradient is used. Then, we identify that it is independent of data heterogeneity for any momentum coefficient $\beta \in [0, 1)$. Through experiments, we demonstrate that Momentum Tracking is more robust to data heterogeneity than the existing decentralized learning methods with momentum and can consistently outperform these existing methods when the data distributions are heterogeneous.
翻訳日:2023-09-27 04:42:04 公開日:2023-09-24
# パラメトリック分布ロバスト最適化フレームワークによる一般化におけるヘッジ複雑性

Hedging Complexity in Generalization via a Parametric Distributionally Robust Optimization Framework ( http://arxiv.org/abs/2212.01518v2 )

ライセンス: Link先を確認
Garud Iyengar, Henry Lam, Tianyu Wang(参考訳) 経験的リスク最小化(ERM)と分散ロバスト最適化(DRO)は、運用管理や機械学習に現れる確率的最適化問題を解決するための一般的なアプローチである。 これらの方法の既存の一般化誤差境界は、コスト関数の複雑さかランダム摂動の次元に左右される。 したがって、これらの手法の性能は、複雑な目的関数を持つ高次元問題では劣る可能性がある。 本稿では,パラメトリックな分布系列を用いて乱摂動分布を近似する簡単な手法を提案する。 これは両方の複雑さの原因を緩和するが、しかしながら、モデルのミススペクテーションエラーをもたらす。 この新たな誤差源は適切なDRO定式化によって制御可能であることを示す。 提案したパラメトリックDRO手法は,既存のEMM法とDRO法と多種多様な設定のためのパラメトリックEMR法よりも大幅に一般化された。 本手法は分散シフトにおいて特に有効であり,文脈最適化において広く機能する。 また、合成および実データポートフォリオ最適化と回帰タスクの両方において、我々のアプローチの優れた性能を示す。

Empirical risk minimization (ERM) and distributionally robust optimization (DRO) are popular approaches for solving stochastic optimization problems that appear in operations management and machine learning. Existing generalization error bounds for these methods depend on either the complexity of the cost function or dimension of the random perturbations. Consequently, the performance of these methods can be poor for high-dimensional problems with complex objective functions. We propose a simple approach in which the distribution of random perturbations is approximated using a parametric family of distributions. This mitigates both sources of complexity; however, it introduces a model misspecification error. We show that this new source of error can be controlled by suitable DRO formulations. Our proposed parametric DRO approach has significantly improved generalization bounds over existing ERM and DRO methods and parametric ERM for a wide variety of settings. Our method is particularly effective under distribution shifts and works broadly in contextual optimization. We also illustrate the superior performance of our approach on both synthetic and real-data portfolio optimization and regression tasks.
翻訳日:2023-09-27 04:35:34 公開日:2023-09-24
# 自律ナビゲーションのための目標誘導変圧器を用いた強化学習

Goal-Guided Transformer-Enabled Reinforcement Learning for Efficient Autonomous Navigation ( http://arxiv.org/abs/2301.00362v2 )

ライセンス: Link先を確認
Wenhui Huang, Yanxin Zhou, Xiangkun He, and Chen Lv(参考訳) 目標駆動ナビゲーションが成功したにもかかわらず、既存の深層強化学習(drl)ベースのアプローチは、データ効率の問題で悪名高い。 理由の1つは、目標情報が認識モジュールから切り離され、意思決定の条件として直接導入されるため、学習プロセス中に相手役を演じるシーン表現のゴール関連の特徴が生じることである。 そこで,本稿では,シーン表現を目標情報に結合し,効率的な自律ナビゲーションを実現するシーンエンコーダの入力として,物理的目標状態を考慮し,新たな目標誘導型トランスフォーマブル強化学習(gtrl)手法を提案する。 より具体的には、視覚トランスフォーマーを知覚システムのバックボーンとして、すなわち目標誘導トランスフォーマー(got)として提案する。 その後、意思決定システムのために強化学習アルゴリズムをインスタンス化し、gotから目標指向のシーン表現を入力とし、決定コマンドを生成する。 その結果,本手法は,DRL学習プロセスのデータ効率を大幅に向上させ,より優れたナビゲーション性能を実現するために,主にゴール関連機能に焦点を当てたシーン表現を動機付けている。 データ効率, 性能, 堅牢性, および sim-to-real generalization の観点から, シミュレーションおよび実世界の実験結果は, 他のSOTA(State-of-the-art)ベースラインと比較して, 我々のアプローチの優位性を示している。 デモビデオ(https://www.youtube.com/watch?v=aqJCHcsj4w0)とソースコード(https://github.com/OscarHuangWind/DRL-Transformer-SimtoReal-Navigation)も提供される。

Despite some successful applications of goal-driven navigation, existing deep reinforcement learning (DRL)-based approaches notoriously suffers from poor data efficiency issue. One of the reasons is that the goal information is decoupled from the perception module and directly introduced as a condition of decision-making, resulting in the goal-irrelevant features of the scene representation playing an adversary role during the learning process. In light of this, we present a novel Goal-guided Transformer-enabled reinforcement learning (GTRL) approach by considering the physical goal states as an input of the scene encoder for guiding the scene representation to couple with the goal information and realizing efficient autonomous navigation. More specifically, we propose a novel variant of the Vision Transformer as the backbone of the perception system, namely Goal-guided Transformer (GoT), and pre-train it with expert priors to boost the data efficiency. Subsequently, a reinforcement learning algorithm is instantiated for the decision-making system, taking the goal-oriented scene representation from the GoT as the input and generating decision commands. As a result, our approach motivates the scene representation to concentrate mainly on goal-relevant features, which substantially enhances the data efficiency of the DRL learning process, leading to superior navigation performance. Both simulation and real-world experimental results manifest the superiority of our approach in terms of data efficiency, performance, robustness, and sim-to-real generalization, compared with other state-of-the-art (SOTA) baselines. The demonstration video (https://www.youtube.com/watch?v=aqJCHcsj4w0) and the source code (https://github.com/OscarHuangWind/DRL-Transformer-SimtoReal-Navigation) are also provided.
翻訳日:2023-09-27 04:23:36 公開日:2023-09-24
# 高しきい値とバイアス付き核融合失敗に対するテーラー核融合による誤差補正

Tailoring fusion-based error correction for high thresholds to biased fusion failures ( http://arxiv.org/abs/2301.00019v2 )

ライセンス: Link先を確認
Kaavya Sahay, Jahan Claes, Shruti Puri(参考訳) 2ビットのPauli演算子$Z\otimes Z$ および $X\otimes X$ または fusions の測定結果に基づいて,XZXクラスタ状態による誤り訂正のためのフォールトトレラント(FT)アーキテクチャを導入する。 我々の構造は、主に核融合時のX$測定の失敗を引き起こすノイズに対して有効であるように調整されている。 この特徴は、二重レールフォトニック量子ビットを持つ線形光量子コンピューティングにおいて実用的な利点をもたらし、融合が失敗した場合、X\otimes X$測定結果のみを消去する。 このプラットフォームに我々の構築を適用することで、光子当たりゼロ損失率の実験的な状態において、融合失敗に対するFT閾値が25\%を超える記録的な高い値が得られ、ハードウェア要件が大幅に簡素化される。

We introduce fault-tolerant (FT) architectures for error correction with the XZZX cluster state based on performing measurements of two-qubit Pauli operators $Z\otimes Z$ and $X\otimes X$, or fusions, on a collection of few-body entangled resource states. Our construction is tailored to be effective against noise that predominantly causes faulty $X\otimes X$ measurements during fusions. This feature offers practical advantage in linear optical quantum computing with dual-rail photonic qubits, where failed fusions only erase $X\otimes X$ measurement outcomes. By applying our construction to this platform, we find a record high FT threshold to fusion failures exceeding $25\%$ in the experimentally relevant regime of non-zero loss rate per photon, considerably simplifying hardware requirements.
翻訳日:2023-09-27 04:23:05 公開日:2023-09-24
# 階層的コントラスト学習による湿潤気候の回復ビジョン

Restoring Vision in Hazy Weather with Hierarchical Contrastive Learning ( http://arxiv.org/abs/2212.11473v2 )

ライセンス: Link先を確認
Tao Wang, Guangpin Tao, Wanglong Lu, Kaihao Zhang, Wenhan Luo, Xiaoqin Zhang, Tong Lu(参考訳) 濃厚な気象条件下でのイメージ復元は、シングルイメージデハジングと呼ばれ、様々なコンピュータビジョンアプリケーションにとって大きな関心を集めている。 近年,ディープラーニングに基づく手法が成功している。 しかし、既存の画像デハジング手法は通常、ニューラルネットワークの特徴の階層を無視し、それらの関係を完全に活用することができない。 そこで本研究では,特徴融合とコントラスト学習戦略に基づくHCD(Hierarchical Contrastive Dehazing)という効果的な画像デハージング手法を提案する。 HCDは階層的デハージングネットワーク(HDN)と新しい階層的コントラスト損失(HCL)から構成される。 具体的には、HDNの中核設計は階層的な相互作用モジュールであり、マルチスケールのアクティベーションを利用して特徴応答を階層的に修正する。 本研究では,hdnの学習と協調するために,階層的な組合わせ例の対比学習を行い,ヘイズ除去を容易にするhclを提案する。 公開データセット(RESIDE、HazeRD、DENSE-HAZE)に関する大規模な実験は、HCDがPSNR、SSIMの点で最先端の手法を定量的に上回り、視覚的品質を向上させることを実証している。

Image restoration under hazy weather condition, which is called single image dehazing, has been of significant interest for various computer vision applications. In recent years, deep learning-based methods have achieved success. However, existing image dehazing methods typically neglect the hierarchy of features in the neural network and fail to exploit their relationships fully. To this end, we propose an effective image dehazing method named Hierarchical Contrastive Dehazing (HCD), which is based on feature fusion and contrastive learning strategies. HCD consists of a hierarchical dehazing network (HDN) and a novel hierarchical contrastive loss (HCL). Specifically, the core design in the HDN is a hierarchical interaction module, which utilizes multi-scale activation to revise the feature responses hierarchically. To cooperate with the training of HDN, we propose HCL which performs contrastive learning on hierarchically paired exemplars, facilitating haze removal. Extensive experiments on public datasets, RESIDE, HazeRD, and DENSE-HAZE, demonstrate that HCD quantitatively outperforms the state-of-the-art methods in terms of PSNR, SSIM and achieves better visual quality.
翻訳日:2023-09-27 04:22:46 公開日:2023-09-24
# 3DHumanGAN:3Dポッドマッピングによる人体画像生成

3DHumanGAN: 3D-Aware Human Image Generation with 3D Pose Mapping ( http://arxiv.org/abs/2212.07378v2 )

ライセンス: Link先を確認
Zhuoqian Yang, Shikai Li, Wayne Wu, Bo Dai(参考訳) 3DHumanGANは、視角と体の位置の異なる、一貫した外見を持つフルボディヒトの光現実像を合成する3D認識対向ネットワークである。 人体の調音構造を合成する上での表現的および計算的課題に対処するために,3次元ポーズマッピングネットワークによって2次元畳み込みバックボーンを変調する新しいジェネレータアーキテクチャを提案する。 3Dポーズマッピングネットワークは、3D人間のメッシュ上に条件付けられたレンダリング可能な暗黙の関数として定式化される。 このデザインにはいくつかのメリットがあります 一 2d ganの強度を利用して高品質な画像を作成すること。 二 異なる視野角及びポーズで一貫した画像を生成すること。 三 モデルは、3d人間を予め組み込んで、ポーズコンディショニングをすることができる。 プロジェクトページ: https://3dhumangan.github.io/

We present 3DHumanGAN, a 3D-aware generative adversarial network that synthesizes photorealistic images of full-body humans with consistent appearances under different view-angles and body-poses. To tackle the representational and computational challenges in synthesizing the articulated structure of human bodies, we propose a novel generator architecture in which a 2D convolutional backbone is modulated by a 3D pose mapping network. The 3D pose mapping network is formulated as a renderable implicit function conditioned on a posed 3D human mesh. This design has several merits: i) it leverages the strength of 2D GANs to produce high-quality images; ii) it generates consistent images under varying view-angles and poses; iii) the model can incorporate the 3D human prior and enable pose conditioning. Project page: https://3dhumangan.github.io/.
翻訳日:2023-09-27 04:21:34 公開日:2023-09-24
# T2M-GPT:離散表現によるテキスト記述からの人間の動きの生成

T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations ( http://arxiv.org/abs/2301.06052v4 )

ライセンス: Link先を確認
Jianrong Zhang, Yangsong Zhang, Xiaodong Cun, Shaoli Huang, Yong Zhang, Hongwei Zhao, Hongtao Lu and Xi Shen(参考訳) 本研究では,Vector Quantized-Variational AutoEncoder (VQ-VAE) とGenerative Pre-trained Transformer (GPT) に基づく簡易かつ必須な条件生成フレームワークについて検討する。 一般的なトレーニングレシピ (EMA と Code Reset) を用いた単純な CNN ベースの VQ-VAE により,高品質な離散表現が得られることを示す。 GPTでは、トレーニング中に簡単な汚職対策を取り入れて、トレーニングテストの相違を緩和する。 その単純さにもかかわらず、我々のT2M-GPTは、最近の拡散ベースのアプローチを含む競合アプローチよりも優れたパフォーマンスを示している。 例えば、現在最大のデータセットであるHumanML3Dでは、テキストと生成されたモーション(R-Precision)の一貫性で同等のパフォーマンスを実現していますが、FID 0.116ではMotionDiffuseの0.630を上回っています。 さらに、HumanML3Dの分析を行い、データセットのサイズが我々のアプローチの限界であることを観察する。 我々の研究は、VQ-VAEが未だに人間のモーション生成の競争的アプローチであることを示唆している。

In this work, we investigate a simple and must-known conditional generative framework based on Vector Quantised-Variational AutoEncoder (VQ-VAE) and Generative Pre-trained Transformer (GPT) for human motion generation from textural descriptions. We show that a simple CNN-based VQ-VAE with commonly used training recipes (EMA and Code Reset) allows us to obtain high-quality discrete representations. For GPT, we incorporate a simple corruption strategy during the training to alleviate training-testing discrepancy. Despite its simplicity, our T2M-GPT shows better performance than competitive approaches, including recent diffusion-based approaches. For example, on HumanML3D, which is currently the largest dataset, we achieve comparable performance on the consistency between text and generated motion (R-Precision), but with FID 0.116 largely outperforming MotionDiffuse of 0.630. Additionally, we conduct analyses on HumanML3D and observe that the dataset size is a limitation of our approach. Our work suggests that VQ-VAE still remains a competitive approach for human motion generation.
翻訳日:2023-09-27 04:13:19 公開日:2023-09-24
# 多層ハイパーグラフにおけるラプラシアンに基づく半教師付き学習

Laplacian-based Semi-Supervised Learning in Multilayer Hypergraphs by Coordinate Descent ( http://arxiv.org/abs/2301.12184v2 )

ライセンス: Link先を確認
Sara Venturini, Andrea Cristofari, Francesco Rinaldi, Francesco Tudisco(参考訳) Graph Semi-Supervised Learningは重要なデータ分析ツールであり、グラフとラベル付きノードのセットが与えられたら、ラベルを残らないノードに推論することを目的としている。 本稿では,無向グラフ問題に対する最適化に基づく定式化の検討から始めて,この定式化を多層ハイパーグラフに拡張する。 異なる座標勾配法を用いて問題を解き、古典的な勾配勾配法で得られた手法と比較する。 合成および実世界のデータセットの実験は、適切な選択規則を持つ座標降下法を用いることの可能性を示している。

Graph Semi-Supervised learning is an important data analysis tool, where given a graph and a set of labeled nodes, the aim is to infer the labels to the remaining unlabeled nodes. In this paper, we start by considering an optimization-based formulation of the problem for an undirected graph, and then we extend this formulation to multilayer hypergraphs. We solve the problem using different coordinate descent approaches and compare the results with the ones obtained by the classic gradient descent method. Experiments on synthetic and real-world datasets show the potential of using coordinate descent methods with suitable selection rules.
翻訳日:2023-09-27 04:00:52 公開日:2023-09-24
# 置換同変神経機能

Permutation Equivariant Neural Functionals ( http://arxiv.org/abs/2302.14040v2 )

ライセンス: Link先を確認
Allan Zhou, Kaien Yang, Kaylee Burns, Adriano Cardace, Yiding Jiang, Samuel Sokota, J. Zico Kolter, Chelsea Finn(参考訳) 本研究は,神経機能ネットワーク(nfns)と呼ばれる他のニューラルネットワークの重みや勾配を処理可能なニューラルネットワークの設計を研究する。 学習された最適化、暗黙のニューラルネットワーク表現の処理、ネットワーク編集、ポリシー評価など、幅広い潜在的なアプリケーションにもかかわらず、他のネットワークの重み付けを処理する効果的なアーキテクチャを設計するための統一的な原則は少ない。 特に,隠れた層ニューロンは固有順序を持たないため,ディープフィードフォワードネットワークの重みに生じる置換対称性に注目して,対称性のレンズを通して神経機能設計にアプローチする。 これらの対称性をインダクティブバイアスとしてエンコードした、置換同変ニューラル汎関数を構築するためのフレームワークを提案する。 このフレームワークの主要なビルディングブロックは、適切なパラメータ共有スキームによって置換同変を制約するNF-Layers(神経機能層)である。 本実験では,mlpとcnnの重みを処理し,分類器の一般化予測,初期化のための「勝利チケット」スパルシティマスクの作成,暗黙的神経表現(inrs)の分類・編集といったタスクにおいて,置換同変ニューラル関数が有効であることを見出した。 さらに、モデルと実験用のコードもhttps://github.com/allanyangzhou/nfnで提供しています。

This work studies the design of neural networks that can process the weights or gradients of other neural networks, which we refer to as neural functional networks (NFNs). Despite a wide range of potential applications, including learned optimization, processing implicit neural representations, network editing, and policy evaluation, there are few unifying principles for designing effective architectures that process the weights of other networks. We approach the design of neural functionals through the lens of symmetry, in particular by focusing on the permutation symmetries that arise in the weights of deep feedforward networks because hidden layer neurons have no inherent order. We introduce a framework for building permutation equivariant neural functionals, whose architectures encode these symmetries as an inductive bias. The key building blocks of this framework are NF-Layers (neural functional layers) that we constrain to be permutation equivariant through an appropriate parameter sharing scheme. In our experiments, we find that permutation equivariant neural functionals are effective on a diverse set of tasks that require processing the weights of MLPs and CNNs, such as predicting classifier generalization, producing "winning ticket" sparsity masks for initializations, and classifying or editing implicit neural representations (INRs). In addition, we provide code for our models and experiments at https://github.com/AllanYangZhou/nfn.
翻訳日:2023-09-27 03:55:30 公開日:2023-09-24
# DeepBrainPrint:脳MRI再同定のための新しいコントラストフレームワーク

DeepBrainPrint: A Novel Contrastive Framework for Brain MRI Re-Identification ( http://arxiv.org/abs/2302.13057v2 )

ライセンス: Link先を確認
Lemuel Puglisi (for the Alzheimer's Disease Neuroimaging Initiative), Frederik Barkhof, Daniel C. Alexander, Geoffrey JM Parker, Arman Eshaghi, Daniele Rav\`i(参考訳) MRIの最近の進歩は、大規模なデータセットの作成につながっている。 データ量の増加に伴い、これらのデータセット(再同定として知られるプロセス)内で同じ患者の以前のスキャンを見つけることが困難になっている。 そこで本研究では,同一患者の脳mriスキャンを検索するために,deepbrainprintというaiを利用した医用画像検索フレームワークを提案する。 当社のフレームワークは,3つの主要なイノベーションを伴う,半自己指導型のコントラスト型ディープラーニングアプローチです。 まず、自己監督パラダイムと教師付きパラダイムを組み合わせて、リアルタイムの画像検索に使用できるMRIスキャンから効果的な脳指紋を作成する。 第2に,特別な重み付け関数を用いてトレーニングを指導し,モデルの収束性を改善する。 第3に, 強度変化の有無(スキャンコントラストの違いなど)の再現性の向上と, 高齢者の年齢, 疾患の進行を考慮し, 新しい画像変換を導入する。 DeepBrainPrintは、アルツハイマー病神経画像イニシアチブ(ADNI)のT1強調脳MRIの大規模なデータセットと、異なる画像モダリティで検索性能を評価するために設計された合成データセットを用いてテストした。 以上の結果から,DeepBrainPrintは,単純な類似度指標や高度なコントラスト学習フレームワークなど,従来の手法よりも優れていた。

Recent advances in MRI have led to the creation of large datasets. With the increase in data volume, it has become difficult to locate previous scans of the same patient within these datasets (a process known as re-identification). To address this issue, we propose an AI-powered medical imaging retrieval framework called DeepBrainPrint, which is designed to retrieve brain MRI scans of the same patient. Our framework is a semi-self-supervised contrastive deep learning approach with three main innovations. First, we use a combination of self-supervised and supervised paradigms to create an effective brain fingerprint from MRI scans that can be used for real-time image retrieval. Second, we use a special weighting function to guide the training and improve model convergence. Third, we introduce new imaging transformations to improve retrieval robustness in the presence of intensity variations (i.e. different scan contrasts), and to account for age and disease progression in patients. We tested DeepBrainPrint on a large dataset of T1-weighted brain MRIs from the Alzheimer's Disease Neuroimaging Initiative (ADNI) and on a synthetic dataset designed to evaluate retrieval performance with different image modalities. Our results show that DeepBrainPrint outperforms previous methods, including simple similarity metrics and more advanced contrastive deep learning frameworks.
翻訳日:2023-09-27 03:54:33 公開日:2023-09-24
# 数十ミリ秒の単一光子コヒーレンス時間を持つ超伝導キャビティ量子ビット

Superconducting cavity qubit with tens of milliseconds single-photon coherence time ( http://arxiv.org/abs/2302.06442v3 )

ライセンス: Link先を確認
Ofir Milul, Barkay Guttel, Uri Goldblatt, Sergey Hazanov, Lalit M. Joshi, Daniel Chausovsky, Nitzan Kahn, Engin \c{C}ifty\"urek, Fabien Lafont, and Serge Rosenblum(参考訳) 量子情報を長期間保存することは、低い誤差で量子アルゴリズムを実行する上で必須である。 現在、超伝導量子メモリは数ミリ秒のコヒーレンス時間を持ち、この性能を超えることは大きな課題である。 本研究では,34msのコヒーレンス時間を有する新しい超伝導キャビティで符号化された量子ビットについて報告する。 我々は、この長寿命の量子メモリを用いて、1024光子という記録的な大きさのシュリンガー猫状態を保存し、空洞のボゾン量子誤差補正の可能性を示している。

Storing quantum information for an extended period of time is essential for running quantum algorithms with low errors. Currently, superconducting quantum memories have coherence times of a few milliseconds, and surpassing this performance has remained an outstanding challenge. In this work, we report a qubit encoded in a novel superconducting cavity with a coherence time of 34 ms, an improvement of over an order of magnitude compared to previous demonstrations. We use this long-lived quantum memory to store a Schr\"odinger cat state with a record size of 1024 photons, indicating the cavity's potential for bosonic quantum error correction.
翻訳日:2023-09-27 03:51:22 公開日:2023-09-24
# CoGANPPIS:タンパク質-タンパク質相互作用サイト予測のための共進化型グローバルアテンションニューラルネットワーク

CoGANPPIS: A Coevolution-enhanced Global Attention Neural Network for Protein-Protein Interaction Site Prediction ( http://arxiv.org/abs/2303.06945v4 )

ライセンス: Link先を確認
Jiaxing Guo, Xuening Zhu, Zixin Hu, Xiaoxi Hu(参考訳) タンパク質とタンパク質の相互作用は生化学的プロセスにおいて非常に重要である。 タンパク質-タンパク質相互作用部位(PPI)の正確な予測は,生物機構の解明に不可欠である。 Although numerous approaches have been developed recently and achieved gratifying results, there are still two limitations: (1) Most existing models have excavated a number of useful input features, but failed to take coevolutionary features into account, which could provide clues for inter-residue relationships; (2) The attention-based models only allocate attention weights for neighboring residues, instead of doing it globally, which may limit the model's prediction performance since some residues being far away from the target residues might also matter. 我々は,CGANPPISと呼ばれるPPI予測のためのシーケンスベースディープラーニングモデルである,共進化型グローバルアテンションニューラルネットワークを提案する。 Specifically, CoGANPPIS utilizes three layers in parallel for feature extraction: (1) Local-level representation aggregation layer, which aggregates the neighboring residues' features as the local feature representation; (2) Global-level representation learning layer, which employs a novel coevolution-enhanced global attention mechanism to allocate attention weights to all residues on the same protein sequences; (3) Coevolutionary information learning layer, which applies CNN & pooling to coevolutionary information to obtain the coevolutionary profile representation. そして、3つの出力が連結され、最終予測のために複数の完全連結層に渡される。 2つのベンチマークデータセットに対する大規模な実験を行い、提案モデルが最先端の性能を達成することを示す。

Protein-protein interactions are of great importance in biochemical processes. Accurate prediction of protein-protein interaction sites (PPIs) is crucial for our understanding of biological mechanism. Although numerous approaches have been developed recently and achieved gratifying results, there are still two limitations: (1) Most existing models have excavated a number of useful input features, but failed to take coevolutionary features into account, which could provide clues for inter-residue relationships; (2) The attention-based models only allocate attention weights for neighboring residues, instead of doing it globally, which may limit the model's prediction performance since some residues being far away from the target residues might also matter. We propose a coevolution-enhanced global attention neural network, a sequence-based deep learning model for PPIs prediction, called CoGANPPIS. Specifically, CoGANPPIS utilizes three layers in parallel for feature extraction: (1) Local-level representation aggregation layer, which aggregates the neighboring residues' features as the local feature representation; (2) Global-level representation learning layer, which employs a novel coevolution-enhanced global attention mechanism to allocate attention weights to all residues on the same protein sequences; (3) Coevolutionary information learning layer, which applies CNN & pooling to coevolutionary information to obtain the coevolutionary profile representation. Then, the three outputs are concatenated and passed into several fully connected layers for the final prediction. Extensive experiments on two benchmark datasets have been conducted, demonstrating that our proposed model achieves the state-of-the-art performance.
翻訳日:2023-09-27 03:43:31 公開日:2023-09-24
# 運動誘導型変形性アライメントとマルチレゾリューション融合を用いた自由呼吸下心内MRIの再建

Reconstruction of Cardiac Cine MRI under Free-breathing using Motion-guided Deformable Alignment and Multi-resolution Fusion ( http://arxiv.org/abs/2303.04968v3 )

ライセンス: Link先を確認
Xiaoxiang Han, Qiaohong Liu, Yiman Liu, Keyan Chen, Yuanjie Lin and Weikun Zhang(参考訳) 目的:心臓の磁気共鳴画像(MRI)は心臓機能と血管の異常を評価する重要な手段の1つである。 しかし, 長期にわたる心的拍動, 血流, あるいは患者の不随意運動により, 再建された画像は, 臨床診断に影響を及ぼす運動アーチファクトになりがちである。 そのため,高画質な画像を得るためには心血管MRIの高速化が必要である。 アプローチ: 自由呼吸条件下での心血管MRI再建を改善するために, 新たなエンドツーエンドディープラーニングネットワークを開発した。 まず、初期再構成画像をk空間で取得するためにU-Netを採用する。 さらに、モーションガイド型変形性アライメント(MGDA)法と2次双方向伝搬法を導入し、空間的時間的情報を最大化し、モーションアーティファクトを緩和し、隣接するシネMRIフレームを整列させる。 最後に、Multi-Resolution Fusion (MRF)モジュールは、アライメント操作から発生するぼかしやアーティファクトを補正し、最後の高品質な心画像を得るように設計されている。 主な結果: 8$\times$Accelerration rateでは、ACDCデータセットの数値測定値は78.40%$\pm$4.57%、PSNR 30.46$\pm$1.22 dB、NMSE 0.0468$\pm$0.0075である。 ACMRIデータセットでは、SSIMは87.65%$\pm$4.20%、PSNRは30.04$\pm$1.18 dB、NMSEは0.0473$\pm$0.0072である。 意義: 提案手法は, 自由呼吸条件下での異なる加速度に対する心血管MRI再建のための, よりリッチな細部と少ない人工物で高品質な結果を示す。

Objective: Cardiac cine magnetic resonance imaging (MRI) is one of the important means to assess cardiac functions and vascular abnormalities. However, due to cardiac beat, blood flow, or the patient's involuntary movement during the long acquisition, the reconstructed images are prone to motion artifacts that affect the clinical diagnosis. Therefore, accelerated cardiac cine MRI acquisition to achieve high-quality images is necessary for clinical practice. Approach: A novel end-to-end deep learning network is developed to improve cardiac cine MRI reconstruction under free breathing conditions. First, a U-Net is adopted to obtain the initial reconstructed images in k-space. Further to remove the motion artifacts, the Motion-Guided Deformable Alignment (MGDA) method with second-order bidirectional propagation is introduced to align the adjacent cine MRI frames by maximizing spatial-temporal information to alleviate motion artifacts. Finally, the Multi-Resolution Fusion (MRF) module is designed to correct the blur and artifacts generated from alignment operation and obtain the last high-quality reconstructed cardiac images. Main results: At an 8$\times$ acceleration rate, the numerical measurements on the ACDC dataset are SSIM of 78.40%$\pm$4.57%, PSNR of 30.46$\pm$1.22 dB, and NMSE of 0.0468$\pm$0.0075. On the ACMRI dataset, the results are SSIM of 87.65%$\pm$4.20%, PSNR of 30.04$\pm$1.18 dB, and NMSE of 0.0473$\pm$0.0072. Significance: The proposed method exhibits high-quality results with richer details and fewer artifacts for cardiac cine MRI reconstruction on different accelerations under free breathing conditions.
翻訳日:2023-09-27 03:42:05 公開日:2023-09-24
# 逆量子アニーリングによる初期状態エンコーディングとh-gain特徴

Initial State Encoding via Reverse Quantum Annealing and h-gain Features ( http://arxiv.org/abs/2303.13748v2 )

ライセンス: Link先を確認
Elijah Pelofske, Georg Hahn, Hristo Djidjev(参考訳) 量子アニーリング(quantum annealing)は、組合せ最適化問題の大域的最小解を得るために量子揺らぎを利用する特殊な量子計算手法である。 プログラム可能なD-Wave量子アニールは、ユーザーが量子アニール制御機能への低レベルアクセスを可能にするクラウドコンピューティングリソースとして利用できる。 本稿では,初期状態をアニールプロセスにエンコードすることで,量子アニールによって返される溶液の品質を向上させることに関心がある。 このような初期状態を符号化できる2つのD-Wave機能、リバースアニーリングとh-ゲイン機能について検討する。 Reverse annealing (RA) は、良い解を表す古典的な状態から始まり、逆の場が存在する点へ後退し、前方のアニールでアニール処理を終了する既知の解を洗練することを目的としている。 h-ゲイン(HG)機能により、ハミルトニアンの線形(h$)バイアスに時間依存重み付けスキームを配置することができる。 また,RAに類似した後方位相とHG初期状態符号化を用いた前方位相のハイブリッド手法も検討した。 問題に対してRAとHGを反復的に適用するという考え方を,最適でない初期状態を単調に改善することを目的として検討する。 HGエンコーディング技術は、エッジ重み付き最大カット問題や頂点重み付き最大斜め問題など様々な入力問題に基づいて評価され、いくつかの問題に対してHG手法がRAの代替となることを示す。 また,D-Wave ChimeraチップとPegasusチップのネイティブハードウェア接続により,ランダムな全チップスピングラス上でRAおよびHG初期状態の符号化を行う方法についても検討した。

Quantum annealing is a specialized type of quantum computation that aims to use quantum fluctuations in order to obtain global minimum solutions of combinatorial optimization problems. Programmable D-Wave quantum annealers are available as cloud computing resources which allow users low level access to quantum annealing control features. In this paper, we are interested in improving the quality of the solutions returned by a quantum annealer by encoding an initial state into the annealing process. We explore two D-Wave features allowing one to encode such an initial state: the reverse annealing and the h-gain features. Reverse annealing (RA) aims to refine a known solution following an anneal path starting with a classical state representing a good solution, going backwards to a point where a transverse field is present, and then finishing the annealing process with a forward anneal. The h-gain (HG) feature allows one to put a time-dependent weighting scheme on linear ($h$) biases of the Hamiltonian, and we demonstrate that this feature likewise can be used to bias the annealing to start from an initial state. We also consider a hybrid method consisting of a backward phase resembling RA, and a forward phase using the HG initial state encoding. Importantly, we investigate the idea of iteratively applying RA and HG to a problem, with the goal of monotonically improving on an initial state that is not optimal. The HG encoding technique is evaluated on a variety of input problems including the edge-weighted Maximum Cut problem and the vertex-weighted Maximum Clique problem, demonstrating that the HG technique is a viable alternative to RA for some problems. We also investigate how the iterative procedures perform for both RA and HG initial state encoding on random whole-chip spin glasses with the native hardware connectivity of the D-Wave Chimera and Pegasus chips.
翻訳日:2023-09-27 03:34:17 公開日:2023-09-24
# ai支援インタラクティブセグメンテーションのための適応型マルチスケールオンラインラバースネットワーク

Adaptive Multi-scale Online Likelihood Network for AI-assisted Interactive Segmentation ( http://arxiv.org/abs/2303.13696v2 )

ライセンス: Link先を確認
Muhammad Asad and Helena Williams and Indrajeet Mandal and Sarim Ather and Jan Deprest and Jan D'hooge and Tom Vercauteren(参考訳) 既存の対話的セグメンテーション手法はラベルリファインメントに自動セグメンテーションとユーザインタラクションを活用し、手動アノテーションと比較してアノテーションの負荷を大幅に削減する。 しかし、これらの方法は曖昧で騒がしいデータに素早く適応できないため、covid-19患者からの肺病変を含むctでは課題となっている。 本研究では,初期自動セグメンテーションと修正を提供するユーザインタラクションの両方から,データ効率の良いオンラインセグメンテーションで適応的に学習する適応型マルチスケールオンラインラバースネットワーク(monet)を提案する。 類似した特徴を持つ隣接領域にユーザが提供するインタラクションの影響を拡張する適応的損失を提案することで、適応学習を実現する。 さらに,オンライン学習と推論を効率的に行えるように,初期セグメンテーションにおける不確かで冗長なラベルを破棄するデータ効率の高い確率誘導型プルーニング手法を提案する。 提案法は,CT における COVID-19 肺病変診断タスクに関する盲検比較研究のエキスパートにより評価された。 我々のアプローチは、Diceのスコアが5.86%高く、NASA-TLXのワークロードスコアが最先端よりも24.67%低かった。 ソースコードはhttps://github.com/masadcv/monet-monailabel

Existing interactive segmentation methods leverage automatic segmentation and user interactions for label refinement, significantly reducing the annotation workload compared to manual annotation. However, these methods lack quick adaptability to ambiguous and noisy data, which is a challenge in CT volumes containing lung lesions from COVID-19 patients. In this work, we propose an adaptive multi-scale online likelihood network (MONet) that adaptively learns in a data-efficient online setting from both an initial automatic segmentation and user interactions providing corrections. We achieve adaptive learning by proposing an adaptive loss that extends the influence of user-provided interaction to neighboring regions with similar features. In addition, we propose a data-efficient probability-guided pruning method that discards uncertain and redundant labels in the initial segmentation to enable efficient online training and inference. Our proposed method was evaluated by an expert in a blinded comparative study on COVID-19 lung lesion annotation task in CT. Our approach achieved 5.86% higher Dice score with 24.67% less perceived NASA-TLX workload score than the state-of-the-art. Source code is available at: https://github.com/masadcv/MONet-MONAILabel
翻訳日:2023-09-27 03:33:41 公開日:2023-09-24
# 動的グラフ学習の改善に向けて: 新しいアーキテクチャと統一ライブラリ

Towards Better Dynamic Graph Learning: New Architecture and Unified Library ( http://arxiv.org/abs/2303.13047v2 )

ライセンス: Link先を確認
Le Yu, Leilei Sun, Bowen Du, Weifeng Lv(参考訳) 動的グラフ学習のための新しいトランスフォーマーアーキテクチャであるDyGFormerを提案する。 DyGFormerは概念的にはシンプルで,(1)ソースノードと宛先ノードの相関関係を探索する隣接する共起符号化方式,(2)各シーケンスを複数のパッチに分割してTransformerにフィードするパッチ技術により,モデルがより長い履歴から効果的に利益を得ることを可能にする。 また、標準的なトレーニングパイプライン、拡張可能なコーディングインターフェース、再現可能でスケーラブルで信頼性の高い動的グラフ学習研究を促進する包括的な評価プロトコルを備えた統合ライブラリDyGLibも導入した。 動的リンク予測および動的ノード分類タスクのための13のデータセットに対する徹底的な実験を行うことで、DyGFormerは、ほとんどのデータセットで最先端のパフォーマンスを達成し、ノードの相関関係と長期の時間的依存関係をキャプチャする効果を示す。 さらに、ベースラインの結果は、DyGLibの重要性を示す、多様だが厳格でない実装によって引き起こされた、以前のレポートと矛盾するものもある。 使用中のリソースはすべてhttps://github.com/yule-BUAA/DyGLibで公開されている。

We propose DyGFormer, a new Transformer-based architecture for dynamic graph learning. DyGFormer is conceptually simple and only needs to learn from nodes' historical first-hop interactions by: (1) a neighbor co-occurrence encoding scheme that explores the correlations of the source node and destination node based on their historical sequences; (2) a patching technique that divides each sequence into multiple patches and feeds them to Transformer, allowing the model to effectively and efficiently benefit from longer histories. We also introduce DyGLib, a unified library with standard training pipelines, extensible coding interfaces, and comprehensive evaluating protocols to promote reproducible, scalable, and credible dynamic graph learning research. By performing exhaustive experiments on thirteen datasets for dynamic link prediction and dynamic node classification tasks, we find that DyGFormer achieves state-of-the-art performance on most of the datasets, demonstrating its effectiveness in capturing nodes' correlations and long-term temporal dependencies. Moreover, some results of baselines are inconsistent with previous reports, which may be caused by their diverse but less rigorous implementations, showing the importance of DyGLib. All the used resources are publicly available at https://github.com/yule-BUAA/DyGLib.
翻訳日:2023-09-27 03:33:05 公開日:2023-09-24
# 健康情報学における大規模aiモデル:応用,課題,未来

Large AI Models in Health Informatics: Applications, Challenges, and the Future ( http://arxiv.org/abs/2303.11568v2 )

ライセンス: Link先を確認
Jianing Qiu, Lin Li, Jiankai Sun, Jiachuan Peng, Peilun Shi, Ruiyang Zhang, Yinzhao Dong, Kyle Lam, Frank P.-W. Lo, Bo Xiao, Wu Yuan, Ningli Wang, Dong Xu, Benny Lo(参考訳) 大規模なAIモデル、あるいは基礎モデル(ファウンデーションモデル)は、パラメータとデータの両方の大規模なモデルが最近登場し、その規模は数十億を超えている。 トレーニング済みの大規模なAIモデルは、さまざまな下流タスクで素晴らしいパフォーマンスを示す。 主な例としてChatGPTがあり、大きなAIモデルが持つ影響と、私たちの生活のさまざまな領域を変える可能性について、人々の想像力を押し付けました。 健康情報学において、大規模AIモデルの出現は方法論の設計に新たなパラダイムをもたらした。 バイオメディカルおよびヘルス分野におけるマルチモーダルデータのスケールは、特に、コミュニティがディープラーニングの時代を受け入れて以来、健康関連分野におけるブレークスルーのための大規模なAIモデルの開発、検証、進歩の場を提供してきた。 この記事では、バックグラウンドからアプリケーションまで、大規模なAIモデルの包括的なレビューを紹介する。 大規模aiモデルが適用可能な7つの重要なセクタを識別し,その影響範囲を明らかにした。 1)生物情報学 2) 医療診断 3) 医用画像 4) 医療情報学 5) 医学教育 6) 公衆衛生,及び 7) 医療ロボティクス。 健康情報学の分野を変革する上で、大きなAIモデルの潜在的な方向性と落とし穴について批判的な議論を行う。

Large AI models, or foundation models, are models recently emerging with massive scales both parameter-wise and data-wise, the magnitudes of which can reach beyond billions. Once pretrained, large AI models demonstrate impressive performance in various downstream tasks. A prime example is ChatGPT, whose capability has compelled people's imagination about the far-reaching influence that large AI models can have and their potential to transform different domains of our lives. In health informatics, the advent of large AI models has brought new paradigms for the design of methodologies. The scale of multi-modal data in the biomedical and health domain has been ever-expanding especially since the community embraced the era of deep learning, which provides the ground to develop, validate, and advance large AI models for breakthroughs in health-related areas. This article presents a comprehensive review of large AI models, from background to their applications. We identify seven key sectors in which large AI models are applicable and might have substantial influence, including 1) bioinformatics; 2) medical diagnosis; 3) medical imaging; 4) medical informatics; 5) medical education; 6) public health; and 7) medical robotics. We examine their challenges, followed by a critical discussion about potential future directions and pitfalls of large AI models in transforming the field of health informatics.
翻訳日:2023-09-27 03:32:14 公開日:2023-09-24
# 二元積分布に対する多項式時間、純粋微分プライベート推定器

A Polynomial Time, Pure Differentially Private Estimator for Binary Product Distributions ( http://arxiv.org/abs/2304.06787v3 )

ライセンス: Link先を確認
Vikrant Singhal(参考訳) 我々は,全変数距離で正確に$\{0,1\}^d$ の積分布平均を推定する最初の$\varepsilon$-differentially private, computationally efficientアルゴリズムを提案する。 以前の作業では、この問題をより弱いプライバシー概念の下で効率的かつ最適に解決するか、指数的な実行時間を持ちながら最適に解決していた。

We present the first $\varepsilon$-differentially private, computationally efficient algorithm that estimates the means of product distributions over $\{0,1\}^d$ accurately in total-variation distance, whilst attaining the optimal sample complexity to within polylogarithmic factors. The prior work had either solved this problem efficiently and optimally under weaker notions of privacy, or had solved it optimally while having exponential running times.
翻訳日:2023-09-27 03:22:44 公開日:2023-09-24
# 個人化テキスト画像生成のための制御可能なテキストインバージョン

Controllable Textual Inversion for Personalized Text-to-Image Generation ( http://arxiv.org/abs/2304.05265v3 )

ライセンス: Link先を確認
Jianan Yang, Haobo Wang, Yanming Zhang, Ruixuan Xiao, Sai Wu, Gang Chen, Junbo Zhao(参考訳) 最近の大規模生成モデリングは、特にテキストプロンプトによって駆動される高忠実度画像の生成において、前例のない性能を達成した。 text inversion(ti)は、text-to-imageモデルバックボーンと共に、プロンプトがユーザ定義、未認識、あるいはロングテールの概念トークンを含む場合に、生成をパーソナライズするための効果的な技術として提案されている。 それにもかかわらず、TIのデプロイメントは依然として"暗黒の魔術"に満ちており、例えば、追加データセットの厳しい要求、ループにおける厳しい人的努力、堅牢性の欠如などがあります。 本研究では,制御可能なテキスト・インバージョン(COTI)と呼ばれるTIの高機能バージョンを提案し,上記の問題をすべて解決し,堅牢でデータ効率の良い,使いやすいフレームワークを提供する。 COTIの中核は、アクティブラーニングパラダイムによってカプセル化された、包括的で斬新なスコアリング機構でインスタンス化された理論的に誘導された損失目標である。 広範な結果は、cotiが以前のti関連アプローチを大きく上回り、fidスコアが26.05減少し、r-precisionが23.00%上昇したことを示している。

The recent large-scale generative modeling has attained unprecedented performance especially in producing high-fidelity images driven by text prompts. Text inversion (TI), alongside the text-to-image model backbones, is proposed as an effective technique in personalizing the generation when the prompts contain user-defined, unseen or long-tail concept tokens. Despite that, we find and show that the deployment of TI remains full of "dark-magics" -- to name a few, the harsh requirement of additional datasets, arduous human efforts in the loop and lack of robustness. In this work, we propose a much-enhanced version of TI, dubbed Controllable Textual Inversion (COTI), in resolving all the aforementioned problems and in turn delivering a robust, data-efficient and easy-to-use framework. The core to COTI is a theoretically-guided loss objective instantiated with a comprehensive and novel weighted scoring mechanism, encapsulated by an active-learning paradigm. The extensive results show that COTI significantly outperforms the prior TI-related approaches with a 26.05 decrease in the FID score and a 23.00% boost in the R-precision.
翻訳日:2023-09-27 03:22:34 公開日:2023-09-24
# モデルリスク管理のためのモノトニック性に対処するには?

How to address monotonicity for model risk management? ( http://arxiv.org/abs/2305.00799v2 )

ライセンス: Link先を確認
Dangxing Chen, Weicheng Ye(参考訳) 本稿では,モノトニック性を用いた透明機械学習モデルの説明責任と公平性を確立することの課題について検討する。 個々の単調性について多くの研究がなされているが、一調性は既存の文献ではしばしば見過ごされている。 本稿では, 個々の単調性, 弱い一調性, 強い一調性という3種類の単調性の存在下での透明ニューラルネットワークについて検討する。 透明性を維持しながら単調性を達成するために,神経添加モデルの単調グローブを提案する。 実証実験の結果, モノトニック性は実際にしばしば侵害され, 神経付加モデルのモノトニックグローブは透明であり, 説明可能であり, 公平であることがわかった。

In this paper, we study the problem of establishing the accountability and fairness of transparent machine learning models through monotonicity. Although there have been numerous studies on individual monotonicity, pairwise monotonicity is often overlooked in the existing literature. This paper studies transparent neural networks in the presence of three types of monotonicity: individual monotonicity, weak pairwise monotonicity, and strong pairwise monotonicity. As a means of achieving monotonicity while maintaining transparency, we propose the monotonic groves of neural additive models. As a result of empirical examples, we demonstrate that monotonicity is often violated in practice and that monotonic groves of neural additive models are transparent, accountable, and fair.
翻訳日:2023-09-27 03:03:00 公開日:2023-09-24
# Connected Hidden Neurons (CHNNet): 高速収束のためのニューラルネットワーク

Connected Hidden Neurons (CHNNet): An Artificial Neural Network for Rapid Convergence ( http://arxiv.org/abs/2305.10468v2 )

ライセンス: Link先を確認
Rafiad Sadat Shahir, Zayed Humayun, Mashrufa Akter Tamim, Shouri Saha, Md. Golam Rabiul Alam(参考訳) ニューラルネットワークは、生物学的ニューラルネットワークの機能にインスパイアされたものの、従来のニューラルネットワークは階層的に構築されることが多く、同じ層のニューロンがそれらの間の接続を持たないため、ニューロン間の情報の流れを阻害する可能性がある。 そこで本研究では,同じ隠れ層に存在する隠れたニューロンが相互に結合し,急速に収束する人工ニューラルネットワークのより頑健なモデルを提案する。 深層ネットワークにおける提案モデルの実験研究により,従来のフィードフォワードニューラルネットワークと比較して,モデルが顕著な収束率の向上をもたらすことを示した。

Despite artificial neural networks being inspired by the functionalities of biological neural networks, unlike biological neural networks, conventional artificial neural networks are often structured hierarchically, which can impede the flow of information between neurons as the neurons in the same layer have no connections between them. Hence, we propose a more robust model of artificial neural networks where the hidden neurons, residing in the same hidden layer, are interconnected that leads to rapid convergence. With the experimental study of our proposed model in deep networks, we demonstrate that the model results in a noticeable increase in convergence rate compared to the conventional feed-forward neural network.
翻訳日:2023-09-27 02:52:17 公開日:2023-09-24
# 量子信頼性

Quantum reliability ( http://arxiv.org/abs/2305.08461v3 )

ライセンス: Link先を確認
L.X.Cui, Y-M.Du, and C.P.Sun(参考訳) 量子技術はますます高度で複雑な量子デバイスを生み出した。 信頼性(量子信頼性)を評価することは重要な問題です。 古典機器の信頼性理論は産業や技術でよく研究されているが、量子信頼性と損失に関する適切な指標は体系的に研究されていない。 信頼性損失はプロセスに依存するため、量子忠実性は必ずしもそれを完全に描写するとは限らない。 本研究は,状態分散から軌道分離へ焦点を移すことで,量子信頼性の指標を提供する。 従来の古典的信頼性の概念とは対照的に、二項論理変数の確率的測定を用いて評価される量子信頼性は、量子確率振幅や波動関数に基礎を置いている。 この研究は、古典デバイスと量子デバイスの両方を含む信頼性理論の普遍的な枠組みを提供する。 デバイスが実行している実際の量子プロセスがパフォーマンスにどの程度影響するかを解明することで、量子エンジニアリングに関する新たな視点を提供する。

Quantum technology has led to increasingly sophisticated and complex quantum devices. Assessing their reliability (quantum reliability) is an important issue. Although reliability theory for classical devices has been well developed in industry and technology, a suitable metric on quantum reliability and its loss has not been systematically investigated. Since reliability-loss depends on the process, quantum fidelity does not always fully depict it. This study provides a metric of quantum reliability by shifting the focus from state-distinguishing to trajectory-distinguishing. In contrast to the conventional notion of classical reliability, which is evaluated using probabilistic measurements of binary logical variables, quantum reliability is grounded in the quantum probability amplitude or wave function. This research provides a universal framework for reliability theory encompassing both classical and quantum devices. It offers a new perspective on quantum engineering by elucidating how intensely the real quantum process a device undergoes influences its performance.
翻訳日:2023-09-27 02:51:17 公開日:2023-09-24
# 機械学習の景観を探る : 総合的な調査と分類学

Exploring the Landscape of Machine Unlearning: A Comprehensive Survey and Taxonomy ( http://arxiv.org/abs/2305.06360v4 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Haoran Xie, Lin Li, Xiaofeng Zhu, and Qing Li(参考訳) 機械学習(ML)モデルによる予測の削除や修正の必要性から、機械学習(MU)が注目を集めている。 トレーニングモデルはより効率的で正確になっていますが、未学習の情報の重要性は、プライバシやセキュリティ、公正といった分野でますます重要になっています。 本稿では,データ削除,摂動,モデル更新など,現在の最先端技術とアプローチを包括的に調査する。 また、一般的なメトリクスやデータセットも提示される。 また、攻撃の高度化、標準化、転送可能性、解釈可能性、トレーニングデータ、リソース制約など、対処すべき課題を強調している。 本稿では,muの潜在的メリットとその今後の方向性について考察する。 さらに、機械学習モデルがユーザの信頼を維持しながら変化する状況に適応できるように、研究者や実践者が未学習の技術を探求し、改善し続ける必要性を強調した。 アンラーニングの重要性はさらに強調され、人工知能(AI)をより信頼性が高く透明なものにすること、特に大量の個人データを含むさまざまな領域におけるAIの重要性が増している。

Machine unlearning (MU) is gaining increasing attention due to the need to remove or modify predictions made by machine learning (ML) models. While training models have become more efficient and accurate, the importance of unlearning previously learned information has become increasingly significant in fields such as privacy, security, and fairness. This paper presents a comprehensive survey of MU, covering current state-of-the-art techniques and approaches, including data deletion, perturbation, and model updates. In addition, commonly used metrics and datasets are also presented. The paper also highlights the challenges that need to be addressed, including attack sophistication, standardization, transferability, interpretability, training data, and resource constraints. The contributions of this paper include discussions about the potential benefits of MU and its future directions. Additionally, the paper emphasizes the need for researchers and practitioners to continue exploring and refining unlearning techniques to ensure that ML models can adapt to changing circumstances while maintaining user trust. The importance of unlearning is further highlighted in making Artificial Intelligence (AI) more trustworthy and transparent, especially with the increasing importance of AI in various domains that involve large amounts of personal user data.
翻訳日:2023-09-27 02:50:49 公開日:2023-09-24
# LoReTTaを用いた過渡・多モード変圧器の訓練

Training Transitive and Commutative Multimodal Transformers with LoReTTa ( http://arxiv.org/abs/2305.14243v4 )

ライセンス: Link先を確認
Manuel Tran, Amal Lahiani, Yashin Dicente Cid, Fabian J. Theis, Tingying Peng, Eldad Klaiman(参考訳) マルチモーダル基礎モデルのトレーニングは、マルチモーダルデータセットの可用性が限られているため、難しい。 多くのパブリックデータセットは画像とテキストを組み合わせるが、音声やテキストと音声を組み合わせたものはほとんどない。 さらに珍しいのは、3つのモードをすべて同時に調整するデータセットです。 医療、インフラ、交通といった重要なドメインは、特に欠落したモダリティによって影響を受ける。 これにより、すべてのモダリティをトレーニング済みの大規模なニューラルネットワークに統合することは困難になる。 本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。 我々の自己教師付きフレームワークは、2つの主要な言語学習パラダイムを可換性と推移性のルールで統一する。 これにより、モダリティ内とモダリティ間の移行が可能になります。 その結果, 事前学習したモデルでは, 真の確率分布を探索する能力が向上した。 例えば、LoReTTa は A -> C と A -> B -> C の関係をモデル化することができる。 解離結合 (A, B) と (B, C) の組み合わせのみを含むデータセットが与えられた場合、LoReTTa で事前訓練された変換器は、予期しないペア (A, C) と三重項 (A, B, C) を含む任意のモダリティの混合を扱うことができることを示す。 我々は, 総合的, 医療的, 強化的な学習データセットに対する我々のアプローチを広く評価した。 GPT,BERT,CLIPなど,欠落したモダリティの組み合わせを含むタスクにおいて,各領域の共通マルチモーダルトランスフォーマーは一貫して,強いベースラインを上回ります。

Training multimodal foundation models is challenging due to the limited availability of multimodal datasets. While many public datasets pair images with text, few combine images with audio or text with audio. Even rarer are datasets that align all three modalities at once. Critical domains such as healthcare, infrastructure, or transportation are particularly affected by missing modalities. This makes it difficult to integrate all modalities into a large pre-trained neural network that can be used out-of-the-box or fine-tuned for different downstream tasks. We introduce LoReTTa (Linking mOdalities with a tRansitive and commutativE pre-Training sTrAtegy) to address this understudied problem. Our self-supervised framework unifies two major language learning paradigms with the rules of commutativity and transitivity. This allows us to transition within and between modalities. As a result, our pre-trained models are better at exploring the true underlying joint probability distribution. For example, LoReTTa can model the relation A -> C with A -> B -> C. Given a dataset containing only the disjoint combinations (A, B) and (B, C), we show that a transformer pre-trained with LoReTTa can handle any mixture of modalities at inference time, including the never-seen pair (A, C) and the triplet (A, B, C). We extensively evaluate our approach on a synthetic, medical, and reinforcement learning dataset. Across different domains, our universal multimodal transformer consistently outperforms strong baselines such as GPT, BERT, and CLIP on tasks involving the missing modality combinations.
翻訳日:2023-09-27 02:43:10 公開日:2023-09-24
# 量子ドット族における幾何学的効果

Geometry effects in quantum dot families ( http://arxiv.org/abs/2305.12748v3 )

ライセンス: Link先を確認
Pavel Exner(参考訳) We consider Schr\"odinger operator in $L^2(\mathrm{R}^\nu),\, \nu=2,3$, with the interaction in the form on a array of potential Wells, each on them were arranged with a curve $\Gamma$。 我々は、$\Gamma$ がコンパクトの外の直線の曲げあるいは変形であり、井戸が同じ弧状距離を持つことを証明し、そのような作用素は空でない離散スペクトルを持つ。 また、$\gamma$ が円であれば、主固有値は井戸が同じ角距離を持つ配置によって最大化される。 いくつかの予想や未解決の問題も言及されている。

We consider Schr\"odinger operators in $L^2(\mathrm{R}^\nu),\, \nu=2,3$, with the interaction in the form on an array of potential wells, each on them having rotational symmetry, arranged along a curve $\Gamma$. We prove that if $\Gamma$ is a bend or deformation of a line, being straight outside a compact, and the wells have the same arcwise distances, such an operator has a nonempty discrete spectrum. It is also shown that if $\Gamma$ is a circle, the principal eigenvalue is maximized by the arrangement in which the wells have the same angular distances. Some conjectures and open problems are also mentioned.
翻訳日:2023-09-27 02:41:15 公開日:2023-09-24
# 一般関数近似を用いた平均場強化学習の統計的効率について

On the Statistical Efficiency of Mean Field Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2305.11283v3 )

ライセンス: Link先を確認
Jiawei Huang, Batuhan Yardim, Niao He(参考訳) 本稿では,平均場制御(MFC)および平均場制御(MFG)における強化学習の統計的効率を一般関数近似を用いて検討する。 平均場モデルに基づくエルダー次元 (mbed) と呼ばれる新しい概念を導入し, 平均場 rl 問題の豊富な族を仮定した。 さらに, mfc の $\epsilon$-optimal policy や mfg の $\epsilon$-nash equilibrium policy を,関連するパラメータのサンプル複雑性多項式 w.r.t を用いて返却し,状態数,アクション数,エージェント数に依存しない楽観的最大値推定アルゴリズムを提案する。 特に,これまでの研究と比較して,遷移ダイナミクスに対するリプシッツ連続性の軽度な仮定しか必要としない。

In this paper, we study the statistical efficiency of Reinforcement Learning in Mean-Field Control (MFC) and Mean-Field Game (MFG) with general function approximation. We introduce a new concept called Mean-Field Model-Based Eluder Dimension (MBED), which subsumes a rich family of Mean-Field RL problems. Additionally, we propose algorithms based on Optimistic Maximal Likelihood Estimation, which can return an $\epsilon$-optimal policy for MFC or an $\epsilon$-Nash Equilibrium policy for MFG, with sample complexity polynomial w.r.t. relevant parameters and independent of the number of states, actions and the number of agents. Notably, our results only require a mild assumption of Lipschitz continuity on transition dynamics comparing with previous works.
翻訳日:2023-09-27 02:40:43 公開日:2023-09-24
# 対人訓練によるビデオポーズ推定に先立つ分解された人間の動き

Decomposed Human Motion Prior for Video Pose Estimation via Adversarial Training ( http://arxiv.org/abs/2305.18743v3 )

ライセンス: Link先を確認
Wenshuo Chen, Xiang Zhou, Zhengdi Yu, Weixi Gu and Kai Zhang(参考訳) 映像から人間のポーズを推定することは、多くの3d分野に適用できるため、かなりの注目を集めるタスクである。 人体の動きに関する事前知識の複雑さは、キーポイントを回帰するタスクにおいて、ニューラルネットワークモデルに課題をもたらす。 本稿では,逆方向の動きを先に組み込むことにより,この問題に対処する。 従来の手法とは異なり,ジョイント動作に先立って全体的動作を分解することで,ニューラルネットワークによる事前知識の学習が容易になり,タスクのパフォーマンスが向上する。 また,新しい正規化損失を利用して,動きの精度と滑らかさのバランスをとる。 提案手法は,従来の3DPW試験法よりも9倍のPA-MPJPE,29倍の加速誤差を実現する。 estimatorは、内部データセットで印象的なパフォーマンスを達成することで、その堅牢さを証明します。

Estimating human pose from video is a task that receives considerable attention due to its applicability in numerous 3D fields. The complexity of prior knowledge of human body movements poses a challenge to neural network models in the task of regressing keypoints. In this paper, we address this problem by incorporating motion prior in an adversarial way. Different from previous methods, we propose to decompose holistic motion prior to joint motion prior, making it easier for neural networks to learn from prior knowledge thereby boosting the performance on the task. We also utilize a novel regularization loss to balance accuracy and smoothness introduced by motion prior. Our method achieves 9\% lower PA-MPJPE and 29\% lower acceleration error than previous methods tested on 3DPW. The estimator proves its robustness by achieving impressive performance on in-the-wild dataset.
翻訳日:2023-09-27 02:31:41 公開日:2023-09-24
# 変圧器ニューラルプロセスを用いたエンドツーエンドメタベイズ最適化

End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes ( http://arxiv.org/abs/2305.15930v2 )

ライセンス: Link先を確認
Alexandre Maraval, Matthieu Zimmer, Antoine Grosnit, Haitham Bou Ammar(参考訳) Meta-Bayesian optimization (Meta-BO)は、関連するタスクからのデータを活用することで、ベイズ最適化のサンプル効率を改善することを目的としている。 従来の手法はサロゲートモデルまたは獲得関数を独立にメタ学習することに成功したが、両コンポーネントの共同トレーニングは依然としてオープンな課題である。 本稿では、トランスフォーマーアーキテクチャを介して獲得関数を学ぶために、神経過程を一般化する最初のエンドツーエンドの微分可能メタボフレームワークを提案する。 強化学習(rl)を用いたこのエンドツーエンドフレームワークにより,ラベル付き取得データの欠如に対処できる。 初期の段階では、特に報酬が不足している場合、RLでスクラッチからトランスフォーマーベースのニューラルプロセスのトレーニングが困難であることに気付きました。 この主張を,報奨信号として広く用いられている後悔の概念が,軌道長の対数間隔パターンを示すことを示す組合せ解析で定式化した。 この問題に対処するため,アーキテクチャの一部を指導し,帰納的バイアスとして有効な確率モデルを学習する補助的なタスクでRLの目的を増強する。 提案手法は, 標準的なハイパーパラメータ最適化タスクの実験において, 様々なベースラインに対して, 最先端の後悔結果を達成するとともに, 混合整数プログラミングチューニング, 抗体設計, 電子設計自動化のための論理合成の現実的問題において, 他よりも優れていることを示す。

Meta-Bayesian optimisation (meta-BO) aims to improve the sample efficiency of Bayesian optimisation by leveraging data from related tasks. While previous methods successfully meta-learn either a surrogate model or an acquisition function independently, joint training of both components remains an open challenge. This paper proposes the first end-to-end differentiable meta-BO framework that generalises neural processes to learn acquisition functions via transformer architectures. We enable this end-to-end framework with reinforcement learning (RL) to tackle the lack of labelled acquisition data. Early on, we notice that training transformer-based neural processes from scratch with RL is challenging due to insufficient supervision, especially when rewards are sparse. We formalise this claim with a combinatorial analysis showing that the widely used notion of regret as a reward signal exhibits a logarithmic sparsity pattern in trajectory lengths. To tackle this problem, we augment the RL objective with an auxiliary task that guides part of the architecture to learn a valid probabilistic model as an inductive bias. We demonstrate that our method achieves state-of-the-art regret results against various baselines in experiments on standard hyperparameter optimisation tasks and also outperforms others in the real-world problems of mixed-integer programming tuning, antibody design, and logic synthesis for electronic design automation.
翻訳日:2023-09-27 02:29:53 公開日:2023-09-24
# ブラックボックス変分推論の収束とスケールパラメータ化について

On the Convergence and Scale Parameterizations of Black-Box Variational Inference ( http://arxiv.org/abs/2305.15349v2 )

ライセンス: Link先を確認
Kyurae Kim, Jisu Oh, Kaiwen Wu, Yi-An Ma, Jacob R. Gardner(参考訳) モンテカルロ変分推論(Monte Carlo variational inference)としても知られる完全なブラックボックス変分推論(BBVI)に対する最初の収束保証を提供する。 bbvi(bounded domain,bounded support,only optimize for the scale, such)の簡易バージョンに関する予備的な調査が実施されたが、私たちのセットアップにはそのようなアルゴリズムによる修正は必要ない。 本研究は, 強いログコンベビティと位置スケールのばらつきを有する後葉密度について検討した。 また,本分析の結果から,アルゴリズムの設計選択,特に変分近似のスケールの非線形パラメータ化は,最適下収束率をもたらすことが明らかとなった。 幸いなことに、近確率勾配勾配でBBVIを走らせるとこれらの制限が修正され、最も強い収束率保証が達成される。 ベイズ推論問題におけるBBVIの他の標準実装との比較により,この理論的知見を評価する。

We provide the first convergence guarantee for full black-box variational inference (BBVI), also known as Monte Carlo variational inference. While preliminary investigations worked on simplified versions of BBVI (e.g., bounded domain, bounded support, only optimizing for the scale, and such), our setup does not need any such algorithmic modifications. Our results hold for log-smooth posterior densities with and without strong log-concavity and the location-scale variational family. Also, our analysis reveals that certain algorithm design choices commonly employed in practice, particularly, nonlinear parameterizations of the scale of the variational approximation, can result in suboptimal convergence rates. Fortunately, running BBVI with proximal stochastic gradient descent fixes these limitations, and thus achieves the strongest known convergence rate guarantees. We evaluate this theoretical insight by comparing proximal SGD against other standard implementations of BBVI on large-scale Bayesian inference problems.
翻訳日:2023-09-27 02:29:04 公開日:2023-09-24
# 低リソース翻訳のための中間タスク微調整における補助領域並列データの利用

Leveraging Auxiliary Domain Parallel Data in Intermediate Task Fine-tuning for Low-resource Translation ( http://arxiv.org/abs/2306.01382v2 )

ライセンス: Link先を確認
Shravan Nayak, Surangika Ranathunga, Sarubi Thillainathan, Rikki Hung, Anthony Rinaldi, Yining Wang, Jonah Mackey, Andrew Ho, En-Shiun Annie Lee(参考訳) 事前訓練されたマルチリンガルシーケンスシーケンス(PMSS)モデルに基づいて訓練されたNMTシステムは、微調整に十分な量の並列データが利用できない場合に浮かび上がる。 これは特に、これらのモデルに欠落/欠落している言語に当てはまる。 データは異なるドメインから来ると、問題は悪化する。 本稿では,PMSSモデルの中間タスク微調整(ITFT)がドメイン固有NMTにとって極めて有益であることを示す。 ドメイン分割テストを用いて、ドメイン固有の結果の変動を定量化し、ITFTがドメイン分散の影響をある程度軽減できることを示す。

NMT systems trained on Pre-trained Multilingual Sequence-Sequence (PMSS) models flounder when sufficient amounts of parallel data is not available for fine-tuning. This specifically holds for languages missing/under-represented in these models. The problem gets aggravated when the data comes from different domains. In this paper, we show that intermediate-task fine-tuning (ITFT) of PMSS models is extremely beneficial for domain-specific NMT, especially when target domain data is limited/unavailable and the considered languages are missing or under-represented in the PMSS model. We quantify the domain-specific results variations using a domain-divergence test, and show that ITFT can mitigate the impact of domain divergence to some extent.
翻訳日:2023-09-27 02:20:24 公開日:2023-09-24
# dropcompute: 計算分散低減による、シンプルでより堅牢な分散同期トレーニング

DropCompute: simple and more robust distributed synchronous training via compute variance reduction ( http://arxiv.org/abs/2306.10598v2 )

ライセンス: Link先を確認
Niv Giladi, Shahar Gottlieb, Moran Shkolnik, Asaf Karnieli, Ron Banner, Elad Hoffer, Kfir Yehuda Levy, Daniel Soudry(参考訳) 背景: ディープニューラルネットワーク(DNN)の大規模トレーニングには分散トレーニングが不可欠である。 大規模DNNトレーニングの主要な方法は同期(All-Reduceなど)であるが、各ステップですべてのワーカーを待つ必要がある。 このように、これらの方法は、重労働による遅延によって制限される。 結果: 計算時間の変動によって作業員が行き詰まる典型的なシナリオについて検討した。 計算時間特性とスケーラビリティの制約との間には,このような乱雑な作業者によって引き起こされる解析的な関係がある。 そこで本研究では,作業者間のばらつきを低減し,同期訓練の堅牢性を向上させるための簡易かつ効果的な分散化手法を提案する。 この方法は広く使われているall-reduceと統合できる。 本研究は,200ガウディ加速器を用いた大規模トレーニングタスクで検証した。

Background: Distributed training is essential for large scale training of deep neural networks (DNNs). The dominant methods for large scale DNN training are synchronous (e.g. All-Reduce), but these require waiting for all workers in each step. Thus, these methods are limited by the delays caused by straggling workers. Results: We study a typical scenario in which workers are straggling due to variability in compute time. We find an analytical relation between compute time properties and scalability limitations, caused by such straggling workers. With these findings, we propose a simple yet effective decentralized method to reduce the variation among workers and thus improve the robustness of synchronous training. This method can be integrated with the widely used All-Reduce. Our findings are validated on large-scale training tasks using 200 Gaudi Accelerators.
翻訳日:2023-09-27 02:11:25 公開日:2023-09-24
# 点相互作用の理論の新しい考察

A new look at the theory of point interactions ( http://arxiv.org/abs/2306.10292v3 )

ライセンス: Link先を確認
R. Figari, H. Saberbaghi, A. Teta(参考訳) 多中心点相互作用ハミルトン群の全族について検討する。 これらの作用素の大きな部分族は、2つ以上の散乱中心の位置が一致する場合、特異あるいは自明になることはない。 この意味では、それらはデフォルトでは「局所的」な点相互作用のハミルトニアンとは対照的に正規化されているように見える。 2中心の場合、中心距離の関数として負の固有値の挙動を研究する。 この結果は、2つの重粒子と1つの軽粒子を持つ3粒子系のボルン・オッペンハイマー近似を解析するために用いられる。 我々は,この簡易モデルが超紫外大惨事を示しないことを示すとともに,連続する低エネルギー固有値の比がエフィモフ幾何学則に従うことを証明した。

We investigate the entire family of multi-center point interaction Hamiltonians. We show that a large sub-family of these operators do not become either singular or trivial when the positions of two or more scattering centers tend to coincide. In this sense, they appear to be renormalised by default as opposed to the "local" point interaction Hamiltonians usually considered in the literature as the ones of physical interest. In the two-center case we study the behaviour of the negative eigenvalues as a function of the center distance. The result is used to analyze a formal Born-Oppenheimer approximation of a three-particle system with two heavy and one light particle. We show that this simplified model does not show any ultra-violet catastrophe and we prove that the ratio of successive low energy eigenvalues follows the Efimov geometrical law.
翻訳日:2023-09-27 02:11:14 公開日:2023-09-24
# 組合せおよび混合変数ベイズ最適化のためのフレームワークとベンチマーク

Framework and Benchmarks for Combinatorial and Mixed-variable Bayesian Optimization ( http://arxiv.org/abs/2306.09803v2 )

ライセンス: Link先を確認
Kamil Dreczkowski, Antoine Grosnit, Haitham Bou Ammar(参考訳) 本稿では,Mixed-variable and Combinatorial Bayesian Optimization (MCBO) のためのモジュラーフレームワークを提案する。 現在のMCBO論文では、異なるMCBOプリミティブとそれらの組み合わせの適切な評価を妨げるため、その手法を評価するために、多変量または非標準ベンチマークを導入することが多い。 さらに、単一のMCBOプリミティブのソリューションを導入する論文では、残りのプリミティブと同じメソッドを使用するベースラインに対するベンチマークを省略することが多い。 この省略は、主に実装上のオーバーヘッドが大きく、結果として制御された評価の欠如と、貢献のメリットを効果的に示すことができないためである。 これらの課題を克服するため,提案フレームワークはベイズ最適化コンポーネントの無益な組み合わせを可能にし,多種多様な合成および実世界のベンチマークタスクを提供する。 この柔軟性を活用して、47個の新しいMCBOアルゴリズムを実装し、7つの既存のMCBOソルバと5つの標準ブラックボックス最適化アルゴリズムに対してベンチマークを行い、4000以上の実験を行った。 以上の結果から,mcboプリミティブは既存手法よりも優れた組み合わせを示し,モデル適合の重要性と信頼領域の利用を明らかにした。 MCBOライブラリをMITライセンス下で,‘url{https://github.com/huawei-noah/HEBO/tree/master/MCBO}’で公開しています。

This paper introduces a modular framework for Mixed-variable and Combinatorial Bayesian Optimization (MCBO) to address the lack of systematic benchmarking and standardized evaluation in the field. Current MCBO papers often introduce non-diverse or non-standard benchmarks to evaluate their methods, impeding the proper assessment of different MCBO primitives and their combinations. Additionally, papers introducing a solution for a single MCBO primitive often omit benchmarking against baselines that utilize the same methods for the remaining primitives. This omission is primarily due to the significant implementation overhead involved, resulting in a lack of controlled assessments and an inability to showcase the merits of a contribution effectively. To overcome these challenges, our proposed framework enables an effortless combination of Bayesian Optimization components, and provides a diverse set of synthetic and real-world benchmarking tasks. Leveraging this flexibility, we implement 47 novel MCBO algorithms and benchmark them against seven existing MCBO solvers and five standard black-box optimization algorithms on ten tasks, conducting over 4000 experiments. Our findings reveal a superior combination of MCBO primitives outperforming existing approaches and illustrate the significance of model fit and the use of a trust region. We make our MCBO library available under the MIT license at \url{https://github.com/huawei-noah/HEBO/tree/master/MCBO}.
翻訳日:2023-09-27 02:10:47 公開日:2023-09-24
# 時間計測方式による詳細なゆらぎ定理

Detailed Fluctuation Theorem from the One-Time Measurement Scheme ( http://arxiv.org/abs/2306.09578v2 )

ライセンス: Link先を確認
Kenji Maeda and Tharon Holdsworth and Sebastian Deffner and Akira Sone(参考訳) 量子ゆらぎ定理は、量子非平衡熱力学の第一原理と見なすことができる。 しかし、量子ワークの定義方法に依存する多くの異なる定式化が提案されている。 このような状況下では, one-time measurement (otm) 方式が two-time measurement (ttm) 方式よりも有益である場合がある。 しかし、今のところOTMの焦点は積分ゆらぎ定理であり、それ以来、後方プロセスの作業分布は不足している。 この目的のために、OTMスキームは量子非脱落(QND) TTMスキームであり、最終状態が第1の測定結果にハミルトニアンが条件付けされた第2の測定値のポインタ状態であることを示す。 この洞察は、前方および後方のワーク分布の特性関数に対する詳細なゆらぎ定理の導出につながり、不可逆性に関する詳細な情報を取り込み、量子温度測定に応用できる。 最後に、我々の概念的発見はIBM量子コンピュータで実験的に検証される

The quantum fluctuation theorem can be regarded as the first principle of quantum nonequilibrium thermodynamics. However, many different formulations have been proposed, which depend on how quantum work is defined. In this context, we have seen that for some situations the one-time measurement (OTM) scheme can be more informative than the two-time measurement (TTM) scheme. Yet, so far the focus of OTM has been on integral fluctuation theorems, since, the work distribution of the backward process has been lacking. To this end, we prove that the OTM scheme is the quantum nondemolition (QND) TTM scheme, in which the final state is a pointer state of the second measurement whose Hamiltonian is conditioned on the first measurement outcome. This insight leads to a derivation of the detailed fluctuation theorem for the characteristic functions of the forward and backward work distributions, which captures the detailed information about the irreversibility and can be applied to quantum thermometry. Finally, our conceptual findings are experimentally verified with the IBM quantum computer
翻訳日:2023-09-27 02:10:25 公開日:2023-09-24
# 二分分類のためのリベンチマーキングプールベースのアクティブラーニング

Re-Benchmarking Pool-Based Active Learning for Binary Classification ( http://arxiv.org/abs/2306.08954v2 )

ライセンス: Link先を確認
Po-Yi Lu, Chun-Liang Li, Hsuan-Tien Lin(参考訳) アクティブラーニング(active learning)は、ラベル付きデータを取得する際の機械学習モデルのパフォーマンスを大幅に向上させるパラダイムである。 アクティブな学習戦略を評価するためのベンチマークはいくつか存在するが、その発見はいくつかの誤解を示している。 この不一致は、コミュニティのために透明で再現可能なベンチマークを開発する動機となります。 我々の取り組みはオープンソース実装(https://github.com/ariapoy/active-learning-benchmark)となり、将来の研究に信頼性と拡張性をもたらします。 徹底的な再ベンチマーク実験を行うことで、既存のベンチマークの誤設定を修正できただけでなく、モデル互換性の未解決問題にも光を当てた。 矛盾を解決することは、アクティブラーニングの不確実性サンプリング戦略が、ほとんどのデータセットにとって有効かつ望ましい選択であることを保証する。 私たちの経験は、既存のベンチマークを再ベンチマークして、より信頼できる結果を生み出し、より深い洞察を得るために研究努力を集中することの重要性を強調しています。

Active learning is a paradigm that significantly enhances the performance of machine learning models when acquiring labeled data is expensive. While several benchmarks exist for evaluating active learning strategies, their findings exhibit some misalignment. This discrepancy motivates us to develop a transparent and reproducible benchmark for the community. Our efforts result in an open-sourced implementation (https://github.com/ariapoy/active-learning-benchmark) that is reliable and extensible for future research. By conducting thorough re-benchmarking experiments, we have not only rectified misconfigurations in existing benchmark but also shed light on the under-explored issue of model compatibility, which directly causes the observed discrepancy. Resolving the discrepancy reassures that the uncertainty sampling strategy of active learning remains an effective and preferred choice for most datasets. Our experience highlights the importance of dedicating research efforts towards re-benchmarking existing benchmarks to produce more credible results and gain deeper insights.
翻訳日:2023-09-27 02:08:57 公開日:2023-09-24
# MoVie:ビューの一般化のためのビジュアルモデルベースのポリシー適応

MoVie: Visual Model-Based Policy Adaptation for View Generalization ( http://arxiv.org/abs/2307.00972v2 )

ライセンス: Link先を確認
Sizhe Yang, Yanjie Ze, Huazhe Xu(参考訳) 限られた視点で訓練された視覚強化学習(RL)エージェントは、学習能力の一般化において大きな課題に直面している。 この固有の困難さは、$\textit{view generalization}$ の問題として知られている。 本研究では,この基本的な問題を,現実の状況によく似た4つの異なる,非常に困難なシナリオに体系的に分類する。 次に、視覚的$\textbf{Mo}$del-based Policy for $\textbf{Vie}$w generalization ($\textbf{MoVie}$) をテスト時間中に、明示的な報酬信号やトレーニング時間中の変更を必要とせずに、容易にかつ効果的に適応できるアプローチを提案する。 提案手法は,dmcontrol,xarm,adroitから供給される合計$\textbf{18}$タスクを含む4つのシナリオにおいて,それぞれ$\mathbf{33}$%,$\mathbf{86}$%,$\mathbf{152}$%の相対的改善を示す。 優れた結果は、現実世界のロボットアプリケーションに対する我々のアプローチの膨大な可能性を浮き彫りにしている。 ビデオはhttps://yangsizhe.github.io/MoVie/で公開されている。

Visual Reinforcement Learning (RL) agents trained on limited views face significant challenges in generalizing their learned abilities to unseen views. This inherent difficulty is known as the problem of $\textit{view generalization}$. In this work, we systematically categorize this fundamental problem into four distinct and highly challenging scenarios that closely resemble real-world situations. Subsequently, we propose a straightforward yet effective approach to enable successful adaptation of visual $\textbf{Mo}$del-based policies for $\textbf{Vie}$w generalization ($\textbf{MoVie}$) during test time, without any need for explicit reward signals and any modification during training time. Our method demonstrates substantial advancements across all four scenarios encompassing a total of $\textbf{18}$ tasks sourced from DMControl, xArm, and Adroit, with a relative improvement of $\mathbf{33}$%, $\mathbf{86}$%, and $\mathbf{152}$% respectively. The superior results highlight the immense potential of our approach for real-world robotics applications. Videos are available at https://yangsizhe.github.io/MoVie/ .
翻訳日:2023-09-27 02:01:57 公開日:2023-09-24
# AFPN:オブジェクト検出のための漸近的特徴ピラミッドネットワーク

AFPN: Asymptotic Feature Pyramid Network for Object Detection ( http://arxiv.org/abs/2306.15988v2 )

ライセンス: Link先を確認
Guoyu Yang, Jie Lei, Zhikuan Zhu, Siyu Cheng, Zunlei Feng, Ronghua Liang(参考訳) マルチスケール機能は、オブジェクト検出タスクのばらつきを伴うオブジェクトのエンコーディングにおいて非常に重要である。 マルチスケール機能抽出のための一般的な戦略は、古典的なトップダウンおよびボトムアップ機能ピラミッドネットワークを採用することだ。 しかし,これらの手法は特徴情報の喪失や劣化に悩まされ,非隣接レベルの融合効果を損なう。 本稿では,非隣接レベルで直接インタラクションをサポートする漸近的特徴ピラミッドネットワーク(afpn)を提案する。 AFPNは隣接する2つの低レベル特徴を融合させて開始され、漸近的に高レベル特徴を融合プロセスに組み込む。 このように、非隣接レベル間の大きな意味的ギャップを回避できる。 各空間位置における特徴融合時に発生する多目的情報衝突の可能性を考えると、適応的な空間融合操作によりこれらの矛盾を軽減できる。 提案したAFPNを2段階および1段階のオブジェクト検出フレームワークに組み込んで,MS-COCO 2017バリデーションとテストデータセットを用いて評価する。 実験結果から,本手法は他の最先端機能ピラミッドネットワークよりも高い競合性が得られた。 コードは \href{https://github.com/gyyang23/afpn}{https://github.com/gyyang23/afpn} で入手できる。

Multi-scale features are of great importance in encoding objects with scale variance in object detection tasks. A common strategy for multi-scale feature extraction is adopting the classic top-down and bottom-up feature pyramid networks. However, these approaches suffer from the loss or degradation of feature information, impairing the fusion effect of non-adjacent levels. This paper proposes an asymptotic feature pyramid network (AFPN) to support direct interaction at non-adjacent levels. AFPN is initiated by fusing two adjacent low-level features and asymptotically incorporates higher-level features into the fusion process. In this way, the larger semantic gap between non-adjacent levels can be avoided. Given the potential for multi-object information conflicts to arise during feature fusion at each spatial location, adaptive spatial fusion operation is further utilized to mitigate these inconsistencies. We incorporate the proposed AFPN into both two-stage and one-stage object detection frameworks and evaluate with the MS-COCO 2017 validation and test datasets. Experimental evaluation shows that our method achieves more competitive results than other state-of-the-art feature pyramid networks. The code is available at \href{https://github.com/gyyang23/AFPN}{https://github.com/gyyang23/AFPN}.
翻訳日:2023-09-27 02:01:34 公開日:2023-09-24
# ECG-QA:心電図と総合的質問応答データ

ECG-QA: A Comprehensive Question Answering Dataset Combined With Electrocardiogram ( http://arxiv.org/abs/2306.15681v2 )

ライセンス: Link先を確認
Jungwoo Oh, Gyubok Lee, Seongsu Bae, Joon-myoung Kwon, Edward Choi(参考訳) 医療分野における質問応答(QA)は,自然言語処理の進歩により注目されている。 しかし、既存の医療QAデータセットは主に医療画像、臨床ノート、構造化された電子健康記録表に焦点を当てている。 このことは、心電図(ECG)データをこれらのシステムに組み込む大きな可能性を残している。 このギャップに対処するため,ECG分析用に設計された最初のQAデータセットであるECG-QAを提案する。 データセットには70の質問テンプレートが含まれており、それぞれがECGの専門家によって臨床的有用性を保証するために検証されている。 その結果、我々のデータセットは2つの異なるECGの比較分析を必要とするものを含む多様なECG解釈質問を含んでいる。 また,今後の研究に有用な知見を提供するために,数多くの実験を行った。 我々は,心電図の解釈において臨床医を支援する知的QAシステムの開発において,心電図QAが貴重な資源となると考えている。 データセットURL:https://github.com/Jwoo5/ecg-qa

Question answering (QA) in the field of healthcare has received much attention due to significant advancements in natural language processing. However, existing healthcare QA datasets primarily focus on medical images, clinical notes, or structured electronic health record tables. This leaves the vast potential of combining electrocardiogram (ECG) data with these systems largely untapped. To address this gap, we present ECG-QA, the first QA dataset specifically designed for ECG analysis. The dataset comprises a total of 70 question templates that cover a wide range of clinically relevant ECG topics, each validated by an ECG expert to ensure their clinical utility. As a result, our dataset includes diverse ECG interpretation questions, including those that require a comparative analysis of two different ECGs. In addition, we have conducted numerous experiments to provide valuable insights for future research directions. We believe that ECG-QA will serve as a valuable resource for the development of intelligent QA systems capable of assisting clinicians in ECG interpretations. Dataset URL: https://github.com/Jwoo5/ecg-qa
翻訳日:2023-09-27 02:01:12 公開日:2023-09-24
# 深層学習に基づく政策予測による運転行動予測

Anticipating Driving Behavior through Deep Learning-Based Policy Prediction ( http://arxiv.org/abs/2307.11058v3 )

ライセンス: Link先を確認
Alexander Liu(参考訳) そこで本研究では,通常のカメラで撮影された映像フレームから得られる視覚特徴と,ポイントクラウドスキャナから得られた奥行き詳細を総合的に処理する総合システムを開発した。 このシステムは、車両の速度と操舵角度の両方を含む運転行動を予測するように設計されている。 信頼性を確保するために,実世界の熟練ドライバが固執する確立された規範を用いて,予測結果に合致する評価を行った。 評価結果から,少なくとも半数のシナリオ(50~80%程度,特定のモデルに相当)において,予測が注目に値する精度を達成していることが示された。 特に,アマルガメート機能の利用は,ビデオフレームを単独で使用する場合と比較して,ほとんどの場合において優れた性能を示した。

In this endeavor, we developed a comprehensive system that processes integrated visual features derived from video frames captured by a regular camera, along with depth details obtained from a point cloud scanner. This system is designed to anticipate driving actions, encompassing both vehicle speed and steering angle. To ensure its reliability, we conducted assessments where we juxtaposed the projected outcomes with the established norms adhered to by skilled real-world drivers. Our evaluation outcomes indicate that the forecasts achieve a noteworthy level of accuracy in a minimum of half the test scenarios (ranging around 50-80%, contingent on the specific model). Notably, the utilization of amalgamated features yielded superior performance in comparison to using video frames in isolation, as demonstrated by most of the cases.
翻訳日:2023-09-27 01:51:25 公開日:2023-09-24
# 自然言語処理研究の展望を探る

Exploring the Landscape of Natural Language Processing Research ( http://arxiv.org/abs/2307.10652v5 )

ライセンス: Link先を確認
Tim Schopf, Karim Arabi, Florian Matthes(参考訳) 自然言語テキストを理解し,生成し,処理するための効率的なアプローチとして,近年,自然言語処理(NLP)の研究が急速に広まり,広く採用されている。 この分野での研究が増加していることを踏まえ、NLP関連のいくつかのアプローチが研究コミュニティで調査されている。 しかし、確立したトピックを分類し、傾向を特定し、今後の研究分野を概説する総合的な研究は残っていない。 このギャップを埋めるため,aclアンソロジーにおける研究論文を体系的に分類・分析した。 その結果,研究景観の構造化的概観,nlpにおける研究分野の分類,nlpにおける最近の展開の分析,知見の要約,今後の課題の方向性を強調する。

As an efficient approach to understand, generate, and process natural language texts, research in natural language processing (NLP) has exhibited a rapid spread and wide adoption in recent years. Given the increasing research work in this area, several NLP-related approaches have been surveyed in the research community. However, a comprehensive study that categorizes established topics, identifies trends, and outlines areas for future research remains absent. Contributing to closing this gap, we have systematically classified and analyzed research papers in the ACL Anthology. As a result, we present a structured overview of the research landscape, provide a taxonomy of fields of study in NLP, analyze recent developments in NLP, summarize our findings, and highlight directions for future work.
翻訳日:2023-09-27 01:50:54 公開日:2023-09-24
# AspectCSE:コントラスト学習と構造化知識を用いたアスペクトベースの意味的テクスチャ類似性のための文埋め込み

AspectCSE: Sentence Embeddings for Aspect-based Semantic Textual Similarity Using Contrastive Learning and Structured Knowledge ( http://arxiv.org/abs/2307.07851v5 )

ライセンス: Link先を確認
Tim Schopf, Emanuel Gerber, Malte Ostendorff, Florian Matthes(参考訳) 総称文埋め込みは意味的テキストの類似性の粗い近似を提供するが、テキストを類似させる特定の側面を無視する。 逆にアスペクトベースの文埋め込みは、特定の事前定義されたアスペクトに基づいたテキスト間の類似性を提供する。 したがって、テキストの類似性予測は特定の要求に向けられ、より説明しやすい。 本稿では,アスペクトに基づく文埋め込みのコントラスト学習手法であるAspectCSEを提案する。 その結果,AspectCSEは,複数の側面にわたる情報検索タスクの平均3.97%の改善を実現していることがわかった。 また、ウィキデータ知識グラフ特性を用いて、類似性予測において複数の特定の側面が同時に考慮されるマルチアスペクト文埋め込みのモデルを訓練する。 マルチアスペクト埋め込みはアスペクト固有の情報検索タスクにおける単一アスペクト埋め込みよりも優れていることを示す。 最後に、アスペクトに基づく文埋め込み空間を調べ、異なるアスペクトラベル間の明示的な類似性トレーニングなしにも、意味的に類似したアスペクトラベルの埋め込みがしばしば近いことを実証する。

Generic sentence embeddings provide a coarse-grained approximation of semantic textual similarity but ignore specific aspects that make texts similar. Conversely, aspect-based sentence embeddings provide similarities between texts based on certain predefined aspects. Thus, similarity predictions of texts are more targeted to specific requirements and more easily explainable. In this paper, we present AspectCSE, an approach for aspect-based contrastive learning of sentence embeddings. Results indicate that AspectCSE achieves an average improvement of 3.97% on information retrieval tasks across multiple aspects compared to the previous best results. We also propose using Wikidata knowledge graph properties to train models of multi-aspect sentence embeddings in which multiple specific aspects are simultaneously considered during similarity predictions. We demonstrate that multi-aspect embeddings outperform single-aspect embeddings on aspect-specific information retrieval tasks. Finally, we examine the aspect-based sentence embedding space and demonstrate that embeddings of semantically similar aspect labels are often close, even without explicit similarity training between different aspect labels.
翻訳日:2023-09-27 01:50:41 公開日:2023-09-24
# アダプタを用いた文埋め込みの効率的なドメイン適応

Efficient Domain Adaptation of Sentence Embeddings Using Adapters ( http://arxiv.org/abs/2307.03104v6 )

ライセンス: Link先を確認
Tim Schopf, Dennis N. Schneider, Florian Matthes(参考訳) 文埋め込みにより、短いテキストの意味的類似性を捉えることができる。 ほとんどの文埋め込みモデルは、一般的な意味的テキストの類似性タスクのために訓練される。 したがって、特定のドメインに文を埋め込むには、良い結果を得るためにモデルを適用する必要がある。 通常、これは関心領域の文埋め込みモデル全体を微調整することによって行われる。 このアプローチは最先端の結果をもたらすが、モデルの重みはすべて微調整中に更新され、このメソッドはリソース集約的になる。 したがって,各対象領域の文埋め込みモデル全体を個別に微調整するのではなく,軽量アダプタのトレーニングを提案する。 これらのドメイン固有のアダプタは、基礎となるすべての文埋め込みモデルパラメータを微調整する必要はない。 代わりに、基礎となる文埋め込みモデルの重みを固定しながら、少数の追加パラメータのみをトレーニングします。 ドメイン固有のアダプタのトレーニングでは、常に同じベースモデルを使用することができ、特定のドメインに文の埋め込みを適用するためにのみドメイン固有のアダプタを交換することができる。 文埋め込みのパラメータ効率のよいドメイン適応のためのアダプタを用いることで、約3.6%のパラメータをトレーニングしながら、ドメイン適応された完全に微調整された文埋め込みモデルの1%以内の競争性能が得られることを示す。

Sentence embeddings enable us to capture the semantic similarity of short texts. Most sentence embedding models are trained for general semantic textual similarity tasks. Therefore, to use sentence embeddings in a particular domain, the model must be adapted to it in order to achieve good results. Usually, this is done by fine-tuning the entire sentence embedding model for the domain of interest. While this approach yields state-of-the-art results, all of the model's weights are updated during fine-tuning, making this method resource-intensive. Therefore, instead of fine-tuning entire sentence embedding models for each target domain individually, we propose to train lightweight adapters. These domain-specific adapters do not require fine-tuning all underlying sentence embedding model parameters. Instead, we only train a small number of additional parameters while keeping the weights of the underlying sentence embedding model fixed. Training domain-specific adapters allows always using the same base model and only exchanging the domain-specific adapters to adapt sentence embeddings to a specific domain. We show that using adapters for parameter-efficient domain adaptation of sentence embeddings yields competitive performance within 1% of a domain-adapted, entirely fine-tuned sentence embedding model while only training approximately 3.6% of the parameters.
翻訳日:2023-09-27 01:48:43 公開日:2023-09-24
# 水中位置認識のための合成訓練ソナー画像記述子の一般化

Improving Generalization of Synthetically Trained Sonar Image Descriptors for Underwater Place Recognition ( http://arxiv.org/abs/2308.01058v2 )

ライセンス: Link先を確認
Ivano Donadi, Emilio Olivastri, Daniel Fusaro, Wanmeng Li, Daniele Evangelista, and Alberto Pretto(参考訳) 水中環境における自律航法は、光吸収や水濁度などの要因により、光学センサーの有効性を制限している。 ソナーシステムは、これらの制限の影響を受けないため、水中操作の知覚に一般的に使用される。 従来のコンピュータビジョンアルゴリズムはソナー生成音響画像に適用しても効果が低いが、畳み込みニューラルネットワーク(CNN)は通常、しばしば入手できない、あるいは取得が難しい大量のラベル付きトレーニングデータを必要とする。 そこで本研究では,合成データのみを訓練しながら実シナリオに一般化可能な,コンパクトなディープソナー記述回路を提案する。 我々のアーキテクチャはResNet18バックエンドと適切にパラメータ化されたランダムガウス射影層に基づいており、入力ソナーデータは標準のアドホック正規化/プリフィルタ技術で拡張されている。 また、カスタマイズされた合成データ生成手順も提示する。 提案手法は合成実データと公開実データの両方を用いて広く評価され,最新手法と比較して有効性を示している。

Autonomous navigation in underwater environments presents challenges due to factors such as light absorption and water turbidity, limiting the effectiveness of optical sensors. Sonar systems are commonly used for perception in underwater operations as they are unaffected by these limitations. Traditional computer vision algorithms are less effective when applied to sonar-generated acoustic images, while convolutional neural networks (CNNs) typically require large amounts of labeled training data that are often unavailable or difficult to acquire. To this end, we propose a novel compact deep sonar descriptor pipeline that can generalize to real scenarios while being trained exclusively on synthetic data. Our architecture is based on a ResNet18 back-end and a properly parameterized random Gaussian projection layer, whereas input sonar data is enhanced with standard ad-hoc normalization/prefiltering techniques. A customized synthetic data generation procedure is also presented. The proposed method has been evaluated extensively using both synthetic and publicly available real data, demonstrating its effectiveness compared to state-of-the-art methods.
翻訳日:2023-09-27 01:41:49 公開日:2023-09-24
# 量子位相による粒子検出のための最適重ね合わせ

Optimal Superpositions for Particle Detection via Quantum Phase ( http://arxiv.org/abs/2307.15186v2 )

ライセンス: Link先を確認
Eva Kilian, Marko Toro\v{s}, P.F. Barker, Sougato Bose(参考訳) 量子力学をセンシングに活用することは、前例のない可能性をもたらす。 新たな量子センサーの最先端技術提案は、しばしば大きな重ね合わせの作成に依存し、一般に磁場を検知する。 しかし、特定の方向から入射粒子(または入射粒子の流れ)を検出するのに最適な重ね合わせサイズは何でしょうか。 この問題は、一般的には、この粒子は様々なモーメントで散乱し、センサーに様々な反動を与えるため、よく定義された測定可能な位相ではなくデコヒーレンスをもたらす。 量子重ね合わせの系による方向的粒子環境の散乱相互作用を考えることで、相対位相を介して入射粒子を測定するための「最適重ね合わせ」サイズが存在することを見出した。 環境の異方性(anisotropy of the environment)の結果,システムの密度行列の実部と虚部の境界挙動に新たな特徴が見られ,重ね合わせサイズの最適性と散乱器の波長を結びつけた。

Exploiting quantum mechanics for sensing offers unprecedented possibilities. State of the art proposals for novel quantum sensors often rely on the creation of large superpositions and generally detect a field. However, what is the optimal superposition size for detecting an incident particle (or an incident stream of particles) from a specific direction? This question is nontrivial as, in general, this incident particle will scatter off with varied momenta, imparting varied recoils to the sensor, resulting in decoherence rather than a well defined measurable phase. By considering scattering interactions of directional particulate environments with a system in a quantum superposition, we find that there is an "optimal superposition" size for measuring incoming particles via a relative phase. As a consequence of the anisotropy of the environment, we observe a novel feature in the limiting behaviour of the real and imaginary parts of the system's density matrix, linking the optimality of the superposition size to the wavelength of the scatterer.
翻訳日:2023-09-27 01:41:20 公開日:2023-09-24
# 弱教師付きセマンティックセグメンテーションのための全ペア一貫性学習

All-pairs Consistency Learning for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2308.04321v2 )

ライセンス: Link先を確認
Weixuan Sun, Yanhao Zhang, Zhen Qin, Zheyuan Liu, Lin Cheng, Fanyi Wang, Yiran Zhong, Nick Barnes(参考訳) 本研究では,Wakly supervised semantic segmentation (WSSS) のためのオブジェクトのローカライズを改良したトランスフォーマーベース正規化を提案する。 画像レベルのWSSSでは、擬似セグメンテーションラベルとしてオブジェクトローカライゼーションを生成するためにクラスアクティベーションマップ(CAM)が採用されている。 CAMの部分的なアクティベーション問題に対処するために、様々な画像拡張におけるアクティベーション強度の不変性を維持するために整合正則化を用いる。 しかし、これらの手法は各CAM内の領域間のペアワイズ関係を無視し、コンテキストをキャプチャし、画像ビュー間で不変であるべきである。 そこで本研究では,新しい全対整合正規化(ACR)を提案する。 一対の拡張ビューが与えられた場合、我々のアプローチは、一対の拡張ビュー間でのアクティベーション強度を規則化するとともに、各ビュー内の領域間の親和性が一貫していることを保証する。 視覚トランスフォーマーを自己着脱機構として採用し,自然にペアワイズ親和性を埋め込む。 これにより、強調画像対の注目行列間の距離を簡易に調整できる。 さらに,クラストークンの勾配を利用した新しいクラス単位のローカライズ手法を提案する。 我々の手法はアーキテクチャを変更することなくトランスフォーマーを用いて既存のWSSSメソッドにシームレスに統合することができる。 PASCAL VOCおよびMS COCOデータセットを用いて本手法の評価を行った。 本手法はクラスローカライゼーションマップ(PASCAL VOC列車の67.3% mIoU)を著しく改善し,WSSS性能が向上した。

In this work, we propose a new transformer-based regularization to better localize objects for Weakly supervised semantic segmentation (WSSS). In image-level WSSS, Class Activation Map (CAM) is adopted to generate object localization as pseudo segmentation labels. To address the partial activation issue of the CAMs, consistency regularization is employed to maintain activation intensity invariance across various image augmentations. However, such methods ignore pair-wise relations among regions within each CAM, which capture context and should also be invariant across image views. To this end, we propose a new all-pairs consistency regularization (ACR). Given a pair of augmented views, our approach regularizes the activation intensities between a pair of augmented views, while also ensuring that the affinity across regions within each view remains consistent. We adopt vision transformers as the self-attention mechanism naturally embeds pair-wise affinity. This enables us to simply regularize the distance between the attention matrices of augmented image pairs. Additionally, we introduce a novel class-wise localization method that leverages the gradients of the class token. Our method can be seamlessly integrated into existing WSSS methods using transformers without modifying the architectures. We evaluate our method on PASCAL VOC and MS COCO datasets. Our method produces noticeably better class localization maps (67.3% mIoU on PASCAL VOC train), resulting in superior WSSS performances.
翻訳日:2023-09-27 01:31:20 公開日:2023-09-24
# 非知覚状態拡張によるオフライン強化学習における一般化の活用

Exploiting Generalization in Offline Reinforcement Learning via Unseen State Augmentations ( http://arxiv.org/abs/2308.03882v2 )

ライセンス: Link先を確認
Nirbhay Modhe, Qiaozi Gao, Ashwin Kalyan, Dhruv Batra, Govind Thattai, Gaurav Sukhatme(参考訳) オフライン強化学習(RL)手法は、保守的な価値推定による探索と搾取のバランスを崩し、目に見えない状態や行動の価値を罰する。 モデルベースメソッドは、モデルロールアウトによって、未検出の状態をさらに活用することができる。 しかし、これらの手法は2つの要因により、利用可能なオフラインデータから遠く離れた見えない状態を見つける能力に障害がある。 (a)カスケードモデルエラーによるモデルにおける非常に短いロールアウト地平線 (b)オフラインデータで観測された状態のみに由来するモデルロールアウト。 第2の仮定を緩和し,学習モデルと価値推定が一般化する未認識状態の活用を可能にする,新たな未認識状態拡張戦略を提案する。 提案手法では,認識的不確実性推定値が高すぎる(高い誤差)あるいは低すぎる(見掛けたデータに類似しすぎる)状態を用いて,見掛けられた状態の値に変形した摂動によって,見当たらない状態を見出す。 いくつかのオフラインrlタスクのパフォーマンス改善を観察し、我々の拡張戦略が、ベースラインよりも保守的なq値推定というように、総合的に低い平均データセットq値推定につながることを発見しました。

Offline reinforcement learning (RL) methods strike a balance between exploration and exploitation by conservative value estimation -- penalizing values of unseen states and actions. Model-free methods penalize values at all unseen actions, while model-based methods are able to further exploit unseen states via model rollouts. However, such methods are handicapped in their ability to find unseen states far away from the available offline data due to two factors -- (a) very short rollout horizons in models due to cascading model errors, and (b) model rollouts originating solely from states observed in offline data. We relax the second assumption and present a novel unseen state augmentation strategy to allow exploitation of unseen states where the learned model and value estimates generalize. Our strategy finds unseen states by value-informed perturbations of seen states followed by filtering out states with epistemic uncertainty estimates too high (high error) or too low (too similar to seen data). We observe improved performance in several offline RL tasks and find that our augmentation strategy consistently leads to overall lower average dataset Q-value estimates i.e. more conservative Q-value estimates than a baseline.
翻訳日:2023-09-27 01:29:49 公開日:2023-09-24
# GPFL:個人化フェデレーション学習のためのグローバルおよびパーソナライズされた特徴情報同時学習

GPFL: Simultaneously Learning Global and Personalized Feature Information for Personalized Federated Learning ( http://arxiv.org/abs/2308.10279v2 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Hua, Hao Wang, Tao Song, Zhengui Xue, Ruhui Ma, Jian Cao, Haibing Guan(参考訳) Federated Learning (FL)は、プライバシー保護と協調学習機能で人気がある。 近年、パーソナライズされたFL(pFL)は、統計的不均一性に対処し、FLにおけるパーソナライズを実現する能力に注目されている。 しかし, 特徴抽出の観点からは, 既存のpFL手法は, 地域訓練におけるグローバル・パーソナライズされた特徴情報の抽出にのみ焦点をあてており, pFLの協調学習とパーソナライゼーションの目標を達成できない。 そこで我々はGPFLと呼ばれる新しいpFL手法を提案し,各クライアントのグローバルかつパーソナライズされた特徴情報を同時に学習する。 3つの統計的に異質な環境で6つのデータセットについて広範な実験を行い、有効性、スケーラビリティ、公平性、安定性、プライバシに関する10の最先端手法に対するgpflの優位性を示す。 さらに、GPFLはオーバーフィッティングを軽減し、ベースラインの精度を最大8.99%向上させる。

Federated Learning (FL) is popular for its privacy-preserving and collaborative learning capabilities. Recently, personalized FL (pFL) has received attention for its ability to address statistical heterogeneity and achieve personalization in FL. However, from the perspective of feature extraction, most existing pFL methods only focus on extracting global or personalized feature information during local training, which fails to meet the collaborative learning and personalization goals of pFL. To address this, we propose a new pFL method, named GPFL, to simultaneously learn global and personalized feature information on each client. We conduct extensive experiments on six datasets in three statistically heterogeneous settings and show the superiority of GPFL over ten state-of-the-art methods regarding effectiveness, scalability, fairness, stability, and privacy. Besides, GPFL mitigates overfitting and outperforms the baselines by up to 8.99% in accuracy.
翻訳日:2023-09-27 01:21:21 公開日:2023-09-24
# GNNPipe:パイプラインモデル並列処理によるディープGNNトレーニングのスケールアップ

GNNPipe: Scaling Deep GNN Training with Pipelined Model Parallelism ( http://arxiv.org/abs/2308.10087v2 )

ライセンス: Link先を確認
Jingji Chen, Zhuoming Chen, Xuehai Qian(参考訳) コミュニケーションは分散グラフニューラルネットワーク(gnn)トレーニングの重要なボトルネックである。 本稿では、分散フルグラフ深部GNNトレーニングをスケールする新しいアプローチであるGNNPipeを提案する。 gnnトレーニングに最初にレイヤレベルのモデル並列性を使用したgnnpipeは、gpu間でgnnレイヤを分割し、各デバイスは、グラフ全体の連続したgnnレイヤの非結合サブセットの計算を実行する。 GNNPipeはグラフ分割を処理する各GPUと比較して、グラフの並列処理と比較して、GNN層の数による通信量を削減する。 GNNPipeは、依存チャンクに分割し、過去の頂点埋め込みを使用できるようにし、収束を保証するために特定のトレーニングテクニックを適用することで、グラフ全体のパイプライン層レベルのモデル並列性に関するユニークな課題を克服する。 また,gnnpipeとグラフ並列処理を組み合わせることで,大規模グラフを処理し,計算機資源の利用性の向上とモデル収束の確保を両立させる手法を提案する。 我々は3つの並列性設定すべてをサポートする汎用的なGNNトレーニングシステムを構築した。 広範な実験により,1時間当たりのトレーニング時間を最大2.45x(平均1.58x)削減し,通信量とオーバーヘッドを最大22.89xと27.21x(平均8.69xと11.60x)削減し,グラフ並列処理と同等の精度と収束速度を実現していることが示された。

Communication is a key bottleneck for distributed graph neural network (GNN) training. This paper proposes GNNPipe, a new approach that scales the distributed full-graph deep GNN training. Being the first to use layer-level model parallelism for GNN training, GNNPipe partitions GNN layers among GPUs, each device performs the computation for a disjoint subset of consecutive GNN layers on the whole graph. Compared to graph parallelism with each GPU handling a graph partition, GNNPipe reduces the communication volume by a factor of the number of GNN layers. GNNPipe overcomes the unique challenges for pipelined layer-level model parallelism on the whole graph by partitioning it into dependent chunks, allowing the use of historical vertex embeddings, and applying specific training techniques to ensure convergence. We also propose a hybrid approach by combining GNNPipe with graph parallelism to handle large graphs, achieve better computer resource utilization and ensure model convergence. We build a general GNN training system supporting all three parallelism setting. Extensive experiments show that our method reduces the per-epoch training time by up to 2.45x (on average 1.58x) and reduces the communication volume and overhead by up to 22.89x and 27.21x (on average 8.69x and 11.60x), respectively, while achieving a comparable level of model accuracy and convergence speed compared to graph parallelism.
翻訳日:2023-09-27 01:21:02 公開日:2023-09-24
# ロバストなレゴ操作のための軽量で転送可能な設計

A Lightweight and Transferable Design for Robust LEGO Manipulation ( http://arxiv.org/abs/2309.02354v2 )

ライセンス: Link先を確認
Ruixuan Liu and Yifan Sun and Changliu Liu(参考訳) LEGOは、ピクセル化されたオブジェクトをプロトタイピングするためのよく知られたプラットフォームである。 しかし, ロボットレゴのプロトタイピング(レゴブロックの操作)は, 密接な接続と精度の要求により困難である。 本稿では,安全かつ効率的なロボットレゴ操作について検討する。 特に,ハードウェア・ソフトウェア共同設計による操作の複雑さを低減した。 EOAT(End-of-arm Tool)は、問題次元を小さくし、大きな産業用ロボットがLEGOブロックを容易に操作できるように設計されている。 さらに,ロボットの動きをLEGO操作に安全に最適化するために,進化戦略を用いる。 実験により、EOATはLEGOブロックの操作において確実に機能し、学習フレームワークは操作性能を100%の成功率で効果的に安全に改善できることが示された。 共同設計は複数のロボット(FANUC LR-mate 200id/7LとYaskawa GP4)に展開され、その一般化性と伝達性を示す。 最後に,提案手法により,ロボットが複数のプロトタイプを組み立てて分解できる,持続可能なロボットレゴプロトタイプが実現可能であることを示す。

LEGO is a well-known platform for prototyping pixelized objects. However, robotic LEGO prototyping (i.e. manipulating LEGO bricks) is challenging due to the tight connections and accuracy requirement. This paper investigates safe and efficient robotic LEGO manipulation. In particular, this paper reduces the complexity of the manipulation by hardware-software co-design. An end-of-arm tool (EOAT) is designed, which reduces the problem dimension and allows large industrial robots to easily manipulate LEGO bricks. In addition, this paper uses evolution strategy to safely optimize the robot motion for LEGO manipulation. Experiments demonstrate that the EOAT performs reliably in manipulating LEGO bricks and the learning framework can effectively and safely improve the manipulation performance to a 100% success rate. The co-design is deployed to multiple robots (i.e. FANUC LR-mate 200id/7L and Yaskawa GP4) to demonstrate its generalizability and transferability. In the end, we show that the proposed solution enables sustainable robotic LEGO prototyping, in which the robot can repeatedly assemble and disassemble different prototypes.
翻訳日:2023-09-27 01:00:22 公開日:2023-09-24
# AIにおけるサイレンの歌:大規模言語モデルにおける幻覚に関する調査

Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models ( http://arxiv.org/abs/2309.01219v2 )

ライセンス: Link先を確認
Yue Zhang, Yafu Li, Leyang Cui, Deng Cai, Lemao Liu, Tingchen Fu, Xinting Huang, Enbo Zhao, Yu Zhang, Yulong Chen, Longyue Wang, Anh Tuan Luu, Wei Bi, Freda Shi, Shuming Shi(参考訳) 大規模な言語モデル (LLM) は、様々な下流タスクにおいて顕著な能力を示してきたが、幻覚を示すための正当性に関する重要な懸念が巻き起こされている: LLM は時として、ユーザ入力から分岐するコンテンツを生成したり、以前に生成されたコンテキストに矛盾したり、確立された世界の知識と相違する。 この現象は、現実のシナリオにおけるLLMの信頼性に重大な課題をもたらす。 本稿では, 幻覚の検出, 説明, 緩和に関する最近の取り組みを, LLMがもたらすユニークな課題に焦点をあてて調査する。 本稿では, LLM幻覚現象の分類と評価ベンチマーク, LLM幻覚の緩和を目的とした既存手法の分析, 今後の研究の方向性について考察する。

While large language models (LLMs) have demonstrated remarkable capabilities across a range of downstream tasks, a significant concern revolves around their propensity to exhibit hallucinations: LLMs occasionally generate content that diverges from the user input, contradicts previously generated context, or misaligns with established world knowledge. This phenomenon poses a substantial challenge to the reliability of LLMs in real-world scenarios. In this paper, we survey recent efforts on the detection, explanation, and mitigation of hallucination, with an emphasis on the unique challenges posed by LLMs. We present taxonomies of the LLM hallucination phenomena and evaluation benchmarks, analyze existing approaches aiming at mitigating LLM hallucination, and discuss potential directions for future research.
翻訳日:2023-09-27 00:59:28 公開日:2023-09-24
# 機械学習のための熱帯幾何学ツール: tmlパッケージ

Tropical Geometric Tools for Machine Learning: the TML package ( http://arxiv.org/abs/2309.01082v3 )

ライセンス: Link先を確認
David Barnhill and Ruriko Yoshida and Georgios Aliatimis and Keiji Miura(参考訳) 過去10年間、熱帯幾何学の発展は、統計学習の問題に直接適用できる多くの用途を提供してきた。 tmlパッケージは、熱帯凸性に関する基本的な計算、熱帯凸集合の可視化、および熱帯射影トーラス上のマックスプラス代数の下での熱帯メトリックを用いた教師付きおよび教師なし学習モデルのための包括的なツールと方法を含む、最初のrパッケージである。 主に、TMLパッケージは、統計推測のための主要なツールとして熱帯計量とともに、ヒッチ・アンド・ラン・マルコ連鎖モンテカルロサンプリング器を使用している。 基本計算と熱帯HARサンプル装置の様々な応用に加えて、熱帯主成分分析、熱帯ロジスティック回帰、熱帯核密度推定を含むTMLパッケージに組み込まれたいくつかの教師なしおよび教師なし手法にも着目する。

In the last decade, developments in tropical geometry have provided a number of uses directly applicable to problems in statistical learning. The TML package is the first R package which contains a comprehensive set of tools and methods used for basic computations related to tropical convexity, visualization of tropically convex sets, as well as supervised and unsupervised learning models using the tropical metric under the max-plus algebra over the tropical projective torus. Primarily, the TML package employs a Hit and Run Markov chain Monte Carlo sampler in conjunction with the tropical metric as its main tool for statistical inference. In addition to basic computation and various applications of the tropical HAR sampler, we also focus on several supervised and unsupervised methods incorporated in the TML package including tropical principal component analysis, tropical logistic regression and tropical kernel density estimation.
翻訳日:2023-09-27 00:59:13 公開日:2023-09-24
# 非調和発振器とヌルブートストラップ

Anharmonic oscillators and the null bootstrap ( http://arxiv.org/abs/2309.06381v2 )

ライセンス: Link先を確認
Renjan Rajan John and Krishna Priya R(参考訳) 摂動解析的ヌルブートストラップの手法を用いて、結合における二階までのセクティックアンハーモニック発振器のエネルギー固有値とラダー演算子を得る。 我々は従来の摂動理論から同じことを導出した結果を確認する。 さらに,非エルミート対称ハミルトニアンに対するブートストラップ法を行い,シフト高調波発振器と卓越した立方アンハーモニック発振器に着目した。

We employ the technique of perturbative analytic null bootstrap to obtain the energy eigenvalues and ladder operators of the sextic anharmonic oscillator up to second order in the coupling. We confirm our results by deriving the same from traditional perturbation theory. We further perform the bootstrap approach on non-Hermitian PT symmetric Hamiltonians, focusing on the shifted harmonic oscillator and the celebrated cubic anharmonic oscillator.
翻訳日:2023-09-27 00:38:45 公開日:2023-09-24
# FRAMU:フェデレーション強化学習を用いた注意に基づく機械学習

FRAMU: Attention-based Machine Unlearning using Federated Reinforcement Learning ( http://arxiv.org/abs/2309.10283v2 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Lin Li, Haoran Xie, Taotao Cai, Xiaofeng Zhu, and Qing Li(参考訳) Machine Unlearningは、マシンラーニングプロセスからプライベートまたは無関係なデータを削除可能にすることで、データのプライバシ問題に対処する新興分野である。 プライバシとモデル効率に関する課題は、時代遅れ、プライベート、無関係なデータを使用することによって生じる。 これらの問題は、機械学習とアンラーニングの両方におけるモデルの精度と計算効率の両方を損なう。 これらの課題を軽減するために,FRAMU(Federated Reinforcement Learning)を用いたアテンションベースの機械学習フレームワークを導入する。 このフレームワークは適応学習機構、プライバシ保護技術、最適化戦略を取り入れており、正確性とプライバシを維持しながら、シングルモダリティまたはマルチモダリティといったさまざまなデータソースを処理するための、周到なソリューションとなっている。 FRAMUの強みは、変動するデータランドスケープへの適応性、時代遅れ、プライベート、あるいは無関係なデータを解き放つ能力、プライバシーを損なうことなく継続的なモデル進化をサポートすることにある。 シングルモダリティデータセットとマルチモダリティデータセットの両方で行った実験により、framuがベースラインモデルを大幅に上回っていることが明らかとなった。 収束行動と最適化戦略のさらなる評価は、連合学習アプリケーションにおけるフレームワークの有用性をさらに検証する。 全体としてFRAMUは、動的データ環境における重要な課題にも対処しながら、モデルパフォーマンスを最適化する堅牢でプライバシ保護ソリューションを提供することで、Machine Unlearningを推進している。

Machine Unlearning is an emerging field that addresses data privacy issues by enabling the removal of private or irrelevant data from the Machine Learning process. Challenges related to privacy and model efficiency arise from the use of outdated, private, and irrelevant data. These issues compromise both the accuracy and the computational efficiency of models in both Machine Learning and Unlearning. To mitigate these challenges, we introduce a novel framework, Attention-based Machine Unlearning using Federated Reinforcement Learning (FRAMU). This framework incorporates adaptive learning mechanisms, privacy preservation techniques, and optimization strategies, making it a well-rounded solution for handling various data sources, either single-modality or multi-modality, while maintaining accuracy and privacy. FRAMU's strength lies in its adaptability to fluctuating data landscapes, its ability to unlearn outdated, private, or irrelevant data, and its support for continual model evolution without compromising privacy. Our experiments, conducted on both single-modality and multi-modality datasets, revealed that FRAMU significantly outperformed baseline models. Additional assessments of convergence behavior and optimization strategies further validate the framework's utility in federated learning applications. Overall, FRAMU advances Machine Unlearning by offering a robust, privacy-preserving solution that optimizes model performance while also addressing key challenges in dynamic data environments.
翻訳日:2023-09-27 00:29:44 公開日:2023-09-24
# ポリプセグメンテーションのための注意機構を組み合わせた多層機能融合ネットワーク

Multi-level feature fusion network combining attention mechanisms for polyp segmentation ( http://arxiv.org/abs/2309.10219v2 )

ライセンス: Link先を確認
Junzhuo Liu, Qiaosong Chen, Ye Zhang, Zhixiang Wang, Deng Xin, Jin Wang(参考訳) 臨床的には、自動ポリープセグメンテーション技術は、医療診断の効率と精度を大幅に改善し、患者の大腸癌のリスクを低減する可能性がある。 残念ながら、既存の手法はセグメンテーションの精度に影響を与える2つの重大な弱点に悩まされている。 まず、エンコーダによって抽出された特徴を適切にフィルタリングして利用しない。 第二に、特徴融合による意味的対立や情報冗長性は関与しない。 これらの制約を克服するために,多レベル特徴融合とアテンション機構を利用するMLFF-Netという,ポリプセグメンテーションの新しい手法を提案する。 具体的には,マルチスケールアテンションモジュール(MAM),ハイレベル機能拡張モジュール(HFEM),グローバルアテンションモジュール(GAM)の3つのモジュールで構成される。 これらのうち、MAMはエンコーダの浅い出力からマルチスケール情報やポリプの詳細を抽出するために用いられる。 HFEMでは、エンコーダの深い特徴はアグリゲーションによって相互に補完される。 一方、注目機構は、集約された特徴の重みを再分割し、矛盾する冗長部分を弱め、タスクに有用な情報を強調する。 GAMは、エンコーダとデコーダの機能と、グローバルな依存関係を計算して、受容的なフィールドローカリティを防ぐ。 5つの公開データセットによる実験結果から,提案手法は複数種類のポリープを分割できるだけでなく,精度と一般化能力の両面で現在の最先端手法よりも有利であることがわかった。

Clinically, automated polyp segmentation techniques have the potential to significantly improve the efficiency and accuracy of medical diagnosis, thereby reducing the risk of colorectal cancer in patients. Unfortunately, existing methods suffer from two significant weaknesses that can impact the accuracy of segmentation. Firstly, features extracted by encoders are not adequately filtered and utilized. Secondly, semantic conflicts and information redundancy caused by feature fusion are not attended to. To overcome these limitations, we propose a novel approach for polyp segmentation, named MLFF-Net, which leverages multi-level feature fusion and attention mechanisms. Specifically, MLFF-Net comprises three modules: Multi-scale Attention Module (MAM), High-level Feature Enhancement Module (HFEM), and Global Attention Module (GAM). Among these, MAM is used to extract multi-scale information and polyp details from the shallow output of the encoder. In HFEM, the deep features of the encoders complement each other by aggregation. Meanwhile, the attention mechanism redistributes the weight of the aggregated features, weakening the conflicting redundant parts and highlighting the information useful to the task. GAM combines features from the encoder and decoder features, as well as computes global dependencies to prevent receptive field locality. Experimental results on five public datasets show that the proposed method not only can segment multiple types of polyps but also has advantages over current state-of-the-art methods in both accuracy and generalization ability.
翻訳日:2023-09-27 00:29:20 公開日:2023-09-24
# X-PDNet:クロスタスク蒸留と境界補正による高精度な関節面分割と単眼深度推定

X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth Estimation with Cross-Task Distillation and Boundary Correction ( http://arxiv.org/abs/2309.08424v2 )

ライセンス: Link先を確認
Cao Dinh Duc, Jongwoo Lim(参考訳) 単一のRGB画像からの平面領域の分割は、複雑なシーンの知覚において特に重要な課題である。 画像の視覚的特性と幾何学的性質の両方を利用するため、近年の手法では、特徴融合機構と幾何学的制約損失による平面インスタンスと密集深度の同時推定として問題を定式化することが多い。 有望な結果にもかかわらず、これらの方法はクロスタスク機能蒸留を考慮せず、境界領域において性能が低下する。 これらの制約を克服するために,平面インスタンス分割と深さ推定のマルチタスク学習のためのフレームワークであるX-PDNetを提案する。 まず,タスク改善のために,両タスク間の早期情報共有を促進するクロスタスク蒸留設計を構築する。 第2に,境界回帰損失を増大させるために基底真理境界を用いる場合の現在の限界を強調し,正確な境界領域セグメンテーションを支援するために深度情報を利用する新しい手法を提案する。 最後に,Stanford 2D-3D-Semanticsデータセットから3000枚以上の画像を手動でアノテートし,平面インスタンスのセグメンテーションを評価する。 提案手法は,ScanNetとStanford 2D-3D-Sデータセットの定量化結果において,改良率の大きなベースラインを上回り,提案手法の有効性を実証する。

Segmentation of planar regions from a single RGB image is a particularly important task in the perception of complex scenes. To utilize both visual and geometric properties in images, recent approaches often formulate the problem as a joint estimation of planar instances and dense depth through feature fusion mechanisms and geometric constraint losses. Despite promising results, these methods do not consider cross-task feature distillation and perform poorly in boundary regions. To overcome these limitations, we propose X-PDNet, a framework for the multitask learning of plane instance segmentation and depth estimation with improvements in the following two aspects. Firstly, we construct the cross-task distillation design which promotes early information sharing between dual-tasks for specific task improvements. Secondly, we highlight the current limitations of using the ground truth boundary to develop boundary regression loss, and propose a novel method that exploits depth information to support precise boundary region segmentation. Finally, we manually annotate more than 3000 images from Stanford 2D-3D-Semantics dataset and make available for evaluation of plane instance segmentation. Through the experiments, our proposed methods prove the advantages, outperforming the baseline with large improvement margins in the quantitative results on the ScanNet and the Stanford 2D-3D-S dataset, demonstrating the effectiveness of our proposals.
翻訳日:2023-09-27 00:27:54 公開日:2023-09-24
# 非凸設定におけるadamの定数ステップサイズ収束:簡単な証明

Convergence of ADAM with Constant Step Size in Non-Convex Settings: A Simple Proof ( http://arxiv.org/abs/2309.08339v2 )

ライセンス: Link先を確認
Alokendu Mazumder, Bhartendu Kumar, Manan Tayal, Punit Rathore(参考訳) ニューラルネットワークトレーニングにおいて、RMSPropとADAMは依然として広く好まれる最適化アルゴリズムである。 彼らのパフォーマンスの鍵の1つは、正しいステップサイズを選択することである。 これらのアルゴリズムのパフォーマンスは、選択したステップサイズによって大きく異なる可能性があることに注意が必要だ。 さらに、それらの理論収束性に関する疑問は、引き続き関心の対象である。 本稿では,非凸状態におけるADAMの定常段差バージョンを理論的に解析する。 最小の仮定で、勾配の漸近収束を 0 にほぼ確実に達成するための段階的条件を示す。 また、スムーズな非凸関数を扱う場合、決定論的ADAMがほぼ臨界に達するための実行時境界も提供する。

In neural network training, RMSProp and ADAM remain widely favoured optimization algorithms. One of the keys to their performance lies in selecting the correct step size, which can significantly influence their effectiveness. It is worth noting that these algorithms performance can vary considerably, depending on the chosen step sizes. Additionally, questions about their theoretical convergence properties continue to be a subject of interest. In this paper, we theoretically analyze a constant stepsize version of ADAM in the non-convex setting. We show sufficient conditions for the stepsize to achieve almost sure asymptotic convergence of the gradients to zero with minimal assumptions. We also provide runtime bounds for deterministic ADAM to reach approximate criticality when working with smooth, non-convex functions.
翻訳日:2023-09-27 00:27:12 公開日:2023-09-24
# マルチエージェント深層強化学習によるAI駆動型患者モニタリング

AI-Driven Patient Monitoring with Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2309.10980v2 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Haoran Xie, Lin Li, Jianming Yong, and Hong-Ning Dai(参考訳) 効果的な患者モニタリングは、タイムリーな介入と医療結果の改善に不可欠である。 従来の監視システムは複雑でダイナミックな環境を扱うのに苦労し、バイタルサインが変動し、重要な状況を特定するのが遅れる。 この課題に対処するために,多エージェント深部強化学習(DRL)を用いた新しいAI駆動型患者監視フレームワークを提案する。 アプローチでは複数の学習エージェントをデプロイし,心拍数,呼吸量,温度などの生理的特徴をモニタする。 これらのエージェントは、一般的な医療監視環境と相互作用し、患者の行動パターンを学習し、緊急度に基づいて対応する救急チーム(met)に警告するインフォームド判断を行う。 本研究では, PPG-DaLiA と WESAD の2つのデータセットを用いた実世界の生理・運動データを用いたマルチエージェント DRL フレームワークの性能評価を行った。 結果を、Q-Learning、PPO、Actor-Critic、Double DQN、DDPG、WISEMLやCA-MAQLといった監視フレームワークなど、いくつかのベースラインモデルと比較する。 実験の結果,DRL法は他のベースラインモデルよりも優れており,患者のバイタルサインのより正確なモニタリングが可能であることがわかった。 さらに,各エージェントの学習プロセスを微調整するためにハイパーパラメータ最適化を行う。 ハイパーパラメータを最適化することで、学習率と割引率を高め、患者の健康状態を監視するエージェント全体のパフォーマンスを向上させる。 当社のAI駆動型患者監視システムは、複雑で不確実な環境を処理し、さまざまな患者の状況に適応し、外部の監視なしにリアルタイムな意思決定を行う能力など、従来の方法よりもいくつかの利点を提供している。

Effective patient monitoring is vital for timely interventions and improved healthcare outcomes. Traditional monitoring systems often struggle to handle complex, dynamic environments with fluctuating vital signs, leading to delays in identifying critical conditions. To address this challenge, we propose a novel AI-driven patient monitoring framework using multi-agent deep reinforcement learning (DRL). Our approach deploys multiple learning agents, each dedicated to monitoring a specific physiological feature, such as heart rate, respiration, and temperature. These agents interact with a generic healthcare monitoring environment, learn the patients' behavior patterns, and make informed decisions to alert the corresponding Medical Emergency Teams (METs) based on the level of emergency estimated. In this study, we evaluate the performance of the proposed multi-agent DRL framework using real-world physiological and motion data from two datasets: PPG-DaLiA and WESAD. We compare the results with several baseline models, including Q-Learning, PPO, Actor-Critic, Double DQN, and DDPG, as well as monitoring frameworks like WISEML and CA-MAQL. Our experiments demonstrate that the proposed DRL approach outperforms all other baseline models, achieving more accurate monitoring of patient's vital signs. Furthermore, we conduct hyperparameter optimization to fine-tune the learning process of each agent. By optimizing hyperparameters, we enhance the learning rate and discount factor, thereby improving the agents' overall performance in monitoring patient health status. Our AI-driven patient monitoring system offers several advantages over traditional methods, including the ability to handle complex and uncertain environments, adapt to varying patient conditions, and make real-time decisions without external supervision.
翻訳日:2023-09-26 22:46:03 公開日:2023-09-24
# NDDepth: 通常距離支援単眼深度推定

NDDepth: Normal-Distance Assisted Monocular Depth Estimation ( http://arxiv.org/abs/2309.10592v2 )

ライセンス: Link先を確認
Shuwei Shao, Zhongcai Pei, Weihai Chen, Xingming Wu and Zhengguo Li(参考訳) 単眼深度の推定は、その幅広い応用により、視覚コミュニティから広く注目を集めている。 本稿では,3次元シーンが分割平面で構成されていると仮定して,単眼深度推定のための新しい物理(ジオメトリ)駆動深層学習フレームワークを提案する。 特に,各位置における深度を導出するための画素レベル表面の正規化と平面-オリジン距離を出力する新しい正規距離ヘッドを導入する。 一方、標準と距離は、発達した平面認識整合性制約によって正規化される。 さらに,提案フレームワークのロバスト性を改善するために,さらに奥行きヘッドを統合する。 この2つの頭部の強みを十分に活用するために, 深さの不確かさに応じて奥行きを相補的に洗練する効果的な対比的反復改良モジュールを開発した。 大規模な実験により,提案手法は,NYU-Depth-v2,KITTI,SUN RGB-Dデータセット上での最先端の競合より優れていることが示された。 とくに、KITTIの深度予測オンラインベンチマークでは、提出時点で1位にランクインしている。

Monocular depth estimation has drawn widespread attention from the vision community due to its broad applications. In this paper, we propose a novel physics (geometry)-driven deep learning framework for monocular depth estimation by assuming that 3D scenes are constituted by piece-wise planes. Particularly, we introduce a new normal-distance head that outputs pixel-level surface normal and plane-to-origin distance for deriving depth at each position. Meanwhile, the normal and distance are regularized by a developed plane-aware consistency constraint. We further integrate an additional depth head to improve the robustness of the proposed framework. To fully exploit the strengths of these two heads, we develop an effective contrastive iterative refinement module that refines depth in a complementary manner according to the depth uncertainty. Extensive experiments indicate that the proposed method exceeds previous state-of-the-art competitors on the NYU-Depth-v2, KITTI and SUN RGB-D datasets. Notably, it ranks 1st among all submissions on the KITTI depth prediction online benchmark at the submission time.
翻訳日:2023-09-26 22:44:07 公開日:2023-09-24
# 構造成分設計のための潜在拡散モデル

Latent Diffusion Models for Structural Component Design ( http://arxiv.org/abs/2309.11601v2 )

ライセンス: Link先を確認
Ethan Herron, Jaydeep Rade, Anushrut Jignasu, Baskar Ganapathysubramanian, Aditya Balu, Soumik Sarkar, Adarsh Krishnamurthy(参考訳) 最近の生成モデリングの進歩、すなわち拡散モデルは生成モデリングに革命をもたらし、ユーザーのニーズに合わせた高品質な画像生成を可能にした。 本稿では,構造部品の生成設計のための枠組みを提案する。 具体的には, 潜在拡散モデルを用いて, 問題固有の負荷条件を満たしたコンポーネントのポテンシャル設計を行う。 我々のアプローチがGAN(Generative Adversarial Network)のような他のジェネレーティブアプローチよりも優れている点の1つは、既存のデザインの編集を可能にすることである。 SIMPアルゴリズムを用いて構造的トポロジ最適化から得られたジオメトリのデータセットを用いてモデルを訓練する。 その結果,本フレームワークは本質的に準最適設計を生成する。 本研究は,生成した設計の構造的性能と候補設計の変動性をサポートする定量的な結果を示す。 さらに、ボクセルドメイン上で32^3$から128^3$の解像度で操作することで、フレームワークのスケーラビリティを示す。 本手法はトポロジー最適化設計と類似した新しい近似最適設計の出発点として使用できる。

Recent advances in generative modeling, namely Diffusion models, have revolutionized generative modeling, enabling high-quality image generation tailored to user needs. This paper proposes a framework for the generative design of structural components. Specifically, we employ a Latent Diffusion model to generate potential designs of a component that can satisfy a set of problem-specific loading conditions. One of the distinct advantages our approach offers over other generative approaches, such as generative adversarial networks (GANs), is that it permits the editing of existing designs. We train our model using a dataset of geometries obtained from structural topology optimization utilizing the SIMP algorithm. Consequently, our framework generates inherently near-optimal designs. Our work presents quantitative results that support the structural performance of the generated designs and the variability in potential candidate designs. Furthermore, we provide evidence of the scalability of our framework by operating over voxel domains with resolutions varying from $32^3$ to $128^3$. Our framework can be used as a starting point for generating novel near-optimal designs similar to topology-optimized designs.
翻訳日:2023-09-26 22:36:13 公開日:2023-09-24
# 軸対称再生核粒子法による高温下における不飽和ベントナイト緩衝モデルテストのデータ駆動モデリング

Data-Driven Modeling of an Unsaturated Bentonite Buffer Model Test Under High Temperatures Using an Enhanced Axisymmetric Reproducing Kernel Particle Method ( http://arxiv.org/abs/2309.13519v1 )

ライセンス: Link先を確認
Jonghyuk Baek, Yanran Wang, Xiaolong He, Yu Lu, John S. McCartney, and J. S. Chen(参考訳) キャニスター間隔が近い高レベル核廃棄物の深部地質リポジトリでは、ベントナイトバッファは100 {\deg}C以上の温度を経験することができる。 この範囲の極端な温度では、現象論的構成法則はベントナイトの熱-水-機械的挙動(THM)を捉える際の制限に直面している。 本研究では, 深部ニューラルネットワークを用いたベントナイトの土壌水分保持曲線(SWRC)を導入し, 再生カーネル粒子法(RKPM)に統合し, ベントナイトバッファのTHMシミュレーションを行う。 DNN-SWRCモデルは、温度を付加的な入力変数として含み、一般的な非等温条件下での吸引と飽和度の関係を学習することができる。 タンクスケール試験を効果的にモデル化するために、ヒータ配置を表す特異ディリクレ強制力と、薄層複合タンク構造を表す効果的な対流熱伝達係数を富む新しい軸対称再生核基底関数を開発した。 提案手法は,mx-80ベントナイトの筒状層を中心加熱したタンクスケール実験のモデル化により実証された。

In deep geological repositories for high level nuclear waste with close canister spacings, bentonite buffers can experience temperatures higher than 100 {\deg}C. In this range of extreme temperatures, phenomenological constitutive laws face limitations in capturing the thermo-hydro-mechanical (THM) behavior of the bentonite, since the pre-defined functional constitutive laws often lack generality and flexibility to capture a wide range of complex coupling phenomena as well as the effects of stress state and path dependency. In this work, a deep neural network (DNN)-based soil-water retention curve (SWRC) of bentonite is introduced and integrated into a Reproducing Kernel Particle Method (RKPM) for conducting THM simulations of the bentonite buffer. The DNN-SWRC model incorporates temperature as an additional input variable, allowing it to learn the relationship between suction and degree of saturation under the general non-isothermal condition, which is difficult to represent using a phenomenological SWRC. For effective modeling of the tank-scale test, new axisymmetric Reproducing Kernel basis functions enriched with singular Dirichlet enforcement representing heater placement and an effective convective heat transfer coefficient representing thin-layer composite tank construction are developed. The proposed method is demonstrated through the modeling of a tank-scale experiment involving a cylindrical layer of MX-80 bentonite exposed to central heating.
翻訳日:2023-09-26 19:26:10 公開日:2023-09-24
# InSpaceType:屋内単眼深度推定における再考型空間型

InSpaceType: Reconsider Space Type in Indoor Monocular Depth Estimation ( http://arxiv.org/abs/2309.13516v1 )

ライセンス: Link先を確認
Cho-Ying Wu, Quankai Gao, Chin-Cheng Hsu, Te-Lin Wu, Jing-Wen Chen, Ulrich Neumann(参考訳) 屋内の単眼深度推定は研究の関心を集めている。 これまでのほとんどの研究は方法論に重点を置いており、主にNYU-Depth-V2(NYUv2)データセットを実験し、テストセット全体のパフォーマンスにのみ集中していた。 しかし、ライブラリやキッチンのような非常に多様で多彩な関数型 \textit{space types} が存在する実世界のシナリオに単眼的深さ推定法を適用する場合、堅牢性や一般化についてはほとんど知られていない。 事前学習したモデルの性能ばらつきを実現するためには,空間型の性能破壊に関する研究が不可欠である。 従来の作業の堅牢性や限界への対処を容易にするため,一般屋内環境のための高品質かつ高解像度なRGBDデータセットInSpaceTypeを収集した。 我々は、inspacetypeに関する11の最近の手法をベンチマークし、空間タイプに関するパフォーマンスの不均衡に苦しむことを発見した。 分析は、他の4つのデータセット、3つの緩和アプローチ、未発見の空間型に一般化する能力に拡張します。 本研究は,室内単眼深度推定における空間タイプ間の性能不均衡を初めて詳細に検討し,空間タイプを考慮せずにモデル展開の安全性を懸念し,さらにロバスト性を改善する可能性に光を当てるものである。 データについては \url{https://depthcomputation.github.io/depthpublic} を参照。

Indoor monocular depth estimation has attracted increasing research interest. Most previous works have been focusing on methodology, primarily experimenting with NYU-Depth-V2 (NYUv2) Dataset, and only concentrated on the overall performance over the test set. However, little is known regarding robustness and generalization when it comes to applying monocular depth estimation methods to real-world scenarios where highly varying and diverse functional \textit{space types} are present such as library or kitchen. A study for performance breakdown into space types is essential to realize a pretrained model's performance variance. To facilitate our investigation for robustness and address limitations of previous works, we collect InSpaceType, a high-quality and high-resolution RGBD dataset for general indoor environments. We benchmark 11 recent methods on InSpaceType and find they severely suffer from performance imbalance concerning space types, which reveals their underlying bias. We extend our analysis to 4 other datasets, 3 mitigation approaches, and the ability to generalize to unseen space types. Our work marks the first in-depth investigation of performance imbalance across space types for indoor monocular depth estimation, drawing attention to potential safety concerns for model deployment without considering space types, and further shedding light on potential ways to improve robustness. See \url{https://depthcomputation.github.io/DepthPublic} for data.
翻訳日:2023-09-26 19:25:44 公開日:2023-09-24
# 適応型コンピュータベース学習ソフトウェアを用いた英語単言語話者に対する中国語マンダリン音の知覚訓練に関する研究

The Study of Perceptual Training of Chinese Mandarin Tones for Monolingual Speakers of English Using Adaptive Computer Based Training Software ( http://arxiv.org/abs/2309.13513v1 )

ライセンス: Link先を確認
Yuke Wang(参考訳) この研究は、第二言語学習とトーントレーニングにプラスの影響を与える可能性がある、音声トーントレーニングの新たなテクニックを探求した。

The study explored a new technique of phonetic tone training, which may have a positive impact on second language learning and tone training.
翻訳日:2023-09-26 19:25:18 公開日:2023-09-24
# グレーレベル共起行列を用いたアンサンブル学習とヒストグラム抽出を用いた物体分類モデル

Object Classification Model Using Ensemble Learning with Gray-Level Co-Occurrence Matrix and Histogram Extraction ( http://arxiv.org/abs/2309.13512v1 )

ライセンス: Link先を確認
Florentina Tatrin Kurniati, Daniel HF Manongga, Eko Sediyono, Sri Yulianto Joko Prasetyo, Roy Rudolf Huizen(参考訳) オブジェクト分類の分野では、オブジェクトのバリエーションに基づく識別はそれ自体が課題である。 形状、サイズ、色、テクスチャなどのバリエーションは、オブジェクトを正確に認識し識別する上での問題を引き起こす可能性がある。 本研究の目的は,オブジェクトを正確に識別するための分類法を開発することである。 提案する分類モデルは,ランダムフォレスト,k-nn,決定木,svm,ナイーブベイズ分類法とともに,投票と複合分類器を用いる。 テストの結果, 投票方法と組み合わせた分類器は, 92.4%, 精度78.6%, リコール95.2%, f1-score86.1%の精度で, それぞれで極めて良好な結果を得た。 組み合わせた分類器の精度は99.3%、精度は97.6%、リコールは100%、F1スコアは98.8%である。 実験結果から, 分類器と投票法を組み合わせた手法を用いることで, 精度を高めることが証明された。 本研究の貢献は、画像処理におけるオブジェクト分類の精度を向上させる際に、アンサンブル学習法、特に投票アンサンブル法と複合分類器の有効性を高める。

In the field of object classification, identification based on object variations is a challenge in itself. Variations include shape, size, color, and texture, these can cause problems in recognizing and distinguishing objects accurately. The purpose of this research is to develop a classification method so that objects can be accurately identified. The proposed classification model uses Voting and Combined Classifier, with Random Forest, K-NN, Decision Tree, SVM, and Naive Bayes classification methods. The test results show that the voting method and Combined Classifier obtain quite good results with each of them, ensemble voting with an accuracy value of 92.4%, 78.6% precision, 95.2% recall, and 86.1% F1-score. While the combined classifier with an accuracy value of 99.3%, a precision of 97.6%, a recall of 100%, and a 98.8% F1-score. Based on the test results, it can be concluded that the use of the Combined Classifier and voting methods is proven to increase the accuracy value. The contribution of this research increases the effectiveness of the Ensemble Learning method, especially the voting ensemble method and the Combined Classifier in increasing the accuracy of object classification in image processing.
翻訳日:2023-09-26 19:25:13 公開日:2023-09-24
# モデルベースロールアウトによる階層的強化学習における指導的協力

Guided Cooperation in Hierarchical Reinforcement Learning via Model-based Rollout ( http://arxiv.org/abs/2309.13508v1 )

ライセンス: Link先を確認
Haoran Wang, Yaoru Sun, Fang Wang, Yeming Chen(参考訳) 目標条件付き階層型強化学習(HRL)は、時間的抽象化による複雑な長距離強化学習(RL)タスクの効果的な探索を可能にするための有望なアプローチを示す。 しかし、ほとんどの目標条件付きHRLアルゴリズムは、レベル間のカップリングに関係なく、サブゴール発見に焦点を当てた。 本質的には、階層的なシステムでは、階層間のコミュニケーションと調整の増加により、より安定的で堅牢な政策改善がもたらされる。 本稿では,モデルベースロールアウト(GCMR)を用いた目標条件付きHRLフレームワークを提案する。 GCMRは、モデルベースのロールアウトを通じて、オフポリシー修正における状態遷移誤差を緩和し、サンプル効率をさらに向上する。 一方、これらの補正によって破壊されるのを避けるために、低レベルのQ関数勾配は、モデル推論上界の勾配ペナルティを用いて制約され、より安定した行動ポリシーが導かれる。 また,より高レベルなq関数を用いて将来の状態の価値を推定し,局所的な落とし穴を避けるためにグローバルタスク情報を下方へ送信する,下位レベルの政策を導く,段階間連携をさらに促進するためのワンステップ・ロールアウト型計画を提案する。 実験により,提案したGCMRフレームワークをHIGLのアンタングル変種であるACLGに組み込むことで,ベースラインよりも安定かつ堅牢な政策改善を実現し,従来の最先端(SOTA)HRLアルゴリズムをハード探索問題とロボット制御の両方で大幅に上回った。

Goal-conditioned hierarchical reinforcement learning (HRL) presents a promising approach for enabling effective exploration in complex long-horizon reinforcement learning (RL) tasks via temporal abstraction. Yet, most goal-conditioned HRL algorithms focused on the subgoal discovery, regardless of inter-level coupling. In essence, for hierarchical systems, the increased inter-level communication and coordination can induce more stable and robust policy improvement. Here, we present a goal-conditioned HRL framework with Guided Cooperation via Model-based Rollout (GCMR), which estimates forward dynamics to promote inter-level cooperation. The GCMR alleviates the state-transition error within off-policy correction through a model-based rollout, further improving the sample efficiency. Meanwhile, to avoid being disrupted by these corrected but possibly unseen or faraway goals, lower-level Q-function gradients are constrained using a gradient penalty with a model-inferred upper bound, leading to a more stable behavioral policy. Besides, we propose a one-step rollout-based planning to further facilitate inter-level cooperation, where the higher-level Q-function is used to guide the lower-level policy by estimating the value of future states so that global task information is transmitted downwards to avoid local pitfalls. Experimental results demonstrate that incorporating the proposed GCMR framework with ACLG, a disentangled variant of HIGL, yields more stable and robust policy improvement than baselines and substantially outperforms previous state-of-the-art (SOTA) HRL algorithms in both hard-exploration problems and robotic control.
翻訳日:2023-09-26 19:24:51 公開日:2023-09-24
# 中性原子の表面コード接続性向上のためのアーキテクチャ

An Architecture for Improved Surface Code Connectivity in Neutral Atoms ( http://arxiv.org/abs/2309.13507v1 )

ライセンス: Link先を確認
Joshua Viszlai, Sophia Fuhui Lin, Siddharth Dangwal, Jonathan M. Baker, Frederic T. Chong(参考訳) 有利な量子アルゴリズムに必要な誤差率を達成するためには、量子誤差補正(qec)が採用され、物理的に達成できる以上の論理量子ビット忠実性が向上する。 今日のデバイスがスケールし始めるにつれ、qecと基盤となるハードウェアの共設計アーキテクチャはオーバーヘッドを軽減し、実用的な量子コンピューティングの実現を加速するために必要となる。 本研究では,QECにおける論理計算に焦点をあてる。 我々は、中性原子配列からなる量子コンピュータに対処し、ハードウェアの高物理接続を高論理接続に変換する表面コードアーキテクチャを設計する。 我々は,並列論理キュービット群を提案し,効率的なcnotゲートを介してグループ内の全対一接続を実現する。 通常の格子手術と比較すると、これは量子ビット全体のフットプリントと実行時間を削減し、小型QEC回路に必要な時空オーバーヘッドを低減させる。 アーキテクチャのスケーラビリティについても検討しています。 本稿では,物理的アトム移動スキームを用いて,隣接したインターリーブ群における量子ビット間の全対全接続を可能にするインターリーブ格子手術を提案する。 数値シミュレーションを用いて,各種回路サイズに対するインターリーブ格子手術と原子移動の総ルーティング時間を評価する。 我々は,原子移動が最良となる中間回路と,格子間手術が最良となる大規模回路を定義する。 デバイスが拡張を続けるにつれて、ルーティング距離に応じて操作を選択することによって、ハイブリッドアプローチのモチベーションを高めます。

In order to achieve error rates necessary for advantageous quantum algorithms, Quantum Error Correction (QEC) will need to be employed, improving logical qubit fidelity beyond what can be achieved physically. As today's devices begin to scale, co-designing architectures for QEC with the underlying hardware will be necessary to reduce the daunting overheads and accelerate the realization of practical quantum computing. In this work, we focus on logical computation in QEC. We address quantum computers made from neutral atom arrays to design a surface code architecture that translates the hardware's higher physical connectivity into a higher logical connectivity. We propose groups of interleaved logical qubits, gaining all-to-all connectivity within the group via efficient transversal CNOT gates. Compared to standard lattice surgery operations, this reduces both the overall qubit footprint and execution time, lowering the spacetime overhead needed for small-scale QEC circuits. We also explore the architecture's scalability. We look at using physical atom movement schemes and propose interleaved lattice surgery which allows an all-to-all connectivity between qubits in adjacent interleaved groups, creating a higher connectivity routing space for large-scale circuits. Using numerical simulations, we evaluate the total routing time of interleaved lattice surgery and atom movement for various circuit sizes. We identify a cross-over point defining intermediate-scale circuits where atom movement is best and large-scale circuits where interleaved lattice surgery is best. We use this to motivate a hybrid approach as devices continue to scale, with the choice of operation depending on the routing distance.
翻訳日:2023-09-26 19:24:21 公開日:2023-09-24
# 言語教師付きセマンティクスセグメンテーションのための橋渡しセマンティクスギャップ

Bridging Semantic Gaps for Language-Supervised Semantic Segmentation ( http://arxiv.org/abs/2309.13505v1 )

ライセンス: Link先を確認
Yun Xing, Jian Kang, Aoran Xiao, Jiahao Nie, Shao Ling, Shijian Lu(参考訳) ビジョンランゲージ事前学習は、その目覚ましいゼロショット認識能力と、言語監督から一般化可能な視覚表現を学習する可能性を示した。 一歩前進して、言語によるセマンティックセグメンテーションは、画像とテキストのペアのみからピクセルグループを学習することで、テキスト入力の空間的局所化を可能にする。 それでも、最先端技術は、視覚とテキストのモダリティの間に明確な意味的ギャップに悩まされている:画像に現れる多くの視覚概念が、ペア化されたキャプションに欠けている。 このような意味的ミスアライメントは事前学習で循環し、テキスト表現で捉えた視覚概念が不十分なため、密集した予測ではゼロショット性能が劣る。 このようなセマンティクスのギャップを埋めるため,CLIPを利用するパイプラインであるConcept Curation(CoCu)を提案する。 各画像とテキストのペアに対して,視覚駆動型拡張とテキスト対視覚誘導ランキングとで視覚的に整合するコンセプトアーカイブを構築した。 したがって、関連する概念はクラスタガイドによるサンプリングによって識別され、事前トレーニングされ、視覚とテキストのセマンティクスのギャップを埋めることができる。 8つのセグメンテーションベンチマークの幅広いスイートにわたる実験は、cocuがスーパーブゼロショット転送性能を達成し、言語教師付きセグメンテーションベースラインを大きなマージンで大きく向上させ、事前トレーニングデータにおけるセマンティクスギャップの橋渡しの価値を示唆している。

Vision-Language Pre-training has demonstrated its remarkable zero-shot recognition ability and potential to learn generalizable visual representations from language supervision. Taking a step ahead, language-supervised semantic segmentation enables spatial localization of textual inputs by learning pixel grouping solely from image-text pairs. Nevertheless, the state-of-the-art suffers from clear semantic gaps between visual and textual modality: plenty of visual concepts appeared in images are missing in their paired captions. Such semantic misalignment circulates in pre-training, leading to inferior zero-shot performance in dense predictions due to insufficient visual concepts captured in textual representations. To close such semantic gap, we propose Concept Curation (CoCu), a pipeline that leverages CLIP to compensate for the missing semantics. For each image-text pair, we establish a concept archive that maintains potential visually-matched concepts with our proposed vision-driven expansion and text-to-vision-guided ranking. Relevant concepts can thus be identified via cluster-guided sampling and fed into pre-training, thereby bridging the gap between visual and textual semantics. Extensive experiments over a broad suite of 8 segmentation benchmarks show that CoCu achieves superb zero-shot transfer performance and greatly boosts language-supervised segmentation baseline by a large margin, suggesting the value of bridging semantic gap in pre-training data.
翻訳日:2023-09-26 19:23:53 公開日:2023-09-24
# DFRD:不均一なフェデレーション学習のためのデータ自由ロバストネス蒸留

DFRD: Data-Free Robustness Distillation for Heterogeneous Federated Learning ( http://arxiv.org/abs/2309.13546v1 )

ライセンス: Link先を確認
Kangyang Luo, Shuai Wang, Yexuan Fu, Xiang Li, Yunshi Lan, Ming Gao(参考訳) Federated Learning(FL)は、プライバシに制約のある分散機械学習パラダイムで、クライアントがプライベートデータを妥協することなく協調トレーニングを可能にする。 しかし,データヘテロジニアスおよびモデルヘテロジニアスFLシナリオにおいて,ロバストなグローバルモデルをいかに学習するかは難しい。 そこで本研究では,データフリーな知識蒸留を用いて新たなFL法(DFRD)を提案する。 DFRDはサーバに条件付きジェネレータを装備し、クライアントがアップロードしたローカルモデルのトレーニングスペースを近似し、そのトレーニングを忠実さ、転送可能性、多様性の観点から体系的に調査する。 通信ラウンド間のジェネレータの分散シフトによるグローバルモデルの破滅的な忘れを克服するために,ジェネレータの指数関数的移動平均コピーをサーバに保持する。 さらに,局所モデルから正確な知識を抽出するための動的重み付けとラベルサンプリングを提案する。 最後に、様々な画像分類タスクに関する広範な実験により、DFRDはSOTAベースラインと比較して大きな性能向上を達成できることを示した。

Federated Learning (FL) is a privacy-constrained decentralized machine learning paradigm in which clients enable collaborative training without compromising private data. However, how to learn a robust global model in the data-heterogeneous and model-heterogeneous FL scenarios is challenging. To address it, we resort to data-free knowledge distillation to propose a new FL method (namely DFRD). DFRD equips a conditional generator on the server to approximate the training space of the local models uploaded by clients, and systematically investigates its training in terms of fidelity, transferability} and diversity. To overcome the catastrophic forgetting of the global model caused by the distribution shifts of the generator across communication rounds, we maintain an exponential moving average copy of the generator on the server. Additionally, we propose dynamic weighting and label sampling to accurately extract knowledge from local models. Finally, our extensive experiments on various image classification tasks illustrate that DFRD achieves significant performance gains compared to SOTA baselines.
翻訳日:2023-09-26 19:14:03 公開日:2023-09-24
# 関連するリズム:好きな音楽を見つけるためのレコメンデーションシステム

Related Rhythms: Recommendation System To Discover Music You May Like ( http://arxiv.org/abs/2309.13544v1 )

ライセンス: Link先を確認
Rahul Singh and Pranav Kanuparthi(参考訳) 機械学習モデルは、今日では広く研究されているトピックである推奨システムの推進に広く利用されている。 これは音楽業界にとって特に当てはまります。 大量のアクティブユーザーに加えて、これらのシステムは大量のデータによって支えられている。 これらの大規模システムは、より良いユーザエクスペリエンスを提供し、顧客を積極的に関与させるアプリケーションを生み出します。 本稿では, 分散機械学習(ML)パイプラインをデライン化し, 楽曲のサブセットを入力として取り出し, 入力されたサブセットに類似していると認識された楽曲の新たなサブセットを生成する。 公開アクセス可能なミリオン・ソング・データセット(msd)は、研究者が商用の音楽プラットフォームにアクセスすることなく、オーディオトラック分析やレコメンデーションのための合理的に効率的なシステムを開発し、探索することができる。 提案するアプリケーションの目的は、ユーザーが好む曲を最適に推薦するように訓練されたMLシステムを活用することである。

Machine Learning models are being utilized extensively to drive recommender systems, which is a widely explored topic today. This is especially true of the music industry, where we are witnessing a surge in growth. Besides a large chunk of active users, these systems are fueled by massive amounts of data. These large-scale systems yield applications that aim to provide a better user experience and to keep customers actively engaged. In this paper, a distributed Machine Learning (ML) pipeline is delineated, which is capable of taking a subset of songs as input and producing a new subset of songs identified as being similar to the inputted subset. The publicly accessible Million Songs Dataset (MSD) enables researchers to develop and explore reasonably efficient systems for audio track analysis and recommendations, without having to access a commercialized music platform. The objective of the proposed application is to leverage an ML system trained to optimally recommend songs that a user might like.
翻訳日:2023-09-26 19:13:42 公開日:2023-09-24
# 複数ラベルテキスト分類における平衡更新と集合損失によるデータアノテーションの置換

Substituting Data Annotation with Balanced Updates and Collective Loss in Multi-label Text Classification ( http://arxiv.org/abs/2309.13543v1 )

ライセンス: Link先を確認
Muberra Ozmen, Joseph Cotnareanu, Mark Coates(参考訳) マルチラベルテキスト分類(MLTC)は、与えられたテキストに複数のラベルを割り当てるタスクであり、幅広いアプリケーションドメインを持つ。 既存のほとんどのアプローチでは、分類器を学ぶために膨大な量の注釈付きデータと、ラベルの数が増加するにつれて複雑になるような階層関係のようなラベル空間構造に関する明確に定義された制約を必要とする。 本稿では,利用可能な監視信号の大きさがラベル数に線形であるアノテーションフリーおよび希少アノテーション設定におけるmltc問題について検討する。 本手法は,(1)学習済み言語モデルを用いた自然言語推論による入力テキストの予備ラベル推定,(2)ラベル記述による符号付きラベル依存グラフの算出,(3)ラベル依存グラフに沿ったメッセージパスによる予備ラベル推定の更新,(3)期待ラベル頻度と予測の平均マルチラベル濃度の情報を注入する集合損失関数,の3つのステップを踏襲する。 実験の結果,本フレームワークは,事前学習した言語モデルの使用にほぼ不可避な計算量とメモリオーバーヘッドを付加した低管理環境下での効果的な性能を,実例に基づくf1スコアの70\%向上することを示した。

Multi-label text classification (MLTC) is the task of assigning multiple labels to a given text, and has a wide range of application domains. Most existing approaches require an enormous amount of annotated data to learn a classifier and/or a set of well-defined constraints on the label space structure, such as hierarchical relations which may be complicated to provide as the number of labels increases. In this paper, we study the MLTC problem in annotation-free and scarce-annotation settings in which the magnitude of available supervision signals is linear to the number of labels. Our method follows three steps, (1) mapping input text into a set of preliminary label likelihoods by natural language inference using a pre-trained language model, (2) calculating a signed label dependency graph by label descriptions, and (3) updating the preliminary label likelihoods with message passing along the label dependency graph, driven with a collective loss function that injects the information of expected label frequency and average multi-label cardinality of predictions. The experiments show that the proposed framework achieves effective performance under low supervision settings with almost imperceptible computational and memory overheads added to the usage of pre-trained language model outperforming its initial performance by 70\% in terms of example-based F1 score.
翻訳日:2023-09-26 19:13:26 公開日:2023-09-24
# 周波数領域自己回帰モデルによる音声強調

Speech enhancement with frequency domain auto-regressive modeling ( http://arxiv.org/abs/2309.13537v1 )

ライセンス: Link先を確認
Anurenjan Purushothaman, Debottam Dutta, Rohit Kumar and Sriram Ganapathy(参考訳) 遠方界における音声応用は、残響によって劣化する信号を扱うことが多い。 この課題は、音声認識(ASR)などのアプリケーションにおいて、可聴性の向上と誤り率の低減のために重要なステップとなる。 本稿では,自己回帰(ar)モデルを用いたエンベロープ・キャリア分解のアプローチを用いて,音声品質とasr性能を改善するための音声残響の統一的枠組みを提案する。 サブバンド音声信号の周波数領域にarモデルを適用し、エンベロープ部とキャリア部を分離する。 サブバンドエンベロープとキャリアコンポーネントを協調的に強化する2経路長短期メモリ(DPLSTM)モデルに基づくニューラルアーキテクチャを提案する。 残響封筒キャリア信号を変調し、サブバンド信号を合成してオーディオ信号を再構成する。 エンベロープとキャリアコンポーネントの除去のためのDPLSTMモデルは、ダウンストリームASRタスクのためのネットワークウェイトを共同学習することを可能にする。 VOiCESデータセットと同様にREVERBチャレンジデータセット上のASRタスクでは、音声のデバーベレーションネットワークとE2E ASRモデルの共同学習が、ログメル分光法で訓練されたベースラインASRシステムと、他のデバーベレーションのベンチマーク(ベースラインシステムに対して平均10-24%の相対的な改善)に対して、大幅な性能改善をもたらすことを示した。 主観的聴力テストを用いて評価した音声品質改善は,復元音声の質向上をさらに強調する。

Speech applications in far-field real world settings often deal with signals that are corrupted by reverberation. The task of dereverberation constitutes an important step to improve the audible quality and to reduce the error rates in applications like automatic speech recognition (ASR). We propose a unified framework of speech dereverberation for improving the speech quality and the ASR performance using the approach of envelope-carrier decomposition provided by an autoregressive (AR) model. The AR model is applied in the frequency domain of the sub-band speech signals to separate the envelope and carrier parts. A novel neural architecture based on dual path long short term memory (DPLSTM) model is proposed, which jointly enhances the sub-band envelope and carrier components. The dereverberated envelope-carrier signals are modulated and the sub-band signals are synthesized to reconstruct the audio signal back. The DPLSTM model for dereverberation of envelope and carrier components also allows the joint learning of the network weights for the down stream ASR task. In the ASR tasks on the REVERB challenge dataset as well as on the VOiCES dataset, we illustrate that the joint learning of speech dereverberation network and the E2E ASR model yields significant performance improvements over the baseline ASR system trained on log-mel spectrogram as well as other benchmarks for dereverberation (average relative improvements of 10-24% over the baseline system). The speech quality improvements, evaluated using subjective listening tests, further highlight the improved quality of the reconstructed audio.
翻訳日:2023-09-26 19:13:02 公開日:2023-09-24
# 絡み合ったデータとデバイスの不均質性を用いたフェデレーション学習における無限の停滞性への取り組み

Tackling the Unlimited Staleness in Federated Learning with Intertwined Data and Device Heterogeneities ( http://arxiv.org/abs/2309.13536v1 )

ライセンス: Link先を確認
Haoming Wang and Wei Gao(参考訳) 連合学習(fl)の効率は、しばしばデータとデバイスの不均一性の両方に影響される。 データの不均一性は、異なるクライアント上のデータ分布の不均一性として定義される。 デバイスの不均一性(device heterogeneity)は、ローカルハードウェアリソースの異種な条件によるローカルモデル更新のアップロードにおけるクライアントのさまざまなレイテンシとして定義され、非同期flによって対処される場合の不安定性の問題を引き起こす。 停滞の影響に取り組む伝統的なスキームは、データとデバイスの不均一性は、flの2つの独立した独立した側面であると考えるが、この仮定は、データとデバイスの不均一性が絡み合う多くの実用的なflシナリオにおいて非現実的である。 このような場合、FLにおける従来の重み付けアグリゲーションのスキームは効果がないことが証明され、より優れたアプローチは、古いモデルの更新を非安定のアグリゲーションに変換することである。 本稿では,このような変換に勾配反転技術を利用する新しいflフレームワークを提案する。 我々の基本的な考え方は、クライアントのローカルトレーニングデータをアップロードした静的モデル更新から推定し、これらの推定を使って非静的モデル更新を計算することである。 このようにして、グラデーションインバージョンを使用する場合、クライアントのローカルデータプライバシを維持しながら、データ品質低下の問題を解決します。 我々は,本手法を主流のデータセットとモデルにおける既存のfl戦略と比較し,実験結果から,無制限の定常性に取り組む場合,トレーニングモデルの精度を最大20%向上し,flトレーニングの進捗を最大35%向上できることを示した。

The efficiency of Federated Learning (FL) is often affected by both data and device heterogeneities. Data heterogeneity is defined as the heterogeneity of data distributions on different clients. Device heterogeneity is defined as the clients' variant latencies in uploading their local model updates due to heterogeneous conditions of local hardware resources, and causes the problem of staleness when being addressed by asynchronous FL. Traditional schemes of tackling the impact of staleness consider data and device heterogeneities as two separate and independent aspects in FL, but this assumption is unrealistic in many practical FL scenarios where data and device heterogeneities are intertwined. In these cases, traditional schemes of weighted aggregation in FL have been proved to be ineffective, and a better approach is to convert a stale model update into a non-stale one. In this paper, we present a new FL framework that leverages the gradient inversion technique for such conversion, hence efficiently tackling unlimited staleness in clients' model updates. Our basic idea is to use gradient inversion to get estimations of clients' local training data from their uploaded stale model updates, and use these estimations to compute non-stale client model updates. In this way, we address the problem of possible data quality drop when using gradient inversion, while still preserving the clients' local data privacy. We compared our approach with the existing FL strategies on mainstream datasets and models, and experiment results demonstrate that when tackling unlimited staleness, our approach can significantly improve the trained model accuracy by up to 20% and speed up the FL training progress by up to 35%.
翻訳日:2023-09-26 19:12:34 公開日:2023-09-24
# 密度パワー発散を利用したロバスト主成分分析

Robust Principal Component Analysis using Density Power Divergence ( http://arxiv.org/abs/2309.13531v1 )

ライセンス: Link先を確認
Subhrajyoty Roy, Ayanendranath Basu and Abhik Ghosh(参考訳) 主成分分析(PCA)は、主に次元の減少に使用される統計ツールである。 しかし、サンプル中の外部観察の存在によって悪影響を受けることが知られており、非常に一般的である。 M推定器を用いたロバストPCA法は理論的利点があるが、そのロバスト性は高次元データに対して著しく低下する。 一方、主成分探索や類似の最適化問題を解く頑健なPCAアルゴリズムは、理論的な豊かさを欠き、M推定器に比べて高い計算力を必要とする。 我々は、最小密度の電力分散推定器に基づく、新しいロバストPCA推定器を提案する。 これは、M推定器と最小分散推定器の理論的強度を、データ次元に関係なく高い分解保証と組み合わせる。 この推定のために計算効率の良いアルゴリズムを提案する。 提案手法は,従来のPCA法との比較とシミュレーションにより裏付けられた。 また、2つのベンチマークデータセットと不正検出のためのクレジットカードトランザクションデータセットに提案アルゴリズムの適用性を示す。

Principal component analysis (PCA) is a widely employed statistical tool used primarily for dimensionality reduction. However, it is known to be adversely affected by the presence of outlying observations in the sample, which is quite common. Robust PCA methods using M-estimators have theoretical benefits, but their robustness drop substantially for high dimensional data. On the other end of the spectrum, robust PCA algorithms solving principal component pursuit or similar optimization problems have high breakdown, but lack theoretical richness and demand high computational power compared to the M-estimators. We introduce a novel robust PCA estimator based on the minimum density power divergence estimator. This combines the theoretical strength of the M-estimators and the minimum divergence estimators with a high breakdown guarantee regardless of data dimension. We present a computationally efficient algorithm for this estimate. Our theoretical findings are supported by extensive simulations and comparisons with existing robust PCA methods. We also showcase the proposed algorithm's applicability on two benchmark datasets and a credit card transactions dataset for fraud detection.
翻訳日:2023-09-26 19:12:03 公開日:2023-09-24
# 安全強化学習のための反復到達可能性推定

Iterative Reachability Estimation for Safe Reinforcement Learning ( http://arxiv.org/abs/2309.13528v1 )

ライセンス: Link先を確認
Milan Ganai, Zheng Gong, Chenning Yu, Sylvia Herbert, Sicun Gao(参考訳) 強化学習(rl)の実践的展開には安全性の確保が重要である。 環境の確率性に対処すること、状態の安全満足度を持続的に保証すること、パフォーマンスを犠牲にする過度に保守的な行動を避けることなど、さまざまな課題に対処する必要がある。 一般確率環境における安全制約付きRLのための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。 違反のないポリシーが存在する実行可能セットでは、永続的な安全を維持しながら報酬を最適化します。 この実現可能セット以外では、最小の累積ディスカウント違反で可能な限り実行可能セットへの入り口を保証することにより、最適化は最も安全な動作を生み出す。 提案するフレームワークや,複数のハード制約とソフト制約を同時に扱うようなフレームワークで最適化するために,新しい到達可能性推定関数を用いたアルゴリズムのクラスを導入する。 我々は,アルゴリズムが安全最適化フレームワークの局所最適ポリシーにほぼ確実に収束することを理論的に確立する。 安全ガイム,PyBullet,MuJoCoの安全RL環境の多種多様な環境において提案手法の評価を行い,現状のベースラインと比較して,報奨性能と安全性の両方を改善する利点を示す。

Ensuring safety is important for the practical deployment of reinforcement learning (RL). Various challenges must be addressed, such as handling stochasticity in the environments, providing rigorous guarantees of persistent state-wise safety satisfaction, and avoiding overly conservative behaviors that sacrifice performance. We propose a new framework, Reachability Estimation for Safe Policy Optimization (RESPO), for safety-constrained RL in general stochastic settings. In the feasible set where there exist violation-free policies, we optimize for rewards while maintaining persistent safety. Outside this feasible set, our optimization produces the safest behavior by guaranteeing entrance into the feasible set whenever possible with the least cumulative discounted violations. We introduce a class of algorithms using our novel reachability estimation function to optimize in our proposed framework and in similar frameworks such as those concurrently handling multiple hard and soft constraints. We theoretically establish that our algorithms almost surely converge to locally optimal policies of our safe optimization framework. We evaluate the proposed methods on a diverse suite of safe RL environments from Safety Gym, PyBullet, and MuJoCo, and show the benefits in improving both reward performance and safety compared with state-of-the-art baselines.
翻訳日:2023-09-26 19:11:47 公開日:2023-09-24
# 言語誘導的特徴アライメントによるオブジェクト検出のための半教師付きドメイン一般化

Semi-Supervised Domain Generalization for Object Detection via Language-Guided Feature Alignment ( http://arxiv.org/abs/2309.13525v1 )

ライセンス: Link先を確認
Sina Malakouti, Adriana Kovashka(参考訳) オブジェクト検出における既存のドメイン適応(da)と一般化(dg)メソッドは、視覚空間に機能アライメントを強制するが、オブジェクトの出現変動やシーンの複雑さといった課題に直面するため、オブジェクトの区別と正確な検出が困難になる。 本稿では,視覚言語による事前学習と言語空間における機能アライメントの実施により,半教師付き領域一般化の問題に最初に対処する。 我々は,埋め込み空間におけるドメイン固有の特徴の異なる画像の記述の一致を最大化するために,クロスドメイン記述型マルチスケール学習(CDDMSL)を新たに導入した。 CDDMSLは既存の手法よりも優れており、それぞれDGとDAの設定が11.7%と7.5%改善している。 本手法の有効性を総合解析およびアブレーション研究により確認し,CDDMSLをオブジェクト検出タスクにおける領域一般化のための有望なアプローチとして位置づけた。

Existing domain adaptation (DA) and generalization (DG) methods in object detection enforce feature alignment in the visual space but face challenges like object appearance variability and scene complexity, which make it difficult to distinguish between objects and achieve accurate detection. In this paper, we are the first to address the problem of semi-supervised domain generalization by exploring vision-language pre-training and enforcing feature alignment through the language space. We employ a novel Cross-Domain Descriptive Multi-Scale Learning (CDDMSL) aiming to maximize the agreement between descriptions of an image presented with different domain-specific characteristics in the embedding space. CDDMSL significantly outperforms existing methods, achieving 11.7% and 7.5% improvement in DG and DA settings, respectively. Comprehensive analysis and ablation studies confirm the effectiveness of our method, positioning CDDMSL as a promising approach for domain generalization in object detection tasks.
翻訳日:2023-09-26 19:11:25 公開日:2023-09-24
# 皮下アバター再建のためのグローバル関連3dデカップリングトランス

Global-correlated 3D-decoupling Transformer for Clothed Avatar Reconstruction ( http://arxiv.org/abs/2309.13524v1 )

ライセンス: Link先を確認
Zechuan Zhang, Li Sun, Zongxin Yang, Ling Chen, Yi Yang(参考訳) 3d服を着た人間のアバターを1枚の画像から再構築することは、特に複雑なポーズやゆるい衣服に遭遇する場合、難しい課題である。 現在のメソッドは性能に制限があり、主に不十分な2d画像特徴と一貫性のないクエリメソッドに依存する。 そこで我々は, モノクロ画像から人間のアバターを再構成する新しいトランスアーキテクチャであるGTA(Global-correlated 3D-decoupling Transformer for clothed Avatar reconstruction)を提案する。 提案手法は,グローバルな関連画像特徴をキャプチャするエンコーダとしてビジョントランスフォーマーモデルを活用することで,トランスフォーマアーキテクチャを活用する。 その後,3次元分離デコーダは,学習可能な埋め込みをクロスプレーン生成のためのクエリとして使用し,トライプレーン機能を分離するためにクロスアテンションを用いています。 本稿では,三面体3次元特徴と人体との融合を効果的に促進するために,空間的局所化と人体的事前知識の利点を活かし,空間的問合せと先行的問合せを組み合わせたハイブリッド事前融合戦略を提案する。 CAPEとTHuman2.0データセットの総合的な実験により、我々の手法は、幾何学的およびテクスチャ的再構築における最先端のアプローチよりも優れており、挑戦的なポーズやゆるい衣服に対して高い堅牢性を示し、高分解能なテクスチャを生成する。 コードはhttps://github.com/River-Zhang/GTAで入手できる。

Reconstructing 3D clothed human avatars from single images is a challenging task, especially when encountering complex poses and loose clothing. Current methods exhibit limitations in performance, largely attributable to their dependence on insufficient 2D image features and inconsistent query methods. Owing to this, we present the Global-correlated 3D-decoupling Transformer for clothed Avatar reconstruction (GTA), a novel transformer-based architecture that reconstructs clothed human avatars from monocular images. Our approach leverages transformer architectures by utilizing a Vision Transformer model as an encoder for capturing global-correlated image features. Subsequently, our innovative 3D-decoupling decoder employs cross-attention to decouple tri-plane features, using learnable embeddings as queries for cross-plane generation. To effectively enhance feature fusion with the tri-plane 3D feature and human body prior, we propose a hybrid prior fusion strategy combining spatial and prior-enhanced queries, leveraging the benefits of spatial localization and human body prior knowledge. Comprehensive experiments on CAPE and THuman2.0 datasets illustrate that our method outperforms state-of-the-art approaches in both geometry and texture reconstruction, exhibiting high robustness to challenging poses and loose clothing, and producing higher-resolution textures. Codes will be available at https://github.com/River-Zhang/GTA.
翻訳日:2023-09-26 19:11:08 公開日:2023-09-24
# LiDAR-UDA: 教師なしLiDARドメイン適応のための時間的自己組織化

LiDAR-UDA: Self-ensembling Through Time for Unsupervised LiDAR Domain Adaptation ( http://arxiv.org/abs/2309.13523v1 )

ライセンス: Link先を確認
Amirreza Shaban, JoonHo Lee, Sanghun Jung, Xiangyun Meng, Byron Boots(参考訳) LiDARセグメンテーションのための新しい2段階自己学習型Unsupervised Domain Adaptation(UDA)手法LiDAR-UDAを紹介する。 既存の自己学習方法は、ラベル付きソースデータに基づいてトレーニングされたモデルを使用して、ターゲットデータの擬似ラベルを生成し、擬似ラベル上でネットワークを微調整することで予測を洗練する。 これらの方法は、ソースとターゲットドメインの異なるLiDARセンサ構成によって生じるドメインシフトに悩まされる。 センサの不一致を低減し,擬似ラベル品質を改善する2つの手法を提案する。 1) ビームをランダムに落下させて異なるLiDAR走査パターンをシミュレートするLiDARビームサブサンプリング 2) 連続フレームの時間的一貫性を利用してより信頼性の高い擬似ラベルを生成するクロスフレームアンサンブル。 我々の手法は単純で一般化可能であり、追加の推論コストは発生しない。 提案手法をいくつかの公開LiDARデータセット上で評価し,すべてのシナリオにおいて平均3.9\%$ mIoU以上の最先端の手法より優れていることを示す。 コードはhttps://github.com/JHLee0513/LiDARUDAで入手できる。

We introduce LiDAR-UDA, a novel two-stage self-training-based Unsupervised Domain Adaptation (UDA) method for LiDAR segmentation. Existing self-training methods use a model trained on labeled source data to generate pseudo labels for target data and refine the predictions via fine-tuning the network on the pseudo labels. These methods suffer from domain shifts caused by different LiDAR sensor configurations in the source and target domains. We propose two techniques to reduce sensor discrepancy and improve pseudo label quality: 1) LiDAR beam subsampling, which simulates different LiDAR scanning patterns by randomly dropping beams; 2) cross-frame ensembling, which exploits temporal consistency of consecutive frames to generate more reliable pseudo labels. Our method is simple, generalizable, and does not incur any extra inference cost. We evaluate our method on several public LiDAR datasets and show that it outperforms the state-of-the-art methods by more than $3.9\%$ mIoU on average for all scenarios. Code will be available at https://github.com/JHLee0513/LiDARUDA.
翻訳日:2023-09-26 19:10:41 公開日:2023-09-24
# MentalLLaMA:大規模言語モデルを用いたソーシャルメディアのメンタルヘルス分析

MentalLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models ( http://arxiv.org/abs/2309.13567v1 )

ライセンス: Link先を確認
Kailai Yang, Tianlin Zhang, Ziyan Kuang, Qianqian Xie, Sophia Ananiadou(参考訳) ウェブ技術の発展に伴い、ソーシャルメディアのテキストはメンタルヘルス分析の豊富な情報源になりつつある。 従来の差別的手法が低い解釈可能性の問題に対処するため、近年の大規模言語モデルは、ソーシャルメディア上でのメンタルヘルス分析の解釈のために研究されており、予測とともに詳細な説明を提供することを目的としている。 その結果、ChatGPTは正しい分類のための接近する人間による説明を生成できることがわかった。 しかし、llmsはゼロショット/フェウショット方式で分類性能が不十分である。 ドメイン固有の微調整は効果的なソリューションであるが、2つの課題に直面している。 1)高品質なトレーニングデータがない。 2)微調整コストを下げるために,解釈可能なメンタルヘルス分析のためのオープンソースLCMはリリースされなかった。 これらの問題を緩和するために、ソーシャルメディア上で105Kのデータサンプルを用いて、最初のマルチタスクおよびマルチソースのメンタルヘルスインストラクション(IMHI)データセットを構築した。 生のソーシャルメディアデータは、8つのメンタルヘルス分析タスクをカバーする10の既存ソースから収集される。 専門家が作成した数発のプロンプトとラベルを収集し,ChatGPTをプロンプトし,その応答から説明を得る。 説明の信頼性を確保するため,生成データの正確性,一貫性,品質について,厳密な自動評価を行う。 IMHIデータセットとLLaMA2ファンデーションモデルに基づいて、インストラクションフォロー機能を備えたメンタルヘルス分析のための最初のオープンソースLLMシリーズであるMentalLLaMAを訓練する。 また,imhi評価ベンチマークにおけるmentalllamaの性能を10のテストセットで評価し,予測の正確性と説明の質について検討した。 以上の結果から,MentalLLaMAは最先端の判別手法に精度でアプローチし,高品質な説明を生成することがわかった。

With the development of web technology, social media texts are becoming a rich source for automatic mental health analysis. As traditional discriminative methods bear the problem of low interpretability, the recent large language models have been explored for interpretable mental health analysis on social media, which aims to provide detailed explanations along with predictions. The results show that ChatGPT can generate approaching-human explanations for its correct classifications. However, LLMs still achieve unsatisfactory classification performance in a zero-shot/few-shot manner. Domain-specific finetuning is an effective solution, but faces 2 challenges: 1) lack of high-quality training data. 2) no open-source LLMs for interpretable mental health analysis were released to lower the finetuning cost. To alleviate these problems, we build the first multi-task and multi-source interpretable mental health instruction (IMHI) dataset on social media, with 105K data samples. The raw social media data are collected from 10 existing sources covering 8 mental health analysis tasks. We use expert-written few-shot prompts and collected labels to prompt ChatGPT and obtain explanations from its responses. To ensure the reliability of the explanations, we perform strict automatic and human evaluations on the correctness, consistency, and quality of generated data. Based on the IMHI dataset and LLaMA2 foundation models, we train MentalLLaMA, the first open-source LLM series for interpretable mental health analysis with instruction-following capability. We also evaluate the performance of MentalLLaMA on the IMHI evaluation benchmark with 10 test sets, where their correctness for making predictions and the quality of explanations are examined. The results show that MentalLLaMA approaches state-of-the-art discriminative methods in correctness and generates high-quality explanations.
翻訳日:2023-09-26 19:05:40 公開日:2023-09-24
# ドメイン一般化インクリメンタル学習のための多変量プロトタイプ表現

Multivariate Prototype Representation for Domain-Generalized Incremental Learning ( http://arxiv.org/abs/2309.13563v1 )

ライセンス: Link先を確認
Can Peng, Piotr Koniusz, Kaiyu Guo, Brian C. Lovell, Peyman Moghadam(参考訳) ディープラーニングモデルは、新しいクラスのサンプルで微調整されたとき、壊滅的な忘れに苦しむ。 トレーニングとテストデータのドメインシフトに直面した場合には,この問題はさらに顕著になる。 本稿では,DGCIL(Domain-Generalized Class-Incremental Learning)について検討する。 古いクラスを記憶し、新しいクラスに適応し、見えないドメインから確実にオブジェクトを分類できるDGCILアプローチを設計する。 具体的には、損失定式化は分類境界を維持し、各クラスのドメイン固有情報を抑制する。 古い例が保存されていない場合、知識蒸留と、インクリメンタルなトレーニングの進歩として古いクラスのプロトタイプドリフトを推定します。 プロトタイプ表現は多変量正規分布に基づいており,その平均と共分散は,特徴空間ドリフトに適応することで,古いクラスをよく表現するためのモデル特徴の変化に常に適応する。 古いクラスでは、cholesky 分解の助けを借りて、適応正規分布から擬似特徴をサンプリングする。 平均的なプロトタイプにのみ依存する従来の擬似特徴サンプリング戦略とは対照的に,本手法は様々な意味情報の収集に優れる。 いくつかのベンチマークによる実験は我々の主張を検証する。

Deep learning models suffer from catastrophic forgetting when being fine-tuned with samples of new classes. This issue becomes even more pronounced when faced with the domain shift between training and testing data. In this paper, we study the critical and less explored Domain-Generalized Class-Incremental Learning (DGCIL). We design a DGCIL approach that remembers old classes, adapts to new classes, and can classify reliably objects from unseen domains. Specifically, our loss formulation maintains classification boundaries and suppresses the domain-specific information of each class. With no old exemplars stored, we use knowledge distillation and estimate old class prototype drift as incremental training advances. Our prototype representations are based on multivariate Normal distributions whose means and covariances are constantly adapted to changing model features to represent old classes well by adapting to the feature space drift. For old classes, we sample pseudo-features from the adapted Normal distributions with the help of Cholesky decomposition. In contrast to previous pseudo-feature sampling strategies that rely solely on average mean prototypes, our method excels at capturing varying semantic information. Experiments on several benchmarks validate our claims.
翻訳日:2023-09-26 19:05:11 公開日:2023-09-24
# 時間を維持する:感覚分析モデルに時間的文脈を加える

Keeping in Time: Adding Temporal Context to Sentiment Analysis Models ( http://arxiv.org/abs/2309.13562v1 )

ライセンス: Link先を確認
Dean Ninalga(参考訳) 本稿では,LongEval CLEF 2023 Lab Task 2:LongEval-Classificationを提案する。 このタスクの目標は、短い期間と長い期間にわたって感情分析モデルのパフォーマンスを改善し、保存することである。 本フレームワークは,テキストにタイムスタンプが組み込まれている事前学習言語モデルに,日付付きテキスト入力をフィードする。 それぞれのテキストの時間的文脈に基づいて,より優れた条件モデル出力を示す。 さらに,ラベルのないデータに対して自己ラベルを付けて学習モデルを構築することにより,さらなるパフォーマンス向上を図る。 我々は,本サンプルの日時修正フォーマットを活用する新たな拡張戦略を用いて,自己ラベル化プロセスを強化する。 非強化自己ラベルによるLongEval-Classification評価の具体的性能向上を示す。 本フレームワークは,0.6923の総合スコアで2位にランクインし,短い評価セットに対して-0.0656の最高相対パフォーマンス低下(rpd)を報告した。

This paper presents a state-of-the-art solution to the LongEval CLEF 2023 Lab Task 2: LongEval-Classification. The goal of this task is to improve and preserve the performance of sentiment analysis models across shorter and longer time periods. Our framework feeds date-prefixed textual inputs to a pre-trained language model, where the timestamp is included in the text. We show date-prefixed samples better conditions model outputs on the temporal context of the respective texts. Moreover, we further boost performance by performing self-labeling on unlabeled data to train a student model. We augment the self-labeling process using a novel augmentation strategy leveraging the date-prefixed formatting of our samples. We demonstrate concrete performance gains on the LongEval-Classification evaluation set over non-augmented self-labeling. Our framework achieves a 2nd place ranking with an overall score of 0.6923 and reports the best Relative Performance Drop (RPD) of -0.0656 over the short evaluation set.
翻訳日:2023-09-26 19:04:54 公開日:2023-09-24
# Cordyceps@LT-EDI:多言語理解による言語固有のホモフォビア/トランスフォビア分類

Cordyceps@LT-EDI: Patching Language-Specific Homophobia/Transphobia Classifiers with a Multilingual Understanding ( http://arxiv.org/abs/2309.13561v1 )

ライセンス: Link先を確認
Dean Ninalga(参考訳) トランスフォビア、ホモフォビア、その他の様々なヘイトスピーチの検出は困難である。 信号は、言語、文化、地理的地域、特定のオンラインプラットフォームなどの要因によって異なる。 本稿では,ホモフォビアおよびトランスフォビックヘイトスピーチ検出(HSD)に対する多言語(M-L)と言語固有の(L-S)アプローチを提案する。 M-Lモデルは、特定の言語では一般的でない言葉やフレーズ、概念をキャッチするために必要であり、L-Sモデルでは見過ごされる。 それでも、L-Sモデルは、通常特定の言語で書くユーザの文化的・言語的文脈を理解するのに適している。 ここでは、M-LとL-Sのアプローチを単純な重み補間を通じて、解釈可能でデータ駆動的な方法でマージする、単純で成功した方法を構築する。 ソーシャルメディアコメントにおける「ホモフォビア/トランスフォビア検出共有タスク」のタスクAにおいて、ホモフォビアおよびトランスフォビアHSDのためのデータセットを実証する。 本システムでは,5言語中3言語で最高の結果が得られ,マラヤラム文字のF1スコアが0.997である。

Detecting transphobia, homophobia, and various other forms of hate speech is difficult. Signals can vary depending on factors such as language, culture, geographical region, and the particular online platform. Here, we present a joint multilingual (M-L) and language-specific (L-S) approach to homophobia and transphobic hate speech detection (HSD). M-L models are needed to catch words, phrases, and concepts that are less common or missing in a particular language and subsequently overlooked by L-S models. Nonetheless, L-S models are better situated to understand the cultural and linguistic context of the users who typically write in a particular language. Here we construct a simple and successful way to merge the M-L and L-S approaches through simple weight interpolation in such a way that is interpretable and data-driven. We demonstrate our system on task A of the 'Shared Task on Homophobia/Transphobia Detection in social media comments' dataset for homophobia and transphobic HSD. Our system achieves the best results in three of five languages and achieves a 0.997 macro average F1-score on Malayalam texts.
翻訳日:2023-09-26 19:04:36 公開日:2023-09-24
# LOGICSEG:ニューラルロジック学習と推論による視覚意味論のパーシング

LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and Reasoning ( http://arxiv.org/abs/2309.13556v1 )

ライセンス: Link先を確認
Liulei Li, Wenguan Wang, Yang Yi(参考訳) 現在の高性能セマンティックセグメンテーションモデルは純粋にデータ駆動のサブシンボリックアプローチであり、視覚世界の構造的な性質に盲目である。 これは、複数のレベルで視覚的知覚を抽象化し、そのような構造化された抽象化で象徴的な推論を行う人間の認知とは対照的である。 これらの基本的なギャップを埋めるため、我々は、ニューラルネットワークの帰納的学習と論理推論をリッチデータとシンボリック知識の両方に統合する総合的なビジュアルセマンティックパーサであるlogicsegを開発した。 特に、興味のセマンティックな概念は階層構造として構成され、そこからシンボリックな関係を記述するための一連の制約が導出され、一階述語論理規則として形式化される。 ファジィ論理に基づく連続緩和の後、論理式はデータと神経計算グラフに接地され、論理誘起ネットワークトレーニングを可能にする。 推論中、論理的制約は反復的なプロセスにパッケージ化され、複数の行列乗法によってネットワークに注入され、論理的推論による階層的コヒーレントな予測が達成される。 これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。 様々なセグメンテーションモデルとバックボーンを持つ4つのデータセットに対する大規模な実験は、LOGICSEGの有効性と一般性を検証する。 本研究は視覚的意味解析のための新たな道を開くと信じている。

Current high-performance semantic segmentation models are purely data-driven sub-symbolic approaches and blind to the structured nature of the visual world. This is in stark contrast to human cognition which abstracts visual perceptions at multiple levels and conducts symbolic reasoning with such structured abstraction. To fill these fundamental gaps, we devise LOGICSEG, a holistic visual semantic parser that integrates neural inductive learning and logic reasoning with both rich data and symbolic knowledge. In particular, the semantic concepts of interest are structured as a hierarchy, from which a set of constraints are derived for describing the symbolic relations and formalized as first-order logic rules. After fuzzy logic-based continuous relaxation, logical formulae are grounded onto data and neural computational graphs, hence enabling logic-induced network training. During inference, logical constraints are packaged into an iterative process and injected into the network in a form of several matrix multiplications, so as to achieve hierarchy-coherent prediction with logic reasoning. These designs together make LOGICSEG a general and compact neural-logic machine that is readily integrated into existing segmentation models. Extensive experiments over four datasets with various segmentation models and backbones verify the effectiveness and generality of LOGICSEG. We believe this study opens a new avenue for visual semantic parsing.
翻訳日:2023-09-26 19:04:15 公開日:2023-09-24
# 全身FDG PET/CT画像におけるDice Focal Lossトレーニング3次元残像UNetの有用性

Generalized Dice Focal Loss trained 3D Residual UNet for Automated Lesion Segmentation in Whole-Body FDG PET/CT Images ( http://arxiv.org/abs/2309.13553v1 )

ライセンス: Link先を確認
Shadab Ahamed, Arman Rahmim(参考訳) pet/ct画像における癌病変の自動分割は, 定量的解析に不可欠である。 しかし, 深層学習に基づくセグメンテーション法は, 形状, サイズ, 放射線透過率の面で, 病変の多様性から高い精度で訓練することがしばしば困難である。 これらの病変は身体の様々な部分で見られ、しばしば健康な臓器に近づき、摂取量も顕著である。 したがって, 包括的pet/ct病変分割モデルの開発は, 日常的な定量的画像解析に欠かせない課題である。 本研究では,AutoPETチャレンジ2023トレーニングデータセット上で,汎用Dice Focal Loss関数を用いて3次元残留UNetをトレーニングする。 モデルを5倍のクロスバリデーション設定で開発し、平均および重み付き平均アンサンブルにより5つのモデルをアンサンブルする。 予備試験段階では,dice類似度係数 (dsc), 偽陽性体積 (fpv), 偽陰性体積 (fnv) はそれぞれ 0.5417, 0.8261 ml, 0.2538 ml となり, 重み付き平均アンサンブルはそれぞれ 0.5417, 0.8186 ml, 0.2538 ml となった。 私たちのアルゴリズムは、このリンクを通じてアクセスすることができる。

Automated segmentation of cancerous lesions in PET/CT images is a vital initial task for quantitative analysis. However, it is often challenging to train deep learning-based segmentation methods to high degree of accuracy due to the diversity of lesions in terms of their shapes, sizes, and radiotracer uptake levels. These lesions can be found in various parts of the body, often close to healthy organs that also show significant uptake. Consequently, developing a comprehensive PET/CT lesion segmentation model is a demanding endeavor for routine quantitative image analysis. In this work, we train a 3D Residual UNet using Generalized Dice Focal Loss function on the AutoPET challenge 2023 training dataset. We develop our models in a 5-fold cross-validation setting and ensemble the five models via average and weighted-average ensembling. On the preliminary test phase, the average ensemble achieved a Dice similarity coefficient (DSC), false-positive volume (FPV) and false negative volume (FNV) of 0.5417, 0.8261 ml, and 0.2538 ml, respectively, while the weighted-average ensemble achieved 0.5417, 0.8186 ml, and 0.2538 ml, respectively. Our algorithm can be accessed via this link: https://github.com/ahxmeds/autosegnet.
翻訳日:2023-09-26 19:03:48 公開日:2023-09-24
# 量子近似最適化アルゴリズムの反復的階層的学習

Iterative Layerwise Training for Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2309.13552v1 )

ライセンス: Link先を確認
Xinwei Lee, Xinjian Yan, Ningyi Xie, Yoshiyuki Saito, Dongsheng Cai, Nobuyoshi Asai(参考訳) 組合せ最適化問題の解法における量子近似最適化アルゴリズム(QAOA)の能力は、量子古典ハイブリッドシステムに応用されているため、近年大きく研究されている。 ヴァレンプラトーや局所ミニマ問題のような変分量子アルゴリズム(VQA)に固有の困難があるにもかかわらず、QAOAは近年のノイズのある中間スケール量子(NISQ)デバイスに適した応用の1つである。 近年の研究では、QAOAの性能は初期パラメータに大きく依存しており、パラメータの初期化戦略を動機付け、QAOAの最適化に優れた初期点を求めることが示されている。 一方、最適化戦略はパラメータ初期化ではなくqaoaの最適化部分に焦点を当てている。 絶対的な利点を持つ代わりに、これらの戦略は通常最適化問題のパフォーマンスにトレードオフを課す。 そのような例の1つは、QAOAパラメータが完全な最適化ではなく層単位で最適化される階層最適化戦略である。 階層戦略は, 近似比の低下と引き換えに, 完全な最適化に比べて総コストが低い。 そこで本研究では,QAOAによる問題解決における最適化コスト削減の可能性を探るため,反復的な階層最適化戦略を提案する。 数値シミュレーションにより,反復的な層分割と適切な初期化戦略を組み合わせることで,近似比のマイナーな低減と引き換えに最適化コストを大幅に削減できることがわかった。 また, ある場合において, 反復層戦略による近似比は, 完全な最適化による近似比よりもさらに高い値を示す。

The capability of the quantum approximate optimization algorithm (QAOA) in solving the combinatorial optimization problems has been intensively studied in recent years due to its application in the quantum-classical hybrid regime. Despite having difficulties that are innate in the variational quantum algorithms (VQA), such as barren plateaus and the local minima problem, QAOA remains one of the applications that is suitable for the recent noisy intermediate scale quantum (NISQ) devices. Recent works have shown that the performance of QAOA largely depends on the initial parameters, which motivate parameter initialization strategies to obtain good initial points for the optimization of QAOA. On the other hand, optimization strategies focus on the optimization part of QAOA instead of the parameter initialization. Instead of having absolute advantages, these strategies usually impose trade-offs to the performance of the optimization problems. One of such examples is the layerwise optimization strategy, in which the QAOA parameters are optimized layer-by-layer instead of the full optimization. The layerwise strategy costs less in total compared to the full optimization, in exchange of lower approximation ratio. In this work, we propose the iterative layerwise optimization strategy and explore the possibility for the reduction of optimization cost in solving problems with QAOA. Using numerical simulations, we found out that by combining the iterative layerwise with proper initialization strategies, the optimization cost can be significantly reduced in exchange for a minor reduction in the approximation ratio. We also show that in some cases, the approximation ratio given by the iterative layerwise strategy is even higher than that given by the full optimization.
翻訳日:2023-09-26 19:03:23 公開日:2023-09-24
# 放射線科医の正確なcxr診断への集中度:制御可能で解釈可能なaiシステム

Decoding Radiologists Intense Focus for Accurate CXR Diagnoses: A Controllable and Interpretable AI System ( http://arxiv.org/abs/2309.13550v1 )

ライセンス: Link先を確認
Trong Thang Pham, Jacob Brecheisen, Anh Nguyen, Hien Nguyen, Ngan Le(参考訳) 胸部X線診断(CXR)の分野では、既存の研究は、放射線技師がどこに見えるか、通常、検出、セグメンテーション、分類などのタスクによって決定することのみに焦点を当てることが多い。 しかしながら、これらのアプローチはしばしばブラックボックスモデルとして設計され、解釈性に欠ける。 本稿では,cxr診断における放射線科医の集中度をデコードするための新しい統一的な制御可能なパイプラインを提案する。 私たちのアプローチでは、3つの重要な疑問に対処しています。放射線科医が見ている場所、特定の領域に集中する時間、診断結果です。 放射線科医の視線の強さを捉えることで、放射線学的な解釈の基礎となる認知過程についての洞察を提供する統一的なソリューションを提供する。 診断処理中に入力画像全体から誤情報を抽出する傾向にあるブラックボックス機械学習モデルに依存する現在の手法とは異なり、無関係な情報を効果的にマスキングすることでこの問題に対処する。 提案手法は視覚言語モデルを利用して解釈過程を正確に制御し,無関係な特徴の排除を確実にする。 本モデルでは,眼球データを用いて解剖学的視線情報を抽出し,地上の真理熱マップを生成する。 実験により,本手法の有効性を実証した。 放射線学者の焦点を真似た注意熱マップが十分な情報をエンコードし,CXRの一部のみを用いて正確な分類作業を可能にすることを示す。

In the field of chest X-ray (CXR) diagnosis, existing works often focus solely on determining where a radiologist looks, typically through tasks such as detection, segmentation, or classification. However, these approaches are often designed as black-box models, lacking interpretability. In this paper, we introduce a novel and unified controllable interpretable pipeline for decoding the intense focus of radiologists in CXR diagnosis. Our approach addresses three key questions: where a radiologist looks, how long they focus on specific areas, and what findings they diagnose. By capturing the intensity of the radiologist's gaze, we provide a unified solution that offers insights into the cognitive process underlying radiological interpretation. Unlike current methods that rely on black-box machine learning models, which can be prone to extracting erroneous information from the entire input image during the diagnosis process, we tackle this issue by effectively masking out irrelevant information. Our approach leverages a vision-language model, allowing for precise control over the interpretation process while ensuring the exclusion of irrelevant features. To train our model, we utilize an eye gaze dataset to extract anatomical gaze information and generate ground truth heatmaps. Through extensive experimentation, we demonstrate the efficacy of our method. We showcase that the attention heatmaps, designed to mimic radiologists' focus, encode sufficient and relevant information, enabling accurate classification tasks using only a portion of CXR.
翻訳日:2023-09-26 19:02:58 公開日:2023-09-24
# 都市環境におけるロバストロボットの3次元知覚に向けて:UTキャンパスオブジェクトデータセット

Towards Robust Robot 3D Perception in Urban Environments: The UT Campus Object Dataset ( http://arxiv.org/abs/2309.13549v1 )

ライセンス: Link先を確認
Arthur Zhang, Chaitanya Eranki, Christina Zhang, Ji-Hwan Park, Raymond Hong, Pranav Kalyani, Lochana Kalyanaraman, Arsh Gamare, Arnav Bagad, Maria Esteva, Joydeep Biswas(参考訳) テキサス大学オースティンキャンパスで収集された移動ロボットエゴセントリック知覚データセットである ut campus object dataset (coda) について紹介する。 我々のデータセットには8.5時間のマルチモーダルセンサーデータが含まれている。128チャンネルの3D LiDARと1.25MPのRGBカメラの同期3DポイントクラウドとステレオRGBビデオの10fps、追加の0.5MPセンサーのRGB-Dビデオの7fps、9-DOF IMUセンサーの40Hz。 我々は,53のセマンティッククラスに対して,130万個の3D境界ボックスと5,000フレームの3Dセマンティックアノテーションを含む58分間の地中真理アノテーションと擬似地中真理ローカライゼーションを提供する。 我々は,屋内と屋外の広い地域,気象条件,一日の時間帯について,同一の地理的位置を繰り返し横断した。 CODaを使用することで、以下のことを実証的に示します。 1) 都市環境における3次元物体検出性能は, 最先端の領域適応手法を用いても, 既存のデータセットと比較してCODaを用いて訓練すると著しく向上する。 2)センサ特異的微調整により3次元物体検出精度と精度が向上する 3)CODaの事前訓練は,都市環境下での3次元オブジェクト検出性能を,AVデータセットの事前訓練と比較して向上させる。 データセットとアノテーションを用いて、確立したメトリクスを用いた3Dオブジェクト検出と3Dセマンティックセマンティックセグメンテーションのベンチマークをリリースする。 将来的にcodaベンチマークには、教師なしオブジェクト発見や再識別などのタスクが追加される予定である。 私たちは、テキサスデータリポジトリ、事前訓練されたモデル、データセット開発パッケージ、インタラクティブなデータセットビューアにCODaを公開しています。 我々はCODaがエゴセントリックな3D知覚と都市環境における自律的なナビゲーションの計画を研究するための貴重なデータセットになることを期待している。

We introduce the UT Campus Object Dataset (CODa), a mobile robot egocentric perception dataset collected on the University of Texas Austin Campus. Our dataset contains 8.5 hours of multimodal sensor data: synchronized 3D point clouds and stereo RGB video from a 128-channel 3D LiDAR and two 1.25MP RGB cameras at 10 fps; RGB-D videos from an additional 0.5MP sensor at 7 fps, and a 9-DOF IMU sensor at 40 Hz. We provide 58 minutes of ground-truth annotations containing 1.3 million 3D bounding boxes with instance IDs for 53 semantic classes, 5000 frames of 3D semantic annotations for urban terrain, and pseudo-ground truth localization. We repeatedly traverse identical geographic locations for a wide range of indoor and outdoor areas, weather conditions, and times of the day. Using CODa, we empirically demonstrate that: 1) 3D object detection performance in urban settings is significantly higher when trained using CODa compared to existing datasets even when employing state-of-the-art domain adaptation approaches, 2) sensor-specific fine-tuning improves 3D object detection accuracy and 3) pretraining on CODa improves cross-dataset 3D object detection performance in urban settings compared to pretraining on AV datasets. Using our dataset and annotations, we release benchmarks for 3D object detection and 3D semantic segmentation using established metrics. In the future, the CODa benchmark will include additional tasks like unsupervised object discovery and re-identification. We publicly release CODa on the Texas Data Repository, pre-trained models, dataset development package, and interactive dataset viewer. We expect CODa to be a valuable dataset for research in egocentric 3D perception and planning for autonomous navigation in urban environments.
翻訳日:2023-09-26 19:02:30 公開日:2023-09-24
# 多重方程式量子爪探索に基づく6ラウンドfeistel-2*構造に対する量子オールサブキーリカバリ攻撃

Quantum All-Subkeys-Recovery Attacks on 6-round Feistel-2* Structure Based on Multi-Equations Quantum Claw Finding ( http://arxiv.org/abs/2309.13548v1 )

ライセンス: Link先を確認
Wenjie Liu, Mengting Wang and Zixian Li(参考訳) 量子機構を利用すると、量子攻撃は暗号構造を壊す可能性がある。 近年、伊藤らはq2モデルに基づくfeistel-2*構造(ito et al.'s attack)に対する量子攻撃を提案した。 しかし、量子オラクルは敵からアクセスされる必要があり、データの複雑さが高いため、現実的ではない。 この問題を解決するために、より現実的なモデルであるq1モデルを用いて、6ラウンドのfeistel-2*構造を迅速にクラックするには3つの平文ペアしか必要としないマルチエクイション量子クローフィングに基づく量子all-subkeys-recovery (asr)攻撃を提案する。 まず,複数の方程式を求めるクラウ問題を解くために,多重方程式量子クローフィングアルゴリズムを提案する。 さらに、groverのアルゴリズムは、restサブキーのリカバリを高速化するために使われる。 itoらによる攻撃と比較して、攻撃のデータの複雑さはo(2^n)からo(1)に減少し、時間の複雑さとメモリの複雑さも大幅に減少する。

Exploiting quantum mechanisms, quantum attacks have the potential ability to break the cipher structure. Recently, Ito et al. proposed a quantum attack on Feistel-2* structure (Ito et al.'s attack) based onthe Q2 model. However, it is not realistic since the quantum oracle needs to be accessed by the adversary, and the data complexityis high. To solve this problem, a quantum all-subkeys-recovery (ASR) attack based on multi-equations quantum claw-finding is proposed, which takes a more realistic model, the Q1 model, as the scenario, and only requires 3 plain-ciphertext pairs to quickly crack the 6-round Feistel-2* structure. First, we proposed a multi-equations quantum claw-finding algorithm to solve the claw problem of finding multiple equations. In addition, Grover's algorithm is used to speedup the rest subkeys recovery. Compared with Ito et al.'s attack, the data complexity of our attack is reduced from O(2^n) to O(1), while the time complexity and memory complexity are also significantly reduced.
翻訳日:2023-09-26 19:01:57 公開日:2023-09-24
# ロバストな分散学習:データ不均一性下での厳密なエラー境界とブレークダウンポイント

Robust Distributed Learning: Tight Error Bounds and Breakdown Point under Data Heterogeneity ( http://arxiv.org/abs/2309.13591v1 )

ライセンス: Link先を確認
Youssef Allouah, Rachid Guerraoui, Nirupam Gupta, Rafa\"el Pinot, Geovani Rizk(参考訳) 逆境マシンに抵抗するように設計された堅牢な分散学習アルゴリズムの基礎となる理論は、データが均質であるときに経験的観察と一致する。 しかし、実際のシナリオの規範であるデータ不均質性の下では、学習誤差の限界は本質的に空白であり、経験的観察と非常に一致しない。 これは、考慮される異質性モデルがあまりにも制限的であり、最小二乗回帰のような基本的な学習タスクを対象としないためである。 本稿では,より現実的な不均一性モデル,すなわち(G,B)-段階的な相似性について考察し,既存の理論よりも学習問題を扱えることを示す。 特に,不均質性下の分解点が古典分数1/2よりも低いことを示す。 また、分散学習アルゴリズムの学習誤差に新たな低い境界があることも証明する。 我々は,分散勾配降下のロバストな変種に対するアッパーバウンドを導出し,理論と実践の間のギャップを経験的に減少させることを示した。

The theory underlying robust distributed learning algorithms, designed to resist adversarial machines, matches empirical observations when data is homogeneous. Under data heterogeneity however, which is the norm in practical scenarios, established lower bounds on the learning error are essentially vacuous and greatly mismatch empirical observations. This is because the heterogeneity model considered is too restrictive and does not cover basic learning tasks such as least-squares regression. We consider in this paper a more realistic heterogeneity model, namely (G,B)-gradient dissimilarity, and show that it covers a larger class of learning problems than existing theory. Notably, we show that the breakdown point under heterogeneity is lower than the classical fraction 1/2. We also prove a new lower bound on the learning error of any distributed learning algorithm. We derive a matching upper bound for a robust variant of distributed gradient descent, and empirically show that our analysis reduces the gap between theory and practice.
翻訳日:2023-09-26 18:53:41 公開日:2023-09-24
# 2平面X線と3次元形状再構成のためのベンチマークエンコーダデコーダアーキテクチャ

Benchmarking Encoder-Decoder Architectures for Biplanar X-ray to 3D Shape Reconstruction ( http://arxiv.org/abs/2309.13587v1 )

ライセンス: Link先を確認
Mahesh Shakya (1), Bishesh Khanal (1) ((1) NepAl Applied Mathematics and Informatics Institute for research)(参考訳) 2枚の直交(双平面)X線画像から3次元骨形状を復元するための様々な深層学習モデルが提案されている。 しかし、異なる解剖学、コホート、(しばしばプライベートに保持された)データセット上で評価されるため、これらのモデルが互いにどのように比較されるかは不明である。 さらに,2次元3次元骨形状再構成における臨床パラメータ推定におけるダイススコアなどの画像ベースセグメンテーション指標が及ぼす影響はよく分かっていない。 本稿では, 骨折骨の再建, インプラント付き骨, 人口移動に対する頑健性, 臨床パラメータ推定における誤差など, 実際の臨床シナリオに関連する課題を評価するためのベンチマークフレームワークを提案する。 当社のオープンソースプラットフォームは,8モデル(実装のほとんどが公開されていない)のリファレンス実装,6つの公開データセットの収集と前処理が容易なapi,自動臨床パラメータとランドマーク抽出メソッドの実装を提供します。 本研究では,4つの解剖学的画像からなる6つの公開データセットを用いて,均等な足場における8つの2D-3Dモデルの評価を行った。 以上の結果から,全解剖学やデータセットにおいて,全空間的関係を捉えた注意に基づく手法は良好に機能する傾向にあり,臨床関連サブグループのパフォーマンスは,分散報告を伴わずに過大評価される可能性があり,リブは大腿骨,股関節,脊椎に比べて実質的に再構築が困難であり,diceスコアの改善は必ずしも臨床関連パラメータの自動推定に対応する改善をもたらすとは限らない。

Various deep learning models have been proposed for 3D bone shape reconstruction from two orthogonal (biplanar) X-ray images. However, it is unclear how these models compare against each other since they are evaluated on different anatomy, cohort and (often privately held) datasets. Moreover, the impact of the commonly optimized image-based segmentation metrics such as dice score on the estimation of clinical parameters relevant in 2D-3D bone shape reconstruction is not well known. To move closer toward clinical translation, we propose a benchmarking framework that evaluates tasks relevant to real-world clinical scenarios, including reconstruction of fractured bones, bones with implants, robustness to population shift, and error in estimating clinical parameters. Our open-source platform provides reference implementations of 8 models (many of whose implementations were not publicly available), APIs to easily collect and preprocess 6 public datasets, and the implementation of automatic clinical parameter and landmark extraction methods. We present an extensive evaluation of 8 2D-3D models on equal footing using 6 public datasets comprising images for four different anatomies. Our results show that attention-based methods that capture global spatial relationships tend to perform better across all anatomies and datasets; performance on clinically relevant subgroups may be overestimated without disaggregated reporting; ribs are substantially more difficult to reconstruct compared to femur, hip and spine; and the dice score improvement does not always bring a corresponding improvement in the automatic estimation of clinically relevant parameters.
翻訳日:2023-09-26 18:53:23 公開日:2023-09-24
# 局所コヒーレンスを用いた低線量CT再構成

Solving Low-Dose CT Reconstruction via GAN with Local Coherence ( http://arxiv.org/abs/2309.13584v1 )

ライセンス: Link先を確認
Wenjie Liu(参考訳) 体内臓器の病変を診断するためのct(ct)は、医用画像診断の最も基本的な話題の1つである。 放射線照射の少ない低用量CTは標準用量CTよりも好まれており,再建法は広く研究されている。 しかし、現在の低用量CT再構成技術は主にモデルベースの手法やディープラーニングベースの手法に依存しており、シーケンシャルCTスライスにおけるコヒーレンスと滑らかさを無視することが多い。 そこで本研究では,局所コヒーレンスを向上したGANを用いた新しい手法を提案する。 提案手法では,隣接画像の局所的コヒーレンスを光学的流れで捉えることにより,構築画像の精度と安定性が大幅に向上する。 提案手法を実データで評価し, 実験結果から, 既往の再構築手法を大幅に上回ることができることが示唆された。

The Computed Tomography (CT) for diagnosis of lesions in human internal organs is one of the most fundamental topics in medical imaging. Low-dose CT, which offers reduced radiation exposure, is preferred over standard-dose CT, and therefore its reconstruction approaches have been extensively studied. However, current low-dose CT reconstruction techniques mainly rely on model-based methods or deep-learning-based techniques, which often ignore the coherence and smoothness for sequential CT slices. To address this issue, we propose a novel approach using generative adversarial networks (GANs) with enhanced local coherence. The proposed method can capture the local coherence of adjacent images by optical flow, which yields significant improvements in the precision and stability of the constructed images. We evaluate our proposed method on real datasets and the experimental results suggest that it can outperform existing state-of-the-art reconstruction approaches significantly.
翻訳日:2023-09-26 18:52:56 公開日:2023-09-24
# マルコフ開量子系の熱力学とレーザーへの応用

Thermodynamics of Markovian Open Quantum Systems with Application to Lasers ( http://arxiv.org/abs/2309.13580v1 )

ライセンス: Link先を確認
Robert Alicki(参考訳) ゴラン・リンドブラッドは、現在の量子熱力学の先駆者の一人である。 この広範で急速に発展する分野から、我々はレーザーのモデルに適用されるlindblad型(gorini-kossakowski-sudarshan)のマルコフマスター方程式によって記述された量子オープン系に関する結果のサンプルを選んだ。 リンドブラッドによっても導入された量子相対エントロピーの性質を用いて熱力学を研究することができる。

Goran Lindblad was one of the pioneers of what is called now Quantum Thermodynamics. From this vast and rapidly developing field we have selected a sample of results concerning quantum open systems described by Markovian Master Equations of the Lindblad (Gorini-Kossakowski-Sudarshan) type, which are applied to models of lasers. One can study their thermodynamics using the properties of quantum relative entropy, also introduced by Lindblad.
翻訳日:2023-09-26 18:52:38 公開日:2023-09-24
# 見えない衝突攻撃と事前訓練されたモデルに対する防御

Seeing Is Not Always Believing: Invisible Collision Attack and Defence on Pre-Trained Models ( http://arxiv.org/abs/2309.13579v1 )

ライセンス: Link先を確認
Minghang Deng, Zhong Zhang, Junming Shao(参考訳) BERTやGPTのような大規模事前訓練モデル(PTM)は様々な分野で大きな成功を収めている。 典型的なパラダイムは、大規模なデータセットで大きなディープラーニングモデルを事前学習し、ダウンストリームタスク用の小さなタスク固有のデータセットでモデルを微調整することです。 PTMは広範囲の現実世界のアプリケーションで急速に進歩しているが、潜在的な攻撃のリスクも大きい。 既存のバックドア攻撃やデータ中毒の手法は、攻撃者が被害者のコンピュータに侵入したり、ターゲットデータにアクセスするという仮定を立証することが多い。 本稿では,md5衝突を増強したptmに対する見えない攻撃のための新しい枠組みを提案する。 鍵となるアイデアは、同じmd5チェックサムを持つ2つの等サイズのモデルを生成することである。 その後、2つの`same"モデルが公開webサイトにデプロイされ、被害者に毒モデルのダウンロードを促す。 従来のディープラーニングモデルに対する攻撃とは異なり、この新しい攻撃は柔軟で、隠ぺいで、モデルに依存しない。 さらに,MD5選択前衝突を認識するための簡単な防御戦略を提案し,その実現可能性について理論的に正当化する。 提案する攻撃法と防御法の有効性を,異なるモデルとデータセット上で広範囲に検証する。

Large-scale pre-trained models (PTMs) such as BERT and GPT have achieved great success in diverse fields. The typical paradigm is to pre-train a big deep learning model on large-scale data sets, and then fine-tune the model on small task-specific data sets for downstream tasks. Although PTMs have rapidly progressed with wide real-world applications, they also pose significant risks of potential attacks. Existing backdoor attacks or data poisoning methods often build up the assumption that the attacker invades the computers of victims or accesses the target data, which is challenging in real-world scenarios. In this paper, we propose a novel framework for an invisible attack on PTMs with enhanced MD5 collision. The key idea is to generate two equal-size models with the same MD5 checksum by leveraging the MD5 chosen-prefix collision. Afterwards, the two ``same" models will be deployed on public websites to induce victims to download the poisoned model. Unlike conventional attacks on deep learning models, this new attack is flexible, covert, and model-independent. Additionally, we propose a simple defensive strategy for recognizing the MD5 chosen-prefix collision and provide a theoretical justification for its feasibility. We extensively validate the effectiveness and stealthiness of our proposed attack and defensive method on different models and data sets.
翻訳日:2023-09-26 18:52:26 公開日:2023-09-24
# 作物・雑草競争の階層的パノプティックセグメンテーションのためのSAMに基づく解法

A SAM-based Solution for Hierarchical Panoptic Segmentation of Crops and Weeds Competition ( http://arxiv.org/abs/2309.13578v1 )

ライセンス: Link先を確認
Khoa Dang Nguyen, Thanh-Hai Phung, Hoang-Giang Cao(参考訳) 農業におけるパンオプティカルセグメンテーション(panoptic segmentation in agriculture)は、フィールド構成の包括的理解を提供する高度なコンピュータビジョン技術である。 作物や雑草のセグメンテーション、植物パノプティクスのセグメンテーション、葉のインスタンスセグメンテーションなど、農業の課題に対処するための様々なタスクを促進する。 8th Workshop on Computer Vision in Plant Phenotyping and Agriculture (CVPPA)は、農業におけるパン光学のセグメンテーションの応用を探求し、PhenoBenchデータセットを用いた作物と雑草の階層的なパン光学セグメンテーションの挑戦を行った。 このコンペティションで提示される課題に取り組むために,セグメンテーションにおけるセグメント・エバンスモデル(sam)の有効性と,オブジェクト検出モデルからの迅速な入力を組み合わせる手法を提案する。 具体的には、DINOとYOLO-v8という2つの重要なオブジェクト検出手法を統合した。 ベストパフォーマンスモデルでは,PQ+スコアが81.33であった。

Panoptic segmentation in agriculture is an advanced computer vision technique that provides a comprehensive understanding of field composition. It facilitates various tasks such as crop and weed segmentation, plant panoptic segmentation, and leaf instance segmentation, all aimed at addressing challenges in agriculture. Exploring the application of panoptic segmentation in agriculture, the 8th Workshop on Computer Vision in Plant Phenotyping and Agriculture (CVPPA) hosted the challenge of hierarchical panoptic segmentation of crops and weeds using the PhenoBench dataset. To tackle the tasks presented in this competition, we propose an approach that combines the effectiveness of the Segment AnyThing Model (SAM) for instance segmentation with prompt input from object detection models. Specifically, we integrated two notable approaches in object detection, namely DINO and YOLO-v8. Our best-performing model achieved a PQ+ score of 81.33 based on the evaluation metrics of the competition.
翻訳日:2023-09-26 18:52:08 公開日:2023-09-24
# 確率的重み付け:量子化のためのニューラルネットワークの重み付け不確かさの大規模トレーニング

Probabilistic Weight Fixing: Large-scale training of neural network weight uncertainties for quantization ( http://arxiv.org/abs/2309.13575v1 )

ライセンス: Link先を確認
Christopher Subia-Waud and Srinandan Dasmahapatra(参考訳) 重み共有量子化は、重みを限られた値に制限することで、大きなニューラルネットワークの推論におけるエネルギー支出を減らす技術として登場した。 しかし、既存の量共有量子化法はしばしば、ユニークな役割の重み位置の作用を無視した値のみに基づく重みの扱いについて仮定する。 本稿では,ベイズニューラルネットワーク(BNN)に基づく確率的枠組みと,どの重みがどのクラスタ中心に移動できるか,それぞれの位置固有の学習不確実性分布に基づいてどの程度に移動できるかを同定する変動緩和手法を提案する。 複雑なデータセットとモデルの組み合わせでBNNを訓練できる新しい初期化設定と正規化項を導入する。 確率分布から得られた重み値の柔軟性を利用して、雑音耐性と下流圧縮性を高める。 反復クラスタリング手法は,resnetモデルとより複雑なtransformerベースのアーキテクチャの両方において,最先端の手法と比較して高い圧縮性と高い精度を示す。 特に,DeiT-Tinyを用いたImageNetでは,現状の量子化手法であるtop-1精度を1.6%向上させ,500万以上の重みを296個のユニークな値で表している。

Weight-sharing quantization has emerged as a technique to reduce energy expenditure during inference in large neural networks by constraining their weights to a limited set of values. However, existing methods for weight-sharing quantization often make assumptions about the treatment of weights based on value alone that neglect the unique role weight position plays. This paper proposes a probabilistic framework based on Bayesian neural networks (BNNs) and a variational relaxation to identify which weights can be moved to which cluster centre and to what degree based on their individual position-specific learned uncertainty distributions. We introduce a new initialisation setting and a regularisation term which allow for the training of BNNs under complex dataset-model combinations. By leveraging the flexibility of weight values captured through a probability distribution, we enhance noise resilience and downstream compressibility. Our iterative clustering procedure demonstrates superior compressibility and higher accuracy compared to state-of-the-art methods on both ResNet models and the more complex transformer-based architectures. In particular, our method outperforms the state-of-the-art quantization method top-1 accuracy by 1.6% on ImageNet using DeiT-Tiny, with its 5 million+ weights now represented by only 296 unique values.
翻訳日:2023-09-26 18:51:47 公開日:2023-09-24
# 古典的および量子的自律エージェントの因果非対称性

Causal Asymmetry of Classical and Quantum Autonomous Agents ( http://arxiv.org/abs/2309.13572v1 )

ライセンス: Link先を確認
Spiros Kechrimparis, Mile Gu, and Hyukjoon Kwon(参考訳) なぜ、外部ノイズを受けると時計の精度が低下するのに、その逆はめったにないのか? ここでは、プロセス因果非対称性(プロセス因果非対称性)を導入することで、この現象を定式化する。これは、自律エージェントが、ある確率過程を反対方向に変換するエージェントよりも別のプロセスに変換するために追跡しなければならない過去の情報量と、根本的な違いである。 次に、エージェントが量子メモリを持つ場合、この非対称性はパラドックス的に逆転できることを示す。 したがって、量子情報処理が許されるか否かによって、プロセスが「単純化」される自然方向が異なる場合がある。

Why is it that a ticking clock typically becomes less accurate when subject to outside noise but rarely the reverse? Here, we formalize this phenomenon by introducing process causal asymmetry - a fundamental difference in the amount of past information an autonomous agent must track to transform one stochastic process to another over an agent that transforms in the opposite direction. We then illustrate that this asymmetry can paradoxically be reversed when agents possess a quantum memory. Thus, the spontaneous direction in which processes get 'simpler' may be different, depending on whether quantum information processing is allowed or not.
翻訳日:2023-09-26 18:51:24 公開日:2023-09-24
# MRIにおける自己スーパービジョンk空間補間のための行列補完インフォームドディープアンフォールド平衡モデル

Matrix Completion-Informed Deep Unfolded Equilibrium Models for Self-Supervised k-Space Interpolation in MRI ( http://arxiv.org/abs/2309.13571v1 )

ライセンス: Link先を確認
Chen Luo, Huayu Wang, Taofeng Xie, Qiyu Jin, Guoqing Chen, Zhuo-Xu Cui, Dong Liang(参考訳) 近年,正規化モデルの理論的保証を維持しつつ,DLの強力な表現能力を活用できることから,正規化モデル駆動型ディープラーニング(DL)が注目されている。 しかし、これらの手法のほとんどは、完全にサンプリングされたラベルを必要とする教師あり学習シナリオに適合しており、実用的なMRIアプリケーションに課題をもたらす可能性がある。 この課題に対処するために、理論的に保証され、完全にサンプリングされたラベルに依存しない加速MRIのための自己教師付きDLアプローチを提案する。 具体的には、$k$-spaceデータの構造的低ランク性を生かして、ニューラルネットワーク構造正則化を実現する。 同時に,ネットワーク構造を非拡張写像に類似させるように制約し,ネットワークの固定点への収束を保証する。 このよく定義されたネットワーク構造により、この固定点は、完全サンプルラベルが利用できない状況であっても、行列補完理論に基づいて、失った$k$-spaceデータを完全に再構成することができる。 提案手法の有効性を検証し,既存の自己教師付きアプローチや従来の正規化手法よりも優れた性能を示し,特定のシナリオにおける教師付き学習手法に匹敵する性能を実現する。

Recently, regularization model-driven deep learning (DL) has gained significant attention due to its ability to leverage the potent representational capabilities of DL while retaining the theoretical guarantees of regularization models. However, most of these methods are tailored for supervised learning scenarios that necessitate fully sampled labels, which can pose challenges in practical MRI applications. To tackle this challenge, we propose a self-supervised DL approach for accelerated MRI that is theoretically guaranteed and does not rely on fully sampled labels. Specifically, we achieve neural network structure regularization by exploiting the inherent structural low-rankness of the $k$-space data. Simultaneously, we constrain the network structure to resemble a nonexpansive mapping, ensuring the network's convergence to a fixed point. Thanks to this well-defined network structure, this fixed point can completely reconstruct the missing $k$-space data based on matrix completion theory, even in situations where full-sampled labels are unavailable. Experiments validate the effectiveness of our proposed method and demonstrate its superiority over existing self-supervised approaches and traditional regularization methods, achieving performance comparable to that of supervised learning methods in certain scenarios.
翻訳日:2023-09-26 18:51:12 公開日:2023-09-24
# RGBDを用いた変圧器モデルと包括的移動データを用いたサブセント精度デジタルツイントラッキング

Towards Subcentimeter Accuracy Digital-Twin Tracking via An RGBD-based Transformer Model and A Comprehensive Mobile Dataset ( http://arxiv.org/abs/2309.13570v1 )

ライセンス: Link先を確認
Zixun Huang, Keling Yao, Seth Z. Zhao, Chuanyu Pan, Tianjian Xu, Weiyu Feng, Allen Y. Yang(参考訳) 3dオブジェクト追跡とローカライズシナリオでarエクスペリエンスを再構築する、物理的オブジェクトの正確なデジタルレプリカの作成を含むデジタルツイン技術の可能性は重要である。 しかし、ダイナミックなモバイルAR環境での3Dオブジェクトの追跡を可能にすることは、非常に難しい課題である。 これらのシナリオは、しばしば、固有のセンサーレベルの測定ノイズを扱うことができるより堅牢なポーズ推定器を必要とする。 本稿では,既存の文献に包括的ソリューションがないことを認識し,モバイルAR設定におけるこれらの課題に対処するため,これまでの研究であるDigital Twin Tracking Dataset(DTTD)に基づいて構築する。 具体的には,ノイズの深さデータによる課題に耐えるトランスベース6dofポーズ推定器を提案する。 同時に、最先端のモバイルセンサーであるiPhone 14 Proを用いて、新しいRGBDデータセットを導入し、我々のアプローチをiPhoneセンサーデータに適用可能にする。 広範囲な実験と詳細な分析を通じて,既存のベースラインの性能を上回っている奥行きデータエラーに対して,本手法の有効性を示す。 コードは公開される予定だ。

The potential of digital twin technology, involving the creation of precise digital replicas of physical objects, to reshape AR experiences in 3D object tracking and localization scenarios is significant. However, enabling 3D object tracking with subcentimeter accuracy in dynamic mobile AR environments remains a formidable challenge. These scenarios often require a more robust pose estimator capable of handling the inherent sensor-level measurement noise. In this paper, recognizing the absence of comprehensive solutions in existing literature, we build upon our previous work, the Digital Twin Tracking Dataset (DTTD), to address these challenges in mobile AR settings. Specifically, we propose a transformer-based 6DoF pose estimator designed to withstand the challenges posed by noisy depth data. Simultaneously, we introduce a novel RGBD dataset captured using a cutting-edge mobile sensor, the iPhone 14 Pro, expanding the applicability of our approach to iPhone sensor data. Through extensive experimentation and in-depth analysis, we illustrate the effectiveness of our methods in the face of significant depth data errors, surpassing the performance of existing baselines. Code will be made publicly available.
翻訳日:2023-09-26 18:50:52 公開日:2023-09-24
# VisionKG:知識グラフによるビジュアルデータセットのパワーの解放

VisionKG: Unleashing the Power of Visual Datasets via Knowledge Graph ( http://arxiv.org/abs/2309.13610v1 )

ライセンス: Link先を確認
Jicheng Yuan, Anh Le-Tuan, Manh Nguyen-Duc, Trung-Kien Tran, Manfred Hauswirth and Danh Le-Phuoc(参考訳) 不均一な特徴を持つ膨大なビジュアルデータの可用性は、新しいコンピュータビジョン(CV)アルゴリズムとアーキテクチャの開発、テスト、ベンチマークにおいて重要な要素である。 ほとんどのビジュアルデータセットは、特定のタスクのために、あるいは非常に特定の状況のために限られた画像データ分布で作成、キュレーションされ、様々なソース、タスク、分類学にまたがってそれらを管理、アクセスするための統一されたアプローチは存在しない。 これにより、堅牢な視覚認識システムを構築する際に不要なオーバーヘッドが発生するだけでなく、学習システムにバイアスを導入し、データ中心AIの能力を制限します。 これらの問題に対処するために、知識グラフとセマンティックWeb技術を介して視覚データセットをインターリンクし、整理し、管理する新しいリソースVisionKG(VisionKG)を提案する。 異種フォーマットや分類によらず、最先端のビジュアルデータセットの簡単なアクセスとクエリが容易な統一フレームワークとして機能する。 アプローチと既存のメソッドの主な違いの1つは、メタデータベースではなく知識ベースであることです。 イメージレベルとインスタンスレベルのセマンティクスの充実を強化し、SPARQLを通じてさまざまなデータ検索と探索サービスを提供する。 VisionKGには519万のRDFトリプルがあり、約4000万のエンティティを記述しており、https://vision.semkg.orgおよびAPIを通じてアクセス可能である。 30のデータセットと4つの人気のあるcvタスクを統合することで、cvパイプラインを扱う際のさまざまなシナリオでその有用性を示す。

The availability of vast amounts of visual data with heterogeneous features is a key factor for developing, testing, and benchmarking of new computer vision (CV) algorithms and architectures. Most visual datasets are created and curated for specific tasks or with limited image data distribution for very specific situations, and there is no unified approach to manage and access them across diverse sources, tasks, and taxonomies. This not only creates unnecessary overheads when building robust visual recognition systems, but also introduces biases into learning systems and limits the capabilities of data-centric AI. To address these problems, we propose the Vision Knowledge Graph (VisionKG), a novel resource that interlinks, organizes and manages visual datasets via knowledge graphs and Semantic Web technologies. It can serve as a unified framework facilitating simple access and querying of state-of-the-art visual datasets, regardless of their heterogeneous formats and taxonomies. One of the key differences between our approach and existing methods is that ours is knowledge-based rather than metadatabased. It enhances the enrichment of the semantics at both image and instance levels and offers various data retrieval and exploratory services via SPARQL. VisionKG currently contains 519 million RDF triples that describe approximately 40 million entities, and are accessible at https://vision.semkg.org and through APIs. With the integration of 30 datasets and four popular CV tasks, we demonstrate its usefulness across various scenarios when working with CV pipelines.
翻訳日:2023-09-26 18:46:40 公開日:2023-09-24
# 映像品質評価モデルにおける脆弱性 : 敵対的攻撃の挑戦

Vulnerabilities in Video Quality Assessment Models: The Challenge of Adversarial Attacks ( http://arxiv.org/abs/2309.13609v1 )

ライセンス: Link先を確認
Ao-Xiang Zhang, Yu Ran, Weixuan Tang, Yuan-Gen Wang(参考訳) No-Reference Video Quality Assessment (NR-VQA) は、エンドユーザの視聴体験を改善する上で重要な役割を果たす。 ディープラーニングによって駆動される最近のNR-VQAモデルは、畳み込みニューラルネットワーク(CNN)とトランスフォーマーによる優れたパフォーマンスを実現している。 信頼性が高く実用的な評価システムを構築するには,その堅牢性を評価する必要がある。 しかし、この問題は学術界ではほとんど注目されていない。 本稿では,ブラックボックス攻撃に対するnr-vqaモデルのロバスト性を評価する最初の試みを行い,ブラックボックス攻撃に対するパッチベースランダム探索法を提案する。 具体的には、品質スコアに対する攻撃効果と対向映像の視覚品質の両方を考慮して、ジャスト・ノーティケータブル・差分(jnd)の制約下で推定品質スコアを誤解させるものとして攻撃問題を定式化する。 このような定式化に基づいて、Score-Reversed Boundary Lossと呼ばれる新しい損失関数は、相手ビデオの予測品質スコアを、その接点から特定のバウンダリへ遠ざけるように設計され、JND制約は厳格な$L_2$と$L_\infty$ノルム制約としてモデル化される。 つまり、ホワイトボックスとブラックボックスの攻撃は、効果的で受け入れがたい方法で起動できる。 ソースコードはhttps://github.com/GZHU-DVL/AttackVQAで入手できる。

No-Reference Video Quality Assessment (NR-VQA) plays an essential role in improving the viewing experience of end-users. Driven by deep learning, recent NR-VQA models based on Convolutional Neural Networks (CNNs) and Transformers have achieved outstanding performance. To build a reliable and practical assessment system, it is of great necessity to evaluate their robustness. However, such issue has received little attention in the academic community. In this paper, we make the first attempt to evaluate the robustness of NR-VQA models against adversarial attacks under black-box setting, and propose a patch-based random search method for black-box attack. Specifically, considering both the attack effect on quality score and the visual quality of adversarial video, the attack problem is formulated as misleading the estimated quality score under the constraint of just-noticeable difference (JND). Built upon such formulation, a novel loss function called Score-Reversed Boundary Loss is designed to push the adversarial video's estimated quality score far away from its ground-truth score towards a specific boundary, and the JND constraint is modeled as a strict $L_2$ and $L_\infty$ norm restriction. By this means, both white-box and black-box attacks can be launched in an effective and imperceptible manner. The source code is available at https://github.com/GZHU-DVL/AttackVQA.
翻訳日:2023-09-26 18:46:15 公開日:2023-09-24
# MM-NeRF:マルチモーダルガイドによるニューラルラジアンス場の多次元移動

MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance Field ( http://arxiv.org/abs/2309.13607v1 )

ライセンス: Link先を確認
Zijiang Yang, Zhongwei Qiu, Chang Xu, Dongmei Fu(参考訳) 3dスタイル転送は、3dシーンのスタイル化されたノベルビューを特定のスタイルで描画することを目的としている。 ニューラルラジアンス場(NeRF)からの3次元表現能力から、既存の手法では、画像から参照スタイルを与えることで、スタイリングされたNeRFを学習する。 しかし、マルチモーダルな指導によるマルチスタイル転送やスタイライゼーションのためのテクスチャの詳細を備えた高品質なスタイライゼーションの課題に苦しむ。 本稿では,3Dシーンにおける同一のオブジェクトが,単一ビュー画像に基づくスタイル損失関数によって最適化された従来手法から,様々な状態(色調,詳細など)をスタイリゼーション後に示しており,NeRFはスムーズなテクスチャディテールを呈し,さらに低品質なレンダリングをもたらすことを示した。 そこで本研究では, テクスチャディテールによる高品質な3dマルチスタイルレンダリングを実現し, マルチモーダル方式の指導により駆動できる, マルチモーダル誘導型3dマルチスタイルトランスファーmm-nerfを提案する。 まず、MM-NeRFは、CLIP空間にマルチモーダルガイダンスを投影する統合フレームワークを採用し、マルチモーダルスタイルの特徴を抽出し、マルチモーダルスタイルのスタイル化を導く。 そこで,本研究では,nerfのカラーヘッドのパラメータを各スタイルヘッドが予測するマルチヘッド学習方式(mls)を提案する。 MLSはマルチスタイル転送の不整合による学習困難を分解し、スタイリゼーションの品質を向上させる。 さらに、MLSはトレーニングコストの少ないヘッド(数分)を追加することで、事前訓練されたMM-NeRFを新しいスタイルに一般化することができる。 3つの実世界の3Dシーンデータセットの大規模な実験により、MM-NeRFはマルチモーダルガイダンスによる高品質な3Dマルチスタイルのスタイリングを実現し、マルチビューの一貫性を維持し、マルチモーダルスタイルのガイダンスのセマンティック一貫性を維持する。 コードは後日リリースされる。

3D style transfer aims to render stylized novel views of 3D scenes with the specified style, which requires high-quality rendering and keeping multi-view consistency. Benefiting from the ability of 3D representation from Neural Radiance Field (NeRF), existing methods learn the stylized NeRF by giving a reference style from an image. However, they suffer the challenges of high-quality stylization with texture details for multi-style transfer and stylization with multimodal guidance. In this paper, we reveal that the same objects in 3D scenes show various states (color tone, details, etc.) from different views after stylization since previous methods optimized by single-view image-based style loss functions, leading NeRF to tend to smooth texture details, further resulting in low-quality rendering. To tackle these problems, we propose a novel Multimodal-guided 3D Multi-style transfer of NeRF, termed MM-NeRF, which achieves high-quality 3D multi-style rendering with texture details and can be driven by multimodal-style guidance. First, MM-NeRF adopts a unified framework to project multimodal guidance into CLIP space and extracts multimodal style features to guide the multi-style stylization. To relieve the problem of lacking details, we propose a novel Multi-Head Learning Scheme (MLS), in which each style head predicts the parameters of the color head of NeRF. MLS decomposes the learning difficulty caused by the inconsistency of multi-style transfer and improves the quality of stylization. In addition, the MLS can generalize pre-trained MM-NeRF to any new styles by adding heads with small training costs (a few minutes). Extensive experiments on three real-world 3D scene datasets show that MM-NeRF achieves high-quality 3D multi-style stylization with multimodal guidance, keeps multi-view consistency, and keeps semantic consistency of multimodal style guidance. Codes will be released later.
翻訳日:2023-09-26 18:45:47 公開日:2023-09-24
# セマンティクスセグメンテーションのための分布認識連続テスト時間適応

Distribution-Aware Continual Test Time Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2309.13604v1 )

ライセンス: Link先を確認
Jiayi Ni, Senqiao Yang, Jiaming Liu, Xiaoqi Li, Wenyu Jiao, Ran Xu, Zehui Chen, Yi Liu, Shanghang Zhang(参考訳) 自律運転システムは通常、動的かつ絶え間なく変化する環境に直面しているため、継続的なテスト時間適応(CTTA)は、ターゲットドメインを継続的に変更するためにデプロイされたモデルを転送するための戦略として提案されている。 しかし、長期適応の追求は、しばしば破滅的な忘れとエラー蓄積の問題を引き起こし、現実の世界におけるCTTAの実践を妨げている。 近年,既存のCTTA法は主に,自己学習を通じて対象領域の知識に適合するパラメータの大部分を活用することに重点を置いている。 残念なことに、これらのアプローチはノイズの多い擬似ラベルによるエラー蓄積の課題を増幅し、モデル更新全体の計算コストの増大に起因する実用的な制限をもたらす。 本稿では, 実世界の応用において, セマンティックセグメンテーションCTTAを効率的かつ実用的なものにするためのDAT手法を提案する。 DATは、ドメイン固有パラメータ(DSP)やタスク関連パラメータ(TRP)を含む、連続的な適応プロセス中のデータ分布に基づいて、トレーニング可能なパラメータの2つの小さなグループを適応的に選択し、更新する。 特に、dspは、かなりの分布シフトで出力に対する感度を示し、エラー蓄積の問題を効果的に軽減する。 対照的に、TRPは小さな分布シフトを伴う出力に応答する位置に割り当てられ、破滅的な忘れの問題を避けるために微調整される。 また,CTTAは時間的タスクであるため,パラメータ蓄積更新(PAU)戦略を導入して,更新 DSP と TRP を対象ドメインシーケンスで収集する。 広く使用されている2つのセマンティクスセグメンテーションcttaベンチマークについて広範な実験を行い,従来の最先端手法と比較して有望な性能を実現する。

Since autonomous driving systems usually face dynamic and ever-changing environments, continual test-time adaptation (CTTA) has been proposed as a strategy for transferring deployed models to continually changing target domains. However, the pursuit of long-term adaptation often introduces catastrophic forgetting and error accumulation problems, which impede the practical implementation of CTTA in the real world. Recently, existing CTTA methods mainly focus on utilizing a majority of parameters to fit target domain knowledge through self-training. Unfortunately, these approaches often amplify the challenge of error accumulation due to noisy pseudo-labels, and pose practical limitations stemming from the heavy computational costs associated with entire model updates. In this paper, we propose a distribution-aware tuning (DAT) method to make the semantic segmentation CTTA efficient and practical in real-world applications. DAT adaptively selects and updates two small groups of trainable parameters based on data distribution during the continual adaptation process, including domain-specific parameters (DSP) and task-relevant parameters (TRP). Specifically, DSP exhibits sensitivity to outputs with substantial distribution shifts, effectively mitigating the problem of error accumulation. In contrast, TRP are allocated to positions that are responsive to outputs with minor distribution shifts, which are fine-tuned to avoid the catastrophic forgetting problem. In addition, since CTTA is a temporal task, we introduce the Parameter Accumulation Update (PAU) strategy to collect the updated DSP and TRP in target domain sequences. We conduct extensive experiments on two widely-used semantic segmentation CTTA benchmarks, achieving promising performance compared to previous state-of-the-art methods.
翻訳日:2023-09-26 18:45:07 公開日:2023-09-24
# faceatt: ポートレート画像のための顔属性によるキャプション強化

FaceAtt: Enhancing Image Captioning with Facial Attributes for Portrait Images ( http://arxiv.org/abs/2309.13601v1 )

ライセンス: Link先を確認
Naimul Haque, Iffat Labiba and Sadia Akter(参考訳) 画像キャプションの自動生成は、多様なオーディエンスに対する視覚コンテンツのアクセシビリティと理解を高める研究の重要領域である。 本研究では,画像中の顔属性の正確な描写を強調する,属性中心の画像キャプションに対する新しいアプローチであるfaceattモデルを提案する。 FaceAttは感情、表情、尖った鼻、公正な肌のトーン、髪のテクスチャ、魅力、およそ年齢範囲など、さまざまな属性を自動的に検出し、記述する。 深層学習技術を活用することで,画像特徴抽出手法がキャプション品質に与える影響を探索し,BLEUやMETEORといったメトリクスを用いてモデルの性能評価を行う。 当社のfaceattモデルは、キャプション前のポートレートイメージの補足的な事前知識として、アノテーション付きポートレート属性を活用しています。 この革新的な追加は、結果のスコアを微妙に識別可能な拡張をもたらし、トレーニング中に追加の属性ベクトルを組み込むことの可能性を実証する。 さらに,自動キャプションにおける倫理的考察の広範な議論に寄与する。 本研究は,言語コヒーレンスの向上,バイアスへの対処,多様なユーザニーズの調整を中心に,属性に着目したキャプション技術の改良に向けた今後の研究の舞台となる。

Automated image caption generation is a critical area of research that enhances accessibility and understanding of visual content for diverse audiences. In this study, we propose the FaceAtt model, a novel approach to attribute-focused image captioning that emphasizes the accurate depiction of facial attributes within images. FaceAtt automatically detects and describes a wide range of attributes, including emotions, expressions, pointed noses, fair skin tones, hair textures, attractiveness, and approximate age ranges. Leveraging deep learning techniques, we explore the impact of different image feature extraction methods on caption quality and evaluate our model's performance using metrics such as BLEU and METEOR. Our FaceAtt model leverages annotated attributes of portraits as supplementary prior knowledge for our portrait images before captioning. This innovative addition yields a subtle yet discernible enhancement in the resulting scores, exemplifying the potency of incorporating additional attribute vectors during training. Furthermore, our research contributes to the broader discourse on ethical considerations in automated captioning. This study sets the stage for future research in refining attribute-focused captioning techniques, with a focus on enhancing linguistic coherence, addressing biases, and accommodating diverse user needs.
翻訳日:2023-09-26 18:44:31 公開日:2023-09-24
# 空間誘導バイアスのための多次元ハイエナ

Multi-Dimensional Hyena for Spatial Inductive Bias ( http://arxiv.org/abs/2309.13600v1 )

ライセンス: Link先を確認
Itamar Zimerman and Lior Wolf(参考訳) 近年、視覚トランスフォーマーはコンピュータビジョン研究者の関心を集めている。 しかしながら、cnnに対するこれらのトランスフォーマーのアドバンテージは、大きなデータセット上でトレーニングされた場合にのみ、主にトランスフォーマーの自己照準機構内の空間的局所性に対する帰納的バイアスの低減によるものである。 本稿では,自己着脱に依存しないデータ効率の高い視覚トランスフォーマを提案する。 代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。 我々は、この一般化を得るためのいくつかの代替手法を提案し、経験的および理論的観点から、その特異な区別と考察を探究する。 実験の結果,提案したHyena N-D層は,ViT,Swin,DeiTなど,さまざまなVision Transformerアーキテクチャの性能を複数のデータセットで向上させることがわかった。 さらに,小さなデータセットでは,ハイエナベースのvitは,同じ課題,すなわち,小さなデータセットの処理や,イメージ固有の帰納的バイアスを自己発見機構に組み込むために特別に設計された最近の文献のvit変種に好適である。 最後に,vitの最初のレイヤに対してhyena n-dをベースとするハイブリッドアプローチと,従来の注意を組み込んだレイヤが,さまざまな視覚トランスフォーマアーキテクチャのパフォーマンスを一貫して向上させることを示す。

In recent years, Vision Transformers have attracted increasing interest from computer vision researchers. However, the advantage of these transformers over CNNs is only fully manifested when trained over a large dataset, mainly due to the reduced inductive bias towards spatial locality within the transformer's self-attention mechanism. In this work, we present a data-efficient vision transformer that does not rely on self-attention. Instead, it employs a novel generalization to multiple axes of the very recent Hyena layer. We propose several alternative approaches for obtaining this generalization and delve into their unique distinctions and considerations from both empirical and theoretical perspectives. Our empirical findings indicate that the proposed Hyena N-D layer boosts the performance of various Vision Transformer architectures, such as ViT, Swin, and DeiT across multiple datasets. Furthermore, in the small dataset regime, our Hyena-based ViT is favorable to ViT variants from the recent literature that are specifically designed for solving the same challenge, i.e., working with small datasets or incorporating image-specific inductive bias into the self-attention mechanism. Finally, we show that a hybrid approach that is based on Hyena N-D for the first layers in ViT, followed by layers that incorporate conventional attention, consistently boosts the performance of various vision transformer architectures.
翻訳日:2023-09-26 18:43:54 公開日:2023-09-24
# クラスタ推定からグラフ畳み込みへ - グラフに基づく半教師付き学習の再考

From Cluster Assumption to Graph Convolution: Graph-based Semi-Supervised Learning Revisited ( http://arxiv.org/abs/2309.13599v1 )

ライセンス: Link先を確認
Zheng Wang, Hongming Ding, Li Pan, Jianhua Li, Zhiguo Gong, Philip S. Yu(参考訳) グラフベースの半教師付き学習(GSSL)は、長い間ホットな研究トピックだった。 従来の手法は一般にクラスタの仮定に基づいて浅い学習者である。 近年, グラフ畳み込みネットワーク (GCN) が, 有望な性能を示す主要な技術となっている。 本稿では,これら2つの手法間の関係を統一最適化フレームワークで理論的に議論する。 最も興味深い発見の1つは、従来のものとは異なり、典型的なGCNはグラフ構造と各層のラベル情報を共同で考慮していないことである。 そこで我々はさらに3つの単純かつ強力なグラフ畳み込み法を提案する。 1つ目は、ラベル付きグラフ畳み込みプロセスをガイドする教師付きOGCである。 GGCとそのマルチスケールバージョンであるGGCMは、畳み込みプロセス中にグラフ構造情報を保存することを目的としている。 最後に,提案手法の有効性を示す広範な実験を行った。

Graph-based semi-supervised learning (GSSL) has long been a hot research topic. Traditional methods are generally shallow learners, based on the cluster assumption. Recently, graph convolutional networks (GCNs) have become the predominant techniques for their promising performance. In this paper, we theoretically discuss the relationship between these two types of methods in a unified optimization framework. One of the most intriguing findings is that, unlike traditional ones, typical GCNs may not jointly consider the graph structure and label information at each layer. Motivated by this, we further propose three simple but powerful graph convolution methods. The first is a supervised method OGC which guides the graph convolution process with labels. The others are two unsupervised methods: GGC and its multi-scale version GGCM, both aiming to preserve the graph structure information during the convolution process. Finally, we conduct extensive experiments to show the effectiveness of our methods.
翻訳日:2023-09-26 18:42:58 公開日:2023-09-24
# 雑音化における後方分布について:不確実性定量化への応用

On the Posterior Distribution in Denoising: Application to Uncertainty Quantification ( http://arxiv.org/abs/2309.13598v1 )

ライセンス: Link先を確認
Hila Manor and Tomer Michaeli(参考訳) 低品位イメージングセンサーのノイズ抑制からスコアベース生成モデルの強化に至るまで、多くの応用においてデノイザは中心的な役割を果たす。 後者の分類では tweedie の式を用いており、これはガウス分位法(すなわち最小の mse denoiser )における後平均とデータ分布のスコアを関連付けている。 ここでは,後方分布の高次中心モーメントと後方平均の高次微分との間の基礎的関係を導出する。 この結果を利用して,事前学習したデノイザの不確実性定量化を行う。 特に,画像の任意の所望領域に対する後方分布の主成分を効率的に計算する方法を示し,それら(または他の)一次元方向に沿った全辺分布を近似する。 高次モーメントテンソルを明示的に計算したり格納したりせず、デノイザーのトレーニングや微調整も必要としないため、この手法は高速でメモリ効率が良い。 コードとサンプルはプロジェクトのWebページにhttps://hilamanor.github.io/GaussianDenoisingPosterior/にある。

Denoisers play a central role in many applications, from noise suppression in low-grade imaging sensors, to empowering score-based generative models. The latter category of methods makes use of Tweedie's formula, which links the posterior mean in Gaussian denoising (i.e., the minimum MSE denoiser) with the score of the data distribution. Here, we derive a fundamental relation between the higher-order central moments of the posterior distribution, and the higher-order derivatives of the posterior mean. We harness this result for uncertainty quantification of pre-trained denoisers. Particularly, we show how to efficiently compute the principal components of the posterior distribution for any desired region of an image, as well as to approximate the full marginal distribution along those (or any other) one-dimensional directions. Our method is fast and memory efficient, as it does not explicitly compute or store the high-order moment tensors and it requires no training or fine tuning of the denoiser. Code and examples are available on the project's webpage in https://hilamanor.github.io/GaussianDenoisingPosterior/
翻訳日:2023-09-26 18:42:43 公開日:2023-09-24
# lidarポイントクラウドを用いた3次元レーン検出の進歩:データ収集からモデル開発へ

Advancements in 3D Lane Detection Using LiDAR Point Clouds: From Data Collection to Model Development ( http://arxiv.org/abs/2309.13596v1 )

ライセンス: Link先を確認
Runkai Zhao, Yuwen Heng, Yuanda Gao, Shilei Liu, Heng Wang, Changhao Yao, Jiawen Chen, Weidong Cai(参考訳) Advanced Driver-Assistance Systems (ADAS)は、車両の認識と意思決定に学習ベースの技術を統合することに成功した。 しかし, 効率的な運転環境認識のための3次元車線検出への応用は, 包括的LiDARデータセットの欠如によって妨げられる。 LiDARポイントクラウドデータのスパースな性質は、効率的な手動アノテーションプロセスを防ぐ。 そこで本研究では,20kフレームの周辺視LiDAR点雲からなる大規模3次元レーン・データセットLiSV-3DLaneを提案する。 前景に限定された既存のデータセットとは異なり、LiSV-3DLaneはエゴ車の周りに360度の空間パノラマを提供し、都市と高速道路の両方で複雑な車線パターンを捉えている。 我々は、レーンラインの幾何学的特性とLiDARデータ固有の空間特性を利用して、より微細なレーンラベルを生成するためのシンプルで効果的な自動アノテーションパイプラインを設計する。 本研究では,LiDARを用いた新しい3次元車線検出モデルLiLaDetを提案し,LiDAR点雲の空間幾何学的学習をBird's Eye View (BEV) に基づく車線識別に取り入れた。 実験の結果,K-LaneデータセットとLiSV-3DLaneの3次元車線検出タスクにおいて,LiLaDetは既存のカメラおよびLiDARベースのアプローチよりも優れていた。

Advanced Driver-Assistance Systems (ADAS) have successfully integrated learning-based techniques into vehicle perception and decision-making. However, their application in 3D lane detection for effective driving environment perception is hindered by the lack of comprehensive LiDAR datasets. The sparse nature of LiDAR point cloud data prevents an efficient manual annotation process. To solve this problem, we present LiSV-3DLane, a large-scale 3D lane dataset that comprises 20k frames of surround-view LiDAR point clouds with enriched semantic annotation. Unlike existing datasets confined to a frontal perspective, LiSV-3DLane provides a full 360-degree spatial panorama around the ego vehicle, capturing complex lane patterns in both urban and highway environments. We leverage the geometric traits of lane lines and the intrinsic spatial attributes of LiDAR data to design a simple yet effective automatic annotation pipeline for generating finer lane labels. To propel future research, we propose a novel LiDAR-based 3D lane detection model, LiLaDet, incorporating the spatial geometry learning of the LiDAR point cloud into Bird's Eye View (BEV) based lane identification. Experimental results indicate that LiLaDet outperforms existing camera- and LiDAR-based approaches in the 3D lane detection task on the K-Lane dataset and our LiSV-3DLane.
翻訳日:2023-09-26 18:42:17 公開日:2023-09-24
# 加速サンプリングのための自己調整型ハミルトンモンテカルロ

Self-Tuning Hamiltonian Monte Carlo for Accelerated Sampling ( http://arxiv.org/abs/2309.13593v1 )

ライセンス: Link先を確認
Henrik Christiansen and Federico Errica and Francesco Alesiani(参考訳) ハミルトニアンモンテカルロのパフォーマンスは、そのパラメータ、特に積分の時間ステップと積分の回数に決定的に依存する。 本稿では,位相空間の高速探索を促進する損失関数に基づいてパラメータを自動的にチューニングする適応型汎用フレームワークを提案する。 そのため、完全に微分可能なセットアップを使用して、最適化にバックプロパゲーションを使用します。 注意のような損失が定義され、統合ステップの分布の勾配駆動学習が可能になる。 また,スムーズな損失表面に対するジッタリングの重要性を強調した。 本手法は, 1次元高調波発振器と, シミュレーション手法の試験ケースとして一般的な小さなタンパク質であるアラニンジペプチドに対して実証された。 我々の損失と自己相関時間との間には良好な対応関係が見られ、その結果、ハミルトン・モンテ・カルロのパラメータがよく調整される。

The performance of Hamiltonian Monte Carlo crucially depends on its parameters, in particular the integration timestep and the number of integration steps. We present an adaptive general-purpose framework to automatically tune these parameters based on a loss function which promotes the fast exploration of phase-space. For this, we make use of a fully-differentiable set-up and use backpropagation for optimization. An attention-like loss is defined which allows for the gradient driven learning of the distribution of integration steps. We also highlight the importance of jittering for a smooth loss-surface. Our approach is demonstrated for the one-dimensional harmonic oscillator and alanine dipeptide, a small protein common as a test-case for simulation methods. We find a good correspondence between our loss and the autocorrelation times, resulting in well-tuned parameters for Hamiltonian Monte Carlo.
翻訳日:2023-09-26 18:41:55 公開日:2023-09-24
# ニューラルネットワークを用いたコロナウイルス検出のためのインテリジェントシステムの開発

Development of an intelligent system for the detection of corona virus using artificial neural network ( http://arxiv.org/abs/2309.13636v1 )

ライセンス: Link先を確認
Nwafor Emmanuel O, Ngozi Maryrose Umeh, Ikechukwu Ekene Onyenwe(参考訳) 本稿では,人工ニューラルネットワークを用いた新型コロナウイルス検出のためのインテリジェントシステムの開発について述べる。 これは、高熱がcovid-19の症状の87.9%を占めることを示す一連の文献レビューの後行われた。 ナイジェリアのエヌグ(enugu)にある病院から、38c^o=38c^oのcovid-19患者の温度データを収集し、covid-19検出のためのニューラルネットワーク探索モデルのトレーニングに使用した。 生成された参照モデルはハードウェア記述言語(HDL)を使用してVerilogコードに変換し、その後MatlabのFPGAツールを使用してFPGA(Field Programming Gate Array)コントローラに燃焼した。 混乱行列,回帰,平均二乗誤差(MSE)を用いてモデルの評価を行った結果,回帰値は0.967であり,精度は97%,MSEは0.00100Muであった。 これらの結果から,新たな検出システムは信頼性が高く,covid-19検出に非常に有効であることが示唆された。

This paper presents the development of an intelligent system for the detection of coronavirus using artificial neural network. This was done after series of literature review which indicated that high fever accounts for 87.9% of the COVID-19 symptoms. 683 temperature data of COVID-19 patients at >= 38C^o were collected from Colliery hospital Enugu, Nigeria and used to train an artificial neural network detective model for the detection of COVID-19. The reference model generated was used converted into Verilog codes using Hardware Description Language (HDL) and then burn into a Field Programming Gate Array (FPGA) controller using FPGA tool in Matlab. The performance of the model when evaluated using confusion matrix, regression and means square error (MSE) showed that the regression value is 0.967; the accuracy is 97% and then MSE is 0.00100Mu. These results all implied that the new detection system for is reliable and very effective for the detection of COVID-19.
翻訳日:2023-09-26 18:33:52 公開日:2023-09-24
# panopticndt: 効率的でロバストなpanopticマッピング

PanopticNDT: Efficient and Robust Panoptic Mapping ( http://arxiv.org/abs/2309.13635v1 )

ライセンス: Link先を確認
Daniel Seichter, Benedict Stephan, S\"ohnke Benedikt Fischedick, Steffen M\"uller, Leonard Rabes, Horst-Michael Gross(参考訳) モバイルロボットのアプリケーションシナリオが複雑で困難になるにつれて、シーン理解がますます重要になっている。 屋内環境で自律的に動作するはずの移動ロボットは、どの物体が存在するのか、どこにあるのか、空間的範囲は何か、どのように到達できるかといった正確な知識を持つ必要があり、つまり自由空間に関する情報も不可欠である。 パノプティカルマッピングはそのような情報を提供する強力な手段である。 しかし,空間解像度の高い3次元パノプティカルマップの構築は,計算能力に制限があるため,移動ロボットでは困難である。 本稿では, 占有率正規分布変換(NDT)に基づく, 効率的かつ堅牢なパノプティカルマッピング手法であるPanopticNDTを提案する。 我々はHypersimとScanNetV2の公開データセットに対するアプローチを評価した。 その結果, 移動ロボット上でのパンオプティカルマッピングを実現することにより, パンオプティカルな情報を, 最先端の手法よりも高レベルに表現できることがわかった。 最後に,PanopticNDTの実世界の応用性を,国内応用における定性的な結果で証明する。

As the application scenarios of mobile robots are getting more complex and challenging, scene understanding becomes increasingly crucial. A mobile robot that is supposed to operate autonomously in indoor environments must have precise knowledge about what objects are present, where they are, what their spatial extent is, and how they can be reached; i.e., information about free space is also crucial. Panoptic mapping is a powerful instrument providing such information. However, building 3D panoptic maps with high spatial resolution is challenging on mobile robots, given their limited computing capabilities. In this paper, we propose PanopticNDT - an efficient and robust panoptic mapping approach based on occupancy normal distribution transform (NDT) mapping. We evaluate our approach on the publicly available datasets Hypersim and ScanNetV2. The results reveal that our approach can represent panoptic information at a higher level of detail than other state-of-the-art approaches while enabling real-time panoptic mapping on mobile robots. Finally, we prove the real-world applicability of PanopticNDT with qualitative results in a domestic application.
翻訳日:2023-09-26 18:33:34 公開日:2023-09-24
# EvalLM: ユーザ定義基準に基づく大規模言語モデルの対話的評価

EvalLM: Interactive Evaluation of Large Language Model Prompts on User-Defined Criteria ( http://arxiv.org/abs/2309.13633v1 )

ライセンス: Link先を確認
Tae Soo Kim, Yoonjoo Lee, Jamin Shin, Young-Ho Kim, Juho Kim(参考訳) プロンプトを構成するだけで、開発者はLarge Language Models (LLM)を使った新しい生成アプリケーションをプロトタイプできる。 しかし、プロトタイプを製品化するためには、開発者は弱点を診断するために出力を評価することでプロンプトを反復的に修正する必要がある。 フォーマティブ・インタビュー(N=8)では、開発者は文脈特化基準と主観的基準を評価する際に、アウトプットを手作業で評価することに多大な努力を払っていることが明らかになった。 ユーザ定義基準に基づいて複数の出力を評価することで,プロンプトを反復精製するインタラクティブシステムであるEvalLMを提案する。 自然言語の基準を記述することにより、ユーザはシステムのLCMベースの評価器を使用して、どのプロンプトがエキサイティングか、失敗かを概観し、評価器のフィードバックに基づいて改善することができる。 比較研究(N=12)では、手動による評価と比較すると、EvalLMは、参加者がより多様な基準を策定し、出力の2倍を検査し、59%のリビジョンで満足なプロンプトに達するのに役立った。 プロンプト以外にも、作業は特定のアプリケーションコンテキストにおけるモデル評価とアライメントの強化にまで拡張できます。

By simply composing prompts, developers can prototype novel generative applications with Large Language Models (LLMs). To refine prototypes into products, however, developers must iteratively revise prompts by evaluating outputs to diagnose weaknesses. Formative interviews (N=8) revealed that developers invest significant effort in manually evaluating outputs as they assess context-specific and subjective criteria. We present EvalLM, an interactive system for iteratively refining prompts by evaluating multiple outputs on user-defined criteria. By describing criteria in natural language, users can employ the system's LLM-based evaluator to get an overview of where prompts excel or fail, and improve these based on the evaluator's feedback. A comparative study (N=12) showed that EvalLM, when compared to manual evaluation, helped participants compose more diverse criteria, examine twice as many outputs, and reach satisfactory prompts with 59% fewer revisions. Beyond prompts, our work can be extended to augment model evaluation and alignment in specific application contexts.
翻訳日:2023-09-26 18:33:16 公開日:2023-09-24
# 正方格子上のJ_1-J_2$ハイゼンベルク模型におけるスピン液相の存在

Absence of Spin Liquid Phase in the $J_1-J_2$ Heisenberg model on the Square Lattice ( http://arxiv.org/abs/2309.13630v1 )

ライセンス: Link先を確認
Xiangjian Qian, Mingpu Qin(参考訳) 正方格子上の$j_1-j_2$ハイゼンベルク模型の位相図を詳細に検討する。 我々は密度行列再正規化グループと完全拡張行列積状態法を活用し、大きな結合次元で前例のない精度に達する。 位相遷移点の特定には励起レベル交差解析を用いる。 以前は、N'eel反強磁性(AFM)と価結合固相(VBS)で挟まれた狭いスピン液体相が存在すると考えられていた。 水平交差点の慎重な有限スケールスケーリングにより、N'eel AFM と VBS の相転移が$J_2/J_1 = 0.535(3)$ となり、中間スピン液相が存在しないことが示唆される。 また,n\eel afm相とvbs相の遷移が連続であることから,様々な大きさの基底状態エネルギーの正確な結果を得る。 これらの結果は、モデル内に$j_2/j_1 = 0.535(3)$ の量子臨界点が存在することを示している。 また, 異なるサイズに対して$j_2$を有するエネルギーの第1導関数の交差から, $j_2/j_1=0.610(5)$でvbs相とストライプafm相の間の第1次相転移の正確な位置を決定する。

We perform an in-depth investigation of the phase diagram of the $J_1-J_2$ Heisenberg model on the square lattice. We take advantage of Density Matrix Renormalization Group and Fully-Augmented Matrix Product States methods and reach unprecedented accuracy with large bond dimensions. We utilize excited-level crossing analysis to pinpoint the phase transition points. It was believed before that there exists a narrow spin liquid phase sandwiched by the N\'eel antiferromagnetic (AFM) and valence bond solid (VBS) phases. Through careful finite size scaling of the level crossing points, we find a direct phase transition between the N\'eel AFM and VBS phases at $J_2/J_1 = 0.535(3)$, suggesting the absence of an intermediate spin liquid phase. We also provide accurate results for ground state energies for a variety of sizes, from which we find the transition between the N\'eel AFM and VBS phases is continuous. These results indicate the existence of a deconfined quantum critical point at $J_2/J_1 = 0.535(3)$ in the model. From the crossing of the first derivative of the energies with $J_2$ for different sizes, we also determine the precise location of the first order phase transition between the VBS and stripe AFM phases at $J_2/J_1=0.610(5)$.
翻訳日:2023-09-26 18:32:54 公開日:2023-09-24
# crack-net: 複合材料のき裂進展予測

Crack-Net: Prediction of Crack Propagation in Composites ( http://arxiv.org/abs/2309.13626v1 )

ライセンス: Link先を確認
Hao Xu, Wei Fan, Ambrose C. Taylor, Dongxiao Zhang, Lecheng Ruan, Rundong Shi(参考訳) 計算固体力学は工学において欠かせないアプローチとなり、複合材料の破壊の数値的研究は複合材料が構造的応用に広く使われているため不可欠である。 複合材料における亀裂進展は, 微細構造と破壊性能の関係を解明するための橋梁であるが, ひび割れに基づく有限要素法は計算コストが高く, 時間を要するため, 計算集約シナリオでの応用が制限される。 本稿では,複合材料の破壊過程を予測するために,亀裂進展と応力応答の関係を組み込んだcrack-netと呼ばれる深層学習フレームワークを提案する。 crack-netは, 位相場法を用いて生成した高精度き裂進展データセットに基づいて, き裂進展パターンの長期変化と応力-ひずみ曲線を正確に予測する能力を示す。 クラックネットは亀裂成長の本質的な原理を捉え、二元連続構造のようなより複雑な構造を扱うことができる。 さらに, 強度の異なる複合材料におけるクラックネットの一般化能力を向上させるために, 転写学習を採用した。 提案するclarch-netは, 材料性能およびミクロ組織設計の最適化において, 高精度かつ効率的な破壊予測が不可欠である工学および材料科学の実用化に大いに期待されている。

Computational solid mechanics has become an indispensable approach in engineering, and numerical investigation of fracture in composites is essential as composites are widely used in structural applications. Crack evolution in composites is the bridge to elucidate the relationship between the microstructure and fracture performance, but crack-based finite element methods are computationally expensive and time-consuming, limiting their application in computation-intensive scenarios. Here we propose a deep learning framework called Crack-Net, which incorporates the relationship between crack evolution and stress response to predict the fracture process in composites. Trained on a high-precision fracture development dataset generated using the phase field method, Crack-Net demonstrates a remarkable capability to accurately forecast the long-term evolution of crack growth patterns and the stress-strain curve for a given composite design. The Crack-Net captures the essential principle of crack growth, which enables it to handle more complex microstructures such as binary co-continuous structures. Moreover, transfer learning is adopted to further improve the generalization ability of Crack-Net for composite materials with reinforcements of different strengths. The proposed Crack-Net holds great promise for practical applications in engineering and materials science, in which accurate and efficient fracture prediction is crucial for optimizing material performance and microstructural design.
翻訳日:2023-09-26 18:32:28 公開日:2023-09-24
# GraphAdapter: デュアル知識グラフによる視覚言語モデルのチューニング

GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph ( http://arxiv.org/abs/2309.13625v1 )

ライセンス: Link先を確認
Xin Li, Dongze Lian, Zhihe Lu, Jiawang Bai, Zhibo Chen, and Xinchao Wang(参考訳) 適応型効率的な伝達学習(ETL)は、VLMの汎用的かつ強力な表現に基づくタスク固有の知識を発掘するために、低データ体制下での視覚言語モデル(VLM)のチューニングにおいて優れた性能を示した。 しかし、ほとんどのアダプタスタイルの作業には2つの制限がある。 (i)単一モダリティのみによるタスク固有の知識のモデル化 (ii)下流タスクにおけるクラス間関係の活用を見据え、結果として最適以下のソリューションへと導かれる。 そこで我々は,2種類の構造知識(すなわち,異なる意味・クラス間のテクスト的・視覚的モーダリティの相関)と2つの知識グラフを明示的にモデル化して,テクスト的アダプタを実行する,graphadapterという,効果的なアダプタスタイルのチューニング戦略を提案する。 特に、二重知識グラフは、2つのサブグラフ、すなわちテキスト知識のサブグラフと視覚知識のサブグラフで成り立っており、ノードとエッジはそれぞれ2つのモダリティのセマンティクス/クラスとそれらの相関を表す。 これにより、各プロンプトのテキスト機能は、テキストと視覚の両方からタスク固有の構造知識を活用することができ、下流タスクのより効果的な分類器が得られる。 11のベンチマークデータセットに対する大規模な実験結果から、GraphAdapterは従来のアダプタベースのメソッドよりも大幅に優れています。 コードはhttps://github.com/lixinustc/GraphAdapterでリリースされる。

Adapter-style efficient transfer learning (ETL) has shown excellent performance in the tuning of vision-language models (VLMs) under the low-data regime, where only a few additional parameters are introduced to excavate the task-specific knowledge based on the general and powerful representation of VLMs. However, most adapter-style works face two limitations: (i) modeling task-specific knowledge with a single modality only; and (ii) overlooking the exploitation of the inter-class relationships in downstream tasks, thereby leading to sub-optimal solutions. To mitigate that, we propose an effective adapter-style tuning strategy, dubbed GraphAdapter, which performs the textual adapter by explicitly modeling the dual-modality structure knowledge (i.e., the correlation of different semantics/classes in textual and visual modalities) with a dual knowledge graph. In particular, the dual knowledge graph is established with two sub-graphs, i.e., a textual knowledge sub-graph, and a visual knowledge sub-graph, where the nodes and edges represent the semantics/classes and their correlations in two modalities, respectively. This enables the textual feature of each prompt to leverage the task-specific structure knowledge from both textual and visual modalities, yielding a more effective classifier for downstream tasks. Extensive experimental results on 11 benchmark datasets reveal that our GraphAdapter significantly outperforms previous adapter-based methods. The code will be released at https://github.com/lixinustc/GraphAdapter
翻訳日:2023-09-26 18:32:03 公開日:2023-09-24
# PRIS:画像ステガノグラフィのための実用的頑健な非可逆ネットワーク

PRIS: Practical robust invertible network for image steganography ( http://arxiv.org/abs/2309.13620v1 )

ライセンス: Link先を確認
Hang Yang, Yitian Xu, Xuhua Liu, Xiaodong Ma(参考訳) 画像ステガノグラフィー(英: Image steganography)は、他の画像の中に秘密情報を隠す技術であり、その秘密が人間の目からは見えず、必要に応じて復元できる。 既存の画像ステガノグラフィ法のほとんどは、歪みに影響を受ける容器像の隠れ堅牢性が低い。 ガウスノイズや損失圧縮など。 本稿では,可逆ニューラルネットワークに基づく画像ステガノグラフィのロバスト性向上のためのprisを提案し,3段階のトレーニング戦略を用いて,抽出過程の前後に2つの強化モジュールを配置した。 さらに、既存の手法で常に無視される丸め誤差も考慮されているが、実際は避けられない。 傾斜近似関数 (GAF) も、円形歪みの微分不可能な問題を克服するために提案されている。 以上の結果から,PRISは画像ステガノグラフィー法よりも頑健性と実践性に優れていた。 コードはhttps://github.com/yanghangAI/PRISで公開されています。

Image steganography is a technique of hiding secret information inside another image, so that the secret is not visible to human eyes and can be recovered when needed. Most of the existing image steganography methods have low hiding robustness when the container images affected by distortion. Such as Gaussian noise and lossy compression. This paper proposed PRIS to improve the robustness of image steganography, it based on invertible neural networks, and put two enhance modules before and after the extraction process with a 3-step training strategy. Moreover, rounding error is considered which is always ignored by existing methods, but actually it is unavoidable in practical. A gradient approximation function (GAF) is also proposed to overcome the undifferentiable issue of rounding distortion. Experimental results show that our PRIS outperforms the state-of-the-art robust image steganography method in both robustness and practicability. Codes are available at https://github.com/yanghangAI/PRIS, demonstration of our model in practical at http://yanghang.site/hide/.
翻訳日:2023-09-26 18:31:34 公開日:2023-09-24
# Change-Aware Transformer: 一般化された変化表現の学習

Changes-Aware Transformer: Learning Generalized Changes Representation ( http://arxiv.org/abs/2309.13619v1 )

ライセンス: Link先を確認
Dan Wang, Licheng Jiao, Jie Chen, Shuyuan Yang, Fang Liu(参考訳) 2つの期間の画像を比較することで得られる特徴は、変化検出(CD)タスクにおいて不可欠である。 しかし、両時間画像は多様な変化を示し、様々な違いを引き起こす可能性がある。 異なる特徴を持つ変化画素を同じカテゴリに識別することはCDにとって困難である。 現代のほとんどの手法は、画像表現の強化や監督情報といった暗黙の方法で異なる特徴を得る。 それでも、情報的特徴はオブジェクトのセマンティクスがモデル化されることのみを保証し、変化したピクセルが特徴空間に類似したセマンティクスを持つことを保証できない。 本研究では, 差分特徴空間において, 様々な変化の一般化表現を直接学習し, 差分特徴を精製するための新しい変化認識変換器(CAT)を提案する。 この一般化された表現は、どのピクセルが変更され、どのピクセルが変更されていないかを認識することができ、さらに画素の差分特徴の更新を導く。 catは、積層コサインクロスアテンション層および自己アテンション層を介して、この精細化プロセスを効果的に達成する。 精細化後、差分特徴空間における変化画素同士が近接し、変化検出を容易にする。 さらに、CATは様々なバックボーンネットワークや既存のCDメソッドと互換性がある。 リモートセンシングcdデータセットとストリートシーンcdデータセットの実験により,本手法が最先端の性能を達成し,一般化に優れたことを示す。

Difference features obtained by comparing the images of two periods play an indispensable role in the change detection (CD) task. However, a pair of bi-temporal images can exhibit diverse changes, which may cause various difference features. Identifying changed pixels with differ difference features to be the same category is thus a challenge for CD. Most nowadays' methods acquire distinctive difference features in implicit ways like enhancing image representation or supervision information. Nevertheless, informative image features only guarantee object semantics are modeled and can not guarantee that changed pixels have similar semantics in the difference feature space and are distinct from those unchanged ones. In this work, the generalized representation of various changes is learned straightforwardly in the difference feature space, and a novel Changes-Aware Transformer (CAT) for refining difference features is proposed. This generalized representation can perceive which pixels are changed and which are unchanged and further guide the update of pixels' difference features. CAT effectively accomplishes this refinement process through the stacked cosine cross-attention layer and self-attention layer. After refinement, the changed pixels in the difference feature space are closer to each other, which facilitates change detection. In addition, CAT is compatible with various backbone networks and existing CD methods. Experiments on remote sensing CD data set and street scene CD data set show that our method achieves state-of-the-art performance and has excellent generalization.
翻訳日:2023-09-26 18:31:18 公開日:2023-09-24
# 強化強調自己回帰的特徴変換:ポストフィックス表現のための連続空間における勾配ステアリング探索

Reinforcement-Enhanced Autoregressive Feature Transformation: Gradient-steered Search in Continuous Space for Postfix Expressions ( http://arxiv.org/abs/2309.13618v1 )

ライセンス: Link先を確認
Dongjie Wang and Meng Xiao and Min Wu and Pengfei Wang and Yuanchun Zhou and Yanjie Fu(参考訳) 特徴変換は、ダウンストリーム機械学習(ML)タスクのパフォーマンスを改善するために、オリジナルの機能から新しいパターン識別機能空間を生成することを目的としている。 しかし、最適な特徴に対する離散探索空間は、低次形式から高次形式への特徴と操作の組み合わせに基づいて爆発的に増大する。 網羅的探索、拡張縮小、進化アルゴリズム、強化学習、反復的欲求といった既存の手法は、大きな検索空間に悩まされている。 アルゴリズム設計の効率を過度に強調すると、通常は安定性や堅牢性が犠牲になる。 このギャップを埋めるために,我々は離散的特徴変換を連続空間最適化タスクとして再構成し,組込み最適化・再構成フレームワークを開発した。 このフレームワークには4つのステップがある。 1)高品質なトランスフォーメーション精度トレーニングデータの作成を目的とした強化強化データ準備 2) 準備された訓練データの知識を連続空間にカプセル化しようとする特徴変換操作シーケンス埋め込み 3) 学習空間内の潜在的に優れた埋め込みを明らかにするために,勾配制御された最適埋め込み探索 4) 変換操作シーケンスの再構成、最適な特徴空間をピンポイントするために特徴変換溶液を再現すること。

Feature transformation aims to generate new pattern-discriminative feature space from original features to improve downstream machine learning (ML) task performances. However, the discrete search space for the optimal feature explosively grows on the basis of combinations of features and operations from low-order forms to high-order forms. Existing methods, such as exhaustive search, expansion reduction, evolutionary algorithms, reinforcement learning, and iterative greedy, suffer from large search space. Overly emphasizing efficiency in algorithm design usually sacrifices stability or robustness. To fundamentally fill this gap, we reformulate discrete feature transformation as a continuous space optimization task and develop an embedding-optimization-reconstruction framework. This framework includes four steps: 1) reinforcement-enhanced data preparation, aiming to prepare high-quality transformation-accuracy training data; 2) feature transformation operation sequence embedding, intending to encapsulate the knowledge of prepared training data within a continuous space; 3) gradient-steered optimal embedding search, dedicating to uncover potentially superior embeddings within the learned space; 4) transformation operation sequence reconstruction, striving to reproduce the feature transformation solution to pinpoint the optimal feature space.
翻訳日:2023-09-26 18:30:54 公開日:2023-09-24
# 階層的潜在能力を有する自律走行のためのオフライン強化学習の強化

Boosting Offline Reinforcement Learning for Autonomous Driving with Hierarchical Latent Skills ( http://arxiv.org/abs/2309.13614v1 )

ライセンス: Link先を確認
Zenan Li, Fan Nie, Qiao Sun, Fang Da, Hang Zhao(参考訳) 多様な運転シミュレータや大規模運転データセットが出現し、学習に基づく車両計画が注目を集めている。 オフライン強化学習(RL)はこれらの安全クリティカルなタスクに適しているが、それでも長期にわたる計画に苦慮している。 本研究では,長距離車両計画の課題を克服するために,オフラインRLを向上するスキルベースフレームワークを提案する。 具体的には、オフラインデモからスキルを学ぶための変分オートエンコーダ(VAE)を設計する。 共通のvaesの後方崩壊を緩和するために, 離散的なオプションと複雑な運転スキルの連続的な変動を捉えるために, 2分岐シーケンスエンコーダを導入する。 最終方針は、学習したスキルをアクションとして扱い、市販のオフラインRLアルゴリズムでトレーニングすることができる。 これにより、ステップ毎のアクションからテンポラリな拡張スキルへのフォーカスのシフトが容易になり、長期的な推論を未来に導くことができる。 CARLAの大規模な結果は、トレーニングと新しいシナリオの両方において、我々のモデルは一貫して強力なベースラインを上回ります。 さらなる可視化と実験は、抽出されたスキルの解釈可能性と伝達可能性を示している。

Learning-based vehicle planning is receiving increasing attention with the emergence of diverse driving simulators and large-scale driving datasets. While offline reinforcement learning (RL) is well suited for these safety-critical tasks, it still struggles to plan over extended periods. In this work, we present a skill-based framework that enhances offline RL to overcome the long-horizon vehicle planning challenge. Specifically, we design a variational autoencoder (VAE) to learn skills from offline demonstrations. To mitigate posterior collapse of common VAEs, we introduce a two-branch sequence encoder to capture both discrete options and continuous variations of the complex driving skills. The final policy treats learned skills as actions and can be trained by any off-the-shelf offline RL algorithms. This facilitates a shift in focus from per-step actions to temporally extended skills, thereby enabling long-term reasoning into the future. Extensive results on CARLA prove that our model consistently outperforms strong baselines at both training and new scenarios. Additional visualizations and experiments demonstrate the interpretability and transferability of extracted skills.
翻訳日:2023-09-26 18:30:36 公開日:2023-09-24
# VoiceLDM:環境に配慮したテキスト音声

VoiceLDM: Text-to-Speech with Environmental Context ( http://arxiv.org/abs/2309.13664v1 )

ライセンス: Link先を確認
Yeonghyeon Lee, Inmo Yeon, Juhan Nam, Joon Son Chung(参考訳) 本稿では,2つの異なる自然言語テキストプロンプト(記述プロンプトとコンテンツプロンプト)を正確に追従する音声生成モデルであるvoiceldmを提案する。 前者は音声の全体的な環境状況に関する情報を提供し、後者は言語内容を伝える。 これを実現するために,潜在拡散モデルに基づくtext-to-audio(tta)モデルを採用し,条件付き入力として追加コンテンツプロンプトを組み込む機能拡張を行った。 事前訓練されたコントラスト言語事前訓練(CLAP)とWhisperを利用することで、VoiceLDMは手動の注釈や書き起こしなしに大量の現実世界のオーディオで訓練される。 さらに、VoiceLDMの制御性を高めるために、二重分類器フリーガイダンスを用いる。 実験の結果、voiceldmは両方の入力条件に合致する有望な音声を生成することができ、audiocapsテストセットのグランド・トゥルート・オーディオの音声理解性を超えていることがわかった。 さらに、VoiceLDMのテキスト音声合成機能(TTS)とゼロショット音声合成機能について検討し、競合する結果が得られることを示す。 デモとコードはhttps://voiceldm.github.ioで入手できる。

This paper presents VoiceLDM, a model designed to produce audio that accurately follows two distinct natural language text prompts: the description prompt and the content prompt. The former provides information about the overall environmental context of the audio, while the latter conveys the linguistic content. To achieve this, we adopt a text-to-audio (TTA) model based on latent diffusion models and extend its functionality to incorporate an additional content prompt as a conditional input. By utilizing pretrained contrastive language-audio pretraining (CLAP) and Whisper, VoiceLDM is trained on large amounts of real-world audio without manual annotations or transcriptions. Additionally, we employ dual classifier-free guidance to further enhance the controllability of VoiceLDM. Experimental results demonstrate that VoiceLDM is capable of generating plausible audio that aligns well with both input conditions, even surpassing the speech intelligibility of the ground truth audio on the AudioCaps test set. Furthermore, we explore the text-to-speech (TTS) and zero-shot text-to-audio capabilities of VoiceLDM and show that it achieves competitive results. Demos and code are available at https://voiceldm.github.io.
翻訳日:2023-09-26 18:24:42 公開日:2023-09-24
# 数十億規模の取引における時空マネーロンダリングフローのトポロジー非依存検出

Topology-Agnostic Detection of Temporal Money Laundering Flows in Billion-Scale Transactions ( http://arxiv.org/abs/2309.13662v1 )

ライセンス: Link先を確認
Haseeb Tariq, Marwan Hassani(参考訳) マネーロンダラーは、不正な資金を複数の口座に意図的に配置することで、検知システムの弱点を悪用する。 そのお金は、muleのアカウント間で階層化され、移動され、取引の起源とフローを曖昧にします。 これにより、疑念を生じさせることなく、金融システムに統合される。 金銭の不審な流れを追跡するための経路探索アルゴリズムは、通常、規模と複雑さに悩まされる。 既存のコミュニティ検出技術は、時間に依存した関係を適切に捉えることができない。 これは、大規模なトランザクショングラフで分析を行う場合に特に顕著です。 我々は,逐次トランザクションの時間グラフを効率的に構築するために,ドメイン固有の制約に適応したフレームワーク(fastman)を提案する。 このフレームワークは、エッジの意義を定量化するために、第2次グラフ表現を用いた重み付け方法を含む。 この手法により,より小さく密に接続されたフローネットワーク上で複雑なクエリを分散することができる。 最後に、これらのクエリに基づいて、疑わしいフローのネットワークを効果的に識別する。 我々は,不審なトランザクションフローを検出するための2つの最先端ソリューションに対するスケーラビリティとフレームワークの有効性を広範囲に評価した。 欧州の複数の大手銀行からの10億トランザクションのデータセットでは、効率と有用性の両方において、我々のフレームワークが明らかに優れていることが示されています。

Money launderers exploit the weaknesses in detection systems by purposefully placing their ill-gotten money into multiple accounts, at different banks. That money is then layered and moved around among mule accounts to obscure the origin and the flow of transactions. Consequently, the money is integrated into the financial system without raising suspicion. Path finding algorithms that aim at tracking suspicious flows of money usually struggle with scale and complexity. Existing community detection techniques also fail to properly capture the time-dependent relationships. This is particularly evident when performing analytics over massive transaction graphs. We propose a framework (called FaSTMAN), adapted for domain-specific constraints, to efficiently construct a temporal graph of sequential transactions. The framework includes a weighting method, using 2nd order graph representation, to quantify the significance of the edges. This method enables us to distribute complex queries on smaller and densely connected networks of flows. Finally, based on those queries, we can effectively identify networks of suspicious flows. We extensively evaluate the scalability and the effectiveness of our framework against two state-of-the-art solutions for detecting suspicious flows of transactions. For a dataset of over 1 Billion transactions from multiple large European banks, the results show a clear superiority of our framework both in efficiency and usefulness.
翻訳日:2023-09-26 18:24:18 公開日:2023-09-24
# 高性能単一光子源用モノリシックファブリペロットマイクロキャビティにおける波長可変量子ドット

Tunable quantum dots in monolithic Fabry-Perot microcavities for high-performance single-photon sources ( http://arxiv.org/abs/2309.13661v1 )

ライセンス: Link先を確認
Jiawei Yang, Yan Chen, Zixuan Rao, Ziyang Zheng, Changkun Song, Yujie Chen, Kaili Xiong, Pingxing Chen, Chaofan Zhang, Wei Wu, Ying Yu, Siyuan Yu(参考訳) キャビティ強化単一量子ドット(QD)は、スケーラブルフォトニック量子技術のための超高性能固体量子光源への主要なアプローチである。 それでも、パーセル効果を利用するには、QDの放射とキャビティモードの正確なスペクトルと空間的アライメントが必要である。 そこで我々は,小型化したファブリペロ・マイクロキャビティと圧電アクチュエータを一体化して,このマイクロキャビティ内で決定的に結合されたQDから導出される明るい単一光子源を実証した。 空洞膜構造を活用し,ひずみチューニングにより大きなスペクトル可変性を得た。 共鳴では, 高いパーセル因子が約9。 光源は、0.58の高抽出効率、0.956(2)の高純度、0.922(4)の高識別性を持つ単一光子を提供する。 提案手法は,小さなフットプリントと合わせて,チップ上での識別不能な量子光源のスケーラブルな統合を容易にし,QDに基づく固体量子情報プラットフォームに対する大きな障壁を取り除く。

Cavity-enhanced single quantum dots (QDs) are the main approach towards ultra-high-performance solid-state quantum light sources for scalable photonic quantum technologies. Nevertheless, harnessing the Purcell effect requires precise spectral and spatial alignment of the QDs' emission with the cavity mode, which is challenging for most cavities. Here we have successfully integrated miniaturized Fabry-Perot microcavities with a piezoelectric actuator, and demonstrated a bright single photon source derived from a deterministically coupled QD within this microcavity. Leveraging the cavity-membrane structures, we have achieved large spectral-tunability via strain tuning. On resonance, we have obtained a high Purcell factor of approximately 9. The source delivers single photons with simultaneous high extraction efficiency of 0.58, high purity of 0.956(2) and high indistinguishability of 0.922(4). Together with a small footprint, our scheme facilitates the scalable integration of indistinguishable quantum light sources on-chip, and therefore removes a major barrier to the solid-state quantum information platforms based on QDs.
翻訳日:2023-09-26 18:23:59 公開日:2023-09-24
# 新しい量子ビジュアル・シークレット・シェアリング・スキーム

A Novel Quantum Visual Secret Sharing Scheme ( http://arxiv.org/abs/2309.13659v1 )

ライセンス: Link先を確認
Wenjie Liu, Yinsong Xu, Maojun Zhang, Junxiu Chen, and Ching-Nung Yang(参考訳) Naor et al. の Visual Secret Share (VSS) スキームにインスパイアされた n 個の量子ビジュアルシークレットシェアリング (QVSS) スキームが提案されている。 第1の工程では、従来の画素展開ではなく量子展開の戦略を用いて、元の秘密画像から各画素の色情報をnビット重ね合わせ状態に符号化し、これらのnビットをそれぞれn個の参加者に共有として分配する。 回復過程において、すべての参加者が協力して各画素のこれらのn共有を収集し、対応する測定を行い、n-qubit XOR演算を行い、秘密画像の各画素を復元する。 提案手法は,既存のアナログ量子スキームでは利用できない単一画素並列処理の利点を生かし,従来のVSSスキームでは回復画像が分解能を失うという問題を完璧に解決する。 さらに,ibm qを用いた実験実装を行い,実用性を示す。

Inspired by Naor et al.'s visual secret sharing (VSS) scheme, a novel n out of n quantum visual secret sharing (QVSS) scheme is proposed, which consists of two phases: sharing process and recovering process. In the first process, the color information of each pixel from the original secret image is encoded into an n-qubit superposition state by using the strategy of quantum expansion instead of classical pixel expansion, and then these n qubits are distributed as shares to n participants, respectively. During the recovering process, all participants cooperate to collect these n shares of each pixel together, then perform the corresponding measurement on them, and execute the n-qubit XOR operation to recover each pixel of the secret image. The proposed scheme has the advantage of single-pixel parallel processing that is not available in the existing analogous quantum schemes and perfectly solves the problem that in the classic VSS schemes the recovered image has the loss in resolution. Moreover, its experiment implementation with the IBM Q is conducted to demonstrate the practical feasibility.
翻訳日:2023-09-26 18:23:39 公開日:2023-09-24
# 先進的な一般化対策は見つからない

Fantastic Generalization Measures are Nowhere to be Found ( http://arxiv.org/abs/2309.13658v1 )

ライセンス: Link先を確認
Michael Gastpar, Ido Nachum, Jonathan Shafer, Thomas Weinberger(参考訳) ニューラルネットワークが過パラメータ設定で一般化する能力の潜在的な説明として、多くの一般化境界が文献に提案されている。 しかし、これらの境界はタイトではない。 例えば、jiang氏ら(2020年)は論文“fantastic generalization measures and where to find them'”の中で、1ダース以上の一般化境界を調査し、ニューラルネットワークの顕著な性能を説明するような保証はないことを実証的に示している。 これは、密接な一般化境界が可能かどうかという疑問を提起する。 本論文では,(1)学習セットに依存する境界と学習アルゴリズムの出力という2種類の一般化境界について考察する。 このタイプの文献には複数の境界(ノルムベースやマージンベースなど)があるが、数学的には、過度なパラメータ設定ではそのような境界が一様に厳密でないことを証明している; (2) トレーニングセットと学習アルゴリズムに依存する境界(安定性境界など)。 これらの境界に対して,アルゴリズムの性能と境界の厳密さとのトレードオフを示す。 すなわち、もしアルゴリズムが過パラメータ設定の特定の分布において良好な精度を達成すれば、一般化のバウンドはない。 オーバーパラメータ化設定における一般化境界は、人口分布に関する適切な仮定なしではきつくできないと結論づける。

Numerous generalization bounds have been proposed in the literature as potential explanations for the ability of neural networks to generalize in the overparameterized setting. However, none of these bounds are tight. For instance, in their paper ``Fantastic Generalization Measures and Where to Find Them'', Jiang et al. (2020) examine more than a dozen generalization bounds, and show empirically that none of them imply guarantees that can explain the remarkable performance of neural networks. This raises the question of whether tight generalization bounds are at all possible. We consider two types of generalization bounds common in the literature: (1) bounds that depend on the training set and the output of the learning algorithm. There are multiple bounds of this type in the literature (e.g., norm-based and margin-based bounds), but we prove mathematically that no such bound can be uniformly tight in the overparameterized setting; (2) bounds that depend on the training set and on the learning algorithm (e.g., stability bounds). For these bounds, we show a trade-off between the algorithm's performance and the bound's tightness. Namely, if the algorithm achieves good accuracy on certain distributions in the overparameterized setting, then no generalization bound can be tight for it. We conclude that generalization bounds in the overparameterized setting cannot be tight without suitable assumptions on the population distribution.
翻訳日:2023-09-26 18:23:19 公開日:2023-09-24
# 特徴領域におけるデータ冗長性の確率論的モデル

A Probabilistic Model for Data Redundancy in the Feature Domain ( http://arxiv.org/abs/2309.13657v1 )

ライセンス: Link先を確認
Ghurumuruhan Ganesan(参考訳) 本稿では,確率モデルを用いて,大規模データセット内の非相関特徴の数を推定する。 本モデルでは,複数特徴の相互依存性(多重線形性)とペアワイズ特徴相関性(多重線形性)を両立可能とし,同じ順序の上下境界を求める確率的手法を用いて,コリニア性が低くマルチコリニア性が低い特徴集合のサイズを求める。 また、独立利害関係にある相互に良質な制約付き集合に関する補助的な結果も証明する。

In this paper, we use a probabilistic model to estimate the number of uncorrelated features in a large dataset. Our model allows for both pairwise feature correlation (collinearity) and interdependency of multiple features (multicollinearity) and we use the probabilistic method to obtain upper and lower bounds of the same order, for the size of a feature set that exhibits low collinearity and low multicollinearity. We also prove an auxiliary result regarding mutually good constrained sets that is of independent interest.
翻訳日:2023-09-26 18:22:55 公開日:2023-09-24
# カメラキャプチャ画像における超高分解能SOTAのアート復元への適応

Adaptation of the super resolution SOTA for Art Restoration in camera capture images ( http://arxiv.org/abs/2309.13655v1 )

ライセンス: Link先を確認
Sandeep Nagar(参考訳) 文化遺産の保存が重要視されている。 美術修復の分野では、劣化した美術品のイメージを効果的に復元できるコンピュータビジョンモデルの開発は困難だったが、現在では優れたコンピュータビジョンが実現されている。 伝統的な修復法はしばしば時間がかかり、幅広い専門知識を必要とする。 この研究の目的は、劣化したアートワークの強化と再構築が可能なコンピュータビジョンモデルに基づく自動ソリューションの設計と、元の特性とアーティファクトを維持しながら、視覚品質の向上である。 このモデルは、ノイズ、ボケ、スクラッチ、フェーディング、その他の一般的なタイプの劣化など、さまざまな種類の劣化タイプを扱わなければならない。 我々は、拡散モデル(DM)に基づく画像超解像の現況に適応し、画像復元のための微調整を行う。 我々の結果は、さまざまな種類の分解のために複数のモデルを微調整する代わりに、1つの超解像を微調整する代わりに、複数のデータセットをトレーニングして堅牢にすることを示した。 コードリンク: https://github.com/naagar/art_restoration_dm

Preserving cultural heritage is of paramount importance. In the domain of art restoration, developing a computer vision model capable of effectively restoring deteriorated images of art pieces was difficult, but now we have a good computer vision state-of-art. Traditional restoration methods are often time-consuming and require extensive expertise. The aim of this work is to design an automated solution based on computer vision models that can enhance and reconstruct degraded artworks, improving their visual quality while preserving their original characteristics and artifacts. The model should handle a diverse range of deterioration types, including but not limited to noise, blur, scratches, fading, and other common forms of degradation. We adapt the current state-of-art for the image super-resolution based on the Diffusion Model (DM) and fine-tune it for Image art restoration. Our results show that instead of fine-tunning multiple different models for different kinds of degradation, fine-tuning one super-resolution, We train it on multiple datasets to make it robust. code link: https://github.com/Naagar/art_restoration_DM
翻訳日:2023-09-26 18:22:44 公開日:2023-09-24
# ILNet:高次赤外小ターゲット検出のための低レベル事項

ILNet: Low-level Matters for Salient Infrared Small Target Detection ( http://arxiv.org/abs/2309.13646v1 )

ライセンス: Link先を確認
Haoqing Li, Jinfu Yang, Runshi Wang, Yifei Xu(参考訳) 赤外線小目標検出は、赤外クラッタ背景から小目標を検出する技術である。 高レベルの意味情報の不足のため、cnnの深い層では小さな赤外線ターゲットの特徴が弱められ、cnnの表現能力が低下する。 そこで本稿では,この問題を解決するために,赤外線小目標を意味情報に乏しいサルエント領域と見なす赤外線低レベルネットワーク (ilnet) を提案する。 他の sota メソッドとは異なり、ilnet は低レベルの情報に対して等しく扱うのではなく、より注意を払っている。 新しい軽量機能融合モジュールであるInteractive Polarized Orthogonal Fusion Module (IPOF)が提案されている。 IPOFには動的一次元アグリゲーション層(DODA)が挿入され、入力チャネル数に応じて低次元情報のアグリゲーションを動的に調整する。 さらに、アンサンブル学習という概念は、浅い層と深い層の重みを動的に割り当てる代表ブロック(RB)を設計するために用いられる。 挑戦的な NUAA-SIRST (78.22% nIoU と 1.33e-6 Fa) と IRSTD-1K (68.91% nIoU と 3.23e-6 Fa) データセットの実験結果は、提案された ILNet が他の SOTA 法よりも優れた性能が得られることを示した。 さらに、ilnetは、データボリュームの増加により、さらに改善することができる。 トレーニングコードはhttps://github.com/li-haoqing/ilnet。

Infrared small target detection is a technique for finding small targets from infrared clutter background. Due to the dearth of high-level semantic information, small infrared target features are weakened in the deep layers of the CNN, which underachieves the CNN's representation ability. To address the above problem, in this paper, we propose an infrared low-level network (ILNet) that considers infrared small targets as salient areas with little semantic information. Unlike other SOTA methods, ILNet pays greater attention to low-level information instead of treating them equally. A new lightweight feature fusion module, named Interactive Polarized Orthogonal Fusion module (IPOF), is proposed, which integrates more important low-level features from the shallow layers into the deep layers. A Dynamic One-Dimensional Aggregation layers (DODA) are inserted into the IPOF, to dynamically adjust the aggregation of low dimensional information according to the number of input channels. In addition, the idea of ensemble learning is used to design a Representative Block (RB) to dynamically allocate weights for shallow and deep layers. Experimental results on the challenging NUAA-SIRST (78.22% nIoU and 1.33e-6 Fa) and IRSTD-1K (68.91% nIoU and 3.23e-6 Fa) dataset demonstrate that the proposed ILNet can get better performances than other SOTA methods. Moreover, ILNet can obtain a greater improvement with the increasement of data volume. Training code are available at https://github.com/Li-Haoqing/ILNet.
翻訳日:2023-09-26 18:22:25 公開日:2023-09-24
# REWAFL:モバイルデバイス上での効果的なフェデレーション学習のための残エネルギー・無線対応参加者選択

REWAFL: Residual Energy and Wireless Aware Participant Selection for Efficient Federated Learning over Mobile Devices ( http://arxiv.org/abs/2309.13643v1 )

ライセンス: Link先を確認
Y. Li, X. Qin, J. Geng, R. Chen, Y. Hou, Y. Gong, M. Pan, P. Zhang(参考訳) 参加者選択(Participant selection,PS)は,モバイルデバイス上でのFLの実践的展開に不可欠な,連邦学習(FL)収束の促進を支援する。 既存のPSアプローチのほとんどは、モバイルデバイスの残エネルギーではなく、トレーニングの精度と効率の改善に重点を置いている。 一方、PSとFLのトレーニング効率に対するモバイルデバイスの不均一な無線伝送速度の影響は無視されている。 さらに、psは停滞の原因となる。 以前の研究では、孤立した機能を利用して、長いネグレクトされたデバイスが参加するよう強制しており、それはオリジナルのpsデザインから切り離されている。 本稿では,モバイル端末(REWAFL)上での効率的なFLトレーニングのための残エネルギー・無線対応PS設計を提案する。 REW AFLは、グローバルFLトレーニングユーティリティとローカルエネルギユーティリティを共同で検討する新しいPSユーティリティ機能を導入し、候補モバイルデバイスのエネルギー消費と残バッテリエネルギーを統合する。 提案したPSユーティリティ機能フレームワークの下で、REW AFLは残エネルギーと無線対応ローカルコンピューティングポリシーをさらに提示する。 さらに、REWAFLは、そのユーティリティ機能とローカルコンピューティングポリシーに安定化ソリューションを埋め込んでいる。 実験の結果,rew aflはモバイルデバイスのフラットバッテリを回避しつつ,トレーニング精度と効率の向上に有効であることがわかった。

Participant selection (PS) helps to accelerate federated learning (FL) convergence, which is essential for the practical deployment of FL over mobile devices. While most existing PS approaches focus on improving training accuracy and efficiency rather than residual energy of mobile devices, which fundamentally determines whether the selected devices can participate. Meanwhile, the impacts of mobile devices' heterogeneous wireless transmission rates on PS and FL training efficiency are largely ignored. Moreover, PS causes the staleness issue. Prior research exploits isolated functions to force long-neglected devices to participate, which is decoupled from original PS designs. In this paper, we propose a residual energy and wireless aware PS design for efficient FL training over mobile devices (REWAFL). REW AFL introduces a novel PS utility function that jointly considers global FL training utilities and local energy utility, which integrates energy consumption and residual battery energy of candidate mobile devices. Under the proposed PS utility function framework, REW AFL further presents a residual energy and wireless aware local computing policy. Besides, REWAFL buries the staleness solution into its utility function and local computing policy. The experimental results show that REW AFL is effective in improving training accuracy and efficiency, while avoiding "flat battery" of mobile devices.
翻訳日:2023-09-26 18:21:56 公開日:2023-09-24
# 自己回帰のエンバー: 解決するために訓練された問題を通して大きな言語モデルを理解する

Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve ( http://arxiv.org/abs/2309.13638v1 )

ライセンス: Link先を確認
R. Thomas McCoy, Shunyu Yao, Dan Friedman, Matthew Hardy, Thomas L. Griffiths(参考訳) 大規模言語モデル(llm)の普及は、その強みと限界を認識することが重要である。 これらのシステムを総合的に理解するためには、インターネットテキスト上の次の単語予測という、彼らが解決するために訓練された問題を考える必要がある。 このタスクがもたらすプレッシャーを認識することで、LSMが採用する戦略について予測することが可能になります。 テレロジカルアプローチと呼ばれるこのアプローチでは,実行すべきタスクの確率,目標出力の確率,提供された入力の確率という,llmの正確性に影響を与える3つの要因を特定します。 確率が重要でない決定論的設定であっても、これらの確率が低い場合よりも高い精度が得られると予測する。 予測実験では,11タスクで2つのLLM(GPT-3.5とGPT-4)を評価し,その確率が仮定された方法でのLLMの影響を強く示す。 多くの場合、実験は驚くべき失敗モードを明らかにします。 例えば、単純な暗号を復号するGPT-4の精度は、出力が高確率のワードシーケンスである場合に51%、低確率では13%である。 これらの結果から,低確率環境でのLSMの使用には,AI実践者が注意すべきであることが示唆された。 より広義には、私たちはLSMをまるで人間であるかのように評価するべきではない、代わりに異なるタイプのシステムとして扱うべきだ、と結論付けています。

The widespread adoption of large language models (LLMs) makes it important to recognize their strengths and limitations. We argue that in order to develop a holistic understanding of these systems we need to consider the problem that they were trained to solve: next-word prediction over Internet text. By recognizing the pressures that this task exerts we can make predictions about the strategies that LLMs will adopt, allowing us to reason about when they will succeed or fail. This approach - which we call the teleological approach - leads us to identify three factors that we hypothesize will influence LLM accuracy: the probability of the task to be performed, the probability of the target output, and the probability of the provided input. We predict that LLMs will achieve higher accuracy when these probabilities are high than when they are low - even in deterministic settings where probability should not matter. To test our predictions, we evaluate two LLMs (GPT-3.5 and GPT-4) on eleven tasks, and we find robust evidence that LLMs are influenced by probability in the ways that we have hypothesized. In many cases, the experiments reveal surprising failure modes. For instance, GPT-4's accuracy at decoding a simple cipher is 51% when the output is a high-probability word sequence but only 13% when it is low-probability. These results show that AI practitioners should be careful about using LLMs in low-probability situations. More broadly, we conclude that we should not evaluate LLMs as if they are humans but should instead treat them as a distinct type of system - one that has been shaped by its own particular set of pressures.
翻訳日:2023-09-26 18:21:35 公開日:2023-09-24
# 正規化と最適マルチクラス学習

Regularization and Optimal Multiclass Learning ( http://arxiv.org/abs/2309.13692v1 )

ライセンス: Link先を確認
Julian Asilis, Siddartha Devic, Shaddin Dughmi, Vatsal Sharan, Shang-Hua Teng(参考訳) 経験的リスク最小化(ERM)の学習アルゴリズムは、一様収束が学習を特徴付けない様々な設定で失敗することが知られている。 したがって、機械学習の実践が、モデルキャパシティの制御を成功させるために、かなりリッチなアルゴリズム技術で波及していることは驚くにあたらない。 それでも、このようなテクニックや原則は、これらのより一般的な設定で最適な学習を特徴付けるために、パックから切り離されたものはない。 この研究の目的は、ermが失敗する最も単純な設定である任意のラベルセットによるマルチクラス学習において、正規化の役割を特徴づけることである。 構造的リスク最小化(srm)、最大エントロピーの原理、ベイズ的推論によって具現化されるoccamのカミソリ(razor)というアルゴリズムを試す。 特に,2次元の構造的リスク最小化を緩和する最適学習器を導入する。これは,正規化関数をデータポイントに「局所的」にすることを可能にし,教師なし学習段階を用いて,この正規化関数を最初から学習する。 いずれの次元も削除しても、ほぼ最適に近い学習者を生み出すことはできない。 また、OIGからホール複雑性と呼ばれる組合せ列を抽出し、問題の帰納的誤り率を正確に特徴づける最初の方法である。 最後に、oigの一般化とトランスダクティブ学習設定を不可知のケースに導入し、ハミンググラフの最適方向 -- ノードの外部度を用いて判断された -- ノード依存のクレジットのシステム -- が最適な学習者を正確に特徴付けることを示す。 ホール複雑性の非依存バージョンは誤り率を正確に特徴付けし、最大エントロピープログラムを用いて最適な学習者を示す。

The quintessential learning algorithm of empirical risk minimization (ERM) is known to fail in various settings for which uniform convergence does not characterize learning. It is therefore unsurprising that the practice of machine learning is rife with considerably richer algorithmic techniques for successfully controlling model capacity. Nevertheless, no such technique or principle has broken away from the pack to characterize optimal learning in these more general settings. The purpose of this work is to characterize the role of regularization in perhaps the simplest setting for which ERM fails: multiclass learning with arbitrary label sets. Using one-inclusion graphs (OIGs), we exhibit optimal learning algorithms that dovetail with tried-and-true algorithmic principles: Occam's Razor as embodied by structural risk minimization (SRM), the principle of maximum entropy, and Bayesian reasoning. Most notably, we introduce an optimal learner which relaxes structural risk minimization on two dimensions: it allows the regularization function to be "local" to datapoints, and uses an unsupervised learning stage to learn this regularizer at the outset. We justify these relaxations by showing that they are necessary: removing either dimension fails to yield a near-optimal learner. We also extract from OIGs a combinatorial sequence we term the Hall complexity, which is the first to characterize a problem's transductive error rate exactly. Lastly, we introduce a generalization of OIGs and the transductive learning setting to the agnostic case, where we show that optimal orientations of Hamming graphs -- judged using nodes' outdegrees minus a system of node-dependent credits -- characterize optimal learners exactly. We demonstrate that an agnostic version of the Hall complexity again characterizes error rates exactly, and exhibit an optimal learner using maximum entropy programs.
翻訳日:2023-09-26 18:14:21 公開日:2023-09-24
# 量子チャネルによる情報とエネルギーの同時伝送について

On Simultaneous Information and Energy Transmission through Quantum Channels ( http://arxiv.org/abs/2309.13691v1 )

ライセンス: Link先を確認
Bishal Kumar Das, Lav R. Varshney, Vaibhav Madhok(参考訳) 送信信号が最小限のエネルギーを同時に持たなければならない場合に、量子チャネルを介して情報を送信できる最適なレートを特徴付ける。 そこで我々は,キャパシティ・パワー関数の量子古典的アナログを導入し,古典情報理論におけるノイズチャネルを通じて古典情報を伝達する結果を一般化する。 量子チャネルのキャパシティ・パワー関数は、非アシストプロトコルとプライベートプロトコルの両方で共役であり、入力信号のアンサンブルと無相関なアンサンブルの加算性も証明している。 これは、計算に正規化公式は必要ないことを意味する。 いくつかの標準チャネルモデルに対して,これらの特性を数値的に示す。 本研究では、ランダム量子状態の性質と大きなヒルベルト空間における集中現象を用いて、無ノイズチャネルの場合の容量-パワー関数の解析式を得る。

The optimal rate at which information can be sent through a quantum channel when the transmitted signal must simultaneously carry some minimum amount of energy is characterized. To do so, we introduce the quantum-classical analogue of the capacity-power function and generalize results in classical information theory for transmitting classical information through noisy channels. We show that the capacity-power function for a quantum channel, for both unassisted and private protocol, is concave and also prove additivity for unentangled and uncorrelated ensembles of input signals. This implies we do not need regularized formulas for calculation. We numerically demonstrate these properties for some standard channel models. We obtain analytical expressions for the capacity-power function for the case of noiseless channels using properties of random quantum states and concentration phenomenon in large Hilbert spaces.
翻訳日:2023-09-26 18:13:48 公開日:2023-09-24
# 球面座標における自由ディラックプロパゲータに対する経路積分形式

Path integral formalism for the free Dirac propagator in spherical coordinates ( http://arxiv.org/abs/2309.13688v1 )

ライセンス: Link先を確認
Sreya Banerjee and Zolt\'an Harman(参考訳) 自由スピン1/2フェルミオンの相対論的グリーン関数は、球面座標におけるファインマン経路積分形式を用いて導かれる。 グリーン関数は、適切な座標変換により、正確に解ける経路積分に還元される。 この結果は球面ベッセル関数と球面スピノルの観点で与えられ、この問題の以前の解と一致する。

The relativistic Green's function of a free spin-1/2 fermion is derived using the Feynman path integral formalism in spherical coordinates. The Green's function is reduced to an exactly solvable path integral by an appropriate coordinate transformation. The result is given in terms of spherical Bessel functions and spherical spinors, and agrees with previous solutions of the problem.
翻訳日:2023-09-26 18:13:34 公開日:2023-09-24
# 完全ブラインド量子計算に基づくクラウドデータの量子検索可能暗号化

Quantum Searchable Encryption for Cloud Data Based on Full-Blind Quantum Computation ( http://arxiv.org/abs/2309.13685v1 )

ライセンス: Link先を確認
Wenjie Liu, Yinsong Xu, Wen Liu, Haibin Wang, and Zhibin Lei(参考訳) 検索可能な暗号化(SE)は、クラウド・コンピューティング・セッティングにおいてユーザーの機密データを保護し、サーバ側で検索能力を保ちながら、平文データに関する情報を漏らさずに暗号化されたデータを検索することができる。 本稿では、マルチクライアント・ユニバーサル回路ベースフルブリンド量子計算(fbqc)モデルを提案する。 暗号化されたクラウドデータのマルチクライアントアクセスや計算の要件を満たすために、量子能力に制限のあるすべてのクライアントは、鍵生成を信頼できるキーセンターにアウトソースし、暗号化されたデータをデータセンタにアップロードする。 物理実装の実現性を考えると、回路内の全ての量子ゲートは、Rz({\pi}/4), Ry({\pi}/4), CRz({\pi}/4), CRy({\pi}/4), CCRz({\pi}/4), CCRy({\pi}/4), CCRy({\pi}/4)} の組み合わせに置き換えられる。 さらに、データセンターは1回に1つの {\pi}/8回転演算子しか実行できないが、回路の構造(すなわち量子計算)を知らないため、計算の盲点を保証することができる。 そして,このマルチクライアントFBQCモデルとGrover検索アルゴリズムを組み合わせることで,クラウドデータに対する量子検索可能な暗号化方式を提案する。 クラウド環境における検索可能な暗号化下でのマルチクライアントアクセスモードの問題を解決し、いくつかの量子攻撃に抵抗する能力を持つ。 提案手法をよりよく示すために,暗号化された2量子ビット状態の検索手法の例を示す。 さらに,本手法のセキュリティは,外部攻撃と内部攻撃の2つの側面から分析され,その結果から,このような攻撃に抵抗でき,データや計算の盲目性も保証できることが示唆された。

Searchable encryption (SE) is a positive way to protect users sensitive data in cloud computing setting, while preserving search ability on the server side, i.e., it allows the server to search encrypted data without leaking information about the plaintext data. In this paper, a multi-client universal circuit-based full-blind quantum computation (FBQC) model is proposed. In order to meet the requirements of multi-client accessing or computing encrypted cloud data, all clients with limited quantum ability outsource the key generation to a trusted key center and upload their encrypted data to the data center. Considering the feasibility of physical implementation, all quantum gates in the circuit are replaced with the combination of {\pi}/8 rotation operator set {Rz({\pi}/4), Ry({\pi}/4), CRz({\pi}/4), CRy({\pi}/4), CCRz({\pi}/4), CCRy({\pi}/4)}. In addition, the data center is only allowed to perform one {\pi}/8 rotation operator each time, but does not know the structure of the circuit (i.e., quantum computation), so it can guarantee the blindness of computation. Then, through combining this multi-client FBQC model and Grover searching algorithm, we continue to propose a quantum searchable encryption scheme for cloud data. It solves the problem of multi-client access mode under searchable encryption in the cloud environment, and has the ability to resist against some quantum attacks. To better demonstrate our scheme, an example of our scheme to search on encrypted 2-qubit state is given in detail. Furthermore, the security of our scheme is analysed from two aspects: external attacks and internal attacks, and the result indicates that it can resist against such kinds of attacks and also guarantee the blindness of data and computation.
翻訳日:2023-09-26 18:13:27 公開日:2023-09-24
# Causal-DFQ:Causality Guided Data-free Network Quantization

Causal-DFQ: Causality Guided Data-free Network Quantization ( http://arxiv.org/abs/2309.13682v1 )

ライセンス: Link先を確認
Yuzhang Shang, Bingxin Xu, Gaowen Liu, Ramana Kompella, Yan Yan(参考訳) 深層ニューラルネットワークの圧縮と推論速度の高速化を目的としたモデル量子化は,モバイルおよびエッジデバイス上での煩雑なモデルの開発を大いに促進している。 トレーニングデータが利用可能であるという先行研究から、量子化メソッドには共通の仮定がある。 しかし、実際には、プライバシとセキュリティの理由から、この仮定は必ずしも満たされないため、現実の状況では適用できない。 このように、データフリーネットワーク量子化は、最近、ニューラルネットワーク圧縮に大きな注目を集めている。 因果推論は、データ駆動相関を排除するために因果関係をモデル化する直感的な方法を提供する。 しかし、データフリー量子化の因果的定式化は文献では不十分である。 このギャップを埋めるために、事前学習されたモデルと量子化されたモデルの間のデータ生成と差分低減をモデル化する因果グラフを構築する。 因果理解に触発され,因果関係を主体とする干渉分布の平衡に近づくことにより,データへの依存をなくすために,因果関係誘導型データフリーネットワーク量子化手法であるcausal-dfqを提案する。 具体的には、関連要因と無関係要因に条件付き画像を合成するコンテンツスタイルのデカップリングジェネレータを設計し、事前学習および量子化モデルの干渉分布を整合させる離散化損失を提案する。 我々の研究は、データフリー量子化問題に因果性を導入しようとする最初の試みである。 大規模な実験はCausal-DFQの有効性を示す。 コードはhttps://github.com/42shawn/causal-dfqで入手できる。

Model quantization, which aims to compress deep neural networks and accelerate inference speed, has greatly facilitated the development of cumbersome models on mobile and edge devices. There is a common assumption in quantization methods from prior works that training data is available. In practice, however, this assumption cannot always be fulfilled due to reasons of privacy and security, rendering these methods inapplicable in real-life situations. Thus, data-free network quantization has recently received significant attention in neural network compression. Causal reasoning provides an intuitive way to model causal relationships to eliminate data-driven correlations, making causality an essential component of analyzing data-free problems. However, causal formulations of data-free quantization are inadequate in the literature. To bridge this gap, we construct a causal graph to model the data generation and discrepancy reduction between the pre-trained and quantized models. Inspired by the causal understanding, we propose the Causality-guided Data-free Network Quantization method, Causal-DFQ, to eliminate the reliance on data via approaching an equilibrium of causality-driven intervened distributions. Specifically, we design a content-style-decoupled generator, synthesizing images conditioned on the relevant and irrelevant factors; then we propose a discrepancy reduction loss to align the intervened distributions of the pre-trained and quantized models. It is worth noting that our work is the first attempt towards introducing causality to data-free quantization problem. Extensive experiments demonstrate the efficacy of Causal-DFQ. The code is available at https://github.com/42Shawn/Causal-DFQ.
翻訳日:2023-09-26 18:12:51 公開日:2023-09-24
# グラディエント信号と雑音比(GSNR)による大規模バッチ訓練の高速化

Accelerating Large Batch Training via Gradient Signal to Noise Ratio (GSNR) ( http://arxiv.org/abs/2309.13681v1 )

ライセンス: Link先を確認
Guo-qing Jiang, Jinlong Liu, Zixiang Ding, Lin Guo, Wei Lin(参考訳) 自然言語処理(nlp)、コンピュータビジョン(cv)、レコメンデーションシステム(rs)のモデルでは、大量のgpu/tpusが大きなバッチ(lb)として並列化され、トレーニングスループットが向上している。 しかしながら、そのようなlbタスクのトレーニングは、しばしば大きな一般化ギャップを満たし、最終精度を低下させる。 本研究では,SGD/Adam/LARS/LAMBなどの一般的な最適化器に適用し,勾配信号と雑音比(GSNR)に基づく分散低減勾配降下法(VRGD)を開発した。 我々は,その高速トレーニング力学を説明するために収束速度の理論解析を行い,LBトレーニングにおける一般化ギャップを小さくする一般化解析を行った。 包括的な実験により、vrgdはトレーニングを加速できる($1\sim 2 \times$)。 我々は,BERTのバッチサイズ制限を128k/64k,DLRMを512kまで引き上げる。 ImageNet Top-1 の精度は LARS よりも 0.52pp$ 向上した。 BERT と ImageNet のトレーニングの一般化のギャップは 65 % 以上削減されている。

As models for nature language processing (NLP), computer vision (CV) and recommendation systems (RS) require surging computation, a large number of GPUs/TPUs are paralleled as a large batch (LB) to improve training throughput. However, training such LB tasks often meets large generalization gap and downgrades final precision, which limits enlarging the batch size. In this work, we develop the variance reduced gradient descent technique (VRGD) based on the gradient signal to noise ratio (GSNR) and apply it onto popular optimizers such as SGD/Adam/LARS/LAMB. We carry out a theoretical analysis of convergence rate to explain its fast training dynamics, and a generalization analysis to demonstrate its smaller generalization gap on LB training. Comprehensive experiments demonstrate that VRGD can accelerate training ($1\sim 2 \times$), narrow generalization gap and improve final accuracy. We push the batch size limit of BERT pretraining up to 128k/64k and DLRM to 512k without noticeable accuracy loss. We improve ImageNet Top-1 accuracy at 96k by $0.52pp$ than LARS. The generalization gap of BERT and ImageNet training is significantly reduce by over $65\%$.
翻訳日:2023-09-26 18:12:24 公開日:2023-09-24
# BdSpell: Bangla手話のためのYOLOベースのリアルタイムフィンガースペルシステム

BdSpell: A YOLO-based Real-time Finger Spelling System for Bangla Sign Language ( http://arxiv.org/abs/2309.13676v1 )

ライセンス: Link先を確認
Naimul Haque, Meraj Serker and Tariq Bin Bashar(参考訳) バングラ手話(BdSL)の解釈では、先行のアプローチはユーザに対してしばしば重荷を課し、隠れ文字なしで単語を綴り、その後BdSL36データセットの欠落クラスのためにバングラ文法規則を用いて修正された。 しかし、この手法は単語の誤綴を正確に推測する上で難題となった。 この制限に対処するため、YOLOv5アーキテクチャに基づく新しいリアルタイム指スペルシステムを提案する。 本システムでは、特定のルールと数値クラスをトリガーとして使用し、隠蔽文字と複合文字を効率的に生成し、追加クラスの必要性を排除し、ユーザ利便性を大幅に向上させる。 特に, 文字の綴り精度は98\%で, 印象的な1.32秒で達成した。 さらに、9147の画像に基づいてトレーニングしたYOLOv5モデルでは、平均精度が96.4\%の例外平均mAPが示される。 これらの進歩は、BdSLの解釈を増大させ、言語マイノリティの傾向とアクセシビリティを高めることを約束している。 この革新的な枠組みは、既存のyoloバージョンとの互換性を特徴とし、バングラ手話コミュニティにおけるコミュニケーションモダリティと言語的公平性を高めるための変革的なマイルストーンである。

In the domain of Bangla Sign Language (BdSL) interpretation, prior approaches often imposed a burden on users, requiring them to spell words without hidden characters, which were subsequently corrected using Bangla grammar rules due to the missing classes in BdSL36 dataset. However, this method posed a challenge in accurately guessing the incorrect spelling of words. To address this limitation, we propose a novel real-time finger spelling system based on the YOLOv5 architecture. Our system employs specified rules and numerical classes as triggers to efficiently generate hidden and compound characters, eliminating the necessity for additional classes and significantly enhancing user convenience. Notably, our approach achieves character spelling in an impressive 1.32 seconds with a remarkable accuracy rate of 98\%. Furthermore, our YOLOv5 model, trained on 9147 images, demonstrates an exceptional mean Average Precision (mAP) of 96.4\%. These advancements represent a substantial progression in augmenting BdSL interpretation, promising increased inclusivity and accessibility for the linguistic minority. This innovative framework, characterized by compatibility with existing YOLO versions, stands as a transformative milestone in enhancing communication modalities and linguistic equity within the Bangla Sign Language community.
翻訳日:2023-09-26 18:12:00 公開日:2023-09-24
# 画像間翻訳のための深層強化学習

Deep Reinforcement Learning for Image-to-Image Translation ( http://arxiv.org/abs/2309.13672v1 )

ライセンス: Link先を確認
Xin Wang, Ziwei Luo, Jing Hu, Chengming Feng, Shu Hu, Bin Zhu, Xi Wu, Siwei Lyu(参考訳) 既存の画像変換(I2IT)手法のほとんどは、ディープラーニング(DL)モデルの単一実行時に画像を生成する。 しかし、そのような単一ステップモデルの設計は常に困難であり、大量のパラメータが必要であり、すぐに悪いグローバルな最小値に陥り、過度に適合する。 本稿では,深部強化学習(DRL)による段階的意思決定問題としてI2ITを再構成し,RLに基づくI2IT(RL-I2IT)を実現する新しいフレームワークを提案する。 RL-I2ITフレームワークの主な特徴は、モノリシックな学習プロセスを軽量なモデルで小さなステップに分解し、ターゲット画像に徐々にソースイメージを変換することである。 従来のrlフレームワークでは,高次元連続状態や動作空間を扱うことが困難であると考えると,従来の画像よりも低次元で,俳優が扱いやすい高次元アクションを生成することができる標準アクター・クリティックモデルに対して,新たな概念プランによるメタポリシーを導入する。 RL-I2ITフレームワークでは、トレーニングプロセスを安定させ、対応するタスクの性能を向上させるために、タスク固有の補助学習戦略も採用している。 複数のi2itタスクにおける実験により,高次元連続動作空間問題に対する提案手法の有効性とロバスト性が示された。

Most existing Image-to-Image Translation (I2IT) methods generate images in a single run of a deep learning (DL) model. However, designing such a single-step model is always challenging, requiring a huge number of parameters and easily falling into bad global minimums and overfitting. In this work, we reformulate I2IT as a step-wise decision-making problem via deep reinforcement learning (DRL) and propose a novel framework that performs RL-based I2IT (RL-I2IT). The key feature in the RL-I2IT framework is to decompose a monolithic learning process into small steps with a lightweight model to progressively transform a source image successively to a target image. Considering that it is challenging to handle high dimensional continuous state and action spaces in the conventional RL framework, we introduce meta policy with a new concept Plan to the standard Actor-Critic model, which is of a lower dimension than the original image and can facilitate the actor to generate a tractable high dimensional action. In the RL-I2IT framework, we also employ a task-specific auxiliary learning strategy to stabilize the training process and improve the performance of the corresponding task. Experiments on several I2IT tasks demonstrate the effectiveness and robustness of the proposed method when facing high-dimensional continuous action space problems.
翻訳日:2023-09-26 18:11:37 公開日:2023-09-24
# oneseg: 自己学習とワンショット学習に基づく医用画像セグメンテーションのためのシングルスライスアノテーション

OneSeg: Self-learning and One-shot Learning based Single-slice Annotation for 3D Medical Image Segmentation ( http://arxiv.org/abs/2309.13671v1 )

ライセンス: Link先を確認
Yixuan Wu, Bo Zheng, Jintai Chen, Danny Z. Chen, Jian Wu(参考訳) 深層学習手法が医用画像のセグメンテーション性能を向上させるにつれて,特に3d画像では,医療専門家の負担と時間のかかる負担により,データアノテーションは依然として大きなボトルネックとなっている。 競合セグメンテーションの精度を確保しつつアノテーションの労力を大幅に削減するために,各3次元画像の1つのスライスに注釈を付けることで,3次元画像セグメンテーションのための自己学習とワンショット学習に基づくフレームワークを提案する。 提案手法は,(1)3次元画像中の2次元スライス間の意味的対応を学習するための再構成ネットワークの自己学習,(2)1ショット手動アノテーションのための1つのスライスの選択,および,よく訓練された再構成ネットワークによる注釈付きデータの伝播である。 広範な実験によって、我々の新しいフレームワークは、完全な教師付きメソッドと比較して、1%未満の注釈付きデータで同等のパフォーマンスを達成し、いくつかの分散テストセットでうまく一般化できることを確認しました。

As deep learning methods continue to improve medical image segmentation performance, data annotation is still a big bottleneck due to the labor-intensive and time-consuming burden on medical experts, especially for 3D images. To significantly reduce annotation efforts while attaining competitive segmentation accuracy, we propose a self-learning and one-shot learning based framework for 3D medical image segmentation by annotating only one slice of each 3D image. Our approach takes two steps: (1) self-learning of a reconstruction network to learn semantic correspondence among 2D slices within 3D images, and (2) representative selection of single slices for one-shot manual annotation and propagating the annotated data with the well-trained reconstruction network. Extensive experiments verify that our new framework achieves comparable performance with less than 1% annotated data compared with fully supervised methods and generalizes well on several out-of-distribution testing sets.
翻訳日:2023-09-26 18:11:14 公開日:2023-09-24
# 量子プライバシー保存価格e-交渉

Quantum Privacy-Preserving Price E-Negotiation ( http://arxiv.org/abs/2309.13668v1 )

ライセンス: Link先を確認
Wen-Jie Liu, Chun-Tang Li, Yu Zheng, Yong Xu, Yin-Song Xu(参考訳) プライバシ保護価格e-交渉(3pen)は電子商取引分野におけるセキュアなマルチパーティ計算(smc)の重要な話題であり、そのセキュリティの重要なポイントは、売り手と買い手の価格のプライバシーを保証することである。 本研究では,oracle の操作と qubit コンパレータを用いて買い手と売り手の価格の比較結果を取得し,取引条件を満たした製品総数を量子計数することにより,3pen 問題に対する新規かつ効率的な量子解を提案する。 分析の結果,我々のソリューションは3penの正確性とプライバシを保証するだけでなく,従来のソリューションよりも通信の複雑さも低いことがわかった。

Privacy-preserving price e-negotiation (3PEN) is an important topic of secure multi-party computation (SMC) in the electronic commerce field, and the key point of its security is to guarantee the privacy of seller's and buyer's prices. In this study, a novel and efficient quantum solution to the 3PEN problem is proposed, where the oracle operation and the qubit comparator are utilized to obtain the comparative results of buyer's and seller's prices, and then quantum counting is executed to summarize the total number of products which meets the trading conditions. Analysis shows that our solution not only guarantees the correctness and the privacy of 3PEN, but also has lower communication complexity than those classical ones.
翻訳日:2023-09-26 18:10:50 公開日:2023-09-24
# MOSAIC:CLIPを用いた多目的任意スチル化

MOSAIC: Multi-Object Segmented Arbitrary Stylization Using CLIP ( http://arxiv.org/abs/2309.13716v1 )

ライセンス: Link先を確認
Prajwal Ganugula, Y S S S Santosh Kumar, N K Sagar Reddy, Prabhath Chellingi, Avinash Thakur, Neeraj Kasera, C Shyam Anand(参考訳) テキストプロンプトによって駆動されるスタイル転送は、実際のスタイルイメージを収集せずに画像を創造的にスタイリングするための新しいパスを舗装した。 有望な結果を得たにもかかわらず、テキスト駆動型スタイリゼーションでは、ユーザはスタイリゼーションを制御できない。 ユーザが芸術的なイメージを作成したい場合、ユーザは、現在の最先端のアプローチでは対処できないコンテンツイメージにおいて、さまざまなエンティティのスタイル化を細かく制御する必要がある。 一方,スタイライゼーション出力に対する局所的スタイライゼーション制御は有効ではないため,拡散スタイル転送法も同様の問題に直面している。 この問題を解決するために,CLIP(MOSAIC)を用いたマルチオブジェクト分割任意化手法を提案し,入力プロンプトから抽出したコンテキストに基づいて,画像内の異なるオブジェクトにスタイルを適用する。 vision transformerアーキテクチャに基づいたテキストベースのセグメンテーションとスタイライゼーションモジュールは、オブジェクトのセグメンテーションとスタイライゼーションに使用された。 この手法は任意のオブジェクトやスタイルに拡張でき、現在のアートメソッドと比較して高品質な画像を生成することができる。 我々の知る限り、これはテキスト誘導の任意のオブジェクト・ワイド・スタイル化を行う最初の試みである。 本手法は定性的かつ定量的な解析を行い, 定型化制御の強化と非知覚オブジェクトクラスへの一般化により, 視覚的に魅力的な定形化画像を生成することができることを示す。

Style transfer driven by text prompts paved a new path for creatively stylizing the images without collecting an actual style image. Despite having promising results, with text-driven stylization, the user has no control over the stylization. If a user wants to create an artistic image, the user requires fine control over the stylization of various entities individually in the content image, which is not addressed by the current state-of-the-art approaches. On the other hand, diffusion style transfer methods also suffer from the same issue because the regional stylization control over the stylized output is ineffective. To address this problem, We propose a new method Multi-Object Segmented Arbitrary Stylization Using CLIP (MOSAIC), that can apply styles to different objects in the image based on the context extracted from the input prompt. Text-based segmentation and stylization modules which are based on vision transformer architecture, were used to segment and stylize the objects. Our method can extend to any arbitrary objects, styles and produce high-quality images compared to the current state of art methods. To our knowledge, this is the first attempt to perform text-guided arbitrary object-wise stylization. We demonstrate the effectiveness of our approach through qualitative and quantitative analysis, showing that it can generate visually appealing stylized images with enhanced control over stylization and the ability to generalize to unseen object classes.
翻訳日:2023-09-26 18:05:03 公開日:2023-09-24
# QNNのトレーニングに必要なサンプル量の削減について:トレーニングデータの線形構造に関する制約

On Reducing the Amount of Samples Required for Training of QNNs: Constraints on the Linear Structure of the Training Data ( http://arxiv.org/abs/2309.13711v1 )

ライセンス: Link先を確認
Alexander Mandl, Johanna Barzen, Frank Leymann, Daniel Vietz(参考訳) 古典的ニューラルネットワークのトレーニングは通常、多数のトレーニングサンプルを必要とする。 絡み合ったトレーニングサンプルを使用することで、量子ニューラルネットワーク(QNN)はトレーニングプロセスに必要なトレーニングサンプルの量を著しく削減する可能性がある。 しかし、結果のQNNによる誤った予測数を最小化するためには、トレーニングサンプルの構造が一定の要件を満たすことが不可欠である。 一方、トレーニングサンプルのセット全体に対して、正確な絡み合いの程度が固定されなければならない。 一方、トレーニングサンプルは線形独立かつ非直交でなければならない。 しかし、これらの要件を満たさないことがQNNの結果に与える影響は、十分に研究されていない。 これを解決するため、QNFL定理の証明を拡張した。 (i)絡み合いの程度の違いに対する定理の一般化を提供する。 この一般化は、トレーニングサンプルのセットにおける絡み合いの平均度を用いて、QNNの期待品質を予測できることを示している。 さらに私たちは (II) 線形依存型, 直交型である適度に絡み合ったトレーニングサンプルに対するQNNの予測精度の新しい推定値を導入する。 私たちの分析結果は 3)QNN訓練を模擬し,訓練後のQNNの質を分析して実験的に検証した。

Training classical neural networks generally requires a large number of training samples. Using entangled training samples, Quantum Neural Networks (QNNs) have the potential to significantly reduce the amount of training samples required in the training process. However, to minimize the number of incorrect predictions made by the resulting QNN, it is essential that the structure of the training samples meets certain requirements. On the one hand, the exact degree of entanglement must be fixed for the whole set of training samples. On the other hand, training samples must be linearly independent and non-orthogonal. However, how failing to meet these requirements affects the resulting QNN is not fully studied. To address this, we extend the proof of the QNFL theorem to (i) provide a generalization of the theorem for varying degrees of entanglement. This generalization shows that the average degree of entanglement in the set of training samples can be used to predict the expected quality of the QNN. Furthermore, we (ii) introduce new estimates for the expected accuracy of QNNs for moderately entangled training samples that are linear dependent or orthogonal. Our analytical results are (iii) experimentally validated by simulating QNN training and analyzing the quality of the QNN after training.
翻訳日:2023-09-26 18:04:39 公開日:2023-09-24
# ORLA*: Lazy A*を用いた移動マニピュレータによるオブジェクト再構成

ORLA*: Mobile Manipulator-Based Object Rearrangement with Lazy A* ( http://arxiv.org/abs/2309.13707v1 )

ライセンス: Link先を確認
Kai Gao, Yan Ding, Shiqi Zhang, Jingjin Yu(参考訳) 効果的にオブジェクトアレンジメントを実行することは、例えばディナーテーブルのセットアップやデスクの整理など、移動マニピュレータにとって必須のスキルである。 このような問題における重要な課題は、オブジェクト間の依存性を効果的に解き放つために、オブジェクトの適切な操作順序を決定することである。 私たちの知る限り、モバイルマニピュレータの時間最適化マルチオブジェクト再配置ソリューションは、ほとんど研究対象となっていない。 そこで本研究では,エンドエフェクタと移動ロボットの移動を考慮に入れた高品質な物体選択と位置決定の探索において遅延(遅延)評価を利用するorla*を提案する。 ORLA*は、機械学習を用いてパイル安定性を考慮した多層再構成タスクもサポートする。 オブジェクトを分解する一時的な位置を見つけるために最適な解法を用いると、ORLA*はグローバルな最適性を達成することができる。 大規模なシミュレーションとアブレーション研究を通じて, ORLA*の高品質なソリューション提供の有効性を検証した。 追加資料は、https://gaokai15.github.io/ORLA-Star/で入手できる。

Effectively performing object rearrangement is an essential skill for mobile manipulators, e.g., setting up a dinner table or organizing a desk. A key challenge in such problems is deciding an appropriate manipulation order for objects to effectively untangle dependencies between objects while considering the necessary motions for realizing the manipulations (e.g., pick and place). To our knowledge, computing time-optimal multi-object rearrangement solutions for mobile manipulators remains a largely untapped research direction. In this research, we propose ORLA*, which leverages delayed (lazy) evaluation in searching for a high-quality object pick and place sequence that considers both end-effector and mobile robot base travel. ORLA* also supports multi-layered rearrangement tasks considering pile stability using machine learning. Employing an optimal solver for finding temporary locations for displacing objects, ORLA* can achieve global optimality. Through extensive simulation and ablation study, we confirm the effectiveness of ORLA* delivering quality solutions for challenging rearrangement instances. Supplementary materials are available at: https://gaokai15.github.io/ORLA-Star/
翻訳日:2023-09-26 18:04:22 公開日:2023-09-24
# データから数式を探索するニューラルネットワークによる動的シンボリックネットワーク

A Neural-Guided Dynamic Symbolic Network for Exploring Mathematical Expressions from Data ( http://arxiv.org/abs/2309.13705v1 )

ライセンス: Link先を確認
Wenqiang Li, Weijun Li, Lina Yu, Min Wu, Jingyi Liu, Yanjie Li(参考訳) 記号回帰 (sr) は観測データから基礎となる数学的表現を発見する強力な手法である。 ディープラーニングの成功に触発された近年の取り組みは、SR手法の2つのカテゴリに焦点を当てている。 ひとつは、ニューラルネットワークや遺伝的プログラミングを使って表現木を直接検索することである。 これは有望な結果を示しているが、大きな探索空間は一定要素の学習と高次元問題の処理に困難をもたらす。 別のアプローチは、トランスフォーマーベースのモデルトレーニングを合成データに活用し、推論速度の利点を提供する。 しかし、この方法は固定された少数の次元に限られており、与えられたデータが合成データと比較して分布外である場合に推論問題に遭遇する可能性がある。 本研究では,SRのためのニューラル誘導型動的記号ネットワークDySymNetを提案する。 大規模な検索空間内で表現を探す代わりに,様々な構造を持つDySymNetを探索し,データに適した表現を識別する。 ニューラルネットワークのようなトポロジー構造では、DySymNetは高次元問題の課題に取り組むだけでなく、定数の最適化にも有効である。 低次元の標準ベンチマークと多くの変数を持つよく知られたSRBenchを用いた広範な数値実験に基づいて,本手法は適応精度と雑音に対する堅牢性の観点から最先端の性能を実現する。

Symbolic regression (SR) is a powerful technique for discovering the underlying mathematical expressions from observed data. Inspired by the success of deep learning, recent efforts have focused on two categories for SR methods. One is using a neural network or genetic programming to search the expression tree directly. Although this has shown promising results, the large search space poses difficulties in learning constant factors and processing high-dimensional problems. Another approach is leveraging a transformer-based model training on synthetic data and offers advantages in inference speed. However, this method is limited to fixed small numbers of dimensions and may encounter inference problems when given data is out-of-distribution compared to the synthetic data. In this work, we propose DySymNet, a novel neural-guided Dynamic Symbolic Network for SR. Instead of searching for expressions within a large search space, we explore DySymNet with various structures and optimize them to identify expressions that better-fitting the data. With a topology structure like neural networks, DySymNet not only tackles the challenge of high-dimensional problems but also proves effective in optimizing constants. Based on extensive numerical experiments using low-dimensional public standard benchmarks and the well-known SRBench with more variables, our method achieves state-of-the-art performance in terms of fitting accuracy and robustness to noise.
翻訳日:2023-09-26 18:04:03 公開日:2023-09-24
# 音声エコーの深部表現を用いた顔提示アタック検出の一般化

Sound-Print: Generalised Face Presentation Attack Detection using Deep Representation of Sound Echoes ( http://arxiv.org/abs/2309.13704v1 )

ライセンス: Link先を確認
Raghavendra Ramachandra, Jag Mohan Singh, Sushma Venkatesh(参考訳) 顔のバイオメトリックスは、ユーザビリティと制約のないシナリオでの検証精度の向上のために、スマートフォンベースのアプリケーションで広く展開されている。 スマートフォンベースの顔認識の進化する応用はプレゼンテーションアタック(PA)も増加しており、攻撃者は悪意あるアプリケーションへのアクセスを得るためにプレゼンテーションアタックインスツルメンツ(PAI)を提示することができる。 PAIを生成する材料は決定論的ではないため、未知の提示攻撃を検出することは困難である。 本稿では,送信信号の反射プロファイルに基づいてpasを検出するスマートフォン上で,音響エコーによる顔提示攻撃検出(pad)を行う。 本稿では,信号の送信前に背景雑音をモデル化し,SNR(Signal-to-Noise Ratio)を増大させる,広パルスに基づく新しい伝送信号を提案する。 受信信号の反射を処理して背景ノイズを除去し、反射特性を正確に表現した。 ヒトの皮膚と人工物の反射特性が異なるため, ホウ素およびPAの反射プロファイルは異なる。 新たに収集された音響音響エコーデータセット(ased)と4807のサンプル、印刷(2種類)、ディスプレイ、シリコーンマスク攻撃を含む4種類のpaisを用いて広範な実験を行った。 その結果,未知の顔提示攻撃を検出する手法の頑健性が示唆された。

Facial biometrics are widely deployed in smartphone-based applications because of their usability and increased verification accuracy in unconstrained scenarios. The evolving applications of smartphone-based facial recognition have also increased Presentation Attacks (PAs), where an attacker can present a Presentation Attack Instrument (PAI) to maliciously gain access to the application. Because the materials used to generate PAI are not deterministic, the detection of unknown presentation attacks is challenging. In this paper, we present an acoustic echo-based face Presentation Attack Detection (PAD) on a smartphone in which the PAs are detected based on the reflection profiles of the transmitted signal. We propose a novel transmission signal based on the wide pulse that allows us to model the background noise before transmitting the signal and increase the Signal-to-Noise Ratio (SNR). The received signal reflections were processed to remove background noise and accurately represent reflection characteristics. The reflection profiles of the bona fide and PAs are different owing to the different reflection characteristics of the human skin and artefact materials. Extensive experiments are presented using the newly collected Acoustic Sound Echo Dataset (ASED) with 4807 samples captured from bona fide and four different types of PAIs, including print (two types), display, and silicone face-mask attacks. The obtained results indicate the robustness of the proposed method for detecting unknown face presentation attacks.
翻訳日:2023-09-26 18:03:38 公開日:2023-09-24
# スキルチェック:ロールプレイングゲームにおけるゲームマスタリングモデルの評価に関する考察

Skill Check: Some Considerations on the Evaluation of Gamemastering Models for Role-playing Games ( http://arxiv.org/abs/2309.13702v1 )

ライセンス: Link先を確認
Santiago G\'ongora, Luis Chiruzzo, Gonzalo M\'endez, Pablo Gerv\'as(参考訳) ロールプレイングゲームでは、ゲームマスター(gm)がゲーム担当のプレイヤーであり、プレイヤーが直面する課題をデザインし、アクションの結果をナレーションしなければならない。 本稿では,対話型ストーリーテリングと自然言語処理の観点からgmsをモデル化する課題について考察する。 これらの課題に続いて,対話システムを評価するための3つのテストカテゴリを提案し,チャットgpt,bard,open assistantを標準gmとしてテストする。

In role-playing games a Game Master (GM) is the player in charge of the game, who must design the challenges the players face and narrate the outcomes of their actions. In this work we discuss some challenges to model GMs from an Interactive Storytelling and Natural Language Processing perspective. Following those challenges we propose three test categories to evaluate such dialogue systems, and we use them to test ChatGPT, Bard and OpenAssistant as out-of-the-box GMs.
翻訳日:2023-09-26 18:03:13 公開日:2023-09-24
# ALLURE:反復的インテクスト学習を用いたLLMによるテキストの評価と改善のための体系的プロトコル

ALLURE: A Systematic Protocol for Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning ( http://arxiv.org/abs/2309.13701v1 )

ライセンス: Link先を確認
Hosein Hasanbeig and Hiteshi Sharma and Leo Betthauser and Felipe Vieira Frujeri and Ida Momennejad(参考訳) 論文の分類から医学文書の要約に至るまで、人間やAIが生成するテキストの評価には、大型言語モデル(LLM)が使用される。 しかし、LLMは広範な実用性にもかかわらず、個別の障害モードを示し、徹底的な監査とテキスト評価機能の改善が必要である。 ここでは,大規模言語モデルの理解と推論の誤りを監査するための体系的アプローチであるallureを紹介する。 ALLUREは、LCM生成した評価を注釈付きデータと比較し、ICL(In-context Learning)を活用してLCMによるテキストの堅牢な評価を強化し改善する評価器に、重要な偏差の事例を反復的に組み込む。 この反復的なプロセスを通じて評価器llmの性能を洗練し、最終的に評価プロセスにおける人間の注釈への依存を減らすことを目指している。 これらの分野におけるテキストデータの評価と生産性に関する様々な分野におけるLCMの多様な応用を期待する。

From grading papers to summarizing medical documents, large language models (LLMs) are evermore used for evaluation of text generated by humans and AI alike. However, despite their extensive utility, LLMs exhibit distinct failure modes, necessitating a thorough audit and improvement of their text evaluation capabilities. Here we introduce ALLURE, a systematic approach to Auditing Large Language Models Understanding and Reasoning Errors. ALLURE involves comparing LLM-generated evaluations with annotated data, and iteratively incorporating instances of significant deviation into the evaluator, which leverages in-context learning (ICL) to enhance and improve robust evaluation of text by LLMs. Through this iterative process, we aim to refine the performance of the evaluator LLM, ultimately reducing the reliance on human annotators in the evaluation process. We anticipate ALLURE to serve diverse applications of LLMs in various domains related to evaluation of textual data and productivity in these fields.
翻訳日:2023-09-26 18:03:03 公開日:2023-09-24
# 天気予報メッセンジャーと逆向きバックプロパゲーションによるビデオ悪天候成分抑制ネットワーク

Video Adverse-Weather-Component Suppression Network via Weather Messenger and Adversarial Backpropagation ( http://arxiv.org/abs/2309.13700v1 )

ライセンス: Link先を確認
Yijun Yang, Angelica I. Aviles-Rivero, Huazhu Fu, Ye Liu, Weiming Wang, Lei Zhu(参考訳) 畳み込みニューラルネットワーク(CNN)は、一組の事前訓練された重みを使って単一画像の悪天候を除去するために提案されているが、時間的情報がないため、気象映像の復元に失敗した。 さらに、ビデオから悪天候を除去する既存の方法(雨、霧、雪など)は、一つの種類の悪天候にしか対応できない。 そこで本研究では,viws-net (video adverse-weather-component suppression network) の開発により,すべての悪天候から映像を復元する最初のフレームワークを提案する。 これを実現するために,まず複数の変圧器ステージを有する,気象によらないビデオトランスコーダを考案する。 さらに,気象メッセンジャーの短時間の時間モデリング機構をデザインし,近接するビデオフレームの早期ヒューズ入力を行い,気象固有の情報を学習する。 さらに,天候タイプを逆予測することにより,天候変化のない共通情報を保持し,ピクセル特徴の気象固有情報を抑制するために,勾配反転を伴う気象判別器を導入する。 最後に,階層的なピクセル特徴を時空間的に集約した残気象特性を検索し,入力ビデオのクリーンな対象フレームを予測するために,messengerによるビデオトランスフォーマデコーダを開発した。 ベンチマークデータセットと実世界の天気予報ビデオを用いた実験の結果,viws-netは,気象条件によって劣化したビデオの復元において,現在の最先端手法よりも優れています。

Although convolutional neural networks (CNNs) have been proposed to remove adverse weather conditions in single images using a single set of pre-trained weights, they fail to restore weather videos due to the absence of temporal information. Furthermore, existing methods for removing adverse weather conditions (e.g., rain, fog, and snow) from videos can only handle one type of adverse weather. In this work, we propose the first framework for restoring videos from all adverse weather conditions by developing a video adverse-weather-component suppression network (ViWS-Net). To achieve this, we first devise a weather-agnostic video transformer encoder with multiple transformer stages. Moreover, we design a long short-term temporal modeling mechanism for weather messenger to early fuse input adjacent video frames and learn weather-specific information. We further introduce a weather discriminator with gradient reversion, to maintain the weather-invariant common information and suppress the weather-specific information in pixel features, by adversarially predicting weather types. Finally, we develop a messenger-driven video transformer decoder to retrieve the residual weather-specific feature, which is spatiotemporally aggregated with hierarchical pixel features and refined to predict the clean target frame of input videos. Experimental results, on benchmark datasets and real-world weather videos, demonstrate that our ViWS-Net outperforms current state-of-the-art methods in terms of restoring videos degraded by any weather condition.
翻訳日:2023-09-26 18:02:46 公開日:2023-09-24
# グローバルセルフスーパービジョンによる深層多視点クラスタリング

Federated Deep Multi-View Clustering with Global Self-Supervision ( http://arxiv.org/abs/2309.13697v1 )

ライセンス: Link先を確認
Xinyue Chen, Jie Xu, Yazhou Ren, Xiaorong Pu, Ce Zhu, Xiaofeng Zhu, Zhifeng Hao, Lifang He(参考訳) フェデレートされたマルチビュークラスタリングは、複数のデバイスに分散したデータからグローバルクラスタリングモデルを学習する可能性がある。 この設定では、ラベル情報は未知であり、データのプライバシを保存しなければならない。 まず、異なるクライアントのビューは、しばしば異種性を持ち、補完的なクラスタ情報をマイニングするのは簡単ではない。 第二に、分散環境における複数のクライアントからのデータの保存と利用は、マルチビューデータの不完全性につながる可能性がある。 これらの課題に対処するために,データ不完全性やプライバシの懸念に対処しながら,複数のクライアントから補完的なクラスタ構造を抽出できる,新しい多視点クラスタリング手法を提案する。 具体的には、サーバ環境において、複数のビューを補完するクラスタ構造を探索するサンプルアライメントとデータ拡張手法を提案する。 サーバは、グローバルプロトタイプとグローバル擬似ラベルを各クライアントにグローバル自己監視情報として配布する。 クライアント環境では、複数のクライアントがグローバル自己監視情報とディープオートエンコーダを使用して、ビュー固有のクラスタ割り当てと組み込み機能を学習し、それをサーバにアップロードしてグローバル自己監視情報を改善する。 最後に,本手法が分散環境における不完全なマルチビューデータの課題に対処する上で,優れた性能を示すことを示す。

Federated multi-view clustering has the potential to learn a global clustering model from data distributed across multiple devices. In this setting, label information is unknown and data privacy must be preserved, leading to two major challenges. First, views on different clients often have feature heterogeneity, and mining their complementary cluster information is not trivial. Second, the storage and usage of data from multiple clients in a distributed environment can lead to incompleteness of multi-view data. To address these challenges, we propose a novel federated deep multi-view clustering method that can mine complementary cluster structures from multiple clients, while dealing with data incompleteness and privacy concerns. Specifically, in the server environment, we propose sample alignment and data extension techniques to explore the complementary cluster structures of multiple views. The server then distributes global prototypes and global pseudo-labels to each client as global self-supervised information. In the client environment, multiple clients use the global self-supervised information and deep autoencoders to learn view-specific cluster assignments and embedded features, which are then uploaded to the server for refining the global self-supervised information. Finally, the results of our extensive experiments demonstrate that our proposed method exhibits superior performance in addressing the challenges of incomplete multi-view data in distributed environments.
翻訳日:2023-09-26 18:02:18 公開日:2023-09-24
# インド株における等重量ポートフォリオと最適リスクポートフォリオの性能評価

Performance Evaluation of Equal-Weight Portfolio and Optimum Risk Portfolio on Indian Stocks ( http://arxiv.org/abs/2309.13696v1 )

ライセンス: Link先を確認
Abhiraj Sen and Jaydip Sen(参考訳) 構成資産に適切な重みを割り当て、ポートフォリオに関連するリターンとリスクを最適化するための最適なポートフォリオを設計することは、計算的に難しい問題である。 将来の株のリターンを見積もって問題を解決しようとするmarkowitzの独創的な研究は、現実の株式市場のデータに最適化されることが判明した。 これは、株価の確率的かつ変動的な性質のため、推定タスクが極めて困難になるためである。 この研究は、リスクを最小限に抑え、リスクを最適化し、ポートフォリオの在庫に等しい重みを割り当てるポートフォリオ設計の3つのアプローチを示す。 インド国立証券取引所(nse)に上場する13の重要部門が最初に選ばれた。 3つのポートフォリオは、上記のアプローチに従って、自由フロート市場資本化に基づいて各セクターから上位10の株式を選択する。 ポートフォリオは2017年1月1日から2022年12月31日までの株価に基づいて設計されている。 ポートフォリオは2022年1月1日から12月31日までの株価データに基づいて評価される。 ポートフォリオのパフォーマンスを比較し、各セクタに対して高いリターンを与えるポートフォリオを特定する。

Designing an optimum portfolio for allocating suitable weights to its constituent assets so that the return and risk associated with the portfolio are optimized is a computationally hard problem. The seminal work of Markowitz that attempted to solve the problem by estimating the future returns of the stocks is found to perform sub-optimally on real-world stock market data. This is because the estimation task becomes extremely challenging due to the stochastic and volatile nature of stock prices. This work illustrates three approaches to portfolio design minimizing the risk, optimizing the risk, and assigning equal weights to the stocks of a portfolio. Thirteen critical sectors listed on the National Stock Exchange (NSE) of India are first chosen. Three portfolios are designed following the above approaches choosing the top ten stocks from each sector based on their free-float market capitalization. The portfolios are designed using the historical prices of the stocks from Jan 1, 2017, to Dec 31, 2022. The portfolios are evaluated on the stock price data from Jan 1, 2022, to Dec 31, 2022. The performances of the portfolios are compared, and the portfolio yielding the higher return for each sector is identified.
翻訳日:2023-09-26 18:01:55 公開日:2023-09-24
# ロボットワイヤハーネスアセンブリのためのコンピュータビジョン技術

Computer Vision Technology for Robotized Wire Harness Assembly ( http://arxiv.org/abs/2309.13745v1 )

ライセンス: Link先を確認
Hao Wang, Omkar Salunkhe, Walter Quadrini, Dan L\"amkull, Fredrik Ore, Bj\"orn Johansson, Johan Stahre(参考訳) ワイヤーハーネスは現代の自動車における電子システムにとって必須のハードウェアである。 自動車産業の電気化と自動運転へのシフトに伴い、ますます多くの自動車エレクトロニクスがエネルギー伝達と、操縦、運転支援、安全システムといった安全上重要な機能を担っている。 このパラダイムシフトは、安全の観点から自動車配線ハーネスの需要を増大させ、車両における高品質なワイヤハーネス組立の重要性を強調している。 しかし、現在のワイヤハーネスの組立作業のほとんどは熟練労働者によって手作業で行われており、いくつかの手作業は品質管理やエルゴノミクスといった異なる観点から問題となっている。 また、競争力を高め市場シェアを獲得するよう業界に常に要求されている。 したがって、エルゴノミクスを改善し、労働コストを最適化しながら組立品質を確保することが望まれる。 ロボットや人間とロボットのコラボレーションによって実現されたロボットアセンブリは、完全な手作業よりもレプリカで透明で理解しやすいプロセスを可能にするため、ますます要求される品質と安全性を達成するための重要な実現手段である。 しかしながら、変形可能なオブジェクトの柔軟性のため、実際の環境では、ワイヤハーネスのロボット化は困難であるが、工業的構成の単純化の下では、多くの予備的な自動化ソリューションが提案されている。 従来の研究では、コンピュータビジョン技術を用いてワイヤハーネス組立のロボット自動化を促進することを提案しており、ロボットは柔軟ワイヤハーネスをよりよく知覚し操作することができる。 本稿では、ロボット化されたワイヤハーネス組立のためのコンピュータビジョン技術の概要と、より実用的なワイヤハーネス組立を促進するためにさらなる研究を必要とする研究ギャップの導出について述べる。

Wire harnesses are essential hardware for electronic systems in modern automotive vehicles. With a shift in the automotive industry towards electrification and autonomous driving, more and more automotive electronics are responsible for energy transmission and safety-critical functions such as maneuvering, driver assistance, and safety system. This paradigm shift places more demand on automotive wiring harnesses from the safety perspective and stresses the greater importance of high-quality wire harness assembly in vehicles. However, most of the current operations of wire harness assembly are still performed manually by skilled workers, and some of the manual processes are problematic from different perspectives, such as quality control and ergonomics. There is also a persistent demand in the industry to increase competitiveness and gain market share. Hence, assuring assembly quality while improving ergonomics and optimizing labor costs is desired. Robotized assembly, accomplished by robots or in human-robot collaboration, is a key enabler for fulfilling the increasingly demanding quality and safety as it enables more replicable, transparent, and comprehensible processes than completely manual operations. However, robotized assembly of wire harnesses is challenging in real environments due to the flexibility of the deformable objects, though many preliminary automation solutions have been proposed under simplified industrial configurations. Previous research efforts have proposed the use of computer vision technology to facilitate robotized automation of wire harness assembly, enabling the robots to better perceive and manipulate the flexible wire harness. This article presents an overview on computer vision technology proposed for robotized wire harness assembly and derives research gaps that require further study to facilitate a more practical robotized assembly of wire harness.
翻訳日:2023-09-26 17:54:22 公開日:2023-09-24
# ロボットワイヤハーネス組立におけるコンピュータビジョン応用に関する体系的文献レビュー

A Systematic Literature Review of Computer Vision Applications in Robotized Wire Harness Assembly ( http://arxiv.org/abs/2309.13744v1 )

ライセンス: Link先を確認
Hao Wang, Omkar Salunkhe, Walter Quadrini, Bj\"orn Johansson, Dan L\"amkull, Fredrik Ore, M\'elanie Despeisse, Luca Fumagalli, Johan Stahre(参考訳) 本稿では、ロボット化されたワイヤハーネス組立のためのコンピュータビジョン応用に関する体系的な文献レビューを行い、既存の研究から課題を導き、より実用的なワイヤハーネス組立を促進するための将来の研究機会を明らかにする。

This article presents a systematic literature review on computer vision applications that have been proposed for robotized wire harness assembly, derives challenges from existing studies, and identifies opportunities for future research to promote a more practical robotized assembly of wire harnesses.
翻訳日:2023-09-26 17:53:54 公開日:2023-09-24
# DROP:人間の運動からのダイナミクス応答と投影ダイナミクス

DROP: Dynamics Responses from Human Motion Prior and Projective Dynamics ( http://arxiv.org/abs/2309.13742v1 )

ライセンス: Link先を確認
Yifeng Jiang, Jungdam Won, Yuting Ye, C. Karen Liu(参考訳) 環境に動的に反応する現実的な人間の動きを合成することは、コンピュータビジョン、スポーツ、医療に応用し、動きの予測とデータ拡張のためのキャラクターアニメーションにおける長年の目標である。 最近のキネマティックスベースの生成運動モデルは、物理を推論し相互作用するインターフェースがないにもかかわらず、広範囲な動きデータのモデリングにおいて印象的なスケーラビリティを提供する。 シミュレーター・イン・ザ・ループ学習のアプローチは、高度に物理的に現実的な行動を可能にするが、トレーニングにおける課題はしばしばスケーラビリティと採用に影響を与える。 DROPは、生成的mOtionと射影力学を用いた人間のダイナミクス応答をモデリングするための新しいフレームワークである。 DROPは、キネマティックスに基づく生成運動に先立ってインターフェースする、非常に安定で最小限の物理に基づく人間シミュレータと見なすことができる。 射影力学を利用すると、DROPは学習した運動の柔軟で単純な積分を射影エネルギーの1つとして実現し、ニュートン力学に先立って得られる運動の制御をシームレスに組み込む。 DROPは、モデルに依存しないプラグインとして、物理に基づく運動合成のための生成運動モデルにおける最近の進歩をフル活用することができる。 様々な動作タスクと様々な物理的摂動をまたいで,モデルの広範な評価を行い,応答のスケーラビリティと多様性を実証した。

Synthesizing realistic human movements, dynamically responsive to the environment, is a long-standing objective in character animation, with applications in computer vision, sports, and healthcare, for motion prediction and data augmentation. Recent kinematics-based generative motion models offer impressive scalability in modeling extensive motion data, albeit without an interface to reason about and interact with physics. While simulator-in-the-loop learning approaches enable highly physically realistic behaviors, the challenges in training often affect scalability and adoption. We introduce DROP, a novel framework for modeling Dynamics Responses of humans using generative mOtion prior and Projective dynamics. DROP can be viewed as a highly stable, minimalist physics-based human simulator that interfaces with a kinematics-based generative motion prior. Utilizing projective dynamics, DROP allows flexible and simple integration of the learned motion prior as one of the projective energies, seamlessly incorporating control provided by the motion prior with Newtonian dynamics. Serving as a model-agnostic plug-in, DROP enables us to fully leverage recent advances in generative motion models for physics-based motion synthesis. We conduct extensive evaluations of our model across different motion tasks and various physical perturbations, demonstrating the scalability and diversity of responses.
翻訳日:2023-09-26 17:53:47 公開日:2023-09-24
# 経路積分形式における原子エネルギーレベルに対する真空偏極補正

Vacuum polarization correction to atomic energy levels in the path integral formalism ( http://arxiv.org/abs/2309.13739v1 )

ライセンス: Link先を確認
Sreya Banerjee and Zolt\'an Harman(参考訳) 境界電子のエネルギー準位に対する真空分極補正は摂動経路積分形式を用いて計算される。 我々は、強結合核場を全ての順序に扱う枠組みに量子電磁力学を適用する。 有効ポテンシャルは、光子プロパゲーターのダイソン・シュウィンガー方程式から導出され、説得的に考慮される。 結合エネルギーの真空偏極シフトの式はスペクトル関数の極から2次まで得られる。 高精度質量分析法を用いて, 強磁場量子力学の新しい試験候補を選定するために, 数値計算を行った。

Vacuum polarization corrections to the energy levels of bound electrons are calculated using a perturbative path integral formalism. We apply quantum electrodynamics in a framework which treats the strong binding nuclear field to all orders. The effective potential, derived from the Dyson-Schwinger equation for the photon propagator, is then considered pertubatively. Expressions for the vacuum polarization shift of binding energies is obtained from the poles of the spectral function up to second order. Numerical results are provided to select candidates for novel tests of strong-field quantum electrodynamics by means of precision mass spectrometry.
翻訳日:2023-09-26 17:53:24 公開日:2023-09-24
# 線形ニューラルネットワークの幾何学:置換群における等分散と不変性

Geometry of Linear Neural Networks: Equivariance and Invariance under Permutation Groups ( http://arxiv.org/abs/2309.13736v1 )

ライセンス: Link先を確認
Kathl\'en Kohn, Anna-Laura Sattelberger, Vahid Shahverdi(参考訳) 線形完全連結ニューラルネットワークによってパラメータ化された関数の集合は行列多様体である。 置換群の作用の下で同変あるいは不変な函数の部分多様体について検討する。 そのようなグループアクションの例としては、画像上の翻訳や90^\circ$ローテーションがある。 そのような同変あるいは不変部分多様体に対して、それらの次元、それらの次数、ユークリッド距離次数、それらの特異点を明示的に記述する。 任意の置換群に対する不変性と巡回群に対する同値性を完全に特徴づける。 我々は、重み共有性などの等変・不変線形ネットワークのパラメータ化と設計に関する結論を導き、すべての不変線型関数が線形オートエンコーダによって学習できることを証明した。

The set of functions parameterized by a linear fully-connected neural network is a determinantal variety. We investigate the subvariety of functions that are equivariant or invariant under the action of a permutation group. Examples of such group actions are translations or $90^\circ$ rotations on images. For such equivariant or invariant subvarieties, we provide an explicit description of their dimension, their degree as well as their Euclidean distance degree, and their singularities. We fully characterize invariance for arbitrary permutation groups, and equivariance for cyclic groups. We draw conclusions for the parameterization and the design of equivariant and invariant linear networks, such as a weight sharing property, and we prove that all invariant linear functions can be learned by linear autoencoders.
翻訳日:2023-09-26 17:53:15 公開日:2023-09-24
# 姿勢分類における大規模言語モデルの利用

Use of Large Language Models for Stance Classification ( http://arxiv.org/abs/2309.13734v1 )

ライセンス: Link先を確認
Iain J. Cruickshank and Lynnette Hui Xian Ng(参考訳) 興味のある対象に対する著者の視点を予測するタスクである姿勢検出は、長い間研究の焦点となっている。 現在のスタンス検出法は、主に文の手動アノテーションに依存し、次に教師付き機械学習モデルをトレーニングする。 しかし、この手動アノテーションプロセスは、文中のスタンスを完全に理解するモデルの能力に制限を課し、異なる文脈にまたがる一般化の可能性を妨げる。 本研究では,大規模言語モデル (LLM) を用いた位置分類の課題について,人間ラベルの絶対最小使用量を用いて検討する。 4種類のプロンプトスキームをllmと組み合わせて検討し,手作業によるスタンス判定と比較した。 我々の研究によると、LLMは各データセットのベンチマーク結果にマッチしたり、時には超えることもあるが、その全体的な精度は教師付きモデルが生成できるものよりも明らかに優れているわけではない。 これはLCMの姿勢分類の改善の可能性を示している。 しかしLLMの応用は、教師なし姿勢検出のための有望な道を開くことで、手動の収集やスタンスアノテーションの必要性を緩和する。 これはプロセスを合理化するだけでなく、言語にまたがるスタンス検出機能を拡張する方法でもある。 本稿では,llmのスタンス分類能力について概説し,この領域における今後の進歩を導く貴重な知見を提供する。

Stance detection, the task of predicting an author's viewpoint towards a subject of interest, has long been a focal point of research. Current stance detection methods predominantly rely on manual annotation of sentences, followed by training a supervised machine learning model. This manual annotation process, however, imposes limitations on the model's ability to fully comprehend the stances in the sentence and hampers its potential to generalize across different contexts. In this study, we investigate the use of Large Language Models (LLMs) for the task of stance classification, with an absolute minimum use of human labels. We scrutinize four distinct types of prompting schemes combined with LLMs, comparing their accuracies with manual stance determination. Our study reveals that while LLMs can match or sometimes even exceed the benchmark results in each dataset, their overall accuracy is not definitively better than what can be produced by supervised models. This suggests potential areas for improvement in the stance classification for LLMs. The application of LLMs, however, opens up promising avenues for unsupervised stance detection, thereby curtailing the need for manual collection and annotation of stances. This not only streamlines the process but also paves the way for expanding stance detection capabilities across languages. Through this paper, we shed light on the stance classification abilities of LLMs, thereby contributing valuable insights that can guide future advancements in this domain.
翻訳日:2023-09-26 17:53:04 公開日:2023-09-24
# チューニングフリー最小体積非負行列因子分解へ向けて

Towards Tuning-Free Minimum-Volume Nonnegative Matrix Factorization ( http://arxiv.org/abs/2309.13733v1 )

ライセンス: Link先を確認
Duc Toan Nguyen, Eric C. Chi(参考訳) 非負行列因子化(Non negative Matrix Factorization, NMF)は、データ行列の潜在構造を発見するための汎用的で強力なツールである。 最近、leplat et al。 \@ (2019) はノイズの存在下でランク不足行列の同定可能な回復のための最小体積 NMF を導入した。 しかし、それらの定式化の性能は、最適な値が未知の雑音レベルに依存するチューニングパラメータの選択を必要とする。 本研究では,平方根のラッソとそのチューニング自由性質に着想を得た最小体積NMFの定式化を提案する。 我々の定式化にはチューニングパラメータの選択が必要であるが、その最適値はノイズレベルに依存しない。 NMFモデルに適合するため,大域収束保証を伴う大域化最小化(MM)アルゴリズムを提案する。 実験により、チューニングパラメータの最適選択は、データのノイズレベルに敏感であることを実証的に示す。

Nonnegative Matrix Factorization (NMF) is a versatile and powerful tool for discovering latent structures in data matrices, with many variations proposed in the literature. Recently, Leplat et al.\@ (2019) introduced a minimum-volume NMF for the identifiable recovery of rank-deficient matrices in the presence of noise. The performance of their formulation, however, requires the selection of a tuning parameter whose optimal value depends on the unknown noise level. In this work, we propose an alternative formulation of minimum-volume NMF inspired by the square-root lasso and its tuning-free properties. Our formulation also requires the selection of a tuning parameter, but its optimal value does not depend on the noise level. To fit our NMF model, we propose a majorization-minimization (MM) algorithm that comes with global convergence guarantees. We show empirically that the optimal choice of our tuning parameter is insensitive to the noise level in the data.
翻訳日:2023-09-26 17:52:41 公開日:2023-09-24
# うるさく説明可能なモデルを用いたアラビア語感情分析

Arabic Sentiment Analysis with Noisy Deep Explainable Model ( http://arxiv.org/abs/2309.13731v1 )

ライセンス: Link先を確認
Md. Atabuzzaman, Md Shajalal, Maksuda Bilkis Baby, Alexander Boden(参考訳) 感性分析(SA)は多くの現実世界のアプリケーションに必須のタスクである。 限られた資源言語(アラビア語、ベンガル語)と比較すると、SAに関する研究の大部分は高資源言語(英語、中国語)で行われている。 さらに、高度な人工知能(AI)ベースのアプローチを利用したアラビア語の感情分析手法の予測の背後にある理由は、ブラックボックスのようなもので、理解が難しい。 本稿では,Bi-Directional Long Short-Term Memory (BiLSTM) と Convolutional Neural Networks (CNN)-BiLSTM モデルにノイズ層を導入し,過度に適合する問題を克服し,アラビア語の感情分類フレームワークを提案する。 提案フレームワークは,特定の感情(肯定的あるいは否定的)が予測されている理由を理解するために,局所的な代理説明可能なモデルを訓練することにより,特定の予測を説明することができる。 アラビア語saデータセットの公開ベンチマーク実験を行った。 その結果,アラビア語に対する感情分析におけるノイズ層の追加は,過度な適合を減らし,その手法が既知の最先端手法よりも優れていた。 さらに、ノイズレイヤによる説明可能性を導入することで、モデルを透明性と説明責任が向上し、実際にAI対応システムを採用する上で役立ちます。

Sentiment Analysis (SA) is an indispensable task for many real-world applications. Compared to limited resourced languages (i.e., Arabic, Bengali), most of the research on SA are conducted for high resourced languages (i.e., English, Chinese). Moreover, the reasons behind any prediction of the Arabic sentiment analysis methods exploiting advanced artificial intelligence (AI)-based approaches are like black-box - quite difficult to understand. This paper proposes an explainable sentiment classification framework for the Arabic language by introducing a noise layer on Bi-Directional Long Short-Term Memory (BiLSTM) and Convolutional Neural Networks (CNN)-BiLSTM models that overcome over-fitting problem. The proposed framework can explain specific predictions by training a local surrogate explainable model to understand why a particular sentiment (positive or negative) is being predicted. We carried out experiments on public benchmark Arabic SA datasets. The results concluded that adding noise layers improves the performance in sentiment analysis for the Arabic language by reducing overfitting and our method outperformed some known state-of-the-art methods. In addition, the introduced explainability with noise layer could make the model more transparent and accountable and hence help adopting AI-enabled system in practice.
翻訳日:2023-09-26 17:52:19 公開日:2023-09-24
# L^p$-センスのリプシッツ非線形性を持つコルモゴロフ偏微分方程式の次元性の呪いを、ReLU, リークReLU, ソフトプラスアクティベーションによるディープニューラルネットワークが確実に克服する

Deep neural networks with ReLU, leaky ReLU, and softplus activation provably overcome the curse of dimensionality for Kolmogorov partial differential equations with Lipschitz nonlinearities in the $L^p$-sense ( http://arxiv.org/abs/2309.13722v1 )

ライセンス: Link先を確認
Julia Ackermann, Arnulf Jentzen, Thomas Kruse, Benno Kuckuck, Joshua Lee Padgett(参考訳) 近年,高次元偏微分方程式(pdes)を近似する深層学習法がいくつか提案されている。 これらの手法が文献で生成した関心の大部分は、そのようなDL手法が PDE の次元の呪い(COD)を克服する能力を持っていることを示すシミュレーションによるもので、ある近似精度を達成するのに必要な計算演算の数$\varepsilon\in(0,\infty)$は PDE 次元$d\in\mathbb N$ と $\varepsilon$ の逆数で多項式的に増加する。 While there is thus far no mathematical result that proves that one of such methods is indeed capable of overcoming the COD, there are now a number of rigorous results in the literature that show that deep neural networks (DNNs) have the expressive power to approximate PDE solutions without the COD in the sense that the number of parameters used to describe the approximating DNN grows at most polynomially in both the PDE dimension $d\in\mathbb N$ and the reciprocal of the approximation accuracy $\varepsilon>0$. 大まかに言えば、すべての$T>0$に対して、解 $u_d\colon [0,T]\times\mathbb R^d\to \mathbb R$, $d\in\mathbb N$, of semilinear heat PDEs with Lipschitz continuous linearities, can be almostd by DNNs with the terminal time with ReLU activation with the $L^2$-sense without the COD において、初期値関数 $\mathbb R^d\ni x\mapsto u_d(0,x)\in\mathbb R$, $d\in\mathbb N$ が CODのない ReLU DNNs によって近似できる。 この研究の重要な貢献は、この主張を$L^p$-sense with $p\in(0,\infty)$に定め、活性化関数がReLU、漏れるReLU、ソフトプラス活性化関数を特殊ケースとしてカバーすることを許すことによって、この結果を一般化することである。

Recently, several deep learning (DL) methods for approximating high-dimensional partial differential equations (PDEs) have been proposed. The interest that these methods have generated in the literature is in large part due to simulations which appear to demonstrate that such DL methods have the capacity to overcome the curse of dimensionality (COD) for PDEs in the sense that the number of computational operations they require to achieve a certain approximation accuracy $\varepsilon\in(0,\infty)$ grows at most polynomially in the PDE dimension $d\in\mathbb N$ and the reciprocal of $\varepsilon$. While there is thus far no mathematical result that proves that one of such methods is indeed capable of overcoming the COD, there are now a number of rigorous results in the literature that show that deep neural networks (DNNs) have the expressive power to approximate PDE solutions without the COD in the sense that the number of parameters used to describe the approximating DNN grows at most polynomially in both the PDE dimension $d\in\mathbb N$ and the reciprocal of the approximation accuracy $\varepsilon>0$. Roughly speaking, in the literature it is has been proved for every $T>0$ that solutions $u_d\colon [0,T]\times\mathbb R^d\to \mathbb R$, $d\in\mathbb N$, of semilinear heat PDEs with Lipschitz continuous nonlinearities can be approximated by DNNs with ReLU activation at the terminal time in the $L^2$-sense without the COD provided that the initial value functions $\mathbb R^d\ni x\mapsto u_d(0,x)\in\mathbb R$, $d\in\mathbb N$, can be approximated by ReLU DNNs without the COD. It is the key contribution of this work to generalize this result by establishing this statement in the $L^p$-sense with $p\in(0,\infty)$ and by allowing the activation function to be more general covering the ReLU, the leaky ReLU, and the softplus activation functions as special cases.
翻訳日:2023-09-26 17:51:44 公開日:2023-09-24
# 不均衡予測適応を用いた複数関係分類

Multiple Relations Classification using Imbalanced Predictions Adaptation ( http://arxiv.org/abs/2309.13718v1 )

ライセンス: Link先を確認
Sakher Khalil Alqaaidi, Elika Bozorgi, Krzysztof J. Kochut(参考訳) 関係分類タスクは、対象と対象の2つのエンティティに適切な意味関係を割り当てる;そのタスクは、知識グラフ構築や生物医学的テキストにおけるエンティティ相互作用発見など、様々なテキストマイニングアプリケーションにおいて重要な役割を果たす。 現在の関係分類モデルは、1つの文で複数の関係を識別する追加の手順を用いる。 さらに、不均衡な予測パターンも見落としている。 このパターンは、比較的大きな事前定義された関係集合において正のラベリングを必要とするいくつかの有効な関係の存在から生じる。 本稿では,カスタマイズされた出力アーキテクチャと追加の入力機能を活用し,これらの問題に対処する複数の関係分類モデルを提案する。 以上の結果から,不均衡な予測を扱うことは,控えめなトレーニング設計でも大幅な改善をもたらすことが示唆された。 その結果,関係分類によく用いられるベンチマークデータセットの優越性が示された。 我々の知る限り、この研究は関係分類タスクの中で不均衡な予測を認識する最初のものである。

The relation classification task assigns the proper semantic relation to a pair of subject and object entities; the task plays a crucial role in various text mining applications, such as knowledge graph construction and entities interaction discovery in biomedical text. Current relation classification models employ additional procedures to identify multiple relations in a single sentence. Furthermore, they overlook the imbalanced predictions pattern. The pattern arises from the presence of a few valid relations that need positive labeling in a relatively large predefined relations set. We propose a multiple relations classification model that tackles these issues through a customized output architecture and by exploiting additional input features. Our findings suggest that handling the imbalanced predictions leads to significant improvements, even on a modest training design. The results demonstrate superiority performance on benchmark datasets commonly used in relation classification. To the best of our knowledge, this work is the first that recognizes the imbalanced predictions within the relation classification task.
翻訳日:2023-09-26 17:50:39 公開日:2023-09-24
# ファインマン図形の組合せ和: 2次元SU(N)ハバードモデルの状態方程式

Combinatorial summation of Feynman diagrams: Equation of state of the 2D SU(N) Hubbard model ( http://arxiv.org/abs/2309.13774v1 )

ライセンス: Link先を確認
Evgeny Kozik(参考訳) 一般量子多体系に対する連結あるいはスケルトンファインマン図の効率的な和を求める普遍的な枠組みを導入する。 これは動的プログラミングによる積分の和の明示的な組合せ的構成に基づいており、計算コストは図の順序で指数関数化できるのみである。 実験系における2D$$SU(N)$ Hubbardモデルの状態方程式の非バイアス図式モンテカルロ計算による手法について述べる。

We introduce a universal framework for efficient summation of connected or skeleton Feynman diagrams for generic quantum many-body systems. It is based on explicit combinatorial construction of the sum of the integrands by dynamic programming, at a computational cost that can be made only exponential in the diagram order. We illustrate the technique by an unbiased diagrammatic Monte Carlo calculation of the equation of state of the $2D$ $SU(N)$ Hubbard model in an experimentally relevant regime, which has remained challenging for state-of-the-art numerical methods.
翻訳日:2023-09-26 17:44:26 公開日:2023-09-24
# GHN-QAT:Unseen Limited Precision Neural Networkの量子化-ロバストパラメータ予測のためのグラフハイパーネットのトレーニング

GHN-QAT: Training Graph Hypernetworks to Predict Quantization-Robust Parameters of Unseen Limited Precision Neural Networks ( http://arxiv.org/abs/2309.13773v1 )

ライセンス: Link先を確認
Stone Yun, Alexander Wong(参考訳) Graph Hypernetworks (GHN) は、異なる未知のCNNアーキテクチャのパラメータを、反復最適化のコストのごく一部で驚くほど高い精度で予測することができる。 これらの成功に続いて、予備的な研究は、8ビットおよび4ビットの量子化されたCNNの量子化ロバストパラメータの予測にGHNを用いたことを検討した。 しかし、この初期の研究はフル精度のfloat32トレーニングを活用し、試験のためにのみ定量化された。 低精度CNNに対するGHN予測パラメータの量子化ロバスト性と性能に及ぼす量子化対応トレーニングおよび/または他の量子化ベーストレーニング戦略の影響を検討する。 量子化学習は, 4ビット量子化CNNのGHN予測パラメータの量子化精度を大幅に向上し, 2ビット量子化CNNのランダム化精度も向上することを示した。 これらの有望な結果は、個々のCNNのさらなる量子化トレーニングのための初期化としてGHN予測パラメータの使用、"極端ビット幅"量子化のさらなる探索、混合精度量子化スキームなどの将来の探索への扉を開く。

Graph Hypernetworks (GHN) can predict the parameters of varying unseen CNN architectures with surprisingly good accuracy at a fraction of the cost of iterative optimization. Following these successes, preliminary research has explored the use of GHNs to predict quantization-robust parameters for 8-bit and 4-bit quantized CNNs. However, this early work leveraged full-precision float32 training and only quantized for testing. We explore the impact of quantization-aware training and/or other quantization-based training strategies on quantized robustness and performance of GHN predicted parameters for low-precision CNNs. We show that quantization-aware training can significantly improve quantized accuracy for GHN predicted parameters of 4-bit quantized CNNs and even lead to greater-than-random accuracy for 2-bit quantized CNNs. These promising results open the door for future explorations such as investigating the use of GHN predicted parameters as initialization for further quantized training of individual CNNs, further exploration of "extreme bitwidth" quantization, and mixed precision quantization schemes.
翻訳日:2023-09-26 17:44:15 公開日:2023-09-24
# 移動単眼カメラからのモーションセグメンテーション

Motion Segmentation from a Moving Monocular Camera ( http://arxiv.org/abs/2309.13772v1 )

ライセンス: Link先を確認
Yuxiang Huang, John Zelek(参考訳) 移動モノクロカメラからの移動物体の識別と分割は、未知のカメラモーション、異なる種類の物体モーション、複雑なシーン構造がある場合に困難である。 これらの課題に対処するために、物体レベルで相補的な2つの動きキューを相乗的に融合させることにより、点軌跡ベースと光フローベース手法という、単眼運動セグメンテーションアプローチの一般的な2つの枝を利用する。 これにより、異なるシーン構造における様々な複雑な物体の動きを同時にモデル化できるが、既存の手法では実現されていない。 まず, 物体認識, セグメンテーション, 追跡における最近の基礎モデルを利用して, ビデオ中の各共通物体に対する物体固有点軌道と光フローマスクを求める。 次に,2つのロバストなアフィニティ行列を,エピポーラ幾何学と光流による運動情報を用いてビデオ全体を通して構成する。 最後に、2つの親和性行列を融合させ、最終的なクラスタリングを得るために、共正規化マルチビュースペクトルクラスタリングを用いる。 本手法は,複雑な動きやシーン構造を含むKT3DMoSegデータセット上での最先端性能を示す。 動くオブジェクトを識別できれば、視覚的SLAMやSFMを使用する場合、マップ構築用のオブジェクトを削除できます。

Identifying and segmenting moving objects from a moving monocular camera is difficult when there is unknown camera motion, different types of object motions and complex scene structures. To tackle these challenges, we take advantage of two popular branches of monocular motion segmentation approaches: point trajectory based and optical flow based methods, by synergistically fusing these two highly complementary motion cues at object level. By doing this, we are able to model various complex object motions in different scene structures at once, which has not been achieved by existing methods. We first obtain object-specific point trajectories and optical flow mask for each common object in the video, by leveraging the recent foundational models in object recognition, segmentation and tracking. We then construct two robust affinity matrices representing the pairwise object motion affinities throughout the whole video using epipolar geometry and the motion information provided by optical flow. Finally, co-regularized multi-view spectral clustering is used to fuse the two affinity matrices and obtain the final clustering. Our method shows state-of-the-art performance on the KT3DMoSeg dataset, which contains complex motions and scene structures. Being able to identify moving objects allows us to remove them for map building when using visual SLAM or SFM.
翻訳日:2023-09-26 17:43:55 公開日:2023-09-24
# デビル・イン・ザ・ナンバー:ロバストなマルチモダリティデータフィルタに向けて

Devil in the Number: Towards Robust Multi-modality Data Filter ( http://arxiv.org/abs/2309.13770v1 )

ライセンス: Link先を確認
Yichen Xu, Zihan Xu, Wenhao Chai, Zhonghan Zhao, Enxin Song, Gaoang Wang(参考訳) マルチモダリティデータセットを web スケールで適切にフィルタリングするためには, 性能向上やトレーニングコスト削減に適切なフィルタリング手法を採用することが重要である。 例えば、LAIONの論文では、CLIPスコアフィルタを使用して、特定のしきい値を超えたCLIPスコアを持つデータを選択する。 一方、T-MARSは画像中のテキストを検出し、マスクし、CLIPスコアでフィルタリングすることで、高品質なデータフィルタリングを実現する。 データセットを解析することにより、テキストの内容に含まれる数字などの冗長な情報のかなりの割合を観察する。 データのサブセットに関する実験では、これらの冗長な要素がCLIPスコアに与える影響が明らかになりました。 論理的アプローチでは、これらの影響を排除した後、CLIPスコアを再評価する。 テキストベースのCLIPフィルタは、ImageNetの分散シフトにおいて、DataComp(データフィルタリングベンチマーク)の‘小スケール’において、上位ランクのメソッドよりも優れ、パフォーマンスが3.6%向上した。 また,提案したテキストマスキングフィルタは,データの上位40%を選択する際に,元のCLIPスコアフィルタよりも優れていることを示す。 CLIPに対する数値の影響とその処理は、言語書き換えテクニックを含むCLIPトレーニングの有効性を改善する上で、貴重な洞察を提供する。

In order to appropriately filter multi-modality data sets on a web-scale, it becomes crucial to employ suitable filtering methods to boost performance and reduce training costs. For instance, LAION papers employs the CLIP score filter to select data with CLIP scores surpassing a certain threshold. On the other hand, T-MARS achieves high-quality data filtering by detecting and masking text within images and then filtering by CLIP score. Through analyzing the dataset, we observe a significant proportion of redundant information, such as numbers, present in the textual content. Our experiments on a subset of the data unveil the profound impact of these redundant elements on the CLIP scores. A logical approach would involve reevaluating the CLIP scores after eliminating these influences. Experimentally, our text-based CLIP filter outperforms the top-ranked method on the ``small scale" of DataComp (a data filtering benchmark) on ImageNet distribution shifts, achieving a 3.6% performance improvement. The results also demonstrate that our proposed text-masked filter outperforms the original CLIP score filter when selecting the top 40% of the data. The impact of numbers on CLIP and their handling provide valuable insights for improving the effectiveness of CLIP training, including language rewrite techniques.
翻訳日:2023-09-26 17:43:30 公開日:2023-09-24
# 人物再同定システムに対する2つの敵攻撃の組み合わせ

Combining Two Adversarial Attacks Against Person Re-Identification Systems ( http://arxiv.org/abs/2309.13763v1 )

ライセンス: Link先を確認
Eduardo de O. Andrade, Igor Garcia Ballhausen Sampaio, Joris Gu\'erin and Jos\'e Viterbo(参考訳) 人物再同定(re-id)の分野は最近、深層ニューラルネットワーク、特に画像分類の進歩によって多くの注目を集めている。 Re-IDの問題は、異なるシナリオで監視カメラが捉えた画像を通して個人を特定することである。 政府や企業は、公共の安全と行方不明者を特定するために、Re-IDシステムに多くの時間と資金を投資している。 しかし、人間の画像における閉塞や光反射など、Re-IDの実装に成功するためのいくつかの課題が残っている。 本研究では,Re-IDシステムに対する敵攻撃に焦点をあてる。 特に,re-idモデルに対する敵対的攻撃の組み合わせについて検討し,分類結果の低下の強化を試みる。 DukeMTMC-ReID, Market-1501, CUHK03の3つのデータセットで実験を行った。 P-FGSMとDeep Mis-Rankingの2種類の敵攻撃を組み合わせ、人気のあるRe-IDモデルであるIDE(ResNet-50)とAlignedReIDに適用する。 最も良い結果はCUHK03に適用されたAlignedReIDのランク10メートル法で3.36%の減少を示している。 また、推論中にDropoutを防御方法として使用しようとします。

The field of Person Re-Identification (Re-ID) has received much attention recently, driven by the progress of deep neural networks, especially for image classification. The problem of Re-ID consists in identifying individuals through images captured by surveillance cameras in different scenarios. Governments and companies are investing a lot of time and money in Re-ID systems for use in public safety and identifying missing persons. However, several challenges remain for successfully implementing Re-ID, such as occlusions and light reflections in people's images. In this work, we focus on adversarial attacks on Re-ID systems, which can be a critical threat to the performance of these systems. In particular, we explore the combination of adversarial attacks against Re-ID models, trying to strengthen the decrease in the classification results. We conduct our experiments on three datasets: DukeMTMC-ReID, Market-1501, and CUHK03. We combine the use of two types of adversarial attacks, P-FGSM and Deep Mis-Ranking, applied to two popular Re-ID models: IDE (ResNet-50) and AlignedReID. The best result demonstrates a decrease of 3.36% in the Rank-10 metric for AlignedReID applied to CUHK03. We also try to use Dropout during the inference as a defense method.
翻訳日:2023-09-26 17:43:09 公開日:2023-09-24
# テキスト分類:深層学習法の展望

Text Classification: A Perspective of Deep Learning Methods ( http://arxiv.org/abs/2309.13761v1 )

ライセンス: Link先を確認
Zhongwei Wan(参考訳) 近年,インターネット上の情報の急速な発展に伴い,複雑なテキストや文書の数が指数関数的に増加し,深層学習技術を用いてテキストを正確に分類するためには,深層学習法を深く理解する必要があるようになり,テキスト分類において深層学習法がますます重要になっている。 テキスト分類(英: Text classification)は、文書の集合をその内容と主題に基づいて複数の事前定義されたカテゴリに自動的に分類するタスクのクラスである。 このように、テキスト分類の主な目的は、ユーザーが異なるカテゴリを分類するために、テキストリソースや検索、分類、機械学習技術などのプロセスプロセスから情報を抽出できるようにすることである。 ディープラーニングの多くの新しいテクニックは、自然言語処理ですでに優れた成果を上げています。 これらの学習アルゴリズムの成功は、複雑なモデルとデータの非線形関係を理解する能力に依存する。 しかし、テキスト分類のための正しい構造、アーキテクチャ、技術を見つけることは研究者にとって課題である。 本稿では,特徴抽出,特徴量削減,評価戦略や手法などのテキスト分類作業に必要な重要なステップを含む,深層学習に基づくテキスト分類アルゴリズムを提案する。 論文の最後には、異なる深層学習テキスト分類法を比較し、要約する。

In recent years, with the rapid development of information on the Internet, the number of complex texts and documents has increased exponentially, which requires a deeper understanding of deep learning methods in order to accurately classify texts using deep learning techniques, and thus deep learning methods have become increasingly important in text classification. Text classification is a class of tasks that automatically classifies a set of documents into multiple predefined categories based on their content and subject matter. Thus, the main goal of text classification is to enable users to extract information from textual resources and process processes such as retrieval, classification, and machine learning techniques together in order to classify different categories. Many new techniques of deep learning have already achieved excellent results in natural language processing. The success of these learning algorithms relies on their ability to understand complex models and non-linear relationships in data. However, finding the right structure, architecture, and techniques for text classification is a challenge for researchers. This paper introduces deep learning-based text classification algorithms, including important steps required for text classification tasks such as feature extraction, feature reduction, and evaluation strategies and methods. At the end of the article, different deep learning text classification methods are compared and summarized.
翻訳日:2023-09-26 17:42:48 公開日:2023-09-24
# マルチレゾリューション学習による深層畳み込みニューラルネットワークのロバスト性向上

Improving Robustness of Deep Convolutional Neural Networks via Multiresolution Learning ( http://arxiv.org/abs/2309.13752v1 )

ライセンス: Link先を確認
Hongyan Zhou, Yao Liang(参考訳) ディープラーニングの現在の学習プロセスは、ディープニューラルネットワーク(DNN)アーキテクチャや/または学習アルゴリズムに関係なく、基本的には単一の解像度トレーニングである。 マルチレゾリューション学習について検討し,DNNモデルの1次元信号および2次元信号(画像)予測問題に対するロバスト性を大幅に向上させることができることを示す。 我々は、この改善を、ノイズと敵対的ロバスト性の両方と、トレーニングデータセットのサイズを小さくすることで実証する。 また,従来の単一解像度学習環境から得られた観察とは対照的に,マルチレゾリューション学習では標準精度とロバスト性とのトレードオフは不要である可能性が示唆された。

The current learning process of deep learning, regardless of any deep neural network (DNN) architecture and/or learning algorithm used, is essentially a single resolution training. We explore multiresolution learning and show that multiresolution learning can significantly improve robustness of DNN models for both 1D signal and 2D signal (image) prediction problems. We demonstrate this improvement in terms of both noise and adversarial robustness as well as with small training dataset size. Our results also suggest that it may not be necessary to trade standard accuracy for robustness with multiresolution learning, which is, interestingly, contrary to the observation obtained from the traditional single resolution learning setting.
翻訳日:2023-09-26 17:42:29 公開日:2023-09-24
# 一番罪深いケーキ」は美味しいですか? 具体的文脈からイエス/ノー質問に答える

Does the "most sinfully decadent cake ever" taste good? Answering Yes/No Questions from Figurative Contexts ( http://arxiv.org/abs/2309.13748v1 )

ライセンス: Link先を確認
Geetanjali Rakshit and Jeffrey Flanigan(参考訳) 自然言語では比喩的言語が一般的であり、コミュニケーションを記憶し、創造的にすることは困難である。 本研究では,図形テキストを用いた質問応答モデル(QA)の堅牢性について検討する。 yes/no 質問は、特に、大きな言語モデルの比定的な言語理解能力の有用な調査である。 本稿では,レストランや商品レビューの領域から抽出した,1000のイエス/ノーの質問に対して,具体的・非具体的コンテキストを用いた質問セットであるFigurativeQAを提案する。 実数的な文脈から質問に答える場合, 最先端のbertベースのqaモデルでは, 非フィギュラブルモデルと比較して, 平均的なパフォーマンス低下率が15\%であることを示す。 GPT-3やChatGPTのようなモデルは、図形テキストを扱うのに優れているが、図形コンテキストを非図形(文字)に自動的に単純化することで、さらなるパフォーマンス向上が達成できることを示す。 全体として最高のモデルがChatGPTであり、チェーン・オブ・シントが非表現的コンテキストを生成することを促している。 私たちの仕事は、図形言語理解機能を備えたより堅牢なQAモデルを構築するための有望な方向を提供します。

Figurative language is commonplace in natural language, and while making communication memorable and creative, can be difficult to understand. In this work, we investigate the robustness of Question Answering (QA) models on figurative text. Yes/no questions, in particular, are a useful probe of figurative language understanding capabilities of large language models. We propose FigurativeQA, a set of 1000 yes/no questions with figurative and non-figurative contexts, extracted from the domains of restaurant and product reviews. We show that state-of-the-art BERT-based QA models exhibit an average performance drop of up to 15\% points when answering questions from figurative contexts, as compared to non-figurative ones. While models like GPT-3 and ChatGPT are better at handling figurative texts, we show that further performance gains can be achieved by automatically simplifying the figurative contexts into their non-figurative (literal) counterparts. We find that the best overall model is ChatGPT with chain-of-thought prompting to generate non-figurative contexts. Our work provides a promising direction for building more robust QA models with figurative language understanding capabilities.
翻訳日:2023-09-26 17:42:15 公開日:2023-09-24
# ma, no code: json プランを調整するだけで autopet ii チャレンジ用に nnu-net を微調整する

Look Ma, no code: fine tuning nnU-Net for the AutoPET II challenge by only adjusting its JSON plans ( http://arxiv.org/abs/2309.13747v1 )

ライセンス: Link先を確認
Fabian Isensee, Klaus H.Maier-Hein(参考訳) 我々は,nUNetPlans.json'ファイルの理解と修正が簡単なため,nnU-Netを変更せずにAutoPET IIの課題に参加する。 残エンコーダ付きUNetに切り替えることで、バッチサイズを増大させ、パッチサイズを増大させることで、モデルトレーニングの計算要求の増加を犠牲にして、自動構成されたnnU-Netベースライン(5倍のクロスバリデーションDiceスコア65.14 vs 33.28)を大幅に上回る構成が得られる。 最後の提出は、最も有望な2つの構成をまとめます。 提出時点では,本手法は予備テストセットで第1位にランクする。

We participate in the AutoPET II challenge by modifying nnU-Net only through its easy to understand and modify 'nnUNetPlans.json' file. By switching to a UNet with residual encoder, increasing the batch size and increasing the patch size we obtain a configuration that substantially outperforms the automatically configured nnU-Net baseline (5-fold cross-validation Dice score of 65.14 vs 33.28) at the expense of increased compute requirements for model training. Our final submission ensembles the two most promising configurations. At the time of submission our method ranks first on the preliminary test set.
翻訳日:2023-09-26 17:41:52 公開日:2023-09-24
# 深層学習に基づく自動車用ワイヤハーネスのロボット組立におけるコネクタ検出

Deep Learning-Based Connector Detection for Robotized Assembly of Automotive Wire Harnesses ( http://arxiv.org/abs/2309.13746v1 )

ライセンス: Link先を確認
Hao Wang and Bj\"orn Johansson(参考訳) 自動車産業における電化と自動運転へのシフトにより、現代の自動車により多くの自動車用ワイヤーハーネスが取り付けられ、自動車用ワイヤーハーネスの組立の品質を保証することの重要性が強調される。 コネクタの結合は、ワイヤハーネス接続と信号伝送におけるコネクタの重要性から、自動車用ワイヤハーネスの最終組立において不可欠である。 しかし, 現在, 連結コネクタの手動操作は, ロボット化アセンブリが検討されている組立品質と人間工学に関する深刻な問題をもたらし, コネクタ上でのロボット制御システムの認識を容易にするため, 異なる視覚ベースのソリューションが提案されている。 それにもかかわらず、以前の文献では、自動車用ワイヤハーネスコネクタを検出するためのディープラーニングベースのソリューションが欠如している。 本稿では,ロボット化された自動車用ワイヤハーネス組立体に対する深層学習に基づくコネクタ検出手法を提案する。 20本のワイヤハーネスコネクタのデータセットを作成し、それぞれ2段および1段の物体検出モデルを訓練および評価した。 実験結果は, 自動車用ワイヤハーネスアセンブリにおける深層学習型コネクタ検出の有効性を示すが, コネクタ外部の設計により制限される。

The shift towards electrification and autonomous driving in the automotive industry results in more and more automotive wire harnesses being installed in modern automobiles, which stresses the great significance of guaranteeing the quality of automotive wire harness assembly. The mating of connectors is essential in the final assembly of automotive wire harnesses due to the importance of connectors on wire harness connection and signal transmission. However, the current manual operation of mating connectors leads to severe problems regarding assembly quality and ergonomics, where the robotized assembly has been considered, and different vision-based solutions have been proposed to facilitate a better perception of the robot control system on connectors. Nonetheless, there has been a lack of deep learning-based solutions for detecting automotive wire harness connectors in previous literature. This paper presents a deep learning-based connector detection for robotized automotive wire harness assembly. A dataset of twenty automotive wire harness connectors was created to train and evaluate a two-stage and a one-stage object detection model, respectively. The experiment results indicate the effectiveness of deep learning-based connector detection for automotive wire harness assembly but are limited by the design of the exteriors of connectors.
翻訳日:2023-09-26 17:41:35 公開日:2023-09-24
# 乳腺MRI用多解深層学習レジストレーション

Diffeomorphic Multi-Resolution Deep Learning Registration for Applications in Breast MRI ( http://arxiv.org/abs/2309.13777v1 )

ライセンス: Link先を確認
Matthew G. French, Gonzalo D. Maso Talou, Thiranja P. Babarenda Gamage, Martyn P. Nash, Poul M. Nielsen, Anthony J. Doyle, Juan Eugenio Iglesias, Ya\"el Balbastre, and Sean I. Young(参考訳) 乳房外科的計画では、患者の位置にわたってMR画像の正確な登録は、乳癌治療中の腫瘍の局在を改善する可能性がある。 近年,多くの医用画像登録作業において,学習ベースの登録手法が最先端のアプローチとなっているが,胸部MR画像にリッチテクスチャ情報が欠如していることや,変形が拡散する必要性などにより,乳房画像登録への進出は未だ行われていない。 そこで本研究では,in-silicoおよびin-vivo実験による初期実験結果とともに,diffeomorphic制約に適応可能な乳房mr画像登録のための学習戦略を提案する。 この研究の重要な貢献の1つは、乳房画像の優れた登録結果を生成する登録ネットワークである。

In breast surgical planning, accurate registration of MR images across patient positions has the potential to improve the localisation of tumours during breast cancer treatment. While learning-based registration methods have recently become the state-of-the-art approach for most medical image registration tasks, these methods have yet to make inroads into breast image registration due to certain difficulties-the lack of rich texture information in breast MR images and the need for the deformations to be diffeomophic. In this work, we propose learning strategies for breast MR image registration that are amenable to diffeomorphic constraints, together with early experimental results from in-silico and in-vivo experiments. One key contribution of this work is a registration network which produces superior registration outcomes for breast images in addition to providing diffeomorphic guarantees.
翻訳日:2023-09-26 17:30:51 公開日:2023-09-24
# 羅生門重要度分布:不安定かつ単一モデルに基づく可変値のRID化

The Rashomon Importance Distribution: Getting RID of Unstable, Single Model-based Variable Importance ( http://arxiv.org/abs/2309.13775v1 )

ライセンス: Link先を確認
Jon Donnelly, Srikar Katta, Cynthia Rudin, Edward P. Browne(参考訳) 可変重要度を定量化することは、遺伝学、公共政策、医学などの分野における高リスクな質問に答えるために不可欠である。 現在の手法は一般に、与えられたデータセットでトレーニングされた与えられたモデルに対する変数の重要度を計算する。 しかし、あるデータセットに対して、ターゲットとなる結果について等しく説明できる多くのモデルが存在するかもしれない。 さらに、与えられたデータセットの可能なすべての説明を考慮に入れたとしても、これらの洞察は一般化しないかもしれない。 本稿では,すべての優れたモデルの集合における変数の重要性を定量化し,データ分布全体で安定な新しい変数重要度フレームワークを提案する。 私たちのフレームワークは非常に柔軟で、既存のモデルクラスやグローバル変数重要度メトリクスと統合できます。 実験により,提案手法は他の手法が失敗する複雑なシミュレーション環境において,変数重要度ランキングを回復することを示した。 さらに,本フレームワークは,基礎となるデータ分布に対する変数の真の重要性を正確に推定する。 推定器の整合性および有限サンプル誤差率に関する理論的保証を提供する。 最後に、HIV感染者のHIV負荷を予測するためにどの遺伝子が重要であるかを実世界のケーススタディで検証し、これまで研究されていない重要な遺伝子を強調した。 コードはここにある。

Quantifying variable importance is essential for answering high-stakes questions in fields like genetics, public policy, and medicine. Current methods generally calculate variable importance for a given model trained on a given dataset. However, for a given dataset, there may be many models that explain the target outcome equally well; without accounting for all possible explanations, different researchers may arrive at many conflicting yet equally valid conclusions given the same data. Additionally, even when accounting for all possible explanations for a given dataset, these insights may not generalize because not all good explanations are stable across reasonable data perturbations. We propose a new variable importance framework that quantifies the importance of a variable across the set of all good models and is stable across the data distribution. Our framework is extremely flexible and can be integrated with most existing model classes and global variable importance metrics. We demonstrate through experiments that our framework recovers variable importance rankings for complex simulation setups where other methods fail. Further, we show that our framework accurately estimates the true importance of a variable for the underlying data distribution. We provide theoretical guarantees on the consistency and finite sample error rates for our estimator. Finally, we demonstrate its utility with a real-world case study exploring which genes are important for predicting HIV load in persons with HIV, highlighting an important gene that has not previously been studied in connection with HIV. Code is available here.
翻訳日:2023-09-26 17:30:28 公開日:2023-09-24
# 時間依存性縦方向場存在下におけるシェリントン・カークパトリックスピングラスの量子アニール

Quantum Annealing in Sherrington-Kirkpatrick Spin Glass in Presence of Time-Dependent Longitudinal Field ( http://arxiv.org/abs/2309.11822v2 )

ライセンス: Link先を確認
Atanu Rajak and Bikas K Chakrabarti(参考訳) 量子アニール技術を用いた最近の量子技術の発展と、シェリントン・カークパトリック(SK)スピンガラスモデルの静的特性に関する最近の研究により、スピンガラスモデルの量子アニールを横方向および縦方向の両方のフィールドをチューニングすることによって研究した。 両方の体が時間依存され、最終的に同時に消えるとき、全ハミルトニアンの時間依存的なシュル・オーディンガー方程式を解く。 我々は、古典的なスピングラスの2つの退化基底状態のうちの1つで系を見つける確率の時間進化を計算した。 アニーリングの終わりには、構成平均確率を用いて、量子アニーリングのプロセスを通して一定に保つのではなく、縦方向のフィールドがアニーリングされるという明確な利点を示しました。 さらに, 量子SKスピンガラスの小さな長手フィールドの存在下での順序パラメータ分布について検討し, ゼロ長手フィールドの場合と比較してエルゴディディディティの高速化を示す。 我々の推測では、この創発的なエルゴード性は、アニールされた縦磁場による量子アニーリングの利点である。

Motivated by the recent development of quantum technology using quantum annealing technique and the recent works on the static properties of the Sherrington-Kirkpatrick (SK) spin glass model, we study quantum annealing of the spin glass model by tuning both transverse and longitudinal fields. We solve the time-dependent Schr\"odinger equation of the total Hamiltonian when both the fields are made time-dependent and eventually vanish at the same time. We have computed the time-evolution of the probability of finding the system in one of two degenerate ground states of the classical spin glass. At the end of annealing, using the configuration averaged probability, we have shown a clear advantage while the longitudinal field is annealed rather than keeping it constant throughout the process of quantum annealing. We further investigate the order parameter distribution of a quantum SK spin glass in presence of a small longitudinal field and indicate the speeding up of the ergodicity as compared to the zero longitudinal field case. Our speculation is that this emergent ergodicity is responsible for the advantage in quantum annealing with annealed longitudinal field.
翻訳日:2023-09-26 10:47:06 公開日:2023-09-24
# ForceSight:ビジュアルフォースゴールによるテキストガイドモバイル操作

ForceSight: Text-Guided Mobile Manipulation with Visual-Force Goals ( http://arxiv.org/abs/2309.12312v2 )

ライセンス: Link先を確認
Jeremy A. Collins, Cody Houff, You Liang Tan, Charles C. Kemp(参考訳) 本稿では,深層ニューラルネットワークを用いて視覚力目標を予測するテキスト誘導型モバイル操作システムであるForceSightを紹介する。 テキストプロンプトと1つのrgbdイメージを組み合わせると、forcesightはカメラフレーム(キネマティックゴール)と関連する力(フォースゴール)でターゲットエンドエフェクターポーズを決定する。 これら2つのコンポーネントは、視覚力目標を形成する。 先行研究では、人間の解釈可能な運動目標を出力できる深層モデルが、実際のロボットによるデクスタースな操作を可能にすることを実証した。 力は操作に欠かせないが、通常はこれらのシステムでの低レベルの実行に制限されている。 アイインハンドRGBDカメラを備えた移動マニピュレータに配備すると、ForceSightは、トレーニングデータと大きく異なるオブジェクトインスタンスを持つ未確認環境で、精度の把握、引き出しのオープニング、オブジェクトハンドオーバといったタスクを81%の成功率で実行した。 別の実験では、視覚サーボと力の目標の無視にのみ依存することで成功率が90%から45%に低下し、力の目標がパフォーマンスを著しく向上することを示した。 付録、ビデオ、コード、訓練されたモデルはhttps://force-sight.github.io/で入手できる。

We present ForceSight, a system for text-guided mobile manipulation that predicts visual-force goals using a deep neural network. Given a single RGBD image combined with a text prompt, ForceSight determines a target end-effector pose in the camera frame (kinematic goal) and the associated forces (force goal). Together, these two components form a visual-force goal. Prior work has demonstrated that deep models outputting human-interpretable kinematic goals can enable dexterous manipulation by real robots. Forces are critical to manipulation, yet have typically been relegated to lower-level execution in these systems. When deployed on a mobile manipulator equipped with an eye-in-hand RGBD camera, ForceSight performed tasks such as precision grasps, drawer opening, and object handovers with an 81% success rate in unseen environments with object instances that differed significantly from the training data. In a separate experiment, relying exclusively on visual servoing and ignoring force goals dropped the success rate from 90% to 45%, demonstrating that force goals can significantly enhance performance. The appendix, videos, code, and trained models are available at https://force-sight.github.io/.
翻訳日:2023-09-26 10:36:53 公開日:2023-09-24