このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230410となっている論文です。

PDF登録状況(公開日: 20230410)

TitleAuthorsAbstract論文公表日・翻訳日
# ニュース拡散障壁の分類

Classification of news spreading barriers ( http://arxiv.org/abs/2304.08167v1 )

ライセンス: Link先を確認
Abdul Sittar, Dunja Mladenic, Marko Grobelnik(参考訳) ニュースメディアは、情報を国際的に広める最も効果的なメカニズムの1つであり、異なる地域からの多くの出来事が国際的に関係している。 しかし、一部のニュースイベントの報道は、政治的、地理的、経済的、文化的、言語的な情報拡散障壁のため、特定の地理的地域に限定されている。 本稿では,新聞記事の意味をウィキペディアの概念を通して推測するバリア分類手法を提案する。 そこで我々は,ニュース出版社のメタデータを用いて,ニュース記事を収集し,さまざまな障壁に対して注釈を付けた。 そして、ウィキペディアの概念とニュース記事のボディーテキストを、ニュース拡散障壁を推測する機能として活用する。 本稿では,従来のテキスト分類手法,ディープラーニング,トランスフォーマーに基づく手法と比較する。 その結果,ウィキペディアの概念に基づくセマンティック知識を用いた提案手法は,ニュース拡散障壁の分類において,通常の手法よりも優れた性能を示すことがわかった。

News media is one of the most effective mechanisms for spreading information internationally, and many events from different areas are internationally relevant. However, news coverage for some news events is limited to a specific geographical region because of information spreading barriers, which can be political, geographical, economic, cultural, or linguistic. In this paper, we propose an approach to barrier classification where we infer the semantics of news articles through Wikipedia concepts. To that end, we collected news articles and annotated them for different kinds of barriers using the metadata of news publishers. Then, we utilize the Wikipedia concepts along with the body text of news articles as features to infer the news-spreading barriers. We compare our approach to the classical text classification methods, deep learning, and transformer-based methods. The results show that the proposed approach using Wikipedia concepts based semantic knowledge offers better performance than the usual for classifying the news-spreading barriers.
翻訳日:2023-04-23 04:34:07 公開日:2023-04-10
# 物理インフォームドニューラルネットワークを用いた非線形構成材料モデルの学習解:COMM-PINN

Learning solution of nonlinear constitutive material models using physics-informed neural networks: COMM-PINN ( http://arxiv.org/abs/2304.06044v1 )

ライセンス: Link先を確認
Shahed Rezaei, Ahmad Moeineddin and Ali Harandi(参考訳) 非線形, 経路依存的な物質挙動の構成的関係を解くために, 物理インフォームドニューラルネットワークを適用した。 その結果、トレーニングされたネットワークは、すべての熱力学的制約を満たすだけでなく、任意の負荷シナリオにおいて、初期データを必要としない現在の物質状態(自由エネルギー、ストレス、内部変数の進化)に関する情報も即座に提供する。 この研究の利点の1つは、複雑な物質モデルにおける非線形方程式を解くのに必要な繰り返しニュートン反復をバイパスすることである。 さらに、タンジェント演算子を得るために必要な導出順序を減らすための戦略が提供される。 トレーニングされたモデルは、ユーザ定義のマテリアルモデルとして、任意の有限要素パッケージ(または他の数値手法)で直接使用できる。 しかし、コロケーションポイントの適切な定義や、アクティブあるいは非アクティブとなるいくつかの非平等制約の統合には課題が残っている。 本手法は, 非線形硬化法則を用いた古典的フォン・ミセス塑性モデルや, 非線形軟化法則による界面ひび割れ挙動の局所的損傷モデルなど, 速度に依存しないプロセスで検証した。 最後に、この新しいアプローチの今後の発展に向けた可能性と課題について論じる。

We applied physics-informed neural networks to solve the constitutive relations for nonlinear, path-dependent material behavior. As a result, the trained network not only satisfies all thermodynamic constraints but also instantly provides information about the current material state (i.e., free energy, stress, and the evolution of internal variables) under any given loading scenario without requiring initial data. One advantage of this work is that it bypasses the repetitive Newton iterations needed to solve nonlinear equations in complex material models. Additionally, strategies are provided to reduce the required order of derivation for obtaining the tangent operator. The trained model can be directly used in any finite element package (or other numerical methods) as a user-defined material model. However, challenges remain in the proper definition of collocation points and in integrating several non-equality constraints that become active or non-active simultaneously. We tested this methodology on rate-independent processes such as the classical von Mises plasticity model with a nonlinear hardening law, as well as local damage models for interface cracking behavior with a nonlinear softening law. Finally, we discuss the potential and remaining challenges for future developments of this new approach.
翻訳日:2023-04-14 16:58:11 公開日:2023-04-10
# サンプリングに基づく動き計画のための量子探索手法

Quantum Search Approaches to Sampling-Based Motion Planning ( http://arxiv.org/abs/2304.06479v1 )

ライセンス: Link先を確認
Paul Lathrop, Beth Boardman, Sonia Mart\'inez(参考訳) 本稿では,従来のサンプリングベースモーションプランナーを,量子探索アルゴリズムを用いて解くデータベース・オラクル構造として,新しい定式化手法を提案する。 単純なスパース環境の場合、完全ランダムパス解の重ね合わせを作成し、量子振幅増幅 (qaa) で確率振幅を操作する量子全経路探索アルゴリズム (q-fps) を定式化し、単一障害自由全経路解を量子的に測定する。 密集した非構造環境に対しては,親子接続の量子重ね合わせを生成し,qaaで確率振幅を演算し,単一の到達可能な状態を木に追加する量子アルゴリズム q-rrt を高速に探索するランダムツリーアルゴリズムを定式化する。 性能はオラクル呼び出しの数と良い量子状態を測定する確率に依存するため、これらの誤差がアルゴリズムの確率論的完全性にどう影響するかを定量化する。 次に,提案アルゴリズムにおける最適なオラクル呼び出し数を近似するために,期待するデータベース解の数を数値的に推定する。 q-rrtアルゴリズムを古典的実装と比較し、2次元密閉乱数格子の最大連結成分における二次実行速度の検証を行う。 最後に、提案手法を評価してデータベースソリューションの期待数を制限することにより、oracle呼び出しの最適な数を所定の数に制限する。

In this paper, we present a novel formulation of traditional sampling-based motion planners as database-oracle structures that can be solved via quantum search algorithms. We consider two complementary scenarios: for simpler sparse environments, we formulate the Quantum Full Path Search Algorithm (q-FPS), which creates a superposition of full random path solutions, manipulates probability amplitudes with Quantum Amplitude Amplification (QAA), and quantum measures a single obstacle free full path solution. For dense unstructured environments, we formulate the Quantum Rapidly Exploring Random Tree algorithm, q-RRT, that creates quantum superpositions of possible parent-child connections, manipulates probability amplitudes with QAA, and quantum measures a single reachable state, which is added to a tree. As performance depends on the number of oracle calls and the probability of measuring good quantum states, we quantify how these errors factor into the probabilistic completeness properties of the algorithm. We then numerically estimate the expected number of database solutions to provide an approximation of the optimal number of oracle calls in the algorithm. We compare the q-RRT algorithm with a classical implementation and verify quadratic run-time speedup in the largest connected component of a 2D dense random lattice. We conclude by evaluating a proposed approach to limit the expected number of database solutions and thus limit the optimal number of oracle calls to a given number.
翻訳日:2023-04-14 14:36:41 公開日:2023-04-10
# プライバシー利用モビリティモデルの公平性分析

Analysing Fairness of Privacy-Utility Mobility Models ( http://arxiv.org/abs/2304.06469v1 )

ライセンス: Link先を確認
Yuting Zhan, Hamed Haddadi, Afra Mashhadi(参考訳) 空間-時間データセットを共有する際の個人のプライバシを保護することは、ユニークな軌跡に基づく再識別攻撃を防止するために重要である。 既存のプライバシ技術は理想的なプライバシーユーティリティトレードオフを提案する傾向にあるが、モビリティモデルの公平性や、そのようなテクニックがユーザグループ毎に同等に機能するかどうかを無視する傾向にある。 公平性とプライバシーを意識したモデルの間の定量化はまだ不明であり、空間-時間的文脈における公平性を測定するための、定義されたメトリクスセットはほとんど存在しない。 本研究では,トラジェクタの構造的類似性とエントロピーに基づいて,人間の移動のために明示的に設計された公平度指標を定義する。 これらの定義に基づき、GANと表現学習に依存する2つの最先端プライバシ保護モデルの公正性を検証し、データ共有におけるユーザの再識別率を低減する。 以上の結果から,両モデルがグループフェアネスを保証しているが,個々のフェアネス基準に反し,非常に類似したトラジェクトリを持つユーザが異なるプライバシゲインを受けることを示す。 我々は,将来的な空間・時間データ分析およびモデリングにおいて,再識別課題と個々人の公平性との緊張関係を考慮し,プライバシー保全的公平性認識環境を実現する必要があると結論づける。

Preserving the individuals' privacy in sharing spatial-temporal datasets is critical to prevent re-identification attacks based on unique trajectories. Existing privacy techniques tend to propose ideal privacy-utility tradeoffs, however, largely ignore the fairness implications of mobility models and whether such techniques perform equally for different groups of users. The quantification between fairness and privacy-aware models is still unclear and there barely exists any defined sets of metrics for measuring fairness in the spatial-temporal context. In this work, we define a set of fairness metrics designed explicitly for human mobility, based on structural similarity and entropy of the trajectories. Under these definitions, we examine the fairness of two state-of-the-art privacy-preserving models that rely on GAN and representation learning to reduce the re-identification rate of users for data sharing. Our results show that while both models guarantee group fairness in terms of demographic parity, they violate individual fairness criteria, indicating that users with highly similar trajectories receive disparate privacy gain. We conclude that the tension between the re-identification task and individual fairness needs to be considered for future spatial-temporal data analysis and modelling to achieve a privacy-preserving fairness-aware setting.
翻訳日:2023-04-14 14:36:03 公開日:2023-04-10
# 効率的な移動学習に基づくAppleの葉病分類

An Efficient Transfer Learning-based Approach for Apple Leaf Disease Classification ( http://arxiv.org/abs/2304.06520v1 )

ライセンス: Link先を確認
Md. Hamjajul Ashmafee, Tasnim Ahmed, Sabbir Ahmed, Md. Bakhtiar Hasan, Mst Nura Jahan, A.B.M. Ashikur Rahman(参考訳) 植物病の正確な識別と分類は、グローバルな食料供給の安全性と利害関係者の全体的な財務的成功の確保に不可欠である。 この点に関して、さまざまな作物にディープラーニングに基づく分類システムを導入することで、幅広いソリューションが利用可能になった。 世界中の多くの地域で最も重要な商業作物の1つだが、リンゴの葉の病気を自動分類するスマートなソリューションを提案する研究は、まだ明らかになっていない。 本研究は, 転校学習に基づくリンゴ葉病の同定手法を提案する。 本システムは,事前学習した efficientnetv2s アーキテクチャを用いて特徴を抽出し,効果的な予測のために分類ブロックに渡す。 クラス不均衡は、実行時のデータ拡張を利用することによって解決される。 入力分解能,学習速度,エポック数など,様々なハイパーパラメータの影響を慎重に検討した。 提案されたパイプラインの能力は、公開されている 'PlantVillage' データセットからリンゴの葉病サブセットで評価され、99.21%の精度で既存の研究を上回った。

Correct identification and categorization of plant diseases are crucial for ensuring the safety of the global food supply and the overall financial success of stakeholders. In this regard, a wide range of solutions has been made available by introducing deep learning-based classification systems for different staple crops. Despite being one of the most important commercial crops in many parts of the globe, research proposing a smart solution for automatically classifying apple leaf diseases remains relatively unexplored. This study presents a technique for identifying apple leaf diseases based on transfer learning. The system extracts features using a pretrained EfficientNetV2S architecture and passes to a classifier block for effective prediction. The class imbalance issues are tackled by utilizing runtime data augmentation. The effect of various hyperparameters, such as input resolution, learning rate, number of epochs, etc., has been investigated carefully. The competence of the proposed pipeline has been evaluated on the apple leaf disease subset from the publicly available `PlantVillage' dataset, where it achieved an accuracy of 99.21%, outperforming the existing works.
翻訳日:2023-04-14 14:26:32 公開日:2023-04-10
# ワークプレースウェルビーイング技術に労働者は満足できるのか?

Can Workers Meaningfully Consent to Workplace Wellbeing Technologies? ( http://arxiv.org/abs/2303.07242v2 )

ライセンス: Link先を確認
Shreya Chowdhary, Anna Kawakami, Jina Suh, Mary L. Gray, Alexandra Olteanu, Koustuv Saha(参考訳) 職場にデプロイされたセンシング技術は、個々のアクティビティやグループインタラクションに関する詳細なデータを収集することができる。 これらの技術の希望的な応用は、企業や労働者が生産性と幸福を最適化するのを助けることだ。 しかしながら、職場における本質的で構造的な力のダイナミクスを考えると、労働者の有意義な同意を求めるのではなく、労働者活動を監視するために暗黙のコンプライアンスを受け入れるという一般的なアプローチは、プライバシと倫理的懸念を提起する。 本稿では,職場の福祉技術に同意する労働者が直面する課題を整理する。 15名の参加者を対象とする6名の多人数集中グループ間の考察を仮説として,職場センシング技術への参加者の期待と同意能力について検討した。 We sketched possible interventions that could better support more meaningful consent to workplace wellbeing technologies by drawing on critical computing and feminist scholarship -- which reframes consent from a purely individual choice to a structural condition experienced at the individual level that needs to be freely given, reversible, informed, enthusiastic, and specific (FRIES). The focus groups revealed that workers are vulnerable to meaningless consent -- dynamics that undo the value of data gathered in the name of "wellbeing," as well as an erosion of autonomy in the workplace. 有意義な同意を得るために、参加者はテクノロジーの動作や利用方法の変更や、テクノロジーを取り巻くポリシーやプラクティスを望んでいる。 我々の地図は、労働者が職場の健康管理技術(チャレヘス)に有意義に同意することを防ぐものであり、それに必要なもの(干渉)は、意味のある同意の欠如が社会技術的解決を必要とする構造的な問題であることを示している。

Sensing technologies deployed in the workplace can collect detailed data about individual activities and group interactions that are otherwise difficult to capture. A hopeful application of these technologies is that they can help businesses and workers optimize productivity and wellbeing. However, given the inherent and structural power dynamics in the workplace, the prevalent approach of accepting tacit compliance to monitor work activities rather than seeking workers' meaningful consent raises privacy and ethical concerns. This paper unpacks a range of challenges that workers face when consenting to workplace wellbeing technologies. Using a hypothetical case to prompt reflection among six multi-stakeholder focus groups involving 15 participants, we explored participants' expectations and capacity to consent to workplace sensing technologies. We sketched possible interventions that could better support more meaningful consent to workplace wellbeing technologies by drawing on critical computing and feminist scholarship -- which reframes consent from a purely individual choice to a structural condition experienced at the individual level that needs to be freely given, reversible, informed, enthusiastic, and specific (FRIES). The focus groups revealed that workers are vulnerable to meaningless consent -- dynamics that undo the value of data gathered in the name of "wellbeing," as well as an erosion of autonomy in the workplace. To meaningfully consent, participants wanted changes to how the technology works and is being used, as well as to the policies and practices surrounding the technology. Our mapping of what prevents workers from meaningfully consenting to workplace wellbeing technologies (challenges) and what they require to do so (interventions) underscores that the lack of meaningful consent is a structural problem requiring socio-technical solutions.
翻訳日:2023-04-13 17:39:25 公開日:2023-04-10
# SAM.MD:Segment Anything Modelのゼロショット医療画像セグメンテーション機能

SAM.MD: Zero-shot medical image segmentation capabilities of the Segment Anything Model ( http://arxiv.org/abs/2304.05396v1 )

ライセンス: Link先を確認
Saikat Roy, Tassilo Wald, Gregor Koehler, Maximilian R. Rokuss, Nico Disch, Julius Holzschuh, David Zimmerer, Klaus H. Maier-Hein(参考訳) ファウンデーションモデルはプロンプトの柔軟性のため、自然言語処理と画像生成ドメインを引き継いでいる。 最近のSegment Anything Model (SAM)の導入により、このプロンプト駆動のパラダイムは、探索されていない膨大な機能を備えたイメージセグメンテーションに参入した。 本研究の目的は,腹部ct臓器セグメンテーションタスク,ポイントまたはバウンディングボックスベースプロンプトの性能を評価することにより,医用画像セグメンテーションのためのsamのアウト・オブ・ボックス・ゼロショット機能の初期評価を行うことである。 SAMはCTデータに順応し,半自動セグメンテーションツールの進歩の触媒となる可能性が示唆された。 この基礎モデルは,本研究で最先端のセグメンテーション性能には達していないものの,医療領域の複雑化へのさらなる適応の出発点として,極めて強力なものと考えられる。 キーワード:医療画像セグメンテーション、SAM、基礎モデル、ゼロショット学習

Foundation models have taken over natural language processing and image generation domains due to the flexibility of prompting. With the recent introduction of the Segment Anything Model (SAM), this prompt-driven paradigm has entered image segmentation with a hitherto unexplored abundance of capabilities. The purpose of this paper is to conduct an initial evaluation of the out-of-the-box zero-shot capabilities of SAM for medical image segmentation, by evaluating its performance on an abdominal CT organ segmentation task, via point or bounding box based prompting. We show that SAM generalizes well to CT data, making it a potential catalyst for the advancement of semi-automatic segmentation tools for clinicians. We believe that this foundation model, while not reaching state-of-the-art segmentation performance in our investigations, can serve as a highly potent starting point for further adaptations of such models to the intricacies of the medical domain. Keywords: medical image segmentation, SAM, foundation models, zero-shot learning
翻訳日:2023-04-13 17:23:56 公開日:2023-04-10
# SE-ORNet:教師なし点雲形状対応のための自己組織化指向ネットワーク

SE-ORNet: Self-Ensembling Orientation-aware Network for Unsupervised Point Cloud Shape Correspondence ( http://arxiv.org/abs/2304.05395v1 )

ライセンス: Link先を確認
Jiacheng Deng, Chuxin Wang, Jiahao Lu, Jianfeng He, Tianzhu Zhang, Jiyang Yu, Zhe Zhang(参考訳) 教師なしの点雲形状対応は、手動で注釈を付けることなく、点雲間の高密度な点対対応を得ることを目的としている。 しかしながら、人間と一部の動物は左右対称と様々な方向を持ち、対称部分の重大な誤予測を引き起こす。 さらに、点雲ノイズは点雲の一貫した表現を乱し、形状対応精度を低下させる。 上記の課題に対処するため,SE-ORNetと呼ばれる自己組織化指向ネットワークを提案する。 提案手法の鍵となるのは,領域適応判別器を用いた配向推定モジュールを用いて点雲対の配向を調整し,対称部分の誤予測を著しく軽減することである。 さらに,教師なし点雲形状対応のための自己組織化フレームワークを設計する。 この枠組みでは,生徒と教師ネットワークの入力を異なるデータ拡張で摂動させ,予測の一貫性を制約することにより,点雲ノイズの乱れを克服する。 ヒトと動物の両方のデータセットに対する大規模な実験により、SE-ORNetは最先端の教師なしの点雲形状対応法を超越できることが示されている。

Unsupervised point cloud shape correspondence aims to obtain dense point-to-point correspondences between point clouds without manually annotated pairs. However, humans and some animals have bilateral symmetry and various orientations, which lead to severe mispredictions of symmetrical parts. Besides, point cloud noise disrupts consistent representations for point cloud and thus degrades the shape correspondence accuracy. To address the above issues, we propose a Self-Ensembling ORientation-aware Network termed SE-ORNet. The key of our approach is to exploit an orientation estimation module with a domain adaptive discriminator to align the orientations of point cloud pairs, which significantly alleviates the mispredictions of symmetrical parts. Additionally, we design a selfensembling framework for unsupervised point cloud shape correspondence. In this framework, the disturbances of point cloud noise are overcome by perturbing the inputs of the student and teacher networks with different data augmentations and constraining the consistency of predictions. Extensive experiments on both human and animal datasets show that our SE-ORNet can surpass state-of-the-art unsupervised point cloud shape correspondence methods.
翻訳日:2023-04-13 17:23:38 公開日:2023-04-10
# 木構造骨格画像に基づく孤立手話認識

Isolated Sign Language Recognition based on Tree Structure Skeleton Images ( http://arxiv.org/abs/2304.05403v1 )

ライセンス: Link先を確認
David Laines, Gissella Bejarano, Miguel Gonzalez-Mendoza, Gilberto Ochoa-Ruiz(参考訳) サイン言語認識(SLR)システムは、カメラの前で実行されるサインを認識するために、ビデオストリームプラットフォームに埋め込まれることを目的としている。 SLR研究は、RGB情報の代わりにビデオから推定される骨格配列を用いてサインを予測するためのポーズ推定モデルの最近の進歩を活用している。 このアプローチは、HAR関連のタスクをより複雑にし、多様な背景、雷の状態、物理的な外観に対してより堅牢にする。 本研究では,木構造骨格画像(tssi)のような時空間的骨格表現を代替入力として用いることにより,slrのスケルトンベースモデルの精度を向上させる。 TSSIは、スケルトン配列をRGB画像に変換し、このカラムは深さ優先の木の断面順で骨格の関節を表し、行は関節の時間的進化を表し、3つのチャネルは関節の(x, y, z)座標を表す。 我々は,このタイプの入力を用いてDenseNet-121を訓練し,大規模なAmerican Sign Language(ASL)データセットであるWLASLを用いて他の骨格に基づくディープラーニング手法と比較した。 我々のモデル(SL-TSSI-DenseNet)は、他の骨格モデルの現状を克服する。 さらに、データ拡張を含めると、スケルトンベースのモデルとRGBベースのモデルよりも良い結果が得られる。 我々は, アンカラ大学トルコ手言語(TSL)データセット, AUTSL, メキシコ手言語(LSM)データセットに対して, モデルの有効性を評価した。 AUTSLデータセットでは、他のスケルトンベースのモデルと同様の結果が得られる。 lsmデータセットでは、モデルはベースラインよりも高い結果を得る。 コードはhttps://github.com/davidlainesv/SL-TSSI-DenseNetで公開されている。

Sign Language Recognition (SLR) systems aim to be embedded in video stream platforms to recognize the sign performed in front of a camera. SLR research has taken advantage of recent advances in pose estimation models to use skeleton sequences estimated from videos instead of RGB information to predict signs. This approach can make HAR-related tasks less complex and more robust to diverse backgrounds, lightning conditions, and physical appearances. In this work, we explore the use of a spatio-temporal skeleton representation such as Tree Structure Skeleton Image (TSSI) as an alternative input to improve the accuracy of skeleton-based models for SLR. TSSI converts a skeleton sequence into an RGB image where the columns represent the joints of the skeleton in a depth-first tree traversal order, the rows represent the temporal evolution of the joints, and the three channels represent the (x, y, z) coordinates of the joints. We trained a DenseNet-121 using this type of input and compared it with other skeleton-based deep learning methods using a large-scale American Sign Language (ASL) dataset, WLASL. Our model (SL-TSSI-DenseNet) overcomes the state-of-the-art of other skeleton-based models. Moreover, when including data augmentation our proposal achieves better results than both skeleton-based and RGB-based models. We evaluated the effectiveness of our model on the Ankara University Turkish Sign Language (TSL) dataset, AUTSL, and a Mexican Sign Language (LSM) dataset. On the AUTSL dataset, the model achieves similar results to the state-of-the-art of other skeleton-based models. On the LSM dataset, the model achieves higher results than the baseline. Code has been made available at: https://github.com/davidlainesv/SL-TSSI-DenseNet.
翻訳日:2023-04-13 17:13:01 公開日:2023-04-10
# Bures-Wasserstein空間におけるJKOによる前方後方ガウス変動推定

Forward-backward Gaussian variational inference via JKO in the Bures-Wasserstein Space ( http://arxiv.org/abs/2304.05398v1 )

ライセンス: Link先を確認
Michael Diao, Krishnakumar Balasubramanian, Sinho Chewi, Adil Salim(参考訳) 変分推論 (VI) は、ターゲット分布の$\pi$を、トラクタブルな分布族の元によって近似しようとする。 統計学と機械学習の主な関心はガウスVIであり、KL(Kulback-Leibler)の発散をガウス空間上の$\pi$に最小化することで$\pi$を近似する。 本研究では,ガウス変分法 (FB-GVI) アルゴリズムを開発し,ガウス変分法 (FB-GVI) を解く。 我々のアプローチはKL分散の合成構造を利用しており、これはスムーズな項(ポテンシャル)と、ワッサーシュタイン距離を持つガウス・ワッサーシュタイン空間上の非滑らかな項(エントロピー)の和として記述できる。 提案アルゴリズムでは,$\pi$ が log-smooth かつ log-concave である場合と$\pi$ が log-smooth である場合の1次定常解に対する最初の収束保証を得る。

Variational inference (VI) seeks to approximate a target distribution $\pi$ by an element of a tractable family of distributions. Of key interest in statistics and machine learning is Gaussian VI, which approximates $\pi$ by minimizing the Kullback-Leibler (KL) divergence to $\pi$ over the space of Gaussians. In this work, we develop the (Stochastic) Forward-Backward Gaussian Variational Inference (FB-GVI) algorithm to solve Gaussian VI. Our approach exploits the composite structure of the KL divergence, which can be written as the sum of a smooth term (the potential) and a non-smooth term (the entropy) over the Bures-Wasserstein (BW) space of Gaussians endowed with the Wasserstein distance. For our proposed algorithm, we obtain state-of-the-art convergence guarantees when $\pi$ is log-smooth and log-concave, as well as the first convergence guarantees to first-order stationary solutions when $\pi$ is only log-smooth.
翻訳日:2023-04-13 17:12:02 公開日:2023-04-10
# 部分的参加によるハイブリッドフェデレーション学習の収束促進

Accelerating Hybrid Federated Learning Convergence under Partial Participation ( http://arxiv.org/abs/2304.05397v1 )

ライセンス: Link先を確認
Jieming Bian, Lei Wang, Kun Yang, Cong Shen, Jie Xu(参考訳) 過去数年間、フェデレート・ラーニング(FL)は分散機械学習のパラダイムとして人気を博してきた。 flには、集中型サーバの調整の下で共通のモデルを学ぶために協力する分散型データを持つクライアントのグループが含まれており、クライアントのプライバシを保護するために、ローカルデータセットがクライアントを離れないようにし、サーバがモデル集約のみを実行するようにする。 しかし、現実的なシナリオでは、サーバは人口分布を概ね模倣し、学習プロセスを実行する強力な計算能力を持つ少量のデータを集めることができるかもしれない。 これを解決するために、本稿ではハイブリッドFLフレームワークに焦点を当てる。 従来のハイブリッドFL研究は、クライアントとサーバの代替トレーニングが収束速度を向上できることを示したが、クライアントが完全に参加し、部分参加の否定的な効果を無視するシナリオに焦点を当てた。 本稿では,クライアントの部分参加下でのハイブリッドflの理論的解析を行い,部分参加が収束速度の鍵となる制約であることを検証する。 次に、ハイブリッドFLにおけるサーバの2倍の役割を調査するFedCLGというアルゴリズムを提案する。 まず、サーバーはその少量のローカルデータセットを使用してトレーニングステップを処理する必要がある。 第2に、サーバの計算した勾配は、参加するクライアントのトレーニングとサーバの集約を導く必要がある。 本稿では,FedCLG法が最先端手法より優れていることを示す数値実験により理論的知見を検証する。

Over the past few years, Federated Learning (FL) has become a popular distributed machine learning paradigm. FL involves a group of clients with decentralized data who collaborate to learn a common model under the coordination of a centralized server, with the goal of protecting clients' privacy by ensuring that local datasets never leave the clients and that the server only performs model aggregation. However, in realistic scenarios, the server may be able to collect a small amount of data that approximately mimics the population distribution and has stronger computational ability to perform the learning process. To address this, we focus on the hybrid FL framework in this paper. While previous hybrid FL work has shown that the alternative training of clients and server can increase convergence speed, it has focused on the scenario where clients fully participate and ignores the negative effect of partial participation. In this paper, we provide theoretical analysis of hybrid FL under clients' partial participation to validate that partial participation is the key constraint on convergence speed. We then propose a new algorithm called FedCLG, which investigates the two-fold role of the server in hybrid FL. Firstly, the server needs to process the training steps using its small amount of local datasets. Secondly, the server's calculated gradient needs to guide the participated clients' training and the server's aggregation. We validate our theoretical findings through numerical experiments, which show that our proposed method FedCLG outperforms state-of-the-art methods.
翻訳日:2023-04-13 17:11:38 公開日:2023-04-10
# FLUID: フレキシブルシーケンスデータのための統一評価フレームワーク

FLUID: A Unified Evaluation Framework for Flexible Sequential Data ( http://arxiv.org/abs/2007.02519v6 )

ライセンス: Link先を確認
Matthew Wallingford, Aditya Kusupati, Keivan Alizadeh-Vahid, Aaron Walsman, Aniruddha Kembhavi, Ali Farhadi(参考訳) 現在のMLメソッドは、トレーニングデータがID、大規模、ラベル付けされたときに優れている。 理想的でない条件下での学習は、依然としてオープンな課題である。 少数ショット、連続、移動、表現学習のサブフィールドは、悪条件下での学習において大きな進歩を遂げている。 これらのメソッドは、シーケンシャルに到着するデータやトレーニング例の不足など、さまざまな課題に対処するが、MLシステムが生涯にわたって直面する難しい条件は、デプロイ前に予測できないことが多い。 したがって,実践的な環境で学習する上で多くの課題に対処できる汎用MLシステムが必要である。 汎用ML手法の目標に向けた研究を促進するために,新しい統合評価フレームワークであるFLUID(Flexible Sequential Data)を導入する。 FLUIDは、これらのサブフィールドにまたがる技術の比較と統合を可能にしながら、少数ショット、連続、転送、表現学習の目的を統合している。 FLUIDでは、学習者はデータのストリームに直面し、自身の更新方法を選択し、新しいクラスに迅速に適応し、データ分散の変化に対処し、計算の総量を考慮しつつ、シーケンシャルな予測をしなければならない。 我々は,現在のソリューションの利点と限界に関する新たな洞察を与え,解決すべき新たな研究課題を示す,幅広い手法の実験を行う。 より一般的な手法への出発点として、FLUID上の他の評価手法よりも優れた2つの新しいベースラインを提案する。 プロジェクトページ: https://raivn.cs.washington.edu/projects/fluid/

Modern ML methods excel when training data is IID, large-scale, and well labeled. Learning in less ideal conditions remains an open challenge. The sub-fields of few-shot, continual, transfer, and representation learning have made substantial strides in learning under adverse conditions; each affording distinct advantages through methods and insights. These methods address different challenges such as data arriving sequentially or scarce training examples, however often the difficult conditions an ML system will face over its lifetime cannot be anticipated prior to deployment. Therefore, general ML systems which can handle the many challenges of learning in practical settings are needed. To foster research towards the goal of general ML methods, we introduce a new unified evaluation framework - FLUID (Flexible Sequential Data). FLUID integrates the objectives of few-shot, continual, transfer, and representation learning while enabling comparison and integration of techniques across these subfields. In FLUID, a learner faces a stream of data and must make sequential predictions while choosing how to update itself, adapt quickly to novel classes, and deal with changing data distributions; while accounting for the total amount of compute. We conduct experiments on a broad set of methods which shed new insight on the advantages and limitations of current solutions and indicate new research problems to solve. As a starting point towards more general methods, we present two new baselines which outperform other evaluated methods on FLUID. Project page: https://raivn.cs.washington.edu/projects/FLUID/.
翻訳日:2023-04-12 20:18:57 公開日:2023-04-10
# 大偏差理論を用いたエントロピー正規化強化学習

Entropy Regularized Reinforcement Learning Using Large Deviation Theory ( http://arxiv.org/abs/2106.03931v2 )

ライセンス: Link先を確認
Argenis Arriojas, Jacob Adamczyk, Stas Tiomkin and Rahul V. Kulkarni(参考訳) 強化学習(Reinforcement Learning, RL)は、物理学における複雑な最適化問題にますます適用されつつある機械学習における重要な研究分野である。 平行して、物理学の概念はエントロピー規則化RLのような発展とともにRLの重要な進歩に寄与している。 これらの発展は両方の分野に進展をもたらしたが、エントロピー規則化 RL の最適化のための解析的解を求めることは、現在オープンな問題である。 本稿では, エントロピー規則化RLのマッピングと, 希少事象を条件としたマルコフ過程に着目した非平衡統計力学の研究を行う。 長時間限では,強化学習のマルコフ決定過程(mdp)モデルにおける最適方針と最適ダイナミクスの厳密な解析結果を得るために,大偏差理論からのアプローチを適用する。 その結果,エントロピー正規化rlの解析および計算の枠組みが提案され,シミュレーションにより検証された。 この研究で確立されたマッピングは、強化学習と非平衡統計力学の現在の研究を結びつけ、解析的および計算的アプローチをある分野から別の分野へ適用するための新たな道を開く。

Reinforcement learning (RL) is an important field of research in machine learning that is increasingly being applied to complex optimization problems in physics. In parallel, concepts from physics have contributed to important advances in RL with developments such as entropy-regularized RL. While these developments have led to advances in both fields, obtaining analytical solutions for optimization in entropy-regularized RL is currently an open problem. In this paper, we establish a mapping between entropy-regularized RL and research in non-equilibrium statistical mechanics focusing on Markovian processes conditioned on rare events. In the long-time limit, we apply approaches from large deviation theory to derive exact analytical results for the optimal policy and optimal dynamics in Markov Decision Process (MDP) models of reinforcement learning. The results obtained lead to a novel analytical and computational framework for entropy-regularized RL which is validated by simulations. The mapping established in this work connects current research in reinforcement learning and non-equilibrium statistical mechanics, thereby opening new avenues for the application of analytical and computational approaches from one field to cutting-edge problems in the other.
翻訳日:2023-04-12 19:42:54 公開日:2023-04-10
# 変分推論のための単調アルファダイバージェンス最小化

Monotonic Alpha-divergence Minimisation for Variational Inference ( http://arxiv.org/abs/2103.05684v4 )

ライセンス: Link先を確認
Kam\'elia Daudel, Randal Douc and Fran\c{c}ois Roueff(参考訳) 本稿では,変分推論の文脈で$\alpha$-divergence最小化を行う反復アルゴリズムの新たなファミリーを提案する。 それらは、変動分布と後続分布の間の$\alpha$-divergenceの各ステップで体系的に減少することを保証する。 最も一般的な形では、変分分布は混合モデルであり、我々のフレームワークは、この混合モデルの重みと成分パラメータを同時に最適化できる。 提案手法では, 勾配やパワー降下法など, 従来提案されていた様々な手法を応用し, 期待値最大化アルゴリズムに新しい光を当てることができた。 最後に,本手法が複数のマルチモーダルターゲット分布および実データ例において改善結果をもたらすことを示す実証的証拠を提供する。

In this paper, we introduce a novel family of iterative algorithms which carry out $\alpha$-divergence minimisation in a Variational Inference context. They do so by ensuring a systematic decrease at each step in the $\alpha$-divergence between the variational and the posterior distributions. In its most general form, the variational distribution is a mixture model and our framework allows us to simultaneously optimise the weights and components parameters of this mixture model. Our approach permits us to build on various methods previously proposed for $\alpha$-divergence minimisation such as Gradient or Power Descent schemes and we also shed a new light on an integrated Expectation Maximization algorithm. Lastly, we provide empirical evidence that our methodology yields improved results on several multimodal target distributions and on a real data example.
翻訳日:2023-04-12 19:42:09 公開日:2023-04-10
# 紛争時のつぶやき: ウクライナとロシアの戦争に関するTwitterの談話を追跡する公開データセット

Tweets in Time of Conflict: A Public Dataset Tracking the Twitter Discourse on the War Between Ukraine and Russia ( http://arxiv.org/abs/2203.07488v2 )

ライセンス: Link先を確認
Emily Chen, Emilio Ferrara(参考訳) 2022年2月24日、ロシアはウクライナに侵攻した。 その後の時代には、戦争が急速にエスカレートし、平民からニュースアンカーへの洪水が続いた。 ロシアは直ちに世界からの反発と非難に直面した。 戦争は継続するウクライナの人道的・難民危機に寄与し続けているが、紛争の双方への支援と情報戦の文脈において、ソーシャルメディアの利用において第二の戦場がオンライン空間に出現している。 本稿では,2022年2月22日から2022年3月8日までの6300万件以上のつぶやきを,より広い研究コミュニティ向けに公開している。 このデータセットはhttps://github.com/echen102/ukraine-russiaで見ることができる。 我々の予備分析では、ロシア政府スポンサーメディアや他の信頼できない情報をプッシュするドメインとの公的な関与の証拠がすでに示されており、前者はロシア侵攻の当日に活動が急増した。 私たちの望みは、この公開データセットが、ソーシャルメディアが情報拡散、影響力のキャンペーン、草の根の動員などにおいて果たした、絶え間なく進化する役割を、研究コミュニティがより深く理解するのに役立ちます。

On February 24, 2022, Russia invaded Ukraine. In the days that followed, reports kept flooding in from layman to news anchors of a conflict quickly escalating into war. Russia faced immediate backlash and condemnation from the world at large. While the war continues to contribute to an ongoing humanitarian and refugee crisis in Ukraine, a second battlefield has emerged in the online space, both in the use of social media to garner support for both sides of the conflict and also in the context of information warfare. In this paper, we present a collection of over 63 million tweets, from February 22, 2022 through March 8, 2022 that we are publishing for the wider research community to use. This dataset can be found at https://github.com/echen102/ukraine-russia and will be maintained and regularly updated as the war continues to unfold. Our preliminary analysis already shows evidence of public engagement with Russian state sponsored media and other domains that are known to push unreliable information; the former saw a spike in activity on the day of the Russian invasion. Our hope is that this public dataset can help the research community to further understand the ever evolving role that social media plays in information dissemination, influence campaigns, grassroots mobilization, and much more, during a time of conflict.
翻訳日:2023-04-12 19:36:44 公開日:2023-04-10
# Remove, Reduce, Inform: ソーシャルメディアのプラットホームが、コンテンツの誤解を招きかねない、どんなアクションを望んでいるか?

Remove, Reduce, Inform: What Actions do People Want Social Media Platforms to Take on Potentially Misleading Content? ( http://arxiv.org/abs/2202.00799v2 )

ライセンス: Link先を確認
Shubham Atreja, Libby Hemphill, Paul Resnick(参考訳) 誤情報の拡散を減らすために、ソーシャルメディアプラットフォームは、情報警告ラベルの追加、配布の削減、コンテンツの完全削除など、悪質なコンテンツに対する強制措置を取る可能性がある。 しかし、彼らの行動と不行は論争を巻き起こし、党派偏見の主張に悩まされている。 特定のコンテンツアイテムに関しては、一般人がプラットフォームに何をしたいのか、驚くほど不明だ。 368のニュース記事に対する3つの潜在的プラットフォーム行動に対する、政治的にバランスのとれたレートラーの選好に関する実証的な証拠を提供する。 我々の結果は、多くの記事において、どの行動をとるべきかについてのコンセンサスがないことを確認した。 行動の重大さが認識される階層が明確であることに気付き、リサーの大多数が記事に情報ラベルを付け、最少項目を削除したいと願っている。 プラットフォームアクションに値する記事数に関して党派的な違いはなかったが、保守派はリベラルな情報源からのコンテンツに対して幾らかのアクションを好み、その逆も好んだ。 また,「誤解」と「危害」という2つの総合的性質に関する判断が,利率者の多数派がどのような行為を承認するかを判断する効果的な指標となることも見いだした。

To reduce the spread of misinformation, social media platforms may take enforcement actions against offending content, such as adding informational warning labels, reducing distribution, or removing content entirely. However, both their actions and their inactions have been controversial and plagued by allegations of partisan bias. When it comes to specific content items, surprisingly little is known about what ordinary people want the platforms to do. We provide empirical evidence about a politically balanced panel of lay raters' preferences for three potential platform actions on 368 news articles. Our results confirm that on many articles there is a lack of consensus on which actions to take. We find a clear hierarchy of perceived severity of actions with a majority of raters wanting informational labels on the most articles and removal on the fewest. There was no partisan difference in terms of how many articles deserve platform actions but conservatives did prefer somewhat more action on content from liberal sources, and vice versa. We also find that judgments about two holistic properties, misleadingness and harm, could serve as an effective proxy to determine what actions would be approved by a majority of raters.
翻訳日:2023-04-12 19:35:09 公開日:2023-04-10
# 動脈壁マスキングによるCCTA-CPRスキャンにおける石灰化および非石灰化プラークのセグメンテーションの改善

Improving segmentation of calcified and non-calcified plaques on CCTA-CPR scans via masking of the artery wall ( http://arxiv.org/abs/2201.10424v4 )

ライセンス: Link先を確認
Antonio Tejero-de-Pablos, Hiroaki Yamane, Yusuke Kurose, Junichi Iho, Youji Tokunaga, Makoto Horie, Keisuke Nishizawa, Yusaku Hayashi, Yasushi Koyama, Tatsuya Harada(参考訳) 冠動脈内プラークの存在は患者の生命にとって大きなリスクである。 特に、非石灰化プラークは検出が難しく、石灰化プラークよりも破裂しやすいため、大きな課題となる。 現在のディープラーニング技術は、実際の画像の正確なセグメンテーションを可能にするが、医療画像のパフォーマンスは依然として低い。 これは主に、同じ値範囲に落ちる無関係な部分の曖昧さと曖昧なボクセル強度によって引き起こされる。 本稿では,冠動脈のCCTA-CPRスキャンにおける石灰化プラークおよび非石灰化プラークの分画法を提案する。 入力スライスはマスキングされ、壁容器内のボクセルのみがセグメンテーションとして考慮されるため、曖昧性が低下する。 このマスクは、外動脈壁の輪郭だけでなく、内輪郭も提供するディープラーニングベースの容器検出器を介して自動的に生成される。 評価には, 背景, ルーメン, 動脈壁, 石灰化プラーク, 非石灰化プラークの5つの分類のうちの1つとして, それぞれのボクセルを注意深くアノテートしたデータセットを用いた。 また, 異なる種類のマスクを用いて, プラークセグメンテーションにおける容器マスキングの可能性を検証することで, 徹底的な評価を行う。 本手法は, 定量および定性的評価において, 難解な非石灰化プラークであっても, 正確なプラーク形状を実現するために, セグメンテーション性能を著しく向上させる。 また、高精度なマスクを使用する場合には、狭窄などの難易度が分断可能となる。 われわれは,この発見が今後,高性能プラークセグメンテーションの研究につながると信じている。

The presence of plaques in the coronary arteries is a major risk to the patients' life. In particular, non-calcified plaques pose a great challenge, as they are harder to detect and more likely to rupture than calcified plaques. While current deep learning techniques allow precise segmentation of real-life images, the performance in medical images is still low. This is caused mostly by blurriness and ambiguous voxel intensities of unrelated parts that fall on the same value range. In this paper, we propose a novel methodology for segmenting calcified and non-calcified plaques in CCTA-CPR scans of coronary arteries. The input slices are masked so only the voxels within the wall vessel are considered for segmentation, thus, reducing ambiguity. This mask can be automatically generated via a deep learning-based vessel detector, that provides not only the contour of the outer artery wall, but also the inner contour. For evaluation, we utilized a dataset in which each voxel is carefully annotated as one of five classes: background, lumen, artery wall, calcified plaque, or non-calcified plaque. We also provide an exhaustive evaluation by applying different types of masks, in order to validate the potential of vessel masking for plaque segmentation. Our methodology results in a prominent boost in segmentation performance, in both quantitative and qualitative evaluation, achieving accurate plaque shapes even for the challenging non-calcified plaques. Furthermore, when using highly accurate masks, difficult cases such as stenosis become segmentable. We believe our findings can lead the future research for high-performance plaque segmentation.
翻訳日:2023-04-12 19:34:48 公開日:2023-04-10
# ポイントクラウド自己教師型表現学習のためのインプシットオートエンコーダ

Implicit Autoencoder for Point Cloud Self-supervised Representation Learning ( http://arxiv.org/abs/2201.00785v4 )

ライセンス: Link先を確認
Siming Yan, Zhenpei Yang, Haoxiang Li, Chen Song, Li Guan, Hao Kang, Gang Hua, Qixing Huang(参考訳) 本稿では,自己教師付き3次元表現学習における暗黙的表面表現の利用を提唱する。 最も人気のある3D表現、すなわち点雲は、下層の連続した3D表面の離散的なサンプルを含む。 この離散化過程は、3次元形状のサンプリング変動を導入し、真の3次元幾何学の移動可能な知識を開発することが困難になる。 標準的なオートエンコーディングパラダイムでは、エンコーダは3D形状だけでなく、3D形状の特定の離散サンプリングに関する情報を潜在コードにエンコードする。 これは、デコーダによって再構成された点雲は、原点と再構成された点雲の間に完全なマッピングがない限り、受け入れられないと考えられるためである。 本稿では,一般的なポイントクラウドデコーダを暗黙的デコーダに置き換えることで,サンプリング変動問題に対処する単純かつ効果的な手法である暗黙的オートエンコーダ(iae)を提案する。 暗黙のデコーダは、離散標本の不完全さとは無関係に、3次元形状の連続的な表現を再構成する。 広範な実験により、iaeは様々な自己教師付き学習ベンチマークにおいて最先端のパフォーマンスを達成できることが示されている。

This paper advocates the use of implicit surface representation in autoencoder-based self-supervised 3D representation learning. The most popular and accessible 3D representation, i.e., point clouds, involves discrete samples of the underlying continuous 3D surface. This discretization process introduces sampling variations on the 3D shape, making it challenging to develop transferable knowledge of the true 3D geometry. In the standard autoencoding paradigm, the encoder is compelled to encode not only the 3D geometry but also information on the specific discrete sampling of the 3D shape into the latent code. This is because the point cloud reconstructed by the decoder is considered unacceptable unless there is a perfect mapping between the original and the reconstructed point clouds. This paper introduces the Implicit AutoEncoder (IAE), a simple yet effective method that addresses the sampling variation issue by replacing the commonly-used point-cloud decoder with an implicit decoder. The implicit decoder reconstructs a continuous representation of the 3D shape, independent of the imperfections in the discrete samples. Extensive experiments demonstrate that the proposed IAE achieves state-of-the-art performance across various self-supervised learning benchmarks.
翻訳日:2023-04-12 19:33:49 公開日:2023-04-10
# see eye to eye: 教師なしマルチターゲットドメイン適応のためのライダー非依存3d検出フレームワーク

See Eye to Eye: A Lidar-Agnostic 3D Detection Framework for Unsupervised Multi-Target Domain Adaptation ( http://arxiv.org/abs/2111.09450v2 )

ライセンス: Link先を確認
Darren Tsai and Julie Stephany Berrio and Mao Shan and Stewart Worrall and Eduardo Nebot(参考訳) 異なるメーカーとライダーセンサーのモデルとの相違をサンプリングすると、オブジェクトの不整合表現が生じる。 これにより、1つのライダーのために訓練された3D検出器が他のタイプのライダーでテストされると性能が低下する。 ライダー製造の著しい進歩は、機械的、固体的、そして近年では調整可能なスキャンパターンlidarの進歩をもたらした。 後者では、スキャンパターンが調整されるたびにモデルを微調整する必要があることが多い。 我々は,新しい非教師付きマルチターゲットドメイン適応フレームワークの提案により,ユーザによるモデルの微調整を必要とせず,固定およびフレキシブルなスキャンパターンlidarをまたいで最先端の3d検出器の性能を伝達することにより,サンプリングの不一致を明示的に処理する。 提案手法は,基盤となる形状を補間し,異なるライダーの物体の走査パターンを正規化し,検出ネットワークに渡す。 我々は、SEEが公開データセット上で有効であること、最先端の成果を達成できること、そして、我々のフレームワークの産業的応用を証明するために、新しい高解像度ライダーに定量的な結果を提供する。

Sampling discrepancies between different manufacturers and models of lidar sensors result in inconsistent representations of objects. This leads to performance degradation when 3D detectors trained for one lidar are tested on other types of lidars. Remarkable progress in lidar manufacturing has brought about advances in mechanical, solid-state, and recently, adjustable scan pattern lidars. For the latter, existing works often require fine-tuning the model each time scan patterns are adjusted, which is infeasible. We explicitly deal with the sampling discrepancy by proposing a novel unsupervised multi-target domain adaptation framework, SEE, for transferring the performance of state-of-the-art 3D detectors across both fixed and flexible scan pattern lidars without requiring fine-tuning of models by end-users. Our approach interpolates the underlying geometry and normalizes the scan pattern of objects from different lidars before passing them to the detection network. We demonstrate the effectiveness of SEE on public datasets, achieving state-of-the-art results, and additionally provide quantitative results on a novel high-resolution lidar to prove the industry applications of our framework.
翻訳日:2023-04-12 19:33:11 公開日:2023-04-10
# 局所リプシッツ連続勾配を用いた凸最適化の高速化一階法

Accelerated first-order methods for convex optimization with locally Lipschitz continuous gradient ( http://arxiv.org/abs/2206.01209v3 )

ライセンス: Link先を確認
Zhaosong Lu and Sanyou Mei(参考訳) 本稿では,局所リプシッツ連続勾配 (llcg) を用いた凸最適化のための高速化一階法を開発した。 特に,まず非拘束凸最適化をLLCGで検討し,それを解決するための加速近位勾配(APG)法を提案する。 提案するapg法には検証可能な終端基準が与えられ、unconstrained convex と strong convex optimization problem の $\varepsilon$-residual solution を求めるために、${\cal o}(\varepsilon^{-1/2}\log \varepsilon^{-1})$ と ${\cal o}(\log \varepsilon^{-1})$ の演算複雑性が与えられる。 そこで本研究では,llgを用いた制約付き凸最適化について検討し,本提案手法の1つを適用し,それを解決するための一階の近位拡張ラグランジアン法を提案する。 得られた方法は検証可能な終了基準を備えており、拘束された凸と強い凸最適化問題の$\varepsilon$-kkt解を求めるための${\cal o}(\varepsilon^{-1}\log \varepsilon^{-1})$と${\cal o}(\varepsilon^{-1/2}\log \varepsilon^{-1})$の操作複雑性をそれぞれ享受する。 本論文では,凸度パラメータに関する知識が要求される以外,パラメータフリーあるいはほぼパラメータフリーである。 さらに,提案手法の性能を示すために,予備的な数値計算結果を示す。 私たちの知る限りでは、llcgによる凸最適化のための複雑性保証付き1次加速法について、先行研究は行われなかった。 この論文で得られた複雑さのすべては新しい。

In this paper we develop accelerated first-order methods for convex optimization with locally Lipschitz continuous gradient (LLCG), which is beyond the well-studied class of convex optimization with Lipschitz continuous gradient. In particular, we first consider unconstrained convex optimization with LLCG and propose accelerated proximal gradient (APG) methods for solving it. The proposed APG methods are equipped with a verifiable termination criterion and enjoy an operation complexity of ${\cal O}(\varepsilon^{-1/2}\log \varepsilon^{-1})$ and ${\cal O}(\log \varepsilon^{-1})$ for finding an $\varepsilon$-residual solution of an unconstrained convex and strongly convex optimization problem, respectively. We then consider constrained convex optimization with LLCG and propose an first-order proximal augmented Lagrangian method for solving it by applying one of our proposed APG methods to approximately solve a sequence of proximal augmented Lagrangian subproblems. The resulting method is equipped with a verifiable termination criterion and enjoys an operation complexity of ${\cal O}(\varepsilon^{-1}\log \varepsilon^{-1})$ and ${\cal O}(\varepsilon^{-1/2}\log \varepsilon^{-1})$ for finding an $\varepsilon$-KKT solution of a constrained convex and strongly convex optimization problem, respectively. All the proposed methods in this paper are parameter-free or almost parameter-free except that the knowledge on convexity parameter is required. In addition, preliminary numerical results are presented to demonstrate the performance of our proposed methods. To the best of our knowledge, no prior studies were conducted to investigate accelerated first-order methods with complexity guarantees for convex optimization with LLCG. All the complexity results obtained in this paper are new.
翻訳日:2023-04-12 19:26:16 公開日:2023-04-10
# 価値に基づく知識統合によるメモリ効率強化学習

Memory-efficient Reinforcement Learning with Value-based Knowledge Consolidation ( http://arxiv.org/abs/2205.10868v5 )

ライセンス: Link先を確認
Qingfeng Lan, Yangchen Pan, Jun Luo, A. Rupam Mahmood(参考訳) ニューラルネットワークは一般的な関数近似には有望だが、破滅的な忘れによって、非独立あるいは非識別的に分散されたデータをトレーニングすることが難しい。 深層強化学習の標準コンポーネントであるexperience replay bufferは、大きなバッファに経験を格納し、後でトレーニングするために使用することで、忘れ物を減らし、サンプル効率を改善するためによく使用される。 しかし、大きなリプレイバッファは、特にメモリ容量に制限のあるオンボードデバイスやエッジデバイスでは、メモリ負荷が重い。 本稿では,この問題を緩和するために,深層Qネットワークアルゴリズムに基づくメモリ効率向上学習アルゴリズムを提案する。 提案アルゴリズムは,対象Qネットワークから現在のQネットワークへの知識の統合により,高いサンプル効率を低下させる。 ベースライン手法と比較して,本アルゴリズムは機能ベースと画像ベースのタスクの両方において同等あるいは優れた性能を実現し,大規模なリプレイバッファの負担を軽減した。

Artificial neural networks are promising for general function approximation but challenging to train on non-independent or non-identically distributed data due to catastrophic forgetting. The experience replay buffer, a standard component in deep reinforcement learning, is often used to reduce forgetting and improve sample efficiency by storing experiences in a large buffer and using them for training later. However, a large replay buffer results in a heavy memory burden, especially for onboard and edge devices with limited memory capacities. We propose memory-efficient reinforcement learning algorithms based on the deep Q-network algorithm to alleviate this problem. Our algorithms reduce forgetting and maintain high sample efficiency by consolidating knowledge from the target Q-network to the current Q-network. Compared to baseline methods, our algorithms achieve comparable or better performance in both feature-based and image-based tasks while easing the burden of large experience replay buffers.
翻訳日:2023-04-12 19:24:41 公開日:2023-04-10
# BasicTAD: 時間的行動検出のためのRGB専用ベースライン

BasicTAD: an Astounding RGB-Only Baseline for Temporal Action Detection ( http://arxiv.org/abs/2205.02717v3 )

ライセンス: Link先を確認
Min Yang, Guo Chen, Yin-Dong Zheng, Tong Lu, Limin Wang(参考訳) 時間的行動検出(tad)は,映像中の物体検出パイプラインを概ね追従することにより,映像理解コミュニティで広く研究されている。 しかし、2つのストリームの特徴抽出、多段階トレーニング、複雑な時間的モデリング、グローバルコンテキスト融合など、複雑な設計はtadでは珍しくない。 本稿では,TADの新しい技術を導入することを目的としていない。 その代わり、複雑な設計の現在の状況とtadにおける検出効率の低さから、単純で分かりやすいベースラインについて研究する。 単純なベースライン(BasicTAD)では,データサンプリング,バックボーン設計,ネック構造,検出ヘッドといった,TADパイプラインをいくつかの重要なコンポーネントに分解しています。 このベースラインのための各コンポーネントの既存のテクニックを幅広く調査し、さらに重要なのは、設計の単純さのおかげで、パイプライン全体にわたってエンドツーエンドのトレーニングを行います。 その結果、この単純な BasicTAD は、2ストリーム入力を持つ最先端の手法に非常に近い、驚くべきリアルタイム RGB-Only ベースラインが得られる。 さらに,ネットワーク表現における時間的・空間的情報(プラスTAD)の保存により,基本TADをさらに改善する。 実験の結果,我々の PlusTAD は THUMOS14 と FineAction のデータセットにおいて,従来の手法よりも非常に効率的で,はるかに優れていた。 また,提案手法について詳細な可視化と誤差解析を行い,tad問題に関するさらなる知見を提供する。 我々のアプローチは、将来のtad研究の強力なベースラインとなり得る。 コードとモデルはhttps://github.com/mcg-nju/basictadでリリースされる。

Temporal action detection (TAD) is extensively studied in the video understanding community by generally following the object detection pipeline in images. However, complex designs are not uncommon in TAD, such as two-stream feature extraction, multi-stage training, complex temporal modeling, and global context fusion. In this paper, we do not aim to introduce any novel technique for TAD. Instead, we study a simple, straightforward, yet must-known baseline given the current status of complex design and low detection efficiency in TAD. In our simple baseline (termed BasicTAD), we decompose the TAD pipeline into several essential components: data sampling, backbone design, neck construction, and detection head. We extensively investigate the existing techniques in each component for this baseline, and more importantly, perform end-to-end training over the entire pipeline thanks to the simplicity of design. As a result, this simple BasicTAD yields an astounding and real-time RGB-Only baseline very close to the state-of-the-art methods with two-stream inputs. In addition, we further improve the BasicTAD by preserving more temporal and spatial information in network representation (termed as PlusTAD). Empirical results demonstrate that our PlusTAD is very efficient and significantly outperforms the previous methods on the datasets of THUMOS14 and FineAction. Meanwhile, we also perform in-depth visualization and error analysis on our proposed method and try to provide more insights on the TAD problem. Our approach can serve as a strong baseline for future TAD research. The code and model will be released at https://github.com/MCG-NJU/BasicTAD.
翻訳日:2023-04-12 19:24:25 公開日:2023-04-10
# 重ね合わせによるコヒーレント状態と熱状態の高次非古典性の比較

A comparison between higher-order nonclassicalities of superposition engineered coherent and thermal states ( http://arxiv.org/abs/2204.06712v2 )

ライセンス: Link先を確認
Deepak and Arpita Chatterjee(参考訳) a = saa^\dagger+t{a^\dagger}a$ with $s^2+t^2=1$ のフィールド消滅(英語版)と生成(a^\dagger$)の積の一般化された重ね合わせを用いて実験的に得られるsup演算子を考える。 このsup演算子をコヒーレント状態と熱量子状態に適用し、生成した状態をそれぞれsup-operated coherent state (socs) およびsup-operated thermal state (sots) と呼ぶ。 本研究では,SOCSとSOTSの高次非古典的性質の比較研究を行った。 この比較は、非古典性の証人(例えば、高次反ウバンチング、高次準ポアソニアン光子統計、高次スクイージング、アガル・タラパラメータ、クリシュコ条件)を用いて行われる。 SOCSおよびSOTSにおける高次非古典性の存在が初めて研究されている。 提案手法を実験的に検証するために,量子検出器の非単位量子効率が高次非古典性に与える影響を明らかにするために,厳密な計算を行う。 }

We consider an experimentally obtainable SUP operator, defined by using a generalized superposition of products of field annihilation ($a$) and creation ($a^\dagger$) operators of the type, $A = saa^\dagger+t{a^\dagger}a$ with $s^2+t^2=1$. We apply this SUP operator on coherent and thermal quantum states, the states thus produced are referred as SUP-operated coherent state (SOCS) and SUP-operated thermal state (SOTS), respectively. In the present work, we report a comparative study between the higher-order nonclassical properties of SOCS and SOTS. The comparison is performed by using a set of nonclassicality witnesses (e.g., higher-order antiubunching, higher-order sub-Poissonian photon statistics, higher-order squeezing, Agarwal-Tara parameter, Klyshko's condition). The existence of higher-order nonclassicalities in SOCS and SOTS have been investigated for the first time. In view of possible experimental verification of the proposed scheme, we present exact calculations to reveal the effect of non-unit quantum efficiency of quantum detector on higher-order nonclassicalities.}
翻訳日:2023-04-12 19:23:45 公開日:2023-04-10
# 1+1次元量子色力学の量子シミュレーションのための準備:(i)軸ゲージ

Preparations for Quantum Simulations of Quantum Chromodynamics in 1+1 Dimensions: (I) Axial Gauge ( http://arxiv.org/abs/2207.01731v3 )

ライセンス: Link先を確認
Roland C. Farrell, Ivan A. Chernyshev, Sarah J. M. Powell, Nikita A. Zemlevskiy, Marc Illa and Martin J. Savage(参考訳) 1+1 次元量子色力学の量子シミュレーションに必要なツールを開発した。 軸ゲージと2つのクォークのフレーバーで定式化された場合、このシステムは、非局所相互作用によるゲージ場を含む空間的位置当たり12キュービットを必要とする。 古典計算とd波の量子アニーラーの利点はハドロンスペクトルを決定するために使われ、質量の分解とクォークの絡み合いの研究を可能にしている。 格子の端部のスクリーニング長さ内に閉じ込められたカラーエッジ状態が見つかる。 IBM の 7-qubit 量子コンピュータ ibmq_jakarta と ibm_perth は、1つの空間的位置を持つ 1-flavor QCD における自明な真空からのダイナミクスを計算するために用いられる。 より一般的には、1+1$次元のSU(N_c)$ゲージ理論の時間発展のためのハミルトニアン回路と量子回路が開発され、大規模量子シミュレーションのリソース要件が推定される。

Tools necessary for quantum simulations of $1+1$ dimensional quantum chromodynamics are developed. When formulated in axial gauge and with two flavors of quarks, this system requires 12 qubits per spatial site with the gauge fields included via non-local interactions. Classical computations and D-Wave's quantum annealer Advantage are used to determine the hadronic spectrum, enabling a decomposition of the masses and a study of quark entanglement. Color edge states confined within a screening length of the end of the lattice are found. IBM's 7-qubit quantum computers, ibmq_jakarta and ibm_perth, are used to compute dynamics from the trivial vacuum in one-flavor QCD with one spatial site. More generally, the Hamiltonian and quantum circuits for time evolution of $1+1$ dimensional $SU(N_c)$ gauge theory with $N_f$ flavors of quarks are developed, and the resource requirements for large-scale quantum simulations are estimated.
翻訳日:2023-04-12 19:15:58 公開日:2023-04-10
# SCALE: 事前知識のないオンライン自己監督型生涯学習

SCALE: Online Self-Supervised Lifelong Learning without Prior Knowledge ( http://arxiv.org/abs/2208.11266v5 )

ライセンス: Link先を確認
Xiaofan Yu, Yunhui Guo, Sicun Gao, Tajana Rosing(参考訳) 教師なし学習(unsupervised lifelong learning)とは、それまでのパターンを記憶しながら、時間とともに学習する能力を指す。 この方向には大きな進歩があったが、既存の研究はしばしば、入ってくるデータに関する強い事前知識(例えば、クラス境界を知ること)を前提としており、複雑な予測不可能な環境では入手できない。 本稿では,実世界のシナリオに動機づけられ,事前知識のないオンライン自己教師付き生涯学習という,より実用的な問題設定を提案する。 提案手法は,非iid・単一パスデータ,外部監視の欠如,事前知識の欠如などにより困難である。 この課題に対処するため,本研究では,データ連続体からハエの表現を純粋に抽出・記憶できる,事前知識のない自己監督型ContrAstive Lifelong LEarning(SCALE)を提案する。 SCALEは、擬似教師付きコントラスト損失、自己教師付き忘れ損失、一様サブセット選択のためのオンラインメモリ更新の3つの主要なコンポーネントを中心に設計されている。 3つのコンポーネントはすべて、学習パフォーマンスを最大化するために協力的に動作するように設計されている。 iidと4つの非iidデータストリームの下で、スケールの包括的な実験を行う。 その結果、SCALEはCIFAR-10、CIFAR-100、TinyImageNetデータセットのkNN精度で3.83%、2.77%、および5.86%の改善を達成し、最先端のアルゴリズムよりも優れていた。

Unsupervised lifelong learning refers to the ability to learn over time while memorizing previous patterns without supervision. Although great progress has been made in this direction, existing work often assumes strong prior knowledge about the incoming data (e.g., knowing the class boundaries), which can be impossible to obtain in complex and unpredictable environments. In this paper, motivated by real-world scenarios, we propose a more practical problem setting called online self-supervised lifelong learning without prior knowledge. The proposed setting is challenging due to the non-iid and single-pass data, the absence of external supervision, and no prior knowledge. To address the challenges, we propose Self-Supervised ContrAstive Lifelong LEarning without Prior Knowledge (SCALE) which can extract and memorize representations on the fly purely from the data continuum. SCALE is designed around three major components: a pseudo-supervised contrastive loss, a self-supervised forgetting loss, and an online memory update for uniform subset selection. All three components are designed to work collaboratively to maximize learning performance. We perform comprehensive experiments of SCALE under iid and four non-iid data streams. The results show that SCALE outperforms the state-of-the-art algorithm in all settings with improvements up to 3.83%, 2.77% and 5.86% in terms of kNN accuracy on CIFAR-10, CIFAR-100, and TinyImageNet datasets.
翻訳日:2023-04-12 19:07:28 公開日:2023-04-10
# 1次元ボースガスの一般流体力学のベンチマーク

Benchmarks of Generalized Hydrodynamics for 1D Bose Gases ( http://arxiv.org/abs/2208.06614v2 )

ライセンス: Link先を確認
R. S. Watson, S. A. Simmons, and K. V. Kheruntsyan(参考訳) 一般化流体力学(英語版)(ghd)は、可積分および近積分量子多体系における平衡現象を特徴付けるための最近の理論的な手法である。 本稿では,lieb-linigerモデルによって記述された相互作用する1次元ボース気体に対して,代替理論手法の配列に対してその性能をベンチマークする。 特に、様々な相互作用強度と初期平衡温度に対して、局所密度バンプとディップと量子ニュートンのクレードルセットアップの両方の進化について研究する。 ghdは一般に十分に高い温度や強い相互作用で非常によく機能する。 低温と弱い相互作用では、GHDは短い長さスケールで干渉現象を捉えないが、超低温原子実験において有限画像解像度を模した畳み込み平均値に基づく粗い粒度の挙動を記述することができる。 ダブルウェルからシングルウェルトラップのクエンチに基づく量子ニュートンのクレードル構成では、拡散補正のあるghdは古典的なフィールドアプローチの予測と優れた一致を示すことが分かる。

Generalized hydrodynamics (GHD) is a recent theoretical approach that is becoming a go-to tool for characterizing out-of-equilibrium phenomena in integrable and near-integrable quantum many-body systems. Here, we benchmark its performance against an array of alternative theoretical methods, for an interacting one-dimensional Bose gas described by the Lieb-Liniger model. In particular, we study the evolution of both a localized density bump and dip, along with a quantum Newton's cradle setup, for various interaction strengths and initial equilibrium temperatures. We find that GHD generally performs very well at sufficiently high temperatures or strong interactions. For low temperatures and weak interactions, we highlight situations where GHD, while not capturing interference phenomena on short lengthscales, can describe a coarse-grained behaviour based on convolution averaging that mimics finite imaging resolution in ultracold atom experiments. In a quantum Newton's cradle setup based on a double-well to single-well trap quench, we find that GHD with diffusive corrections demonstrates excellent agreement with the predictions of a classical field approach.
翻訳日:2023-04-12 19:05:44 公開日:2023-04-10
# 小型非iidクライアントデータセット上でのデュアルエンコーディングモデルのフェデレーショントレーニング

Federated Training of Dual Encoding Models on Small Non-IID Client Datasets ( http://arxiv.org/abs/2210.00092v2 )

ライセンス: Link先を確認
Raviteja Vemulapalli, Warren Richard Morningstar, Philip Andrew Mansfield, Hubert Eichner, Karan Singhal, Arash Afkanpour, Bradley Green(参考訳) 一対の入力を符号化するデュアルエンコーディングモデルは、表現学習に広く使われている。 多くのアプローチは、集中的なトレーニングデータ上のペアのエンコーディングの一致を最大化することで、デュアルエンコーディングモデルを訓練する。 しかし、多くのシナリオでは、データセットは本質的に多くのクライアント(ユーザデバイスや組織)で分散化されています。 本研究では,非IID(非独立かつ同一の分散)クライアントデータセットを多数含む分散データに対して,二重符号化モデルのフェデレーショントレーニングを行う。 我々は,この設定に対して,フェデレート平均化を用いて鼻で適応した場合,集中型設定でうまく機能する既存のアプローチが不十分であることを示す。 我々は,エンコーディング統計に基づく損失関数に対して,個々のクライアントに対する大きなバッチ損失計算をシミュレートできることを示す。 そこで本研究では,データサンプルを個別に共有することなく,クライアント間で集約された符号化統計量を用いて二重符号化モデルを訓練する分散相互相関最適化(DCCO)を提案する。 2つのデータセットに対する実験結果から,提案手法が既存手法のフェデレーション変動を大きなマージンで上回ることを示した。

Dual encoding models that encode a pair of inputs are widely used for representation learning. Many approaches train dual encoding models by maximizing agreement between pairs of encodings on centralized training data. However, in many scenarios, datasets are inherently decentralized across many clients (user devices or organizations) due to privacy concerns, motivating federated learning. In this work, we focus on federated training of dual encoding models on decentralized data composed of many small, non-IID (independent and identically distributed) client datasets. We show that existing approaches that work well in centralized settings perform poorly when naively adapted to this setting using federated averaging. We observe that, we can simulate large-batch loss computation on individual clients for loss functions that are based on encoding statistics. Based on this insight, we propose a novel federated training approach, Distributed Cross Correlation Optimization (DCCO), which trains dual encoding models using encoding statistics aggregated across clients, without sharing individual data samples. Our experimental results on two datasets demonstrate that the proposed DCCO approach outperforms federated variants of existing approaches by a large margin.
翻訳日:2023-04-12 18:59:06 公開日:2023-04-10
# 自己安定化:安定の端におけるグラディエント輝きの差し迫ったバイアス

Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of Stability ( http://arxiv.org/abs/2209.15594v2 )

ライセンス: Link先を確認
Alex Damian, Eshaan Nichani, Jason D. Lee(参考訳) 勾配降下の伝統的な分析によれば、ヘッセンの最大固有値(シャープネス $s(\theta)$)が2/\eta$で境界付けられたとき、トレーニングは「安定」であり、トレーニング損失は単調に減少する。 しかし、最近の研究で、この仮定は、完全バッチまたは大規模なバッチ勾配勾配で現代的なニューラルネットワークをトレーニングする際には成立しない。 最近では Cohen et al. (2021) が2つの重要な現象を観測している。 第一はプログレッシブ・シャープニング(progressive sharpening)と呼ばれ、トレーニング中、不安定なカットオフに達するまで鋭さは着実に増加する。 第二に、安定性の端と呼ばれるシャープネスは、トレーニングの残り期間は2/\eta$でホバリングするが、損失は減少し続けている。 不安定性からHessianの上固有ベクトル方向の反復が分岐するにつれて、損失関数の局所テイラー展開における立方項は、安定性が回復するまで曲率を減少させる。 この性質は自己安定化と呼ばれ、勾配降下の一般的な性質であり、安定性の端での挙動を説明する。 自己安定化の鍵となる結果として、安定性の端における勾配降下は、制約 $S(\theta) \le 2/\eta$ の下で、暗黙的に射影勾配降下 (PGD) に従う。 本分析は, PGD軌道の損失, 鋭さ, 偏差を, 訓練を通して正確に予測し, 多くの標準条件および理論上は温和条件下で実証的に検証する。 本解析は,勾配降下の安定性に対する暗黙のバイアスのメカニズムを明らかにする。

Traditional analyses of gradient descent show that when the largest eigenvalue of the Hessian, also known as the sharpness $S(\theta)$, is bounded by $2/\eta$, training is "stable" and the training loss decreases monotonically. Recent works, however, have observed that this assumption does not hold when training modern neural networks with full batch or large batch gradient descent. Most recently, Cohen et al. (2021) observed two important phenomena. The first, dubbed progressive sharpening, is that the sharpness steadily increases throughout training until it reaches the instability cutoff $2/\eta$. The second, dubbed edge of stability, is that the sharpness hovers at $2/\eta$ for the remainder of training while the loss continues decreasing, albeit non-monotonically. We demonstrate that, far from being chaotic, the dynamics of gradient descent at the edge of stability can be captured by a cubic Taylor expansion: as the iterates diverge in direction of the top eigenvector of the Hessian due to instability, the cubic term in the local Taylor expansion of the loss function causes the curvature to decrease until stability is restored. This property, which we call self-stabilization, is a general property of gradient descent and explains its behavior at the edge of stability. A key consequence of self-stabilization is that gradient descent at the edge of stability implicitly follows projected gradient descent (PGD) under the constraint $S(\theta) \le 2/\eta$. Our analysis provides precise predictions for the loss, sharpness, and deviation from the PGD trajectory throughout training, which we verify both empirically in a number of standard settings and theoretically under mild conditions. Our analysis uncovers the mechanism for gradient descent's implicit bias towards stability.
翻訳日:2023-04-12 18:58:45 公開日:2023-04-10
# 1+1次元における量子色力学の量子シミュレーションの準備: (II)単一バリオン$\beta$-Decayをリアルタイムに

Preparations for Quantum Simulations of Quantum Chromodynamics in 1+1 Dimensions: (II) Single-Baryon $\beta$-Decay in Real Time ( http://arxiv.org/abs/2209.10781v3 )

ライセンス: Link先を確認
Roland C. Farrell, Ivan A. Chernyshev, Sarah J. M. Powell, Nikita A. Zemlevskiy, Marc Illa and Martin J. Savage(参考訳) 1次元の2相格子理論におけるハドロンと原子核の実時間弱崩壊の量子シミュレーションのための枠組みを提案する。 標準模型の1世代は、ジョルダン・ウィグナー変換を通じてスピン作用素に写像した後、空間格子サイトあたり16 qubitsを必要とする。 量子色力学とフレーバー交換弱い相互作用の両方がダイナミクスに含まれており、後者は4フェルミ効果作用素である。 この格子理論に時間的発展をもたらす量子回路が開発され、1つの格子上の1バリオンの$\beta$-decayをシミュレートするためにQuantinuumの20量子ビットトラップイオン系上で動作している。 これらのシミュレーションには初期状態の準備が含まれており、1つの時間ステップと2つの時間ステップの両方で実行される。 このタイプの格子理論の潜在的な固有誤差補正特性を議論し、ニュートリノマヨラナ質量項によって誘導される核の$0\nu\beta\beta$-decayをシミュレートするために必要とされる格子ハミルトンを導く。

A framework for quantum simulations of real-time weak decays of hadrons and nuclei in a 2-flavor lattice theory in one spatial dimension is presented. A single generation of the Standard Model is found to require 16 qubits per spatial lattice site after mapping to spin operators via the Jordan-Wigner transformation. Both quantum chromodynamics and flavor-changing weak interactions are included in the dynamics, the latter through four-Fermi effective operators. Quantum circuits which implement time evolution in this lattice theory are developed and run on Quantinuum's H1-1 20-qubit trapped ion system to simulate the $\beta$-decay of a single baryon on one lattice site. These simulations include the initial state preparation and are performed for both one and two Trotter time steps. The potential intrinsic error-correction properties of this type of lattice theory are discussed and the leading lattice Hamiltonian required to simulate $0\nu\beta\beta$-decay of nuclei induced by a neutrino Majorana mass term is provided.
翻訳日:2023-04-12 18:57:25 公開日:2023-04-10
# パルスドットドナー核スピン間の分散キャビティを介する量子ゲート

Dispersive cavity-mediated quantum gate between driven dot-donor nuclear spins ( http://arxiv.org/abs/2209.10026v2 )

ライセンス: Link先を確認
Jonas Mielke and Guido Burkard(参考訳) 核スピンは、非常に長いコヒーレンス時間を示すが、核スピン量子ビットの制御に関しては、その環境からの良好な隔離が課題である。 特に難しいのは、核スピン量子ビットだけでなく、遠い量子ビット間の2量子ゲートの実現である。 近年、電子スピンとマイクロ波共振器光子との強い結合と、共振系と分散系の両方で2つの電子スピンを媒介するマイクロ波共振器との結合が報告されており、マイクロ波共振器を媒介とする電子スピン2量子ゲートが到達しているようである。 これらの知見に触発されて、我々はマイクロ波共振器とSiホスト材料に埋め込まれたゲート定義Si QDと側方置換$^{31}$Pリンドナー原子からなるハイブリッド量子ドットドナー(QDD)システムとの相互作用を理論的に検討した。 QDDシステムの駆動は、MHz系におけるドナー核スピン分裂とGHz系における典型的な超伝導共振器周波数との周波数ミスマッチを補償し、有効な核スピン光子結合を可能にする。 この結合が弱くなると予想する一方で、マイクロ波共振器に分散して2つの離れたQDD系の核スピンを結合することで、共振器を媒介する核スピンを2-qubit $\sqrt{i\mathrm{SWAP}}$ゲートで実装できると予測する。

Nuclear spins show exceptionally long coherence times but the underlying good isolation from their environment is a challenge when it comes to controlling nuclear spin qubits. A particular difficulty, not only for nuclear spin qubits, is the realization of two-qubit gates between distant qubits. Recently, strong coupling between an electron spin and microwave resonator photons as well as a microwave resonator mediated coupling between two electron spins both in the resonant and the dispersive regime have been reported and, thus, a microwave resonator mediated electron spin two qubit gate seems to be in reach. Inspired by these findings, we theoretically investigate the interaction of a microwave resonator with a hybrid quantum dot-donor (QDD) system consisting of a gate defined Si QD and a laterally displaced $^{31}$P phosphorous donor atom implanted in the Si host material. We find that driving the QDD system allows to compensate the frequency mismatch between the donor nuclear spin splitting in the MHz regime and typical superconducting resonator frequencies in the GHz regime, and also enables an effective nuclear spin-photon coupling. While we expect this coupling to be weak, we predict that coupling the nuclear spins of two distant QDD systems dispersively to the microwave resonator allows the implementation of a resonator mediated nuclear spin two-qubit $\sqrt{i\mathrm{SWAP}}$ gate with a gate fidelity approaching $90\%$.
翻訳日:2023-04-12 18:56:57 公開日:2023-04-10
# 古典力学における演算子形式主義からの南武ブラケットの量子化

Quantization of Nambu Brackets from Operator Formalism in Classical Mechanics ( http://arxiv.org/abs/2209.09798v3 )

ライセンス: Link先を確認
So Katagiri(参考訳) 本稿では,古典力学におけるナムブ括弧の数値化法を提案する。 このアプローチは「プランク微分」をナンブ括弧の表現として導入し、そこからナンブ括弧の量子化に対する可換関係を導出する。 興味深いことに、この関係はb-場を持つねじれたトーラスにおける閉弦の t-双対性から生じる可換関係と一致し、二重場理論との関係を示唆している。 この研究は、m-理論の基本的な対象であるm2-ブレーンの量子化に寄与するだけでなく、物理的および基礎的な観点から、特に量子化の概念から量子論の性質に関するさらなる議論を引き起こす可能性を持っている。

This paper proposes a novel approach to quantizing Nambu brackets in classical mechanics using operator formalism. The approach introduces the ``Planck derivative'' as a representation of Nambu brackets, from which a commutation relation for the quantization of Nambu Brackets is derived. Interestingly, this relation coincides with the commutation relation resulting from the T-duality of closed strings in a twisted torus with a B-field, suggesting a relation with Double Field Theory. The research not only contributes to the quantization of the M2-brane, a fundamental object of M-theory, but also has the potential to provoke further discussions on the nature of quantum theory from a physical and fundamental perspective, specifically, the concept of quantization.
翻訳日:2023-04-12 18:56:27 公開日:2023-04-10
# 核融合測定による量子プロセッサ上のAKLT状態の決定論的定数深度測定

Deterministic constant-depth preparation of the AKLT state on a quantum processor using fusion measurements ( http://arxiv.org/abs/2210.17548v2 )

ライセンス: Link先を確認
Kevin C. Smith, Eleanor Crane, Nathan Wiebe, S. M. Girvin(参考訳) spin-1 affleck, kennedy, lieb and tasaki (aklt)モデルの基底状態は、行列積状態と対称性保護位相相の両方のパラダイム的例であり、さらにpromiseを計測に基づく量子計算の資源状態として持つ。 非ゼロ相関長を持つaklt状態は、局所ゲートからなる定深さユニタリ回路では正確には作成できない。 本研究は, システムサイズに依存せず, 完全に決定論的であるような, 固定深度回路を融合測定で拡張することにより, このノーゴー限界を回避できることを実証する。 さらに、AKLT状態の$\mathbb{Z}_2\times\mathbb{Z}_2$対称性が、以前に知られていた準備法よりも直接このスピードアップを得られることを示す。 ノイズの多い中規模量子(NISQ)デバイスにおける計測補助準備の実用的利点を示すため,我々はIBM Quantumプロセッサ上でプロトコルを実行する。 得られたAKLT鎖の弦次数および絡み合いスペクトルを計測し,これらを指標として,既知の(純ユニタリな)逐次準備法よりも改善された結果を求める。 測定支援方式で作成したAKLT状態を用いた量子テレポーテーションの実証を行った。 この研究は、AKLT状態の形で特定の資源を調製する効率的な戦略を提供し、より広範に、NISQ時代のデバイス上での測定に基づく回路深度低減戦略によって得られる状態準備が実現可能な改善の可能性を示す。

The ground state of the spin-1 Affleck, Kennedy, Lieb and Tasaki (AKLT) model is a paradigmatic example of both a matrix product state and a symmetry-protected topological phase, and additionally holds promise as a resource state for measurement-based quantum computation. Having a nonzero correlation length, the AKLT state cannot be exactly prepared by a constant-depth unitary circuit composed of local gates. In this work, we demonstrate that this no-go limit can be evaded by augmenting a constant-depth circuit with fusion measurements, such that the total preparation time is independent of system size and entirely deterministic. We elucidate our preparation scheme using the language of tensor networks, and furthermore show that the $\mathbb{Z}_2\times\mathbb{Z}_2$ symmetry of the AKLT state directly affords this speed-up over previously known preparation methods. To demonstrate the practical advantage of measurement-assisted preparation on noisy intermediate-scale quantum (NISQ) devices, we carry out our protocol on an IBM Quantum processor. We measure both the string order and entanglement spectrum of prepared AKLT chains and, employing these as metrics, find improved results over the known (purely unitary) sequential preparation approach. We conclude with a demonstration of quantum teleportation using the AKLT state prepared by our measurement-assisted scheme. This work thus serves to provide an efficient strategy to prepare a specific resource in the form of the AKLT state and, more broadly, experimentally demonstrates the possibility for realizable improvement in state preparation afforded by measurement-based circuit depth reduction strategies on NISQ-era devices.
翻訳日:2023-04-12 18:49:29 公開日:2023-04-10
# 量子ビットの連続測定誘起ダイナミクスにおける量子リセット

Quantum resetting in continuous measurement induced dynamics of a qubit ( http://arxiv.org/abs/2210.15188v2 )

ライセンス: Link先を確認
Varun Dubey, Raphael Chetrite, Abhishek Dhar(参考訳) 連続的に監視されるが、ゼノの影響を避けるように調整された検出器との相互作用によって観測される2状態系の進化について検討する。 このシステムは、準備されたプローブのシーケンスと相互作用することができる。 相互作用後のプローブ状態が測定され、これによってシステムの状態ベクトルの確率的進化が導かれる。 システムの効果的な進化は、決定論的ドリフトと、瞬時状態ベクトルに依存する速度で固定状態への確率的再設定からなる。 検出器の読み出しはカウント処理である。 本研究では,検出事象数分布と確率分布の時間変化に関する解析結果を得る。 このモデルに関する初期の研究は、測定率を上げるための定常状態の形で遷移を発見した。 ここでは、ダイナミクスに見られる遷移を研究する。 スピンオフとして、拡散、ドリフトおよび位置依存ジャンプ率を持つ一般的な確率的リセット過程に対して、確率分布の進化のための正確かつ一般的な解を得る。

We study the evolution of a two-state system that is monitored continuously but with interactions with the detector tuned so as to avoid the Zeno affect. The system is allowed to interact with a sequence of prepared probes. The post-interaction probe states are measured and this leads to a stochastic evolution of the system's state vector, which can be described by a single angle variable. The system's effective evolution consists of a deterministic drift and a stochastic resetting to a fixed state at a rate that depends on the instantaneous state vector. The detector readout is a counting process. We obtain analytic results for the distribution of number of detector events and the time-evolution of the probability distribution. Earlier work on this model found transitions in the form of the steady state on increasing the measurement rate. Here we study transitions seen in the dynamics. As a spin-off we obtain, for a general stochastic resetting process with diffusion, drift and position dependent jump rates, an exact and general solution for the evolution of the probability distribution.
翻訳日:2023-04-12 18:48:33 公開日:2023-04-10
# 機械の悪魔: 仕事を抽出し、変動するナノシステムからエントロピーを吸収する学習

Demon in the machine: learning to extract work and absorb entropy from fluctuating nanosystems ( http://arxiv.org/abs/2211.10853v2 )

ライセンス: Link先を確認
Stephen Whitelam(参考訳) 我々はモンテカルロと遺伝的アルゴリズムを用いて、変動するナノシステムのニューラルネットワークフィードバック制御プロトコルを訓練する。 これらのプロトコルは、フィードバックプロセスによって得られた情報を熱または作業に変換し、光トラップによって引き起こされたコロイド粒子からの作業の抽出と、磁化反転するイジングモデルによるエントロピーの吸収を可能にする。 学習フレームワークは、システムの事前の知識を必要とせず、実験的にアクセス可能な測定のみに依存し、かなり複雑なシステムにスケールする。 研究室では、測定情報を保存された作業や熱に変換するナノシステムの変動のプロトコルを学ぶのに使うことができる。

We use Monte Carlo and genetic algorithms to train neural-network feedback-control protocols for simulated fluctuating nanosystems. These protocols convert the information obtained by the feedback process into heat or work, allowing the extraction of work from a colloidal particle pulled by an optical trap and the absorption of entropy by an Ising model undergoing magnetization reversal. The learning framework requires no prior knowledge of the system, depends only upon measurements that are accessible experimentally, and scales to systems of considerable complexity. It could be used in the laboratory to learn protocols for fluctuating nanosystems that convert measurement information into stored work or heat.
翻訳日:2023-04-12 18:38:55 公開日:2023-04-10
# 量子回路最適化器の合成

Synthesizing Quantum-Circuit Optimizers ( http://arxiv.org/abs/2211.09691v2 )

ライセンス: Link先を確認
Amanda Xu, Abtin Molavi, Lauren Pick, Swamit Tannu, Aws Albarghouthi(参考訳) 短期量子コンピュータは、各操作がノイズを抱え、エラー訂正を行わない環境で動作することが期待されている。 したがって、量子回路オプティマイザを適用してノイズの少ない演算を最小化する。 現在、物理学者は新しい装置やアーキテクチャを常に実験している。 新しい物理基板と量子コンピュータのあらゆる修正のためには、オプティマイザの主要部分を修正または書き換えて実験を成功させる必要があります。 本稿では,量子回路オプティマイザを自動的に合成する効率的な手法であるquesoを提案する。 例えば1.2分で、QUESOは様々なベンチマークスイートの回路の大部分(85%)において、IBMのQiskitやTKETのような主要なコンパイラを著しく上回っているIBMコンピュータに対して高い確率の正当性を保証するオプティマイザを合成できる。 QUESO:(1)書き換え規則とその意味論を表現する代数的アプローチ。 これにより、既存のテクニックの範囲を超えた複雑なシンボリックリライトルールの推論が容易になる。 2) 多項式同一性テストの特殊な形式に問題を縮小することにより, 量子回路の等価性を確率的に検証するための高速アプローチ。 (3) 書き直し規則を効率的に合成するための新しい確率的データ構造である多項式等式フィルタ(PIF)。 (4) 合成記号書き換え規則を量子回路の最適化に効率的に適用するビーム探索に基づくアルゴリズム。

Near-term quantum computers are expected to work in an environment where each operation is noisy, with no error correction. Therefore, quantum-circuit optimizers are applied to minimize the number of noisy operations. Today, physicists are constantly experimenting with novel devices and architectures. For every new physical substrate and for every modification of a quantum computer, we need to modify or rewrite major pieces of the optimizer to run successful experiments. In this paper, we present QUESO, an efficient approach for automatically synthesizing a quantum-circuit optimizer for a given quantum device. For instance, in 1.2 minutes, QUESO can synthesize an optimizer with high-probability correctness guarantees for IBM computers that significantly outperforms leading compilers, such as IBM's Qiskit and TKET, on the majority (85%) of the circuits in a diverse benchmark suite. A number of theoretical and algorithmic insights underlie QUESO: (1) An algebraic approach for representing rewrite rules and their semantics. This facilitates reasoning about complex symbolic rewrite rules that are beyond the scope of existing techniques. (2) A fast approach for probabilistically verifying equivalence of quantum circuits by reducing the problem to a special form of polynomial identity testing. (3) A novel probabilistic data structure, called a polynomial identity filter (PIF), for efficiently synthesizing rewrite rules. (4) A beam-search-based algorithm that efficiently applies the synthesized symbolic rewrite rules to optimize quantum circuits.
翻訳日:2023-04-12 18:38:42 公開日:2023-04-10
# 回路qedにおけるコヒーレント状態からの絡み合い状態の生成

Generating entangled states from coherent states in circuit-QED ( http://arxiv.org/abs/2212.14295v2 )

ライセンス: Link先を確認
Shi-fan Qi and Jun Jing(参考訳) 絡み合った状態は、量子通信や量子情報処理における幅広い応用において、自明に重要である。 2つのマイクロ波共振器のベル状態とNOON状態を生成するための効率よく便利な2段階プロトコルを提案する。 特に、分散状態における超伝導の$\Lambda$-type qutritに結合した共振器に有効なハミルトニアンを導出する。 クォート遷移周波数の励起数依存のスタークシフトにより、慎重に調整されたマイクロ波駆動信号を用いて、関連するクォート遷移に関連する共振器の特定のフォック状態の振幅を個別に制御できる。 これにより、典型的な進化測定手順により、フォック空間における任意の二部絡み状態を生成することができる。 マイクロ波駆動強度と周波数の系統的誤差、全成分の量子デコヒーレンス、および2つの共振器のクロストークに対して、望ましくない状態遷移とプロトコルのロバスト性を分析した。 さらに、我々はプロトコルを$\Xi$-type qutritで同様のシナリオに拡張できることを実証した。

Entangled states are self-evidently important to a wide range of applications in quantum communication and quantum information processing. We propose an efficient and convenient two-step protocol for generating Bell states and NOON states of two microwave resonators from merely coherent states. In particular, we derive an effective Hamiltonian for resonators coupled to a superconducting $\Lambda$-type qutrit in the dispersive regime. By the excitation-number-dependent Stark shifts of the qutrit transition frequencies, we are able to individually control the amplitudes of specified Fock states of the resonators associated with relevant qutrit transition, using carefully tailored microwave drive signals. Thereby an arbitrary bipartite entangled state in Fock space can be generated by a typical evolution-and-measurement procedure. We analysis the undesired state transitions and the robustness of our protocol against the systematic errors from the microwave driving intensity and frequency, the quantum decoherence of all components, and the crosstalk of two resonators. In addition, we demonstrate that our protocol can be extended to a similar scenario with a $\Xi$-type qutrit.
翻訳日:2023-04-12 18:28:54 公開日:2023-04-10
# 有害なミームで実体を特徴づける: ヒーロー、悪役、被害者は誰なのか?

Characterizing the Entities in Harmful Memes: Who is the Hero, the Villain, the Victim? ( http://arxiv.org/abs/2301.11219v2 )

ライセンス: Link先を確認
Shivam Sharma, Atharva Kulkarni, Tharun Suresh, Himanshi Mathur, Preslav Nakov, Md. Shad Akhtar, Tanmoy Chakraborty(参考訳) ミームは、視覚情報とテキスト情報を簡単に要約できる方法で組み合わせることで、ソーシャルメディアに対して人々の意見を妨げうる。 ミームはすぐにウイルスとなるので、必要に応じて時間的措置をとるために、その意図や関連する有害性を推測することが重要である。 ミーム理解に関連する一般的な問題は、参照されるエンティティを検出し、これらのエンティティの役割を特徴付けることである。 ここでは、ミームが参照する各エンティティを栄光し、悪用し、または犠牲にするかどうかを理解することを目的としている。 この目的のために,有害ミームにおける物質の役割識別の課題,すなわち,ミームにおいて誰が「ヒーロー」,「悪役」,「犠牲者」を検知する課題に対処する。 hvvmemes - 米国の政治とcovid-19に関するミームデータセットで、先日、constraint@acl-2022共有タスクの一部としてリリースされた。 ミーム、言及された実体、それに付随する役割、英雄、悪役、犠牲者などが含まれる。 VECTOR (Visual-semantic role dEteCToR) は,マルチモーダル表現にエンティティベースのコンテキスト情報を統合し,複数の標準ユニモーダル (text-only, image-only) モデルやマルチモーダル (image+text) モデルと比較する。 実験の結果,提案モデルでは,最高のベースラインに対して4%,最も競合するスタンドアローンのサブミッションに対して1%の改善が得られた。 比較分析による広範な実験的な設定の分割に加えて,最終的に,ミーム内のセマンティクスロールラベリングの複雑な課題に直面する課題を浮き彫りにする。

Memes can sway people's opinions over social media as they combine visual and textual information in an easy-to-consume manner. Since memes instantly turn viral, it becomes crucial to infer their intent and potentially associated harmfulness to take timely measures as needed. A common problem associated with meme comprehension lies in detecting the entities referenced and characterizing the role of each of these entities. Here, we aim to understand whether the meme glorifies, vilifies, or victimizes each entity it refers to. To this end, we address the task of role identification of entities in harmful memes, i.e., detecting who is the 'hero', the 'villain', and the 'victim' in the meme, if any. We utilize HVVMemes - a memes dataset on US Politics and Covid-19 memes, released recently as part of the CONSTRAINT@ACL-2022 shared-task. It contains memes, entities referenced, and their associated roles: hero, villain, victim, and other. We further design VECTOR (Visual-semantic role dEteCToR), a robust multi-modal framework for the task, which integrates entity-based contextual information in the multi-modal representation and compare it to several standard unimodal (text-only or image-only) or multi-modal (image+text) models. Our experimental results show that our proposed model achieves an improvement of 4% over the best baseline and 1% over the best competing stand-alone submission from the shared-task. Besides divulging an extensive experimental setup with comparative analyses, we finally highlight the challenges encountered in addressing the complex task of semantic role labeling within memes.
翻訳日:2023-04-12 18:22:11 公開日:2023-04-10
# 数投影のない量子コンピュータにおけるAGPの状態生成

State preparation of AGP on a quantum computer without number projection ( http://arxiv.org/abs/2301.09586v2 )

ライセンス: Link先を確認
Armin Khamoshi and Rishab Dutta and Gustavo E. Scuseria(参考訳) 反対称性ゲミナルパワー (AGP) はBardeen-Cooper-Schrieffer (PBCS) 波動関数と等価である。 また、基本的な対称多項式(ESP)状態でもある。 我々は、量子コンピュータ上でのESP状態(またはAGP)の状態準備アルゴリズムにディック状態を決定論的に実装する以前の研究を一般化する。 本手法は決定論的であり, 多項式コストが高く, 数値対称性の破れや復元に依存しない。 また,本回路は,単一スレーター行列式に作用するユニタリー結合クラスタ演算子とユニタリージャストロー演算子の層と等価であることを示した。 ここでは, 従来のハートリーフォック型電子構造法ではアクセスできない非自明な絡み合い特性を捉えるために, ユニタリ結合クラスタをアンタングル化できることを強調した。

The antisymmetrized geminal power (AGP) is equivalent to the number projected Bardeen-Cooper-Schrieffer (PBCS) wavefunction. It is also an elementary symmetric polynomial (ESP) state. We generalize previous research on deterministically implementing the Dicke state to a state preparation algorithm for an ESP state, or equivalently AGP, on a quantum computer. Our method is deterministic and has polynomial cost, and it does not rely on number symmetry breaking and restoration. We also show that our circuit is equivalent to a disentangled unitary paired coupled cluster operator and a layer of unitary Jastrow operator acting on a single Slater determinant. The method presented herein highlights the ability of disentangled unitary coupled cluster to capture non-trivial entanglement properties that are hardly accessible with traditional Hartree-Fock based electronic structure methods.
翻訳日:2023-04-12 18:21:21 公開日:2023-04-10
# vaxxhesitancy:twitter上でのcovid-19ワクチン接種に対するhesitancy研究のためのデータセット

VaxxHesitancy: A Dataset for Studying Hesitancy Towards COVID-19 Vaccination on Twitter ( http://arxiv.org/abs/2301.06660v3 )

ライセンス: Link先を確認
Yida Mu, Mali Jin, Charlie Grimshaw, Carolina Scarton, Kalina Bontcheva, Xingyi Song(参考訳) おそらくワクチンが作られ、ソーシャルメディアの普及とともに、人々は予防接種や反ワクチンコンテンツを投稿する人たちと並んで、オンラインでワクチンに関する懸念を表明し始めたためである。 新型コロナウイルス(COVID-19)ワクチンの最初の言及以来、ソーシャルメディアのユーザーは、彼らの恐怖や懸念や、これらの急速に発展するワクチンの有効性に対する支持や信念について投稿してきた。 ワクチン接種拡大を目標に、住民により良い情報提供を行うための行動を開発する必要がある政策マーカーにとって、新型コロナウイルスワクチンに対する公衆の執着の背景にある理由を特定・理解することが重要である。 ワクチンの急速な発展が反vaxx情報の成長に密接に反映された新型コロナウイルスの場合、予防接種に対する市民の態度を検出する自動的な手段が必要となった。 これは、目の前の現象を深く理解するためにデータ分析を必要とする重要な計算社会科学タスクである。 注釈付きデータは、予防接種に対する態度をより微妙な分析のためにデータ駆動モデルの訓練にも必要である。 この目的のために、新型コロナウイルス(covid-19)予防接種(stance)に対するユーザーの態度にアノテートされた3,101以上のツイートのコレクションを作成しました。 また,ドメイン固有言語モデル(VaxxBERT)を開発し,ベースラインの頑健なセットと比較して,最高の予測性能(73.0精度,69.3F1スコア)を実現する。 私たちの知る限りでは、ワクチンのヘシタシーを、予防的および抗ワクチン的スタンスとは異なるカテゴリとしてモデル化する最初のデータセットとモデルです。

Vaccine hesitancy has been a common concern, probably since vaccines were created and, with the popularisation of social media, people started to express their concerns about vaccines online alongside those posting pro- and anti-vaccine content. Predictably, since the first mentions of a COVID-19 vaccine, social media users posted about their fears and concerns or about their support and belief into the effectiveness of these rapidly developing vaccines. Identifying and understanding the reasons behind public hesitancy towards COVID-19 vaccines is important for policy markers that need to develop actions to better inform the population with the aim of increasing vaccine take-up. In the case of COVID-19, where the fast development of the vaccines was mirrored closely by growth in anti-vaxx disinformation, automatic means of detecting citizen attitudes towards vaccination became necessary. This is an important computational social sciences task that requires data analysis in order to gain in-depth understanding of the phenomena at hand. Annotated data is also necessary for training data-driven models for more nuanced analysis of attitudes towards vaccination. To this end, we created a new collection of over 3,101 tweets annotated with users' attitudes towards COVID-19 vaccination (stance). Besides, we also develop a domain-specific language model (VaxxBERT) that achieves the best predictive performance (73.0 accuracy and 69.3 F1-score) as compared to a robust set of baselines. To the best of our knowledge, these are the first dataset and model that model vaccine hesitancy as a category distinct from pro- and anti-vaccine stance.
翻訳日:2023-04-12 18:19:55 公開日:2023-04-10
# Async-HFL:階層型IoTネットワークにおける効率的でロバストな非同期フェデレーション学習

Async-HFL: Efficient and Robust Asynchronous Federated Learning in Hierarchical IoT Networks ( http://arxiv.org/abs/2301.06646v4 )

ライセンス: Link先を確認
Xiaofan Yu, Ludmila Cherkasova, Harsh Vardhan, Quanling Zhao, Emily Ekaireb, Xiyuan Zhang, Arya Mazumdar, Tajana Rosing(参考訳) フェデレーテッド・ラーニング(FL)は近年,デバイス上での分散学習パラダイムとして関心が高まっている。 しかし、現実のIoT(Internet-of-Things)ネットワークにFLを階層的にデプロイする上で、いくつかの課題に対処する必要がある。 既存の研究では、データの異種性、システムの異種性、予期せぬストラグラー、および可視性など、さまざまなアプローチが提案されているが、階層的かつ信頼性の低いIoTネットワークにおけるすべての課題に対処する体系的なソリューションは、いずれも提供されていない。 本稿では,一般的な3層IoTネットワークアーキテクチャでFLを実行するための非同期かつ階層的なフレームワーク(Async-HFL)を提案する。 遅延が大きく異なるため、async-hflはゲートウェイとクラウドの両方で非同期集約を使用するため、待ち時間を回避することができる。 システム不均一性とストラグラー下での収束速度におけるAsync-HFLの可能性を完全に解き放つために,ゲートウェイレベルでのデバイス選択と,クラウドレベルでのデバイスゲートウェイアソシエーションを設計する。 デバイス選択はエッジデバイスを選択してリアルタイムにローカルトレーニングをトリガーし、デバイスゲートウェイアソシエーションは複数のクラウドエポックの後に定期的にネットワークトポロジを決定する。 ns-3とNYCMeshのネットワークトポロジに基づく大規模シミュレーションを用いてAsync-HFLの収束速度を評価する。 その結果,Async-HFLは壁面時間で1.08-1.31倍早く収束し,最先端の非同期FLアルゴリズムと比較して通信コストを最大21.6%削減できることがわかった。 さらに, Async-HFLを物理配置で検証し, 予期せぬストラグラー下での堅牢な収束を観察する。

Federated Learning (FL) has gained increasing interest in recent years as a distributed on-device learning paradigm. However, multiple challenges remain to be addressed for deploying FL in real-world Internet-of-Things (IoT) networks with hierarchies. Although existing works have proposed various approaches to account data heterogeneity, system heterogeneity, unexpected stragglers and scalibility, none of them provides a systematic solution to address all of the challenges in a hierarchical and unreliable IoT network. In this paper, we propose an asynchronous and hierarchical framework (Async-HFL) for performing FL in a common three-tier IoT network architecture. In response to the largely varied delays, Async-HFL employs asynchronous aggregations at both the gateway and the cloud levels thus avoids long waiting time. To fully unleash the potential of Async-HFL in converging speed under system heterogeneities and stragglers, we design device selection at the gateway level and device-gateway association at the cloud level. Device selection chooses edge devices to trigger local training in real-time while device-gateway association determines the network topology periodically after several cloud epochs, both satisfying bandwidth limitation. We evaluate Async-HFL's convergence speedup using large-scale simulations based on ns-3 and a network topology from NYCMesh. Our results show that Async-HFL converges 1.08-1.31x faster in wall-clock time and saves up to 21.6% total communication cost compared to state-of-the-art asynchronous FL algorithms (with client selection). We further validate Async-HFL on a physical deployment and observe robust convergence under unexpected stragglers.
翻訳日:2023-04-12 18:19:31 公開日:2023-04-10
# ゼロショット逆ロバストネスのための言語駆動型アンカー

Language-Driven Anchors for Zero-Shot Adversarial Robustness ( http://arxiv.org/abs/2301.13096v2 )

ライセンス: Link先を確認
Xiao Li and Wei Zhang and Yining Liu and Zhanhao Hu and Bo Zhang and Xiaolin Hu(参考訳) ディープニューラルネットワークは敵の攻撃を受けやすいことが知られている。 本研究では, 挑戦的ゼロショット画像分類設定において, 敵対的ロバスト性の向上に焦点をあてる。 この問題に対処するため,我々は,新しい言語駆動型アンカー型対外訓練戦略であるLAATを提案する。 LAATはテキストエンコーダを使用して各カテゴリの固定アンカー(正規化された特徴埋め込み)を生成し、これらのアンカーを敵の訓練に使用する。 テキストエンコーダのセマンティック一貫性を活用することで、LAATは新たなカテゴリにおける画像モデルの対角的堅牢性を高めることができる。 本研究では,最近のテキストエンコーダのコサイン類似度問題を特定し,それに対処するための有効な手法をいくつか設計する。 実験の結果、LAATはゼロショット対向性能を著しく向上し、従来の最先端の対向強靭なワンショット法よりも優れていた。 さらに,imagenet-1kのような大規模データセット上でモデルをトレーニングし,いくつかのダウンストリームデータセットに適用した場合,ゼロショットの対向ロバスト性も生み出す。

Deep neural networks are known to be susceptible to adversarial attacks. In this work, we focus on improving adversarial robustness in the challenging zero-shot image classification setting. To address this issue, we propose LAAT, a novel Language-driven, Anchor-based Adversarial Training strategy. LAAT utilizes a text encoder to generate fixed anchors (normalized feature embeddings) for each category and then uses these anchors for adversarial training. By leveraging the semantic consistency of the text encoders, LAAT can enhance the adversarial robustness of the image model on novel categories without additional examples. We identify the large cosine similarity problem of recent text encoders and design several effective techniques to address it. The experimental results demonstrate that LAAT significantly improves zero-shot adversarial performance, outperforming previous state-of-the-art adversarially robust one-shot methods. Moreover, our method produces substantial zero-shot adversarial robustness when models are trained on large datasets such as ImageNet-1K and applied to several downstream datasets.
翻訳日:2023-04-12 18:09:59 公開日:2023-04-10
# LLMの合成データ生成は臨床テキストマイニングに役立つか?

Does Synthetic Data Generation of LLMs Help Clinical Text Mining? ( http://arxiv.org/abs/2303.04360v2 )

ライセンス: Link先を確認
Ruixiang Tang, Xiaotian Han, Xiaoqian Jiang, Xia Hu(参考訳) 近年の大規模言語モデル(llm)の発展は、openaiのchatgptのような強力なモデルの開発につながった。 これらのモデルは、質問応答、エッセイ構成、コード生成など、さまざまなタスクで例外的なパフォーマンスを示している。 しかし、医療分野での効果はいまだに不明である。 本研究では,ChatGPTが臨床テキストマイニングに有効である可能性を検討するために,非構造化医療用テキストから構造化情報を抽出する能力について検討し,生物名の実体認識と関係抽出に焦点をあてる。 しかし,これらのタスクにChatGPTを直接利用するとパフォーマンスが低下し,ChatGPT APIに患者の情報をアップロードする際のプライバシー上の懸念が高まった。 これらの制約を克服するために,chatgptを利用したラベル付き高品質合成データ生成と,下流タスクの局所モデルを微調整する新たなトレーニングパラダイムを提案する。 提案手法は,f1-scoreの性能を23.37%から63.99%に改善し,75.86%から83.59%に改善した。 さらに、ChatGPTを使用したデータ生成は、データ収集とラベル付けに必要な時間と労力を大幅に削減し、データのプライバシの懸念を軽減する。 要約して,本フレームワークは臨床用テキストマイニングへのLLMモデルの適用性を高めるための有望なソリューションを提供する。

Recent advancements in large language models (LLMs) have led to the development of highly potent models like OpenAI's ChatGPT. These models have exhibited exceptional performance in a variety of tasks, such as question answering, essay composition, and code generation. However, their effectiveness in the healthcare sector remains uncertain. In this study, we seek to investigate the potential of ChatGPT to aid in clinical text mining by examining its ability to extract structured information from unstructured healthcare texts, with a focus on biological named entity recognition and relation extraction. However, our preliminary results indicate that employing ChatGPT directly for these tasks resulted in poor performance and raised privacy concerns associated with uploading patients' information to the ChatGPT API. To overcome these limitations, we propose a new training paradigm that involves generating a vast quantity of high-quality synthetic data with labels utilizing ChatGPT and fine-tuning a local model for the downstream task. Our method has resulted in significant improvements in the performance of downstream tasks, improving the F1-score from 23.37% to 63.99% for the named entity recognition task and from 75.86% to 83.59% for the relation extraction task. Furthermore, generating data using ChatGPT can significantly reduce the time and effort required for data collection and labeling, as well as mitigate data privacy concerns. In summary, the proposed framework presents a promising solution to enhance the applicability of LLM models to clinical text mining.
翻訳日:2023-04-12 18:02:59 公開日:2023-04-10
# 遺伝子マスキングと分散検索による進化の加速

Accelerating Evolution Through Gene Masking and Distributed Search ( http://arxiv.org/abs/2302.06745v2 )

ライセンス: Link先を確認
Hormoz Shahrzad, Risto Miikkulainen(参考訳) 進化計算(EC)の実用化には,2つの最適化が不可欠である。 まず,探索手法のパラメータをドメインに調整し,探索と利用を効果的に両立させる必要がある。 第二に、並列コンピューティングリソースを利用するためには、探索方法を分散する必要がある。 本稿では,両目標を同時に達成するためのアプローチとしてBLADE(BLAnket Distributed Evolution)を提案する。 ブレードはブランケット(すなわち遺伝的表現上のマスク)を使用して探索中に進化演算子をチューニングし、ハブ・アンド・スポーク分布による探索を実行する。 本論文では, 1) マルコフ連鎖過程として (1 + 1)EA の場合の毛布法を定式化する。 その効果は確率行列の支配的かつ従属的な固有値を分析し、一般化理論を示唆し、(2)分布解析に適合レベル理論を用い、(3)これらの知見を3つのベンチマーク問題で実験的に検証し、毛布と分布の両方が進化を加速させることを示した。 さらに、これらの間に驚くべきシナジーが出現する: 分散と組み合わせると、ブランケットアプローチは、場合によっては$n$クライアントで$n$-fold以上のスピードアップを達成する。 この研究は、実用的な応用における進化計算の最適化の重要性と可能性を強調している。

In building practical applications of evolutionary computation (EC), two optimizations are essential. First, the parameters of the search method need to be tuned to the domain in order to balance exploration and exploitation effectively. Second, the search method needs to be distributed to take advantage of parallel computing resources. This paper presents BLADE (BLAnket Distributed Evolution) as an approach to achieving both goals simultaneously. BLADE uses blankets (i.e., masks on the genetic representation) to tune the evolutionary operators during the search, and implements the search through hub-and-spoke distribution. In the paper, (1) the blanket method is formalized for the (1 + 1)EA case as a Markov chain process. Its effectiveness is then demonstrated by analyzing dominant and subdominant eigenvalues of stochastic matrices, suggesting a generalizable theory; (2) the fitness-level theory is used to analyze the distribution method; and (3) these insights are verified experimentally on three benchmark problems, showing that both blankets and distribution lead to accelerated evolution. Moreover, a surprising synergy emerges between them: When combined with distribution, the blanket approach achieves more than $n$-fold speedup with $n$ clients in some cases. The work thus highlights the importance and potential of optimizing evolutionary computation in practical applications.
翻訳日:2023-04-12 17:59:56 公開日:2023-04-10
# Queer in AI: コミュニティ主導の参加型AIのケーススタディ

Queer In AI: A Case Study in Community-Led Participatory AI ( http://arxiv.org/abs/2303.16972v2 )

ライセンス: Link先を確認
Organizers Of Queer in AI, Anaelia Ovalle, Arjun Subramonian, Ashwin Singh, Claas Voelcker, Danica J. Sutherland, Davide Locatelli, Eva Breznik, Filip Klubi\v{c}ka, Hang Yuan, Hetvi J, Huan Zhang, Jaidev Shriram, Kruno Lehman, Luca Soldaini, Maarten Sap, Marc Peter Deisenroth, Maria Leonor Pacheco, Maria Ryskina, Martin Mundt, Milind Agarwal, Nyx McLean, Pan Xu, A Pranav, Raj Korpan, Ruchira Ray, Sarah Mathew, Sarthak Arora, St John, Tanvi Anand, Vishakha Agrawal, William Agnew, Yanan Long, Zijie J. Wang, Zeerak Talat, Avijit Ghosh, Nathaniel Dennler, Michael Noseworthy, Sharvani Jha, Emi Baylor, Aditya Joshi, Natalia Y. Bilenko, Andrew McNamara, Raphael Gontijo-Lopes, Alex Markham, Evyn D\v{o}ng, Jackie Kay, Manu Saraswat, Nikhil Vytla and Luke Stark(参考訳) 我々は、コミュニティ主導のAI参加設計のケーススタディとして、AIのQueerを提示する。 参加型デザインと交叉型テネットが, 長年にわたってこのコミュニティのプログラムを形作ってきたか検討した。 プロセスに現われたさまざまな課題について議論し、この組織が参加的原則と交差的原則を運用するに足りなかった方法を考察し、組織への影響を評価します。 queer in aiは、分散化に賛成する階層の拒否、queerコミュニティによる支援やプログラムの構築の成功、queerコミュニティ外のアクターや機関を変える努力を通じて、参加型の方法の実践者や理論家に対して、重要な教訓と洞察を提供する。 最後に、AIにおけるQueerのようなコミュニティが、AIへの参加の文化を育み、疎外された参加者を歓迎し、奨励し、貧弱で搾取的な参加の実践を批判し、個々の研究プロジェクト以外の機関に参加させることによって、AIの参加デザインにどのように貢献するかを理論化します。 aiの研究におけるqueerは、ai内の草の根の活性化と参加方法のケーススタディとして機能し、コミュニティ主導の参加方法と交叉的pr軸の可能性を示し、また参加方法の開発と使用研究者に挑戦、ケーススタディ、ニュアンス的な洞察を提供する。

We present Queer in AI as a case study for community-led participatory design in AI. We examine how participatory design and intersectional tenets started and shaped this community's programs over the years. We discuss different challenges that emerged in the process, look at ways this organization has fallen short of operationalizing participatory and intersectional principles, and then assess the organization's impact. Queer in AI provides important lessons and insights for practitioners and theorists of participatory methods broadly through its rejection of hierarchy in favor of decentralization, success at building aid and programs by and for the queer community, and effort to change actors and institutions outside of the queer community. Finally, we theorize how communities like Queer in AI contribute to the participatory design in AI more broadly by fostering cultures of participation in AI, welcoming and empowering marginalized participants, critiquing poor or exploitative participatory practices, and bringing participation to institutions outside of individual research projects. Queer in AI's work serves as a case study of grassroots activism and participatory methods within AI, demonstrating the potential of community-led participatory methods and intersectional praxis, while also providing challenges, case studies, and nuanced insights to researchers developing and using participatory methods.
翻訳日:2023-04-12 17:42:23 公開日:2023-04-10
# ニューラルネットワーク量子状態を持つ1次元スピンレス捕捉フェルミオン系

Machine learning one-dimensional spinless trapped fermionic systems with neural-network quantum states ( http://arxiv.org/abs/2304.04725v1 )

ライセンス: Link先を確認
J. W. T. Keeble, M. Drissi, A. Rojo-Franc\`as, B. Juli\'a-D\'iaz, A. Rios(参考訳) ガウスポテンシャルを介して相互作用する完全に偏極された1次元フェルミオン系の基底状態特性を計算する。 波動関数のアンサツとして反対称型ニューラルネットワーク(ニューラル量子状態)を用い,2粒子から6粒子までの系のエネルギーを変動的に最小化するために機械学習技術を用いる。 我々は、正確な対角化やHartree-Fock近似を含む、他の多体手法による広範なベンチマークを提供する。 神経量子状態は、幅広い相互作用強度で最高のエネルギーを提供する。 相互作用の兆候によって、非常に異なる基底状態が見つかる。 非摂動的反発状態では、システムは漸近的に結晶秩序に達する。 対照的に、強い魅力的な構造はボソニゼーションの兆候を示している。 神経量子状態は、ほぼ一定数のパラメータでこれらの異なる位相を連続的に学習し、粒子の数とともに計算時間が非常に緩やかに増加する。

We compute the ground-state properties of fully polarized, trapped, one-dimensional fermionic systems interacting through a gaussian potential. We use an antisymmetric artificial neural network, or neural quantum state, as an ansatz for the wavefunction and use machine learning techniques to variationally minimize the energy of systems from 2 to 6 particles. We provide extensive benchmarks with other many-body methods, including exact diagonalisation and the Hartree-Fock approximation. The neural quantum state provides the best energies across a wide range of interaction strengths. We find very different ground states depending on the sign of the interaction. In the non-perturbative repulsive regime, the system asymptotically reaches crystalline order. In contrast, the strongly attractive regime shows signs of bosonization. The neural quantum state continuously learns these different phases with an almost constant number of parameters and a very modest increase in computational time with the number of particles.
翻訳日:2023-04-12 17:33:49 公開日:2023-04-10
# 推薦のためのグラフコラボレーティブ信号の表示と拡張

Graph Collaborative Signals Denoising and Augmentation for Recommendation ( http://arxiv.org/abs/2304.03344v2 )

ライセンス: Link先を確認
Ziwei Fan, Ke Xu, Zhang Dong, Hao Peng, Jiawei Zhang, Philip S. Yu(参考訳) グラフコラボレーティブフィルタリング(GCF)は、レコメンデーションシステムにおいて高次協調信号をキャプチャする一般的な手法である。 しかし、gcfの2部構成の隣接行列(英語版)は、ユーザ間相互作用に基づいて集約される近傍を定義するが、豊富な相互作用を持つユーザ/項目では騒がしく、相互作用の少ないユーザ/項目では不十分である。 さらに、隣接マトリックスは、ユーザとユーザとアイテムの相関を無視し、有益な隣人が集約される範囲を制限できる。 本研究では,ユーザとアイテムの相関関係を組み込んだ新しいグラフ隣接行列と,全ユーザ間のインタラクション数をバランスさせる適切に設計されたユーザとアイテムの相互作用行列を提案する。 そこで本研究では,ユーザ/テムの埋め込みをグラフベースのレコメンデーション手法で事前学習し,トップKサンプリングによるユーザ-テム相互作用行列の強化を行う。 また、対称ユーザ・ユーザ・アイテム間相関成分を隣接行列に拡張する。 実験により, 隣り合いが向上し, 密度が低下したユーザ・イテム相互作用行列が, グラフベースの推薦において大きな利益をもたらすことを示した。 さらに,ユーザとアイテムの相関関係を包含することで,対話が豊富で不十分なユーザへのレコメンデーションが向上することを示す。 コードは \url{https://github.com/zfan20/GraphDA} にある。

Graph collaborative filtering (GCF) is a popular technique for capturing high-order collaborative signals in recommendation systems. However, GCF's bipartite adjacency matrix, which defines the neighbors being aggregated based on user-item interactions, can be noisy for users/items with abundant interactions and insufficient for users/items with scarce interactions. Additionally, the adjacency matrix ignores user-user and item-item correlations, which can limit the scope of beneficial neighbors being aggregated. In this work, we propose a new graph adjacency matrix that incorporates user-user and item-item correlations, as well as a properly designed user-item interaction matrix that balances the number of interactions across all users. To achieve this, we pre-train a graph-based recommendation method to obtain users/items embeddings, and then enhance the user-item interaction matrix via top-K sampling. We also augment the symmetric user-user and item-item correlation components to the adjacency matrix. Our experiments demonstrate that the enhanced user-item interaction matrix with improved neighbors and lower density leads to significant benefits in graph-based recommendation. Moreover, we show that the inclusion of user-user and item-item correlations can improve recommendations for users with both abundant and insufficient interactions. The code is in \url{https://github.com/zfan20/GraphDA}.
翻訳日:2023-04-12 17:33:36 公開日:2023-04-10
# 肺結節分類のための縦型マルチモーダルトランスフォーマリン : 画像と潜伏臨床所見の統合

Longitudinal Multimodal Transformer Integrating Imaging and Latent Clinical Signatures From Routine EHRs for Pulmonary Nodule Classification ( http://arxiv.org/abs/2304.02836v2 )

ライセンス: Link先を確認
Thomas Z. Li, John M. Still, Kaiwen Xu, Ho Hin Lee, Leon Y. Cai, Aravind R. Krishnan, Riqiang Gao, Mirza S. Khan, Sanja Antic, Michael Kammer, Kim L. Sandler, Fabien Maldonado, Bennett A. Landman, Thomas A. Lasko(参考訳) 孤立性肺結節(SPN)診断の予測モデルの精度は、電子健康記録(EHRs)などの反復画像と医療コンテキストを取り入れることで大幅に向上することができる。 しかし、画像や診断符号などの臨床上の日常的なモダリティは、縦型マルチモーダル学習の障害となる様々な時間スケールで非同期かつ不規則にサンプリングすることができる。 本研究では,SPN分類のための経時的臨床像とリピート画像を統合したトランスフォーマーに基づくマルチモーダル戦略を提案する。 潜在臨床署名の非教師付き不連続化を行い, 臨床署名表現と胸部ctスキャンから共同学習するために, 時間的スケールドセルフアテンションを活用した。 うちの分類器は,公開データセットからの2,668件のスキャンと,縦型胸部ct,請求コード,薬剤,eersによる検査で1,149名の被験者を対象に事前訓練を行っている。 SPNに挑戦する227名の被験者に対する評価では、縦型マルチモーダルベースライン(0.824 vs 0.752 AUC)に対するAUCの大幅な改善と、横型マルチモーダルシナリオ(0.809 AUC)と縦型イメージオンリーシナリオ(0.741 AUC)に対する改善が示された。 本研究は、トランスフォーマを用いた縦型画像と非画像表現型を共学習する新しいアプローチにより、大きな利点を示す。

The accuracy of predictive models for solitary pulmonary nodule (SPN) diagnosis can be greatly increased by incorporating repeat imaging and medical context, such as electronic health records (EHRs). However, clinically routine modalities such as imaging and diagnostic codes can be asynchronous and irregularly sampled over different time scales which are obstacles to longitudinal multimodal learning. In this work, we propose a transformer-based multimodal strategy to integrate repeat imaging with longitudinal clinical signatures from routinely collected EHRs for SPN classification. We perform unsupervised disentanglement of latent clinical signatures and leverage time-distance scaled self-attention to jointly learn from clinical signatures expressions and chest computed tomography (CT) scans. Our classifier is pretrained on 2,668 scans from a public dataset and 1,149 subjects with longitudinal chest CTs, billing codes, medications, and laboratory tests from EHRs of our home institution. Evaluation on 227 subjects with challenging SPNs revealed a significant AUC improvement over a longitudinal multimodal baseline (0.824 vs 0.752 AUC), as well as improvements over a single cross-section multimodal scenario (0.809 AUC) and a longitudinal imaging-only scenario (0.741 AUC). This work demonstrates significant advantages with a novel approach for co-learning longitudinal imaging and non-imaging phenotypes with transformers.
翻訳日:2023-04-12 17:31:52 公開日:2023-04-10
# 医療のための説明可能な人工知能のレビュー:なぜ、どのように、いつ?

A Review on Explainable Artificial Intelligence for Healthcare: Why, How, and When? ( http://arxiv.org/abs/2304.04780v1 )

ライセンス: Link先を確認
Subrato Bharati, M. Rubaiyat Hossain Mondal, Prajoy Podder(参考訳) 人工知能(AI)モデルは、医療分野の応用が増えている。 これらのAIモデルによってなされる決定の可否について懸念が高まっている。 本稿では,現在医療の分野で使用されているモデルを中心に,説明可能な人工知能(xai)の体系的分析を行う。 文献検索は、2012年1月1日から2022年2月02日までに発行された関連作業の体系的レビューとメタ分析(PRISMA)基準の報告項目に従って行われる。 このレビューでは、XAIの主流傾向を分析し、研究の方向性について概説する。 我々は,これらのxaiモデルの利用の理由,方法,およびその意味について検討する。 本稿では、XAI方法論の総合的な検討と、医療分野におけるAIモデルの記述から信頼できるAIをどのように引き出すことができるかを説明する。 この研究の議論は、XAI分野の形式化に寄与する。

Artificial intelligence (AI) models are increasingly finding applications in the field of medicine. Concerns have been raised about the explainability of the decisions that are made by these AI models. In this article, we give a systematic analysis of explainable artificial intelligence (XAI), with a primary focus on models that are currently being used in the field of healthcare. The literature search is conducted following the preferred reporting items for systematic reviews and meta-analyses (PRISMA) standards for relevant work published from 1 January 2012 to 02 February 2022. The review analyzes the prevailing trends in XAI and lays out the major directions in which research is headed. We investigate the why, how, and when of the uses of these XAI models and their implications. We present a comprehensive examination of XAI methodologies as well as an explanation of how a trustworthy AI can be derived from describing AI models for healthcare fields. The discussion of this work will contribute to the formalization of the XAI field.
翻訳日:2023-04-12 17:25:25 公開日:2023-04-10
# GraphMAE2: 自己監視型グラフ学習器

GraphMAE2: A Decoding-Enhanced Masked Self-Supervised Graph Learner ( http://arxiv.org/abs/2304.04779v1 )

ライセンス: Link先を確認
Zhenyu Hou, Yufei He, Yukuo Cen, Xiao Liu, Yuxiao Dong, Evgeny Kharlamov, Jie Tang(参考訳) グラフ自己教師型学習(SSL)は、対照的で生成的なアプローチを含む、現実世界のグラフデータにおけるラベル不足という根本的な課題に対処する大きな可能性を提供する。 両方のグラフSSL技術のうち、マスク付きグラフオートエンコーダ(例えば、GraphMAE)は、近ごろ有望な結果を生み出した。 背景にあるアイデアは、入力からランダムにマスクされたノードの機能(あるいは構造)をオートエンコーダアーキテクチャで再構築することだ。 しかし,マスク特徴復元の性能は入力特徴の識別性に依存し,通常,特徴の干渉に対して脆弱である。 本稿では,この問題を克服する目的で,マスク付き自己教師型学習フレームワークGraphMAE2を提案する。 その考え方は、グラフSSLの機能再構成を規則化することにある。 具体的には,マルチビューのランダム再マスクデコードと潜在表現予測の戦略をデザインし,特徴の再構成を定式化する。 マルチビューランダム再マスク復号は特徴空間の再構成にランダム性を導入することであり、潜在表現予測は埋め込み空間の再構成を強制することである。 大規模な実験によると、GraphMAE2は、さまざまな公開データセット上で、少なくとも2.45%改善されたogbn-Papers100Mの1100万ノードと1.6Bエッジを含む、トップ結果を一貫して生成可能である。

Graph self-supervised learning (SSL), including contrastive and generative approaches, offers great potential to address the fundamental challenge of label scarcity in real-world graph data. Among both sets of graph SSL techniques, the masked graph autoencoders (e.g., GraphMAE)--one type of generative method--have recently produced promising results. The idea behind this is to reconstruct the node features (or structures)--that are randomly masked from the input--with the autoencoder architecture. However, the performance of masked feature reconstruction naturally relies on the discriminability of the input features and is usually vulnerable to disturbance in the features. In this paper, we present a masked self-supervised learning framework GraphMAE2 with the goal of overcoming this issue. The idea is to impose regularization on feature reconstruction for graph SSL. Specifically, we design the strategies of multi-view random re-mask decoding and latent representation prediction to regularize the feature reconstruction. The multi-view random re-mask decoding is to introduce randomness into reconstruction in the feature space, while the latent representation prediction is to enforce the reconstruction in the embedding space. Extensive experiments show that GraphMAE2 can consistently generate top results on various public datasets, including at least 2.45% improvements over state-of-the-art baselines on ogbn-Papers100M with 111M nodes and 1.6B edges.
翻訳日:2023-04-12 17:25:12 公開日:2023-04-10
# 関数制約付き確率変分不等式問題の一階法

First-order methods for Stochastic Variational Inequality problems with Function Constraints ( http://arxiv.org/abs/2304.04778v1 )

ライセンス: Link先を確認
Digvijay Boob and Qi Deng(参考訳) モノトン変分不等式(VI)は機械学習において重要な問題である。 多数の例において、vi問題にはデータ駆動が可能な関数制約が伴うため、プロジェクション演算子の計算が難しくなる。 本稿では, 確率演算子を用いたスムーズあるいは非滑らかな問題や確率的制約を含む, 様々な条件下での関数制約VI(FCVI)問題に対する新しい一階法を提案する。 まず,演算子の補間と制約評価を用いて変数とラグランジアン乗算器を更新する-{\textt{opconex}} 法とその確率的変種を紹介する。 これらの手法はFCVI問題のいずれかが最適作用素あるいは標本複素量を達成する。 一 決定論的非流動性又は (ii)滑らかまたは非滑らかな確率的制約を含む確率的制約。 特に、我々のアルゴリズムは単純な単一ループ手続きであり、これらの複雑さを達成するためにラグランジュ乗算器の知識を必要としない。 第二に、スムーズな決定論的問題に対する最適演算子複雑性を得るために、ラグランジュ乗算器を適応的に探索し、明示的に有界にする新しい単一ループ適応ラグランジュ外挿法(\texttt{AdLagEx})を提案する。 さらに、これらのアルゴリズムは、結合された関数制約で容易にサドル点問題に拡張できることを示し、上記の場合と同様の複雑性結果が得られることを示す。 我々の知る限りでは、これらの複雑さの多くは初めて文献で得られている。

The monotone Variational Inequality (VI) is an important problem in machine learning. In numerous instances, the VI problems are accompanied by function constraints which can possibly be data-driven, making the projection operator challenging to compute. In this paper, we present novel first-order methods for function constrained VI (FCVI) problem under various settings, including smooth or nonsmooth problems with a stochastic operator and/or stochastic constraints. First, we introduce the~{\texttt{OpConEx}} method and its stochastic variants, which employ extrapolation of the operator and constraint evaluations to update the variables and the Lagrangian multipliers. These methods achieve optimal operator or sample complexities when the FCVI problem is either (i) deterministic nonsmooth, or (ii) stochastic, including smooth or nonsmooth stochastic constraints. Notably, our algorithms are simple single-loop procedures and do not require the knowledge of Lagrange multipliers to attain these complexities. Second, to obtain the optimal operator complexity for smooth deterministic problems, we present a novel single-loop Adaptive Lagrangian Extrapolation~(\texttt{AdLagEx}) method that can adaptively search for and explicitly bound the Lagrange multipliers. Furthermore, we show that all of our algorithms can be easily extended to saddle point problems with coupled function constraints, hence achieving similar complexity results for the aforementioned cases. To our best knowledge, many of these complexities are obtained for the first time in the literature.
翻訳日:2023-04-12 17:24:48 公開日:2023-04-10
# ddrf:リモートセンシング画像融合のための分極拡散モデル

DDRF: Denoising Diffusion Model for Remote Sensing Image Fusion ( http://arxiv.org/abs/2304.04774v1 )

ライセンス: Link先を確認
ZiHan Cao, ShiQi Cao, Xiao Wu, JunMing Hou, Ran Ran, Liang-Jian Deng(参考訳) 生成モデルとしてのデノシング拡散モデルは、その強力な生成能力により、画像生成の分野で近年多くの注目を集めている。 しかし、拡散モデルはまだ画像融合の分野で十分な研究を受けていない。 本稿では,画像融合領域に拡散モデルを導入し,画像融合タスクを画像から画像への変換として扱い,粗粒状スタイル情報と高周波・低周波情報を拡散UNetに注入する2つの異なる条件注入変調モジュール(スタイル伝達変調とウェーブレット変調)を設計し,融合画像を生成する。 また,画像融合作業における拡散モデルの残差学習と学習目標の選択についても検討した。 定量的および定性的な評価に基づく大規模な実験結果は,画像融合タスクにおける最先端の結果と優れた一般化性能を示す。 最後に,本手法が他の作業に刺激を与え,この分野の洞察を得て,画像融合タスクに拡散モデルを適用することを期待する。 コードは再現性を高めるために解放される。

Denosing diffusion model, as a generative model, has received a lot of attention in the field of image generation recently, thanks to its powerful generation capability. However, diffusion models have not yet received sufficient research in the field of image fusion. In this article, we introduce diffusion model to the image fusion field, treating the image fusion task as image-to-image translation and designing two different conditional injection modulation modules (i.e., style transfer modulation and wavelet modulation) to inject coarse-grained style information and fine-grained high-frequency and low-frequency information into the diffusion UNet, thereby generating fused images. In addition, we also discussed the residual learning and the selection of training objectives of the diffusion model in the image fusion task. Extensive experimental results based on quantitative and qualitative assessments compared with benchmarks demonstrates state-of-the-art results and good generalization performance in image fusion tasks. Finally, it is hoped that our method can inspire other works and gain insight into this field to better apply the diffusion model to image fusion tasks. Code shall be released for better reproducibility.
翻訳日:2023-04-12 17:24:22 公開日:2023-04-10
# RAW領域とsRGB領域における大規模動的データセットを用いたHDRビデオ再構成

HDR Video Reconstruction with a Large Dynamic Dataset in Raw and sRGB Domains ( http://arxiv.org/abs/2304.04773v1 )

ライセンス: Link先を確認
Huanjing Yue, Yubo Peng, Biting Yu, Xuanwu Yin, Zhenyu Zhou, Jingyu Yang(参考訳) 高ダイナミックレンジ(HDR)ビデオ再構成は、低ダイナミックレンジ(LDR)ビデオと比較して視覚的品質が優れているため、ますます注目を集めている。 LDR-HDRトレーニングペアの可用性は、HDR再構築の品質に不可欠である。 しかし、LDR-HDRフレームを同時に取得することが困難であるため、動的シーンの実際のLDR-HDRペアは存在しない。 そこで本研究では,srgb領域とraw領域の両方のhdrフレームに融合した2つの異なる露光画像を同時に撮像するスタッガー付きセンサを提案する。 このようにして、85のシーンを持つ大規模LDR-HDRビデオデータセットを構築し、各シーンは60フレームを含む。 このデータセットに基づいて,生のLDRフレームを入力として利用するRaw-HDRNetを提案する。 隣接するフレームを整列させるピラミッドフロー誘導変形畳み込みを提案する。 実験の結果 1)提案したデータセットは,3つのベンチマークネットワークの実際のシーンにおけるHDR再構成性能を向上させることができる。 2) sRGB入力と比較して, 生の入力を利用すると, 復元精度が向上し, 提案するRaw-HDRNetは生のHDR再構築の強力なベースラインとなる。 この論文の受理後、私たちのデータセットとコードはリリースされます。

High dynamic range (HDR) video reconstruction is attracting more and more attention due to the superior visual quality compared with those of low dynamic range (LDR) videos. The availability of LDR-HDR training pairs is essential for the HDR reconstruction quality. However, there are still no real LDR-HDR pairs for dynamic scenes due to the difficulty in capturing LDR-HDR frames simultaneously. In this work, we propose to utilize a staggered sensor to capture two alternate exposure images simultaneously, which are then fused into an HDR frame in both raw and sRGB domains. In this way, we build a large scale LDR-HDR video dataset with 85 scenes and each scene contains 60 frames. Based on this dataset, we further propose a Raw-HDRNet, which utilizes the raw LDR frames as inputs. We propose a pyramid flow-guided deformation convolution to align neighboring frames. Experimental results demonstrate that 1) the proposed dataset can improve the HDR reconstruction performance on real scenes for three benchmark networks; 2) Compared with sRGB inputs, utilizing raw inputs can further improve the reconstruction quality and our proposed Raw-HDRNet is a strong baseline for raw HDR reconstruction. Our dataset and code will be released after the acceptance of this paper.
翻訳日:2023-04-12 17:24:03 公開日:2023-04-10
# 私のパーソナル・コンピューティング・ライブラリーの指導

Instruction of my personal computing library ( http://arxiv.org/abs/2304.04771v1 )

ライセンス: Link先を確認
Tomohiro Oishi(参考訳) 本文書は,大石t.による計算ライブラリの使い方を紹介し,その利用方法を説明する。 ライブラリー-01 TOSPEMは、球核に対して、 (i) ウッズ・サクソンポテンシャル内の単一核子状態に対するシュレーディンガー方程式、 (ii-a) 電気的または磁気的遷移強度、B(EJ) または B(MJ) を、興味のある核の初期状態と最終状態の任意のセット間で解き、 (ii-b) ワイススクップフの推定値を (ii-a) の結果と比較する。 ライブラリ-02 RESONAは球面シュレーディンガー方程式の共鳴固有状態を解決するために構成される。 最終版は教育と商業のために出版される予定である。 公式発表の前に、出版社との合意のもと、私は現在準備中のバージョンを公開しています。 フル使用にはGFORTRANとGNUPLOTの2つのアプリケーションが必要である。 製品に対するフィードバックやコメントはありがたい。 ソースコード等はGitHubリポジトリ[1]で入手できる。

This document is prepared to introduce and explain how to use the computing library composed by T. Oishi. The library-01 TOSPEM solves, for the spherical nucleus, (i) the Schroedinger equation for the single-nucleon states within the Woods-Saxon potential, (ii-a) the electric or magnetic transition strength, B(EJ) or B(MJ), between the arbitrary set of initial and final states of the nucleus of interest, and (ii-b) Weisskopf estimate for comparison with results in (ii-a). The library-02 RESONA is composed to solve the resonant eigenstates of spherical Schroedinger equations. The final version is expected to be published for educational and commercial purposes. Before the official publication, under the agreement with publishers, I make the current, preliminary version open for public. Two applications, GFORTRAN and GNUPLOT, are necessary for full usage. Feedbacks and comments on products will be appreciated. The source codes etc. are available in the GitHub repository [1].
翻訳日:2023-04-12 17:23:43 公開日:2023-04-10
# 正確な新型コロナウイルス情報と誤報の大規模比較研究

A Large-Scale Comparative Study of Accurate COVID-19 Information versus Misinformation ( http://arxiv.org/abs/2304.04811v1 )

ライセンス: Link先を確認
Yida Mu, Ye Jiang, Freddy Heppell, Iknoor Singh, Carolina Scarton, Kalina Bontcheva, Xingyi Song(参考訳) 新型コロナウイルス(covid-19)パンデミック(covid-19)は、ソーシャルメディアを通じて大量のcovid-19関連コンテンツが高速に拡散するインフォデミックにつながった。 これにより、市民は新型コロナウイルスに関する正確な情報と不正確な情報を区別することが難しくなった。 これにより、covid-19の誤った情報と正確なcovid-19情報の比較研究を、2億2200万以上のツイートの大規模な計算分析を通じて行った。 この研究は4つの重要な側面と共に比較する。 1)話題の分布 2)つぶやきのライブステータス 3【言語分析・分析】 4)時間とともに拡大する力。 この研究の新たな貢献は、covid-19の誤った情報分類データセットの作成である。 最後に、この新たなデータセットは、平均的なF1測度に基づいて、誤情報分類を9%以上改善することを示す。

The COVID-19 pandemic led to an infodemic where an overwhelming amount of COVID-19 related content was being disseminated at high velocity through social media. This made it challenging for citizens to differentiate between accurate and inaccurate information about COVID-19. This motivated us to carry out a comparative study of the characteristics of COVID-19 misinformation versus those of accurate COVID-19 information through a large-scale computational analysis of over 242 million tweets. The study makes comparisons alongside four key aspects: 1) the distribution of topics, 2) the live status of tweets, 3) language analysis and 4) the spreading power over time. An added contribution of this study is the creation of a COVID-19 misinformation classification dataset. Finally, we demonstrate that this new dataset helps improve misinformation classification by more than 9% based on average F1 measure.
翻訳日:2023-04-12 17:14:48 公開日:2023-04-10
# 深層学習による恒星変動の存在下での惑星ラジアル速度の測定

Deep-learning based measurement of planetary radial velocities in the presence of stellar variability ( http://arxiv.org/abs/2304.04807v1 )

ライセンス: Link先を確認
Ian Colwell, Virisha Timmaraju, Alexander Wise(参考訳) 恒星変動の存在下での小さな惑星半径速度を測定するための深層学習に基づくアプローチを提案する。 我々は、HARPS-N Sun-as-a-starスペクトルの3年間の恒星RVジッタを低減するためにニューラルネットワークを使用する。 本稿では,次元還元法とデータ分割法と,一線cnn,一線cnnのアンサンブル,多線cnnを含む様々なニューラルネットワークアーキテクチャを構築し,比較する。 我々は、惑星のようなRVをスペクトルに注入し、ネットワークを使ってそれらを回復する。 マルチラインcnnは、0.2m/sの半振幅、50日周期の惑星を8.8%の誤差と0.7%の振幅で回収できることがわかった。 このアプローチは、恒星のRV変動を緩和し、前例のない精度で小さな惑星のRVを検出することを約束している。

We present a deep-learning based approach for measuring small planetary radial velocities in the presence of stellar variability. We use neural networks to reduce stellar RV jitter in three years of HARPS-N sun-as-a-star spectra. We develop and compare dimensionality-reduction and data splitting methods, as well as various neural network architectures including single line CNNs, an ensemble of single line CNNs, and a multi-line CNN. We inject planet-like RVs into the spectra and use the network to recover them. We find that the multi-line CNN is able to recover planets with 0.2 m/s semi-amplitude, 50 day period, with 8.8% error in the amplitude and 0.7% in the period. This approach shows promise for mitigating stellar RV variability and enabling the detection of small planetary RVs with unprecedented precision.
翻訳日:2023-04-12 17:14:37 公開日:2023-04-10
# 新型コロナウイルスワクチン接種に向けたスタンス検出に関する時間的考察

Examining Temporalities on Stance Detection Towards COVID-19 Vaccination ( http://arxiv.org/abs/2304.04806v1 )

ライセンス: Link先を確認
Yida Mu, Mali Jin, Kalina Bontcheva, Xingyi Song(参考訳) 新型コロナウイルスの感染を抑制する効果的な戦略として、予防接種の重要性がこれまで研究されてきた。 政策立案者は、大規模な予防接種に対する国民の姿勢を包括的に理解することが重要である。 しかし、予防接種やワクチン接種などのワクチン接種に対する態度は、ソーシャルメディア上で徐々に変化してきた。 したがって、これらのスタンスを分析する際に可能な時間的変化を考慮する必要がある。 本研究の目的は,twitter上でのcovid-19ワクチン接種に対するスタンス検出における時間的概念ドリフトの影響を検討することである。 そこで本稿では,ソーシャルメディアデータの時系列およびランダム分割を用いたトランスフォーマーモデルの評価を行った。 本研究は,全単言語および多言語データセットにおける無作為分割と時系列分割の比較において,モデル性能に有意な差異を示す。 経年的分割は姿勢分類の精度を大幅に低下させる。 したがって、時間的要因を重要視するためには、現実世界のスタンス検出アプローチをさらに洗練する必要がある。

Previous studies have highlighted the importance of vaccination as an effective strategy to control the transmission of the COVID-19 virus. It is crucial for policymakers to have a comprehensive understanding of the public's stance towards vaccination on a large scale. However, attitudes towards COVID-19 vaccination, such as pro-vaccine or vaccine hesitancy, have evolved over time on social media. Thus, it is necessary to account for possible temporal shifts when analysing these stances. This study aims to examine the impact of temporal concept drift on stance detection towards COVID-19 vaccination on Twitter. To this end, we evaluate a range of transformer-based models using chronological and random splits of social media data. Our findings demonstrate significant discrepancies in model performance when comparing random and chronological splits across all monolingual and multilingual datasets. Chronological splits significantly reduce the accuracy of stance classification. Therefore, real-world stance detection approaches need to be further refined to incorporate temporal factors as a key consideration.
翻訳日:2023-04-12 17:14:23 公開日:2023-04-10
# 光渦を用いた量子通信ネットワーク

Quantum communication networks with optical vortices ( http://arxiv.org/abs/2304.04798v1 )

ライセンス: Link先を確認
S. Suciu, G.A. Bulzan, T.A. Isdraila, A.M. Palici, S. Ataman, C. Kusko, R. Ionicioiu(参考訳) 量子通信は、量子リソースを使用して当事者間の安全な鍵を確立することによって、インターネットセキュリティのパラダイム変化をもたらす。 現在の量子通信ネットワークは主にポイントツーポイントであり、信頼されたノードと鍵管理システムを使って鍵を中継している。 量子インターネットを含む将来の量子ネットワークは、ユーザーの集団が相互に接続し通信する複雑なトポロジを持つことになる。 本稿では,量子通信ネットワークのアーキテクチャについて述べる。 我々は,光子軌道角運動量(OAM)を用いて異なるノード間の量子情報をルーティングできることを示す。 単純なポイント・ツー・ポイントのネットワークから始まり、ポイント・トゥ・マルチポイント、完全接続、および絡み合った分散ネットワークという、より複雑なアーキテクチャを徐々に発展させていく。 特に重要な結果として,1つのOAMソータと$n-1$OAM値を用いて,$n$ノードの完全接続ネットワークを構築することができることを示す。 提案手法は,最小限のリソースで複雑な量子通信ネットワークを構築する方法である。

Quantum communications bring a paradigm change in internet security by using quantum resources to establish secure keys between parties. Present-day quantum communications networks are mainly point-to-point and use trusted nodes and key management systems to relay the keys. Future quantum networks, including the quantum internet, will have complex topologies in which groups of users are connected and communicate with each-other. Here we investigate several architectures for quantum communication networks. We show that photonic orbital angular momentum (OAM) can be used to route quantum information between different nodes. Starting from a simple, point-to-point network, we will gradually develop more complex architectures: point-to-multipoint, fully-connected and entanglement-distribution networks. As a particularly important result, we show that an $n$-node, fully-connected network can be constructed with a single OAM sorter and $n-1$ OAM values. Our results pave the way to construct complex quantum communication networks with minimal resources.
翻訳日:2023-04-12 17:14:09 公開日:2023-04-10
# RAPID: 動的パブリッククラウド環境における高速オンラインポリシ学習の実現

RAPID: Enabling Fast Online Policy Learning in Dynamic Public Cloud Environments ( http://arxiv.org/abs/2304.04797v1 )

ライセンス: Link先を確認
Drew Penney, Bin Li, Lizhong Chen, Jaroslaw J. Sydir, Anna Drewek-Ossowicka, Ramesh Illikkal, Charlie Tai, Ravi Iyer, Andrew Herdrich(参考訳) 複数のワークロード間のリソース共有は、リソース利用の改善とオーナシップコストの削減という需要に動機付けられ、クラウドサービスプロバイダの間で顕著なプラクティスになっています。 しかしながら、リソース競合が、厳格なQuality of Service(QoS)要件を持つ高優先度でユーザ向きのワークロードに悪影響を及ぼすため、効果的なリソース共有は依然としてオープンな課題である。 最近のアプローチは有望な結果を示しているが、ワークロードが事前に知られておらず、短期間しか実行できないため、オフライン学習を禁止し、オンライン学習を著しく妨げているため、パブリッククラウド環境ではほとんど実用的ではない。 本稿では,高速かつ完全オンラインなリソース割り当てポリシー学習のための,動的環境下での新たなフレームワークであるRAPIDを提案する。 RAPIDは、サンプル効率とバイアス低減のためにドメイン知識にインスパイアされた技術によって実現された軽量QoS予測を活用し、従来のフィードバックソースから制御を分離し、前よりも桁違いの速度でポリシー学習を指導する。 代表的なクラウドワークロードを備えた実世界のサーバプラットフォームの評価では、前回の最先端の時間と比べて、rapidは数分で安定したリソース割り当てポリシーを学習できると同時に、qosを9.0倍改善し、ベストエフォートなワークロードのパフォーマンスを19-43%向上している。

Resource sharing between multiple workloads has become a prominent practice among cloud service providers, motivated by demand for improved resource utilization and reduced cost of ownership. Effective resource sharing, however, remains an open challenge due to the adverse effects that resource contention can have on high-priority, user-facing workloads with strict Quality of Service (QoS) requirements. Although recent approaches have demonstrated promising results, those works remain largely impractical in public cloud environments since workloads are not known in advance and may only run for a brief period, thus prohibiting offline learning and significantly hindering online learning. In this paper, we propose RAPID, a novel framework for fast, fully-online resource allocation policy learning in highly dynamic operating environments. RAPID leverages lightweight QoS predictions, enabled by domain-knowledge-inspired techniques for sample efficiency and bias reduction, to decouple control from conventional feedback sources and guide policy learning at a rate orders of magnitude faster than prior work. Evaluation on a real-world server platform with representative cloud workloads confirms that RAPID can learn stable resource allocation policies in minutes, as compared with hours in prior state-of-the-art, while improving QoS by 9.0x and increasing best-effort workload performance by 19-43%.
翻訳日:2023-04-12 17:13:52 公開日:2023-04-10
# オンライン評価によるテスト時間適応の再検討

Revisiting Test Time Adaptation under Online Evaluation ( http://arxiv.org/abs/2304.04795v1 )

ライセンス: Link先を確認
Motasem Alfarra, Hani Itani, Alejandro Pardo, Shyma Alhuwaider, Merey Ramazanova, Juan C. P\'erez, Zhipeng Cai, Matthias M\"uller, Bernard Ghanem(参考訳) 本稿では,テスト時間適応法(TTA)のオンライン評価プロトコルを提案する。 TTAメソッドはテスト時にラベルのないデータを活用し、分散シフトに適応する。 多くの効果的な手法が提案されているが、その優れた性能は通常計算予算を大幅に増加させるコストがかかる。 現在の評価プロトコルは、この余分な計算コストの影響を見落とし、実際の適用性に影響を与える。 この問題に対処するため、我々はTTA方式のより現実的な評価プロトコルを提案し、定常速度のデータストリームからオンライン形式でデータを受信し、その手法の適応速度を考慮に入れた。 提案プロトコルを複数のttaメソッドを複数のデータセットとシナリオでベンチマークするために適用する。 広範囲な実験により、推論速度を考慮すると、単純で高速なアプローチはより洗練されたが遅い手法より優れていることが示されている。 例えば、2020年のSHOTは、私たちのオンライン設定の下で、2023年の最先端のSARよりも優れています。 当社のオンライン評価プロトコルは,現実的な設定で効率的かつ適用可能なttaメソッドの開発の必要性を強調している。

This paper proposes a novel online evaluation protocol for Test Time Adaptation (TTA) methods, which penalizes slower methods by providing them with fewer samples for adaptation. TTA methods leverage unlabeled data at test time to adapt to distribution shifts. Though many effective methods have been proposed, their impressive performance usually comes at the cost of significantly increased computation budgets. Current evaluation protocols overlook the effect of this extra computation cost, affecting their real-world applicability. To address this issue, we propose a more realistic evaluation protocol for TTA methods, where data is received in an online fashion from a constant-speed data stream, thereby accounting for the method's adaptation speed. We apply our proposed protocol to benchmark several TTA methods on multiple datasets and scenarios. Extensive experiments shows that, when accounting for inference speed, simple and fast approaches can outperform more sophisticated but slower methods. For example, SHOT from 2020 outperforms the state-of-the-art method SAR from 2023 under our online setting. Our online evaluation protocol emphasizes the need for developing TTA methods that are efficient and applicable in realistic settings.
翻訳日:2023-04-12 17:13:28 公開日:2023-04-10
# 雑音耐性スパイクニューラルネットワークのための確率領域壁磁気トンネル接合人工ニューロン

Stochastic Domain Wall-Magnetic Tunnel Junction Artificial Neurons for Noise-Resilient Spiking Neural Networks ( http://arxiv.org/abs/2304.04794v1 )

ライセンス: Link先を確認
Thomas Leonard, Samuel Liu, Harrison Jin, and Jean Anne C. Incorvia(参考訳) スパイキングニューラルネットワーク(SNN)における神経行動の時空間的性質により、SNNは高エネルギー効率を必要とするエッジアプリケーションに期待できる。 ハードウェアでSNNを実現するために、スピントロニックニューロンの実装はスケーラビリティとエネルギー効率の利点をもたらす。 磁壁 (DW) ベースの磁気トンネル接合 (MTJ) デバイスは, その内在的な統合と燃焼の挙動を調節可能な確率性で考慮すれば, 確率的ニューラルネットワークに適している。 本稿では,電圧依存的な発火確率を持つスケールドdw-mtjニューロンを提案する。 測定された動作は、学習中に同等だがより複雑でマルチウェイト(mw)のdw-mtjデバイスに比べて精度が向上するsnをシミュレートするために使用された。 トレーニング中の検証精度は、理想的なリークインテリジェンスとファイア(LIF)デバイスに匹敵することを示した。 しかし,2次DW-MTJニューロンはFashion-MNIST分類タスクにガウスノイズを導入した後,他のデバイスよりも優れていた。 本研究は、DW-MTJデバイスを用いて、エッジ上のニューロモルフィックコンピューティングに適した耐雑音性ネットワークを構築することができることを示す。

The spatiotemporal nature of neuronal behavior in spiking neural networks (SNNs) make SNNs promising for edge applications that require high energy efficiency. To realize SNNs in hardware, spintronic neuron implementations can bring advantages of scalability and energy efficiency. Domain wall (DW) based magnetic tunnel junction (MTJ) devices are well suited for probabilistic neural networks given their intrinsic integrate-and-fire behavior with tunable stochasticity. Here, we present a scaled DW-MTJ neuron with voltage-dependent firing probability. The measured behavior was used to simulate a SNN that attains accuracy during learning compared to an equivalent, but more complicated, multi-weight (MW) DW-MTJ device. The validation accuracy during training was also shown to be comparable to an ideal leaky integrate and fire (LIF) device. However, during inference, the binary DW-MTJ neuron outperformed the other devices after gaussian noise was introduced to the Fashion-MNIST classification task. This work shows that DW-MTJ devices can be used to construct noise-resilient networks suitable for neuromorphic computing on the edge.
翻訳日:2023-04-12 17:13:10 公開日:2023-04-10
# ディープニューラルネットワークの臨界性と均一性

Criticality versus uniformity in deep neural networks ( http://arxiv.org/abs/2304.04784v1 )

ライセンス: Link先を確認
Aleksandar Bukva, Jurriaan de Gier, Kevin T. Grosvenor, Ro Jefferson, Koenraad Schalm, Eliot Schwander(参考訳) カオスの縁に沿って初期化されたディープフィードフォワードネットワークは、最大訓練可能な深さで定量化されるように指数関数的に優れたトレーニング能力を示す。 本研究では,カオスの端に沿ったタンハ活性化関数の飽和効果について検討する。 特に、活性化後の分布が最大エントロピーを持つ位相空間における均一性の線を決定する。 この線はカオスのエッジと交差し、活性化関数の飽和がトレーニング効率を阻害し始めるレジームを示す。 以上より,カオスのエッジに沿った初期化は必要ではあるが,最適トレーサビリティには十分でないことを示唆する。

Deep feedforward networks initialized along the edge of chaos exhibit exponentially superior training ability as quantified by maximum trainable depth. In this work, we explore the effect of saturation of the tanh activation function along the edge of chaos. In particular, we determine the line of uniformity in phase space along which the post-activation distribution has maximum entropy. This line intersects the edge of chaos, and indicates the regime beyond which saturation of the activation function begins to impede training efficiency. Our results suggest that initialization along the edge of chaos is a necessary but not sufficient condition for optimal trainability.
翻訳日:2023-04-12 17:12:49 公開日:2023-04-10
# 潜在意図による受動データからの強化学習

Reinforcement Learning from Passive Data via Latent Intentions ( http://arxiv.org/abs/2304.04782v1 )

ライセンス: Link先を確認
Dibya Ghosh, Chethan Bhateja, Sergey Levine(参考訳) 人間のビデオのようなパッシブな観察データは豊富で情報に富んでいるが、現在のRL法にはほとんど使われていない。 おそらく意外なことに、報奨やアクションラベルがないにもかかわらず、受動的データは、下流のRLを加速する機能を学ぶのに使うことができる。 我々のアプローチは、エージェントが特定のタスクを達成するために行動するとき、将来の結果がどう変化するかを測定するという意図をモデル化することで、受動的データから学習します。 本稿では,従来のRLに類似したアルゴリズムを学習するが,受動的データから完全に学習する時間差学習目標を提案する。 この目的を最適化する際、エージェントは生の観測データから、環境における状態、政策、および可能な結果の表現を同時に学習する。 理論上,経験上,このスキームは下流タスクにおける価値予測に適する特徴を学習し,実験ではクロスエンボディメント・ビデオデータやyoutubeビデオなど,様々な形態の受動的データから学習できることを実証した。

Passive observational data, such as human videos, is abundant and rich in information, yet remains largely untapped by current RL methods. Perhaps surprisingly, we show that passive data, despite not having reward or action labels, can still be used to learn features that accelerate downstream RL. Our approach learns from passive data by modeling intentions: measuring how the likelihood of future outcomes change when the agent acts to achieve a particular task. We propose a temporal difference learning objective to learn about intentions, resulting in an algorithm similar to conventional RL, but which learns entirely from passive data. When optimizing this objective, our agent simultaneously learns representations of states, of policies, and of possible outcomes in an environment, all from raw observational data. Both theoretically and empirically, this scheme learns features amenable for value prediction for downstream tasks, and our experiments demonstrate the ability to learn from many forms of passive data, including cross-embodiment video data and YouTube videos.
翻訳日:2023-04-12 17:12:41 公開日:2023-04-10
# 大規模逆問題に対するオートエンコーダ圧縮法

An autoencoder compression approach for accelerating large-scale inverse problems ( http://arxiv.org/abs/2304.04781v1 )

ライセンス: Link先を確認
Jonathan Wittmer, Jacob Badger, Hari Sundar, Tan Bui-Thanh(参考訳) PDE制約の逆問題は今日の計算科学において最も困難で計算に要求される問題の一つである。 PDEソリューションを正確に計算するために要求される微細メッシュは、膨大な数のパラメータを導入し、適切な時間でそのようなシステムを解決するためには、より多くのプロセッサやメモリなどの大規模コンピューティングリソースを必要とする。 時間依存PDEによって制約される逆問題に対して、勾配や高次微分を効率的に計算するためにしばしば用いられる随伴法は、各時間ステップで前方PDE解に依存する、時間反転されたいわゆる随伴PDEを解く必要がある。 これにより、時間ステップごとに高次元の前方解ベクトルの保存が必要となる。 このような手順はすぐに利用可能なメモリ資源を消費する。 メモリフットプリント削減のための追加計算を交換するいくつかのアプローチが、チェックポイントや圧縮戦略を含むメモリボトルネックを軽減するために提案されている。 本稿では,自動エンコーダを用いて,チェックポイントと実質的なメモリストレージの必要性をなくし,解決までの時間とメモリ要求の両方を削減した,近距離から理想までのスケーラブルな圧縮手法を提案する。 我々は,地球規模の不測地震逆問題に対するチェックポインティングとオフザシェルフ圧縮手法との比較を行った。 提案したオートエンコーダ圧縮手法を用いて,勾配およびヘシアンベクトル積の近似速度を推定した。 提案手法の有用性を明らかにするため,データインフォームド・アクティブ・サブスペース(DIAS)とオートエンコーダ圧縮を組み合わせることで,チェックポイントや大容量メモリを必要とせずにDIAS法を大規模に拡張できることを示す。

PDE-constrained inverse problems are some of the most challenging and computationally demanding problems in computational science today. Fine meshes that are required to accurately compute the PDE solution introduce an enormous number of parameters and require large scale computing resources such as more processors and more memory to solve such systems in a reasonable time. For inverse problems constrained by time dependent PDEs, the adjoint method that is often employed to efficiently compute gradients and higher order derivatives requires solving a time-reversed, so-called adjoint PDE that depends on the forward PDE solution at each timestep. This necessitates the storage of a high dimensional forward solution vector at every timestep. Such a procedure quickly exhausts the available memory resources. Several approaches that trade additional computation for reduced memory footprint have been proposed to mitigate the memory bottleneck, including checkpointing and compression strategies. In this work, we propose a close-to-ideal scalable compression approach using autoencoders to eliminate the need for checkpointing and substantial memory storage, thereby reducing both the time-to-solution and memory requirements. We compare our approach with checkpointing and an off-the-shelf compression approach on an earth-scale ill-posed seismic inverse problem. The results verify the expected close-to-ideal speedup for both the gradient and Hessian-vector product using the proposed autoencoder compression approach. To highlight the usefulness of the proposed approach, we combine the autoencoder compression with the data-informed active subspace (DIAS) prior to show how the DIAS method can be affordably extended to large scale problems without the need of checkpointing and large memory.
翻訳日:2023-04-12 17:12:22 公開日:2023-04-10
# 知識圏対話のための生成的知識選択

Generative Knowledge Selection for Knowledge-Grounded Dialogues ( http://arxiv.org/abs/2304.04836v1 )

ライセンス: Link先を確認
Weiwei Sun, Pengjie Ren, Zhaochun Ren(参考訳) 知識選択は、対話履歴に基づいて発話に使用される適切な知識スニペットを選択することを目的とした知識基底対話(KGD)の鍵である。 先行研究は主に、それぞれの候補スニペットを「関連」または「関連」と独立に分類する分類手法を用いていた。 しかし、そのようなアプローチはスニペット間の相互作用を無視し、スニペットの意味を推測することが困難になる。 さらに、対話知識相互作用の談話構造のモデル化が欠如している。 我々はGenKSと呼ばれる知識選択のためのシンプルで効果的な生成手法を提案する。 GenKSは、シーケンス対シーケンスモデルで識別子を生成することで、スニペットを選択することを学ぶ。 したがって、GenKSは注意機構を通じて本質的に知識内相互作用を捉える。 一方,対話と知識の相互作用を明示的にモデル化するハイパーリンク機構を考案する。 我々は3つのベンチマークデータセットで実験を行い、GenKSが知識選択と応答生成の両方において最良の結果が得られることを検証した。

Knowledge selection is the key in knowledge-grounded dialogues (KGD), which aims to select an appropriate knowledge snippet to be used in the utterance based on dialogue history. Previous studies mainly employ the classification approach to classify each candidate snippet as "relevant" or "irrelevant" independently. However, such approaches neglect the interactions between snippets, leading to difficulties in inferring the meaning of snippets. Moreover, they lack modeling of the discourse structure of dialogue-knowledge interactions. We propose a simple yet effective generative approach for knowledge selection, called GenKS. GenKS learns to select snippets by generating their identifiers with a sequence-to-sequence model. GenKS therefore captures intra-knowledge interaction inherently through attention mechanisms. Meanwhile, we devise a hyperlink mechanism to model the dialogue-knowledge interactions explicitly. We conduct experiments on three benchmark datasets, and verify GenKS achieves the best results on both knowledge selection and response generation.
翻訳日:2023-04-12 17:06:04 公開日:2023-04-10
# トルクメニスタンのインターネット検閲の測定と回避--低浸透国の大規模測定を事例として

Measuring and Evading Turkmenistan's Internet Censorship: A Case Study in Large-Scale Measurements of a Low-Penetration Country ( http://arxiv.org/abs/2304.04835v1 )

ライセンス: Link先を確認
Sadia Nourin, Van Tran, Xi Jiang, Kevin Bock, Nick Feamster, Nguyen Phong Hoang, Dave Levin(参考訳) 2006年以降、トルクメニスタンは広範囲に検閲されたインターネットと厳格に規制された情報制御ポリシーのために国境のない記者によって数少ないインターネット敵の1つに挙げられてきた。 既存のトルクメニスタンにおけるフィルタリングの報告は、少数の先進点に依存したり、少数のウェブサイトをテストする。 しかし、インターネットの普及率の低さと人口の少さは、より包括的な測定を困難にしている。 人口は600万人に過ぎず、インターネットの浸透率は38%に過ぎず、全国のボランティアを募集するか、遠隔ネットワークを大規模に測定するために有利なポイントを得るかのどちらかが難しい。 我々は、トルクメニスタンのWeb検閲の現在までの最大の測定研究を提示する。 そのために、Webの3つの基本プロトコル(DNS、HTTP、HTTPS)で数百万のドメインのブロッキング状態をテストするTMCを開発しました。 重要なことに、tmcは国内のバンテージポイントへのアクセスを必要としない。 我々は,tmcを15.5mのドメインに適用し,トルクメニスタンが122k以上のドメインを検閲していることを明らかにした。 また、これらの検閲されたドメインをリバースエンジニアリングし、6Kオーバーブロックルールを特定し、5.4M以上のドメインを偶然フィルタリングする。 最後に、オープンソースの検閲回避ツールであるgenevaを使用して、トランスポート層とアプリケーション層の両方でトルクメニスタンの検閲を打ち破ることができる5つの新しい検閲回避戦略を発見します。 TMCが収集したデータと検閲回避のためのコードの両方を公開します。

Since 2006, Turkmenistan has been listed as one of the few Internet enemies by Reporters without Borders due to its extensively censored Internet and strictly regulated information control policies. Existing reports of filtering in Turkmenistan rely on a small number of vantage points or test a small number of websites. Yet, the country's poor Internet adoption rates and small population can make more comprehensive measurement challenging. With a population of only six million people and an Internet penetration rate of only 38%, it is challenging to either recruit in-country volunteers or obtain vantage points to conduct remote network measurements at scale. We present the largest measurement study to date of Turkmenistan's Web censorship. To do so, we developed TMC, which tests the blocking status of millions of domains across the three foundational protocols of the Web (DNS, HTTP, and HTTPS). Importantly, TMC does not require access to vantage points in the country. We apply TMC to 15.5M domains, our results reveal that Turkmenistan censors more than 122K domains, using different blocklists for each protocol. We also reverse-engineer these censored domains, identifying 6K over-blocking rules causing incidental filtering of more than 5.4M domains. Finally, we use Geneva, an open-source censorship evasion tool, to discover five new censorship evasion strategies that can defeat Turkmenistan's censorship at both transport and application layers. We will publicly release both the data collected by TMC and the code for censorship evasion.
翻訳日:2023-04-12 17:05:51 公開日:2023-04-10
# 光トワイザーに閉じ込められた個々の円リドベルグ原子の配列

Array of Individual Circular Rydberg Atoms Trapped in Optical Tweezers ( http://arxiv.org/abs/2304.04831v1 )

ライセンス: Link先を確認
Brice Ravon, Paul M\'ehaignerie, Yohann Machu, Andr\'es Dur\'an Hern\'andez, Maxime Favier, Jean-Michel Raimond, Michel Brune, Cl\'ement Sayrin(参考訳) 円リドバーグ原子、すなわち最大軌道運動量を持つリドバーグ原子は、量子計算、シミュレーション、センシングに非常に有望である。 長い自然寿命と強い原子間相互作用と電磁場との結合を結合する。 個々のCRAをトラッピングすることは、これらのユニークな特徴を活用するために不可欠である。 我々は,CRAsレーザートッピングの最初の実演を,プログラマブルな光ボトルビームのアレイで報告した。 我々は,新しい光学検出法を用いて5ms以上のルビジウム円準位の崩壊を観測した。 このアルカリCRAの最初の光学的検出は空間的および準選択的である。 最後に,トラップ中のcraの機械的振動を観測する。 この研究は、量子デバイスにおける円形レベルの使用への道を開く。 また、Rydberg多様体の全範囲を用いた量子シミュレーションや情報処理にも期待できる。

Circular Rydberg atoms (CRAs), i.e., Rydberg atoms with maximal orbital momentum, are highly promising for quantum computation, simulation and sensing. They combine long natural lifetimes with strong inter-atomic interactions and coupling to electromagnetic fields. Trapping individual CRAs is essential to harness these unique features. We report the first demonstration of CRAs laser-trapping in a programmable array of optical bottle beams. We observe the decay of a trapped Rubidium circular level over 5ms using a novel optical detection method. This first optical detection of alkali CRAs is both spatially- and level selective. We finally observe the mechanical oscillations of the CRAs in the traps. This work opens the route to the use of circular levels in quantum devices. It is also promising for quantum simulation and information processing using the full extent of Rydberg manifolds.
翻訳日:2023-04-12 17:05:23 公開日:2023-04-10
# 格子の順序モチーフ

Ordinal Motifs in Lattices ( http://arxiv.org/abs/2304.04827v1 )

ライセンス: Link先を確認
Johannes Hirth and Viktoria Horn and Gerd Stumme and Tom Hanika(参考訳) 格子は、関係性や存在論的知識の表現と分析によく使われる構造である。 特に、これらの解析には、大きくて高次元の格子を理解可能な大きな部分の集合に分解する必要がある。 本研究では,/ordinal motifs/を意味分析単位として提案する。 形式的概念分析の分野から形式的文脈の(フルな)スケール測定を通じてこれらの順序的部分構造(または標準スケール)を研究する。 決定問題はNP完全であり,計算労力を抑えるために順序のモチーフを段階的に識別する方法が示唆された。 理論的な結果に従い,中規模の順序データセットから基本的な意味を取得するために順序モチーフをどのように活用できるかを実証する。

Lattices are a commonly used structure for the representation and analysis of relational and ontological knowledge. In particular, the analysis of these requires a decomposition of a large and high-dimensional lattice into a set of understandably large parts. With the present work we propose /ordinal motifs/ as analytical units of meaning. We study these ordinal substructures (or standard scales) through (full) scale-measures of formal contexts from the field of formal concept analysis. We show that the underlying decision problems are NP-complete and provide results on how one can incrementally identify ordinal motifs to save computational effort. Accompanying our theoretical results, we demonstrate how ordinal motifs can be leveraged to retrieve basic meaning from a medium sized ordinal data set.
翻訳日:2023-04-12 17:05:11 公開日:2023-04-10
# 説明可能なベイズ深層学習のための勾配に基づく不確かさ属性

Gradient-based Uncertainty Attribution for Explainable Bayesian Deep Learning ( http://arxiv.org/abs/2304.04824v1 )

ライセンス: Link先を確認
Hanjing Wang, Dhiraj Joshi, Shiqiang Wang, Qiang Ji(参考訳) ディープラーニングモデルによる予測は、データ摂動、敵攻撃、アウト・オブ・ディストリビューション・インプットの傾向が強い。 信頼されたAIシステムを構築するためには、予測の不確実性を正確に定量化することが重要である。 現在の取り組みは不確実性定量化の精度と効率の向上に重点を置いているが、不確実性源を特定し、その予測への影響を緩和するための行動を取る必要がある。 そこで本研究では,正確な不確実性定量化を行うだけでなく,不確実性を説明し,その原因を特定し,不確実性を軽減するための戦略を提案する。 具体的には,予測の不確実性に寄与する入力の最も問題領域を特定するために,勾配に基づく不確実性帰属法を提案する。 既存の手法と比較して、提案したUA-Backpropは競合精度、緩和された仮定、高効率である。 さらに,モデル性能をさらに向上させるために,帰属結果を活用した不確実性緩和戦略を提案する。 本手法の有効性を示すため,定性評価と定量的評価を行った。

Predictions made by deep learning models are prone to data perturbations, adversarial attacks, and out-of-distribution inputs. To build a trusted AI system, it is therefore critical to accurately quantify the prediction uncertainties. While current efforts focus on improving uncertainty quantification accuracy and efficiency, there is a need to identify uncertainty sources and take actions to mitigate their effects on predictions. Therefore, we propose to develop explainable and actionable Bayesian deep learning methods to not only perform accurate uncertainty quantification but also explain the uncertainties, identify their sources, and propose strategies to mitigate the uncertainty impacts. Specifically, we introduce a gradient-based uncertainty attribution method to identify the most problematic regions of the input that contribute to the prediction uncertainty. Compared to existing methods, the proposed UA-Backprop has competitive accuracy, relaxed assumptions, and high efficiency. Moreover, we propose an uncertainty mitigation strategy that leverages the attribution results as attention to further improve the model performance. Both qualitative and quantitative evaluations are conducted to demonstrate the effectiveness of our proposed methods.
翻訳日:2023-04-12 17:05:01 公開日:2023-04-10
# 二元潜在拡散

Binary Latent Diffusion ( http://arxiv.org/abs/2304.04820v1 )

ライセンス: Link先を確認
Ze Wang, Jiang Wang, Zicheng Liu, and Qiang Qiu(参考訳) 本稿では,コンパクトかつ表現力に富む画像表現のために,バイナリ潜在空間を探索できることを示す。 我々は,Bernolli符号化分布を用いた自動エンコーダのトレーニングにより,画像と対応する潜在バイナリ表現の双方向マッピングをモデル化する。 一方、二項潜在性空間は、分布が画素や連続的潜在性表現よりも効率的にモデル化できるコンパクトな離散画像表現を提供する。 一方,各画像パッチを,ベクトル量子化を伴う離散画像表現のように学習したクックブックのインデックスではなく,バイナリベクトルとして表現した。 このようにして、ラテント空間の多段階階層を伴わずに、画質と高解像度の画像表現を向上できるバイナリラテント表現を得る。 このバイナリラテント空間では、バイナリ画像表現をモデリングするために特別に設計されたバイナリラテント拡散モデルを用いて、画像を効果的に生成することができる。 本研究では,複数のデータセットを用いた条件付き画像生成実験と非条件付き画像生成実験の両方を提示し,提案手法が最先端の手法と同等に動作し,試験時間加速度を使わずにサンプリング効率を最大16ステップまで劇的に向上させることを示した。 提案するフレームワークは、遅延階層やマルチステージ精細化に頼ることなく、シームレスに1024 \times 1024$高解像度画像生成にスケールすることもできる。

In this paper, we show that a binary latent space can be explored for compact yet expressive image representations. We model the bi-directional mappings between an image and the corresponding latent binary representation by training an auto-encoder with a Bernoulli encoding distribution. On the one hand, the binary latent space provides a compact discrete image representation of which the distribution can be modeled more efficiently than pixels or continuous latent representations. On the other hand, we now represent each image patch as a binary vector instead of an index of a learned cookbook as in discrete image representations with vector quantization. In this way, we obtain binary latent representations that allow for better image quality and high-resolution image representations without any multi-stage hierarchy in the latent space. In this binary latent space, images can now be generated effectively using a binary latent diffusion model tailored specifically for modeling the prior over the binary image representations. We present both conditional and unconditional image generation experiments with multiple datasets, and show that the proposed method performs comparably to state-of-the-art methods while dramatically improving the sampling efficiency to as few as 16 steps without using any test-time acceleration. The proposed framework can also be seamlessly scaled to $1024 \times 1024$ high-resolution image generation without resorting to latent hierarchy or multi-stage refinements.
翻訳日:2023-04-12 17:04:43 公開日:2023-04-10
# サイバー犯罪予測の進歩:マシン,ディープ,トランスファー,適応学習技術の調査

Advances in Cybercrime Prediction: A Survey of Machine, Deep, Transfer, and Adaptive Learning Techniques ( http://arxiv.org/abs/2304.04819v1 )

ライセンス: Link先を確認
Lavanya Elluri, Varun Mandalapu, Piyush Vyas, Nirmalya Roy(参考訳) サイバー犯罪は世界中の組織や個人にとって脅威となり、犯罪者はますます高度な技術を使ってセキュリティシステムに侵入し、機密データを盗む。 近年、サイバー犯罪を予測し、発生前に防止するための有望なツールとして、機械学習、ディープラーニング、転送学習技術が登場している。 本稿では,上記の手法を用いたサイバー犯罪予測の最新動向に関する総合的な調査を行い,各手法に関する最新の研究を強調する。 本研究は,150件以上の研究論文をレビューし,最新の研究論文50件について論じる。 本稿では,サイバー犯罪者が使用する一般的な手法について議論し,異常行動の検出や潜在的な脅威の特定に有効なリカレントニューラルネットワークや畳み込みニューラルネットワークなど,最新の機械学習技術とディープラーニング技術に注目してレビューを開始する。 また、あるデータセットでトレーニングされたモデルを別のデータセットで使用するための転送学習を議論し、サイバー犯罪予測における早期アルゴリズム研究の一環として、アクティブ学習と強化学習に焦点を当てる。 最後に,サイバー犯罪予測における重要なイノベーション,研究ギャップ,今後の研究機会について論じる。 本稿では,サイバー犯罪予測における最先端の展開,各手法の強みと限界の隠蔽,研究者や実践者に重要な洞察,公開データセット,効率的なサイバー犯罪予測システムの開発に必要な資源の確保について概観する。

Cybercrime is a growing threat to organizations and individuals worldwide, with criminals using increasingly sophisticated techniques to breach security systems and steal sensitive data. In recent years, machine learning, deep learning, and transfer learning techniques have emerged as promising tools for predicting cybercrime and preventing it before it occurs. This paper aims to provide a comprehensive survey of the latest advancements in cybercrime prediction using above mentioned techniques, highlighting the latest research related to each approach. For this purpose, we reviewed more than 150 research articles and discussed around 50 most recent and relevant research articles. We start the review by discussing some common methods used by cyber criminals and then focus on the latest machine learning techniques and deep learning techniques, such as recurrent and convolutional neural networks, which were effective in detecting anomalous behavior and identifying potential threats. We also discuss transfer learning, which allows models trained on one dataset to be adapted for use on another dataset, and then focus on active and reinforcement Learning as part of early-stage algorithmic research in cybercrime prediction. Finally, we discuss critical innovations, research gaps, and future research opportunities in Cybercrime prediction. Overall, this paper presents a holistic view of cutting-edge developments in cybercrime prediction, shedding light on the strengths and limitations of each method and equipping researchers and practitioners with essential insights, publicly available datasets, and resources necessary to develop efficient cybercrime prediction systems.
翻訳日:2023-04-12 17:04:22 公開日:2023-04-10
# トロール型漁獲量モニタリングのための一様外観の反復連想検出による多物体追跡

Multi-Object Tracking by Iteratively Associating Detections with Uniform Appearance for Trawl-Based Fishing Bycatch Monitoring ( http://arxiv.org/abs/2304.04816v1 )

ライセンス: Link先を確認
Cheng-Yen Yang, Alan Yu Shyang Tan, Melanie J. Underwood, Charlotte Bodie, Zhongyu Jiang, Steve George, Karl Warr, Jenq-Neng Hwang, Emma Jones(参考訳) 漁業活動における漁獲監視の目的は、映像から魚の標的をリアルタイムで検出、追跡、分類することである。 収集された情報は、望まないbycatchをリアルタイムで解放するために使用できる。 しかしながら、従来のマルチオブジェクトトラッキング(MOT)手法は、家畜のモニタリングなどとは異なる、直線的な動きと多様な外観を持つ車両や歩行者を追跡するために開発されたため、制限がある。 そこで本研究では,既存の観測中心追跡アルゴリズムに基づく新しいMOT手法を提案する。 イテレーティブアソシエーションモジュールは拡張可能なコンポーネントとして設計されており、既存のトラッキングメソッドにマージすることができる。 本手法では, HOTA, MOTA, IDF1の性能測定値から, 潜水魚群とMOT17データセットの追跡目標の性能を向上し, 精度を向上させることなく, 水中魚群とMOT17データセットの最先端技術を上回った。

The aim of in-trawl catch monitoring for use in fishing operations is to detect, track and classify fish targets in real-time from video footage. Information gathered could be used to release unwanted bycatch in real-time. However, traditional multi-object tracking (MOT) methods have limitations, as they are developed for tracking vehicles or pedestrians with linear motions and diverse appearances, which are different from the scenarios such as livestock monitoring. Therefore, we propose a novel MOT method, built upon an existing observation-centric tracking algorithm, by adopting a new iterative association step to significantly boost the performance of tracking targets with a uniform appearance. The iterative association module is designed as an extendable component that can be merged into most existing tracking methods. Our method offers improved performance in tracking targets with uniform appearance and outperforms state-of-the-art techniques on our underwater fish datasets as well as the MOT17 dataset, without increasing latency nor sacrificing accuracy as measured by HOTA, MOTA, and IDF1 performance metrics.
翻訳日:2023-04-12 17:03:58 公開日:2023-04-10
# LCDctCNN:CNNモデルを用いたCTスキャン画像の肺がん診断

LCDctCNN: Lung Cancer Diagnosis of CT scan Images Using CNN Based Model ( http://arxiv.org/abs/2304.04814v1 )

ライセンス: Link先を確認
Muntasir Mamun, Md Ishtyaq Mahmud, Mahabuba Meherin, and Ahmed Abdelgawad(参考訳) 世界で最も致命的かつ生命を脅かす病気は肺がんである。 早期診断と正確な治療は肺癌の死亡率を下げるために必要である。 コンピュータトモグラフィー(CT)スキャン画像は、ディープラーニングモデルを用いた肺がん検出に最も有効な画像技術の一つである。 本稿では,CTスキャン画像を用いた肺癌早期検出のためのディープラーニングモデルに基づく畳み込みニューラルネットワーク(CNN)フレームワークを提案する。 また、inception v3、xception、resnet-50といった他のモデルも分析して、提案モデルと比較しました。 精度、AUC(Area Under Curve)、リコール、損失の指標を考慮して、我々のモデルを互いに比較した。 モデルの性能評価を行った結果,cnnは他のモデルよりも優れており,従来の手法と比較して有望であることが判明した。 精度は92%、aucは98.21%、リコールは91.72%、損失は0.328であった。

The most deadly and life-threatening disease in the world is lung cancer. Though early diagnosis and accurate treatment are necessary for lowering the lung cancer mortality rate. A computerized tomography (CT) scan-based image is one of the most effective imaging techniques for lung cancer detection using deep learning models. In this article, we proposed a deep learning model-based Convolutional Neural Network (CNN) framework for the early detection of lung cancer using CT scan images. We also have analyzed other models for instance Inception V3, Xception, and ResNet-50 models to compare with our proposed model. We compared our models with each other considering the metrics of accuracy, Area Under Curve (AUC), recall, and loss. After evaluating the model's performance, we observed that CNN outperformed other models and has been shown to be promising compared to traditional methods. It achieved an accuracy of 92%, AUC of 98.21%, recall of 91.72%, and loss of 0.328.
翻訳日:2023-04-12 17:03:38 公開日:2023-04-10
# Scallop: ニューロシンボリックプログラミングのための言語

Scallop: A Language for Neurosymbolic Programming ( http://arxiv.org/abs/2304.04812v1 )

ライセンス: Link先を確認
Ziyang Li, Jiani Huang, Mayur Naik(参考訳) 深層学習と論理推論の利点を組み合わせた言語であるscallopを提案する。 scallopを使えば、ユーザーは幅広いニューロシンボリックなアプリケーションを書き、データと計算効率のよい方法でトレーニングすることができる。 3つの重要な特徴によってこれらの目標を達成する。 1) 関係データモデルに基づくフレキシブルな記号表現 2) Datalogをベースとして再帰、集約、否定をサポートする宣言型論理プログラミング言語。 3)証明半環の理論に基づく自動的で効率的な微分可能な推論のための枠組み。 文献から8種類のニューロシンボリック・アプリケーションを用いてScallopの評価を行った。 我々の評価は、Scallopが多様かつ困難なAIタスクでアルゴリズム推論を表現できることを示し、機械学習プログラマが論理的ドメイン知識を統合するための簡潔なインターフェースを提供し、精度の観点から最先端モデルに匹敵する、あるいは優れたソリューションを提供する。 さらに、scallopのソリューションは、ランタイムやデータ効率、解釈可能性、一般化可能性といった面でこれらのモデルを上回る。

We present Scallop, a language which combines the benefits of deep learning and logical reasoning. Scallop enables users to write a wide range of neurosymbolic applications and train them in a data- and compute-efficient manner. It achieves these goals through three key features: 1) a flexible symbolic representation that is based on the relational data model; 2) a declarative logic programming language that is based on Datalog and supports recursion, aggregation, and negation; and 3) a framework for automatic and efficient differentiable reasoning that is based on the theory of provenance semirings. We evaluate Scallop on a suite of eight neurosymbolic applications from the literature. Our evaluation demonstrates that Scallop is capable of expressing algorithmic reasoning in diverse and challenging AI tasks, provides a succinct interface for machine learning programmers to integrate logical domain knowledge, and yields solutions that are comparable or superior to state-of-the-art models in terms of accuracy. Furthermore, Scallop's solutions outperform these models in aspects such as runtime and data efficiency, interpretability, and generalizability.
翻訳日:2023-04-12 17:03:21 公開日:2023-04-10
# 野生における3次元メッシュ推定のための3次元擬似GT

Three Recipes for Better 3D Pseudo-GTs of 3D Human Mesh Estimation in the Wild ( http://arxiv.org/abs/2304.04875v1 )

ライセンス: Link先を確認
Gyeongsik Moon, Hongsuk Choi, Sanghyuk Chun, Jiyoung Lee, Sangdoo Yun(参考訳) IW(In-the-Wild)データセットが2次元ポーズ基底真理(GT)のみを提供するため、野生で3Dのメッシュを復元することは極めて難しい。 近年、3D擬似GTは、ITWデータセット上でネットワークをトレーニングする際に、3D擬似GTが3Dメッシュの監視を可能にするため、人間のメッシュ推定ネットワークのトレーニングに広く利用されている。 しかし、3D擬似GTの大きな可能性にもかかわらず、より有用な3D擬似GTを作るのにどの因子が重要であるかを調べるための広範な分析は行われていない。 本稿では,ITWデータセットの3次元擬似GTを得るための3つのレシピを提案する。 主な課題は、3D擬似GTを取得する際に2Dベースの弱い監視しか許可されないことである。 それぞれのレシピは、深さのあいまいさ、弱監督の準最適性、そして不明瞭な明瞭さという、それぞれの側面の課題に対処します。 実験の結果,新しい3D擬似GTを用いて,単に最先端ネットワークをトレーニングするだけで,ベルやホイッスルを使わずに次のレベルまで性能が向上することがわかった。 3Dの擬似GTはhttps://github.com/mks0601/NeuralAnnot_RELEASEで公開されている。

Recovering 3D human mesh in the wild is greatly challenging as in-the-wild (ITW) datasets provide only 2D pose ground truths (GTs). Recently, 3D pseudo-GTs have been widely used to train 3D human mesh estimation networks as the 3D pseudo-GTs enable 3D mesh supervision when training the networks on ITW datasets. However, despite the great potential of the 3D pseudo-GTs, there has been no extensive analysis that investigates which factors are important to make more beneficial 3D pseudo-GTs. In this paper, we provide three recipes to obtain highly beneficial 3D pseudo-GTs of ITW datasets. The main challenge is that only 2D-based weak supervision is allowed when obtaining the 3D pseudo-GTs. Each of our three recipes addresses the challenge in each aspect: depth ambiguity, sub-optimality of weak supervision, and implausible articulation. Experimental results show that simply re-training state-of-the-art networks with our new 3D pseudo-GTs elevates their performance to the next level without bells and whistles. The 3D pseudo-GT is publicly available in https://github.com/mks0601/NeuralAnnot_RELEASE.
翻訳日:2023-04-12 16:56:40 公開日:2023-04-10
# imagecaptioner$^2$:画像キャプションバイアス増幅評価のための画像キャプション

ImageCaptioner$^2$: Image Captioner for Image Captioning Bias Amplification Assessment ( http://arxiv.org/abs/2304.04874v1 )

ライセンス: Link先を確認
Eslam Mohamed Bakr, Pengzhan Sun, Li Erran Li, Mohamed Elhoseiny(参考訳) ほとんどの事前学習された学習システムは、典型的にはデータやモデル、あるいはその両方から生じるバイアスに苦しむことが知られている。 バイアスとそのソースの測定と定量化は難しい課題であり、画像キャプションで広く研究されている。 この方向の大きな努力にもかかわらず、既存のメトリクスは視覚信号を含める際に一貫性が欠如していることが観察された。 本稿では,画像キャプションのための新しいバイアス評価指標である$ImageCaptioner^2$を紹介する。 モデルやデータの絶対バイアスを測定する代わりに、$imagecaptioner^2$はモデルw.r.tによって導入されたバイアスにもっと注意を払う。 生成されたキャプションのみに基づいて画像キャプションアルゴリズムを評価する既存の方法とは異なり、$ImageCaptioner^2$はバイアスを測定しながらイメージを組み込む。 さらに,生成したキャプションのバイアスを,言語分類器の代わりにプロンプトベースの画像キャプションとして測定するための定式化を設計する。 最後に、$imagecaptioner^2$メトリックを、11の異なる画像キャプションアーキテクチャ、すなわち、ms-cocoキャプションデータセット、artemis v1、artemis v2の3つの異なるデータセット、すなわち性別、人種、感情の3つの異なる保護属性に適用します。 そこで我々は,バイアスメトリクスのための新しい人間評価パラダイムであるanonymousbenchを提案することで,$imagecaptioner^2$メトリックの有効性を検証する。 私たちの測定基準は、最近のバイアスメトリックよりも大きな優位性を示しており、人間のアライメントの観点からは、それぞれ相関スコアが80%、licが54%である。 コードはhttps://eslambakr.github.io/imagecaptioner2.github.io/で入手できる。

Most pre-trained learning systems are known to suffer from bias, which typically emerges from the data, the model, or both. Measuring and quantifying bias and its sources is a challenging task and has been extensively studied in image captioning. Despite the significant effort in this direction, we observed that existing metrics lack consistency in the inclusion of the visual signal. In this paper, we introduce a new bias assessment metric, dubbed $ImageCaptioner^2$, for image captioning. Instead of measuring the absolute bias in the model or the data, $ImageCaptioner^2$ pay more attention to the bias introduced by the model w.r.t the data bias, termed bias amplification. Unlike the existing methods, which only evaluate the image captioning algorithms based on the generated captions only, $ImageCaptioner^2$ incorporates the image while measuring the bias. In addition, we design a formulation for measuring the bias of generated captions as prompt-based image captioning instead of using language classifiers. Finally, we apply our $ImageCaptioner^2$ metric across 11 different image captioning architectures on three different datasets, i.e., MS-COCO caption dataset, Artemis V1, and Artemis V2, and on three different protected attributes, i.e., gender, race, and emotions. Consequently, we verify the effectiveness of our $ImageCaptioner^2$ metric by proposing AnonymousBench, which is a novel human evaluation paradigm for bias metrics. Our metric shows significant superiority over the recent bias metric; LIC, in terms of human alignment, where the correlation scores are 80% and 54% for our metric and LIC, respectively. The code is available at https://eslambakr.github.io/imagecaptioner2.github.io/.
翻訳日:2023-04-12 16:56:18 公開日:2023-04-10
# DASS Good:空間コホートデータの説明可能なデータマイニング

DASS Good: Explainable Data Mining of Spatial Cohort Data ( http://arxiv.org/abs/2304.04870v1 )

ライセンス: Link先を確認
Andrew Wentzel, Carla Floricel, Guadalupe Canahuate, Mohamed A.Naser, Abdallah S. Mohamed, Clifton David Fuller, Lisanne van Dijk, G.Elisabeta Marai(参考訳) リスクのある隣接臓器間の放射線量分布など、空間情報を含む場合、適切な臨床機械学習モデルの開発は難しい課題である。 頭頸部癌患者の放射線治療線量に関連する長期毒性を推定するための予測モデルとして,人間と機械のハイブリッドな開発を支援するモデリングシステムdassの共同設計について述べる。 オンコロジーとデータマイニングのドメイン専門家と共同で開発されたdassは、ヒューマン・イン・ザ・ループのビジュアル・ステアリング、空間データ、説明可能なaiを組み込んで、ドメイン知識を自動データマイニングで強化する。 我々は, 2つの実践的臨床階層化モデルの開発と, ドメインエキスパートからのフィードバックを提示する。 最後に,この共同体験から得られたデザインの教訓について述べる。

Developing applicable clinical machine learning models is a difficult task when the data includes spatial information, for example, radiation dose distributions across adjacent organs at risk. We describe the co-design of a modeling system, DASS, to support the hybrid human-machine development and validation of predictive models for estimating long-term toxicities related to radiotherapy doses in head and neck cancer patients. Developed in collaboration with domain experts in oncology and data mining, DASS incorporates human-in-the-loop visual steering, spatial data, and explainable AI to augment domain knowledge with automatic data mining. We demonstrate DASS with the development of two practical clinical stratification models and report feedback from domain experts. Finally, we describe the design lessons learned from this collaborative experience.
翻訳日:2023-04-12 16:55:43 公開日:2023-04-10
# ShapeShift: ロボットグラフ作成のためのスーパークワッドリック型オブジェクトポース推定

ShapeShift: Superquadric-based Object Pose Estimation for Robotic Grasping ( http://arxiv.org/abs/2304.04861v1 )

ライセンス: Link先を確認
E. Zhixuan Zeng, Yuhao Chen, Alexander Wong(参考訳) オブジェクトポーズ推定は、ロボット工学において正確なオブジェクト操作のための重要なタスクである。 しかし、現在の技術は参照3Dオブジェクトに大きく依存しており、その一般化性を制限し、新しいオブジェクトカテゴリに拡張するのにコストがかかる。 直接ポーズ予測は、3Dモデルを参照することなく、ロボットの把握に限られた情報を提供する。 キーポイントベースの手法は、正確な3Dモデルに頼ることなく、本質的な記述性を提供するが、一貫性と正確性に欠ける。 これらの課題に対処するため,本論文では,オブジェクトに適合するプリミティブな形状に対してオブジェクトのポーズを予測する,オブジェクトのポーズ推定のためのスーパークワッドリックベースのフレームワークであるShapeShiftを提案する。 提案されたフレームワークは、内在的な記述性とトレーニングセットを超えて任意の幾何学的形状に一般化する能力を提供する。

Object pose estimation is a critical task in robotics for precise object manipulation. However, current techniques heavily rely on a reference 3D object, limiting their generalizability and making it expensive to expand to new object categories. Direct pose predictions also provide limited information for robotic grasping without referencing the 3D model. Keypoint-based methods offer intrinsic descriptiveness without relying on an exact 3D model, but they may lack consistency and accuracy. To address these challenges, this paper proposes ShapeShift, a superquadric-based framework for object pose estimation that predicts the object's pose relative to a primitive shape which is fitted to the object. The proposed framework offers intrinsic descriptiveness and the ability to generalize to arbitrary geometric shapes beyond the training set.
翻訳日:2023-04-12 16:55:28 公開日:2023-04-10
# 初期層での模擬アニーリングが一般化に繋がる

Simulated Annealing in Early Layers Leads to Better Generalization ( http://arxiv.org/abs/2304.04858v1 )

ライセンス: Link先を確認
Amirmohammad Sarfi, Zahra Karimpour, Muawiz Chaudhary, Nasir M. Khalid, Mirco Ravanelli, Sudhir Mudur and Eugene Belilovsky(参考訳) 近年,一般化改善のための反復学習手法が数多く導入されている。 これらは通常、一般化の改善と引き換えに長い期間のトレーニングに依存している。 LLF(後の層鍛造)はこのカテゴリにおける最先端の手法である。 ネットワークの最後のいくつかのレイヤを定期的に再起動することで、初期のレイヤでの学習を強化する。 この研究の主な革新は、後続のレイヤの再初期化の代わりに、ネットワークのEArly Layer(SEAL)でSimulated annealingを使用することです。 基本的に、後の層は通常の勾配降下過程を経るが、初期の層は勾配上昇の短い段階を経て勾配降下する。 人気のTiny-ImageNetデータセットベンチマークと一連のトランスファー学習と数ショットの学習タスクに関する大規模な実験は、LSFをかなりの差で上回っていることを示している。 さらに、通常のトレーニングと比較して、LLF機能は、目標タスクを改善しながら、探索したすべてのデータセット間での転送学習性能を低下させることを示した。 比較して,本手法は,同じターゲットデータセットに対して,大きなマージンでLLFを上回ります。 また,本手法の予測深度はLLFと通常の訓練よりも有意に低く,平均予測性能が向上したことを示す。

Recently, a number of iterative learning methods have been introduced to improve generalization. These typically rely on training for longer periods of time in exchange for improved generalization. LLF (later-layer-forgetting) is a state-of-the-art method in this category. It strengthens learning in early layers by periodically re-initializing the last few layers of the network. Our principal innovation in this work is to use Simulated annealing in EArly Layers (SEAL) of the network in place of re-initialization of later layers. Essentially, later layers go through the normal gradient descent process, while the early layers go through short stints of gradient ascent followed by gradient descent. Extensive experiments on the popular Tiny-ImageNet dataset benchmark and a series of transfer learning and few-shot learning tasks show that we outperform LLF by a significant margin. We further show that, compared to normal training, LLF features, although improving on the target task, degrade the transfer learning performance across all datasets we explored. In comparison, our method outperforms LLF across the same target datasets by a large margin. We also show that the prediction depth of our method is significantly lower than that of LLF and normal training, indicating on average better prediction performance.
翻訳日:2023-04-12 16:55:14 公開日:2023-04-10
# IPINN:物理インフォームドニューラルネットワークのインクリメンタル学習

iPINNs: Incremental learning for Physics-informed neural networks ( http://arxiv.org/abs/2304.04854v1 )

ライセンス: Link先を確認
Aleksandr Dekhovich, Marcel H.F. Sluiter, David M.J. Tax and Miguel A. Bessa(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、最近偏微分方程式(PDE)を解く強力なツールとなっている。 しかしながら、PDEを実現するためのニューラルネットワークパラメータのセットを見つけることは困難であり、トラバースする必要があるロスランドスケープの複雑さのため、一般的ではない。 これらの課題を克服するために、様々なマルチタスク学習とトランスファー学習アプローチが提案されているが、これらのトレーニングを効果的に軽減できるPINNの漸進的なトレーニング手順は存在しない。 我々は,新しいタスクのパラメータを追加することなく,複数のタスク(列)を逐次的に学習できるインクリメンタルピン(ipinn)を提案する。 提案手法は,PDE毎に独自のサブネットワークを作成し,従来学習されていたサブネットワークと重なり合うようにすることで,最も単純なPDEから複数のPDEを学習する。 我々は、PDEが類似性を共有する場合、以前のサブネットワークが新しい方程式のよい初期化であることを示す。 また,iPINNは,(1)方程式群(例えば,1次元対流PDE)の学習,(2)プロセスの組み合わせによるPDEの学習(例えば,1次元の反応拡散PDE)の2つのシナリオにおいて,通常のPINNよりも予測誤差が低いことを示す。 単一のネットワークですべての問題を学習し、より複雑なPDEを通常のPINNよりも優れた一般化で学習することで、この分野に新たな道を開くことができる。

Physics-informed neural networks (PINNs) have recently become a powerful tool for solving partial differential equations (PDEs). However, finding a set of neural network parameters that lead to fulfilling a PDE can be challenging and non-unique due to the complexity of the loss landscape that needs to be traversed. Although a variety of multi-task learning and transfer learning approaches have been proposed to overcome these issues, there is no incremental training procedure for PINNs that can effectively mitigate such training challenges. We propose incremental PINNs (iPINNs) that can learn multiple tasks (equations) sequentially without additional parameters for new tasks and improve performance for every equation in the sequence. Our approach learns multiple PDEs starting from the simplest one by creating its own subnetwork for each PDE and allowing each subnetwork to overlap with previously learned subnetworks. We demonstrate that previous subnetworks are a good initialization for a new equation if PDEs share similarities. We also show that iPINNs achieve lower prediction error than regular PINNs for two different scenarios: (1) learning a family of equations (e.g., 1-D convection PDE); and (2) learning PDEs resulting from a combination of processes (e.g., 1-D reaction-diffusion PDE). The ability to learn all problems with a single network together with learning more complex PDEs with better generalization than regular PINNs will open new avenues in this field.
翻訳日:2023-04-12 16:54:56 公開日:2023-04-10
# ニューラルレンズモデリング

Neural Lens Modeling ( http://arxiv.org/abs/2304.04848v1 )

ライセンス: Link先を確認
Wenqi Xian and Alja\v{z} Bo\v{z}i\v{c} and Noah Snavely and Christoph Lassner(参考訳) 近年の3次元再構成とレンダリングの手法は、画像形成プロセス全体のエンドツーエンド最適化の恩恵を受けている。 しかし、このアプローチは現在制限されており、光学ハードウェアスタックと特にレンズの効果は統一された方法でのモデリングが困難である。 これにより、カメラのキャリブレーションで得られる品質と、3d再構成の結果の忠実さが制限される。 本稿では、点投影と光線キャスティングに使用でき、両方の操作で最適化できる、歪みと磁化のためのニューロレンズモデルであるNeuroLensを提案する。 これは、(オプションで)古典的なキャリブレーション目標を用いた事前キャリブレーションの実行に使用でき、後に3d再構成中のキャリブレーションやリファインメント(例えば、放射場を最適化するなど)に使用できることを意味する。 提案モデルの性能を評価するため,多数のレンズを用いたLensfunデータベースから収集した包括的データセットを作成する。 これや他の実世界のデータセットを用いて、提案したレンズモデルの品質が標準パッケージや最近のアプローチより優れており、使用および拡張が容易であることを示す。 このモデルは多数のレンズタイプにまたがって一般化されており、既存の3d再構成およびレンダリングシステムと統合することは自明である。

Recent methods for 3D reconstruction and rendering increasingly benefit from end-to-end optimization of the entire image formation process. However, this approach is currently limited: effects of the optical hardware stack and in particular lenses are hard to model in a unified way. This limits the quality that can be achieved for camera calibration and the fidelity of the results of 3D reconstruction. In this paper, we propose NeuroLens, a neural lens model for distortion and vignetting that can be used for point projection and ray casting and can be optimized through both operations. This means that it can (optionally) be used to perform pre-capture calibration using classical calibration targets, and can later be used to perform calibration or refinement during 3D reconstruction, e.g., while optimizing a radiance field. To evaluate the performance of our proposed model, we create a comprehensive dataset assembled from the Lensfun database with a multitude of lenses. Using this and other real-world datasets, we show that the quality of our proposed lens model outperforms standard packages as well as recent approaches while being much easier to use and extend. The model generalizes across many lens types and is trivial to integrate into existing 3D reconstruction and rendering systems.
翻訳日:2023-04-12 16:54:31 公開日:2023-04-10
# 光キャビティ内のV型3レベル原子と相互作用する2つの光子の入力出力ウェーブパレット記述

Input-output wavepacket description of two photons interacting with a V-type three-level atom in an optical cavity ( http://arxiv.org/abs/2304.04843v1 )

ライセンス: Link先を確認
Arkan Hassan and Julio Gea-Banacloche(参考訳) 共振器内のV型原子と入射単光および2光子ウェーブパケットの相互作用について検討し、出射波パペットのスペクトルと入射波パペットのスペクトルを関連づけた正確な公式を導出する。 いくつかの特別な入力パルスについて詳細な結果を示し、製品状態における初期パルスに対するCPHASEゲートとしてシステムの可能性を検討する。 入出力パルスと出出力パルスの相対的な重なり合いは小さいが, 空洞, 原子, パルスパラメータの値から条件相シフトが$\pi$となる。

We study the interaction of a V-type atom in a cavity with incident single- and two-photon wavepackets and derive an exact formula, valid in all parameter regimes, relating the spectrum of the outgoing wavepackets to the incident one. We present detailed results for several special input pulses, and consider the potential performance of the system as a CPHASE gate for initial pulses in a product state. We find values of the cavity, atomic and pulse parameters that yield a conditional phase shift of $\pi$, albeit with a relatively small overlap between the incoming and outgoing pulse forms.
翻訳日:2023-04-12 16:54:10 公開日:2023-04-10
# MicroTVMを用いたエッジ上での機械学習モデルデプロイ

Deploying Machine Learning Models to Ahead-of-Time Runtime on Edge Using MicroTVM ( http://arxiv.org/abs/2304.04842v1 )

ライセンス: Link先を確認
Chen Liu, Matthias Jobst, Liyuan Guo, Xinyue Shi, Johannes Partzsch, Christian Mayr(参考訳) 過去数年間で、エッジデバイスにより多くのAIアプリケーションが適用されるようになった。 しかし、pytorchやtensorflowといった機械学習フレームワークを使用したデータサイエンティストがトレーニングしたモデルは、エッジ上でシームレスに実行することはできない。 本稿では、ベアメタルデバイス上での推論に対応する機械学習コンパイラフレームワークであるmicrotvmを用いて、トレーニング済みモデルをバックエンドのcソースライブラリにパースするエンドツーエンドのコードジェネレータを開発した。 解析の結果、特定の計算集約型オペレーターはuniversal modular accelerator (uma)インターフェイスで専用アクセラレーターに容易にオフロードでき、他のオペレータはcpuコアで処理される。 自動生成された事前Cランタイムを使用することで,ARM Cortex M4Fコア上で手動ジェスチャー認識実験を行う。

In the past few years, more and more AI applications have been applied to edge devices. However, models trained by data scientists with machine learning frameworks, such as PyTorch or TensorFlow, can not be seamlessly executed on edge. In this paper, we develop an end-to-end code generator parsing a pre-trained model to C source libraries for the backend using MicroTVM, a machine learning compiler framework extension addressing inference on bare metal devices. An analysis shows that specific compute-intensive operators can be easily offloaded to the dedicated accelerator with a Universal Modular Accelerator (UMA) interface, while others are processed in the CPU cores. By using the automatically generated ahead-of-time C runtime, we conduct a hand gesture recognition experiment on an ARM Cortex M4F core.
翻訳日:2023-04-12 16:53:58 公開日:2023-04-10
# mhfit: 機械学習による運動量予測のためのモバイル健康データ

MHfit: Mobile Health Data for Predicting Athletics Fitness Using Machine Learning ( http://arxiv.org/abs/2304.04839v1 )

ライセンス: Link先を確認
Jonayet Miah, Muntasir mamun, Md Minhazur Rahman, Md Ishtyaq Mahmyd, Asm Mohaimenul Islam, Sabbir Ahmed(参考訳) 携帯電話や他の電子機器やデバイスは、データ入力を必要とせずにデータ収集を支援する。 本稿では特にモバイル健康データに焦点を当てる。 モバイル健康データは、モバイルデバイスを使って臨床健康データを収集し、患者のバイタルをリアルタイムで追跡する。 我々の研究は、モバイルデバイスやセンサーから収集したデータを用いて、スポーツ選手が特定の試合に適しているかどうかを判断し、複数の機械学習アルゴリズムを比較し、人間の行動と健康を予測することを目的としている。 本研究では、mhealthで行った同様の研究からデータセットを得た。 データセットには、異なるバックグラウンドの10人のボランティアのバイタルサインが含まれている。 身体にセンサーを装着していくつかの身体活動を行う必要があった。 本研究では,5つの機械学習アルゴリズム (xgboost, naive bayes, decision tree, random forest, logistic regression) を用いて,人の健康行動の分析と予測を行った。 XGBoostは、他の機械学習アルゴリズムと比較して、95.2%の精度、99.5%の感度、99.5%の特異性、99.66%のスコアを達成した。 私たちの研究は、mhealthが人間の行動を予測するために使われる有望な将来性を示し、スポーツ産業に特化した商用利用のために、さらなる研究と調査を行う必要があることを示した。

Mobile phones and other electronic gadgets or devices have aided in collecting data without the need for data entry. This paper will specifically focus on Mobile health data. Mobile health data use mobile devices to gather clinical health data and track patient vitals in real-time. Our study is aimed to give decisions for small or big sports teams on whether one athlete good fit or not for a particular game with the compare several machine learning algorithms to predict human behavior and health using the data collected from mobile devices and sensors placed on patients. In this study, we have obtained the dataset from a similar study done on mhealth. The dataset contains vital signs recordings of ten volunteers from different backgrounds. They had to perform several physical activities with a sensor placed on their bodies. Our study used 5 machine learning algorithms (XGBoost, Naive Bayes, Decision Tree, Random Forest, and Logistic Regression) to analyze and predict human health behavior. XGBoost performed better compared to the other machine learning algorithms and achieved 95.2% accuracy, 99.5% in sensitivity, 99.5% in specificity, and 99.66% in F1 score. Our research indicated a promising future in mhealth being used to predict human behavior and further research and exploration need to be done for it to be available for commercial use specifically in the sports industry.
翻訳日:2023-04-12 16:53:43 公開日:2023-04-10
# ニューラルイメージに基づくアバター:ヒトアバターモデリングのための一般化された放射能場

Neural Image-based Avatars: Generalizable Radiance Fields for Human Avatar Modeling ( http://arxiv.org/abs/2304.04897v1 )

ライセンス: Link先を確認
Youngjoong Kwon, Dahun Kim, Duygu Ceylan, Henry Fuchs(参考訳) スパースなマルチビュー画像から、任意の人間のパフォーマーの新規ビューと新規ポーズを合成する手法を提案する。 提案手法の重要な要素は,暗示体NeRF表現と画像ベースレンダリングの利点を組み合わせたハイブリッド外観ブレンディングモジュールである。 身体モデル上で条件付けされている既存の一般化可能なヒトNeRF法は、任意のヒトパフォーマーの幾何学的変動に対して堅牢性を示す。 しかし、見当たらないアイデンティティーに一般化すると、しばしばぼやけた結果が現れる。 一方、画像ベースのレンダリングでは、十分な観察が得られれば、高品質な結果が得られる。 ニューラル・イメージ・ベースのアバター(nia)を提案する。ニューラル・イメージ・ベースのアバター(nia)は、新たな明瞭度と自己排他性の下で頑健性を維持しつつ、利用可能な(少ない)ソース・ビューの色を直接活用し、新たな被写体識別の外観詳細を保存する。 当社のハイブリッド設計は,ドメイン内idの一般化と,データセット間の一般化設定の課題の両方において,最近の手法を上回っている。 また,ポーズ汎化の観点からは,サブジェクト単位の最適化されたアニマタブルなnrf法よりも優れる。 ビデオはhttps://youngjoongunc.github.io/niaで入手できる。

We present a method that enables synthesizing novel views and novel poses of arbitrary human performers from sparse multi-view images. A key ingredient of our method is a hybrid appearance blending module that combines the advantages of the implicit body NeRF representation and image-based rendering. Existing generalizable human NeRF methods that are conditioned on the body model have shown robustness against the geometric variation of arbitrary human performers. Yet they often exhibit blurry results when generalized onto unseen identities. Meanwhile, image-based rendering shows high-quality results when sufficient observations are available, whereas it suffers artifacts in sparse-view settings. We propose Neural Image-based Avatars (NIA) that exploits the best of those two methods: to maintain robustness under new articulations and self-occlusions while directly leveraging the available (sparse) source view colors to preserve appearance details of new subject identities. Our hybrid design outperforms recent methods on both in-domain identity generalization as well as challenging cross-dataset generalization settings. Also, in terms of the pose generalization, our method outperforms even the per-subject optimized animatable NeRF methods. The video results are available at https://youngjoongunc.github.io/nia
翻訳日:2023-04-12 16:47:46 公開日:2023-04-10
# ニューラルネットワークによるナノコンフィニメント下でのイオン濃度分布予測

Neural Network Predicts Ion Concentration Profiles under Nanoconfinement ( http://arxiv.org/abs/2304.04896v1 )

ライセンス: Link先を確認
Zhonglin Cao, Yuyang Wang, Cooper Lorsung, Amir Barati Farimani(参考訳) ナノチャネル中のイオン濃度プロファイルのモデル化は、電気二重層と電気浸透流を理解する上で重要な役割を果たす。 非無視的な表面相互作用と離散溶媒分子の影響により、分子動力学(MD)シミュレーションはナノコンフィニメント下でのイオンの挙動を研究する重要なツールとしてしばしば用いられる。 ナノコンフィニメントシステムのモデリングにおけるMDシミュレーションの精度は高いが、計算コストは高い。 本研究では, チャネル幅, イオンモル性, イオンタイプなど, 異なる構成のナノチャネルにおけるイオン濃度分布を予測するニューラルネットワークを提案する。 イオン濃度プロファイルを確率分布としてモデル化することにより,mdシミュレーションの高速サロゲートモデルとして,精度の高いニューラルネットワークが利用できる。 さらに、XGBoostよりもニューラルネットワークの予測精度が優れていることを示す。 最後に,ビンサイズの異なるイオン濃度プロファイルの予測にニューラルネットワークが柔軟であることを実証した。 全体的に、我々のディープラーニングモデルは高速で柔軟で正確なサロゲートモデルであり、ナノ閉じ込めにおけるイオン濃度プロファイルを予測します。

Modeling the ion concentration profile in nanochannel plays an important role in understanding the electrical double layer and electroosmotic flow. Due to the non-negligible surface interaction and the effect of discrete solvent molecules, molecular dynamics (MD) simulation is often used as an essential tool to study the behavior of ions under nanoconfinement. Despite the accuracy of MD simulation in modeling nanoconfinement systems, it is computationally expensive. In this work, we propose neural network to predict ion concentration profiles in nanochannels with different configurations, including channel widths, ion molarity, and ion types. By modeling the ion concentration profile as a probability distribution, our neural network can serve as a much faster surrogate model for MD simulation with high accuracy. We further demonstrate the superior prediction accuracy of neural network over XGBoost. Lastly, we demonstrated that neural network is flexible in predicting ion concentration profiles with different bin sizes. Overall, our deep learning model is a fast, flexible, and accurate surrogate model to predict ion concentration profiles in nanoconfinement.
翻訳日:2023-04-12 16:47:25 公開日:2023-04-10
# 量子プロセッサの複雑性のメジャー化に基づくベンチマーク

Majorization-based benchmark of the complexity of quantum processors ( http://arxiv.org/abs/2304.04894v1 )

ライセンス: Link先を確認
Alexandre B. Tacla, Nina Machado O'Neill, Gabriel G. Carlo, Fernando de Melo, and Raul O. Vallejos(参考訳) 本稿では,[R. O. Vallejos, F. de Melo, G. G. Carlo, Phys. A 104, 012602 (2021)] で導入された偏化に基づくインジケータを用いて,量子プロセッサの到達範囲における複雑性のベンチマークを行う。 現在利用可能な技術の特定のアーキテクチャとネイティブゲートセットを考慮することで、様々な量子プロセッサの動作を数値的にシミュレートし、特徴付ける。 異なるネイティブゲートセット、キュービット接続、ゲート数の増加といった複雑さを特徴付ける。 各デバイスの性能をランダム化クリフォード回路とハールランダム純状態のベンチマークラインと比較することにより、量子複雑性を同定し評価する。 このようにして、各プロセッサに対して、それらの複雑さのレベルを達成するために、平均して必要なネイティブ量子ゲートの数を指定することができる。 最後に,異なる種類の雑音の存在下でのメジャー化に基づくキャラクタリゼーションの性能について検討する。 メジャー化ベースのベンチマークは、回路の出力状態が平均して高い純度(\gtrsim 0.9$)である限り、保持される。 その結果,無騒音症例と有意な差は認められなかった。

Here we investigate the use of the majorization-based indicator introduced in [R. O. Vallejos, F. de Melo, and G. G. Carlo, Phys. Rev. A 104, 012602 (2021)] as a way to benchmark the complexity within reach of quantum processors. By considering specific architectures and native gate sets of currently available technologies, we numerically simulate and characterize the operation of various quantum processors. We characterize their complexity for different native gate sets, qubit connectivity and increasing number of gates. We identify and assess quantum complexity by comparing the performance of each device against benchmark lines provided by randomized Clifford circuits and Haar-random pure states. In this way, we are able to specify, for each specific processor, the number of native quantum gates which are necessary, on average, for achieving those levels of complexity. Lastly, we study the performance of the majorization-based characterization in the presence of distinct types of noise. We find that the majorization-based benchmark holds as long as the circuits' output states have, on average, high purity ($\gtrsim 0.9$). In such cases, the indicator showed no significant differences from the noiseless case.
翻訳日:2023-04-12 16:47:05 公開日:2023-04-10
# EVKG:スマートトランスポーテーションシステムのためのインターリンクおよび相互運用可能な電気自動車知識グラフ

EVKG: An Interlinked and Interoperable Electric Vehicle Knowledge Graph for Smart Transportation System ( http://arxiv.org/abs/2304.04893v1 )

ライセンス: Link先を確認
Yanlin Qi, Gengchen Mai, Rui Zhu, and Michael Zhang(参考訳) 過去10年間、電気自動車産業は前例のない成長と多様化を経験し、複雑なエコシステムを生み出してきた。 この多面体を効果的に管理するために,EVKG(EV-centric knowledge graph)を包括的かつクロスドメインかつ拡張可能かつオープンな地理空間知識管理システムとして提示する。 evkgはev導入、電気自動車供給装置、送電網などのev関連知識をカプセル化し、時間的かつ正確な情報と分析を提供することでev技術開発、インフラ計画、政策立案に関する意思決定を支援する。 EVKGを拡張・コンテキスト化するために,既存の知識グラフやオントロジーから,開発したEV関連オントロジーモジュールを統合する。 この統合により、Linked Data Open Cloud内の他のナレッジグラフとの相互運用性が可能になり、EV意思決定のナレッジハブとしてのEVKGの価値が向上する。 6つの能力的質問を用いて、EVKGが様々な種類のEV関連質問にどのように答えられるかを示し、EVエコシステムに重要な洞察を与えます。 私たちのEVKGは、複雑で多様なEV産業を管理するための効率的かつ効果的なアプローチを提供します。 EVKGは、重要なEV関連知識を単一のアクセスが容易なリソースに統合することで、EV技術開発、インフラ計画、政策決定に関する情報提供者を支援する。 フレキシブルで拡張可能なプラットフォームとして、EVKGは幅広いデータソースを収容できるため、急速に変化するEVのランドスケープと並行して進化することができる。

Over the past decade, the electric vehicle industry has experienced unprecedented growth and diversification, resulting in a complex ecosystem. To effectively manage this multifaceted field, we present an EV-centric knowledge graph (EVKG) as a comprehensive, cross-domain, extensible, and open geospatial knowledge management system. The EVKG encapsulates essential EV-related knowledge, including EV adoption, electric vehicle supply equipment, and electricity transmission network, to support decision-making related to EV technology development, infrastructure planning, and policy-making by providing timely and accurate information and analysis. To enrich and contextualize the EVKG, we integrate the developed EV-relevant ontology modules from existing well-known knowledge graphs and ontologies. This integration enables interoperability with other knowledge graphs in the Linked Data Open Cloud, enhancing the EVKG's value as a knowledge hub for EV decision-making. Using six competency questions, we demonstrate how the EVKG can be used to answer various types of EV-related questions, providing critical insights into the EV ecosystem. Our EVKG provides an efficient and effective approach for managing the complex and diverse EV industry. By consolidating critical EV-related knowledge into a single, easily accessible resource, the EVKG supports decision-makers in making informed choices about EV technology development, infrastructure planning, and policy-making. As a flexible and extensible platform, the EVKG is capable of accommodating a wide range of data sources, enabling it to evolve alongside the rapidly changing EV landscape.
翻訳日:2023-04-12 16:46:27 公開日:2023-04-10
# バイパートイトシナリオにおける最適高次元エンタングルメント濃度

Optimal high-dimensional entanglement concentration in the bipartite scenario ( http://arxiv.org/abs/2304.04890v1 )

ライセンス: Link先を確認
L. Palma Torres, M. A. Sol\'is-Prosser, O. Jim\'enez, E. S. G\'omez, A. Delgado(参考訳) 純粋な量子状態を考えると、絡み合い濃度は部分的に絡み合った状態の$N$コピーから高い絡み合いを持つ単一の状態が得られる手順である。 最大絡み合った状態を得ることができ、$N=1$である。 しかし、関連する成功確率はシステムの次元性を高めながら非常に低い可能性がある。 本研究では,非最大エンタングルメントを犠牲にした場合の成功確率について,n=1$という大きな次元を持つ2成分量子系の確率的エンタングルメント濃度を達成するための2つの手法について検討した。 まず,集中手続き後の最終状態の絡み合い量(i-共起によって定量化される)と成功確率とのトレードオフを考慮した効率関数 $\mathcal{q}$ を定義し,二次最適化問題を解く。 分析解を見つけ、エンタングルメント濃度の最適スキームが常に$\mathcal{q}$の項で見つかるようにした。 最後に,成功確率を固定し,到達可能なエンタングルメントの最大量を求める2つ目の方法を検討した。 どちらの方法も最も重要なシュミット係数の部分集合に適用されるプロクルスティアン法に似ているが、最大に絡み合った状態が得られる。

Considering pure quantum states, entanglement concentration is the procedure where from $N$ copies of a partially entangled state, a single state with higher entanglement can be obtained. Getting a maximally entangled state is possible for $N=1$. However, the associated success probability can be extremely low while increasing the system's dimensionality. In this work, we study two methods to achieve a probabilistic entanglement concentration for bipartite quantum systems with a large dimensionality for $N=1$, regarding a reasonably good probability of success at the expense of having a non-maximal entanglement. Firstly, we define an efficiency function $\mathcal{Q}$ considering a tradeoff between the amount of entanglement (quantified by the I-Concurrence) of the final state after the concentration procedure and its success probability, which leads to solving a quadratic optimization problem. We found an analytical solution, ensuring that an optimal scheme for entanglement concentration can always be found in terms of $\mathcal{Q}$. Finally, a second method was explored, which is based on fixing the success probability and searching for the maximum amount of entanglement attainable. Both ways resemble the Procrustean method applied to a subset of the most significant Schmidt coefficients but obtaining non-maximally entangled states.
翻訳日:2023-04-12 16:45:45 公開日:2023-04-10
# マルチサンプル合意駆動型3次元点雲の教師なし正規推定

Multi-Sample Consensus Driven Unsupervised Normal Estimation for 3D Point Clouds ( http://arxiv.org/abs/2304.04884v1 )

ライセンス: Link先を確認
Jie Zhang, Minghui Nie, Junjie Cao, Jian Liu, and Ligang Liu(参考訳) ディープノーマル推定器は、合成ベンチマークで大きな進歩を遂げた。 残念ながら、それらのパフォーマンスは、合成データセットのみに監督されるため、実際のスキャンデータに劇的に低下する。 基底真理正規表現のポイント単位でのアノテーションは、非効率性や不正確性に弱いため、教師付きディープラーニングのための完璧な実データセットの構築は不可能である。 この課題を克服するために,教師なし正規推定のためのマルチサンプルコンセンサスパラダイムを提案する。 パラダイムは多候補サンプリング、候補拒否、モード決定で構成される。 後者の2つは、それぞれ隣接点コンセンサスと候補コンセンサスによって駆動される。 MSUNEとMSUNE-Netの2つの主要な実装が提案されている。 MSUNEはモード決定における候補コンセンサス損失を最小限にする。 頑健な最適化手法として,各問合せ点に対して十分な候補正規化をサンプリングする長寿命ランタイムのコストで,実データに対する最先端教師付き深層学習手法を上回っている。 MSUNE-Netは、我々の知る限り、初めての教師なし深部正規分布推定器であり、マルチサンプルのコンセンサスをさらに促進している。 MSUNEの3つのオンラインステージをオフライントレーニングに転送する。 したがって、その推論時間は100倍高速である。 さらに、類似パッチからのクエリポイントの候補は、MSUNE-Netで暗黙的に十分に大きな候補セットを形成することができるため、より正確な推論が達成される。 包括的実験により、提案された2つの教師なし手法は、最も一般的な合成データセット上の教師付き深部正規推定器よりも顕著に優れていることが示されている。 さらに重要なことは、これらはより優れた一般化能力を示し、3つの実際のデータセット(NYUV2、KITTI、PCV [1])でSOTAの従来のメソッドとディープメソッドをすべて上回る。

Deep normal estimators have made great strides on synthetic benchmarks. Unfortunately, their performance dramatically drops on the real scan data since they are supervised only on synthetic datasets. The point-wise annotation of ground truth normals is vulnerable to inefficiency and inaccuracies, which totally makes it impossible to build perfect real datasets for supervised deep learning. To overcome the challenge, we propose a multi-sample consensus paradigm for unsupervised normal estimation. The paradigm consists of multi-candidate sampling, candidate rejection, and mode determination. The latter two are driven by neighbor point consensus and candidate consensus respectively. Two primary implementations of the paradigm, MSUNE and MSUNE-Net, are proposed. MSUNE minimizes a candidate consensus loss in mode determination. As a robust optimization method, it outperforms the cutting-edge supervised deep learning methods on real data at the cost of longer runtime for sampling enough candidate normals for each query point. MSUNE-Net, the first unsupervised deep normal estimator as far as we know, significantly promotes the multi-sample consensus further. It transfers the three online stages of MSUNE to offline training. Thereby its inference time is 100 times faster. Besides that, more accurate inference is achieved, since the candidates of query points from similar patches can form a sufficiently large candidate set implicitly in MSUNE-Net. Comprehensive experiments demonstrate that the two proposed unsupervised methods are noticeably superior to some supervised deep normal estimators on the most common synthetic dataset. More importantly, they show better generalization ability and outperform all the SOTA conventional and deep methods on three real datasets: NYUV2, KITTI, and a dataset from PCV [1].
翻訳日:2023-04-12 16:45:22 公開日:2023-04-10
# disto: 負のサンプリングに基づくマルチチョース質問に対するテキストの邪魔者評価

DISTO: Evaluating Textual Distractors for Multi-Choice Questions using Negative Sampling based Approach ( http://arxiv.org/abs/2304.04881v1 )

ライセンス: Link先を確認
Bilal Ghanem and Alona Fyshe(参考訳) 複数選択質問(MCQ)は、読解理解(RC)を評価するための効率的で一般的な方法である。 すべてのMCQは、不正確だが学生の知識をテストするのに十分な、気を散らすような答えを必要とします。 ディトラクタ生成(DG)モデルが提案されており、その性能は一般的に機械翻訳(MT)メトリクスを用いて評価される。 しかし、MTメトリクスは、しばしば生成された散逸器の適合性を誤解する。 disto: 生成した邪魔者に対する最初の学習した評価基準を提案する。 評価基準は, 評価基準と高い相関性を示し, DISTO の有効性を検証した。 同時に、DITOは、MTベースの指標とは全く異なる最先端のDGモデルの性能をランク付けし、MTメトリクスを障害評価に使用すべきでないことを示した。

Multiple choice questions (MCQs) are an efficient and common way to assess reading comprehension (RC). Every MCQ needs a set of distractor answers that are incorrect, but plausible enough to test student knowledge. Distractor generation (DG) models have been proposed, and their performance is typically evaluated using machine translation (MT) metrics. However, MT metrics often misjudge the suitability of generated distractors. We propose DISTO: the first learned evaluation metric for generated distractors. We validate DISTO by showing its scores correlate highly with human ratings of distractor quality. At the same time, DISTO ranks the performance of state-of-the-art DG models very differently from MT-based metrics, showing that MT metrics should not be used for distractor evaluation.
翻訳日:2023-04-12 16:44:57 公開日:2023-04-10
# 双対グラフと重み付き核ノルム正規化に基づく人間の運動検出

Human Motion Detection Based on Dual-Graph and Weighted Nuclear Norm Regularizations ( http://arxiv.org/abs/2304.04879v1 )

ライセンス: Link先を確認
Jing Qin and Biyun Xie(参考訳) モーション検出は、監視やロボット工学など、多くのアプリケーションで広く使われている。 静的な背景が存在するため、動画を低ランクの背景と粗末な前景に分解することができる。 したがって、行列の低次性を保存する多くの正規化技法を背景に課すことができる。 一方、図形正規化のような幾何学に基づく正規化は前景に課すことができる。 近年, 画像処理コミュニティにおいて, 高速な性能を実現しつつ, 適応性向上を図るために, 重み付き核ノルム正規化を含む重み付き正規化技術が提案されている。 本稿では、新しい重み付けされた核ノルム正規化と時空間グラフラプラシアンに基づく頑健な二重グラフ正規化移動物体検出モデルを提案する。 リアルな人間の動きデータセットに関する数値実験は、移動物体を背景から分離するこのアプローチの有効性と頑健性を示し、ロボット応用における膨大な可能性を示している。

Motion detection has been widely used in many applications, such as surveillance and robotics. Due to the presence of the static background, a motion video can be decomposed into a low-rank background and a sparse foreground. Many regularization techniques that preserve low-rankness of matrices can therefore be imposed on the background. In the meanwhile, geometry-based regularizations, such as graph regularizations, can be imposed on the foreground. Recently, weighted regularization techniques including the weighted nuclear norm regularization have been proposed in the image processing community to promote adaptive sparsity while achieving efficient performance. In this paper, we propose a robust dual graph regularized moving object detection model based on a novel weighted nuclear norm regularization and spatiotemporal graph Laplacians. Numerical experiments on realistic human motion data sets have demonstrated the effectiveness and robustness of this approach in separating moving objects from background, and the enormous potential in robotic applications.
翻訳日:2023-04-12 16:44:42 公開日:2023-04-10
# iDML: インセンティブ付き分散機械学習

iDML: Incentivized Decentralized Machine Learning ( http://arxiv.org/abs/2304.05354v1 )

ライセンス: Link先を確認
Haoxiang Yu, Hsiao-Yuan Chen, Sangsu Lee, Sriram Vishwanath, Xi Zheng, Christine Julien(参考訳) マシンラーニングに対する分散的かつ機会主義的なアプローチの台頭により、エンドユーザは、自身が収集するクラウドソースデータを使用して、デバイス上でディープラーニングモデルをトレーニングする作業がますます進んでいる。 これらのアプローチは、リソース消費の観点からも、プライバシー保護の観点からも望ましい。 デバイスがトレーニングされたモデルから直接利益を得る場合、インセンティブは暗黙的な貢献であり、デバイスのリソースはコラボレーションの結果生じる高精度モデルが利用可能であることによってインセンティブを得る。 しかし、エンドユーザーデバイスがリソース(例えば、計算、通信、データ)を、主に他人の利益のために実行されたタスクに貢献するよう要求された場合、例えば、隣のデバイスが必要とするタスクのモデルを訓練するなど、明示的なインセンティブメカニズムが提供されなければならない。 本稿では,ブロックチェーンを基盤とした,完全分散型かつ機会論的学習アーキテクチャのための新たなインセンティブ機構を提案する。 スマートコントラクトは、エンドデバイスが分散学習に参加するための明確なインセンティブを提供するだけでなく、学習アーキテクチャの振る舞いを検査し、反映するための完全に分散化されたメカニズムを作成するためにも活用します。

With the rising emergence of decentralized and opportunistic approaches to machine learning, end devices are increasingly tasked with training deep learning models on-devices using crowd-sourced data that they collect themselves. These approaches are desirable from a resource consumption perspective and also from a privacy preservation perspective. When the devices benefit directly from the trained models, the incentives are implicit - contributing devices' resources are incentivized by the availability of the higher-accuracy model that results from collaboration. However, explicit incentive mechanisms must be provided when end-user devices are asked to contribute their resources (e.g., computation, communication, and data) to a task performed primarily for the benefit of others, e.g., training a model for a task that a neighbor device needs but the device owner is uninterested in. In this project, we propose a novel blockchain-based incentive mechanism for completely decentralized and opportunistic learning architectures. We leverage a smart contract not only for providing explicit incentives to end devices to participate in decentralized learning but also to create a fully decentralized mechanism to inspect and reflect on the behavior of the learning architecture.
翻訳日:2023-04-12 14:08:34 公開日:2023-04-10
# ウォール街新生植物:マルチモーダルストックムーブメント予測問題に対するChatGPTのゼロショット分析

The Wall Street Neophyte: A Zero-Shot Analysis of ChatGPT Over MultiModal Stock Movement Prediction Challenges ( http://arxiv.org/abs/2304.05351v1 )

ライセンス: Link先を確認
Qianqian Xie, Weiguang Han, Yanzhao Lai, Min Peng, Jimin Huang(参考訳) 最近、chatgptのような大規模言語モデル(llm)は、様々な自然言語処理タスクで顕著な性能を示している。 しかし、金融分野におけるその効果、特に株式市場の動きの予測については検討が続けられている。 本稿では,マルチモーダル株式移動予測におけるchatgptの能力について,3つのツイートと過去の株価データセットを用いてゼロショット分析を行う。 その結果,chatgptは,最先端の手法だけでなく,価格特徴を用いた線形回帰法などの従来の手法にも劣るため,株価変動予測に限定された「ウォール街のネオファイト」であることがわかった。 ChatGPTは、Chain-of-Thoughtの戦略とツイートを含む可能性にもかかわらず、パフォーマンスは依然として劣っている。 さらに,その説明可能性と安定性の限界を観察し,より専門的なトレーニングや微調整の必要性を示唆した。 この研究は、ChatGPTの能力に関する洞察を提供し、ソーシャルメディアの感情と過去の株価データを活用することで、金融市場分析と予測の改善を目的とした将来の研究の基盤となる。

Recently, large language models (LLMs) like ChatGPT have demonstrated remarkable performance across a variety of natural language processing tasks. However, their effectiveness in the financial domain, specifically in predicting stock market movements, remains to be explored. In this paper, we conduct an extensive zero-shot analysis of ChatGPT's capabilities in multimodal stock movement prediction, on three tweets and historical stock price datasets. Our findings indicate that ChatGPT is a "Wall Street Neophyte" with limited success in predicting stock movements, as it underperforms not only state-of-the-art methods but also traditional methods like linear regression using price features. Despite the potential of Chain-of-Thought prompting strategies and the inclusion of tweets, ChatGPT's performance remains subpar. Furthermore, we observe limitations in its explainability and stability, suggesting the need for more specialized training or fine-tuning. This research provides insights into ChatGPT's capabilities and serves as a foundation for future work aimed at improving financial market analysis and prediction by leveraging social media sentiment and historical stock data.
翻訳日:2023-04-12 14:07:45 公開日:2023-04-10
# 多段分類における非対称多項式損失

Asymmetric Polynomial Loss For Multi-Label Classification ( http://arxiv.org/abs/2304.05361v1 )

ライセンス: Link先を確認
Yusheng Huang, Jiexing Qi, Xinbing Wang, Zhouhan Lin(参考訳) 様々なタスクをマルチラベル分類問題として再構成し、よく設計されたモデルの最適化にバイナリクロスエントロピー(bce)損失を多用する。 しかし、バニラのBCE損失は様々なタスクに合わせることができず、結果として異なるモデルに準最適性能をもたらす。 さらに、冗長な負サンプルと稀な正サンプルの不均衡はモデル性能を低下させる可能性がある。 本稿では,上記の問題を緩和する有効な非対称多項式損失(APL)を提案する。 具体的には,まずBCE損失に対するTaylor拡張を行う。 次に多項式関数の係数を改良する。 さらに、非対称集束機構を用いて、勾配寄与を負および正のサンプルから分離する。 さらに, 多項式係数が非対称集束ハイパーパラメータを再検討できることを検証する。 関係抽出,テキスト分類,画像分類実験により,APLの損失はトレーニングの余分な負担を伴わずに一貫した性能向上を図っている。

Various tasks are reformulated as multi-label classification problems, in which the binary cross-entropy (BCE) loss is frequently utilized for optimizing well-designed models. However, the vanilla BCE loss cannot be tailored for diverse tasks, resulting in a suboptimal performance for different models. Besides, the imbalance between redundant negative samples and rare positive samples could degrade the model performance. In this paper, we propose an effective Asymmetric Polynomial Loss (APL) to mitigate the above issues. Specifically, we first perform Taylor expansion on BCE loss. Then we ameliorate the coefficients of polynomial functions. We further employ the asymmetric focusing mechanism to decouple the gradient contribution from the negative and positive samples. Moreover, we validate that the polynomial coefficients can recalibrate the asymmetric focusing hyperparameters. Experiments on relation extraction, text classification, and image classification show that our APL loss can consistently improve performance without extra training burden.
翻訳日:2023-04-12 13:57:33 公開日:2023-04-10
# ChatGPTの可能性を解き明かす - 自然言語処理における応用, アドバンテージ, 限界, 今後の方向性の包括的探索

Unlocking the Potential of ChatGPT: A Comprehensive Exploration of its Applications, Advantages, Limitations, and Future Directions in Natural Language Processing ( http://arxiv.org/abs/2304.02017v4 )

ライセンス: Link先を確認
Walid Hariri(参考訳) 大規模言語モデルは人工知能の分野に革命をもたらし、様々な用途で使われている。 これらのモデルのうち、chatgpt(chat generative pre-trained transformer)はopenaiによって開発されており、広く採用されている強力なツールである。 ChatGPTはチャットボット、コンテンツ生成、言語翻訳、パーソナライズされたレコメンデーション、医療診断や治療など、多くの分野でうまく適用されてきた。 これらの応用におけるその成功は、人間のような応答を生成し、自然言語を理解し、異なる文脈に適応できる能力に起因する。 その汎用性と精度は、自然言語処理(NLP)の強力なツールとなる。 しかし、chatgptにはバイアスのある応答を発生させる傾向や有害な言語パターンを持続する可能性など、制限もある。 この記事では、ChatGPTとその応用、利点、限界について概観する。 さらに、この堅牢なツールを現実のシナリオで使用する際の倫理的配慮の重要性を強調した。 最後に、人工知能とそのビジョンおよびnlpドメインへの影響について、迅速なエンジニアリング技術への洞察を提供することにより、現在進行中の議論に寄与する。

Large language models have revolutionized the field of artificial intelligence and have been used in various applications. Among these models, ChatGPT (Chat Generative Pre-trained Transformer) has been developed by OpenAI, it stands out as a powerful tool that has been widely adopted. ChatGPT has been successfully applied in numerous areas, including chatbots, content generation, language translation, personalized recommendations, and even medical diagnosis and treatment. Its success in these applications can be attributed to its ability to generate human-like responses, understand natural language, and adapt to different contexts. Its versatility and accuracy make it a powerful tool for natural language processing (NLP). However, there are also limitations to ChatGPT, such as its tendency to produce biased responses and its potential to perpetuate harmful language patterns. This article provides a comprehensive overview of ChatGPT, its applications, advantages, and limitations. Additionally, the paper emphasizes the importance of ethical considerations when using this robust tool in real-world scenarios. Finally, This paper contributes to ongoing discussions surrounding artificial intelligence and its impact on vision and NLP domains by providing insights into prompt engineering techniques.
翻訳日:2023-04-12 11:31:51 公開日:2023-04-10
# 量子理論は排他的:分散コンピューティングのセットアップ

Quantum theory is exclusive: a distributed computing setup ( http://arxiv.org/abs/2012.05781v2 )

ライセンス: Link先を確認
Sutapa Saha, Tamal Guha, Some Sankar Bhattacharya, Manik Banik(参考訳) 複数の空間的に分離された入出力サーバで構成される分散コンピューティングのフレームワークは、遠隔データ操作において極めて重要である。 この設定の最も難しい部分の1つは、遠方のサーバ間での情報伝送線の使用を最適化することである。 本研究では、ノイズレス伝送回線の限られた使用法において、量子通信が古典的通信よりも優れる、物理的に動機付けられた分散コンピューティングの仕組みをモデル化した。 さらに、状態効果記述を量子よりもエキゾチックなものとし、一般化された確率論の枠組みの中で記述するより広い種類の通信実体は、量子論の強みを満たさない。 量子通信の計算強度は、このタスクのより強力なバージョン、すなわち遅延選択分散計算の観点からさらに正当化されている。 提案した課題は、理論空間において量子理論を操作的に一元化するための新しいアプローチを提供し、したがってヒルベルト空間量子力学の公理的導出に対する新しい視点を約束する。

The framework of distributed computing, consisting of several spatially separated input-output servers, has immense importance in distant data manipulation. One of the most challenging parts of this setting is to optimize the use of information transmission lines among distant servers. In this work, we have modeled such a physically motivated distributed computing setup for which quantum communication outperforms its classical counterpart, in terms of a limited usage of noiseless transmission lines. Moreover, a broader class of communication entities, that allow state-effect description more exotic than quantum and are described within the framework of generalized probabilistic theory, also fail to meet the strength of quantum theory. The computational strength of quantum communication has further been justified in terms of a stronger version of this task, namely the delayed-choice distributed computation. The proposed task thus provides a new approach to operationally single out quantum theory in the theory-space and hence promises a novel perspective towards the axiomatic derivation of Hilbert space quantum mechanics.
翻訳日:2023-04-12 01:07:40 公開日:2023-04-10
# 木様3次元物体の幾何学とトポロジーの学習生成モデル

Learning Generative Models of the Geometry and Topology of Tree-like 3D Objects ( http://arxiv.org/abs/2110.08693v2 )

ライセンス: Link先を確認
Guan Wang, Hamid Laga, Anuj Srivastava(参考訳) 複雑な幾何学的・トポロジカルな変動を示すニューロンや植物木といった詳細な3d生体オブジェクトをどうやって分析できるのか? 本稿では,木のような3次元オブジェクトの形状間の測地変形を表現,比較,計算するための新しい数学的枠組みを開発する。 サブツリーの階層構造はこれらのオブジェクトを特徴付ける -- 各サブツリーはメインブランチを持ち、いくつかのサイドブランチが付属している -- 。 まず,ユークリッド曲線向けに開発された正方根速度関数(srvf)を木形3dオブジェクトに拡張した新しい表現法を提案する。 次に、一方の木の形の物体を他方に変形させるために必要な曲げ、伸展、分岐スライディングを定量化する新しい計量を定義する。 QED(Quotient Euclidean Distance)やTED(Tree Edit Distance)といった現在のメトリクスと比較すると、提案された表現とメトリクスは、枝の完全な弾力性(屈曲と伸張)と位相的変動(分岐死・産出・すべり)を捉えている。 QEDおよびTEDメトリクスのエッジ崩壊とノード分割操作による縮小を完全に回避する。 本稿では,ニューロンや植物木などの生物オブジェクト間の測地学の比較,マッチング,計算において,このフレームワークの有用性を示す。 このフレームワークは様々な形状分析タスクにも適用できる。 (i)木形3次元物体の対称性解析と対称性 二 木形3Dオブジェクトの集団の計算概要統計(意味と変動のモード) (iii)そのような集団にパラメトリック確率分布を適合させること。 (iv)推定確率分布からランダムサンプリングにより、新しい木形3dオブジェクトを合成する。

How can one analyze detailed 3D biological objects, such as neurons and botanical trees, that exhibit complex geometrical and topological variation? In this paper, we develop a novel mathematical framework for representing, comparing, and computing geodesic deformations between the shapes of such tree-like 3D objects. A hierarchical organization of subtrees characterizes these objects -- each subtree has the main branch with some side branches attached -- and one needs to match these structures across objects for meaningful comparisons. We propose a novel representation that extends the Square-Root Velocity Function (SRVF), initially developed for Euclidean curves, to tree-shaped 3D objects. We then define a new metric that quantifies the bending, stretching, and branch sliding needed to deform one tree-shaped object into the other. Compared to the current metrics, such as the Quotient Euclidean Distance (QED) and the Tree Edit Distance (TED), the proposed representation and metric capture the full elasticity of the branches (i.e., bending and stretching) as well as the topological variations (i.e., branch death/birth and sliding). It completely avoids the shrinkage that results from the edge collapse and node split operations of the QED and TED metrics. We demonstrate the utility of this framework in comparing, matching, and computing geodesics between biological objects such as neurons and botanical trees. The framework is also applied to various shape analysis tasks: (i) symmetry analysis and symmetrization of tree-shaped 3D objects, (ii) computing summary statistics (means and modes of variations) of populations of tree-shaped 3D objects, (iii) fitting parametric probability distributions to such populations, and (iv) finally synthesizing novel tree-shaped 3D objects through random sampling from estimated probability distributions.
翻訳日:2023-04-12 00:23:25 公開日:2023-04-10
# 量子スイッチを用いた量子通信の改善

Improvement in quantum communication using quantum switch ( http://arxiv.org/abs/2108.14001v6 )

ライセンス: Link先を確認
Arindam Mitra, Himanshu Badhani, Sibasish Ghosh(参考訳) 量子スイッチの量子チャネルへの応用は近年、激しい議論の的となっている。 本研究では,量子ランダムアクセスコードや量子ステアリングなど,いくつかの情報理論的なタスクに対して,量子スイッチの動作下で有用な通信を提供する(通信用)チャネルを提案する。 また,コヒーレンス破壊チャネルのみが通信チャネルである場合,量子スイッチはシステム内のコヒーレンス損失を防ぐのにも有用であることを示す。 また,有意義な量子チャネルが,量子スイッチを用いても有益な通信を提供していない場合,他の適切な量子チャネルとチャネルを連結し,その後,有益な通信を行うことができることを示す。 最後に、量子スイッチにおけるノイズの導入によって、スイッチが提供する利点を低減できる方法について論じる。

Applications of the quantum switch on quantum channels have recently become a topic of intense discussion. In the present work, we show that some useless (for communication) channels may provide useful communication under the action of quantum switch for several information-theoretic tasks: quantum random access codes, quantum steering, etc. We demonstrate that the quantum switch can also be useful in preventing the loss of coherence in a system when only coherence-breaking channels are the available channels for communication. We also show that if a useless quantum channel does not provide useful communication even after using a quantum switch, concatenating the channel with another suitable quantum channel, and subsequently using the switch, one may achieve useful communication. Finally, we discuss how the introduction of noise in the quantum switch can reduce the advantage that the switch provides.
翻訳日:2023-04-12 00:21:36 公開日:2023-04-10
# 抽象テキスト要約におけるFactual Unconsistency問題:調査

The Factual Inconsistency Problem in Abstractive Text Summarization: A Survey ( http://arxiv.org/abs/2104.14839v3 )

ライセンス: Link先を確認
Yichong Huang, Xiachong Feng, Xiaocheng Feng and Bing Qin(参考訳) 近年、Seq2Seqフレームワークによって開発された様々なニューラルエンコーダデコーダモデルが提案され、入力テキストを出力テキストにマッピングすることを学び、より抽象的な要約を生成するという目標が達成されている。 高いレベルでは、このようなニューラルモデルでは、使用する単語やフレーズに制約なく、サマリーを自由に生成することができる。 さらに、それらのフォーマットは人間編集の要約に近づき、出力はより読みやすく流動的である。 しかし、神経モデルの抽象化能力は二重刃の剣である。 生成した要約でよく見られる問題は、記事中の事実情報の歪みや生成である。 原文と要約の矛盾は,その適用性に様々な懸念を生じさせており,従来のテキスト要約の評価手法はこの問題には適していない。 以上の問題に対して、現在の研究方向は、事実整合性エラーのない出力を選択するための事実認識評価指標を設計することと、事実整合性に向けた新たな要約システムを開発することの2つのカテゴリに分けられる。 本稿では,これらのファクト特有の評価手法とテキスト要約モデルの包括的レビューを行う。

Recently, various neural encoder-decoder models pioneered by Seq2Seq framework have been proposed to achieve the goal of generating more abstractive summaries by learning to map input text to output text. At a high level, such neural models can freely generate summaries without any constraint on the words or phrases used. Moreover, their format is closer to human-edited summaries and output is more readable and fluent. However, the neural model's abstraction ability is a double-edged sword. A commonly observed problem with the generated summaries is the distortion or fabrication of factual information in the article. This inconsistency between the original text and the summary has caused various concerns over its applicability, and the previous evaluation methods of text summarization are not suitable for this issue. In response to the above problems, the current research direction is predominantly divided into two categories, one is to design fact-aware evaluation metrics to select outputs without factual inconsistency errors, and the other is to develop new summarization systems towards factual consistency. In this survey, we focus on presenting a comprehensive review of these fact-specific evaluation methods and text summarization models.
翻訳日:2023-04-12 00:20:02 公開日:2023-04-10
# 深層学習における計算効率向上のためのランダム化シャープネスアウェアトレーニング

Randomized Sharpness-Aware Training for Boosting Computational Efficiency in Deep Learning ( http://arxiv.org/abs/2203.09962v2 )

ライセンス: Link先を確認
Yang Zhao, Hao Zhang and Xiuyuan Hu(参考訳) モデルをフラットな最小値に収束させることで、シャープネス認識学習アルゴリズム(samなど)は最先端のパフォーマンスを達成する力を示している。 しかしながら、これらのアルゴリズムは、通常、トレーニングイテレーション毎に1つの追加の前方伝播を発生させ、特にスケーラブルなモデルにおいて計算を負担する。 そこで本研究では,Randomized Sharpness-Aware Training (RST) と呼ばれる,シンプルながら効率的なトレーニング手法を提案する。 rstのオプティマイザは各イテレーションでベルヌーイ試行を行い、事前に定義されたスケジューリング関数によって配置された確率でベースアルゴリズム(sgd)とシャープネス認識アルゴリズム(sam)からランダムに選択する。 基本アルゴリズムが混在しているため、伝播対の総数は大幅に減少する可能性がある。 また、RSTの収束に関する理論的解析を行う。 次に,様々なスケジューリング関数の計算コストと効果を実証的に検討し,適切なスケジューリング関数の設定の方向性を示す。 さらに、RSTを一般的なフレームワーク(G-RST)に拡張し、任意のスケジューリング関数に対してシャープネスの正規化度を自由に調整できる。 G-RSTは,計算コストを50倍に抑えながらSAMよりも高い性能を示す。

By driving models to converge to flat minima, sharpness-aware learning algorithms (such as SAM) have shown the power to achieve state-of-the-art performances. However, these algorithms will generally incur one extra forward-backward propagation at each training iteration, which largely burdens the computation especially for scalable models. To this end, we propose a simple yet efficient training scheme, called Randomized Sharpness-Aware Training (RST). Optimizers in RST would perform a Bernoulli trial at each iteration to choose randomly from base algorithms (SGD) and sharpness-aware algorithms (SAM) with a probability arranged by a predefined scheduling function. Due to the mixture of base algorithms, the overall count of propagation pairs could be largely reduced. Also, we give theoretical analysis on the convergence of RST. Then, we empirically study the computation cost and effect of various types of scheduling functions, and give directions on setting appropriate scheduling functions. Further, we extend the RST to a general framework (G-RST), where we can adjust regularization degree on sharpness freely for any scheduling function. We show that G-RST can outperform SAM in most cases while saving 50\% extra computation cost.
翻訳日:2023-04-12 00:14:05 公開日:2023-04-10
# 確率と強度の制約のないスケーラブルな2次元量子鍵分布ネットワーク

Scalable High-Rate Twin-Field Quantum Key Distribution Networks without Constraint of Probability and Intensity ( http://arxiv.org/abs/2112.11165v3 )

ライセンス: Link先を確認
Yuan-Mei Xie, Chen-Xun Weng, Yu-Shuo Lu, Yao Fu, Yang Wang, Hua-Lei Yin, Zeng-Bing Chen(参考訳) ツインフィールド量子鍵分布ネットワークの実装は、位相マッチング型プロトコルの干渉エラーの耐性の低さや、送受信型プロトコルの強度と確率に関する厳密な制約など、制限に直面している。 本稿では,2光子型2光子量子鍵分布プロトコルを提案し,2光子型2光子干渉を実現する。 非干渉モードを符号モードとして利用し、干渉誤差を高度に許容し、2光子干渉は自然に強度と確率の制約を取り除く。 したがって、このプロトコルは、繰り返し量子鍵分布の秘密鍵容量を破りながら、上記の制限を超越することができる。 シミュレーションにより、固定されたシステムパラメータを持つノードが異なる減衰リンクを動的に切り替えることのできる4ユーザネットワークでは、6つのリンクすべてに対するプロトコルの鍵レートが秘密鍵容量を超えたり近づいたりすることが示された。 しかし、位相マッチング型プロトコルを使用する場合、すべてのリンクのキーレートはキー容量よりも低い。 さらに、4つのリンクは、送信または送信しない型プロトコルを使用する場合、キーを抽出できなかった。 我々は,本プロトコルが,実用的で効率的な量子ネットワークの開発を促進することを期待する。

Implementation of a twin-field quantum key distribution network faces limitations, including the low tolerance of interference errors for phase-matching type protocols and the strict constraint regarding intensity and probability for sending-or-not-sending type protocols. Here, we propose a two-photon twin-field quantum key distribution protocol and achieve twin-field-type two-photon interference through post-matching phase-correlated single-photon interference events. We exploit the non-interference mode as the code mode to highly tolerate interference errors, and the two-photon interference naturally removes the intensity and probability constraint. Therefore, our protocol can transcend the abovementioned limitations while breaking the secret key capacity of repeaterless quantum key distribution. Simulations show that for a four-user networks, under which each node with fixed system parameters can dynamically switch different attenuation links, the key rates of our protocol for all six links can either exceed or approach the secret key capacity. However, the key rates of all links are lower than the key capacity when using phase-matching type protocols. Additionally, four of the links could not extract the key when using sending-or-not-sending type protocols. We anticipate that our protocol can facilitate the development of practical and efficient quantum networks.
翻訳日:2023-04-12 00:11:39 公開日:2023-04-10
# 不足データの設定におけるプロセス設計パラメータの制約付き多目的最適化:接着接着への応用

Constrained multi-objective optimization of process design parameters in settings with scarce data: an application to adhesive bonding ( http://arxiv.org/abs/2112.08760v3 )

ライセンス: Link先を確認
Alejandro Morales-Hern\'andez, Sebastian Rojas Gonzalez, Inneke Van Nieuwenhuyse, Ivo Couckuyt, Jeroen Jordens, Maarten Witters, and Bart Van Doninck(参考訳) 接着継手は, 強度と重量比, 設計柔軟性, 限られた応力集中, 平面力伝達, 耐損傷性, 耐疲労性などの特徴から, 様々な用途において, 業界で広く利用されている。 接着性接着プロセスの最適なプロセスパラメータを見つけることは困難である: 最適化は本質的に多目的(コストを最小化しながら破壊強度を最大化する)であり、制約を受ける(プロセスは材料の視覚的な損傷を生じさせてはならないし、ストレステストは接着性に関連する障害を生じさせるべきではない)。 実験室での実際の物理実験は、実行にコストがかかる。 従来の進化的アプローチ(遺伝的アルゴリズムなど)は、評価に必要な実験の量が制限されるため、この問題を解決するのに不向きである。 ベイズ最適化に基づくアルゴリズムはそのような高価な問題を解決するために好まれるが、1つ以上の(ノイズの多い)目的といくつかの制約を同時に考慮する手法はほとんどない。 本研究では,限られた実験データに基づいて目的関数と制約関数をエミュレートするために,特定の機械学習手法(ガウス過程回帰)を応用した。 これらの手法はベイズ最適化アルゴリズムに組み込まれ、パレート最適プロセス設定を高い効率で検出することに成功した(つまり、限られた物理実験を必要とする)。

Adhesive joints are increasingly used in industry for a wide variety of applications because of their favorable characteristics such as high strength-to-weight ratio, design flexibility, limited stress concentrations, planar force transfer, good damage tolerance, and fatigue resistance. Finding the optimal process parameters for an adhesive bonding process is challenging: the optimization is inherently multi-objective (aiming to maximize break strength while minimizing cost), constrained (the process should not result in any visual damage to the materials, and stress tests should not result in failures that are adhesion-related), and uncertain (testing the same process parameters several times may lead to different break strengths). Real-life physical experiments in the lab are expensive to perform. Traditional evolutionary approaches (such as genetic algorithms) are then ill-suited to solve the problem, due to the prohibitive amount of experiments required for evaluation. Although Bayesian optimization-based algorithms are preferred to solve such expensive problems, few methods consider the optimization of more than one (noisy) objective and several constraints at the same time. In this research, we successfully applied specific machine learning techniques (Gaussian Process Regression) to emulate the objective and constraint functions based on a limited amount of experimental data. The techniques are embedded in a Bayesian optimization algorithm, which succeeds in detecting Pareto-optimal process settings in a highly efficient way (i.e., requiring a limited number of physical experiments).
翻訳日:2023-04-12 00:11:17 公開日:2023-04-10
# FAIR4Cov:COVID-19検出のための融合オーディオインスタンスと表現

FAIR4Cov: Fused Audio Instance and Representation for COVID-19 Detection ( http://arxiv.org/abs/2204.10581v2 )

ライセンス: Link先を確認
Tuan Truong, Matthias Lenga, Antoine Serrurier, Sadegh Mohammadi(参考訳) 体音の音声に基づく分類技術は、特に肺疾患における診断決定を支援するために長年研究されてきた。 新型コロナウイルス(covid-19)パンデミックの緊急性に対応するため、音響入力に基づいて新型コロナウイルス患者を特定するためのモデルが増えている。 ほとんどのモデルは干し草に焦点を当てており、干し草は新型コロナウイルスの最もよく知られた症状である。 しかし、呼吸や発声などの他の身体の音も、新型コロナウイルスと相関していることが判明した。 本研究は,特定の身体音に頼らずに,covid-19検出のための融合音声インスタンスと表現(fair4cov)を提案する。 波形およびスペクトログラム表現において、複数の体音から得られる結合特徴ベクトルを構築することに依存する。 FAIR4Covのコアコンポーネントは、複数のボディサウンドとオーディオ表現の関係を確立し、コンパクトな特徴ベクトルに統合するように訓練された自己注意融合ユニットである。 波形とスペクトログラム,波形とスペクトログラムの結合表現のみを用いて,身体音の異なる組み合わせについて実験を行った。 以上の結果から, 聴覚, 呼吸, 音声から抽出した特徴を組み合わすことで, 受信者動作特性曲線(AUC)スコアが0.8658, 感度が0.8057, 特異性が0.7958であることが示唆された。 このAUCは分光器でのみ訓練されたモデルよりも0.0227高く、波形でのみ訓練されたモデルよりも0.0847高い。 その結果、スペクトログラムと波形表現の組み合わせは抽出された特徴を豊かにし、単一の表現でモデルを上回ることを示した。

Audio-based classification techniques on body sounds have long been studied to support diagnostic decisions, particularly in pulmonary diseases. In response to the urgency of the COVID-19 pandemic, a growing number of models are developed to identify COVID-19 patients based on acoustic input. Most models focus on cough because the dry cough is the best-known symptom of COVID-19. However, other body sounds, such as breath and speech, have also been revealed to correlate with COVID-19 as well. In this work, rather than relying on a specific body sound, we propose Fused Audio Instance and Representation for COVID-19 Detection (FAIR4Cov). It relies on constructing a joint feature vector obtained from a plurality of body sounds in waveform and spectrogram representation. The core component of FAIR4Cov is a self-attention fusion unit that is trained to establish the relation of multiple body sounds and audio representations and integrate it into a compact feature vector. We set up our experiments on different combinations of body sounds using only waveform, spectrogram, and a joint representation of waveform and spectrogram. Our findings show that the use of self-attention to combine extracted features from cough, breath, and speech sounds leads to the best performance with an Area Under the Receiver Operating Characteristic Curve (AUC) score of 0.8658, a sensitivity of 0.8057, and a specificity of 0.7958. This AUC is 0.0227 higher than the one of the models trained on spectrograms only and 0.0847 higher than the one of the models trained on waveforms only. The results demonstrate that the combination of spectrogram with waveform representation helps to enrich the extracted features and outperforms the models with single representation.
翻訳日:2023-04-12 00:03:44 公開日:2023-04-10
# 運転者の気晴らし行動解析のための合成気晴らし運転(syndd2)データセット

Synthetic Distracted Driving (SynDD2) dataset for analyzing distracted behaviors and various gaze zones of a driver ( http://arxiv.org/abs/2204.08096v3 )

ライセンス: Link先を確認
Mohammed Shaiqur Rahman, Jiyang Wang, Senem Velipasalar Gursoy, David Anastasiu, Shuo Wang, Anuj Sharma(参考訳) 本稿では、機械学習モデルを用いた運転者の様々な注意散らし行動と異なる視線領域の検出と解析を行うための合成的注意散らし駆動(SynDD2 - SynDD1)データセットを提案する。 3台の車載カメラをダッシュボード、リアビューミラー付近、右上ウィンドウコーナーの3箇所に配置し、静止車内でデータを収集した。 データセットには2つのアクティビティタイプが含まれており、各アクティビティタイプには、外見ブロックのない2つのセットと、帽子やサングラスなどの外見ブロックがある。 各参加者に対する各アクティビティの順序と持続時間はランダムである。 さらにデータセットには、各アクティビティに対する手動アノテーションが含まれており、開始時と終了時をアノテートしている。 研究者はこのデータセットを使って、機械学習アルゴリズムのパフォーマンスを評価し、様々な注意をそらすアクティビティとドライバーの視線ゾーンを分類できる。

This article presents a synthetic distracted driving (SynDD2 - a continuum of SynDD1) dataset for machine learning models to detect and analyze drivers' various distracted behavior and different gaze zones. We collected the data in a stationary vehicle using three in-vehicle cameras positioned at locations: on the dashboard, near the rearview mirror, and on the top right-side window corner. The dataset contains two activity types: distracted activities and gaze zones for each participant, and each activity type has two sets: without appearance blocks and with appearance blocks such as wearing a hat or sunglasses. The order and duration of each activity for each participant are random. In addition, the dataset contains manual annotations for each activity, having its start and end time annotated. Researchers could use this dataset to evaluate the performance of machine learning algorithms to classify various distracting activities and gaze zones of drivers.
翻訳日:2023-04-12 00:02:42 公開日:2023-04-10
# 因果性制約と構造情報を用いた分布的ロバストなリスク評価

Distributionally robust risk evaluation with a causality constraint and structural information ( http://arxiv.org/abs/2203.10571v3 )

ライセンス: Link先を確認
Bingyan Han(参考訳) 本研究は,時間データ上での期待関数値の分布的ロバスト評価について検討する。 代替手段のセットは、因果的最適輸送によって特徴づけられる。 強い双対性を証明し、因果制約を無限次元のテスト函数空間上の最小化として再送する。 ニューラルネットワークによるテスト関数を近似し、Rademacherの複雑さによるサンプルの複雑さを証明する。 さらに、あいまいさを更に制限するために構造情報が利用できる場合、二重定式化を証明し、効率的な最適化方法を提供する。 実現されたボラティリティと株価指数の実証分析は、我々のフレームワークが古典的な最適輸送の定式化に代わる魅力的な代替手段を提供することを示している。

This work studies distributionally robust evaluation of expected function values over temporal data. A set of alternative measures is characterized by the causal optimal transport. We prove the strong duality and recast the causality constraint as minimization over an infinite-dimensional test function space. We approximate test functions by neural networks and prove the sample complexity with Rademacher complexity. Moreover, when structural information is available to further restrict the ambiguity set, we prove the dual formulation and provide efficient optimization methods. Empirical analysis of realized volatility and stock indices demonstrates that our framework offers an attractive alternative to the classic optimal transport formulation.
翻訳日:2023-04-12 00:01:15 公開日:2023-04-10
# 任意のガウス状態に対する場の非摂動的単純生成相互作用

Non-perturbative simple-generated interactions with a quantum field for arbitrary Gaussian states ( http://arxiv.org/abs/2207.01141v4 )

ライセンス: Link先を確認
Erickson Tjoa(参考訳) この研究において、我々はまず、1つの2レベル量子ビット検出器と任意の曲線時空における相対論的量子スカラー場の間の相互作用に関する既存の非摂動モデルを集め、一般化する。 次に、これらの非摂動モデルに付随する相対論的量子チャネルを拡張して、場のコヒーレントおよびスクイーズ操作(すなわちガウス演算)の任意の組み合わせを含む、量子場のガウス状態の非常に大きなクラスを含む。 非真空ガウス状態を含むすべての物理結果は真空状態との相互作用の観点から表現できるが、ガウス作用素は随伴チャネルを介して場作用素に適用され、時空における因果プロパゲータの観点からガウス作用素の「フーリエ変換」解釈が効果的に得られることを示す。 さらに、これらの非摂動モデルでは、r\'enyiエントロピーの正確な計算が可能であり、それゆえ、レプリカトリックにより、検出器と相互作用した後の場状態のフォン・ノイマンエントロピーは、検出器とフィールドの結合初期状態の純度を仮定することなく可能であることを示した。 これにより、エントロピーが有限で正確に計算可能な場の「一般化された猫状態」の3パラメータ族が得られる。

In this work we first collect and generalize several existing non-perturbative models for the interaction between a single two-level qubit detector and a relativistic quantum scalar field in arbitrary curved spacetimes, where the time evolution is given by simple-generated unitaries, i.e., those generated by Schmidt rank-1 interaction Hamiltonians. We then extend the relativistic quantum channel associated to these non-perturbative models to include a very large class of Gaussian states of the quantum field, that includes an arbitrary combinations of coherent and squeezing operations (i.e., Gaussian operations) on the field. We show that all physical results involving the non-vacuum Gaussian states can be rephrased in terms of interaction with the vacuum state but with Gaussian operators applied to the field operators via the adjoint channel, effectively giving a "Fourier transformed" interpretation of the Gaussian operations in terms of the causal propagators in spacetime. Furthermore, we show that in these non-perturbative models it is possible to perform exact computation of the R\'enyi entropy and hence, via the replica trick, the von Neumann entropy for the field state after the interaction with the detector, without making any assumptions about the purity of the joint initial states of the detector and the field. This gives us a three-parameter family of "generalized cat states" of the field whose entropies are finite and exactly computable.
翻訳日:2023-04-11 23:55:26 公開日:2023-04-10
# Deepfake Caricatures: 人工物への注意の増幅は人や機械によるディープフェイクの検出を増加させる

Deepfake Caricatures: Amplifying attention to artifacts increases deepfake detection by humans and machines ( http://arxiv.org/abs/2206.00535v3 )

ライセンス: Link先を確認
Camilo Fosco, Emilie Josephs, Alex Andonian, Allen Lee, Xi Wang and Aude Oliva(参考訳) ディープフェイクは誤報を燃やすことでデジタルウェルビーイングに深刻な脅威をもたらす。 ディープフェイクが裸眼で認識しにくくなると、人間のユーザーはディープフェイク検出モデルに頼り、ビデオが本物か偽物かを判断するようになる。 現在、モデルはビデオの真正性を予測するが、人間のユーザーを警告する手法を統合することはない。 ディープフェイクビデオのアーティファクトを増幅するフレームワークを導入し、人々がより検出できるようにする。 映像アーチファクトを強調するアテンションマップを作成するために,人間の反応を訓練した,新しい人工物アテンションモジュールを提案する。 これらの地図には2つの貢献がある。 まず、deepfake検出分類器の性能を向上させる。 2つ目は、人間の検出を改善するために人工物を悪化させるディープフェイクの変換である。 ユーザスタディでは,映像提示時間やユーザエンゲージメントレベルを通じて,Caricaturesが人間の検出を大幅に増加させることを示した。 全体として,ディープフェイク緩和手法の設計における人間中心アプローチの成功を示す。

Deepfakes pose a serious threat to digital well-being by fueling misinformation. As deepfakes get harder to recognize with the naked eye, human users become increasingly reliant on deepfake detection models to decide if a video is real or fake. Currently, models yield a prediction for a video's authenticity, but do not integrate a method for alerting a human user. We introduce a framework for amplifying artifacts in deepfake videos to make them more detectable by people. We propose a novel, semi-supervised Artifact Attention module, which is trained on human responses to create attention maps that highlight video artifacts. These maps make two contributions. First, they improve the performance of our deepfake detection classifier. Second, they allow us to generate novel "Deepfake Caricatures": transformations of the deepfake that exacerbate artifacts to improve human detection. In a user study, we demonstrate that Caricatures greatly increase human detection, across video presentation times and user engagement levels. Overall, we demonstrate the success of a human-centered approach to designing deepfake mitigation methods.
翻訳日:2023-04-11 23:53:55 公開日:2023-04-10
# 社会的バイアスがデータバイアスを満たす - 公正基準に対するラベル付けと測定誤差の影響

Social Bias Meets Data Bias: The Impacts of Labeling and Measurement Errors on Fairness Criteria ( http://arxiv.org/abs/2206.00137v3 )

ライセンス: Link先を確認
Yiqiao Liao, Parinaz Naghizadeh(参考訳) 機械学習アルゴリズムが既存の社会的偏見を示したり増幅したりしないように、多くの公正基準が提案されているが、これらのアルゴリズムは統計的偏見を持つことができるデータセットに基づいて訓練されている。 本稿では,アルゴリズムがバイアスデータに基づいてトレーニングされている場合,既存の(デコグラフィ)フェアネス基準の頑健さについて検討する。 我々は、ラベル付けプロセスにおける事前決定者による誤りと、不利な個人の特徴の測定における誤りの2つの形態を考察する。 統計的バイアスに直面した場合、いくつかの制約(人口統計学的パリティなど)は頑健であり、他の制約(等化オッズなど)は偏りのあるデータに基づいてトレーニングされた場合、著しく違反する可能性があることを分析的に示す。 また,これらの基準の感度と意思決定者のバイアスに対する有用性についても分析した。 分析結果を支援する3つの実世界データセット(fico, adult, german credit score dataset)に基づく数値実験を行った。 本研究は,既存の公平性基準の中から選択するガイドラインや,利用可能なデータセットが偏っている場合の新しい基準を提案するガイドラインを示す。

Although many fairness criteria have been proposed to ensure that machine learning algorithms do not exhibit or amplify our existing social biases, these algorithms are trained on datasets that can themselves be statistically biased. In this paper, we investigate the robustness of a number of existing (demographic) fairness criteria when the algorithm is trained on biased data. We consider two forms of dataset bias: errors by prior decision makers in the labeling process, and errors in measurement of the features of disadvantaged individuals. We analytically show that some constraints (such as Demographic Parity) can remain robust when facing certain statistical biases, while others (such as Equalized Odds) are significantly violated if trained on biased data. We also analyze the sensitivity of these criteria and the decision maker's utility to biases. We provide numerical experiments based on three real-world datasets (the FICO, Adult, and German credit score datasets) supporting our analytical findings. Our findings present an additional guideline for choosing among existing fairness criteria, or for proposing new criteria, when available datasets may be biased.
翻訳日:2023-04-11 23:53:37 公開日:2023-04-10
# GCoNet+: より強力なグループ協調型オブジェクト検出器

GCoNet+: A Stronger Group Collaborative Co-Salient Object Detector ( http://arxiv.org/abs/2205.15469v4 )

ライセンス: Link先を確認
Peng Zheng, Huazhu Fu, Deng-Ping Fan, Qi Fan, Jie Qin, Yu-Wing Tai, Chi-Keung Tang and Luc Van Gool(参考訳) 本稿では,gconet+と呼ばれる,自然場面における協調的物体を効果的かつ効率的に識別可能な,新しいエンドツーエンドグループ協調学習ネットワークを提案する。 提案したGCoNet+は、以下の2つの重要な基準に基づいて、マイニングコンセンサス表現により、コサリエントオブジェクト検出(CoSOD)のための新しい最先端性能を実現する。 1) 群内コンパクト性は, 群親和性モジュール (GAM) を用いて, 共塩性オブジェクト間の整合性をよりよく定式化する。 2) 新しいグループ協調モジュール(gcm)コンディショニングの導入により, 雑音が出力に与える影響を効果的に抑制できるグループ間分離性について検討した。 精度をさらに向上するため、我々は以下の一連の単純で効果的なコンポーネントを設計する。 一 モデル学習を意味レベルで促進する反復補助分類モジュール(RACM) 二 確定予測の質を向上させるためのモデルを支援する信頼性向上モジュール(CEM) 三 より識別的特徴を学ぶためにモデルを導くグループベースの対称三重項損失(gst) CoCA、CoSOD3k、CoSal2015という3つの挑戦的なベンチマークに関する大規模な実験は、GCoNet+が既存の12の最先端モデルより優れていることを示した。 コードはhttps://github.com/ZhengPeng7/GCoNet_plusでリリースされた。

In this paper, we present a novel end-to-end group collaborative learning network, termed GCoNet+, which can effectively and efficiently (250 fps) identify co-salient objects in natural scenes. The proposed GCoNet+ achieves the new state-of-the-art performance for co-salient object detection (CoSOD) through mining consensus representations based on the following two essential criteria: 1) intra-group compactness to better formulate the consistency among co-salient objects by capturing their inherent shared attributes using our novel group affinity module (GAM); 2) inter-group separability to effectively suppress the influence of noisy objects on the output by introducing our new group collaborating module (GCM) conditioning on the inconsistent consensus. To further improve the accuracy, we design a series of simple yet effective components as follows: i) a recurrent auxiliary classification module (RACM) promoting model learning at the semantic level; ii) a confidence enhancement module (CEM) assisting the model in improving the quality of the final predictions; and iii) a group-based symmetric triplet (GST) loss guiding the model to learn more discriminative features. Extensive experiments on three challenging benchmarks, i.e., CoCA, CoSOD3k, and CoSal2015, demonstrate that our GCoNet+ outperforms the existing 12 cutting-edge models. Code has been released at https://github.com/ZhengPeng7/GCoNet_plus.
翻訳日:2023-04-11 23:53:00 公開日:2023-04-10
# ニューラルグラウンドプラン:単一画像からの永続的ニューラルシーン表現

Neural Groundplans: Persistent Neural Scene Representations from a Single Image ( http://arxiv.org/abs/2207.11232v2 )

ライセンス: Link先を確認
Prafull Sharma, Ayush Tewari, Yilun Du, Sergey Zakharov, Rares Ambrus, Adrien Gaidon, William T. Freeman, Fredo Durand, Joshua B. Tenenbaum, Vincent Sitzmann(参考訳) 本稿では,シーンの2次元映像観察を永続的な3次元シーン表現にマッピングする方法を提案する。 視覚とロボティクスで一般的に使用される鳥眼ビュー(BEV)表現に触発され,条件付きニューラルネットワーク,2次元特徴格子を永続的でメモリ効率のよいシーン表現として提案する。 本手法は,識別可能レンダリングを用いたラベルなし多視点観察から自己指導を行い,閉鎖領域の形状と外観を学習する。 また,訓練時間にマルチビュー映像を活用して,シーンの静的・可動的なコンポーネントをテスト時間に1つの画像から分離して再構築できることを示す。 可動オブジェクトを個別に再構築する機能により、オブジェクト中心の3D表現の抽出、新しいビュー合成、インスタンスレベルのセグメンテーション、3D境界ボックス予測、シーン編集など、単純なヒューリスティックを使って、さまざまなダウンストリームタスクが可能になる。 これは、効率的な3dシーン理解モデルのバックボーンとしてのニューラルグラウンドプランの価値を強調している。

We present a method to map 2D image observations of a scene to a persistent 3D scene representation, enabling novel view synthesis and disentangled representation of the movable and immovable components of the scene. Motivated by the bird's-eye-view (BEV) representation commonly used in vision and robotics, we propose conditional neural groundplans, ground-aligned 2D feature grids, as persistent and memory-efficient scene representations. Our method is trained self-supervised from unlabeled multi-view observations using differentiable rendering, and learns to complete geometry and appearance of occluded regions. In addition, we show that we can leverage multi-view videos at training time to learn to separately reconstruct static and movable components of the scene from a single image at test time. The ability to separately reconstruct movable objects enables a variety of downstream tasks using simple heuristics, such as extraction of object-centric 3D representations, novel view synthesis, instance-level segmentation, 3D bounding box prediction, and scene editing. This highlights the value of neural groundplans as a backbone for efficient 3D scene understanding models.
翻訳日:2023-04-11 23:45:33 公開日:2023-04-10
# 量子検出器トモグラフィーにおける正則化と最適化について

On the regularization and optimization in quantum detector tomography ( http://arxiv.org/abs/2207.10327v2 )

ライセンス: Link先を確認
Shuixin Xiao, Yuanlong Wang, Jun Zhang, Daoyi Dong, Shota Yokoyama, Ian R. Petersen, Hidehiro Yonezawa(参考訳) 量子検出器トモグラフィ(QDT)は、量子デバイスを校正し、量子工学タスクを実行するための基礎技術である。 本稿では,プローブ状態が情報的完全あるいは情報的不完全である場合に,正規化を利用してQDT精度を向上させる。 情報完全シナリオでは、正規化を伴わずに半定値プログラミング問題に変換することでリソース(状態)分布を最適化する。 そして、情報完全と情報完全の両シナリオにおいて、異なる正規化形式について議論し、平均二乗誤差が$ o(\frac{1}{n}) $または静的仮定の下で$n $状態コピーを持つ定数になることを示す。 また, 同定可能なパラメータに対する最適最良正規化を特徴とし, 情報的完全化と情報的不完全化の両方を考慮した。 数値例は異なる正則化形式の有効性を示し、量子光学実験では適切な正則化形式が平均二乗誤差を低減できることを示した。

Quantum detector tomography (QDT) is a fundamental technique for calibrating quantum devices and performing quantum engineering tasks. In this paper, we utilize regularization to improve the QDT accuracy whenever the probe states are informationally complete or informationally incomplete. In the informationally complete scenario, without regularization, we optimize the resource (probe state) distribution by converting it to a semidefinite programming problem. Then in both the informationally complete and informationally incomplete scenarios, we discuss different regularization forms and prove the mean squared error scales as $ O(\frac{1}{N}) $ or tends to a constant with $ N $ state copies under the static assumption. We also characterize the ideal best regularization for the identifiable parameters, accounting for both the informationally complete and informationally incomplete scenarios. Numerical examples demonstrate the effectiveness of different regularization forms and a quantum optical experiment test shows that a suitable regularization form can reach a reduced mean squared error.
翻訳日:2023-04-11 23:45:12 公開日:2023-04-10
# 分散プライバシー機構によるデータセットのグローバルな特性保護

Protecting Global Properties of Datasets with Distribution Privacy Mechanisms ( http://arxiv.org/abs/2207.08367v2 )

ライセンス: Link先を確認
Michelle Chen and Olga Ohrimenko(参考訳) 我々は、データセットの多くのレコードに集約されたデータセットプロパティの機密性を確保する問題を考える。 このような特性は、貿易秘密や人口統計データなどの機密情報をエンコードすると同時に、典型的に議論される個々のレコードのプライバシーとは異なるデータ保護の概念を含む。 本稿では,このようなデータの機密性を形式化するために,分散プライバシフレームワークをどのように適用できるかを実証する。 我々は、WassersteinのメカニズムをPufferfishのプライバシから、Gaussianのメカニズムをこのフレームワークに属性のプライバシから拡張し、基礎となるデータ仮定と緩和方法を分析します。 次に,これらのメカニズムのプライバシ利用性トレードオフを実証的に評価し,データセットのグローバルプロパティを対象とする実用的なプロパティ推論攻撃に適用する。 その結果,我々のメカニズムは,粗いグループ差分プライバシーベースラインよりも実用性が高く,攻撃の有効性を低下させることができることがわかった。 そこで本研究は,データセットのグローバルな特性と実際の評価を保護するための理論的メカニズムの基盤となる。

We consider the problem of ensuring confidentiality of dataset properties aggregated over many records of a dataset. Such properties can encode sensitive information, such as trade secrets or demographic data, while involving a notion of data protection different to the privacy of individual records typically discussed in the literature. In this work, we demonstrate how a distribution privacy framework can be applied to formalize such data confidentiality. We extend the Wasserstein Mechanism from Pufferfish privacy and the Gaussian Mechanism from attribute privacy to this framework, then analyze their underlying data assumptions and how they can be relaxed. We then empirically evaluate the privacy-utility tradeoffs of these mechanisms and apply them against a practical property inference attack which targets global properties of datasets. The results show that our mechanisms can indeed reduce the effectiveness of the attack while providing utility substantially greater than a crude group differential privacy baseline. Our work thus provides groundwork for theoretical mechanisms for protecting global properties of datasets along with their evaluation in practice.
翻訳日:2023-04-11 23:44:37 公開日:2023-04-10
# ナノワイヤとナノチューブの変形

Deformation of Nanowires and Nanotubes ( http://arxiv.org/abs/2207.07205v2 )

ライセンス: Link先を確認
Aatif Kaisar Khan, Salman Sajad Wani, Aasiya Shaikh, Yas Yamin, Naveed Ahmad Shah, Yermek O. Aitenov, Mir Faizal, Suhail Lone(参考訳) 本稿では,ナノ構造の有効場理論に対する先行次数補正の結果について検討した。 これは、変形したハイゼンベルク代数がナノワイヤやナノチューブに与える影響を分析することによって行われた。 まず、シュロディンガー方程式を円筒トポロジーで変形する。 そして、異なる境界条件を持つ変形シュロディンガー方程式に対する特定の解を研究する。 これらの変形溶液は、ナノワイヤやナノチューブのエネルギーに対する変形の影響を調べるために用いられる。

In this article, we have investigated the consequences of the next to the leading order correction to the effective field theory of nanostructures. This has been done by analyzing the effects of deformed Heisenberg algebra on nanowires and nanotubes. We first deform the Schrodinger equation with cylindrical topology. Then specific solutions to the deformed Schrodinger equation with different boundary conditions are studied. These deformed solutions are used to investigate the consequences of the deformation on the energy of nanowires and nanotubes.
翻訳日:2023-04-11 23:44:17 公開日:2023-04-10
# ドロップアウトの暗黙の正規化

Implicit regularization of dropout ( http://arxiv.org/abs/2207.05952v2 )

ライセンス: Link先を確認
Zhongwang Zhang and Zhi-Qin John Xu(参考訳) 一般的な正規化手法であるドロップアウトが、ニューラルネットワークトレーニング中に優れた一般化ソリューションを実現するのにどのように役立つかを理解することが重要である。 本研究では,一連の実験によって検証されたドロップアウトの暗黙の正則化の理論的導出について述べる。 さらに,暗黙正則化の2つの意味を数値的に研究し,ドロップアウトが一般化に寄与する理由を直感的に合理化する。 第一に、隠れたニューロンの入力重みは、ドロップアウトで訓練された孤立配向に凝縮する傾向がある。 凝縮は非線形学習プロセスにおける特徴であり、ネットワークがより複雑になる。 第2に、ドロップアウトによるトレーニングが、標準的な勾配降下トレーニングよりも平坦な最小のニューラルネットワークにつながり、暗黙の正規化がフラットな解を見つける鍵であることを実験的に見出した。 我々の理論は主に最後の隠れ層で使われるドロップアウトに焦点を当てているが、実験はニューラルネットワークのトレーニングにおける一般的なドロップアウトに適用できる。 本研究は, 確率勾配降下と比較して, ドロップアウトの特異な特徴を指摘し, ドロップアウトを完全に理解するための重要な基礎となる。

It is important to understand how dropout, a popular regularization method, aids in achieving a good generalization solution during neural network training. In this work, we present a theoretical derivation of an implicit regularization of dropout, which is validated by a series of experiments. Additionally, we numerically study two implications of the implicit regularization, which intuitively rationalizes why dropout helps generalization. Firstly, we find that input weights of hidden neurons tend to condense on isolated orientations trained with dropout. Condensation is a feature in the non-linear learning process, which makes the network less complex. Secondly, we experimentally find that the training with dropout leads to the neural network with a flatter minimum compared with standard gradient descent training, and the implicit regularization is the key to finding flat solutions. Although our theory mainly focuses on dropout used in the last hidden layer, our experiments apply to general dropout in training neural networks. This work points out a distinct characteristic of dropout compared with stochastic gradient descent and serves as an important basis for fully understanding dropout.
翻訳日:2023-04-11 23:44:11 公開日:2023-04-10
# アニメ文字シートを用いた協調ニューラルレンダリング

Collaborative Neural Rendering using Anime Character Sheets ( http://arxiv.org/abs/2207.05378v4 )

ライセンス: Link先を確認
Zuzeng Lin, Ailin Huang, Zhewei Huang, Chen Hu, Shuchang Zhou(参考訳) アニメ制作において、キャラクターのイメージを所望のポーズで描くことは必須だが手間がかかる作業である。 近年,アーティストの創造支援が研究のホットスポットとなっている。 本稿では,いくつかの参照画像(文字シート)から特定のポーズの新たな画像を生成する協調ニューラルレンダリング(conr)手法を提案する。 概して、アニメキャラクターの多様な髪型や衣服は、ほとんどの裸体型にフィットするsmplのような普遍的なボディモデルの雇用を欠いている。 これを解決するため、CoNRでは、コンパクトで分かりやすいランドマークエンコーディングを使用して、パイプライン内の統一UVマッピングの作成を回避する。 さらに、注意深く設計されたニューラルネットワークにおける特徴空間クロスビューウォーピングにより、複数の参照画像を参照する場合にconrの性能が大幅に向上する。 また,70万以上の手書き合成画像を含む文字シートデータセットを収集し,この領域の研究を容易にする。 私たちのコードとデモはhttps://github.com/megvii-research/ijcai2023-conrで利用可能です。

Drawing images of characters with desired poses is an essential but laborious task in anime production. Assisting artists to create is a research hotspot in recent years. In this paper, we present the Collaborative Neural Rendering (CoNR) method, which creates new images for specified poses from a few reference images (AKA Character Sheets). In general, the diverse hairstyles and garments of anime characters defies the employment of universal body models like SMPL, which fits in most nude human shapes. To overcome this, CoNR uses a compact and easy-to-obtain landmark encoding to avoid creating a unified UV mapping in the pipeline. In addition, the performance of CoNR can be significantly improved when referring to multiple reference images, thanks to feature space cross-view warping in a carefully designed neural network. Moreover, we have collected a character sheet dataset containing over 700,000 hand-drawn and synthesized images of diverse poses to facilitate research in this area. Our code and demo are available at https://github.com/megvii-research/IJCAI2023-CoNR.
翻訳日:2023-04-11 23:43:49 公開日:2023-04-10
# gotesman-kitaev-preskill符号とxzzx曲面符号の結合

Concatenation of the Gottesman-Kitaev-Preskill code with the XZZX surface code ( http://arxiv.org/abs/2207.04383v3 )

ライセンス: Link先を確認
Jiaxuan Zhang, Yu-Chun Wu, and Guo-Ping Guo(参考訳) ボソニック符号は量子誤り訂正の代替オプションを提供する。 Gottesman-Kitaev-Preskill (GKP)と呼ばれるボソニックなコードの重要なカテゴリは、最近多くの関心を集めている。 理論的には、GKP符号の誤り訂正能力は、位置と運動量における小さなシフト誤差しか補正できないため制限されている。 大規模でフォールトトレラントな量子計算のためのGKPエラー補正を促進する自然なアプローチは、符号化されたGKP状態を安定化符号で結合する。 XZZX曲面-GKP符号,すなわちXZZX曲面コードと結合した単一モードGKP符号の性能を2つの異なるノイズモデルで検討した。 まず、符号容量ノイズモデルにおいて、パラメータ$\lambda$の非対称長方形GKP符号を導入する。 最小ウェイト完全整合デコーダと連続可変GKP情報を組み合わせることで、XZX表面GKP符号の最適しきい値は、標準表面GKP符号のしきい値である$\sigma\approx0.67$に対して$\lambda=2.1$となる。 次に、実際の実装における2量子ゲートのシフト誤差を分析し、全回路レベルのノイズモデルを構築する。 適切なバイアスパラメータを設定することで、論理誤差率を数回減少させる場合もある。 これらの結果は、XZZX曲面-GKP符号が一般的な雑音モデルの下での非対称結合により適していることを示している。 また、ノイズパラメータ18.5 db (\kappa/g \approx 0.71\%$) の約291 gkp状態を用いてエラーレート2.53\times10^{-7}$の論理キュービットを符号化するxzzx-surface gkp符号のオーバーヘッドを、3041 qubitsを使用したキュービットベースの表面コードと比較して、ほぼ同じ論理エラー率を達成するために見積もった。

Bosonic codes provide an alternative option for quantum error correction. An important category of bosonic codes called the Gottesman-Kitaev-Preskill (GKP) code has aroused much interest recently. Theoretically, the error correction ability of GKP code is limited since it can only correct small shift errors in position and momentum quadratures. A natural approach to promote the GKP error correction for large-scale, fault-tolerant quantum computation is concatenating encoded GKP states with a stabilizer code. The performance of the XZZX surface-GKP code, i.e., the single-mode GKP code concatenated with the XZZX surface code is investigated in this paper under two different noise models. Firstly, in the code-capacity noise model, the asymmetric rectangular GKP code with parameter $\lambda$ is introduced. Using the minimum weight perfect matching decoder combined with the continuous-variable GKP information, the optimal threshold of the XZZX-surface GKP code reaches $\sigma\approx0.67$ when $\lambda=2.1$, compared with the threshold $\sigma\approx0.60$ of the standard surface-GKP code. Secondly, we analyze the shift errors of two-qubit gates in the actual implementation and build the full circuit-level noise model. By setting the appropriate bias parameters, the logical error rate is reduced by several times in some cases. These results indicate the XZZX surface-GKP codes are more suitable for asymmetric concatenation under the general noise models. We also estimate the overhead of the XZZX-surface GKP code which uses about 291 GKP states with the noise parameter 18.5 dB ($\kappa/g \approx 0.71\%$) to encode a logical qubit with the error rate $2.53\times10^{-7}$, compared with the qubit-based surface code using 3041 qubits to achieve almost the same logical error rate.
翻訳日:2023-04-11 23:43:33 公開日:2023-04-10
# 複雑な時空におけるスピノルのジオメトリゼーションについて

On Geometrization of Spinors in a Complex Spacetime ( http://arxiv.org/abs/2209.08733v2 )

ライセンス: Link先を確認
Santanu Das(参考訳) 一般相対性理論は重力の完全な幾何学理論を提供するが、他の3つの自然の力、すなわち電磁磁気と弱い強い相互作用を説明できない。 それらの説明には量子場理論(qft)が必要である。 そこで本論文では,スピノル場を幾何化しようとする。 零多様体の接空間におけるパラメトリック座標系を定義し、これらのパラメトリック座標がスピノルとして振る舞うことを示す。 ヌル多様体の接空間上に複素内部超空間を導入することにより、そのようなパラメトリック座標系を8つのスピノル場として振舞うことができることを示す。 これらのスピノル場は、SU(3)の下で自転できる2つの三つ子を含む。 これらのスピノル場のうち7つは、異なる強度を持つ U(1) 場と結合する。 また、これらのスピノルは 1/2$ または $-1/2$ のテンソルウェイトを$L^p$ 空間に割り当てることができるが、座標が二次的に加算される代わりに$p$ のパワーを加算する代わりに、同様のテンソルウェイトを持つスピノルを含むパラメトリック空間を得ることができる。

While general relativity provides a complete geometric theory of gravity, it fails to explain the other three forces of nature, i.e., electromagnetism and weak and strong interactions. We require the quantum field theory (QFT) to explain them. Therefore, in this article, we try to geometrize the spinor fields. We define a parametric coordinate system in the tangent space of a null manifold and show that these parametric coordinates behave as spinors. By introducing a complex internal hyperspace on a tangent space of a null manifold, we show that we can get eight sets of such parametric coordinate systems that can behave as eight spinor fields. These spinor fields contain two triplets that can rotate among themselves under SU(3). Seven of these spinor fields also couple with a U(1) field with different strengths. We also show that while these spinors can be assigned a tensor weight $1/2$ or $-1/2$, in a $L^p$ space where the coordinates, instead of adding up in quadrature, add up in $p$th power, we can get a parametric space that contains similar spinors of tensor weight $1/p$.
翻訳日:2023-04-11 23:37:30 公開日:2023-04-10
# 非参照型事前学習モデルによる正規化付き限定データの深部生成モデリング

Deep Generative Modeling on Limited Data with Regularization by Nontransferable Pre-trained Models ( http://arxiv.org/abs/2208.14133v3 )

ライセンス: Link先を確認
Yong Zhong, Hongtao Liu, Xiaodong Liu, Fan Bao, Weiran Shen, Chongxuan Li(参考訳) DGM(Deep Generative Model)は、限られたデータ上で複雑なモデルを学習することは、大きなばらつきに悩まされ、容易に過度に適合するため、データイーガーである。 バイアス分散トレードオフの古典的視点に着想を得て,非参照型事前学習モデルを利用した正規化深部生成モデル(Reg-DGM)を提案し,限られたデータによる生成モデルの分散を低減する。 形式的には、Reg-DGMは、データとモデル分布の間に偏りがあるエネルギー関数の重み付け和を最適化し、そのエネルギー関数はモデル分布の事前学習モデル w.r.t. によって定義される。 重み付きハイパーパラメータがバイアスと分散をいかに引き離すかを示すために、単純だが代表的なガウスフィッティングのケースを分析した。 理論的には、非パラメトリックな設定でReg-DGMの世界最小値の存在と特異性を特徴づけ、勾配に基づく手法で訓練されたニューラルネットワークとの収束性を証明する。 実証的には、様々な事前訓練された特徴抽出器とデータ依存エネルギー関数により、Reg-DGMは、限られたデータで強いDGMの生成性能を一貫して改善し、最先端の手法に対する競争的な結果を得る。 実装はhttps://github.com/ML-GSAI/Reg-ADA-APAで公開しています。

Deep generative models (DGMs) are data-eager because learning a complex model on limited data suffers from a large variance and easily overfits. Inspired by the classical perspective of the bias-variance tradeoff, we propose regularized deep generative model (Reg-DGM), which leverages a nontransferable pre-trained model to reduce the variance of generative modeling with limited data. Formally, Reg-DGM optimizes a weighted sum of a certain divergence and the expectation of an energy function, where the divergence is between the data and the model distributions, and the energy function is defined by the pre-trained model w.r.t. the model distribution. We analyze a simple yet representative Gaussian-fitting case to demonstrate how the weighting hyperparameter trades off the bias and the variance. Theoretically, we characterize the existence and the uniqueness of the global minimum of Reg-DGM in a non-parametric setting and prove its convergence with neural networks trained by gradient-based methods. Empirically, with various pre-trained feature extractors and a data-dependent energy function, Reg-DGM consistently improves the generation performance of strong DGMs with limited data and achieves competitive results to the state-of-the-art methods. Our implementation is available at https://github.com/ML-GSAI/Reg-ADA-APA.
翻訳日:2023-04-11 23:36:17 公開日:2023-04-10
# ハイブリッド型深部特徴量に基づく病理画像の変形性画像登録法

A Hybrid Deep Feature-Based Deformable Image Registration Method for Pathology Images ( http://arxiv.org/abs/2208.07655v4 )

ライセンス: Link先を確認
Chulong Zhang, Yuming Jiang, Na Li, Zhicheng Zhang, Md Tauhidul Islam, Jingjing Dai, Lin Liu, Wenfeng He, Wenjian Qin, Jing Xiong, Yaoqin Xie and Xiaokun Liang(参考訳) 病理学者は、正確な診断のために異なる染色された病理スライスからの情報を統合する必要がある。 変形可能な画像登録はマルチモーダル病理スライスを用いるのに必要な技術である。 本稿では,染色病理検体のための深部特徴量に基づく変形可能な画像登録フレームワークを提案する。 まず,検出器ベースおよび検出器フリーのディープラーニング特徴ネットワークを用いて,高密度特徴点を抽出し,ポイントマッチングを行う。 そして,さらに誤一致を減らすために,孤立林統計モデルと局所アフィン補正モデルを組み合わせた異常検出法を提案する。 最後に、補間法は、上記マッチング点に基づいて病理画像登録のための変形可能なベクトルフィールドを生成する。 我々は,IEEE ISBI 2019 会議と共同で,非剛性組織画像登録(ANHIR)課題のデータセットについて評価を行った。 従来の手法を17%上回り,平均平均登録目標誤差(rtre)が0.0034に達した。 提案手法は,テストデータセットの評価において最先端の性能を達成し,第1位となった。 提案するハイブリッド型深層特徴ベース登録法は,病理画像登録の信頼性の高い方法となり得る。

Pathologists need to combine information from differently stained pathology slices for accurate diagnosis. Deformable image registration is a necessary technique for fusing multi-modal pathology slices. This paper proposes a hybrid deep feature-based deformable image registration framework for stained pathology samples. We first extract dense feature points via the detector-based and detector-free deep learning feature networks and perform points matching. Then, to further reduce false matches, an outlier detection method combining the isolation forest statistical model and the local affine correction model is proposed. Finally, the interpolation method generates the deformable vector field for pathology image registration based on the above matching points. We evaluate our method on the dataset of the Non-rigid Histology Image Registration (ANHIR) challenge, which is co-organized with the IEEE ISBI 2019 conference. Our technique outperforms the traditional approaches by 17% with the Average-Average registration target error (rTRE) reaching 0.0034. The proposed method achieved state-of-the-art performance and ranked 1st in evaluating the test dataset. The proposed hybrid deep feature-based registration method can potentially become a reliable method for pathology image registration.
翻訳日:2023-04-11 23:34:30 公開日:2023-04-10
# 循環政策蒸留:サンプル効率の良いsim-to-real強化学習とドメインランダム化

Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement Learning with Domain Randomization ( http://arxiv.org/abs/2207.14561v2 )

ライセンス: Link先を確認
Yuki Kadokawa, Lingwei Zhu, Yoshihisa Tsurumine, Takamitsu Matsubara(参考訳) ドメインランダム化による深層強化学習は、ランダム化された物理モデルとセンサーモデルパラメータを持つ様々なシミュレーションにおいて制御ポリシーを学習し、ゼロショット設定で現実世界に転送できる。 しかしながら、ポリシー更新の不安定性のため、ランダム化されたパラメータの範囲が広範囲である場合、効果的なポリシーを学ぶために多くのサンプルが必要となる。 この問題を軽減するために,循環政策蒸留法 (CPD) と呼ばれる試料効率の高い手法を提案する。 cpdはランダム化されたパラメータの範囲をいくつかの小さなサブドメインに分割し、それぞれにローカルポリシーを割り当てる。 その後、サブドメインに周期的に移行しながら、ローカルポリシが学習される。 CPDは期待される性能改善に基づいて知識伝達による学習を加速する。 最後に、学習されたすべてのローカルポリシーは、sim-to-real転送のためのグローバルポリシーに蒸留される。 CPDの有効性とサンプル効率は,OpenAIGymとPusherのPendulum,MujocoのSwimmer,HalfCheetahの4つのタスクと,実際のロボット,ボール分散タスクのシミュレーションによって実証される。 私たちは実験から得られたコードとビデオをhttps://github.com/yuki-kadokawa/cyclic-policy-distillationで公開しました。

Deep reinforcement learning with domain randomization learns a control policy in various simulations with randomized physical and sensor model parameters to become transferable to the real world in a zero-shot setting. However, a huge number of samples are often required to learn an effective policy when the range of randomized parameters is extensive due to the instability of policy updates. To alleviate this problem, we propose a sample-efficient method named cyclic policy distillation (CPD). CPD divides the range of randomized parameters into several small sub-domains and assigns a local policy to each one. Then local policies are learned while cyclically transitioning to sub-domains. CPD accelerates learning through knowledge transfer based on expected performance improvements. Finally, all of the learned local policies are distilled into a global policy for sim-to-real transfers. CPD's effectiveness and sample efficiency are demonstrated through simulations with four tasks (Pendulum from OpenAIGym and Pusher, Swimmer, and HalfCheetah from Mujoco), and a real-robot, ball-dispersal task. We published code and videos from our experiments at https://github.com/yuki-kadokawa/cyclic-policy-distillation.
翻訳日:2023-04-11 23:33:49 公開日:2023-04-10
# モデル編集によるデータ効率の高い化石セグメンテーションの改善

Improving Data-Efficient Fossil Segmentation via Model Editing ( http://arxiv.org/abs/2210.03879v2 )

ライセンス: Link先を確認
Indu Panigrahi, Ryan Manzuk, Adam Maloof, Ruth Fong(参考訳) ほとんどのコンピュータビジョン研究は、何千もの共通のオブジェクトの画像を含むデータセットに焦点を当てている。 しかし、医学や地球科学などの多くの高インパクトデータセットには、ドメインエキスパートの知識を必要とする細粒のオブジェクトが含まれており、収集や注釈に時間を要する。 その結果、これらのデータセットにはラベル付きイメージがほとんど含まれておらず、現在のマシンビジョンモデルは集中的にトレーニングすることはできない。 もともと大規模な言語モデルを修正するために導入された機械学習のモデル編集技術は、少量のデータと追加のトレーニングだけでモデルパフォーマンスを改善することが示されている。 Mask R-CNNを用いて古代のサンゴ礁の化石を岩石サンプル画像に分割し、ラベル付き画像がほとんどない状態で化石の断片化を改善するための2つのパラダイムを提示する。 具体的には,マスクr-cnnが異なる種類の化石を区別できないことや,テクスチャの異なる化石を分割することの矛盾を露呈するために,ドメインインフォーム画像摂動を適用する。 これらの欠点に対処するため,画像分類における系統的な誤りを,ラベル付きデータを必要としない画像分割に補正する既存のモデル編集手法を拡張し,異なる種類の化石の混同を減少させる効果を示す。 我々はまた、我々の状況におけるモデル編集の最良の設定を強調している: 1つの画像中のすべての関連するピクセルを使って、1つの編集を行う(例えば、複数の画像、複数の編集、またはより少ないピクセルを使用する)。 化石のセグメンテーションに注目するが、我々のアプローチは、データに制限がある他の類似した微細粒セグメンテーション問題に有用かもしれない。

Most computer vision research focuses on datasets containing thousands of images of commonplace objects. However, many high-impact datasets, such as those in medicine and the geosciences, contain fine-grain objects that require domain-expert knowledge to recognize and are time-consuming to collect and annotate. As a result, these datasets contain few labeled images, and current machine vision models cannot train intensively on them. Originally introduced to correct large-language models, model-editing techniques in machine learning have been shown to improve model performance using only small amounts of data and additional training. Using a Mask R-CNN to segment ancient reef fossils in rock sample images, we present a two-part paradigm to improve fossil segmentation with few labeled images: we first identify model weaknesses using image perturbations and then mitigate those weaknesses using model editing. Specifically, we apply domain-informed image perturbations to expose the Mask R-CNN's inability to distinguish between different classes of fossils and its inconsistency in segmenting fossils with different textures. To address these shortcomings, we extend an existing model-editing method for correcting systematic mistakes in image classification to image segmentation with no additional labeled data needed and show its effectiveness in decreasing confusion between different kinds of fossils. We also highlight the best settings for model editing in our situation: making a single edit using all relevant pixels in one image (vs. using multiple images, multiple edits, or fewer pixels). Though we focus on fossil segmentation, our approach may be useful in other similar fine-grain segmentation problems where data is limited.
翻訳日:2023-04-11 23:26:44 公開日:2023-04-10
# M-SpeechCLIP:多言語音声から画像検索のための大規模事前学習モデル

M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval ( http://arxiv.org/abs/2211.01180v2 )

ライセンス: Link先を確認
Layne Berry, Yi-Jen Shih, Hsuan-Fu Wang, Heng-Jui Chang, Hung-yi Lee, David Harwath(参考訳) 本研究は,多言語画像音声検索におけるCLIPとHuBERTを用いた大規模学習モデルについて検討する。 非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。 我々は、CLIPとHuBERTの英語のみの事前学習に起因した、英語と非英語の設定におけるモデル行動と性能の主な違いを特定し、事前学習したモデルの微調整がこれらの違いに与える影響について検討する。 最後に,訓練中に並列音声テキストや音声音声データを見たことがなくとも,単言語およびクロス言語音声テキスト検索およびクロス言語音声音声検索に使用できることを示す。

This work investigates the use of large-scale, English-only pre-trained models (CLIP and HuBERT) for multilingual image-speech retrieval. For non-English image-speech retrieval, we outperform the current state-of-the-art performance by a wide margin both when training separate models for each language, and with a single model which processes speech in all three languages. We identify key differences in model behavior and performance between English and non-English settings, attributable to the English-only pre-training of CLIP and HuBERT, and investigate how fine-tuning the pre-trained models impacts these differences. Finally, we show that our models can be used for mono- and cross-lingual speech-text retrieval and cross-lingual speech-speech retrieval, despite never having seen any parallel speech-text or speech-speech data during training.
翻訳日:2023-04-11 21:42:09 公開日:2023-04-10
# インシシットテンソル分解による非パラメトリック混合モデルのモーメント推定

Moment Estimation for Nonparametric Mixture Models Through Implicit Tensor Decomposition ( http://arxiv.org/abs/2210.14386v2 )

ライセンス: Link先を確認
Yifan Zhang, Joe Kileel(参考訳) 本稿では,分散をパラメータ化することなく,条件付き非依存混合モデル推定のための交互最小二乗型数値最適化手法を提案する。 モーメントの手法に従うと、不完全テンソル分解問題に取り組み、混合重みと成分的手段を学習する。 次に,成分分布の累積分布関数,高次モーメント,その他の統計を線形解法によって計算する。 高次元の計算では、高階テンソルに関連する急なコストは、効率的なテンソルフリー演算の開発によって回避される。 数値実験はアルゴリズムの競合性能と多くのモデルや応用への適用性を実証する。 さらに,混合の低次モーメントから同定可能性を確立し,alsアルゴリズムの局所線形収束を保証する理論解析を行う。

We present an alternating least squares type numerical optimization scheme to estimate conditionally-independent mixture models in $\mathbb{R}^n$, without parameterizing the distributions. Following the method of moments, we tackle an incomplete tensor decomposition problem to learn the mixing weights and componentwise means. Then we compute the cumulative distribution functions, higher moments and other statistics of the component distributions through linear solves. Crucially for computations in high dimensions, the steep costs associated with high-order tensors are evaded, via the development of efficient tensor-free operations. Numerical experiments demonstrate the competitive performance of the algorithm, and its applicability to many models and applications. Furthermore we provide theoretical analyses, establishing identifiability from low-order moments of the mixture and guaranteeing local linear convergence of the ALS algorithm.
翻訳日:2023-04-11 21:41:12 公開日:2023-04-10
# 散逸安定化したスクイーズドキャット量子ビットによる量子誤差補正

Quantum error correction with dissipatively stabilized squeezed cat qubits ( http://arxiv.org/abs/2210.13359v2 )

ライセンス: Link先を確認
Timo Hillmann, Fernando Quijandr\'ia(参考訳) ノイズバイアス量子ビットは、量子誤り訂正に伴うハードウェアオーバーヘッドを著しく削減するための有望な経路である。 スクイーズドキャット符号は、圧縮コヒーレント状態に基づく位相空間における非局所符号化であり、指数的誤差バイアスを持つノイズバイアス(ボソニック)量子ビットの例である。 本稿では,分散安定化したスクイーズドキャットキュービットの誤差補正性能を提案・解析する。 その結果, ビットフリップ誤り率の適度なスキューズでは, 位相フリップ率を一定に保ちながら, 通常の猫キュービットに比べて有意に低下することがわかった。 さらに、スクイージングはより高速で高忠実なゲートを可能にする。

Noise-biased qubits are a promising route toward significantly reducing the hardware overhead associated with quantum error correction. The squeezed cat code, a non-local encoding in phase space based on squeezed coherent states, is an example of a noise-biased (bosonic) qubit with exponential error bias. Here we propose and analyze the error correction performance of a dissipatively stabilized squeezed cat qubit. We find that for moderate squeezing the bit-flip error rate gets significantly reduced in comparison with the ordinary cat qubit while leaving the phase flip rate unchanged. Additionally, we find that the squeezing enables faster and higher-fidelity gates.
翻訳日:2023-04-11 21:40:59 公開日:2023-04-10
# CDDFuse:多モード画像融合のための相関駆動デュアルブランチ特徴分解

CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion ( http://arxiv.org/abs/2211.14461v2 )

ライセンス: Link先を確認
Zixiang Zhao, Haowen Bai, Jiangshe Zhang, Yulun Zhang, Shuang Xu, Zudi Lin, Radu Timofte, Luc Van Gool(参考訳) マルチモダリティ(mm)イメージ融合は、機能的なハイライトや詳細なテクスチャなど、異なるモダリティのメリットを保った融合画像をレンダリングすることを目的としている。 クロスモダリティ特徴のモデル化や所望のモダリティ特異性とモダリティ共有特徴の分解における課題に取り組むため,新たな相関駆動型特徴分解融合(cddfuse)ネットワークを提案する。 まず、CDDFuseはRestormerブロックを使用して、モダリティ間の浅い特徴を抽出する。 次に、Lite Transformer(LT)ブロックを用いた2分岐変換器-CNN特徴抽出器を導入し、低周波グローバル特徴の処理に長距離の注意を生かした。 また、低周波の特徴を関連付けるために相関駆動損失を提案するが、高周波の特徴は埋め込み情報に基づいて非相関である。 そして、lt系グローバルフュージョンおよびinn系ローカルフュージョン層が融合画像を出力する。 広汎な実験により, 近赤外可視画像融合や医用画像融合を含む複数の核融合タスクにおいて, CDDFuseは有望な結果をもたらすことが示された。 また,cddfuseは下流の赤外線可視意味セグメンテーションとオブジェクト検出の性能を統一ベンチマークで向上させることができることを示した。 コードはhttps://github.com/Zhaozixiang1228/MMIF-CDDFuseで公開されている。

Multi-modality (MM) image fusion aims to render fused images that maintain the merits of different modalities, e.g., functional highlight and detailed textures. To tackle the challenge in modeling cross-modality features and decomposing desirable modality-specific and modality-shared features, we propose a novel Correlation-Driven feature Decomposition Fusion (CDDFuse) network. Firstly, CDDFuse uses Restormer blocks to extract cross-modality shallow features. We then introduce a dual-branch Transformer-CNN feature extractor with Lite Transformer (LT) blocks leveraging long-range attention to handle low-frequency global features and Invertible Neural Networks (INN) blocks focusing on extracting high-frequency local information. A correlation-driven loss is further proposed to make the low-frequency features correlated while the high-frequency features uncorrelated based on the embedded information. Then, the LT-based global fusion and INN-based local fusion layers output the fused image. Extensive experiments demonstrate that our CDDFuse achieves promising results in multiple fusion tasks, including infrared-visible image fusion and medical image fusion. We also show that CDDFuse can boost the performance in downstream infrared-visible semantic segmentation and object detection in a unified benchmark. The code is available at https://github.com/Zhaozixiang1228/MMIF-CDDFuse.
翻訳日:2023-04-11 21:32:56 公開日:2023-04-10
# 臨床概念誘導型深部訓練用トランスフォーマーモデルを用いた患者電子健康記録テキストの退院要領要約

Discharge Summary Hospital Course Summarisation of In Patient Electronic Health Record Text with Clinical Concept Guided Deep Pre-Trained Transformer Models ( http://arxiv.org/abs/2211.07126v3 )

ライセンス: Link先を確認
Thomas Searle, Zina Ibrahim, James Teo, Richard Dobson(参考訳) ブリーフ病院コース(英: Brief Hospital Course, BHC)は、患者の全身的なケアを担当する臨床医によって書かれた、退院サマリーに埋め込まれた病院の出会いの簡潔な要約である。 入院患者の文書から要約を自動生成する方法は、患者を入院・退院させるための高圧下で文書を要約するクリニカルマニュアルの負担を軽減するのに有用である。 患者コースからこれらの要約を自動生成することは、病院化の過程で様々な視点(看護、医師、放射線学など)から資料を書くため、複雑で多文書の要約作業である。 抽出および抽象的な要約シナリオにまたがる深層学習要約モデルの性能を示すBHC要約手法について述べる。 また,医療概念オントロジ(snomed)を臨床指導信号として組み込んだ新しいアンサンブル抽出・抽象要約モデルもテストし,実世界の2つの臨床データセットにおいて優れた性能を示す。

Brief Hospital Course (BHC) summaries are succinct summaries of an entire hospital encounter, embedded within discharge summaries, written by senior clinicians responsible for the overall care of a patient. Methods to automatically produce summaries from inpatient documentation would be invaluable in reducing clinician manual burden of summarising documents under high time-pressure to admit and discharge patients. Automatically producing these summaries from the inpatient course, is a complex, multi-document summarisation task, as source notes are written from various perspectives (e.g. nursing, doctor, radiology), during the course of the hospitalisation. We demonstrate a range of methods for BHC summarisation demonstrating the performance of deep learning summarisation models across extractive and abstractive summarisation scenarios. We also test a novel ensemble extractive and abstractive summarisation model that incorporates a medical concept ontology (SNOMED) as a clinical guidance signal and shows superior performance in 2 real-world clinical data sets.
翻訳日:2023-04-11 21:31:25 公開日:2023-04-10
# 有限サイズ量子システムにおけるクエンチダイナミクスの速度関数の動的特異性

Dynamical singularity of the rate function for quench dynamics in finite-size quantum systems ( http://arxiv.org/abs/2211.03135v2 )

ライセンス: Link先を確認
Yumeng Zeng, Bozhen Zhou, and Shu Chen(参考訳) 動的量子相転移は、熱力学的極限におけるロシミットエコーの正確なゼロ点の発生に対応する速度関数における非解析的挙動の出現によって特徴づけられる。 一般に、ロシミットエコーの正確な零点は、いくつかの微調整されたクエンチパラメータを除いて有限サイズの量子システムではアクセスできない。 本研究では、磁気フラックスを適用して導入可能な、ツイスト境界条件下での有限サイズ系の速度関数の動的特異点の実現について検討する。 磁束を調整することにより、後処理パラメータが基礎となる平衡相転移点を越えているとき、ロシミットエコーの正確な零点が常に達成できることを示し、したがって有限サイズの系の速度関数は一連の臨界時間で発散する。 我々はSu-Schrieffer-HeegerモデルとCreutzモデルを詳細に計算し、より一般的な場合に適用可能であることを示す。 この結果から, 速度関数における動的特異点の出現は, 有限サイズ系における動的量子相転移の検出のシグネチャとみなすことができることがわかった。 また,理論理論における臨界時刻はシステムサイズに依存しないことを明らかにし,磁気フラックスを調整して速度関数の動的特異点を達成することで臨界時刻を決定する便利な方法を提供する。

The dynamical quantum phase transition is characterized by the emergence of nonanalytic behaviors in the rate function, corresponding to the occurrence of exact zero points of the Loschmidt echo in the thermodynamical limit. In general, exact zeros of the Loschmidt echo are not accessible in a finite-size quantum system except for some fine-tuned quench parameters. In this work, we study the realization of the dynamical singularity of the rate function for finite-size systems under the twist boundary condition, which can be introduced by applying a magnetic flux. By tuning the magnetic flux, we illustrate that exact zeros of the Loschmidt echo can be always achieved when the postquench parameter is across the underlying equilibrium phase transition point, and thus the rate function of a finite-size system is divergent at a series of critical times. We demonstrate our theoretical scheme by calculating the Su-Schrieffer-Heeger model and the Creutz model in detail and exhibit its applicability to more general cases. Our result unveils that the emergence of dynamical singularity in the rate function can be viewed as a signature for detecting dynamical quantum phase transition in finite-size systems. We also unveil that the critical times in our theoretical scheme are independent on the systems size, and thus it provides a convenient way to determine the critical times by tuning the magnetic flux to achieve the dynamical singularity of the rate function.
翻訳日:2023-04-11 21:30:26 公開日:2023-04-10
# $\Delta E$と時間の量子矢印

$\Delta E$ and the quantum arrow of time ( http://arxiv.org/abs/2212.03914v2 )

ライセンス: Link先を確認
Nilakash Sorokhaibam(参考訳) 私たちを取り巻く世界は、時間([1]の時間)の矢をはっきりと持っている。 古典的熱力学は、熱力学の第二法則(英語版)(second law of thermodynamics)の形で時間の矢印を与える。 しかし、時空の矢印の量子的起源の明確な写真は今のところ不足している。 ここでは、量子カオス系において時間矢印が生じることを示す。 カオス[3,4]でもある閉じた量子系の場合、エントロピーの変化は系が一般的な摂動状態にあるときに非負であることを示す。 物理系は一般に高度に相互作用し、カオスシステムの良い例である。 我々は,システムの摂動時のエネルギー変化を追跡することで,この結果を示す。 さらに, 微調整による摂動により, 閉じたカオス系のエントロピーを低くすることができることを示す。 しかし、摂動を微調整するには、システムの大量の情報が必要となる。 これは古典的熱力学におけるマクスウェルのデーモン問題とそのその後の解像度 [5,6] を想起させる。

The world around us distinctly possesses an arrow of time (called Time's arrow in [1]). Classical thermodynamics provides an arrow of time in the form of the second law of thermodynamics which also has a beautiful statistical interpretation [2]. But a clear picture of the quantum origin of the arrow of time has been lacking so far. Here we show that an arrow of time arises in quantum chaotic systems. We show that, for a closed quantum system which is also chaotic [3,4], the change in entropy is non-negative when the system is generically perturbed. Physical systems are, in general, highly interacting and are good examples of chaotic systems. We show our result by keeping track of the change in energy when the system is perturbed. Additionally, we also show that one can still lower the entropy of a closed chaotic system by performing a fine-tuned perturbation. But fine-tuning the perturbation requires a large quantity of information of the system. This is reminiscent of the Maxwell's demon problem in classical thermodynamics and its subsequent resolution [5,6].
翻訳日:2023-04-11 21:23:57 公開日:2023-04-10
# MiLMo:ミニリティ多言語事前学習言語モデル

MiLMo:Minority Multilingual Pre-trained Language Model ( http://arxiv.org/abs/2212.01779v2 )

ライセンス: Link先を確認
Junjie Deng, Hanru Shi, Xinhe Yu, Wugedele Bao, Yuan Sun, Xiaobing Zhao(参考訳) 事前訓練された言語モデルは、大規模な教師なしデータに基づいてトレーニングされており、小さなラベル付きデータセットでのみモデルを微調整し、良好な結果を得ることができる。 多言語事前訓練された言語モデルは複数の言語で訓練でき、モデルは複数の言語を同時に理解することができる。 現在、事前学習されたモデルの探索は主に豊かな資源に焦点を当てているが、マイノリティ言語のような低リソース言語に関する研究は少なく、公の多言語事前学習言語モデルはマイノリティ言語ではうまく機能しない。 そこで本稿では,モンゴル語,チベット語,ウイグル語,カザフ語,韓国語などのマイノリティ言語タスクにおいて,milmoという多言語事前学習モデルを構築した。 マイノリティ言語におけるデータセットの不足を解消し、MiLMoモデルの有効性を検証するために、MITCと呼ばれる少数多言語テキスト分類データセットを構築し、各言語に対してワード2vecモデルを訓練する。 本稿では,テキスト分類タスクにおけるword2vecモデルと事前学習モデルを比較し,マイノリティ言語の下流タスク研究に最適な手法を提案する。 最終実験の結果から,事前学習モデルの性能はword2vecモデルよりも優れており,多言語テキストの分類において最良であることがわかった。 multilingual pre-trained model milmo, multilingual word2vec model, multilingual text classification dataset mitcはhttp://milmo.cmli-nlp.com/で公開されている。

Pre-trained language models are trained on large-scale unsupervised data, and they can fine-turn the model only on small-scale labeled datasets, and achieve good results. Multilingual pre-trained language models can be trained on multiple languages, and the model can understand multiple languages at the same time. At present, the search on pre-trained models mainly focuses on rich resources, while there is relatively little research on low-resource languages such as minority languages, and the public multilingual pre-trained language model can not work well for minority languages. Therefore, this paper constructs a multilingual pre-trained model named MiLMo that performs better on minority language tasks, including Mongolian, Tibetan, Uyghur, Kazakh and Korean. To solve the problem of scarcity of datasets on minority languages and verify the effectiveness of the MiLMo model, this paper constructs a minority multilingual text classification dataset named MiTC, and trains a word2vec model for each language. By comparing the word2vec model and the pre-trained model in the text classification task, this paper provides an optimal scheme for the downstream task research of minority languages. The final experimental results show that the performance of the pre-trained model is better than that of the word2vec model, and it has achieved the best results in minority multilingual text classification. The multilingual pre-trained model MiLMo, multilingual word2vec model and multilingual text classification dataset MiTC are published on http://milmo.cmli-nlp.com/.
翻訳日:2023-04-11 21:23:03 公開日:2023-04-10
# 成長する知識グラフのための生涯埋め込み学習と伝達

Lifelong Embedding Learning and Transfer for Growing Knowledge Graphs ( http://arxiv.org/abs/2211.15845v2 )

ライセンス: Link先を確認
Yuanning Cui and Yuxin Wang and Zequn Sun and Wenqiang Liu and Yiqiao Jiang and Kexin Han and Wei Hu(参考訳) 既存の知識グラフ(KG)埋め込みモデルは、主に静的KGに焦点を当てている。 しかし、現実世界のKGは静的にとどまらず、KGアプリケーションの開発とともに進化し成長する。 その結果、新しい事実とそれまで見つからなかった実体と関係が継続的に出現し、成長を通じて新しい知識を素早く学び、伝達できる埋め込みモデルが必要となる。 そこで本論文では,KG 埋め込みの領域拡大,すなわち寿命の長い KG 埋め込みについて検討する。 我々は,KGのスナップショットをスクラッチから学習することなく,学習の知識伝達と保持を考察する。 提案モデルでは,学習と更新のマスク付きKGオートエンコーダと,学習知識を新たなエンティティや関係埋め込みに注入するための埋め込み転送戦略と,破滅的忘れを避けるための埋め込み正規化手法を備える。 KG成長の異なる側面が与える影響を調べるために, 寿命の長いKG埋め込みの性能を評価するために, 4つのデータセットを構築した。 実験結果から,提案モデルが最先端のインダクティブおよび寿命の埋込みベースラインより優れていることが示された。

Existing knowledge graph (KG) embedding models have primarily focused on static KGs. However, real-world KGs do not remain static, but rather evolve and grow in tandem with the development of KG applications. Consequently, new facts and previously unseen entities and relations continually emerge, necessitating an embedding model that can quickly learn and transfer new knowledge through growth. Motivated by this, we delve into an expanding field of KG embedding in this paper, i.e., lifelong KG embedding. We consider knowledge transfer and retention of the learning on growing snapshots of a KG without having to learn embeddings from scratch. The proposed model includes a masked KG autoencoder for embedding learning and update, with an embedding transfer strategy to inject the learned knowledge into the new entity and relation embeddings, and an embedding regularization method to avoid catastrophic forgetting. To investigate the impacts of different aspects of KG growth, we construct four datasets to evaluate the performance of lifelong KG embedding. Experimental results show that the proposed model outperforms the state-of-the-art inductive and lifelong embedding baselines.
翻訳日:2023-04-11 21:22:01 公開日:2023-04-10
# 最適スパース回帰木

Optimal Sparse Regression Trees ( http://arxiv.org/abs/2211.14980v3 )

ライセンス: Link先を確認
Rui Zhang, Rui Xin, Margo Seltzer, Cynthia Rudin(参考訳) 回帰木はAIモデルの最も古い形式の1つであり、その予測は電卓なしで行うことができる。 回帰木に関する大規模な文献の中で、問題の計算の難しさから、完全証明可能な最適化への取り組みはほとんどなかった。 本研究は,確率的最適スパース回帰木の構築に対する動的プログラミングとバウンドのアプローチを提案する。 ラベル集合上の1次元におけるk-平均クラスタリングアルゴリズムの最適解に基づく新しい下界を利用する。 数秒で最適なスパースツリーを見つけることがしばしば可能で、大量のサンプルと高い相関性のある機能を含む、挑戦的なデータセットでさえあります。

Regression trees are one of the oldest forms of AI models, and their predictions can be made without a calculator, which makes them broadly useful, particularly for high-stakes applications. Within the large literature on regression trees, there has been little effort towards full provable optimization, mainly due to the computational hardness of the problem. This work proposes a dynamic-programming-with-bounds approach to the construction of provably-optimal sparse regression trees. We leverage a novel lower bound based on an optimal solution to the k-Means clustering algorithm in 1-dimension over the set of labels. We are often able to find optimal sparse trees in seconds, even for challenging datasets that involve large numbers of samples and highly-correlated features.
翻訳日:2023-04-11 21:21:04 公開日:2023-04-10
# 継続的な因果効果推定 : 課題と機会

Continual Causal Effect Estimation: Challenges and Opportunities ( http://arxiv.org/abs/2301.01026v4 )

ライセンス: Link先を確認
Zhixuan Chu and Sheng Li(参考訳) 観察データにおける原因と効果のさらなる理解は、経済学、医療、公共政策、ウェブマイニング、オンライン広告、マーケティングキャンペーンなど、多くの分野において重要である。 治療群と対照群の選択バイアスの欠如など,観測データによる因果効果推定の課題を克服するために大きな進歩があったが,既存の手法は主にソース固有および定常観測データに焦点を当てている。 このような学習戦略は、すべての観測データは、トレーニングフェーズと1つのソースで既に利用可能であると仮定する。 このアクセシビリティに関する実践的な懸念は、様々な学術的、産業的応用においてユビキタスである。 ビッグデータの時代では、観測データによる因果推論、つまり、漸進的に利用可能な観測データの拡張性、治療と制御グループの不均衡を除く余分なドメイン適応問題への適応性、膨大な量のデータに対するアクセシビリティといった、新たな課題に直面しています。 本稿では, 連続処理効果推定の問題を正式に定義し, その研究課題を解説し, この問題に対する解決策を提示する。 また,今後の研究の方向性についても論じる。

A further understanding of cause and effect within observational data is critical across many domains, such as economics, health care, public policy, web mining, online advertising, and marketing campaigns. Although significant advances have been made to overcome the challenges in causal effect estimation with observational data, such as missing counterfactual outcomes and selection bias between treatment and control groups, the existing methods mainly focus on source-specific and stationary observational data. Such learning strategies assume that all observational data are already available during the training phase and from only one source. This practical concern of accessibility is ubiquitous in various academic and industrial applications. That's what it boiled down to: in the era of big data, we face new challenges in causal inference with observational data, i.e., the extensibility for incrementally available observational data, the adaptability for extra domain adaptation problem except for the imbalance between treatment and control groups, and the accessibility for an enormous amount of data. In this position paper, we formally define the problem of continual treatment effect estimation, describe its research challenges, and then present possible solutions to this problem. Moreover, we will discuss future research directions on this topic.
翻訳日:2023-04-11 21:14:14 公開日:2023-04-10
# chatgptのローンチ後、スタンス検出技術はどのように進化するか?

How would Stance Detection Techniques Evolve after the Launch of ChatGPT? ( http://arxiv.org/abs/2212.14548v3 )

ライセンス: Link先を確認
Bowen Zhang, Daijun Ding, Liwen Jing(参考訳) 姿勢検出とは、与えられたテキストにおいて、対象とする立場(敵意、敵意)を抽出することを指す。 こうした研究は、ソーシャルメディアコンテンツの拡散とともに注目を集めている。 従来のスタンス検出処理フレームワークでは,テキスト分類タスクに変換する。 ディープラーニングモデルはすでに、そのような問題を解決するためにルールベースのモデルと従来の機械学習モデルを置き換える。 現在のディープニューラルネットワークは、ソーシャルメディア投稿におけるラベル付きデータと情報不足と、ディープラーニングモデルの説明不能な性質という、2つの大きな課題に直面している。 2022年11月30日、新しい訓練済み言語モデルであるchatGPTが発売された。 姿勢検出タスクでは,SemEval-2016 や P-Stance などの一般的なデータセットに対して,ChatGPT が SOTA あるいは類似のパフォーマンスを達成可能であることを示す。 同時に、chatgptは、既存のモデルの能力を超えている独自の予測の説明を提供することができる。 分類結果を提供することができない場合の説明は特に有用である。 ChatGPTは、NLPにおけるスタンス検出タスクのための最高のAIモデルになり得るか、少なくともこの分野の研究パラダイムを変更する可能性がある。 ChatGPTはまた、姿勢検出のための説明的AIを構築する可能性を開く。

Stance detection refers to the task of extracting the standpoint (Favor, Against or Neither) towards a target in given texts. Such research gains increasing attention with the proliferation of social media contents. The conventional framework of handling stance detection is converting it into text classification tasks. Deep learning models have already replaced rule-based models and traditional machine learning models in solving such problems. Current deep neural networks are facing two main challenges which are insufficient labeled data and information in social media posts and the unexplainable nature of deep learning models. A new pre-trained language model chatGPT was launched on Nov 30, 2022. For the stance detection tasks, our experiments show that ChatGPT can achieve SOTA or similar performance for commonly used datasets including SemEval-2016 and P-Stance. At the same time, ChatGPT can provide explanation for its own prediction, which is beyond the capability of any existing model. The explanations for the cases it cannot provide classification results are especially useful. ChatGPT has the potential to be the best AI model for stance detection tasks in NLP, or at least change the research paradigm of this field. ChatGPT also opens up the possibility of building explanatory AI for stance detection.
翻訳日:2023-04-11 21:13:11 公開日:2023-04-10
# HIER:階層的正規化によるクラスラベルを越えたメトリクス学習

HIER: Metric Learning Beyond Class Labels via Hierarchical Regularization ( http://arxiv.org/abs/2212.14258v3 )

ライセンス: Link先を確認
Sungyeon Kim, Boseung Jeong, Suha Kwak(参考訳) メトリック学習の監督は、長い間、人間ラベルのクラス間の等価性という形で行われてきた。 この種の監督は、何十年にもわたってメートル法学習の基礎であったが、この分野のさらなる進歩を妨げると我々は主張する。 本研究では,一般的なメトリック学習損失によって生じるクラス間分離性よりも,よりリッチで細かい監督を提供するために,トレーニングデータの潜在意味階層を発見し,階層構造を展開するhierと呼ばれる新しい正規化手法を提案し,意味階層のアノテーションを使わずに,双曲空間における階層的プロキシを学習することで,この目標を達成する。 階層的プロキシは学習可能なパラメータであり、それぞれがデータまたは他のプロキシのグループの祖先として機能するように訓練され、それらのセマンティック階層を近似する。 HIER は双曲空間のデータとともにプロキシを扱うが、これは空間の幾何学的性質がその階層構造を表現するのに適しているからである。 HIER の有効性は4つの標準ベンチマークで評価され,従来の手法と統合した場合の性能を一貫して改善し,その結果,既存のハイパーボリックな計量学習手法をほぼすべての設定で超越した最高記録を達成した。

Supervision for metric learning has long been given in the form of equivalence between human-labeled classes. Although this type of supervision has been a basis of metric learning for decades, we argue that it hinders further advances in the field. In this regard, we propose a new regularization method, dubbed HIER, to discover the latent semantic hierarchy of training data, and to deploy the hierarchy to provide richer and more fine-grained supervision than inter-class separability induced by common metric learning losses.HIER achieves this goal with no annotation for the semantic hierarchy but by learning hierarchical proxies in hyperbolic spaces. The hierarchical proxies are learnable parameters, and each of them is trained to serve as an ancestor of a group of data or other proxies to approximate the semantic hierarchy among them. HIER deals with the proxies along with data in hyperbolic space since the geometric properties of the space are well-suited to represent their hierarchical structure. The efficacy of HIER is evaluated on four standard benchmarks, where it consistently improved the performance of conventional methods when integrated with them, and consequently achieved the best records, surpassing even the existing hyperbolic metric learning technique, in almost all settings.
翻訳日:2023-04-11 21:12:51 公開日:2023-04-10
# 量子気象学における一般化条件予測の操作意味

Operational meanings of a generalized conditional expectation in quantum metrology ( http://arxiv.org/abs/2212.13162v4 )

ライセンス: Link先を確認
Mankei Tsang(参考訳) 量子力学に対する一般化条件付き期待(gce)の統一的形式論が最近浮上しているが、量子観測可能性の遡及に関する物理的意義は議論を呼んでいる。 ここでは、量子パラメータ推定の文脈において、GCEのバージョンに対して運用上の意味を提供する。 量子センサがデコヒーレンスによって破損した場合、GCEはデコヒーレンス前後の演算子値の最適推定器を関連付ける。 さらに、デコヒーレンスに起因する誤りの増加または後悔は、2つの推定器間のばらつきに等しいことが示される。 GCEの特別な場合における真の弱い値は、最適推定において同じ役割を果たす。 gceのアプリケーションでは、推定誤差を最小限に抑えるコントローラを設計するために動的プログラミングが利用可能であることを示します。 頻繁な設定については、GCEが量子的ラオ・ブラックウェルの定理を導いており、特に量子距離論と熱-光の感知に重要な意味を持つことを示す。 これらの結果から、GCEと関連する発散は、量子決定と制御理論において自然で有用で不可逆的な役割を果たす。

A unifying formalism of generalized conditional expectations (GCEs) for quantum mechanics has recently emerged, but its physical implications regarding the retrodiction of a quantum observable remain controversial. To address the controversy, here I offer operational meanings for a version of the GCEs in the context of quantum parameter estimation. When a quantum sensor is corrupted by decoherence, the GCE is found to relate the operator-valued optimal estimators before and after the decoherence. Furthermore, the error increase, or regret, caused by the decoherence is shown to be equal to a divergence between the two estimators. The real weak value as a special case of the GCE plays the same role in suboptimal estimation -- its divergence from the optimal estimator is precisely the regret for not using the optimal measurement. For an application of the GCE, I show that it enables the use of dynamic programming for designing a controller that minimizes the estimation error. For the frequentist setting, I show that the GCE leads to a quantum Rao-Blackwell theorem, which offers significant implications for quantum metrology and thermal-light sensing in particular. These results give the GCE and the associated divergence a natural, useful, and incontrovertible role in quantum decision and control theory.
翻訳日:2023-04-11 21:12:13 公開日:2023-04-10
# stateQIP = statePSPACE

stateQIP = statePSPACE ( http://arxiv.org/abs/2301.07730v2 )

ライセンス: Link先を確認
Tony Metger, Henry Yuen(参考訳) 複雑性理論は伝統的に古典的な計算問題を解くことの難しさを研究する。 量子設定において、異なる複雑性の概念、すなわちある量子状態を物理的に準備する複雑さを考えることも自然である。 空間一様多項式空間量子回路で生成可能な状態を含む状態PSPACEと、全能不信頼な量子証明器と相互作用することによって多項式時間量子検証器が生成できる状態を含む状態QIPの関係について検討する。 後者のクラスは、最近Rosenhal and Yuen (ITCS 2022) によって導入され、 statePSPACE $\subseteq$ stateQIP が証明された。 我々の主な結果は、逆包含状態 QIP $\subseteq$ statePSPACE であり、2つのクラスの等式を確立し、ジャイナ等の有名なQIP = PSPACE定理に類似した自然な状態複素性を与える(J. ACM 2011)。 これを証明するために、指数関数的に大きいPSPACE計算可能な半定値プログラム(SDP)を解く多項式空間量子アルゴリズムを開発し、量子状態に符号化されたオプティマイザを準備する。 我々のSDPソルバは量子アルゴリズムの最近のブロック符号化技術に依存しており、これらの手法が複雑性理論にも有用であることを示す。 同様の手法を用いて、一般的な量子対話プロトコルの最適証明戦略を量子多項式空間に実装できることを示した。 我々は、uhlmannの定理のアルゴリズム版を研究し、uhlmann変換を実装する複雑さの上限を確立することによってこれを証明する。

Complexity theory traditionally studies the hardness of solving classical computational problems. In the quantum setting, it is also natural to consider a different notion of complexity, namely the complexity of physically preparing a certain quantum state. We study the relation between two such state complexity classes: statePSPACE, which contains states that can be generated by space-uniform polynomial-space quantum circuits, and stateQIP, which contains states that a polynomial-time quantum verifier can generate by interacting with an all-powerful untrusted quantum prover. The latter class was recently introduced by Rosenthal and Yuen (ITCS 2022), who proved that statePSPACE $\subseteq$ stateQIP. Our main result is the reverse inclusion, stateQIP $\subseteq$ statePSPACE, thereby establishing equality of the two classes and providing a natural state-complexity analogue to the celebrated QIP = PSPACE theorem of Jain, et al. (J. ACM 2011). To prove this, we develop a polynomial-space quantum algorithm for solving a large class of exponentially large "PSPACE-computable" semidefinite programs (SDPs), which also prepares an optimiser encoded in a quantum state. Our SDP solver relies on recent block-encoding techniques from quantum algorithms, demonstrating that these techniques are also useful for complexity theory. Using similar techniques, we also show that optimal prover strategies for general quantum interactive protocols can be implemented in quantum polynomial space. We prove this by studying an algorithmic version of Uhlmann's theorem and establishing an upper bound on the complexity of implementing Uhlmann transformations.
翻訳日:2023-04-11 21:05:26 公開日:2023-04-10
# 暗号通貨関連ソーシャルメディアキャンペーンのデータセット

A Dataset of Coordinated Cryptocurrency-Related Social Media Campaigns ( http://arxiv.org/abs/2301.06601v2 )

ライセンス: Link先を確認
Karolis Zilius, Tasos Spiliotopoulos, Aad van Moorsel(参考訳) cryptoassetsの採用の高まりは、暗号通貨分野の新規で未熟な投資家の多くを惹きつけている。 これらの投資家は、オンラインで受け取った情報、特にソーシャルメディアの影響を受けない。 本稿では,暗号関連バウンティイベントのデータセットとそれに参加するユーザについて述べる。 これらのイベントはソーシャルメディアのキャンペーンをコーディネートし、トークンの価格に影響を与えるために暗号プロジェクトの周りに人工的な「ハイプ」を作成する。 データセットは、2014年5月から2022年12月までのBitcoinTalkオンラインフォーラムのBounties(Altcoins)サブフォーラムから収集された15.8Kのクロスメディアバウンティイベント、185Kの参加者、100万のフォーラムコメント、82万のソーシャルメディアURLで構成されている。 本稿では,データ収集手法とデータ処理手法について述べるとともに,データセットの基本的特徴について述べる。 さらに,様々な分野にまたがるデータセットが生み出す潜在的な研究機会について議論し,暗号通貨産業の運営方法と,その利用者との相互作用について,新たな知見を浮き彫りにする。

The rise in adoption of cryptoassets has brought many new and inexperienced investors in the cryptocurrency space. These investors can be disproportionally influenced by information they receive online, and particularly from social media. This paper presents a dataset of crypto-related bounty events and the users that participate in them. These events coordinate social media campaigns to create artificial "hype" around a crypto project in order to influence the price of its token. The dataset consists of information about 15.8K cross-media bounty events, 185K participants, 10M forum comments and 82M social media URLs collected from the Bounties(Altcoins) subforum of the BitcoinTalk online forum from May 2014 to December 2022. We describe the data collection and the data processing methods employed and we present a basic characterization of the dataset. Furthermore, we discuss potential research opportunities afforded by the dataset across many disciplines and we highlight potential novel insights into how the cryptocurrency industry operates and how it interacts with its audience.
翻訳日:2023-04-11 21:04:54 公開日:2023-04-10
# Min-Max-Jump 距離とその応用

Min-Max-Jump distance and its applications ( http://arxiv.org/abs/2301.05994v4 )

ライセンス: Link先を確認
Gangli Liu(参考訳) 我々は,Min-Max-Jump distance (MMJ distance) の3つの応用について検討する。 MMJに基づくK平均は、MMJ距離でK平均を変更する。 MMJに基づくシルエット係数は、Silhouette係数をMMJ距離で補正する。 また,mmjに基づくシルエット係数を用いたニューラルネットワークとインデックス(cnni)モデルによるクラスタリングも行った。 最後のアプリケーションでは、データのクラスタリング分析の後、Min-Max-Jump距離を用いて新しい点のラベルを予測する。 結果,Min-Max-Jump 距離は提案した3つのアプリケーションすべてにおいて良好な性能を示す。

We explore three applications of Min-Max-Jump distance (MMJ distance). MMJ-based K-means revises K-means with MMJ distance. MMJ-based Silhouette coefficient revises Silhouette coefficient with MMJ distance. We also tested the Clustering with Neural Network and Index (CNNI) model with MMJ-based Silhouette coefficient. In the last application, we tested using Min-Max-Jump distance for predicting labels of new points, after a clustering analysis of data. Result shows Min-Max-Jump distance achieves good performances in all the three proposed applications.
翻訳日:2023-04-11 21:04:02 公開日:2023-04-10
# data-driven co-speech gesture generation の包括的レビュー

A Comprehensive Review of Data-Driven Co-Speech Gesture Generation ( http://arxiv.org/abs/2301.05339v4 )

ライセンス: Link先を確認
Simbarashe Nyatsanga, Taras Kucherenko, Chaitanya Ahuja, Gustav Eje Henter, Michael Neff(参考訳) 音声に付随するジェスチャーは、自然で効率的な人間のコミュニケーションの不可欠な部分である。 このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題であり、映画、ゲーム、仮想社会空間、社会ロボットとの対話において実現可能な技術であると考えられている。 この問題は、人間の共同音声ジェスチャー動作の慣用的・非周期的な性質と、ジェスチャーが包含するコミュニケーション機能の大きな多様性によって挑戦される。 ジェスチャ生成は、人間のジェスチャー動作のデータセットがより大きくなり、深層学習に基づく生成モデルの進歩と相まって、データの可用性の向上から恩恵を受けているため、近年、関心が高まっている。 本稿では,特に深部生成モデルに焦点をあてた協調ジェスチャ生成研究を要約する。 まず,人間のジェスチレーションに関する理論と,それが音声を補完する方法について述べる。 次に,ルールベースおよび古典的統計的ジェスチャ合成について概説し,深層学習のアプローチを検討する。 音声,テキスト,非言語的な入力からジェスチャを生成するシステムを調べるため,入力モダリティの選択を組織化原理として採用する。 また,関連するトレーニングデータセットの進化について,サイズ,多様性,動作品質,収集方法などの観点から分類した。 最後に, ジェスチャ生成における重要な課題として, データの可用性と品質, 人的動作の生成, 発話中のジェスチャーを他の話者や環境と相互作用させること, ジェスチャ評価を行うこと, ジェスチャ合成をアプリケーションに統合すること, などを挙げる。 我々は、様々な課題に取り組むための最近のアプローチと、これらのアプローチの限界、そして将来の開発分野に向けてのポイントを強調する。

Gestures that accompany speech are an essential part of natural and efficient embodied human communication. The automatic generation of such co-speech gestures is a long-standing problem in computer animation and is considered an enabling technology in film, games, virtual social spaces, and for interaction with social robots. The problem is made challenging by the idiosyncratic and non-periodic nature of human co-speech gesture motion, and by the great diversity of communicative functions that gestures encompass. Gesture generation has seen surging interest recently, owing to the emergence of more and larger datasets of human gesture motion, combined with strides in deep-learning-based generative models, that benefit from the growing availability of data. This review article summarizes co-speech gesture generation research, with a particular focus on deep generative models. First, we articulate the theory describing human gesticulation and how it complements speech. Next, we briefly discuss rule-based and classical statistical gesture synthesis, before delving into deep learning approaches. We employ the choice of input modalities as an organizing principle, examining systems that generate gestures from audio, text, and non-linguistic input. We also chronicle the evolution of the related training data sets in terms of size, diversity, motion quality, and collection method. Finally, we identify key research challenges in gesture generation, including data availability and quality; producing human-like motion; grounding the gesture in the co-occurring speech in interaction with other speakers, and in the environment; performing gesture evaluation; and integration of gesture synthesis into applications. We highlight recent approaches to tackling the various key challenges, as well as the limitations of these approaches, and point toward areas of future development.
翻訳日:2023-04-11 21:03:51 公開日:2023-04-10
# 開量子系におけるpoincar\e対称性による還元ダイナミクス

Reduced dynamics with Poincar\'e symmetry in an open quantum system ( http://arxiv.org/abs/2301.01451v2 )

ライセンス: Link先を確認
Akira Matsumura(参考訳) 我々は、環境に結合した開量子系の還元ダイナミクスがポアンカルの対称性をいかに認めるかを考える。 減少ダイナミクスは、初期相関を伴わずに全ユニタリ進化から環境をトレースすることによって与えられる動的写像によって記述される。 我々は Poincar\'e 群の下で不変な動的写像を研究する。 poincar\'e 群のユニタリ表現理論に基づいて、そのような力学写像を与える体系的な方法を開発した。 このようにして、有限スピンと有限スピンと非ゼロ運動量を持つ無質量粒子を持つ大粒子の動的写像を導出する。 スピンレス質量粒子のダイナミックマップを例示し,poincar\'e生成器の保存について考察した。 すると、ポアンカルの不変量と四運動量保存の写像を見つける。 さらに,角運動量と昇圧演算子の保存がスピンレス質量粒子ユニタリの写像となることを示す。

We consider how the reduced dynamics of an open quantum system coupled to an environment admits the Poincar\'e symmetry. The reduced dynamics is described by a dynamical map, which is given by tracing out the environment from the total unitary evolution without initial correlations. We investigate the dynamical map which is invariant under the Poincar\'e group. Based on the unitary representation theory of the Poincar\'e group, we develop a systematic way to give such a dynamical map. Using this way, we derive the dynamical map of a massive particle with a finite spin and a massless particle with a finite spin and a nonzero momentum. The dynamical map of a spinless massive particle is exemplified and the conservation of the Poincar\'e generators is discussed. We then find the map with the Poincar\'e invariance and the four-momentum conservation. Further, we show that the conservation of the angular momentum and the boost operator makes the map of a spinless massive particle unitary
翻訳日:2023-04-11 21:02:09 公開日:2023-04-10
# 合成ニューラルラディアンス場に基づくセマンティック3次元画像合成と操作

Semantic 3D-aware Portrait Synthesis and Manipulation Based on Compositional Neural Radiance Field ( http://arxiv.org/abs/2302.01579v2 )

ライセンス: Link先を確認
Tianxiang Ma, Bingchuan Li, Qian He, Jing Dong, Tieniu Tan(参考訳) 近年,神経放射場を有する3次元GAN法が急速に発展している。 しかし、現在の手法では、画像全体を総合的な神経放射場としてモデル化し、合成結果の部分的な意味的編集性を制限する。 NeRFは画像画素をピクセル単位でレンダリングするので、空間次元でNeRFを分割することができる。 セマンティック3次元画像合成と操作のための合成ニューラルネットワーク場(CNeRF)を提案する。 CNeRFは、イメージを意味領域に分割し、各領域の独立した神経放射場を学び、最終的にそれらを融合し、完全な画像をレンダリングする。 これにより、合成された意味領域を独立に操作し、他の部分を固定することができる。 さらに、CNeRFは各意味領域内の形状とテクスチャを分離するように設計されている。 最先端の3d認識gan法と比較して,高品質な3d一貫性合成を維持しつつ,細粒度のセマンティック領域操作を可能にする。 アブレーション研究は,本手法が使用する構造と損失関数の有効性を示した。 さらに,実画像インバージョンとマンガのポートレート3d編集実験により,本手法の適用可能性を示す。

Recently 3D-aware GAN methods with neural radiance field have developed rapidly. However, current methods model the whole image as an overall neural radiance field, which limits the partial semantic editability of synthetic results. Since NeRF renders an image pixel by pixel, it is possible to split NeRF in the spatial dimension. We propose a Compositional Neural Radiance Field (CNeRF) for semantic 3D-aware portrait synthesis and manipulation. CNeRF divides the image by semantic regions and learns an independent neural radiance field for each region, and finally fuses them and renders the complete image. Thus we can manipulate the synthesized semantic regions independently, while fixing the other parts unchanged. Furthermore, CNeRF is also designed to decouple shape and texture within each semantic region. Compared to state-of-the-art 3D-aware GAN methods, our approach enables fine-grained semantic region manipulation, while maintaining high-quality 3D-consistent synthesis. The ablation studies show the effectiveness of the structure and loss function used by our method. In addition real image inversion and cartoon portrait 3D editing experiments demonstrate the application potential of our method.
翻訳日:2023-04-11 20:55:32 公開日:2023-04-10
# 超伝導量子ビットを持つパリティ制御多ビットゲートのスキーム

Scheme for parity-controlled multi-qubit gates with superconducting qubits ( http://arxiv.org/abs/2302.00719v2 )

ライセンス: Link先を確認
Kasper Sangild Christensen, Nikolaj Thomas Zinner, Morten Kjaergaard(参考訳) マルチ量子ビットパリティ測定は、多くの量子誤差補正スキームの中核である。 マルチキュービットパリティ情報の抽出は通常、複数の2キュービットゲートのシーケンスを使用する。 本稿では,マルチキュービットパリティ制御ゲート(PCG)をネイティブにサポートした超伝導回路デバイスを提案する。 これらは隣接するキュービットのマルチキュービットパリティ演算子に基づいてパリティアンシラ上で回転するゲートであり、直接マルチキュービットパリティ測定を行うために使用できる。 この回路は一組の連結ジョセフソン環変調器から構成されており、強い長手近傍結合を持つトランモン様量子ビットの集合を効果的に実現している。 PCGは特定の周波数でパリティアンシラにマイクロ波駆動を適用することで実装される。 実測パラメータ選択とデコヒーレンス率を用いて数値シミュレーションを行い,30 nsで4量子PCGを動作させることで,プロセス忠実度が99%を超えることを確かめた。 さらに, パラメータ障害と隣接量子ビット間の疎結合の影響について検討した。 以上の結果から,pcgの実現に向けたアプローチは,短期的量子誤差補正実験の興味深い候補であることが示唆された。

Multi-qubit parity measurements are at the core of many quantum error correction schemes. Extracting multi-qubit parity information typically involves using a sequence of multiple two-qubit gates. In this paper, we propose a superconducting circuit device with native support for multi-qubit parity-controlled gates (PCG). These are gates that perform rotations on a parity ancilla based on the multi-qubit parity operator of adjacent qubits, and can be directly used to perform multi-qubit parity measurements. The circuit consists of a set of concatenated Josephson ring modulators and effectively realizes a set of transmon-like qubits with strong longitudinal nearest-neighbor couplings. PCGs are implemented by applying microwave drives to the parity ancilla at specific frequencies. We investigate the scheme's performance with numerical simulation using realistic parameter choices and decoherence rates, and find that the device can perform four-qubit PCGs in 30 ns with process fidelity surpassing 99%. Furthermore, we study the effects of parameter disorder and spurious coupling between next-nearest neighboring qubits. Our results indicate that this approach to realizing PCGs constitute an interesting candidate for near-term quantum error correction experiments.
翻訳日:2023-04-11 20:54:31 公開日:2023-04-10
# 潜在スペクトルモデルを用いた高次元PDEの解法

Solving High-Dimensional PDEs with Latent Spectral Models ( http://arxiv.org/abs/2301.12664v2 )

ライセンス: Link先を確認
Haixu Wu, Tengge Hu, Huakun Luo, Jianmin Wang, Mingsheng Long(参考訳) ディープモデルは偏微分方程式(PDE)の解法において顕著な進歩を遂げた。 膨れ上がるパラダイムは、ニューラル演算子を学習してPDEの入出力マッピングを近似することである。 従来のディープモデルは、マルチスケールアーキテクチャや様々なオペレーターの設計を探索してきたが、それらは座標空間における演算子全体の学習に限られていた。 現実の物理科学問題において、pdes は高次元座標空間への離散化に依存する数値解法を持つ複素結合方程式であり、これは単一の作用素によって正確に近似することも、次元の呪いによって効率的に学習することもできない。 我々は,高次元PDEの効率的かつ高精度な解法に向けた潜在スペクトルモデル(LSM)を提案する。 座標空間を超えて、LSMは注意に基づく階層的射影ネットワークを可能にし、高次元データを線形時間でコンパクトな潜在空間に還元する。 数値解析において古典スペクトル法に着想を得て,複数の基底演算子を学習することで複雑な入力出力マッピングを近似し,収束と近似の理論的保証を良好に享受する潜在空間のPDEを解くニューラルネットワークスペクトルブロックを設計した。 実験的に、LSMは一貫した最先端を実現し、固体物理学と流体物理学の両方をカバーする7つのベンチマークで平均11.5%の相対誤差を減少させる。

Deep models have achieved impressive progress in solving partial differential equations (PDEs). A burgeoning paradigm is learning neural operators to approximate the input-output mappings of PDEs. While previous deep models have explored the multiscale architectures and various operator designs, they are limited to learning the operators as a whole in the coordinate space. In real physical science problems, PDEs are complex coupled equations with numerical solvers relying on discretization into high-dimensional coordinate space, which cannot be precisely approximated by a single operator nor efficiently learned due to the curse of dimensionality. We present Latent Spectral Models (LSM) toward an efficient and precise solver for high-dimensional PDEs. Going beyond the coordinate space, LSM enables an attention-based hierarchical projection network to reduce the high-dimensional data into a compact latent space in linear time. Inspired by classical spectral methods in numerical analysis, we design a neural spectral block to solve PDEs in the latent space that approximates complex input-output mappings via learning multiple basis operators, enjoying nice theoretical guarantees for convergence and approximation. Experimentally, LSM achieves consistent state-of-the-art and yields a relative error reduction of 11.5% averaged on seven benchmarks covering both solid and fluid physics.
翻訳日:2023-04-11 20:53:54 公開日:2023-04-10
# fast adapatation の概念発見

Concept Discovery for Fast Adapatation ( http://arxiv.org/abs/2301.07850v2 )

ライセンス: Link先を確認
Shengyu Feng, Hanghang Tong(参考訳) ディープラーニングの進歩により、機械学習の手法はさまざまな分野で人間より優れているが、十分に訓練されたモデルが新しいタスクに迅速に適応することは、依然として大きな課題である。 この目標を達成するための有望な解決策は、学習のための学習としても知られるメタラーニングである。 しかしながら、現在のアプローチは、特に構造的かつ伝達可能な知識を抽出する能力において、人間の学習プロセスと大きく異なる。 この欠点により、現在のメタ学習フレームワークは解釈不能になり、より複雑なタスクに拡張しづらい。 そこで本研究では,データ特徴間の構造をメタ学習することでより効果的な適応を実現し,データの複合表現に繋がる手法を提案する。 提案手法は,概念ベースモデル非依存メタラーニング(COMAML)を用いて,合成データセットと実世界のデータセットの構造化データに対して一貫した改善を実現する。

The advances in deep learning have enabled machine learning methods to outperform human beings in various areas, but it remains a great challenge for a well-trained model to quickly adapt to a new task. One promising solution to realize this goal is through meta-learning, also known as learning to learn, which has achieved promising results in few-shot learning. However, current approaches are still enormously different from human beings' learning process, especially in the ability to extract structural and transferable knowledge. This drawback makes current meta-learning frameworks non-interpretable and hard to extend to more complex tasks. We tackle this problem by introducing concept discovery to the few-shot learning problem, where we achieve more effective adaptation by meta-learning the structure among the data features, leading to a composite representation of the data. Our proposed method Concept-Based Model-Agnostic Meta-Learning (COMAML) has been shown to achieve consistent improvements in the structured data for both synthesized datasets and real-world datasets.
翻訳日:2023-04-11 20:52:20 公開日:2023-04-10
# iQPP: 画像クエリのパフォーマンス予測のためのベンチマーク

iQPP: A Benchmark for Image Query Performance Prediction ( http://arxiv.org/abs/2302.10126v3 )

ライセンス: Link先を確認
Eduard Poesina, Radu Tudor Ionescu, Josiane Mothe(参考訳) 現在まで、コンテンツベースの画像検索の文脈におけるクエリ性能予測(QPP)は、特にクエリがイメージであるクエリ・バイ・サンプルのシナリオにおいて、ほとんど探索されていないタスクである。 画像検索におけるQPPタスクの探索を促進するため,画像クエリ性能予測のための最初のベンチマーク(iQPP)を提案する。 まず,4つのデータセット(PASCAL VOC 2012 Caltech-101, ROxford5k, RParis6k)のセットを構築し,2つの最先端画像検索モデルを用いて,各クエリの真正度を平均精度または精度として推定する。 次に,新しい検索前および検索後クエリ性能予測器を提案し,既存の(テキストから画像まで)予測器と比較した。 実験の結果、ほとんどの予測子は評価シナリオをまたいで一般化しないことがわかった。 総合実験の結果,iqppは難解なベンチマークであり,今後の研究で取り組むべき重要な研究ギャップを明らかにすることができた。 コードとデータはhttps://github.com/Eduard6421/iQPPでオープンソースとして公開しています。

To date, query performance prediction (QPP) in the context of content-based image retrieval remains a largely unexplored task, especially in the query-by-example scenario, where the query is an image. To boost the exploration of the QPP task in image retrieval, we propose the first benchmark for image query performance prediction (iQPP). First, we establish a set of four data sets (PASCAL VOC 2012, Caltech-101, ROxford5k and RParis6k) and estimate the ground-truth difficulty of each query as the average precision or the precision@k, using two state-of-the-art image retrieval models. Next, we propose and evaluate novel pre-retrieval and post-retrieval query performance predictors, comparing them with existing or adapted (from text to image) predictors. The empirical results show that most predictors do not generalize across evaluation scenarios. Our comprehensive experiments indicate that iQPP is a challenging benchmark, revealing an important research gap that needs to be addressed in future work. We release our code and data as open source at https://github.com/Eduard6421/iQPP, to foster future research.
翻訳日:2023-04-11 20:45:30 公開日:2023-04-10
# RESDSQL: テキストからSQLへのスキーマリンクとスケルトン解析の分離

RESDSQL: Decoupling Schema Linking and Skeleton Parsing for Text-to-SQL ( http://arxiv.org/abs/2302.05965v3 )

ライセンス: Link先を確認
Haoyang Li, Jing Zhang, Cuiping Li, Hong Chen(参考訳) Text-to-SQLの最近のベストプラクティスの1つは、事前訓練された言語モデルである。 SQLクエリの構造的特性のため、Seq2seqモデルはスキーマ項目(テーブルと列)とスケルトン(SQLキーワード)の両方を解析する責任を負う。 このような結合されたターゲットは、特に多くのスキーマアイテムやロジック演算子を含む場合、正しいSQLクエリを解析することが困難になる。 本稿では,スキーマリンクとスケルトン解析を分離するランク付けエンコードおよびスケルトン認識復号フレームワークを提案する。 特に、seq2seqエンコーダ-デコーダモデルでは、エンコーダは、順序のないもの全体ではなく、最も関連性の高いスキーマアイテムによって注入され、SQLパース中のスキーマリンクの労力を軽減し、デコーダはまずスケルトンを生成し、次にSQLパースを暗黙的に制限する実際のSQLクエリを生成する。 提案手法はスパイダー・dk,スパイダー・シン,スパイダー・リアリスティックの3種類のロバスト性について評価した。 実験の結果,我々のフレームワークは有望な性能と堅牢性を提供することがわかった。 私たちのコードはhttps://github.com/RUCKBReasoning/RESDSQLで利用可能です。

One of the recent best attempts at Text-to-SQL is the pre-trained language model. Due to the structural property of the SQL queries, the seq2seq model takes the responsibility of parsing both the schema items (i.e., tables and columns) and the skeleton (i.e., SQL keywords). Such coupled targets increase the difficulty of parsing the correct SQL queries especially when they involve many schema items and logic operators. This paper proposes a ranking-enhanced encoding and skeleton-aware decoding framework to decouple the schema linking and the skeleton parsing. Specifically, for a seq2seq encoder-decode model, its encoder is injected by the most relevant schema items instead of the whole unordered ones, which could alleviate the schema linking effort during SQL parsing, and its decoder first generates the skeleton and then the actual SQL query, which could implicitly constrain the SQL parsing. We evaluate our proposed framework on Spider and its three robustness variants: Spider-DK, Spider-Syn, and Spider-Realistic. The experimental results show that our framework delivers promising performance and robustness. Our code is available at https://github.com/RUCKBReasoning/RESDSQL.
翻訳日:2023-04-11 20:44:02 公開日:2023-04-10
# 一般知性に対する制約コンプライアンスの計算レベル解析

Computational-level Analysis of Constraint Compliance for General Intelligence ( http://arxiv.org/abs/2303.04352v2 )

ライセンス: Link先を確認
Robert E. Wray Steven J. Jones John E. Laird(参考訳) 人間の行動は行動を制限する規範と規範によって規定される。 規則(rules, `manners,' law, and moral imperatives)は、人間の行動を支配する制約のクラスの一例である。 これらの制約のシステムは、しばしば 'messy:'' の個々の制約は定義が不十分で、特定の状況において関連する制約は未知あるいは曖昧であり、制約は互いに相互作用し、対立し、関連する制約のバウンダリ内でどのように振る舞うかを決定することは、特に迅速な決定が必要な場合において重要な課題である。 このような混乱にもかかわらず、人間は決定に制約をしっかりと迅速に組み込む。 一般に、人工知的なエージェントは、予測可能性と確実に振る舞うために、現実世界の制約のシステムの混乱をナビゲートできる必要がある。 本稿では、一般エージェントの制約処理における複雑さの源泉を特徴付け、そのような \textit{constraint compliance} に対する計算レベル解析を記述する。 計算レベル解析に基づいて重要なアルゴリズム要件を特定し、制約コンプライアンスに対する一般的なアプローチの初期的探索的実装の概要を示す。

Human behavior is conditioned by codes and norms that constrain action. Rules, ``manners,'' laws, and moral imperatives are examples of classes of constraints that govern human behavior. These systems of constraints are ``messy:'' individual constraints are often poorly defined, what constraints are relevant in a particular situation may be unknown or ambiguous, constraints interact and conflict with one another, and determining how to act within the bounds of the relevant constraints may be a significant challenge, especially when rapid decisions are needed. Despite such messiness, humans incorporate constraints in their decisions robustly and rapidly. General, artificially-intelligent agents must also be able to navigate the messiness of systems of real-world constraints in order to behave predictability and reliably. In this paper, we characterize sources of complexity in constraint processing for general agents and describe a computational-level analysis for such \textit{constraint compliance}. We identify key algorithmic requirements based on the computational-level analysis and outline an initial, exploratory implementation of a general approach to constraint compliance.
翻訳日:2023-04-11 20:36:52 公開日:2023-04-10
# 2次元強磁性体における光誘起位相のひずみ工学

Strain Engineering of Photo-induced Topological Phases in 2D Ferromagnets ( http://arxiv.org/abs/2303.03305v2 )

ライセンス: Link先を確認
T. V. C. Ant\~ao, N. M. R. Peres(参考訳) 我々は, ひずみ工学はレーザー駆動2次元強磁性系における位相相の実験的実現と制御を促進する強力なツールであると主張する。 この範囲で、ジグザグまたはアームチェア方向に一軸歪んだ2次元ハニカム強磁性体に円偏光レーザー場を印加することにより、印加電界の強度および印加ひずみの大きさによって調整可能な合成ジアロシンスキー・モリヤ相互作用(DMI)を生成することができることを示す。 このような変形はチャーン数の反対符号を持つ相や自明な相への遷移を可能にする。 これらは、ひずみ工学的位相スピントロニクス(sets)の新しい分野の開発への道を開く基本的な結果である。

We argue that strain engineering is a powerful tool which may facilitate the experimental realization and control of topological phases in laser-driven 2D ferromagnetic systems. To this extent, we show that by applying a circularly polarized laser field to a 2D honeycomb ferromagnet which is uniaxially strained in either the zig-zag or armchair direction, it is possible to generate a synthetic Dzyaloshinskii-Moriya interaction (DMI) tunable by the intensity of the applied electric field, as well as by the magnitude of applied strain. Such deformations enable transitions to phases with opposite sign of Chern number, or to trivial phases. These are basic results that could pave the way for the development of a new field of Strain Engineered Topological Spintronics (SETS).
翻訳日:2023-04-11 20:36:09 公開日:2023-04-10
# NTRU暗号系からのGottesman-Kitaev-Preskill符号

Good Gottesman-Kitaev-Preskill codes from the NTRU cryptosystem ( http://arxiv.org/abs/2303.02432v2 )

ライセンス: Link先を確認
Jonathan Conrad, Jens Eisert, Jean-Pierre Seifert(参考訳) 我々は,いわゆるNTRU暗号系の暗号解析から得られた,ランダムなGottesman-Kitaev-Preskill(GKP)符号のクラスを導入する。 導出符号は、一定レートおよび平均距離スケーリング$\Delta \propto \sqrt{n}$を高い確率で示すのがよいが、$n$はボソニックモードの数であり、これは単一モードGKP符号を線形距離で量子量子誤り訂正符号に変換することで得られるGKP符号と等価な距離スケーリングである。 NTRU-GKP符号の派生型は、確率的変位ノイズモデルの復号化がNTRU暗号システムの復号化と等価であるという付加的な性質を持ち、コードのランダムなインスタンスは、自然に効率的な復号器が付属する。 この構造は、GKPコードがどのように古典的誤り訂正、量子誤り訂正、およびポスト量子暗号の側面を橋渡しするかを強調している。 我々は,gkp符号の復号化の計算の難しさを議論し,ntru暗号システムからセキュリティを継承した,簡単な公開鍵量子通信プロトコルを提案する。

We introduce a new class of random Gottesman-Kitaev-Preskill (GKP) codes derived from the cryptanalysis of the so-called NTRU cryptosystem. The derived codes are good in that they exhibit constant rate and average distance scaling $\Delta \propto \sqrt{n}$ with high probability, where $n$ is the number of bosonic modes, which is a distance scaling equivalent to that of a GKP code obtained by concatenating single mode GKP codes into a qubit-quantum error correcting code with linear distance. The derived class of NTRU-GKP codes has the additional property that decoding for a stochastic displacement noise model is equivalent to decrypting the NTRU cryptosystem, such that every random instance of the code naturally comes with an efficient decoder. This construction highlights how the GKP code bridges aspects of classical error correction, quantum error correction as well as post-quantum cryptography. We underscore this connection by discussing the computational hardness of decoding GKP codes and propose, as a new application, a simple public key quantum communication protocol with security inherited from the NTRU cryptosystem.
翻訳日:2023-04-11 20:35:51 公開日:2023-04-10
# 健康とそれ以上の学習機械

Learning machines for health and beyond ( http://arxiv.org/abs/2303.01513v2 )

ライセンス: Link先を確認
Mahed Abroshan, Oscar Giles, Sam Greenbury, Jack Roberts, Mihaela van der Schaar, Jannetta S Steyn, Alan Wilson, May Yong(参考訳) 機械学習技術は、大きなデータセットのパターンを特定するのに長けているため、予測モデルを構築するのに効果的である。 複雑な実生活問題のためのモデルの開発は、しばしば出版、概念実証、またはある展開モードを通じてアクセス可能になったときに停止する。 しかし、医療領域のモデルは患者の人口構成が変化するとすぐに時代遅れになるリスクがある。 公開後の予測モデルの保守と監視は、安全かつ効果的な長期使用を保証するために不可欠である。 機械学習のテクニックは、利用可能なデータセットのパターンを探すように効果的に訓練されているため、複雑な現実の問題に対するモデルのパフォーマンスはピークではなく、公開時点やデプロイ時点でも固定される。 むしろ、データは時間とともに変化し、新しいデモグラフィーで使用される新しい場所にモデルが転送されるときにも変化します。

Machine learning techniques are effective for building predictive models because they are good at identifying patterns in large datasets. Development of a model for complex real life problems often stops at the point of publication, proof of concept or when made accessible through some mode of deployment. However, a model in the medical domain risks becoming obsolete as soon as patient demographic changes. The maintenance and monitoring of predictive models post-publication is crucial to guarantee their safe and effective long term use. As machine learning techniques are effectively trained to look for patterns in available datasets, the performance of a model for complex real life problems will not peak and remain fixed at the point of publication or even point of deployment. Rather, data changes over time, and they also changed when models are transported to new places to be used by new demography.
翻訳日:2023-04-11 20:34:46 公開日:2023-04-10
# セマンティック通信を用いた無線エンドツーエンド画像伝送システム

Wireless End-to-End Image Transmission System using Semantic Communications ( http://arxiv.org/abs/2302.13721v2 )

ライセンス: Link先を確認
Maheshi Lokumarambage, Vishnu Gowrisetty, Hossein Rezaei, Thushan Sivalingam, Nandana Rajatheva, Anil Fernando(参考訳) セマンティック通信は、受信側でデータをビット単位で再構成するのではなく、データの意味的意味を伝達することで、シャノンの定理を超えてデータを送信することを目的とした移動通信の未来であると考えられている。 セマンティックコミュニケーションパラダイムは、現代の高容量マルチメディアアプリケーションコンテンツ伝送における帯域幅の制限問題のギャップを埋めることを目的としている。 ai技術と6g通信ネットワークの統合は、セマンティックコミュニケーションベースのエンドツーエンド通信システムを開発するための道を開いた。 本研究では,意味コミュニケーションに基づくエンド・ツー・エンド画像伝送システムを実装し,物理チャネル特性と組み合わせた意味コミュニケーションシステムの開発における設計上の考察を行った。 受信機では、予め訓練されたganネットワークを送信タスクとして使用し、受信機入力のセマンティックセグメンテーション画像に基づいて現実的な画像を再構成する。 送信者(エンコーダ)のセマンティックセグメンテーションタスクと受信者(デコーダ)のGANネットワークは、共通知識ベースであるCOCO-Stuffデータセットに基づいて訓練される。 本研究は,従来の通信システムとは対照的に,物理チャネルを介して意味的セグメンテーションマップを送信する場合,帯域節約という形での資源利得が極めて大きいことを示す。 さらに,物理チャネル歪みと量子化ノイズがセマンティック通信に基づくマルチメディアコンテンツ伝送に与える影響について検討した。

Semantic communication is considered the future of mobile communication, which aims to transmit data beyond Shannon's theorem of communications by transmitting the semantic meaning of the data rather than the bit-by-bit reconstruction of the data at the receiver's end. The semantic communication paradigm aims to bridge the gap of limited bandwidth problems in modern high-volume multimedia application content transmission. Integrating AI technologies with the 6G communications networks paved the way to develop semantic communication-based end-to-end communication systems. In this study, we have implemented a semantic communication-based end-to-end image transmission system, and we discuss potential design considerations in developing semantic communication systems in conjunction with physical channel characteristics. A Pre-trained GAN network is used at the receiver as the transmission task to reconstruct the realistic image based on the Semantic segmented image at the receiver input. The semantic segmentation task at the transmitter (encoder) and the GAN network at the receiver (decoder) is trained on a common knowledge base, the COCO-Stuff dataset. The research shows that the resource gain in the form of bandwidth saving is immense when transmitting the semantic segmentation map through the physical channel instead of the ground truth image in contrast to conventional communication systems. Furthermore, the research studies the effect of physical channel distortions and quantization noise on semantic communication-based multimedia content transmission.
翻訳日:2023-04-11 20:34:14 公開日:2023-04-10
# マルチモーダル変圧器による状態密度予測

Predicting Density of States via Multi-modal Transformer ( http://arxiv.org/abs/2303.07000v2 )

ライセンス: Link先を確認
Namkyeong Lee, Heewoong Noh, Sungwon Kim, Dongmin Hyun, Gyoung S. Na, Chanyoung Park(参考訳) 状態密度 (DOS) は材料のスペクトル特性であり、材料の様々な特性に関する基本的な洞察を提供する。 本稿では,dosの性質を反映してdosを予測するモデルを提案する:dosはエネルギーの関数として状態の一般分布を決定する。 具体的には、結晶構造とエネルギーから得られる異種情報を多モード変圧器を介して統合し、結晶構造中の原子と様々なエネルギーレベルの間の複雑な関係をモデル化する。 Phonon DOSとElectron DOSの2種類のDOSに関する大規模な実験は、DOSTransformerの優位性を実証している。 DOSTransformerのソースコードはhttps://github.com/HeewoongNoh/DOSTransformerで入手できる。

The density of states (DOS) is a spectral property of materials, which provides fundamental insights on various characteristics of materials. In this paper, we propose a model to predict the DOS by reflecting the nature of DOS: DOS determines the general distribution of states as a function of energy. Specifically, we integrate the heterogeneous information obtained from the crystal structure and the energies via multi-modal transformer, thereby modeling the complex relationships between the atoms in the crystal structure, and various energy levels. Extensive experiments on two types of DOS, i.e., Phonon DOS and Electron DOS, with various real-world scenarios demonstrate the superiority of DOSTransformer. The source code for DOSTransformer is available at https://github.com/HeewoongNoh/DOSTransformer.
翻訳日:2023-04-11 20:25:54 公開日:2023-04-10
# ニューラルネットワークのハードウェア高速化

Hardware Acceleration of Neural Graphics ( http://arxiv.org/abs/2303.05735v5 )

ライセンス: Link先を確認
Muhammad Husnain Mubarik, Ramakrishna Kanungo, Tobias Zirr and Rakesh Kumar(参考訳) 従来のコンピュータグラフィックスを駆動するレンダリングと逆レンダリングアルゴリズムは、最近neural representations (nr)に取って代わられた。 NRは、最近、シーンの幾何学的および物質的特性を学び、その情報を使ってフォトリアリスティックな画像を合成し、スケーラブルで予測可能なパフォーマンスで従来のレンダリングアルゴリズムを置き換えることを約束している。 neural graphics (ng) はハードウェアサポートが必要か? 60FPSで4kの解像度をレンダリングしたい場合、現在のGPUで所望のパフォーマンスで1.5X-55Xの差があることを示す代表NGアプリケーションについて検討した。 AR/VRアプリケーションでは、所望のパフォーマンスと必要なシステムパワーの間に2-4 OOMのギャップがさらに大きい。 入力エンコーディングとmlpカーネルは性能ボトルネックであり,マルチres.hashgrid,multi res. densegrid,low res. densegridエンコーディングのアプリケーション時間の72%,60%,59%を消費する。 我々は,専用エンジンによる入力エンコーディングとmlpカーネルを直接高速化し,幅広いngアプリケーションをサポートするスケーラブルでフレキシブルなハードウェアアーキテクチャであるng処理クラスタを提案する。 Vulkanでは、前処理や後処理のカーネルの未使用実装と比較して、9.94倍のカーネルレベルのパフォーマンス向上を実現しています。 以上の結果から,NGPCは最大58倍のエンド・ツー・エンドの性能向上を実現し,Hashgridエンコーディングは4つのNGアプリケーションで平均12X,20X,33X,39Xのスケーリング係数でそれぞれ8,16,32,64。 以上の結果から,NGPCでは,NeRFで30FPSで4k,他のNGアプリケーションで120FPSで8kのレンダリングが可能であることが示唆された。

Rendering and inverse-rendering algorithms that drive conventional computer graphics have recently been superseded by neural representations (NR). NRs have recently been used to learn the geometric and the material properties of the scenes and use the information to synthesize photorealistic imagery, thereby promising a replacement for traditional rendering algorithms with scalable quality and predictable performance. In this work we ask the question: Does neural graphics (NG) need hardware support? We studied representative NG applications showing that, if we want to render 4k res. at 60FPS there is a gap of 1.5X-55X in the desired performance on current GPUs. For AR/VR applications, there is an even larger gap of 2-4 OOM between the desired performance and the required system power. We identify that the input encoding and the MLP kernels are the performance bottlenecks, consuming 72%,60% and 59% of application time for multi res. hashgrid, multi res. densegrid and low res. densegrid encodings, respectively. We propose a NG processing cluster, a scalable and flexible hardware architecture that directly accelerates the input encoding and MLP kernels through dedicated engines and supports a wide range of NG applications. We also accelerate the rest of the kernels by fusing them together in Vulkan, which leads to 9.94X kernel-level performance improvement compared to un-fused implementation of the pre-processing and the post-processing kernels. Our results show that, NGPC gives up to 58X end-to-end application-level performance improvement, for multi res. hashgrid encoding on average across the four NG applications, the performance benefits are 12X,20X,33X and 39X for the scaling factor of 8,16,32 and 64, respectively. Our results show that with multi res. hashgrid encoding, NGPC enables the rendering of 4k res. at 30FPS for NeRF and 8k res. at 120FPS for all our other NG applications.
翻訳日:2023-04-11 20:25:30 公開日:2023-04-10
# 光leo衛星星座におけるフェデレーション学習のためのエッジ選択とクラスタリング

Edge Selection and Clustering for Federated Learning in Optical Inter-LEO Satellite Constellation ( http://arxiv.org/abs/2303.16071v2 )

ライセンス: Link先を確認
Chih-Yu Chen, Li-Hsiang Shen, Kai-Ten Feng, Lie-Liang Yang, and Jen-Ming Wu(参考訳) 低地球軌道(LEO)衛星は、大量の画像やセンサーデータを収集できるため、様々な地球観測ミッションのために順調に展開されている。 しかしながら、伝統的に、データトレーニングプロセスは地上のクラウドサーバで実行されるため、送信オーバーヘッドが高くなる。 近年のLEOの発展により、超高密度LEOコンステレーションを車載計算能力の強化で実現することが不可欠である。 そこで我々は,地球低軌道(FELLO)のための協調的連合学習を提案する。 我々は、低遅延地上ゲートウェイサーバ(GS)が初期信号制御のみを行うのに対し、低ペイロードの衛星間伝送でLEOに全処理を割り当てる。 GSは当初LEOサーバを選択し、LEOクライアントは光衛星間リンク(ISL)を介してクラスタリング機構と通信能力によって決定される。 変更するLEOサーバの再クラスタ化は、FELLOの通信品質が低い場合に一度実行される。 シミュレーションでは,実際のウォーカー型LEO星座構成とMNISTによる分類ミッションのトレーニングデータセットを用いて,提案したFELLOを数値解析した。 提案手法は,従来の集中型および分散型アーキテクチャよりも高い分類精度と,結合型通信とコンピューティングのレイテンシを両立させる。

Low-Earth orbit (LEO) satellites have been prosperously deployed for various Earth observation missions due to its capability of collecting a large amount of image or sensor data. However, traditionally, the data training process is performed in the terrestrial cloud server, which leads to a high transmission overhead. With the recent development of LEO, it is more imperative to provide ultra-dense LEO constellation with enhanced on-board computation capability. Benefited from it, we have proposed a collaborative federated learning for low Earth orbit (FELLO). We allocate the entire process on LEOs with low payload inter-satellite transmissions, whilst the low-delay terrestrial gateway server (GS) only takes care for initial signal controlling. The GS initially selects an LEO server, whereas its LEO clients are all determined by clustering mechanism and communication capability through the optical inter-satellite links (ISLs). The re-clustering of changing LEO server will be executed once with low communication quality of FELLO. In the simulations, we have numerically analyzed the proposed FELLO under practical Walker-based LEO constellation configurations along with MNIST training dataset for classification mission. The proposed FELLO outperforms the conventional centralized and distributed architectures with higher classification accuracy as well as comparably lower latency of joint communication and computing.
翻訳日:2023-04-11 20:17:29 公開日:2023-04-10
# 私のデータセットでトレーニングしたの? クリーンラベルバックドア透かしによる公共データセット保護に向けて

Did You Train on My Dataset? Towards Public Dataset Protection with Clean-Label Backdoor Watermarking ( http://arxiv.org/abs/2303.11470v2 )

ライセンス: Link先を確認
Ruixiang Tang, Qizhang Feng, Ninghao Liu, Fan Yang, Xia Hu(参考訳) インターネット上の巨大なトレーニングデータのサポートは、ディープラーニングモデルの成功の重要な要因となっている。 しかし、この公開データの豊富さは、データセットライセンスによって禁止される商用目的のデータセットの不正な利用に関する懸念を引き起こす。 本稿では,公開データを保護するための汎用フレームワークとして,バックドアベースの透かし手法を提案する。 データセットに少数のウォーターマーキングサンプルを挿入することで、学習モデルがディフェンダーが設定した秘密関数を暗黙的に学習することができる。 この隠れた機能は、データセットを違法に使用するサードパーティモデルを追跡するための透かしとして使用できる。 残念ながら、既存のバックドア挿入手法では、トレーニングセットに任意のラベル付きデータを追加し、パフォーマンスが大幅に低下し、異常検出アルゴリズムによる検出が容易になった。 この課題を克服するために,不感な摂動を用いて誤ラベルされたサンプルを置き換えるクリーンラベルバックドア透かしフレームワークを導入する。 結果として、透かしのサンプルは元のラベルと一致し続け、検出が困難になる。 テキスト、画像、オーディオデータセットに関する実験により、提案フレームワークは、元のタスクパフォーマンスに最小限の影響でデータセットを効果的に保護することを示した。 また、透かしサンプルを1%加えるだけで、トレーサブルな透かし機能を注入でき、透かしサンプルは視覚検査でステルスで良さそうに見えます。

The huge supporting training data on the Internet has been a key factor in the success of deep learning models. However, this abundance of public-available data also raises concerns about the unauthorized exploitation of datasets for commercial purposes, which is forbidden by dataset licenses. In this paper, we propose a backdoor-based watermarking approach that serves as a general framework for safeguarding public-available data. By inserting a small number of watermarking samples into the dataset, our approach enables the learning model to implicitly learn a secret function set by defenders. This hidden function can then be used as a watermark to track down third-party models that use the dataset illegally. Unfortunately, existing backdoor insertion methods often entail adding arbitrary and mislabeled data to the training set, leading to a significant drop in performance and easy detection by anomaly detection algorithms. To overcome this challenge, we introduce a clean-label backdoor watermarking framework that uses imperceptible perturbations to replace mislabeled samples. As a result, the watermarking samples remain consistent with the original labels, making them difficult to detect. Our experiments on text, image, and audio datasets demonstrate that the proposed framework effectively safeguards datasets with minimal impact on original task performance. We also show that adding just 1% of watermarking samples can inject a traceable watermarking function and that our watermarking samples are stealthy and look benign upon visual inspection.
翻訳日:2023-04-11 20:15:13 公開日:2023-04-10
# 量子論における関係論を超えて

Beyond relationalism in quantum theory ( http://arxiv.org/abs/2304.00608v2 )

ライセンス: Link先を確認
Francisco Pipa(参考訳) 量子論の基礎と哲学における影響力ある伝統は、QTを隠れ変数で補足することを拒否し、ユニタリQTが正しいとみなすならば、QTに対するリレーショナルなアプローチを採用するべきであると主張している。 この伝統は、測定結果を例えば世界、システム、エージェント、参照フレームに関連付ける一連のアプローチを含んでいる。 これには、エベレットのqtの相対的定式化、多世界解釈、関係量子力学、qbism、ヒーリーのプラグマティズム、ディークのperspectival modal interpretationが含まれる。 これらのアプローチには、魅力のないコストが伴う。 決定性に基づく量子論(ebqt)と呼ばれる合理的な代替アプローチを示すことによって、非隠れ変数ユニタリ普遍量子論を持つためには、関係論の採用は不要であると主張する。 ebqtは、リレーショナルでもパースペクティブでもない決定的および不確定的プロパティのアカウントを構築することによって、リレーショナル主義を回避する。 さらに、リレーショナルリストのアプローチが不要な複雑化をもたらす可能性があり、よりコストのかかる代替手段が存在することも示している。 この説明では、決定的価値特性を持つ最初のシステムは、特定の相互作用を通じて宇宙の初期に発生し、それらはさらに決定的価値特性を持つ他のシステムを生み出した。 システム間の特定の構造的相互作用のため、時間とともに値の性質が決定される。 リレーショナルストが測定結果が相対化されていると仮定するよう迫られる状況では、EBQTには決定的な結果が存在しない。 かなり不確定な性質を持つ系がある。

An influential tradition in the foundations and philosophy of quantum theory (QT) claims that if we reject supplementing QT with hidden variables and consider that unitary QT is correct and universal, we should adopt a relationalist approach to QT. This tradition involves a series of approaches that relativize measurement outcomes to, for example, worlds, systems, agents, or reference frames. It includes Everett's Relative-State formulation of QT, the Many-worlds Interpretation, Relational Quantum Mechanics, QBism, Healey's Pragmatism, and Diek's perspectival modal interpretation. These approaches have potential costs that may make them unattractive. By presenting a plausible alternative approach called Endeterminacy-based quantum theory (EBQT), I argue that adopting relationalism is unnecessary in order to have a non-hidden variable unitary universal quantum theory. EBQT circumvents relationalism by constructing an account of determinate and indeterminate properties that is neither relational nor perspectival. Moreover, it shows that relationalist approaches potentially add unnecessary complications and that a less costly alternative may exist. In this account, the first systems with determinate value properties arose at the early stages of the universe through certain interactions, and they further gave rise to other systems with determinate value properties. Determinate value properties persist over time because of certain structured interactions between systems. In situations where a relationalist is pressed to assume that measured outcomes are relativized, for EBQT there are no determinate outcomes. There are rather systems with absolutely indeterminate properties.
翻訳日:2023-04-11 20:09:20 公開日:2023-04-10
# Recover Triggered States: 強化学習におけるバックドア攻撃に対する保護モデル

Recover Triggered States: Protect Model Against Backdoor Attack in Reinforcement Learning ( http://arxiv.org/abs/2304.00252v3 )

ライセンス: Link先を確認
Hao Chen, Chen Gong, Yizhe Wang, Xinwen Hou(参考訳) バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。 このような攻撃はRLシステムの信頼性を損なうものであり、様々な分野で破滅的な結果をもたらす可能性がある。 対照的に、比較的限られた研究は、RLのバックドア攻撃に対する効果的な防御について研究している。 本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。 RTSは、ダイナミクスモデルを近似するために代理ネットワークを構築する。 開発者はトリガの状態からクリーンな状態に環境を回復できるため、攻撃者がトリガーを提示することでエージェント内に隠されたバックドアを活性化するのを防ぐことができる。 シュロゲートをトレーニングして状態を予測した場合、エージェントアクション情報を組み込んで、エージェントが予測した状態に対するアクションと実際の状態に対するアクションとの相違を低減する。 RTSは、単一エージェント環境でバックドア攻撃を防御する最初のアプローチである。 以上の結果から,RTSの累積報酬はバックドア攻撃で1.41%減少した。

A backdoor attack allows a malicious user to manipulate the environment or corrupt the training data, thus inserting a backdoor into the trained agent. Such attacks compromise the RL system's reliability, leading to potentially catastrophic results in various key fields. In contrast, relatively limited research has investigated effective defenses against backdoor attacks in RL. This paper proposes the Recovery Triggered States (RTS) method, a novel approach that effectively protects the victim agents from backdoor attacks. RTS involves building a surrogate network to approximate the dynamics model. Developers can then recover the environment from the triggered state to a clean state, thereby preventing attackers from activating backdoors hidden in the agent by presenting the trigger. When training the surrogate to predict states, we incorporate agent action information to reduce the discrepancy between the actions taken by the agent on predicted states and the actions taken on real states. RTS is the first approach to defend against backdoor attacks in a single-agent setting. Our results show that using RTS, the cumulative reward only decreased by 1.41% under the backdoor attack.
翻訳日:2023-04-11 20:08:32 公開日:2023-04-10
# 暗黙的に測定したODE-netの実装と(逆修正)誤差解析

Implementation and (Inverse Modified) Error Analysis for implicitly-templated ODE-nets ( http://arxiv.org/abs/2303.17824v2 )

ライセンス: Link先を確認
Aiqing Zhu, Tom Bertalan, Beibei Zhu, Yifa Tang and Ioannis G. Kevrekidis(参考訳) 我々は,暗黙的な数値初期値問題解法に基づいてテンプレート化されたODE-netを用いてデータから未知のダイナミクスを学習する。 まず、解釈を容易にするために、未ロールの暗黙的スキームを用いてode-netの逆修正エラー解析を行う。 非ローリングな暗黙的スキームを用いてode-netをトレーニングすると、逆修正微分方程式(imde)の近似が返される。 さらに、このようなODE-netをトレーニングする際のパラメータ選択の理論的基盤を確立する一方、現在の戦略では、ODE-netの数値積分をブラックボックスとして扱うのが一般的である。 そこで, 学習過程において, 誤りのレベルを監視し, 暗黙的な解の繰り返し数に適応する適応アルゴリズムを定式化し, 未学習の近似の誤差が現在の学習損失より少ないようにした。 これは精度を維持しながら、トレーニングを加速するのに役立つ。 提案手法の利点を非適応解法と比較し,理論解析の有効性を検証するため,いくつかの数値実験を行った。 このアプローチは自然に、方程式に部分的に既知の物理項を組み込むことを可能にし、" `gray box" と呼ばれるものを生み出すことに留意する。

We focus on learning unknown dynamics from data using ODE-nets templated on implicit numerical initial value problem solvers. First, we perform Inverse Modified error analysis of the ODE-nets using unrolled implicit schemes for ease of interpretation. It is shown that training an ODE-net using an unrolled implicit scheme returns a close approximation of an Inverse Modified Differential Equation (IMDE). In addition, we establish a theoretical basis for hyper-parameter selection when training such ODE-nets, whereas current strategies usually treat numerical integration of ODE-nets as a black box. We thus formulate an adaptive algorithm which monitors the level of error and adapts the number of (unrolled) implicit solution iterations during the training process, so that the error of the unrolled approximation is less than the current learning loss. This helps accelerate training, while maintaining accuracy. Several numerical experiments are performed to demonstrate the advantages of the proposed algorithm compared to nonadaptive unrollings, and validate the theoretical analysis. We also note that this approach naturally allows for incorporating partially known physical terms in the equations, giving rise to what is termed ``gray box" identification.
翻訳日:2023-04-11 20:07:35 公開日:2023-04-10
# HARFLOW3D:FPGAデバイス上でのHARのためのレイテンシ指向3D-CNN加速器ツールフロー

HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices ( http://arxiv.org/abs/2303.17218v4 )

ライセンス: Link先を確認
Petros Toupas, Alexander Montgomerie-Corcoran, Christos-Savvas Bouganis, Dimitrios Tzovaras(参考訳) 人間行動認識タスク(HAR)では、3D畳み込みニューラルネットワークが極めて有効であることが証明され、最先端の結果が得られた。 本研究では,そのモデル固有の特性とターゲットFPGAデバイスの特徴を考慮し,そのようなモデルをFPGAにマッピングするための,新たなストリーミングアーキテクチャベースのツールフローを提案する。 HARFLOW3Dツールフローは、ONNX形式の3D CNNとFPGA特性の記述を入力として、計算のレイテンシを最小化する設計を生成する。 ツールフローは、いくつかの部分で構成されています。 一 三次元CNNパーサー 二 性能及び資源モデル 三 生成されたハードウェア上で3Dモデルを実行するためのスケジューリングアルゴリズム 四 3Dモデルに適した資源対応最適化エンジン v)FPGAの合成可能なコードへの自動マッピング。 幅広いモデルやデバイスをサポートするツールフローの能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通じて示されている。 さらに、ツールフローはFPGAにマップされていない3D CNNモデルの高性能な結果をもたらし、この分野におけるFPGAベースのシステムの可能性を示している。 全体として、harflow3dは、最先端のハンドチューニングアプローチと比較して、競争力のあるレイテンシを提供する能力を示しており、既存の作業に比べて最大5$\times$のパフォーマンスを実現している。

For Human Action Recognition tasks (HAR), 3D Convolutional Neural Networks have proven to be highly effective, achieving state-of-the-art results. This study introduces a novel streaming architecture based toolflow for mapping such models onto FPGAs considering the model's inherent characteristics and the features of the targeted FPGA device. The HARFLOW3D toolflow takes as input a 3D CNN in ONNX format and a description of the FPGA characteristics, generating a design that minimizes the latency of the computation. The toolflow is comprised of a number of parts, including i) a 3D CNN parser, ii) a performance and resource model, iii) a scheduling algorithm for executing 3D models on the generated hardware, iv) a resource-aware optimization engine tailored for 3D models, v) an automated mapping to synthesizable code for FPGAs. The ability of the toolflow to support a broad range of models and devices is shown through a number of experiments on various 3D CNN and FPGA system pairs. Furthermore, the toolflow has produced high-performing results for 3D CNN models that have not been mapped to FPGAs before, demonstrating the potential of FPGA-based systems in this space. Overall, HARFLOW3D has demonstrated its ability to deliver competitive latency compared to a range of state-of-the-art hand-tuned approaches being able to achieve up to 5$\times$ better performance compared to some of the existing works.
翻訳日:2023-04-11 20:07:15 公開日:2023-04-10
# 変圧器追跡のための一般化関係モデリング

Generalized Relation Modeling for Transformer Tracking ( http://arxiv.org/abs/2303.16580v2 )

ライセンス: Link先を確認
Shenyuan Gao, Chunluan Zhou, Jun Zhang(参考訳) 以前の2ストリームトラッカーと比較して、テンプレートと検索領域の早期インタラクションを可能にする最近のワンストリームトラッキングパイプラインは、目覚ましいパフォーマンス向上を達成した。 しかし、既存のワンストリームトラッカーは、常にテンプレートをエンコーダ層全体の検索領域内のすべての部分と相互作用させる。 これは、抽出された特徴表現が十分に識別できない場合に、ターゲットと背景の混乱を引き起こす可能性がある。 そこで本研究では,適応トークン分割に基づく一般化関係モデリング手法を提案する。 提案手法は,テンプレートトークンと対話する適切な検索トークンを選択することで,よりフレキシブルな関係モデリングを実現するとともに,従来の2ストリームパイプラインと1ストリームパイプラインの両方の利点を継承する。 トークン分割モジュールの並列計算とエンドツーエンド学習を容易にするために,注意マスキング戦略とgumbel-softmax手法を導入した。 大規模実験により,本手法は2ストリームと1ストリームのパイプラインよりも優れており,実時間実行速度の6つのベンチマークにおいて最先端の性能が得られることを示した。

Compared with previous two-stream trackers, the recent one-stream tracking pipeline, which allows earlier interaction between the template and search region, has achieved a remarkable performance gain. However, existing one-stream trackers always let the template interact with all parts inside the search region throughout all the encoder layers. This could potentially lead to target-background confusion when the extracted feature representations are not sufficiently discriminative. To alleviate this issue, we propose a generalized relation modeling method based on adaptive token division. The proposed method is a generalized formulation of attention-based relation modeling for Transformer tracking, which inherits the merits of both previous two-stream and one-stream pipelines whilst enabling more flexible relation modeling by selecting appropriate search tokens to interact with template tokens. An attention masking strategy and the Gumbel-Softmax technique are introduced to facilitate the parallel computation and end-to-end learning of the token division module. Extensive experiments show that our method is superior to the two-stream and one-stream pipelines and achieves state-of-the-art performance on six challenging benchmarks with a real-time running speed.
翻訳日:2023-04-11 20:06:15 公開日:2023-04-10
# TPU v4: 組み込みのためのハードウェアサポートを備えた、光学的に再構成可能な機械学習用スーパーコンピュータ

TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings ( http://arxiv.org/abs/2304.01433v2 )

ライセンス: Link先を確認
Norman P. Jouppi, George Kurian, Sheng Li, Peter Ma, Rahul Nagarajan, Lifeng Nai, Nishant Patil, Suvinay Subramanian, Andy Swing, Brian Towles, Cliff Young, Xiang Zhou, Zongwei Zhou, and David Patterson(参考訳) 機械学習(ML)モデルの革新に応えて、プロダクションワークロードは根本的に、そして急速に変化した。 TPU v4は、Googleドメイン特化アーキテクチャ(DSA)の第5位であり、MLモデルのための第3のスーパーコンピュータである。 光回路スイッチ(OCSe)は、その相互接続トポロジを動的に再構成し、スケール、可用性、利用、モジュール性、デプロイメント、セキュリティ、パワー、パフォーマンスを向上させる。 InfinibandやOCSやその基盤となる光学部品よりもはるかに安価で低消費電力で高速であり、システムコストの5%、システムパワーの3%である。 各TPU v4にはSparseCoresが含まれており、5x-7xの埋め込みに依存しながらダイエリアとパワーの5%しか使用していないモデルを高速化するデータフロープロセッサである。 TPU v4は2020年からデプロイされ、TPU v3より2.1倍、パフォーマンス/Wattは2.7倍向上した。 TPU v4のスーパーコンピュータは4096チップで4倍大きく、全体として約10倍速くなり、OCSの柔軟性も大きな言語モデルに役立つ。 同様のサイズのシステムでは、graphcore ipu bowより約4.3x-4.5倍高速で1.2x-1.7倍高速で、nvidia a100より1.3x-1.9倍少ない。 エネルギー最適化されたGoogle Cloudの倉庫スケールコンピュータ内のTPU v4はエネルギーを約3倍削減し、典型的なオンプレミスデータセンターにおける現在のDSAの約20倍のCO2eを生成する。

In response to innovations in machine learning (ML) models, production workloads changed radically and rapidly. TPU v4 is the fifth Google domain specific architecture (DSA) and its third supercomputer for such ML models. Optical circuit switches (OCSes) dynamically reconfigure its interconnect topology to improve scale, availability, utilization, modularity, deployment, security, power, and performance; users can pick a twisted 3D torus topology if desired. Much cheaper, lower power, and faster than Infiniband, OCSes and underlying optical components are <5% of system cost and <3% of system power. Each TPU v4 includes SparseCores, dataflow processors that accelerate models that rely on embeddings by 5x-7x yet use only 5% of die area and power. Deployed since 2020, TPU v4 outperforms TPU v3 by 2.1x and improves performance/Watt by 2.7x. The TPU v4 supercomputer is 4x larger at 4096 chips and thus ~10x faster overall, which along with OCS flexibility helps large language models. For similar sized systems, it is ~4.3x-4.5x faster than the Graphcore IPU Bow and is 1.2x-1.7x faster and uses 1.3x-1.9x less power than the Nvidia A100. TPU v4s inside the energy-optimized warehouse scale computers of Google Cloud use ~3x less energy and produce ~20x less CO2e than contemporary DSAs in a typical on-premise data center.
翻訳日:2023-04-11 19:58:49 公開日:2023-04-10
# DeepAccident: V2X自動運転の動作と事故予測ベンチマーク

DeepAccident: A Motion and Accident Prediction Benchmark for V2X Autonomous Driving ( http://arxiv.org/abs/2304.01168v2 )

ライセンス: Link先を確認
Tianqi Wang, Sukmin Kim, Wenxuan Ji, Enze Xie, Chongjian Ge, Junsong Chen, Zhenguo Li, Ping Luo(参考訳) 安全は自動運転の優先事項である。 それでも、現在公表されているデータセットは、自律運転の直接的かつ説明可能な安全性評価をサポートしていない。 本研究では,実世界の運転時に頻繁に発生する多様な事故シナリオを含む現実的なシミュレータを用いて生成された大規模データセットであるdeepaccidentを提案する。 提案するdeepaccidentデータセットは57kの注釈付きフレームと285kの注釈付きサンプルを含み、40kの注釈付きサンプルを持つ大規模nuscenesデータセットの約7倍である。 さらに,提案したデータセットに基づいて,新たなタスク,エンドツーエンド動作と事故予測を提案し,異なる自律運転アルゴリズムの事故予測能力を直接評価することができる。 さらに,各シナリオに対して,データ記録のための4台の車両と1台のインフラを設定し,事故シナリオの多様な視点を提供し,V2X(車間通信)による知覚と予測タスクの実現を可能にした。 最後に,V2XFormerと呼ばれるベースラインV2Xモデルを提案する。

Safety is the primary priority of autonomous driving. Nevertheless, no published dataset currently supports the direct and explainable safety evaluation for autonomous driving. In this work, we propose DeepAccident, a large-scale dataset generated via a realistic simulator containing diverse accident scenarios that frequently occur in real-world driving. The proposed DeepAccident dataset contains 57K annotated frames and 285K annotated samples, approximately 7 times more than the large-scale nuScenes dataset with 40k annotated samples. In addition, we propose a new task, end-to-end motion and accident prediction, based on the proposed dataset, which can be used to directly evaluate the accident prediction ability for different autonomous driving algorithms. Furthermore, for each scenario, we set four vehicles along with one infrastructure to record data, thus providing diverse viewpoints for accident scenarios and enabling V2X (vehicle-to-everything) research on perception and prediction tasks. Finally, we present a baseline V2X model named V2XFormer that demonstrates superior performance for motion and accident prediction and 3D object detection compared to the single-vehicle model.
翻訳日:2023-04-11 19:58:19 公開日:2023-04-10
# 偶然の世代

Coincidental Generation ( http://arxiv.org/abs/2304.01108v2 )

ライセンス: Link先を確認
Jordan W. Suchow and Necdet G\"urkan(参考訳) 生成型AIモデルは、プライバシー保護データ共有、計算芸術、製品やサービスのパーソナライズ、没入型エンターテイメントなど、様々な産業で多用途ツールとして登場してきた。 ここでは,生成型a.i.モデルの採用と使用に関して,新たなプライバシ上の懸念を提起する。生成型モデルの出力が既存のエンティティと十分に類似している場合,モデルのトレーニングに使用されるデータセットに代表されるものよりも,誤用される場合が多い。 例えば、現在仮想モデリングエージェンシーや合成ストック写真などの商用アプリケーションにデプロイされている合成ポートレートジェネレータについて考えてみましょう。 人間の顔知覚の固有次元が低かったため、すべての合成された顔は、偶然に実際の人物に類似する。 このような偶然発生の例は、類似性の誤用を保証し、生成的A.I.を使用する組織を法的および規制上のリスクにさらしている。

Generative A.I. models have emerged as versatile tools across diverse industries, with applications in privacy-preserving data sharing, computational art, personalization of products and services, and immersive entertainment. Here, we introduce a new privacy concern in the adoption and use of generative A.I. models: that of coincidental generation, where a generative model's output is similar enough to an existing entity, beyond those represented in the dataset used to train the model, to be mistaken for it. Consider, for example, synthetic portrait generators, which are today deployed in commercial applications such as virtual modeling agencies and synthetic stock photography. Due to the low intrinsic dimensionality of human face perception, every synthetically generated face will coincidentally resemble an actual person. Such examples of coincidental generation all but guarantee the misappropriation of likeness and expose organizations that use generative A.I. to legal and regulatory risk.
翻訳日:2023-04-11 19:58:01 公開日:2023-04-10
# クリーン・アタックシナリオにおけるフェデレーション学習に基づく多言語絵文字予測

Federated Learning Based Multilingual Emoji Prediction In Clean and Attack Scenarios ( http://arxiv.org/abs/2304.01005v2 )

ライセンス: Link先を確認
Karim Gamal, Ahmed Gaber and Hossam Amer(参考訳) 連合学習は、分散的でプライベートな設計のため、機械学習コミュニティで成長している分野である。 フェデレート学習におけるモデルトレーニングは、プライバシを維持しながら多くのクライアントデータにアクセスできるようにする複数のクライアントに分散される。 次にサーバは、これらの複数のクライアントで行ったトレーニングをデータにアクセスせずに集約する。これは、あらゆるソーシャルメディアサービスやインスタントメッセージングプラットフォームで広く使用されている絵文字で、ユーザの感情を表現する。 本稿では,クリーンシナリオとアタックシナリオの両方において,連合学習に基づく多言語絵文字予測を提案する。 絵文字予測データはTwitterとSemEvalの絵文字データセットから収集された。 このデータは、すべてのクライアントにおけるクリーンデータの仮定や、一部のクライアントにおけるラベルフリップ攻撃による有毒データの仮定を含む、疎活性化トランスフォーマーモデルサイズのトレーニングと評価に使用される。 これらのモデルの実験結果から,クリーンあるいはアタックのシナリオにおけるフェデレーション学習は,異なるデータソースと分布下で,多言語間絵文字予測における集中型学習と類似していることが示された。 トレーニングされたトランスフォーマーは、プライバシーに加えて、フェデレーション学習の分散メリットに加えて、セメバル絵文字データセットの他のテクニックよりもパフォーマンスが優れています。

Federated learning is a growing field in the machine learning community due to its decentralized and private design. Model training in federated learning is distributed over multiple clients giving access to lots of client data while maintaining privacy. Then, a server aggregates the training done on these multiple clients without access to their data, which could be emojis widely used in any social media service and instant messaging platforms to express users' sentiments. This paper proposes federated learning-based multilingual emoji prediction in both clean and attack scenarios. Emoji prediction data have been crawled from both Twitter and SemEval emoji datasets. This data is used to train and evaluate different transformer model sizes including a sparsely activated transformer with either the assumption of clean data in all clients or poisoned data via label flipping attack in some clients. Experimental results on these models show that federated learning in either clean or attacked scenarios performs similarly to centralized training in multilingual emoji prediction on seen and unseen languages under different data sources and distributions. Our trained transformers perform better than other techniques on the SemEval emoji dataset in addition to the privacy as well as distributed benefits of federated learning.
翻訳日:2023-04-11 19:57:26 公開日:2023-04-10
# セルフオーダーポイント雲

Self-Ordering Point Clouds ( http://arxiv.org/abs/2304.00961v2 )

ライセンス: Link先を確認
Pengwan Yang, Cees G. M. Snoek, Yuki M. Asano(参考訳) 本稿では,3次元点群内の点の代表的な部分集合を点順順序で見つけるタスクについて述べる。 ポイントとクラウドのラベルを取得するのが難しいため、この困難なビジョン問題に対処する試みはごくわずかである。 これらの作業とは違って,我々はセルフスーパービジョン(self-supervision)と呼ばれる3dポイントクラウドにおけるポイントワイズオーダリングのタスクを導入する。 さらに、自己教師型でポイントワイズを学習する最初のエンドツーエンドのトレーニング可能なネットワークにも貢献する。 新たな微分可能な点採点ソート戦略を採用し、階層的なコントラストスキームを構築して自己スーパービジョン信号を得る。 複数のデータセットやタスクの教師付き順序付け手法と比較しても,この手法を広範囲に拡張し,スケーラビリティと優れた性能を示す。

In this paper we address the task of finding representative subsets of points in a 3D point cloud by means of a point-wise ordering. Only a few works have tried to address this challenging vision problem, all with the help of hard to obtain point and cloud labels. Different from these works, we introduce the task of point-wise ordering in 3D point clouds through self-supervision, which we call self-ordering. We further contribute the first end-to-end trainable network that learns a point-wise ordering in a self-supervised fashion. It utilizes a novel differentiable point scoring-sorting strategy and it constructs an hierarchical contrastive scheme to obtain self-supervision signals. We extensively ablate the method and show its scalability and superior performance even compared to supervised ordering methods on multiple datasets and tasks including zero-shot ordering of point clouds from unseen categories.
翻訳日:2023-04-11 19:57:08 公開日:2023-04-10
# 再現:相対ポーズ注意シーン表現トランスフォーマ

RePAST: Relative Pose Attention Scene Representation Transformer ( http://arxiv.org/abs/2304.00947v2 )

ライセンス: Link先を確認
Aleksandr Safin, Daniel Duckworth, Mehdi S. M. Sajjadi(参考訳) SRT(Scene Representation Transformer)はインタラクティブなレートで新しいビューを描画する手法である。 SRTは任意に選択された参照カメラに対してカメラポーズを使用するため、入力ビューの順序に不変ではない。 その結果、SRTは参照フレームを定期的に変更する必要がある大規模シーンには直接適用できない。 本研究では,入力に基準フレームを固定する代わりに,対方向の相対カメラポーズ情報をトランスフォーマの注意機構に直接注入する相対ポーズ注意srt(repast)を提案する。 これは定義上、任意のグローバル参照フレームの選択に不変でありながら、元のメソッドの完全な能力を保っているモデルにつながる。 経験的な結果は、モデルにこの不変性を加えると品質が低下しないことを示している。 これは、完全に潜在的なトランスフォーマーベースのレンダリング方法を大規模シーンに適用するためのステップであると考えています。

The Scene Representation Transformer (SRT) is a recent method to render novel views at interactive rates. Since SRT uses camera poses with respect to an arbitrarily chosen reference camera, it is not invariant to the order of the input views. As a result, SRT is not directly applicable to large-scale scenes where the reference frame would need to be changed regularly. In this work, we propose Relative Pose Attention SRT (RePAST): Instead of fixing a reference frame at the input, we inject pairwise relative camera pose information directly into the attention mechanism of the Transformers. This leads to a model that is by definition invariant to the choice of any global reference frame, while still retaining the full capabilities of the original method. Empirical results show that adding this invariance to the model does not lead to a loss in quality. We believe that this is a step towards applying fully latent transformer-based rendering methods to large-scale scenes.
翻訳日:2023-04-11 19:56:52 公開日:2023-04-10
# メソスコピックキャビティ-QEDシステムにおける深い光・物質相互作用の非摂動効果

Non-perturbative effects of deep-strong light-matter interaction in a mesoscopic cavity-QED system ( http://arxiv.org/abs/2304.00805v2 )

ライセンス: Link先を確認
Andrey Kudlis, Denis Novokreschenov, Ivan Iorsh, Ilya Tokatly(参考訳) 量子ダイマーの2つの群を共通の電磁空洞に配置し、その群のいずれかに静的外部電位を選択的に印加することにより制御するシステムを考える。 真空電磁ゆらぎへの強い結合の過程において、二量体間の創発的な光子アシスト相互作用は、第2群に適用されるポテンシャルに対する第1の偏りのない二量体群の強い非線形量子化クロスポーラライゼーション応答をもたらすことを示す。 全体分極は、数と位置が群内の二量体の数のパリティに依存するような、ほぼ理想的なステップの連続を示す。 この非摂動効果は、有限個のダイマーからなるメソスコピック系の特徴的な特徴であり、一般化されたディッケモデルの予測によく用いられる熱力学的極限で消失する。

We consider a system comprising two groups of quantum dimers placed in a common electromagnetic cavity, and controlled by selectively applying a static external potential to one of the groups. We show that in the regime of deep strong coupling to vacuum electromagnetic fluctuations, the emergent photon-assisted interaction between the dimers leads to a strongly non-linear quantized cross-polarization response of the first, unbiased group of dimers to the potential applied to the second group. The total polarization shows a series of almost ideal steps whose number and position depends on the parity of the numbers of dimers in the groups. This non-perturbative effect is a distinctive feature of mesoscopic systems comprising finite number of dimers and disappears in the thermodynamic limit which is commonly used in the desciption of the generalized Dicke models.
翻訳日:2023-04-11 19:56:38 公開日:2023-04-10
# 参照自由テキスト品質評価における大規模言語モデルの利用を探る:予備的実証的研究

Exploring the Use of Large Language Models for Reference-Free Text Quality Evaluation: A Preliminary Empirical Study ( http://arxiv.org/abs/2304.00723v2 )

ライセンス: Link先を確認
Yi Chen, Rui Wang, Haiyun Jiang, Shuming Shi, Ruifeng Xu(参考訳) 自然言語処理において,生成テキストの品質評価は難しい課題である。 この困難は本文の複雑さと多様性から生じる。 最近では,openaiの大規模言語モデル(llm)であるchatgptが,さまざまなタスクのパフォーマンス向上によって注目を浴びている。 そこで本報告では,LLM,特にChatGPTの有効性について検討し,テキスト品質評価におけるそれらの使用方法を検討する。 chatgptまたは類似のllmに基づく3種類の参照フリー評価手法を比較した。 実験の結果,ChatGPTは様々な視点からテキスト品質を効果的に評価でき,既存の自動メトリクスよりも優れた性能を示すことがわかった。 特に,ChatGPTを用いてテキスト品質を計測する数値スコアを生成するExplicit Scoreは,この3つの手法の中で最も効果的で信頼性の高い手法である。 しかし、ChatGPTを用いて2つのテキストの品質を直接比較することは、最適以下の結果をもたらす可能性がある。 本稿では,ChatGPT などの LLM を用いたテキスト品質評価手法の選択について,貴重な知見を提供する。

Evaluating the quality of generated text is a challenging task in natural language processing. This difficulty arises from the inherent complexity and diversity of text. Recently, OpenAI's ChatGPT, a powerful large language model (LLM), has garnered significant attention due to its impressive performance in various tasks. Therefore, we present this report to investigate the effectiveness of LLMs, especially ChatGPT, and explore ways to optimize their use in assessing text quality. We compared three kinds of reference-free evaluation methods based on ChatGPT or similar LLMs. The experimental results prove that ChatGPT is capable to evaluate text quality effectively from various perspectives without reference and demonstrates superior performance than most existing automatic metrics. In particular, the Explicit Score, which utilizes ChatGPT to generate a numeric score measuring text quality, is the most effective and reliable method among the three exploited approaches. However, directly comparing the quality of two texts using ChatGPT may lead to suboptimal results. We hope this report will provide valuable insights into selecting appropriate methods for evaluating text quality with LLMs such as ChatGPT.
翻訳日:2023-04-11 19:56:19 公開日:2023-04-10
# SAR ATRにおけるディープラーニングの非因性発見と説明

Discovering and Explaining the Non-Causality of Deep Learning in SAR ATR ( http://arxiv.org/abs/2304.00668v3 )

ライセンス: Link先を確認
Weijie Li, Wei Yang, Li Liu, Wenpeng Zhang, Yongxiang Liu(参考訳) 近年、深層学習はSAR ATRで広く使われており、MSTARデータセット上で優れた性能を発揮している。 しかし、撮像条件が制約されているため、MSTARは背景相関などのデータバイアス、すなわち背景クラッタ特性は対象クラスと急激な相関を持つ。 ディープラーニングは、トレーニングエラーを減らすためにクラッタに過度に適合する。 したがって, SAR ATR における深層学習の非因果関係を反映している。 既存の手法はこの現象を質的にのみ分析する。 本稿では,Shapley値に基づいて,異なる領域の目標認識に対する貢献度を定量化する。 クラッタのShapley値は、オーバーフィッティングの度合いを測る。 さらに,データバイアスとモデルバイアスが非因果性にどのように寄与するかを説明する。 簡潔に言うと、データバイアスはトレーニングとテストセットで同等の信号対クラッタ比とクラッタテクスチャをもたらす。 様々なモデル構造は、これらのバイアスに対して異なるオーバーフィット度を持っています。 MSTARデータセットの標準動作条件下での各種モデル実験の結果は,その結論を支持する。 私たちのコードはhttps://github.com/waterdisappear/Data-Bias-in-MSTARで利用可能です。

In recent years, deep learning has been widely used in SAR ATR and achieved excellent performance on the MSTAR dataset. However, due to constrained imaging conditions, MSTAR has data biases such as background correlation, i.e., background clutter properties have a spurious correlation with target classes. Deep learning can overfit clutter to reduce training errors. Therefore, the degree of overfitting for clutter reflects the non-causality of deep learning in SAR ATR. Existing methods only qualitatively analyze this phenomenon. In this paper, we quantify the contributions of different regions to target recognition based on the Shapley value. The Shapley value of clutter measures the degree of overfitting. Moreover, we explain how data bias and model bias contribute to non-causality. Concisely, data bias leads to comparable signal-to-clutter ratios and clutter textures in training and test sets. And various model structures have different degrees of overfitting for these biases. The experimental results of various models under standard operating conditions on the MSTAR dataset support our conclusions. Our code is available at https://github.com/waterdisappear/Data-Bias-in-MSTAR.
翻訳日:2023-04-11 19:56:01 公開日:2023-04-10
# NARSと強化学習の比較:ONAと$Q$-Learningアルゴリズムの分析

Comparing NARS and Reinforcement Learning: An Analysis of ONA and $Q$-Learning Algorithms ( http://arxiv.org/abs/2304.03291v2 )

ライセンス: Link先を確認
Ali Beikmohammadi, and Sindri Magn\'usson(参考訳) 近年、強化学習(RL)は、機械学習におけるシーケンスベースのタスクを解くための一般的なアプローチとして現れている。 しかし、RLの適切な代替品を見つけることは、エキサイティングで革新的な研究分野である。 注目を集めた一つの代替手段は、汎用的な認知推論フレームワークである非軸性推論システム(NARS)である。 本稿では,シークエンスに基づく課題解決におけるRLの代替として,NARSの可能性を探る。 そこで我々は,オープンAIジムを用いて作成した各種環境におけるNARSとQ$ラーニングの実装として,ONAの性能の比較分析を行った。 環境の難易度は単純から複雑まで様々である。 その結果,NARSは多様な環境,特に非決定論的環境において,RLに代わる有望な代替手段であることが示された。

In recent years, reinforcement learning (RL) has emerged as a popular approach for solving sequence-based tasks in machine learning. However, finding suitable alternatives to RL remains an exciting and innovative research area. One such alternative that has garnered attention is the Non-Axiomatic Reasoning System (NARS), which is a general-purpose cognitive reasoning framework. In this paper, we delve into the potential of NARS as a substitute for RL in solving sequence-based tasks. To investigate this, we conduct a comparative analysis of the performance of ONA as an implementation of NARS and $Q$-Learning in various environments that were created using the Open AI gym. The environments have different difficulty levels, ranging from simple to complex. Our results demonstrate that NARS is a promising alternative to RL, with competitive performance in diverse environments, particularly in non-deterministic ones.
翻訳日:2023-04-11 19:49:55 公開日:2023-04-10
# MS3D:3次元物体検出における教師なし領域適応のための複数検出器の活用

MS3D: Leveraging Multiple Detectors for Unsupervised Domain Adaptation in 3D Object Detection ( http://arxiv.org/abs/2304.02431v2 )

ライセンス: Link先を確認
Darren Tsai, Julie Stephany Berrio, Mao Shan, Eduardo Nebot and Stewart Worrall(参考訳) 3dオブジェクト検出における教師なしドメイン適応のための新しい自己学習パイプラインであるmulti-source 3d (ms3d) を導入する。 3D検出器の顕著な精度にもかかわらず、それらはしばしば特定のドメインバイアスに過度に適合し、様々なセンサーの設定や環境において最適以下の性能をもたらす。 既存の方法は通常、1つの検出器を対象のドメインに適応させることに重点を置いており、異なる検出器が異なる未知のドメインに対して異なる専門知識を持っているという事実を見落としている。 ms3dは、複数のソースドメインからの異なる事前学習された検出器を結合し、時間情報を組み込んで高品質な擬似ラベルを生成し、微調整する。 提案したKernel-Density Estimation (KDE) Box Fusion法は,複数のドメインからのボックス提案を融合し,最高のソース領域検出器の性能を超える擬似ラベルを得る。 ms3dは、領域シフトに対するロバスト性が向上し、より長い距離にわたって正確な擬似ラベルを生成する。 提案手法は,すべての評価データセットに対して最先端の性能を達成し,事前学習したソース検出器の選択が自己学習結果に最小限の影響を与えることを示す。

We introduce Multi-Source 3D (MS3D), a new self-training pipeline for unsupervised domain adaptation in 3D object detection. Despite the remarkable accuracy of 3D detectors, they often overfit to specific domain biases, leading to suboptimal performance in various sensor setups and environments. Existing methods typically focus on adapting a single detector to the target domain, overlooking the fact that different detectors possess distinct expertise on different unseen domains. MS3D leverages this by combining different pre-trained detectors from multiple source domains and incorporating temporal information to produce high-quality pseudo-labels for fine-tuning. Our proposed Kernel-Density Estimation (KDE) Box Fusion method fuses box proposals from multiple domains to obtain pseudo-labels that surpass the performance of the best source domain detectors. MS3D exhibits greater robustness to domain shifts and produces accurate pseudo-labels over greater distances, making it well-suited for high-to-low beam domain adaptation and vice versa. Our method achieved state-of-the-art performance on all evaluated datasets, and we demonstrate that the choice of pre-trained source detectors has minimal impact on the self-training result, making MS3D suitable for real-world applications.
翻訳日:2023-04-11 19:49:40 公開日:2023-04-10
# 教師のいないプライバシ保全連系蒸留における選択的知識共有

Selective Knowledge Sharing for Privacy-Preserving Federated Distillation without A Good Teacher ( http://arxiv.org/abs/2304.01731v2 )

ライセンス: Link先を確認
Jiawei Shao, Fangzhao Wu, Jun Zhang(参考訳) フェデレーション学習は、ローカルデータを公開せずに、プライバシー保護による協調学習を約束する一方で、ホワイトボックス攻撃に弱いままであり、異種クライアントへの適応に苦慮している。 fd(federated distillation)は、教師モデルから生徒モデルへ知識を移す効果的な技術であり、プライバシー保証を強化し、モデルの不均一性に対処するためのパラダイムである。 それでも、ローカルなデータ分布の変化と、よく訓練された教師モデルの欠如によって生じる課題は、モデル性能を著しく低下させる誤解を招きあい、曖昧な知識共有につながる。 この問題に対処するため,本稿では,fdのための選択的知識共有機構を提案する。 クライアント側セレクタとサーバ側セレクタを含み、それぞれローカルとアンサンブルの予測から知識を正確かつ正確に識別する。 理論的洞察に裏付けられた実証研究は、このアプローチがfdフレームワークの一般化能力を高め、ベースラインメソッドを一貫して上回っていることを証明している。 本研究では,プライバシー保護型協調学習における効果的な知識伝達の方向性を示す。

While federated learning is promising for privacy-preserving collaborative learning without revealing local data, it remains vulnerable to white-box attacks and struggles to adapt to heterogeneous clients. Federated distillation (FD), built upon knowledge distillation--an effective technique for transferring knowledge from a teacher model to student models--emerges as an alternative paradigm, which provides enhanced privacy guarantees and addresses model heterogeneity. Nevertheless, challenges arise due to variations in local data distributions and the absence of a well-trained teacher model, which leads to misleading and ambiguous knowledge sharing that significantly degrades model performance. To address these issues, this paper proposes a selective knowledge sharing mechanism for FD, termed Selective-FD. It includes client-side selectors and a server-side selector to accurately and precisely identify knowledge from local and ensemble predictions, respectively. Empirical studies, backed by theoretical insights, demonstrate that our approach enhances the generalization capabilities of the FD framework and consistently outperforms baseline methods. This study presents a promising direction for effective knowledge transfer in privacy-preserving collaborative learning.
翻訳日:2023-04-11 19:48:17 公開日:2023-04-10
# 共通情報を用いた複数エージェント制御のための新しいポイントベースアルゴリズム

A Novel Point-based Algorithm for Multi-agent Control Using the Common Information Approach ( http://arxiv.org/abs/2304.04346v1 )

ライセンス: Link先を確認
Dengwang Tang, Ashutosh Nayyar, Rahul Jain(参考訳) Common Information (CI) アプローチは、マルチエージェント確率制御問題を、コーディネータのPOMDPと呼ばれる単一エージェントの部分的なマルコフ決定問題(POMDP)に変換する体系的な方法を提供する。 しかし、そのようなPOMDPはその極端に大きな作用空間のため解決が難しい。 本稿では,ciアプローチとポイントベースpomdpアルゴリズムを組み合わせた多エージェント確率制御問題のための新しいアルゴリズムであるcoordinator's heuristic search value iteration (chsvi)を提案する。 いくつかのベンチマーク問題を最適に解くことでアルゴリズムを実証する。

The Common Information (CI) approach provides a systematic way to transform a multi-agent stochastic control problem to a single-agent partially observed Markov decision problem (POMDP) called the coordinator's POMDP. However, such a POMDP can be hard to solve due to its extraordinarily large action space. We propose a new algorithm for multi-agent stochastic control problems, called coordinator's heuristic search value iteration (CHSVI), that combines the CI approach and point-based POMDP algorithms for large action spaces. We demonstrate the algorithm through optimally solving several benchmark problems.
翻訳日:2023-04-11 16:16:18 公開日:2023-04-10
# 非条件拡散モデルを用いたリアルタイムテキスト駆動画像操作

Towards Real-time Text-driven Image Manipulation with Unconditional Diffusion Models ( http://arxiv.org/abs/2304.04344v1 )

ライセンス: Link先を確認
Nikita Starodubcev, Dmitry Baranchuk, Valentin Khrulkov and Artem Babenko(参考訳) 近年の拡散モデルにより、画像編集のための強力な機器が多数実現されている。 これらの機器の1つは、テキスト駆動の画像操作であり、提供されるテキスト記述に従って画像の意味的属性を編集する。 一般的なテキスト条件拡散モデルは、幅広いテキストプロンプトに対して様々な高品質の画像操作方法を提供する。 既存の拡散法はすでに幅広いテキストプロンプトに対して高品質な画像操作を実現している。 しかし実際には、これらの手法はハイエンドのGPUでも高い計算コストを必要とする。 これは、拡散ベースの画像編集、特にユーザーデバイス上で実行される場合の実際のアプリケーションの可能性を大きく制限する。 本稿では,無条件拡散モデルに基づく最近のテキスト駆動編集手法の効率化に取り組み,画像操作を4.5~10倍高速に学習し,8倍高速化する新しいアルゴリズムを開発した。 我々は、人間のアノテータを用いて、複数のデータセットに対するアプローチの視覚的品質と表現性を慎重に評価する。 実験により,我々のアルゴリズムがより高価な手法の品質を達成することを実証した。 最後に,ユーザの指定した画像とテキスト記述に事前学習したモデルを4秒間だけ適用可能であることを示す。 この設定では、よりコンパクトな非条件拡散モデルは、人気のあるテキスト条件拡散モデルに対する合理的な代替と見なすことができる。

Recent advances in diffusion models enable many powerful instruments for image editing. One of these instruments is text-driven image manipulations: editing semantic attributes of an image according to the provided text description. % Popular text-conditional diffusion models offer various high-quality image manipulation methods for a broad range of text prompts. Existing diffusion-based methods already achieve high-quality image manipulations for a broad range of text prompts. However, in practice, these methods require high computation costs even with a high-end GPU. This greatly limits potential real-world applications of diffusion-based image editing, especially when running on user devices. In this paper, we address efficiency of the recent text-driven editing methods based on unconditional diffusion models and develop a novel algorithm that learns image manipulations 4.5-10 times faster and applies them 8 times faster. We carefully evaluate the visual quality and expressiveness of our approach on multiple datasets using human annotators. Our experiments demonstrate that our algorithm achieves the quality of much more expensive methods. Finally, we show that our approach can adapt the pretrained model to the user-specified image and text description on the fly just for 4 seconds. In this setting, we notice that more compact unconditional diffusion models can be considered as a rational alternative to the popular text-conditional counterparts.
翻訳日:2023-04-11 16:16:09 公開日:2023-04-10
# 証明可能なブラックボックス攻撃: 敵の例に対する確実な攻撃の保証

Certifiable Black-Box Attack: Ensuring Provably Successful Attack for Adversarial Examples ( http://arxiv.org/abs/2304.04343v1 )

ライセンス: Link先を確認
Hanbin Hong and Yuan Hong(参考訳) ブラックボックスの敵攻撃は、機械学習モデルを覆す強力な可能性を示している。 既存のブラックボックス敵攻撃は、ターゲットモデルを反復的にクエリし、またはローカルサロゲートモデルの転送可能性を活用することで敵の例を作る。 このような攻撃が成功するかどうかはまだ明らかになっていない。 本稿では, 敵攻撃の新たなパラダイムとして, 敵攻撃の成功率を保証できる認証されたブラックボックス攻撃について, 最善を尽くすための第一歩を踏み出した。 具体的には, ランダム化平滑化法を改訂し, 攻撃成功率を確保するための新理論を確立した。 検証可能な攻撃成功率(CASR)を保証するために,対象モデルを問合せするためのランダムなクエリ手法,認証可能な敵を導出するためのスムーズな自己教師型摂動の初期化手法,認証可能な敵の摂動サイズを削減する幾何学的シフト手法など,いくつかの新しい手法を設計する。 我々は、CIFAR10およびImageNetデータセットに対する認証ブラックボックス攻撃の性能を、異なるレベルの防御に対して総合的に評価した。 理論および実験の結果から,提案する検証可能な攻撃の有効性が検証された。

Black-box adversarial attacks have shown strong potential to subvert machine learning models. Existing black-box adversarial attacks craft the adversarial examples by iteratively querying the target model and/or leveraging the transferability of a local surrogate model. Whether such attack can succeed remains unknown to the adversary when empirically designing the attack. In this paper, to our best knowledge, we take the first step to study a new paradigm of adversarial attacks -- certifiable black-box attack that can guarantee the attack success rate of the crafted adversarial examples. Specifically, we revise the randomized smoothing to establish novel theories for ensuring the attack success rate of the adversarial examples. To craft the adversarial examples with the certifiable attack success rate (CASR) guarantee, we design several novel techniques, including a randomized query method to query the target model, an initialization method with smoothed self-supervised perturbation to derive certifiable adversarial examples, and a geometric shifting method to reduce the perturbation size of the certifiable adversarial examples for better imperceptibility. We have comprehensively evaluated the performance of the certifiable black-box attack on CIFAR10 and ImageNet datasets against different levels of defenses. Both theoretical and experimental results have validated the effectiveness of the proposed certifiable attack.
翻訳日:2023-04-11 16:15:50 公開日:2023-04-10
# 確率帯域におけるレグレト分布:期待とリスクの最適トレードオフ

Regret Distribution in Stochastic Bandits: Optimal Trade-off between Expectation and Tail Risk ( http://arxiv.org/abs/2304.04341v1 )

ライセンス: Link先を確認
David Simchi-Levi, Zeyu Zheng, Feng Zhu(参考訳) 確率的多腕バンディット問題における後悔分布に対する期待とテールリスクのトレードオフについて検討した。 我々は、ポリシー設計の3つの望ましい特性(最悪の場合の最適性、インスタンス依存の一貫性、ライトテールのリスク)の相互作用を完全に特徴付ける。 予測された後悔の順序が、最悪のケースとインスタンス依存のシナリオの両方において、後悔のテール確率の減衰率に正確に影響することを示す。 後悔のしきい値に対する最適後悔のテール確率を特徴付ける新しい方針が提案されている。 Concretely, for any given $\alpha\in[1/2, 1)$ and $\beta\in[0, \alpha]$, our policy achieves a worst-case expected regret of $\tilde O(T^\alpha)$ (we call it $\alpha$-optimal) and an instance-dependent expected regret of $\tilde O(T^\beta)$ (we call it $\beta$-consistent), while enjoys a probability of incurring an $\tilde O(T^\delta)$ regret ($\delta\geq\alpha$ in the worst-case scenario and $\delta\geq\beta$ in the instance-dependent scenario) that decays exponentially with a polynomial $T$ term. このような崩壊速度は最も達成可能であることが証明される。 さらに、時間的地平線$T$が先行値であるか否かのインスタンス依存シナリオの下で、最適テールレートの本質的なギャップを発見する。 興味深いことに、最悪のシナリオの場合、このギャップは消えます。 最後に,(1)非定常ベースライン報酬を伴う確率的多腕バンディット設定,(2)確率的リニアバンディット設定に拡張する。 以上の結果から, 最悪のシナリオと事例に依存したシナリオにおいて, 後悔の予測と後悔の尾のリスクのトレードオフに関する知見が得られた。

We study the trade-off between expectation and tail risk for regret distribution in the stochastic multi-armed bandit problem. We fully characterize the interplay among three desired properties for policy design: worst-case optimality, instance-dependent consistency, and light-tailed risk. We show how the order of expected regret exactly affects the decaying rate of the regret tail probability for both the worst-case and instance-dependent scenario. A novel policy is proposed to characterize the optimal regret tail probability for any regret threshold. Concretely, for any given $\alpha\in[1/2, 1)$ and $\beta\in[0, \alpha]$, our policy achieves a worst-case expected regret of $\tilde O(T^\alpha)$ (we call it $\alpha$-optimal) and an instance-dependent expected regret of $\tilde O(T^\beta)$ (we call it $\beta$-consistent), while enjoys a probability of incurring an $\tilde O(T^\delta)$ regret ($\delta\geq\alpha$ in the worst-case scenario and $\delta\geq\beta$ in the instance-dependent scenario) that decays exponentially with a polynomial $T$ term. Such decaying rate is proved to be best achievable. Moreover, we discover an intrinsic gap of the optimal tail rate under the instance-dependent scenario between whether the time horizon $T$ is known a priori or not. Interestingly, when it comes to the worst-case scenario, this gap disappears. Finally, we extend our proposed policy design to (1) a stochastic multi-armed bandit setting with non-stationary baseline rewards, and (2) a stochastic linear bandit setting. Our results reveal insights on the trade-off between regret expectation and regret tail risk for both worst-case and instance-dependent scenarios, indicating that more sub-optimality and inconsistency leave space for more light-tailed risk of incurring a large regret, and that knowing the planning horizon in advance can make a difference on alleviating tail risks.
翻訳日:2023-04-11 16:15:25 公開日:2023-04-10
# ChatGPTは良い感度分析器か? 予備的研究

Is ChatGPT a Good Sentiment Analyzer? A Preliminary Study ( http://arxiv.org/abs/2304.04339v1 )

ライセンス: Link先を確認
Zengzhi Wang, Qiming Xie, Zixiang Ding, Yi Feng, Rui Xia(参考訳) 近年、ChatGPTは研究コミュニティと一般の双方から大きな注目を集めている。 特に、ユニバーサル感情分析器として使えるかどうかに興味があります。 そこで本研究では,テキストに含まれる意見,感情,感情の理解について,ChatGPTの予備評価を行う。 具体的には、標準評価、極性シフト評価、オープンドメイン評価、感情推定評価の4つの設定で評価する。 上記の評価は18のベンチマークデータセットと5つの代表的感情分析タスクを含み、ChatGPTと細調整されたBERTおよびそれに対応するSOTAモデルを比較した。 また、人間の評価を行い、感情分析能力の深い理解を得るために、定性的なケーススタディを提示する。

Recently, ChatGPT has drawn great attention from both the research community and the public. We are particularly curious about whether it can serve as a universal sentiment analyzer. To this end, in this work, we provide a preliminary evaluation of ChatGPT on the understanding of opinions, sentiments, and emotions contained in the text. Specifically, we evaluate it in four settings, including standard evaluation, polarity shift evaluation, open-domain evaluation, and sentiment inference evaluation. The above evaluation involves 18 benchmark datasets and 5 representative sentiment analysis tasks, and we compare ChatGPT with fine-tuned BERT and corresponding state-of-the-art (SOTA) models on end-task. Moreover, we also conduct human evaluation and present some qualitative case studies to gain a deep comprehension of its sentiment analysis capabilities.
翻訳日:2023-04-11 16:14:52 公開日:2023-04-10
# 磁場インバージョン後の荷電粒子のエネルギー及び磁気モーメントの断熱増幅

Adiabatic amplification of energy and magnetic moment of a charged particle after the magnetic field inversion ( http://arxiv.org/abs/2304.04338v1 )

ライセンス: Link先を確認
Viktor V. Dodonov and Alexandre V. Dodonov(参考訳) 均質な磁場中に置かれた量子荷電粒子のエネルギーと磁気モーメントの進化を研究する。 ゼロ値を通る1つの磁場が通過した後、エネルギーと周波数の有名な断熱的不変比が再確立されるが、初期状態よりも比例係数が高いことが示される。 この比例係数の具体的な値は、ゼロ点に近い時間における周波数依存性のパワー指数に依存する。 特に、初期基底状態(半径と角の量子数ゼロ)の断熱比は、周波数が時間関数として直線的にゼロになる場合に三倍になる。 ラーモア周波数が1回以上ゼロになった場合、断熱比例係数はゼロ点間の時間間隔の長さに強く依存するため、平均エネルギーの挙動はゼロ値を通る多くの通過の後準確率となる。 もともとのボルン・フォック断熱定理は、周波数が0を通過した後は機能しない。 しかし、その一般化は見出され、初期フォック状態は多くの瞬時フォック状態の広い重ね合わせとなり、その重みは新しい断熱的な状態の時間に依存しない。

We study the evolution of the energy and magnetic moment of a quantum charged particle placed in a homogeneous magnetic field, when this field changes adiabatically its sign. We show that after a single magnetic field passage through zero value, the famous adiabatic invariant ratio of energy to frequency is reestablished again, but with the proportionality coefficient higher than in the initial state. The concrete value of this proportionality coefficient depends on the power index of the frequency dependence on time near zero point. In particular, the adiabatic ratio of the initial ground state (with zero radial and angular quantum numbers) triplicates if the frequency tends to zero linearly as function of time. If the Larmor frequency attains zero more than once, the adiabatic proportionality coefficient strongly depends on the lengths of the time intervals between zero points, so that the mean energy behavior can be quasi-stochastic after many passages through zero value. The original Born-Fock adiabatic theorem does not work after the frequency passes through zero. However, its generalization is found: the initial Fock state becomes a wide superposition of many instantaneous Fock states, whose weights do not depend on time in the new adiabatic regime.
翻訳日:2023-04-11 16:14:39 公開日:2023-04-10
# 分割、マージ、洗練:学習過剰セグメンテーションと反復探索による厳密なバウンディングボックスの適合

Split, Merge, and Refine: Fitting Tight Bounding Boxes via Learned Over-Segmentation and Iterative Search ( http://arxiv.org/abs/2304.04336v1 )

ライセンス: Link先を確認
Chanhyeok Park, Minhyuk Sung(参考訳) 本稿では,ニューラルネットワークを用いたオーバーセグメンテーションと反復的マージ・リファインメントにより,3次元形状のタイトなバウンディングボックスを探索する新しい枠組みを提案する。 完全境界を保証しつつ、形状のタイトバウンディングボックスを達成することは、効率的な幾何学的操作と教師なし意味部分検出にとって必須のタスクであるが、以前の方法では、完全なカバレッジとタイトネスを達成できなかった。 目的の非微分性のため、ニューラルネットワークベースの手法はこれらの目的には適さないが、古典的な反復探索法は初期化に対する感度に苦しむ。 学習ベースおよび反復探索手法の最良の統合は、両方の特性を持つバウンディングボックスを実現できることを示す。 我々は、既存の教師なしセグメンテーションネットワークを用いて、形状を \textbf{split} し、過剰セグメンテーションを得る。 次に、階層型 \textbf{merging} を新しいタイトネス対応マージおよび停止基準に適用する。 初期化に対する感度を克服するために、より広い探索を促進するソフト報酬機能を備えたゲームセットアップにおけるバウンディングボックスパラメータを \textbf{refine} する。 最後に、MCTSに基づくマルチアクション空間探索により、バウンディングボックスをさらに改善する。 実験により, 本手法のカバー範囲, 厳密度, バウンディングボックス数について検討した。

We present a novel framework for finding a set of tight bounding boxes of a 3D shape via neural-network-based over-segmentation and iterative merging and refinement. Achieving tight bounding boxes of a shape while guaranteeing the complete boundness is an essential task for efficient geometric operations and unsupervised semantic part detection, but previous methods fail to achieve both full coverage and tightness. Neural-network-based methods are not suitable for these goals due to the non-differentiability of the objective, and also classic iterative search methods suffer from their sensitivity to the initialization. We demonstrate that the best integration of the learning-based and iterative search methods can achieve the bounding boxes with both properties. We employ an existing unsupervised segmentation network to \textbf{split} the shape and obtain over-segmentation. Then, we apply hierarchical \textbf{merging} with our novel tightness-aware merging and stopping criteria. To overcome the sensitivity to the initialization, we also \textbf{refine} the bounding box parameters in a game setup with a soft reward function promoting a wider exploration. Lastly, we further improve the bounding boxes with a MCTS-based multi-action space exploration. Our experimental results demonstrate the full coverage, tightness, and the adequate number of bounding boxes of our method.
翻訳日:2023-04-11 16:14:18 公開日:2023-04-10
# Agronav:セマンティックセグメンテーションとセマンティックライン検出を用いた農業用ロボット・車両の自律ナビゲーションフレームワーク

Agronav: Autonomous Navigation Framework for Agricultural Robots and Vehicles using Semantic Segmentation and Semantic Line Detection ( http://arxiv.org/abs/2304.04333v1 )

ライセンス: Link先を確認
Shivam K Panda, Yongkyu Lee, M. Khalid Jawed(参考訳) 農業分野における視覚に基づくナビゲーションの実現は、2つの重要な要素に依存している。 1)シーン内のキーコンポーネントの正確な識別、及び 2) 走行可能な土地から作物を分離する境界線の検出によるレーンの識別。 そこで我々は,セマンティックセグメンテーションと意味線検出モデルを用いて,入力画像から中心線を順次処理して出力する,エンド・ツー・エンドの視覚に基づく自律ナビゲーションフレームワークagronavを提案する。 また、Agroscapesは6つの異なる作物にまたがって収集されたピクセルレベルのアノテートデータセットで、高さや角度が異なる。 これにより、agroscapesで訓練されたフレームワークは、地上と空中の両方のロボットプラットフォームに一般化できる。 コード、モデル、データセットは \href{https://github.com/shivamkumarpanda/agronav}{github.com/shivamkumarpanda/agronav} でリリースされる。

The successful implementation of vision-based navigation in agricultural fields hinges upon two critical components: 1) the accurate identification of key components within the scene, and 2) the identification of lanes through the detection of boundary lines that separate the crops from the traversable ground. We propose Agronav, an end-to-end vision-based autonomous navigation framework, which outputs the centerline from the input image by sequentially processing it through semantic segmentation and semantic line detection models. We also present Agroscapes, a pixel-level annotated dataset collected across six different crops, captured from varying heights and angles. This ensures that the framework trained on Agroscapes is generalizable across both ground and aerial robotic platforms. Codes, models and dataset will be released at \href{https://github.com/shivamkumarpanda/agronav}{github.com/shivamkumarpanda/agronav}.
翻訳日:2023-04-11 16:13:56 公開日:2023-04-10
# OpenAGI: LLMがドメインエキスパートと出会ったとき

OpenAGI: When LLM Meets Domain Experts ( http://arxiv.org/abs/2304.04370v1 )

ライセンス: Link先を確認
Yingqiang Ge, Wenyue Hua, Jianchao Ji, Juntao Tan, Shuyuan Xu, Yongfeng Zhang(参考訳) 人間の知性は、複雑なタスクを解決するために、基本的なスキルを複雑なものに組み立てる素晴らしい能力を持っている。 この能力は人工知能(ai)にも等しく重要であり、大規模で包括的な知的モデルの開発に加えて、人工知能(agi)の追求において複雑なタスク解決のために様々なドメイン固有のエキスパートモデルを活用する能力を備えることが重要であると主張する。 近年の大規模言語モデル(llm)の発展は驚くべき学習能力と推論能力を示しており、複雑なタスクを解決するために外部モデルを選択、合成、実行するためのコントローラとして有望である。 本稿では,オープンソースのAGI研究プラットフォームであるOpenAGIを開発し,タスク固有のデータセット,評価指標,さまざまな拡張可能なモデルなどを伴って,複雑なマルチステップタスクを提供する。 OpenAGIは複雑なタスクを自然言語クエリとして定式化し、LLMへの入力として機能する。 LLMはその後、タスクに対処するためにOpenAGIが提供するモデルを選択し、合成し、実行します。 さらに,課題解決結果をフィードバックとして利用するタスクフィードバック(rltf)機構から強化学習を行い,llmのタスク解決能力を向上させる。 したがって、LLMは複雑なタスクを解決するために様々な外部モデルを合成する責任を持ち、RTLFはタスク解決能力を改善するためのフィードバックを提供し、自己改善AIのためのフィードバックループを可能にする。 我々は、複雑なタスク解決のための様々な専門家モデルを操作するLLMのパラダイムが、AGIに対する有望なアプローチであると信じている。 コミュニティによるAGIの能力の長期的な改善と評価を容易にするため、私たちはOpenAGIプロジェクトのコード、ベンチマーク、評価方法をhttps://github.com/agiresearch/OpenAGIでオープンソース化しました。

Human intelligence has the remarkable ability to assemble basic skills into complex ones so as to solve complex tasks. This ability is equally important for Artificial Intelligence (AI), and thus, we assert that in addition to the development of large, comprehensive intelligent models, it is equally crucial to equip such models with the capability to harness various domain-specific expert models for complex task-solving in the pursuit of Artificial General Intelligence (AGI). Recent developments in Large Language Models (LLMs) have demonstrated remarkable learning and reasoning abilities, making them promising as a controller to select, synthesize, and execute external models to solve complex tasks. In this project, we develop OpenAGI, an open-source AGI research platform, specifically designed to offer complex, multi-step tasks and accompanied by task-specific datasets, evaluation metrics, and a diverse range of extensible models. OpenAGI formulates complex tasks as natural language queries, serving as input to the LLM. The LLM subsequently selects, synthesizes, and executes models provided by OpenAGI to address the task. Furthermore, we propose a Reinforcement Learning from Task Feedback (RLTF) mechanism, which uses the task-solving result as feedback to improve the LLM's task-solving ability. Thus, the LLM is responsible for synthesizing various external models for solving complex tasks, while RLTF provides feedback to improve its task-solving ability, enabling a feedback loop for self-improving AI. We believe that the paradigm of LLMs operating various expert models for complex task-solving is a promising approach towards AGI. To facilitate the community's long-term improvement and evaluation of AGI's ability, we open-source the code, benchmark, and evaluation methods of the OpenAGI project at https://github.com/agiresearch/OpenAGI.
翻訳日:2023-04-11 16:07:47 公開日:2023-04-10
# 円錐交叉量子力学の局所ダイアバティック表現

Local diabatic representation of conical intersection quantum dynamics ( http://arxiv.org/abs/2304.04369v1 )

ライセンス: Link先を確認
Bing Gu(参考訳) 円錐交叉は多原子分子中でユビキタスであり、化学や物理学の幅広い現象の原因となっている。 円錐交叉周辺における相関電子-原子核動力学の局所的ダイアバティック表現を導入,実装する。 断熱電子状態を用いるが、非断熱結合の特異性は避け、電子波動関数相の異なるゲージ選択に対して堅牢である。 二次元円錐交叉モデルで示されるこの表現は、非断熱遷移、電子コヒーレンス、幾何学的位相を捉える。

Conical intersections are ubiquitous in polyatomic molecules and responsible for a wide range of phenomena in chemistry and physics. We introduce and implement a local diabatic representation for the correlated electron-nuclear dynamics around conical intersections. It employs the adiabatic electronic states but avoids the singularity of nonadiabatic couplings, and is robust to different gauge choices of the electronic wavefunction phases. Illustrated by a two-dimensional conical intersection model, this representation captures nonadiabatic transitions, electronic coherence, and geometric phase.
翻訳日:2023-04-11 16:07:12 公開日:2023-04-10
# 大規模リモートセンシング画像検索のためのマルチビューグラフハッシュのための局所保存

Locality Preserving Multiview Graph Hashing for Large Scale Remote Sensing Image Search ( http://arxiv.org/abs/2304.04368v1 )

ライセンス: Link先を確認
Wenyun Li, Guo Zhong, Xingyu Lu, Chi-Man Pun(参考訳) ハッシュはリモートセンシング画像検索で非常に人気がある。 本稿では,大規模リモートセンシングデータセットの検索画像を取得するために,学習可能なパラメータを持つマルチビューハッシュを提案する。 既存の方法は、実世界のリモートセンシングデータが高次元空間に埋め込まれた低次元多様体上にあることを常に無視する。 本稿では,従来の手法とは異なり,ビュー固有低次元部分空間におけるコンセンサスコンパクト符号の学習を提案する。 さらに,複雑なパラメータチューニングを回避するためにハイパーパラメータ学習モジュールを追加した。 提案手法の有効性を証明するために,広範に使用されている3つのリモートセンシングデータセットの実験を行い,それらを7つの最先端手法と比較した。 実験の結果,提案手法は,他の手法と比較して競争力のある結果が得られることがわかった。

Hashing is very popular for remote sensing image search. This article proposes a multiview hashing with learnable parameters to retrieve the queried images for a large-scale remote sensing dataset. Existing methods always neglect that real-world remote sensing data lies on a low-dimensional manifold embedded in high-dimensional ambient space. Unlike previous methods, this article proposes to learn the consensus compact codes in a view-specific low-dimensional subspace. Furthermore, we have added a hyperparameter learnable module to avoid complex parameter tuning. In order to prove the effectiveness of our method, we carried out experiments on three widely used remote sensing data sets and compared them with seven state-of-the-art methods. Extensive experiments show that the proposed method can achieve competitive results compared to the other method.
翻訳日:2023-04-11 16:07:03 公開日:2023-04-10
# 自律運転のためのランダム森林を用いたモデル予測制御の残差モデル学習

Learning Residual Model of Model Predictive Control via Random Forests for Autonomous Driving ( http://arxiv.org/abs/2304.04366v1 )

ライセンス: Link先を確認
Kang Zhao, Jianru Xue, Xiangning Meng, Gengxin Li, and Mengsen Wu(参考訳) 自律運転のための学習ベースモデル予測制御(MPC)の大きな問題は、システムモデルの予測精度と計算効率の矛盾である。 システムモデルがカバーする状況が多ければ多いほど、高度に非線形で非凸な性質とともに複雑になる。 これらの課題により,リアルタイム制御を現実的でないものにするには最適化が複雑すぎる。これらの問題に対処するために,ランダムフォレストと線形回帰を利用した階層的学習残差モデルを提案する。 低レベルは線形回帰を使って残留物に適合し、高レベルはランダム森林を使って異なる線形モデルを切り替える。 一方, 誤差状態の線形動的自転車モデルを名目モデルとして採用し, 名目モデルに切り換えた線形回帰モデルを加え, システムモデルを形成する。 学習ベースのMPCを2次プログラム問題(QP)として再構成し、最適化問題を効果的に解く。 実験経路追跡の結果, 運転車両の予測精度と追従精度は, 名目mpcと比較して有意に向上し, ガウス過程に基づく非線形モデル予測制御(gp-nmpc)と比較すると, 計算量が少なく, 追従精度が向上した。

One major issue in learning-based model predictive control (MPC) for autonomous driving is the contradiction between the system model's prediction accuracy and computation efficiency. The more situations a system model covers, the more complex it is, along with highly nonlinear and nonconvex properties. These issues make the optimization too complicated to solve and render real-time control impractical.To address these issues, we propose a hierarchical learning residual model which leverages random forests and linear regression.The learned model consists of two levels. The low level uses linear regression to fit the residues, and the high level uses random forests to switch different linear models. Meanwhile, we adopt the linear dynamic bicycle model with error states as the nominal model.The switched linear regression model is added to the nominal model to form the system model. It reformulates the learning-based MPC as a quadratic program (QP) problem and optimization solvers can effectively solve it. Experimental path tracking results show that the driving vehicle's prediction accuracy and tracking accuracy are significantly improved compared with the nominal MPC.Compared with the state-of-the-art Gaussian process-based nonlinear model predictive control (GP-NMPC), our method gets better performance on tracking accuracy while maintaining a lower computation consumption.
翻訳日:2023-04-11 16:06:51 公開日:2023-04-10
# 準エントロピーの単調性における等式、リーブの凹凸、安藤の凸凸

Equality cases in monotonicity of quasi-entropies, Lieb's concavity and Ando's convexity ( http://arxiv.org/abs/2304.04361v1 )

ライセンス: Link先を確認
Fumio Hiai(参考訳) 我々は、petz による準エントロピーの共役凸性と単調性を更新し、準エントロピーの単調不等式における等式ケースを次のように特徴づける: $\phi:\mathcal{b}(\mathcal{h})\to\mathcal{b}(\mathcal{k})$ を、$\phi^*$ がシュワルツ写像となるようなトレース保存正写像とする。 f$ が作用素単調または作用素凸函数であるとき、$[0,\infty)$ 上の等式 $s_f^k(\phi(\rho)\|\phi(\sigma))=s_f^{\phi^*(k)}(\rho\|\sigma)$ に対して、与えられた密度作用素 $\rho,\sigma$ on $\mathcal{h}$ と $k\in\mathcal{b}(\mathcal{k})$ の同値条件がいくつか提示される。 写像 $\Phi$ は、リーブの凹凸とアンドーの凸不等式における等式ケースの等価条件を得るために特別である。 さらに、準エントロピーに対する線形保存問題の一種を考える。

We update joint concavity/convexity and monotonicity properties of quasi-entropies due to Petz, and characterize equality cases in the monotonicity inequalities of quasi-entropies as follows: Let $\Phi:\mathcal{B}(\mathcal{H})\to\mathcal{B}(\mathcal{K})$ be a trace-preserving positive map such that $\Phi^*$ is a Schwarz map. When $f$ is an operator monotone or operator convex function on $[0,\infty)$, we present several equivalent conditions for the equality $S_f^K(\Phi(\rho)\|\Phi(\sigma))=S_f^{\Phi^*(K)}(\rho\|\sigma)$ to hold for given density operators $\rho,\sigma$ on $\mathcal{H}$ and $K\in\mathcal{B}(\mathcal{K})$. The map $\Phi$ is specialized to obtain equivalent conditions for equality cases in Lieb's concavity and Ando's convexity inequalities. We further consider a kind of linear preserver problems for quasi-entropies.
翻訳日:2023-04-11 16:06:28 公開日:2023-04-10
# webbrain: 大きなwebコーパスに接地して、クェリの事実正しい記事を生成するための学習

WebBrain: Learning to Generate Factually Correct Articles for Queries by Grounding on Large Web Corpus ( http://arxiv.org/abs/2304.04358v1 )

ライセンス: Link先を確認
Hongjing Qian, Yutao Zhu, Zhicheng Dou, Haoqi Gu, Xinyu Zhang, Zheng Liu, Ruofei Lai, Zhao Cao, Jian-Yun Nie and Ji-Rong Wen(参考訳) 本稿では,Web から証拠をマイニングすることで,クエリを参照した短い事実記事を生成する NLP タスクを提案する。 WebBrainと呼ばれるこのタスクでは、最終的なゴールは、ウィキペディアに見当たらない事実クエリに対して、流動的で情報的かつ事実的に正しい短い記事(例えばウィキペディアの記事)を作成することである。 webbrainの実験を可能にするために、英語wikipediaの記事とそのクローラ可能なwikipedia参照を抽出し、大規模データセットwebbrain-rawを構築する。 webbrain-rawは、以前の最大のピアデータセットの10倍の大きさで、研究コミュニティに大きなメリットがある。 WebBrain-RawからWebBrain-RとWebBrain-Gという2つのタスク固有のデータセットを構築し、それぞれドメイン内検索とジェネレータをトレーニングする。 また、webbrainにおける現在の最先端nlp技術の性能を実証的に分析し、エビデンス検索の改善と生成のためのタスク固有の事前学習により、生成事実性を高める新しいフレームワークregenを導入する。 実験の結果、ReGenは自動評価と人的評価の両方において、すべてのベースラインを上回ります。

In this paper, we introduce a new NLP task -- generating short factual articles with references for queries by mining supporting evidence from the Web. In this task, called WebBrain, the ultimate goal is to generate a fluent, informative, and factually-correct short article (e.g., a Wikipedia article) for a factual query unseen in Wikipedia. To enable experiments on WebBrain, we construct a large-scale dataset WebBrain-Raw by extracting English Wikipedia articles and their crawlable Wikipedia references. WebBrain-Raw is ten times larger than the previous biggest peer dataset, which can greatly benefit the research community. From WebBrain-Raw, we construct two task-specific datasets: WebBrain-R and WebBrain-G, which are used to train in-domain retriever and generator, respectively. Besides, we empirically analyze the performances of the current state-of-the-art NLP techniques on WebBrain and introduce a new framework ReGen, which enhances the generation factualness by improved evidence retrieval and task-specific pre-training for generation. Experiment results show that ReGen outperforms all baselines in both automatic and human evaluations.
翻訳日:2023-04-11 16:05:52 公開日:2023-04-10
# Eagle: PTZカメラのエンドツーエンド深部強化学習に基づく自律制御

Eagle: End-to-end Deep Reinforcement Learning based Autonomous Control of PTZ Cameras ( http://arxiv.org/abs/2304.04356v1 )

ライセンス: Link先を確認
Sandeep Singh Sandha, Bharathan Balaji, Luis Garcia, Mani Srivastava(参考訳) 既存のPTZカメラの自律制御手法では、PTZ機構の制御とは独立して物体検出と位置決めを行う複数のステージが使用されている。 これらのアプローチでは、手動のラベルが必要であり、多段階の情報の流路におけるエラーの伝播によるパフォーマンスのボトルネックに悩まされる。 オブジェクト検出ニューラルネットワークの大規模化により、リソース制約のあるデバイスへのリアルタイムデプロイメントにおいて、事前ソリューションが実現不可能になる。 本稿では,PTZカメラを直接入力として撮像するニューラルネットワークポリシをトレーニングするために,Eagleというエンドツーエンドの深部強化学習(RL)ソリューションを提案する。 トレーニング強化学習は,ラベル付け作業やランタイム環境の確率性,脆弱な実験セットアップなどによって,現実の世界では困難である。 PTZカメラ制御ポリシーのトレーニングと評価のためのフォトリアリスティック・シミュレーション・フレームワークを提案する。 イーグルは、撮像画像の中心に近い興味の対象を高解像度で維持することで、優れたカメラ制御性能を達成し、最先端技術よりも最大17%のトラッキング時間を有する。 イーグルポリシーは軽量(Yolo5sより90倍少ないパラメータ)で、Raspberry PI (33 FPS)やJetson Nano (38 FPS)のような組み込みカメラプラットフォーム上で動作し、リソース制約のある環境に対するリアルタイムPTZトラッキングを容易にする。 ドメインのランダム化では、シミュレータでトレーニングされたEagleポリシーを直接現実世界のシナリオに転送することができます。

Existing approaches for autonomous control of pan-tilt-zoom (PTZ) cameras use multiple stages where object detection and localization are performed separately from the control of the PTZ mechanisms. These approaches require manual labels and suffer from performance bottlenecks due to error propagation across the multi-stage flow of information. The large size of object detection neural networks also makes prior solutions infeasible for real-time deployment in resource-constrained devices. We present an end-to-end deep reinforcement learning (RL) solution called Eagle to train a neural network policy that directly takes images as input to control the PTZ camera. Training reinforcement learning is cumbersome in the real world due to labeling effort, runtime environment stochasticity, and fragile experimental setups. We introduce a photo-realistic simulation framework for training and evaluation of PTZ camera control policies. Eagle achieves superior camera control performance by maintaining the object of interest close to the center of captured images at high resolution and has up to 17% more tracking duration than the state-of-the-art. Eagle policies are lightweight (90x fewer parameters than Yolo5s) and can run on embedded camera platforms such as Raspberry PI (33 FPS) and Jetson Nano (38 FPS), facilitating real-time PTZ tracking for resource-constrained environments. With domain randomization, Eagle policies trained in our simulator can be transferred directly to real-world scenarios.
翻訳日:2023-04-11 16:05:29 公開日:2023-04-10
# vit-calibrator: vision transformer の決定ストリーム校正

ViT-Calibrator: Decision Stream Calibration for Vision Transformer ( http://arxiv.org/abs/2304.04354v1 )

ライセンス: Link先を確認
Lin Chen, Zhijie Jia, Tian Qiu, Lechao Cheng, Jie Lei, Zunlei Feng, Mingli Song(参考訳) 様々な視覚タスクにおけるトランスフォーマーの利用に対する関心が高まっている。 しかし、既存のアプローチは、しばしば大きな試行錯誤を伴う内部モデルアーキテクチャ設計の最適化に重点を置いている。 本研究では,一般視覚トランスフォーマーの性能を高める決定ストリーム校正という新しいパラダイムを提案する。 そこで我々は,異なるトークンと複数の次元の関連係数の相関関係を探索することにより,学習過程における情報伝達機構の光を当てた。 さらなる分析により、そのことが判明した。 1) 最終決定は前景目標のトークンに関連付けられ、前景目標のトークン特徴は可能な限り次の層に伝達され、背景領域の役に立たないトークン特徴は前方伝播時に徐々に排除される。 2) 各カテゴリはトークン内の特定のスパース次元にのみ関連している。 上記の発見に基づいて,トークン伝搬校正段階と寸法伝搬校正段階を含む2段階キャリブレーション方式,すなわちViTキャリブレータを設計した。 一般的なデータセットに関する広範な実験は、提案手法が有望な結果が得られることを示している。 ソースコードはサプリメントに含まれている。

A surge of interest has emerged in utilizing Transformers in diverse vision tasks owing to its formidable performance. However, existing approaches primarily focus on optimizing internal model architecture designs that often entail significant trial and error with high burdens. In this work, we propose a new paradigm dubbed Decision Stream Calibration that boosts the performance of general Vision Transformers. To achieve this, we shed light on the information propagation mechanism in the learning procedure by exploring the correlation between different tokens and the relevance coefficient of multiple dimensions. Upon further analysis, it was discovered that 1) the final decision is associated with tokens of foreground targets, while token features of foreground target will be transmitted into the next layer as much as possible, and the useless token features of background area will be eliminated gradually in the forward propagation. 2) Each category is solely associated with specific sparse dimensions in the tokens. Based on the discoveries mentioned above, we designed a two-stage calibration scheme, namely ViT-Calibrator, including token propagation calibration stage and dimension propagation calibration stage. Extensive experiments on commonly used datasets show that the proposed approach can achieve promising results. The source codes are given in the supplements.
翻訳日:2023-04-11 16:05:04 公開日:2023-04-10
# 確率的保証を有する量子多体状態に対する指数的改善された効率的な機械学習

Exponentially Improved Efficient Machine Learning for Quantum Many-body States with Provable Guarantees ( http://arxiv.org/abs/2304.04353v1 )

ライセンス: Link先を確認
Yanming Che and Clemens Gneiting and Franco Nori(参考訳) 量子多体系の基底状態と基底状態の性質を解決することは、古典的アルゴリズムにとって一般的に難しい課題である。 物理パラメータの$m$-次元空間上で定義されるハミルトンの族に対して、任意のパラメータ構成における基底状態とその特性は、所定の予測誤差$\varepsilon$までの機械学習プロトコルを介して予測できる。 最近の研究(huang et al., science 377, eabk3333 (2022))で、そのような一般化に対する厳密な保証が証明された。 残念ながら、指数関数的スケーリングである $n = m^{ {\cal{o}} \left(\frac{1}{\varepsilon} \right) }$ は一般のガッピングハミルトニアンに対して普遍的であることが判明した。 この結果は、パラメータ空間の次元が大きくなる一方、精度のスケーリングは緊急要因ではなく、より正確な学習と予測の領域に突入しない状況に適用できる。 本研究では,予測誤差によるスケーリングが中心的な関心事となる間に,$m$が有限で必ずしも大きな定数であるようなシナリオを考える。 n = \mathrm{poly} \left(\varepsilon^{-1}, n, \log \frac{1}{\delta}\right)$, ここで$\mathrm{poly}$ は多項式関数を表し、$n$ はシステム内の量子ビットの数であり、 ($1-\delta$) は成功確率である。 さらに、強い局所性仮定を持つ基底状態の学習に制限された場合、サンプルの数はさらに$N = \mathrm{poly} \left(\varepsilon^{-1}, \log \frac{n}{\delta}\right)$に還元できる。 この厳格な結果は、既存の作業の大幅な改善と必然的な拡張を表している。

Solving the ground state and the ground-state properties of quantum many-body systems is generically a hard task for classical algorithms. For a family of Hamiltonians defined on an $m$-dimensional space of physical parameters, the ground state and its properties at an arbitrary parameter configuration can be predicted via a machine learning protocol up to a prescribed prediction error $\varepsilon$, provided that a sample set (of size $N$) of the states can be efficiently prepared and measured. In a recent work [Huang et al., Science 377, eabk3333 (2022)], a rigorous guarantee for such an generalization was proved. Unfortunately, an exponential scaling, $N = m^{ {\cal{O}} \left(\frac{1}{\varepsilon} \right) }$, was found to be universal for generic gapped Hamiltonians. This result applies to the situation where the dimension of the parameter space is large while the scaling with the accuracy is not an urgent factor, not entering the realm of more precise learning and prediction. In this work, we consider an alternative scenario, where $m$ is a finite, not necessarily large constant while the scaling with the prediction error becomes the central concern. By exploiting physical constraints and positive good kernels for predicting the density matrix, we rigorously obtain an exponentially improved sample complexity, $N = \mathrm{poly} \left(\varepsilon^{-1}, n, \log \frac{1}{\delta}\right)$, where $\mathrm{poly}$ denotes a polynomial function; $n$ is the number of qubits in the system, and ($1-\delta$) is the probability of success. Moreover, if restricted to learning ground-state properties with strong locality assumptions, the number of samples can be further reduced to $N = \mathrm{poly} \left(\varepsilon^{-1}, \log \frac{n}{\delta}\right)$. This provably rigorous result represents a significant improvement and an indispensable extension of the existing work.
翻訳日:2023-04-11 16:04:44 公開日:2023-04-10
# 低周波色に先行した放射輝度場の幾何学的評価

Evaluate Geometry of Radiance Field with Low-frequency Color Prior ( http://arxiv.org/abs/2304.04351v1 )

ライセンス: Link先を確認
Qihang Fang, Yafei Song, Keqiang Li, Li Shen, Huaiyu Wu, Gang Xiong, Liefeng Bo(参考訳) 放射場は3dシーンの効果的な表現であり、新しい視点合成と3d再構成に広く採用されている。 基底真実がほとんど得られないため、幾何、すなわち密度場を評価することは依然としてオープンで難しい問題である。 もう一つの間接的な解決策は、密度場を点クラウドに変換し、スキャンされた接地面とシャムハ距離を計算することである。 しかしながら、多くの広く使われているデータセットは、スキャンプロセスが高価で複雑であるため、ポイントクラウドの地上構造を持たない。 この目的のために, 観測画像のみを用いて形状を評価可能な, 逆平均残留色(imrc)と呼ばれる新しい計量法を提案する。 我々の重要な洞察は、幾何が良くなるほど、計算された色体は低周波であるということである。 この知見から,再構成された密度場と観測画像から,低周波球面高調波の色場を近似し,逆平均残差色を計算するクローズドフォーム法を考案した。 そして、IMRCが高いほど、幾何が良くなる。 定性的および定量的実験により,提案したIMRC測定値の有効性が検証された。 また,今後の研究を促進するためにIMRCを用いたいくつかの最先端手法をベンチマークした。

Radiance field is an effective representation of 3D scenes, which has been widely adopted in novel-view synthesis and 3D reconstruction. It is still an open and challenging problem to evaluate the geometry, i.e., the density field, as the ground-truth is almost impossible to be obtained. One alternative indirect solution is to transform the density field into a point-cloud and compute its Chamfer Distance with the scanned ground-truth. However, many widely-used datasets have no point-cloud ground-truth since the scanning process along with the equipment is expensive and complicated. To this end, we propose a novel metric, named Inverse Mean Residual Color (IMRC), which can evaluate the geometry only with the observation images. Our key insight is that the better the geometry is, the lower-frequency the computed color field is. From this insight, given reconstructed density field and the observation images, we design a closed-form method to approximate the color field with low-frequency spherical harmonics and compute the inverse mean residual color. Then the higher the IMRC, the better the geometry. Qualitative and quantitative experimental results verify the effectiveness of our proposed IMRC metric. We also benchmark several state-of-the-art methods using IMRC to promote future related research.
翻訳日:2023-04-11 16:04:01 公開日:2023-04-10
# 衣服交換者再識別のためのアイデンティティガイド型協調学習

Identity-Guided Collaborative Learning for Cloth-Changing Person Reidentification ( http://arxiv.org/abs/2304.04400v1 )

ライセンス: Link先を確認
Zan Gao, Shenxun Wei, Weili Guan, Lei Zhu, Meng Wang, Shenyong Chen(参考訳) 衣服交換者再識別(ReID)は,布地や歩行者の視界・場所の変化による大きな特徴変化の問題に対処することを目的とした,新たな研究課題である。 余分な情報(例えば、人間の輪郭スケッチ情報、人体キーポイント、および3D人体情報)を導入することで大きな進歩を遂げてきたが、印象的な歩行者表現のため、着替え人ReIDは依然として困難である。 また、人間の意味情報や歩行者の身元情報も十分に検討されていない。 これらの課題を解決するために,人間のセマンティクスを十分に活用し,そのアイデンティティを変更不能にし,協調学習をガイドする,新しいID誘導型協調学習手法(IGCL)を提案する。 まず,衣服の注意と中級協調学習を取り入れた衣服情報による干渉を合理的に低減するために,新しい衣服注意劣化ストリームを設計する。 第2に,人間の意味情報を強調し,同一人物の異なるポーズをシミュレートするヒューマンセマンティクス・アテンションとボディ・ジグソート・ストリームを提案する。 このようにして、抽出機能は、背景と無関係な人間の意味情報だけでなく、歩行者のポーズのバリエーションにも適している。 さらに、歩行者のアイデンティティ強化ストリームを提案し、アイデンティティの重要性を高め、より好ましいアイデンティティロバストな特徴を抽出する。 最も重要なことは、これらのストリームはすべてエンドツーエンドの統一フレームワークで共同で探索され、そのIDを使用して最適化を導くことである。 5人の一般衣料者のReIDデータセットに対する大規模な実験により、提案したIGCLはSOTA法を著しく上回り、抽出された特徴はより堅牢で、差別的で、衣服に無関係であることが示された。

Cloth-changing person reidentification (ReID) is a newly emerging research topic that is aimed at addressing the issues of large feature variations due to cloth-changing and pedestrian view/pose changes. Although significant progress has been achieved by introducing extra information (e.g., human contour sketching information, human body keypoints, and 3D human information), cloth-changing person ReID is still challenging due to impressionable pedestrian representations. Moreover, human semantic information and pedestrian identity information are not fully explored. To solve these issues, we propose a novel identity-guided collaborative learning scheme (IGCL) for cloth-changing person ReID, where the human semantic is fully utilized and the identity is unchangeable to guide collaborative learning. First, we design a novel clothing attention degradation stream to reasonably reduce the interference caused by clothing information where clothing attention and mid-level collaborative learning are employed. Second, we propose a human semantic attention and body jigsaw stream to highlight the human semantic information and simulate different poses of the same identity. In this way, the extraction features not only focus on human semantic information that is unrelated to the background but also are suitable for pedestrian pose variations. Moreover, a pedestrian identity enhancement stream is further proposed to enhance the identity importance and extract more favorable identity robust features. Most importantly, all these streams are jointly explored in an end-to-end unified framework, and the identity is utilized to guide the optimization. Extensive experiments on five public clothing person ReID datasets demonstrate that the proposed IGCL significantly outperforms SOTA methods and that the extracted feature is more robust, discriminative, and clothing-irrelevant.
翻訳日:2023-04-11 15:58:25 公開日:2023-04-10
# CAVL: 視覚と言語を対照的かつ適応的に表現する学習

CAVL: Learning Contrastive and Adaptive Representations of Vision and Language ( http://arxiv.org/abs/2304.04399v1 )

ライセンス: Link先を確認
Shentong Mo, Jingfei Xia, Ihor Markevych(参考訳) 視覚と言語による事前学習は、視覚と言語表現を一緒に学習することを目的としている。 しかし、事前学習の段階で言語と視覚の間に意味的な混乱がある。 さらに、現在の事前学習されたモデルは、下流タスクに転送する際に微調整のために多くの計算リソースを必要とする傾向がある。 本稿では,視覚と言語,すなわちcavlの対比的・適応的表現を学ぶための,単純かつ効果的なアプローチを提案する。 具体的には,前訓練過程において,文全体と画像間のアライメントを学習するために,ペア方向のコントラストロスを導入する。 微調整段階では,モデルパラメータを削減し,計算資源の節約のためのトレーニング速度を向上させる2つの軽量適応ネットワークを導入する。 我々は,VQA(Visual Question Answering),VCR(Visual Commonsense Reasoning),NLVR(Natural Language for Visual Reasoning),RPG(Regional-to-Phrase Grounding),TIR(Text-to- Image Retrieval),ZS-TIR(Zero-shot Text-to- Image Retrieval)の6つの下流タスクについてCAVLを評価した。 ベースラインと比較して優れたパフォーマンスを実現し、微調整時間を大きなマージン(特に76.17%)で削減する。 広範囲な実験とアブレーション研究により, コントラストプリトレーニングと適応微調整の有効性が実証された。

Visual and linguistic pre-training aims to learn vision and language representations together, which can be transferred to visual-linguistic downstream tasks. However, there exists semantic confusion between language and vision during the pre-training stage. Moreover, current pre-trained models tend to take lots of computation resources for fine-tuning when transferred to downstream tasks. In this work, we present a simple but effective approach for learning Contrastive and Adaptive representations of Vision and Language, namely CAVL. Specifically, we introduce a pair-wise contrastive loss to learn alignments between the whole sentence and each image in the same batch during the pre-training process. At the fine-tuning stage, we introduce two lightweight adaptation networks to reduce model parameters and increase training speed for saving computation resources. We evaluate our CAVL on six main downstream tasks, including Visual Question Answering (VQA), Visual Commonsense Reasoning (VCR), Natural Language for Visual Reasoning (NLVR), Region-to-Phrase Grounding (RPG), Text-to-Image Retrieval (TIR), and Zero-shot Text-to-Image Retrieval (ZS-TIR). Compared to baselines, we achieve superior performance and reduce the fine-tuning time by a large margin (in particular, 76.17%). Extensive experiments and ablation studies demonstrate the efficiency of contrastive pre-training and adaptive fine-tuning proposed in our CAVL.
翻訳日:2023-04-11 15:57:53 公開日:2023-04-10
# 過パラメータ化特徴次元に対するランダム化および決定論的アテンションスペーシフィケーションアルゴリズム

Randomized and Deterministic Attention Sparsification Algorithms for Over-parameterized Feature Dimension ( http://arxiv.org/abs/2304.04397v1 )

ライセンス: Link先を確認
Yichuan Deng, Sridhar Mahadevan, Zhao Song(参考訳) 大規模言語モデル (LLM) は様々な分野でその能力を示している。 LLMの重要なサブルーチンとしての注意計算も理論に興味を惹きつけている。 近年,[Alman and Song 2023] と [Brand, Song, Zhou 2023] による注目行列の静的計算と動的維持について,アルゴリズム的視点と硬さの観点から検討している。 本稿では,注意問題のスパース化について考察する。 ロジット行列が対称である1つの単純化を行う。 n$ は文の長さを表し、$d$ は埋め込み次元を表す。 行列 $x \in \mathbb{r}^{n \times d}$ を与えられたとき、$d \gg n$ と $\| x x^\top \|_{\infty} < r$ with $r \in (0,0.1)$ と仮定すると、我々は$y \in \mathbb{r}^{n \times m}$ (ここで$m\ll d$) を \begin{align*} \| d(y)^{-1} \exp(y y^\top )d(x)^{-1} \exp(x^\top) \|_{\infty} \leq o(r) \end{align*} として求める。 $\bullet$ 最初の結果はランダム化アルゴリズムです。 これは$\widetilde{o}(\mathrm{nnz}(x) + n^{\omega} ) $ time で動作し、1-\delta$ succeed 確率を持ち、$m = o(n \log(n/\delta))$ を選択する。 ここで $\mathrm{nnz}(X)$ は$X$ の 0 でないエントリの数を表す。 行列乗算の指数を表すために$\omega$を使用する。 現在$\omega \approx 2.373$である。 $\bullet$ 2番目の結果は決定論的アルゴリズムです。 これは$\widetilde{O}(\min\{\sum_{i\in[d]}\mathrm{nnz}(X_i)^2, dn^{\omega-1}\} + n^{\omega+1})$ timeで実行され、$m = O(n)$を選択する。 ここで、$X_i$は行列の$i$-番目の列を表す。 本研究の主目的は, LLMs タスクを適用した場合, 超大容量の特徴量に対して, 文の長さがほぼ直線的なサイズに縮小できる点である。

Large language models (LLMs) have shown their power in different areas. Attention computation, as an important subroutine of LLMs, has also attracted interests in theory. Recently the static computation and dynamic maintenance of attention matrix has been studied by [Alman and Song 2023] and [Brand, Song and Zhou 2023] from both algorithmic perspective and hardness perspective. In this work, we consider the sparsification of the attention problem. We make one simplification which is the logit matrix is symmetric. Let $n$ denote the length of sentence, let $d$ denote the embedding dimension. Given a matrix $X \in \mathbb{R}^{n \times d}$, suppose $d \gg n$ and $\| X X^\top \|_{\infty} < r$ with $r \in (0,0.1)$, then we aim for finding $Y \in \mathbb{R}^{n \times m}$ (where $m\ll d$) such that \begin{align*} \| D(Y)^{-1} \exp( Y Y^\top ) - D(X)^{-1} \exp( X X^\top) \|_{\infty} \leq O(r) \end{align*} We provide two results for this problem. $\bullet$ Our first result is a randomized algorithm. It runs in $\widetilde{O}(\mathrm{nnz}(X) + n^{\omega} ) $ time, has $1-\delta$ succeed probability, and chooses $m = O(n \log(n/\delta))$. Here $\mathrm{nnz}(X)$ denotes the number of non-zero entries in $X$. We use $\omega$ to denote the exponent of matrix multiplication. Currently $\omega \approx 2.373$. $\bullet$ Our second result is a deterministic algorithm. It runs in $\widetilde{O}(\min\{\sum_{i\in[d]}\mathrm{nnz}(X_i)^2, dn^{\omega-1}\} + n^{\omega+1})$ time and chooses $m = O(n)$. Here $X_i$ denote the $i$-th column of matrix $X$. Our main findings have the following implication for applied LLMs task: for any super large feature dimension, we can reduce it down to the size nearly linear in length of sentence.
翻訳日:2023-04-11 15:57:20 公開日:2023-04-10
# 事例 ニューラル放射場

Instance Neural Radiance Field ( http://arxiv.org/abs/2304.04395v1 )

ライセンス: Link先を確認
Benran Hu, Junkai Huang, Yichen Liu, Yu-Wing Tai, Chi-Keung Tang(参考訳) 本稿では,neural radiance field または instance nerf と呼ばれる,最初の学習ベースの3dインスタンスセグメンテーションパイプラインの1つを提案する。 マルチビューRGB画像から予めトレーニングされたNeRFを入力として、インスタンスNeRFは、NeRFモデルのインスタンスフィールドコンポーネントとして表される、与えられたシーンの3Dインスタンスセグメンテーションを学習することができる。 この目的のために,NeRFからサンプリングされたボリューム特徴に3次元提案に基づくマスク予測ネットワークを導入し,個別の3次元マスクを生成する。 次に、粗い3dマスク予測を画像空間に投影し、既存のpanopticセグメンテーションモデルによって生成された異なるビューからの2dセグメンテーションマスクとマッチングし、インスタンスフィールドのトレーニングを監督する。 特に、新しいビューから一貫した2Dセグメンテーションマップを生成するだけでなく、インスタンスNeRFは任意の3Dポイントでインスタンス情報をクエリすることができる。 また,提案手法は,推論中に基底インスタンス情報を用いずに,この結果を達成する最初の方法の一つである。 複雑な屋内シーンを持つ合成および実世界のNeRFデータセットで実験した結果、インスタンスNeRFは、それまでのNeRFセグメンテーション作業と、目に見えないビューでのセグメンテーションパフォーマンスにおける競合する2Dセグメンテーションメソッドを上回った。 デモビデオはhttps://youtu.be/wW9Bme73coI。

This paper presents one of the first learning-based NeRF 3D instance segmentation pipelines, dubbed as Instance Neural Radiance Field, or Instance NeRF. Taking a NeRF pretrained from multi-view RGB images as input, Instance NeRF can learn 3D instance segmentation of a given scene, represented as an instance field component of the NeRF model. To this end, we adopt a 3D proposal-based mask prediction network on the sampled volumetric features from NeRF, which generates discrete 3D instance masks. The coarse 3D mask prediction is then projected to image space to match 2D segmentation masks from different views generated by existing panoptic segmentation models, which are used to supervise the training of the instance field. Notably, beyond generating consistent 2D segmentation maps from novel views, Instance NeRF can query instance information at any 3D point, which greatly enhances NeRF object segmentation and manipulation. Our method is also one of the first to achieve such results without ground-truth instance information during inference. Experimented on synthetic and real-world NeRF datasets with complex indoor scenes, Instance NeRF surpasses previous NeRF segmentation works and competitive 2D segmentation methods in segmentation performance on unseen views. See the demo video at https://youtu.be/wW9Bme73coI.
翻訳日:2023-04-11 15:56:23 公開日:2023-04-10
# CAFIN: グラフ上での教師なし表現学習のためのインプロセッシングによる中心性意識の公平性

CAFIN: Centrality Aware Fairness inducing IN-processing for Unsupervised Representation Learning on Graphs ( http://arxiv.org/abs/2304.04391v1 )

ライセンス: Link先を確認
Arvindh Arun, Aakash Aanegola, Amul Agrawal, Ramasuri Narayanam, Ponnurangam Kumaraguru(参考訳) 教師なし表現学習(大きなグラフ)は,学習埋め込みのコンパクト性や豊かさ,ラベルなしグラフデータの豊富さなどにより,研究コミュニティにおいて大きな注目を集めている。 デプロイされると、これらのノード表現は、下流タスクで引き起こされるバイアスを最小限に抑えるために、適切な公平性制約で生成されなければならない。 その結果、特定の下流タスクに対して、グラフ学習アルゴリズムに対するグループと個別の公平性の概念が検討された。 これらの公平性の概念の1つの大きな制限は、グラフの接続パターンが様々なノードの影響(あるいは集中力)をもたらすことを考慮していないことである。 本稿では,帰納的グラフ表現学習アルゴリズムのための集中型公正度フレームワークを設計する。 CAFIN(Centrality Aware Fairness inducing IN-processing)は,グラフ構造を利用してグラフSAGEの表現を改善する処理技術である。 2つの一般的なダウンストリームタスクリンク予測とノード分類におけるcafinの有効性を実証した。 実験的には、データセット間のグループ間の公平性の相違を一貫して最小化し(不純物の18から80%の削減、グループ公正性の尺度)、パフォーマンスコストは最小限である。

Unsupervised representation learning on (large) graphs has received significant attention in the research community due to the compactness and richness of the learned embeddings and the abundance of unlabelled graph data. When deployed, these node representations must be generated with appropriate fairness constraints to minimize bias induced by them on downstream tasks. Consequently, group and individual fairness notions for graph learning algorithms have been investigated for specific downstream tasks. One major limitation of these fairness notions is that they do not consider the connectivity patterns in the graph leading to varied node influence (or centrality power). In this paper, we design a centrality-aware fairness framework for inductive graph representation learning algorithms. We propose CAFIN (Centrality Aware Fairness inducing IN-processing), an in-processing technique that leverages graph structure to improve GraphSAGE's representations - a popular framework in the unsupervised inductive setting. We demonstrate the efficacy of CAFIN in the inductive setting on two popular downstream tasks - Link prediction and Node Classification. Empirically, they consistently minimize the disparity in fairness between groups across datasets (varying from 18 to 80% reduction in imparity, a measure of group fairness) from different domains while incurring only a minimal performance cost.
翻訳日:2023-04-11 15:55:56 公開日:2023-04-10
# 知識グラフエンティティとスキーマの深いアクティブアライメント

Deep Active Alignment of Knowledge Graph Entities and Schemata ( http://arxiv.org/abs/2304.04389v1 )

ライセンス: Link先を確認
Jiacheng Huang and Zequn Sun and Qijin Chen and Xiaozhou Xu and Weijun Ren and Wei Hu(参考訳) 知識グラフ(KG)は現実世界に関する豊富な事実を格納する。 本稿では, 実体だけでなく, 異なるkgにおける関係とクラス間のアライメントを見出すことを目的としたkgアライメントについて検討する。 エンティティレベルでのアライメントは、スキーマレベルでアライメントをクロスコンパイルする。 我々は,深層学習と能動学習に基づく新しいKGアライメント手法であるDAAKGを提案する。 ディープラーニングでは、エンティティ、関係、クラスの埋め込みを学び、それらを半教師付きで協調的に調整する。 アクティブな学習では、エンティティ、リレーション、クラスペアが推測できる確率を推定し、人間のラベル付けに最適なバッチを選択する。 バッチ選択の効率的な解法として2つの近似アルゴリズムを設計する。 ベンチマークデータセットを用いた実験により,DAAKGの精度と一般化が向上し,全モジュールの有効性が検証された。

Knowledge graphs (KGs) store rich facts about the real world. In this paper, we study KG alignment, which aims to find alignment between not only entities but also relations and classes in different KGs. Alignment at the entity level can cross-fertilize alignment at the schema level. We propose a new KG alignment approach, called DAAKG, based on deep learning and active learning. With deep learning, it learns the embeddings of entities, relations and classes, and jointly aligns them in a semi-supervised manner. With active learning, it estimates how likely an entity, relation or class pair can be inferred, and selects the best batch for human labeling. We design two approximation algorithms for efficient solution to batch selection. Our experiments on benchmark datasets show the superior accuracy and generalization of DAAKG and validate the effectiveness of all its modules.
翻訳日:2023-04-11 15:55:36 公開日:2023-04-10
# 潜在空間における敵攻撃の発生

Generating Adversarial Attacks in the Latent Space ( http://arxiv.org/abs/2304.04386v1 )

ライセンス: Link先を確認
Nitish Shukla, Sudipta Banerjee(参考訳) 入力(ピクセル)空間における敵攻撃は、通常、$L_1$や$L_{\infty}$-normのようなノイズマージンを組み込んで、深層学習ネットワークを妨害する知覚できない摂動データを生成する。 このようなノイズマージンは許容音の大きさを限定する。 本研究では、生成的対向ネットワークを用いて、潜在(機能)空間における対向的摂動を注入し、マージンに基づく先行性の必要性を取り除くことを提案する。 MNIST, CIFAR10, Fashion-MNIST, CIFAR100, およびStanford Dogsデータセットを用いた実験は, 画素ベースの対向攻撃法に関して高い視覚的リアリズムを確保しつつ, 潜伏空間における対向攻撃を発生させる手法の有効性を支持する。

Adversarial attacks in the input (pixel) space typically incorporate noise margins such as $L_1$ or $L_{\infty}$-norm to produce imperceptibly perturbed data that confound deep learning networks. Such noise margins confine the magnitude of permissible noise. In this work, we propose injecting adversarial perturbations in the latent (feature) space using a generative adversarial network, removing the need for margin-based priors. Experiments on MNIST, CIFAR10, Fashion-MNIST, CIFAR100 and Stanford Dogs datasets support the effectiveness of the proposed method in generating adversarial attacks in the latent space while ensuring a high degree of visual realism with respect to pixel-based adversarial attack methods.
翻訳日:2023-04-11 15:55:22 公開日:2023-04-10
# マルチモーダル学習におけるロバスト性について

On Robustness in Multimodal Learning ( http://arxiv.org/abs/2304.04385v1 )

ライセンス: Link先を確認
randon McKinzie, Joseph Cheng, Vaishaal Shankar, Yinfei Yang, Jonathon Shlens, Alexander Toshev(参考訳) マルチモーダル学習は、ビデオ、オーディオ、テキストなどの多種多様な入力モダリティの学習として定義される。 本研究は,ハードウェアプラットフォームへのマルチモーダル学習の多くの応用において自然に発生する,トレーニングとデプロイメントの相違としてモデルがどのように振る舞うかを理解することを目的としている。 本稿では,共通マルチモーダル表現学習法の体系的分析を行うためのマルチモーダルロバストネスフレームワークを提案する。 さらに、これらのアプローチのロバスト性不足を特定し、3つのデータセット、audioset、kinetics-400、imagenet-captionsに対する1.5\times$-$4\times$ロバスト性改善につながる2つの介入手法を提案する。 最後に、AudioSet 20K上で44.2ドルmAPの競争結果を得るために、追加のモダリティをより有効に活用できることを実証する。

Multimodal learning is defined as learning over multiple heterogeneous input modalities such as video, audio, and text. In this work, we are concerned with understanding how models behave as the type of modalities differ between training and deployment, a situation that naturally arises in many applications of multimodal learning to hardware platforms. We present a multimodal robustness framework to provide a systematic analysis of common multimodal representation learning methods. Further, we identify robustness short-comings of these approaches and propose two intervention techniques leading to $1.5\times$-$4\times$ robustness improvements on three datasets, AudioSet, Kinetics-400 and ImageNet-Captions. Finally, we demonstrate that these interventions better utilize additional modalities, if present, to achieve competitive results of $44.2$ mAP on AudioSet 20K.
翻訳日:2023-04-11 15:55:05 公開日:2023-04-10
# icdar 2023 高密度・小型テキストのためのビデオテキスト読取競争

ICDAR 2023 Video Text Reading Competition for Dense and Small Text ( http://arxiv.org/abs/2304.04376v1 )

ライセンス: Link先を確認
Weijia Wu, Yuzhong Zhao, Zhuang Li, Jiahong Li, Mike Zheng Shou, Umapada Pal, Dimosthenis Karatzas, Xiang Bai(参考訳) 近年,自然界における映像テキストの検出,追跡,認識がコンピュータビジョンコミュニティで盛んに行われている。 しかし、既存のアルゴリズムやベンチマークのほとんどは、一般的なテキストケース(例:正規サイズ、密度)と単一のシナリオに焦点を合わせながら、極端なビデオテキストの問題を無視している。 本コンペティションレポートでは,様々なシナリオでビデオ中の高密度・小型テキスト読解課題に焦点を当てた,ビデオテキスト読解ベンチマークDSTextを確立する。 提案したデータセットは、以前のデータセットと比較すると、主に3つの新しい課題を含んでいる。 1) 濃密なビデオテキスト,ビデオテキストスポッターの新たな挑戦 2)高頻度の小文。 3) ゲーム,スポーツなど,さまざまな新たなシナリオ。 提案されているdstextは12のオープンシナリオから100のビデオクリップを含み、2つのタスク(つまり、ビデオテキスト追跡(task))をサポートする。 1)とエンドツーエンドのビデオテキストスポッティング(Task2)。 コンペティション期間(2023年2月15日、閉会2023年3月20日)には、合計24チームが3つの提案課題に参加し、それぞれ30回の有効応募が行われた。 本稿では,dstext コンペティションにおける icdar 2023 のデータセット,タスク,評価プロトコル,結果の概要に関する詳細な統計情報について述べる。 さらに、このベンチマークがコミュニティでビデオテキスト研究を約束することを期待しています。

Recently, video text detection, tracking, and recognition in natural scenes are becoming very popular in the computer vision community. However, most existing algorithms and benchmarks focus on common text cases (e.g., normal size, density) and single scenarios, while ignoring extreme video text challenges, i.e., dense and small text in various scenarios. In this competition report, we establish a video text reading benchmark, DSText, which focuses on dense and small text reading challenges in the video with various scenarios. Compared with the previous datasets, the proposed dataset mainly include three new challenges: 1) Dense video texts, a new challenge for video text spotter. 2) High-proportioned small texts. 3) Various new scenarios, e.g., Game, sports, etc. The proposed DSText includes 100 video clips from 12 open scenarios, supporting two tasks (i.e., video text tracking (Task 1) and end-to-end video text spotting (Task 2)). During the competition period (opened on 15th February 2023 and closed on 20th March 2023), a total of 24 teams participated in the three proposed tasks with around 30 valid submissions, respectively. In this article, we describe detailed statistical information of the dataset, tasks, evaluation protocols and the results summaries of the ICDAR 2023 on DSText competition. Moreover, we hope the benchmark will promise video text research in the community.
翻訳日:2023-04-11 15:54:46 公開日:2023-04-10
# プロキシ変数を用いた因果効果の部分的同定

Partial Identification of Causal Effects Using Proxy Variables ( http://arxiv.org/abs/2304.04374v1 )

ライセンス: Link先を確認
AmirEmad Ghassami, Ilya Shpitser, Eric Tchetgen Tchetgen(参考訳) Miao et al., 2018a; Tchetgen Tchetgen et al., 2020) は, 近位因果推論(proximal causal inference, 近位因果推論(proximal causal inference, 近位因果推論)の枠組みである。 非パラメトリックなポイント識別のために、このフレームワークは、以前に完全性条件として定式化された要件である後者に対して、そのようなプロキシが十分に関連している場合に、観察されていない共同創設者のプロキシ変数を利用する。 完全性は、観測されたプロキシデータを、いわゆるコンバウンディングブリッジ関数を介して隠れた要因に接続する鍵であり、その識別は、因果効果のプロキシベースのポイント識別への重要なステップである。 しかし、完全性は経験的にテストできないことがよく知られており、したがって近位因果フレームワークの適用を制限する可能性がある。 本稿では,完全性を必要としない部分同定法を提案し,橋梁関数の同定の必要性を解消する。 すなわち,橋梁機能やそれに対応する因果効果の識別に十分な情報がない場合でも,観察されていない共同創設者のプロキシを利用して結果に対する治療の因果効果の境界を得ることができる。 さらに、プロキシが利用可能である隠されたメディエータに対する識別ヒンジが関連する設定で類似部分識別結果を確立するが、そのようなプロキシはブリッジ関数のポイント識別やそれに対応する因果効果に十分ではない。

Proximal causal inference is a recently proposed framework for evaluating the causal effect of a treatment on an outcome variable in the presence of unmeasured confounding (Miao et al., 2018a; Tchetgen Tchetgen et al., 2020). For nonparametric point identification, the framework leverages proxy variables of unobserved confounders, provided that such proxies are sufficiently relevant for the latter, a requirement that has previously been formalized as a completeness condition. Completeness is key to connecting the observed proxy data to hidden factors via a so-called confounding bridge function, identification of which is an important step towards proxy-based point identification of causal effects. However, completeness is well-known not to be empirically testable, therefore potentially restricting the application of the proximal causal framework. In this paper, we propose partial identification methods that do not require completeness and obviate the need for identification of a bridge function. That is, we establish that proxies of unobserved confounders can be leveraged to obtain bounds on the causal effect of the treatment on the outcome even if available information does not suffice to identify either a bridge function or a corresponding causal effect of interest. We further establish analogous partial identification results in related settings where identification hinges upon hidden mediators for which proxies are available, however such proxies are not sufficiently rich for point identification of a bridge function or a corresponding causal effect of interest.
翻訳日:2023-04-11 15:54:24 公開日:2023-04-10
# 部分的スポーツフィールド登録を用いたスポーツ放送における単眼3次元人物ポーズ推定

Monocular 3D Human Pose Estimation for Sports Broadcasts using Partial Sports Field Registration ( http://arxiv.org/abs/2304.04437v1 )

ライセンス: Link先を確認
Tobias Baumgartner and Stefanie Klatt(参考訳) スポーツイベントの撮影は、世界中のアスリートの動きを2Dの放送画像に反映させる。 これらの画像中のジョイントの画素位置を高い妥当性で検出することができる。 アスリートの四肢(運動学)の実際の3Dの動きを復元するには、これらの2Dピクセルの位置を3次元に戻さなければならない。 スポーツフィールドの有名な線マークは、カメラの校正とシーンの実際の形状の決定を可能にする。 アスリートのクローズアップショットは、詳細なキネマティクスを抽出するために必要であり、カメラのキャリブレーションには関連するフィールドマーカーを省略する。 本稿では,シーン一貫性カメラのキャリブレーションを最大1自由度まで決定する部分的スポーツフィールド登録を提案する。 3次元ポーズ推定とカメラキャリブレーションの連成最適化により,400mトラックでの3次元ランニングキネマティクスの抽出に成功した。 本研究では, スポーツ場の一部登録による2次元ポーズ推定とカメラキャリブレーションの進歩を組み合わせることで, 有効な大規模キネマティックデータセットの収集方法を示す。 我々は,unreal engine 5において,異なる視点,動作スタイル,体型を持つ10k画像の合成データセットを作成し,既存の3次元hpe法の限界を示す。 合成データとコードはhttps://github.com/tobibaum/PartialSportsFieldReg_3DHPEで入手できる。

The filming of sporting events projects and flattens the movement of athletes in the world onto a 2D broadcast image. The pixel locations of joints in these images can be detected with high validity. Recovering the actual 3D movement of the limbs (kinematics) of the athletes requires lifting these 2D pixel locations back into a third dimension, implying a certain scene geometry. The well-known line markings of sports fields allow for the calibration of the camera and for determining the actual geometry of the scene. Close-up shots of athletes are required to extract detailed kinematics, which in turn obfuscates the pertinent field markers for camera calibration. We suggest partial sports field registration, which determines a set of scene-consistent camera calibrations up to a single degree of freedom. Through joint optimization of 3D pose estimation and camera calibration, we demonstrate the successful extraction of 3D running kinematics on a 400m track. In this work, we combine advances in 2D human pose estimation and camera calibration via partial sports field registration to demonstrate an avenue for collecting valid large-scale kinematic datasets. We generate a synthetic dataset of more than 10k images in Unreal Engine 5 with different viewpoints, running styles, and body types, to show the limitations of existing monocular 3D HPE methods. Synthetic data and code are available at https://github.com/tobibaum/PartialSportsFieldReg_3DHPE.
翻訳日:2023-04-11 15:49:24 公開日:2023-04-10
# BerDiff:医療画像分割のための条件付きベルヌーイ拡散モデル

BerDiff: Conditional Bernoulli Diffusion Model for Medical Image Segmentation ( http://arxiv.org/abs/2304.04429v1 )

ライセンス: Link先を確認
Tao Chen, Chenhui Wang, Hongming Shan(参考訳) 医用画像のセグメンテーションは、不明瞭な腫瘍境界や複数の可視的アノテーションなどの要因による、固有の曖昧さと高い不確実性を伴う難しい課題である。 セグメンテーションマスクの正確性と多様性は、臨床における放射線科医の貴重な参考となるために重要である。 既存の拡散モデルは様々な視覚生成タスクにおいて強い容量を示したが、セグメンテーションにおいて離散マスクを扱うことは依然として困難である。 医療用画像セグメンテーションマスクの精度向上のために,医療用画像セグメンテーション(berdiff)のための条件付きベルヌーイ拡散モデルを提案する。 ガウス雑音を用いる代わりに, ベルヌーイ雑音を拡散核として, バイナリセグメンテーションタスクの拡散モデルのキャパシティを高めることにより, より高精度なセグメンテーションマスクを実現することを最初に提案する。 第2に,拡散モデルの確率的性質を利用することで,ベルディフは初期ベルヌーイ雑音と中間潜伏変数を複数回ランダムにサンプリングし,様々なセグメンテーションマスクを生成し,放射線科医にとって貴重な参考点となりうる注目領域を浮き彫りにする。 さらに,BerDiffは逆拡散の全体軌道からのサブシーケンスを効率的にサンプリングし,セグメント化過程を高速化する。 2つの医用画像セグメンテーションデータセットの広範にわたる実験結果から,berdiffは,最近発表された他の最先端手法よりも優れていた。 以上の結果から,拡散モデルが医用画像セグメンテーションの強力なバックボーンとなる可能性が示唆された。

Medical image segmentation is a challenging task with inherent ambiguity and high uncertainty, attributed to factors such as unclear tumor boundaries and multiple plausible annotations. The accuracy and diversity of segmentation masks are both crucial for providing valuable references to radiologists in clinical practice. While existing diffusion models have shown strong capacities in various visual generation tasks, it is still challenging to deal with discrete masks in segmentation. To achieve accurate and diverse medical image segmentation masks, we propose a novel conditional Bernoulli Diffusion model for medical image segmentation (BerDiff). Instead of using the Gaussian noise, we first propose to use the Bernoulli noise as the diffusion kernel to enhance the capacity of the diffusion model for binary segmentation tasks, resulting in more accurate segmentation masks. Second, by leveraging the stochastic nature of the diffusion model, our BerDiff randomly samples the initial Bernoulli noise and intermediate latent variables multiple times to produce a range of diverse segmentation masks, which can highlight salient regions of interest that can serve as valuable references for radiologists. In addition, our BerDiff can efficiently sample sub-sequences from the overall trajectory of the reverse diffusion, thereby speeding up the segmentation process. Extensive experimental results on two medical image segmentation datasets with different modalities demonstrate that our BerDiff outperforms other recently published state-of-the-art methods. Our results suggest diffusion models could serve as a strong backbone for medical image segmentation.
翻訳日:2023-04-11 15:48:57 公開日:2023-04-10
# 不確実性要件下における絡み合ったペア資源配分

Entangled Pair Resource Allocation under Uncertain Fidelity Requirements ( http://arxiv.org/abs/2304.04425v1 )

ライセンス: Link先を確認
Rakpong Kaewpuang, Minrui Xu, Stephen John Turner, Dusit Niyato, Han Yu and Dong In Kim(参考訳) 量子ネットワークでは、効果的な絡み合いルーティングにより、量子ソースと量子宛先ノード間の遠隔絡み合い通信が容易になる。 古典的ネットワークのルーティングとは異なり、量子ネットワークにおける絡み合いルーティングは、絡み合いの量子ビットの品質(つまり絡み合いの忠実性)を考慮しなければならない。 この問題に対処するため,我々は,絡み合うペアに対する資源割当モデルと忠実性を保証する絡み合いルーティングモデルを提案する。 このアプローチは、量子ネットワークのアプリケーションをサポートするために、絡み合ったリソース(つまり絡み合ったペア)と絡み合ったルーティングを共同で最適化する。 提案モデルは, 量子応用要件の不確実性を考慮した2段階確率計画を用いて定式化されている。 トータルコストを最小限に抑えるため,不確実性条件下での絡み合ったペアの効率的な利用と量子リピータの省エネルギーを実現する。 実験の結果,提案モデルがベースラインモデルと比較して,総コストを少なくとも20\%削減できることが判明した。

In quantum networks, effective entanglement routing facilitates remote entanglement communication between quantum source and quantum destination nodes. Unlike routing in classical networks, entanglement routing in quantum networks must consider the quality of entanglement qubits (i.e., entanglement fidelity), presenting a challenge in ensuring entanglement fidelity over extended distances. To address this issue, we propose a resource allocation model for entangled pairs and an entanglement routing model with a fidelity guarantee. This approach jointly optimizes entangled resources (i.e., entangled pairs) and entanglement routing to support applications in quantum networks. Our proposed model is formulated using two-stage stochastic programming, taking into account the uncertainty of quantum application requirements. Aiming to minimize the total cost, our model ensures efficient utilization of entangled pairs and energy conservation for quantum repeaters under uncertain fidelity requirements. Experimental results demonstrate that our proposed model can reduce the total cost by at least 20\% compared to the baseline model.
翻訳日:2023-04-11 15:48:10 公開日:2023-04-10
# 衛星映像超解像のための局所-グローバル時間差学習

Local-Global Temporal Difference Learning for Satellite Video Super-Resolution ( http://arxiv.org/abs/2304.04421v1 )

ライセンス: Link先を確認
Yi Xiao, Qiangqiang Yuan, Kui Jiang, Xianyu Jin, Jiang He, Liangpei Zhang, Chia-wen Lin(参考訳) 光フローベースおよびカーネルベースのアプローチは、衛星ビデオ超解像(VSR)の時間的補償のために広く研究されている。 しかし、これらの技術は高い計算消費を伴い、複雑な動きで失敗する傾向にある。 本稿では,時間的差分を有効かつ堅牢な時間的補償に利用することを提案する。 フレーム内の時間的情報を完全に活用するために,異なる相補的特性を提供するため,短期・長期の時間的相違を別々にモデル化した。 具体的には、隣接フレーム間の残留マップから局所的な動き表現を抽出するために、短期時間差分モジュールを設計し、より正確なテクスチャ表現の手がかりを提供する。 一方、フレームシーケンス全体のグローバル依存性は、長期差分学習によって探索される。 前方セグメントと後方セグメントの違いは、時間的特徴を調節するために組み込まれて活性化され、総括的大域的補償をもたらす。 さらに,対象フレームの空間分布と補償結果との相互作用を充実させる差分補償器を提案し,不整合を回避するために特徴を洗練しながら空間の整合性を維持する。 5本のメインストリーム衛星映像の客観的・主観評価は,提案手法が衛星vsrに対して好適であることを示す。 コードは \url{https://github.com/XY-boy/TDMVSR} で入手できる。

Optical-flow-based and kernel-based approaches have been widely explored for temporal compensation in satellite video super-resolution (VSR). However, these techniques involve high computational consumption and are prone to fail under complex motions. In this paper, we proposed to exploit the well-defined temporal difference for efficient and robust temporal compensation. To fully utilize the temporal information within frames, we separately modeled the short-term and long-term temporal discrepancy since they provide distinctive complementary properties. Specifically, a short-term temporal difference module is designed to extract local motion representations from residual maps between adjacent frames, which provides more clues for accurate texture representation. Meanwhile, the global dependency in the entire frame sequence is explored via long-term difference learning. The differences between forward and backward segments are incorporated and activated to modulate the temporal feature, resulting in holistic global compensation. Besides, we further proposed a difference compensation unit to enrich the interaction between the spatial distribution of the target frame and compensated results, which helps maintain spatial consistency while refining the features to avoid misalignment. Extensive objective and subjective evaluation of five mainstream satellite videos demonstrates that the proposed method performs favorably for satellite VSR. Code will be available at \url{https://github.com/XY-boy/TDMVSR}
翻訳日:2023-04-11 15:47:38 公開日:2023-04-10
# マイクロ表現認識のための適応変位生成と変圧器融合を用いた特徴表現学習

Feature Representation Learning with Adaptive Displacement Generation and Transformer Fusion for Micro-Expression Recognition ( http://arxiv.org/abs/2304.04420v1 )

ライセンス: Link先を確認
Zhijun Zhai, Jianhui Zhao, Chengjiang Long, Wenju Xu, Shuangjiang He, Huijuan Zhao(参考訳) マイクロ表現は自発的で、迅速で微妙な顔の動きであり、鍛造も抑制もできない。 これらは非常に重要な非言語コミュニケーションの手がかりであるが、過渡的であり、低強度であるため認識が困難である。 近年, 特徴抽出と融合技術を用いたマイクロ圧縮(ME)認識のための深層学習法が開発されているが, 目標となる特徴学習と効率的な特徴融合は, ME特性によるさらなる研究を欠いている。 To address these issues, we propose a novel framework Feature Representation Learning with adaptive Displacement Generation and Transformer fusion (FRL-DGT), in which a convolutional Displacement Generation Module (DGM) with self-supervised learning is used to extract dynamic features from onset/apex frames targeted to the subsequent ME recognition task, and a well-designed Transformer Fusion mechanism composed of three Transformer-based fusion modules (local, global fusions based on AU regions and full-face fusion) is applied to extract the multi-level informative features after DGM for the final ME prediction. ソリッド・ワン・サブジェクト・アウト (LOSO) 評価実験により, 提案したFRL-DGTの最先端手法に対する優位性を示した。

Micro-expressions are spontaneous, rapid and subtle facial movements that can neither be forged nor suppressed. They are very important nonverbal communication clues, but are transient and of low intensity thus difficult to recognize. Recently deep learning based methods have been developed for micro-expression (ME) recognition using feature extraction and fusion techniques, however, targeted feature learning and efficient feature fusion still lack further study according to the ME characteristics. To address these issues, we propose a novel framework Feature Representation Learning with adaptive Displacement Generation and Transformer fusion (FRL-DGT), in which a convolutional Displacement Generation Module (DGM) with self-supervised learning is used to extract dynamic features from onset/apex frames targeted to the subsequent ME recognition task, and a well-designed Transformer Fusion mechanism composed of three Transformer-based fusion modules (local, global fusions based on AU regions and full-face fusion) is applied to extract the multi-level informative features after DGM for the final ME prediction. The extensive experiments with solid leave-one-subject-out (LOSO) evaluation results have demonstrated the superiority of our proposed FRL-DGT to state-of-the-art methods.
翻訳日:2023-04-11 15:47:18 公開日:2023-04-10
# コンテクスト対応変圧器を用いた高ダイナミックレンジイメージング

High Dynamic Range Imaging with Context-aware Transformer ( http://arxiv.org/abs/2304.04416v1 )

ライセンス: Link先を確認
Fangfang Zhou, Dan Zhang and Zhenming Fu(参考訳) 高ダイナミックレンジ(HDR)画像としてLDR画像を合成する際のゴーストの導入を避けることが課題である。 畳み込みニューラルネットワーク(CNN)は、一般的にHDRゴースト除去に有効であるが、大きな動きや過飽和/下降がある場合、LDR画像に対処することは困難である。 CNNとTransformerを組み合わせた既存のデュアルブランチ方式では、非参照画像から情報の一部を省略する一方、CNNベースのブランチによって抽出された特徴は、劣化と過飽和/過飽和領域の回復に寄与する小さな受容野でカーネルサイズに結合する。 本稿では,グローバル特徴と局所特徴を同時に抽出する,ゴーストフリーhdr(hdt-hdr)画像生成のための階層的二重変換手法を提案する。 まず、空間的注意機構を備えたcnnベースの頭部を用いて、全てのldr画像から特徴を抽出する。 第2に、LDR機能は階層デュアルトランス(HDT)に配信される。 各Dual Transformer(DT)では、グローバルな特徴をウィンドウベースのTransformerによって抽出し、局所的な詳細を変形可能なCNNを用いてチャネルアテンション機構を用いて抽出する。 そして、HDT出力の次元マッピングによりゴーストフリーHDR画像を得る。 既存のHDRゴースト除去法において,HDT-HDRは最先端の性能を発揮することを示した。

Avoiding the introduction of ghosts when synthesising LDR images as high dynamic range (HDR) images is a challenging task. Convolutional neural networks (CNNs) are effective for HDR ghost removal in general, but are challenging to deal with the LDR images if there are large movements or oversaturation/undersaturation. Existing dual-branch methods combining CNN and Transformer omit part of the information from non-reference images, while the features extracted by the CNN-based branch are bound to the kernel size with small receptive field, which are detrimental to the deblurring and the recovery of oversaturated/undersaturated regions. In this paper, we propose a novel hierarchical dual Transformer method for ghost-free HDR (HDT-HDR) images generation, which extracts global features and local features simultaneously. First, we use a CNN-based head with spatial attention mechanisms to extract features from all the LDR images. Second, the LDR features are delivered to the Hierarchical Dual Transformer (HDT). In each Dual Transformer (DT), the global features are extracted by the window-based Transformer, while the local details are extracted using the channel attention mechanism with deformable CNNs. Finally, the ghost free HDR image is obtained by dimensional mapping on the HDT output. Abundant experiments demonstrate that our HDT-HDR achieves the state-of-the-art performance among existing HDR ghost removal methods.
翻訳日:2023-04-11 15:46:59 公開日:2023-04-10
# メタコンフィグレーション参照表現のセグメンテーション

Meta Compositional Referring Expression Segmentation ( http://arxiv.org/abs/2304.04415v1 )

ライセンス: Link先を確認
Li Xu, Mark He Huang, Xindi Shang, Zehuan Yuan, Ying Sun, Jun Liu(参考訳) 表現セグメンテーションの参照は、画像から言語表現によって記述されたオブジェクトをセグメントすることを目的としている。 このタスクの最近の進歩にもかかわらず、このタスクに取り組む既存のモデルは、個々の概念の意味論と視覚的表現を完全に捉えることができないかもしれない。 本稿ではメタ学習のレンズを通して,モデル合成一般化性能を向上させるメタ合成参照表現セグメンテーション(MCRES)フレームワークを提案する。 具体的には、まずトレーニングデータを用いて、仮想トレーニングセットと複数の仮想テストセットを構築し、それぞれの仮想テストセット内のデータサンプルは、仮想トレーニングセットに対して、新しいコンポジションのレベルを含む。 そして,仮想トレーニングセット上でのトレーニング後の仮想テストセット上での優れたテスト性能を得るために,モデルを最適化する新しいメタ最適化スキームに従えば,本フレームワークは,個々の概念のセマンティクスや視覚的表現をより効果的に把握し,新しい構成を扱う場合でも堅牢な一般化性能を得ることができる。 3つのベンチマークデータセットに対する大規模な実験は、我々のフレームワークの有効性を示す。

Referring expression segmentation aims to segment an object described by a language expression from an image. Despite the recent progress on this task, existing models tackling this task may not be able to fully capture semantics and visual representations of individual concepts, which limits their generalization capability, especially when handling novel compositions of learned concepts. In this work, through the lens of meta learning, we propose a Meta Compositional Referring Expression Segmentation (MCRES) framework to enhance model compositional generalization performance. Specifically, to handle various levels of novel compositions, our framework first uses training data to construct a virtual training set and multiple virtual testing sets, where data samples in each virtual testing set contain a level of novel compositions w.r.t. the virtual training set. Then, following a novel meta optimization scheme to optimize the model to obtain good testing performance on the virtual testing sets after training on the virtual training set, our framework can effectively drive the model to better capture semantics and visual representations of individual concepts, and thus obtain robust generalization performance even when handling novel compositions. Extensive experiments on three benchmark datasets demonstrate the effectiveness of our framework.
翻訳日:2023-04-11 15:46:34 公開日:2023-04-10
# シュワルツシルト・プランク加速電子の熱放射

Thermal Radiation from an Electron with Schwarzschild-Planck Acceleration ( http://arxiv.org/abs/2304.04412v1 )

ライセンス: Link先を確認
Evgenii Ievlev, Michael R.R. Good, Eric V. Linder(参考訳) シュワルツシルト・プランク移動ミラー運動に続く直線で加速する電荷は、有限周期の熱放射を放射する。 このようなミラー運動は、量子純度を示し、ユニタリ進化と完全な蒸発を伴うブラックホールの直接のアナロジーとして機能する。 アナログを古典的な電子運動に拡張し、放射スペクトル、放射電力、有限総エネルギーおよび粒子数を導出し、特に熱放射限界に注意する。 これは、ブラックホールの蒸発の実験室アナログの可能性を開く可能性がある。

A charge accelerating in a straight line following the Schwarzschild-Planck moving mirror motion emits thermal radiation for a finite period. Such a mirror motion demonstrates quantum purity and serves as a direct analogy of a black hole with unitary evolution and complete evaporation. Extending the analog to classical electron motion, we derive the emission spectrum, power radiated, and finite total energy and particle count, with particular attention to the thermal radiation limit. This potentially opens the possibility of a laboratory analog of black hole evaporation.
翻訳日:2023-04-11 15:46:13 公開日:2023-04-10
# pcr:オンライン授業インクリメンタル学習のためのプロキシベースのコントラストリプレイ

PCR: Proxy-based Contrastive Replay for Online Class-Incremental Continual Learning ( http://arxiv.org/abs/2304.04408v1 )

ライセンス: Link先を確認
Huiwei Lin, Baoquan Zhang, Shanshan Feng, Xutao Li, Yunming Ye(参考訳) オンラインクラス増分連続学習は連続学習の特定のタスクである。 それは、データストリームから新しいクラスを継続的に学習することを目的としており、データストリームのサンプルは一度しか見られない。 既存のリプレイベースメソッドは、古いデータをプロキシベースまたはコントラストベースのリプレイ方法で保存再生することで、この問題を効果的に軽減する。 これらの2つのリプレイ方式は有効であるが、前者はクラス不均衡の問題により新しいクラスに傾き、後者は不安定でサンプル数が少ないため収束が難しい。 本稿では,これら2つのリプレイ手法を包括的に分析し,相補的であることを示す。 この発見に触発されて、プロキシベースコントラストリプレイ(PCR)と呼ばれる新しいリプレイ方式を提案する。 鍵となる操作は、アンカーのコントラストサンプルを、コントラストベースの方法で対応するプロキシに置き換えることである。 これは、不均衡問題に効果的に対処することで破滅的な忘れの現象を緩和し、モデルのより早い収束を維持する。 3つの実世界のベンチマークデータセットについて広範な実験を行い,実験結果から,様々な最先端手法に対するpcrの優位性を一貫して実証した。

Online class-incremental continual learning is a specific task of continual learning. It aims to continuously learn new classes from data stream and the samples of data stream are seen only once, which suffers from the catastrophic forgetting issue, i.e., forgetting historical knowledge of old classes. Existing replay-based methods effectively alleviate this issue by saving and replaying part of old data in a proxy-based or contrastive-based replay manner. Although these two replay manners are effective, the former would incline to new classes due to class imbalance issues, and the latter is unstable and hard to converge because of the limited number of samples. In this paper, we conduct a comprehensive analysis of these two replay manners and find that they can be complementary. Inspired by this finding, we propose a novel replay-based method called proxy-based contrastive replay (PCR). The key operation is to replace the contrastive samples of anchors with corresponding proxies in the contrastive-based way. It alleviates the phenomenon of catastrophic forgetting by effectively addressing the imbalance issue, as well as keeps a faster convergence of the model. We conduct extensive experiments on three real-world benchmark datasets, and empirical results consistently demonstrate the superiority of PCR over various state-of-the-art methods.
翻訳日:2023-04-11 15:46:06 公開日:2023-04-10
# H2RBox-v2:対称学習によるHBoxによるオブジェクト指向物体検出の促進

H2RBox-v2: Boosting HBox-supervised Oriented Object Detection via Symmetric Learning ( http://arxiv.org/abs/2304.04403v1 )

ライセンス: Link先を確認
Yi Yu, Xue Yang, Qingyun Li, Yue Zhou, Gefan Zhang, Junchi Yan, Feipeng Da(参考訳) 自動運転やリモートセンシングといった指向型オブジェクト検出の需要が高まる中、指向型アノテーションは労働集約的な作業となっている。 既存の水平アノテートデータセットをフル活用し,アノテーションコストを削減するため,水平ボックス(HBox)から回転ボックス(RBox)を学習する弱い教師付き検出器H2RBoxが提案され,注目されている。 本稿では,HBox と RBox によるオブジェクト指向検出のギャップを埋めるため,H2RBox-v2 の新バージョンを提案する。 H2RBox-v2は、H2RBoxに似た弱教師付き分岐を用いて、物体の像に固有の対称性から配向を学習する新しい自己教師付き分岐に埋め込まれる。 周辺問題、例えば角周期性に対処するモジュールによって補完され、安定かつ効果的な解が達成される。 我々の知る限り、H2RBox-v2は指向オブジェクト検出のための最初の対称性制御パラダイムである。 h2rboxと比較すると,本手法はアノテーション品質の低さやトレーニングデータ不足の影響を受けにくいため,完全教師付き指向型物体検出器に近い競合性能が期待できる。 具体的には、DOTA-v1.0/1.5/2.0におけるH2RBox-v2と回転FCOSのパフォーマンス比較は72.31%/64.76%/50.33%対72.44%/64.53%/51.77%、HRSCでは89.66%対88.99%、FAIR1Mでは42.27%対41.25%である。

With the increasing demand for oriented object detection e.g. in autonomous driving and remote sensing, the oriented annotation has become a labor-intensive work. To make full use of existing horizontally annotated datasets and reduce the annotation cost, a weakly-supervised detector H2RBox for learning the rotated box (RBox) from the horizontal box (HBox) has been proposed and received great attention. This paper presents a new version, H2RBox-v2, to further bridge the gap between HBox-supervised and RBox-supervised oriented object detection. While exploiting axisymmetry via flipping and rotating consistencies is available through our theoretical analysis, H2RBox-v2, using a weakly-supervised branch similar to H2RBox, is embedded with a novel self-supervised branch that learns orientations from the symmetry inherent in the image of objects. Complemented by modules to cope with peripheral issues, e.g. angular periodicity, a stable and effective solution is achieved. To our knowledge, H2RBox-v2 is the first symmetry-supervised paradigm for oriented object detection. Compared to H2RBox, our method is less susceptible to low annotation quality and insufficient training data, which in such cases is expected to give a competitive performance much closer to fully-supervised oriented object detectors. Specifically, the performance comparison between H2RBox-v2 and Rotated FCOS on DOTA-v1.0/1.5/2.0 is 72.31%/64.76%/50.33% vs. 72.44%/64.53%/51.77%, 89.66% vs. 88.99% on HRSC, and 42.27% vs. 41.25% on FAIR1M.
翻訳日:2023-04-11 15:45:42 公開日:2023-04-10
# オプティカルフローとパッチマッチによるハンドヘルドカメラ入力の露光融合

Exposure Fusion for Hand-held Camera Inputs with Optical Flow and PatchMatch ( http://arxiv.org/abs/2304.04464v1 )

ライセンス: Link先を確認
Ru Li, Guanghui Liu, Bing Zeng, Shuaicheng Liu(参考訳) 本稿では,ハンドヘルドカメラによるマルチ露光画像融合のためのハイブリッド合成法を提案する。 不安定なカメラによる動きやダイナミックなシーンによる動きは、コンテンツが融合する前に補償されるべきである。 どんなミスアライメントでも、融合した結果において、ぼやけたり、隠したりするアーティファクトを容易に引き起こすことができる。 ハイブリッド方式では,このような動作に対処でき,各入力の露光情報を効果的に維持できる。 特に, 提案手法は, 複雑な非剛体運動では良好に動作するが, 対応に欠ける領域での変形を生じさせる粗い登録に光学的流れを適用する。 対応の欠如は、シーンパララックスや移動内容の閉塞によるものである。 このようなエラー登録を補正するために、イメージをスーパーピクセルに分割し、各スーパーピクセルに基づいて問題のあるアライメントを識別する。 この方法は、光学フローの効率とパッチマッチの精度を組み合わせる。 パッチマッチング補正を行った後,ブレイピングやghostingアーティファクトの不要な高品質な融合を容易にする,完全なアライメントされたイメージスタックを得る。 本手法は,静的/動的,室内/外ドア,昼/夜のシーンなど,既存の融合アルゴリズムと比較した。 実験の結果,本手法の有効性とロバスト性を示した。

This paper proposes a hybrid synthesis method for multi-exposure image fusion taken by hand-held cameras. Motions either due to the shaky camera or caused by dynamic scenes should be compensated before any content fusion. Any misalignment can easily cause blurring/ghosting artifacts in the fused result. Our hybrid method can deal with such motions and maintain the exposure information of each input effectively. In particular, the proposed method first applies optical flow for a coarse registration, which performs well with complex non-rigid motion but produces deformations at regions with missing correspondences. The absence of correspondences is due to the occlusions of scene parallax or the moving contents. To correct such error registration, we segment images into superpixels and identify problematic alignments based on each superpixel, which is further aligned by PatchMatch. The method combines the efficiency of optical flow and the accuracy of PatchMatch. After PatchMatch correction, we obtain a fully aligned image stack that facilitates a high-quality fusion that is free from blurring/ghosting artifacts. We compare our method with existing fusion algorithms on various challenging examples, including the static/dynamic, the indoor/outdoor and the daytime/nighttime scenes. Experiment results demonstrate the effectiveness and robustness of our method.
翻訳日:2023-04-11 15:38:48 公開日:2023-04-10
# 深層顔認識のためのグループ化知識蒸留

Grouped Knowledge Distillation for Deep Face Recognition ( http://arxiv.org/abs/2304.04462v1 )

ライセンス: Link先を確認
Weisong Zhao, Xiangyu Zhu, Kaiwen Guo, Xiao-Yu Zhang, Zhen Lei(参考訳) 特徴点蒸留法と比較すると,ロジッツ蒸留は教師と生徒のネットワーク間の一貫した特徴次元の要求を自由化できるが,その性能は顔認識では劣っていると考えられる。 1つの大きな課題は、軽量の学生ネットワークは、顔認識におけるかなりの数のアイデンティティに起因するモデル能力の低いため、ターゲットロジットの適合が難しいことである。 そこで本研究では,対象のロジットを調査し,顔同一性に関する一次知識を抽出し,他を破棄し,留学生ネットワークにおいて蒸留をより実現可能にすることを目的とする。 具体的には、予測にほぼゼロに近い値を持つ尾群が存在し、蒸留に関するマイナーな知識を含んでいる。 その影響を明確に見極めるために,まず,軟化予測の累積確率に応じて,ロジットを2つのグループ,すなわち一次群と二次群に分けた。 そこで我々は,グループログの知識蒸留(KD)損失を,プライマリKD,セカンダリKD,バイナリKDの3つの部分に再編成した。 初等KDは教師から一次知識を蒸留することであり、中等KDは小さな知識を洗練させようとするが、蒸留の難しさを増し、二等KDは教師と生徒の知識分布の整合性を確保する。 その結果,(1)プライマリ・KDとバイナリ・KDはKDに必須であり,(2)セカンダリ・KDはボトルネックにおけるKDの制限要因であることがわかった。 そこで本研究では, 一次KDと二元KDを保持するが, 究極のKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。 一般的な顔認識ベンチマークにおける広範囲な実験結果から,gkdは最先端手法よりも優れていることが示された。

Compared with the feature-based distillation methods, logits distillation can liberalize the requirements of consistent feature dimension between teacher and student networks, while the performance is deemed inferior in face recognition. One major challenge is that the light-weight student network has difficulty fitting the target logits due to its low model capacity, which is attributed to the significant number of identities in face recognition. Therefore, we seek to probe the target logits to extract the primary knowledge related to face identity, and discard the others, to make the distillation more achievable for the student network. Specifically, there is a tail group with near-zero values in the prediction, containing minor knowledge for distillation. To provide a clear perspective of its impact, we first partition the logits into two groups, i.e., Primary Group and Secondary Group, according to the cumulative probability of the softened prediction. Then, we reorganize the Knowledge Distillation (KD) loss of grouped logits into three parts, i.e., Primary-KD, Secondary-KD, and Binary-KD. Primary-KD refers to distilling the primary knowledge from the teacher, Secondary-KD aims to refine minor knowledge but increases the difficulty of distillation, and Binary-KD ensures the consistency of knowledge distribution between teacher and student. We experimentally found that (1) Primary-KD and Binary-KD are indispensable for KD, and (2) Secondary-KD is the culprit restricting KD at the bottleneck. Therefore, we propose a Grouped Knowledge Distillation (GKD) that retains the Primary-KD and Binary-KD but omits Secondary-KD in the ultimate KD loss calculation. Extensive experimental results on popular face recognition benchmarks demonstrate the superiority of proposed GKD over state-of-the-art methods.
翻訳日:2023-04-11 15:38:28 公開日:2023-04-10
# フォトリアリスティックなスタイル転送による複数参照による古い写真の近代化

Modernizing Old Photos Using Multiple References via Photorealistic Style Transfer ( http://arxiv.org/abs/2304.04461v1 )

ライセンス: Link先を確認
Agus Gunawan, Soo Ye Kim, Hyeonjun Sim, Jae-Ho Lee, Munchurl Kim(参考訳) 本稿は,スタイライゼーションとエンハンスメントを統一的に行うことにより,複数の参照を用いた古い写真モダナイゼーションを提案する。 画像の近代化のために,ネットワークMROPM-Netと合成データ生成方式を組み合わせた,新しいマルチ参照型写真モダナイゼーション(MROPM)フレームワークを提案する。 MROPM-Netは、フォトリアリスティック・スタイル転送(PST)を介して複数の参照を用いて古い写真をスタイリングし、その結果をさらに強化してモダンな画像を生成する。 一方,合成データ生成方式では,複数の参照を効果的に活用して近代化を行うようにネットワークを訓練する。 そこで,本研究では,室内と屋外のさまざまなシーンからなる新しい古写真ベンチマークデータセット(chd)を提案する。 広範にわたる実験により,本手法は他のベースラインを上回っており,トレーニング中に古い写真が使われていないにもかかわらず,実際の古い写真の近代化を行っている。 また,従来の写真では,各意味領域の複数の参照からスタイルを適切に選択でき,さらに近代化性能が向上する。

This paper firstly presents old photo modernization using multiple references by performing stylization and enhancement in a unified manner. In order to modernize old photos, we propose a novel multi-reference-based old photo modernization (MROPM) framework consisting of a network MROPM-Net and a novel synthetic data generation scheme. MROPM-Net stylizes old photos using multiple references via photorealistic style transfer (PST) and further enhances the results to produce modern-looking images. Meanwhile, the synthetic data generation scheme trains the network to effectively utilize multiple references to perform modernization. To evaluate the performance, we propose a new old photos benchmark dataset (CHD) consisting of diverse natural indoor and outdoor scenes. Extensive experiments show that the proposed method outperforms other baselines in performing modernization on real old photos, even though no old photos were used during training. Moreover, our method can appropriately select styles from multiple references for each semantic region in the old photo to further improve the modernization performance.
翻訳日:2023-04-11 15:37:45 公開日:2023-04-10
# 訓練可能なアクティベーション機能を有するスパースニューラルネットワークのベイズ最適化

Bayesian optimization for sparse neural networks with trainable activation functions ( http://arxiv.org/abs/2304.04455v1 )

ライセンス: Link先を確認
Mohamed Fakhfakh and Lotfi Chaari(参考訳) ディープニューラルネットワークに関する文献では、ニューラルネットワークの性能を向上させる活性化関数の開発にかなりの関心がある。 近年,ネットワーク性能の向上を図り,特に過度な適合を減らし,学習過程を通じてトレーニング可能な活性化関数の提案に,新たな科学的関心が寄せられている。 本稿では,パラメータを推定する必要があるトレーニング可能なアクティベーション関数を提案する。 モデル重みと活性化関数パラメータの両方から学習データを自動的に推定する完全ベイズモデルを開発した。 MCMCに基づく最適化手法が提案されている。 提案手法は,グローバルな最大値への収束を保証する効率的なサンプリング手法を用いて,上記の問題を解決すること,収束時間を改善することを目的とする。 提案手法は3つの異なるCNNを持つ3つのデータセットで検証される。 提案手法は,活性化関数によるモデル精度の向上とパラメータのベイズ推定に有用であることを示す。

In the literature on deep neural networks, there is considerable interest in developing activation functions that can enhance neural network performance. In recent years, there has been renewed scientific interest in proposing activation functions that can be trained throughout the learning process, as they appear to improve network performance, especially by reducing overfitting. In this paper, we propose a trainable activation function whose parameters need to be estimated. A fully Bayesian model is developed to automatically estimate from the learning data both the model weights and activation function parameters. An MCMC-based optimization scheme is developed to build the inference. The proposed method aims to solve the aforementioned problems and improve convergence time by using an efficient sampling scheme that guarantees convergence to the global maximum. The proposed scheme is tested on three datasets with three different CNNs. Promising results demonstrate the usefulness of our proposed approach in improving model accuracy due to the proposed activation function and Bayesian estimation of the parameters.
翻訳日:2023-04-11 15:37:26 公開日:2023-04-10
# 流線型自由視点映像のための神経残留放射場

Neural Residual Radiance Fields for Streamably Free-Viewpoint Videos ( http://arxiv.org/abs/2304.04452v1 )

ライセンス: Link先を確認
Liao Wang, Qiang Hu, Qihan He, Ziyu Wang, Jingyi Yu, Tinne Tuytelaars, Lan Xu, Minye Wu(参考訳) 静的オブジェクトのモデリングと自由視点レンダリングにおけるNeRF(Neural Radiance Fields)の成功は、動的シーンにおける多くの試みに影響を与えた。 ニューラルレンダリングを利用してフリービュービデオ(FVV)を容易にする現在の技術は、オフラインレンダリングに制限されるか、最小のモーションで短いシーケンスのみを処理することができる。 本稿では,高コンパクトなニューラルネットワーク表現として残差放射場(rerf)という新しい手法を提案し,長波長動画像のリアルタイムfvvレンダリングを実現する。 ReRFは、空間的特徴空間内の隣接するタイムスタンプ間の残余情報を明示的にモデル化し、グローバル座標ベースの小型MPPを特徴デコーダとする。 具体的には、ReRFはフレーム間の特徴的類似性を利用するために、コンパクトなモーショングリッドと残像グリッドを使用する。 このような戦略は品質を犠牲にすることなく大きな動きを扱えることを示す。 さらに,動きグリッドの滑らかさとスパース性を維持するための逐次学習方式を提案する。 ReRFに基づいて3桁の圧縮速度を達成し,ダイナミックシーンの長期FVVのオンラインストリーミングをサポートするReRFプレーヤを提供する,特別なFVVコーデックを設計する。 広汎な実験は、動的放射場をコンパクトに表現するためのReRFの有効性を示し、速度と品質において前例のない自由視点視聴体験を可能にする。

The success of the Neural Radiance Fields (NeRFs) for modeling and free-view rendering static objects has inspired numerous attempts on dynamic scenes. Current techniques that utilize neural rendering for facilitating free-view videos (FVVs) are restricted to either offline rendering or are capable of processing only brief sequences with minimal motion. In this paper, we present a novel technique, Residual Radiance Field or ReRF, as a highly compact neural representation to achieve real-time FVV rendering on long-duration dynamic scenes. ReRF explicitly models the residual information between adjacent timestamps in the spatial-temporal feature space, with a global coordinate-based tiny MLP as the feature decoder. Specifically, ReRF employs a compact motion grid along with a residual feature grid to exploit inter-frame feature similarities. We show such a strategy can handle large motions without sacrificing quality. We further present a sequential training scheme to maintain the smoothness and the sparsity of the motion/residual grids. Based on ReRF, we design a special FVV codec that achieves three orders of magnitudes compression rate and provides a companion ReRF player to support online streaming of long-duration FVVs of dynamic scenes. Extensive experiments demonstrate the effectiveness of ReRF for compactly representing dynamic radiance fields, enabling an unprecedented free-viewpoint viewing experience in speed and quality.
翻訳日:2023-04-11 15:37:11 公開日:2023-04-10
# 逆レンダリングによる流体力学の推定

Inferring Fluid Dynamics via Inverse Rendering ( http://arxiv.org/abs/2304.04446v1 )

ライセンス: Link先を確認
Jinxian Liu, Ye Chen, Bingbing Ni, Jiyao Mao, Zhenbo Yu(参考訳) 人間は、そのようなシーンを垣間見ることで、流体が落ちるような物理的過程、すなわち記憶における没入的な視覚的経験から、強く直感的に理解する。 本研究は, 地中流体力学の監督を伴わずに, 未注釈映像から学習した光流体力学的再構成機能を実現する。 簡単に言うと、convnetベースの圧力投影ソルバでモデル化された微分可能オイラーシミュレータをボリュームトリクレンダラーに統合し、エンドツーエンド/コヒーレントな微分可能動的シミュレーションとレンダリングをサポートする。 各サンプル点を流体体積値で内挿することにより、流体データからnerfライクな微分可能なレンダラを導出し、このボリューム表示により、結果と地上映像フレーム間の誤差信号(すなわち逆レンダリング)から流体力学を逆推論することができる。 生成したFluid FallデータセットとDPI Dam Breakデータセットの実験を行い、本手法の有効性と一般化能力を実証した。

Humans have a strong intuitive understanding of physical processes such as fluid falling by just a glimpse of such a scene picture, i.e., quickly derived from our immersive visual experiences in memory. This work achieves such a photo-to-fluid-dynamics reconstruction functionality learned from unannotated videos, without any supervision of ground-truth fluid dynamics. In a nutshell, a differentiable Euler simulator modeled with a ConvNet-based pressure projection solver, is integrated with a volumetric renderer, supporting end-to-end/coherent differentiable dynamic simulation and rendering. By endowing each sampled point with a fluid volume value, we derive a NeRF-like differentiable renderer dedicated from fluid data; and thanks to this volume-augmented representation, fluid dynamics could be inversely inferred from the error signal between the rendered result and ground-truth video frame (i.e., inverse rendering). Experiments on our generated Fluid Fall datasets and DPI Dam Break dataset are conducted to demonstrate both effectiveness and generalization ability of our method.
翻訳日:2023-04-11 15:36:47 公開日:2023-04-10
# 深部ReLUネットワークを用いた非線形関数の近似

Approximation of Nonlinear Functionals Using Deep ReLU Networks ( http://arxiv.org/abs/2304.04443v1 )

ライセンス: Link先を確認
Linhao Song, Jun Fan, Di-Rong Chen and Ding-Xuan Zhou(参考訳) 近年、関数型ニューラルネットワークが提案され、整数の$l^p([-1, 1]^s)$と$s\ge1$と$1\le p<\infty$で定義される非線形連続関数を近似するために研究されている。 しかし、それらの理論的性質は近似の普遍性を超えてほとんど知られていないし、既存の解析は正則線型単位(ReLU)活性化関数には適用されない。 そこで本研究では,ReLU活性化関数に付随する機能深部ニューラルネットワークの近似能力について,単純な三角法の下で連続的な一方向線形補間を構築することにより検討する。 さらに,弱規則性条件下での関数型深部ReLUネットワークの近似率を確立する。 最後に、我々の研究は、関数型データ学習アルゴリズムの理解にも光を当てるかもしれない。

In recent years, functional neural networks have been proposed and studied in order to approximate nonlinear continuous functionals defined on $L^p([-1, 1]^s)$ for integers $s\ge1$ and $1\le p<\infty$. However, their theoretical properties are largely unknown beyond universality of approximation or the existing analysis does not apply to the rectified linear unit (ReLU) activation function. To fill in this void, we investigate here the approximation power of functional deep neural networks associated with the ReLU activation function by constructing a continuous piecewise linear interpolation under a simple triangulation. In addition, we establish rates of approximation of the proposed functional deep ReLU networks under mild regularity conditions. Finally, our study may also shed some light on the understanding of functional data learning algorithms.
翻訳日:2023-04-11 15:36:25 公開日:2023-04-10
# 単一点監視によるモンテカルロ線形クラスタリングは赤外小目標検出に十分である

Monte Carlo Linear Clustering with Single-Point Supervision is Enough for Infrared Small Target Detection ( http://arxiv.org/abs/2304.04442v1 )

ライセンス: Link先を確認
Boyang Li and Yingqian Wang and Longguang Wang and Fei Zhang and Ting Liu and Zaiping Lin and Wei An and Yulan Guo(参考訳) SIRST(Single-frame infrared small target)検出は、赤外線画像上の乱雑な背景から小さなターゲットを分離することを目的としている。 近年、深層学習に基づく手法は、SIRST検出において有望な性能を達成しているが、高価なピクセルレベルのアノテーションを用いた大量のトレーニングデータを犠牲にしている。 アノテーションの負担を軽減するため,単一点監視によるSIRST検出を実現する手法を提案する。 この研究の中核となる考え方は、クラスタリングアプローチを使用して、与えられた単一点ラベルから各ターゲットのピクセルごとのマスクを復元することである。 この問題に対処するために,入力画像にノイズを付加することでクラスタリングプロセスにランダム性を導入し,クラスタ化結果の平均化によりより信頼性の高い擬似マスクを得る。 この"monte carlo"クラスタリングアプローチにより,疑似マスクを正確に回収し,任意の完全教師付きsirst検出ネットワークを単一点アノテーションのみで弱い教師付きマスクに変換することができる。 4つのデータセットに対する実験により,本手法が既存のSIRST検出ネットワークに適用され,SIRST検出に十分強力な単一点監視性能を有することを示す。 私たちのコードは、https://github.com/YeRen123455/SIRST-Single-Point-Supervisionで利用可能です。

Single-frame infrared small target (SIRST) detection aims at separating small targets from clutter backgrounds on infrared images. Recently, deep learning based methods have achieved promising performance on SIRST detection, but at the cost of a large amount of training data with expensive pixel-level annotations. To reduce the annotation burden, we propose the first method to achieve SIRST detection with single-point supervision. The core idea of this work is to recover the per-pixel mask of each target from the given single point label by using clustering approaches, which looks simple but is indeed challenging since targets are always insalient and accompanied with background clutters. To handle this issue, we introduce randomness to the clustering process by adding noise to the input images, and then obtain much more reliable pseudo masks by averaging the clustered results. Thanks to this "Monte Carlo" clustering approach, our method can accurately recover pseudo masks and thus turn arbitrary fully supervised SIRST detection networks into weakly supervised ones with only single point annotation. Experiments on four datasets demonstrate that our method can be applied to existing SIRST detection networks to achieve comparable performance with their fully supervised counterparts, which reveals that single-point supervision is strong enough for SIRST detection. Our code will be available at: https://github.com/YeRen123455/SIRST-Single-Point-Supervision.
翻訳日:2023-04-11 15:36:11 公開日:2023-04-10
# 半監督型医用画像分割のための二重不確実性を伴う自己訓練

Self-training with dual uncertainty for semi-supervised medical image segmentation ( http://arxiv.org/abs/2304.04441v1 )

ライセンス: Link先を確認
Zhanhong Qiu, Haitao Gan, Ming Shi, Zhongwei Huang, Zhi Yang(参考訳) 半教師付き医療画像セグメンテーションの分野では、ラベル付きデータの不足が根本的な問題である。 ラベルのない画像から画像の特徴を効果的に学習し、セグメンテーション精度を向上させる方法は、この分野の主要な研究方向である。 従来の自己学習手法は、反復学習のための擬似ラベルを生成することによって、ラベル付きデータ不足の問題を部分的に解決することができる。 しかし、トレーニング中のモデルの不確実性に起因するノイズは、セグメント化結果に直接影響する。 そこで我々は,自己学習フレームワークに基づくトレーニングプロセスの安定化のために,サンプルレベルと画素レベルの不確実性を付加した。 具体的には、事前トレーニング中にモデルのいくつかのモーメントを保存し、標本の標本レベルの不確実性推定としてラベルなしサンプルの予測値の違いを用いた。 そして、トレーニング中にラベルのないサンプルを徐々に追加します。 同時に、セグメント化ネットワークに異なるアップサンプリング手法を持つデコーダを追加し、2つのデコーダの出力差を画素レベルの不確実性として使用した。 簡単に言えば、ラベルなしサンプルを選択的に再訓練し、擬似ラベルに画素レベルの不確実性を割り当て、自己学習プロセスを最適化する。 我々は、2017 ACDCデータセットと2018 Prostateデータセットの5つの半教師付きアプローチと、モデルのセグメンテーション結果を比較した。 提案手法は,同じ条件下で両方のデータセットのセグメンテーション性能を向上し,その有効性,堅牢性,および他の医用画像セグメンテーションタスクへの潜在的な転送可能性を示す。 キーワード:医療画像分割、半教師付き学習、自己学習、不確実性推定

In the field of semi-supervised medical image segmentation, the shortage of labeled data is the fundamental problem. How to effectively learn image features from unlabeled images to improve segmentation accuracy is the main research direction in this field. Traditional self-training methods can partially solve the problem of insufficient labeled data by generating pseudo labels for iterative training. However, noise generated due to the model's uncertainty during training directly affects the segmentation results. Therefore, we added sample-level and pixel-level uncertainty to stabilize the training process based on the self-training framework. Specifically, we saved several moments of the model during pre-training, and used the difference between their predictions on unlabeled samples as the sample-level uncertainty estimate for that sample. Then, we gradually add unlabeled samples from easy to hard during training. At the same time, we added a decoder with different upsampling methods to the segmentation network and used the difference between the outputs of the two decoders as pixel-level uncertainty. In short, we selectively retrained unlabeled samples and assigned pixel-level uncertainty to pseudo labels to optimize the self-training process. We compared the segmentation results of our model with five semi-supervised approaches on the public 2017 ACDC dataset and 2018 Prostate dataset. Our proposed method achieves better segmentation performance on both datasets under the same settings, demonstrating its effectiveness, robustness, and potential transferability to other medical image segmentation tasks. Keywords: Medical image segmentation, semi-supervised learning, self-training, uncertainty estimation
翻訳日:2023-04-11 15:35:46 公開日:2023-04-10
# 量子整数で操作する - Oracleの効率的な'マルチプル'

Operating with Quantum Integers: an Efficient 'Multiples of' Oracle ( http://arxiv.org/abs/2304.04440v1 )

ライセンス: Link先を確認
Javier Sanchez-Rivero, Daniel Talav\'an, Jose Garcia-Alonso, Antonio Ruiz-Cort\'es and Juan Manuel Murillo(参考訳) 量子アルゴリズムはとても有望な分野です。 しかし、この種のアルゴリズムの作成と操作は非常に複雑な作業であり、特に、より抽象的なレベルで作業していたソフトウェアエンジニアにとってです。 ここで提示された研究は、重ね合わせとして符号化された整数を操作するために、より高度な抽象レベルの操作を提供することに焦点を当てた広範な研究の一部である。 これらの操作は構成可能で効率的なように設計されているので、量子ソフトウェア開発者はそれらを再利用してより複雑なソリューションを作ることができる。 具体的には,本稿では 'multiples of' 演算について述べる。 この動作を検証するために、構成可能性を含む量子回路とそのシミュレーションのいくつかの例を示す。 理論解析により、必要となる古典計算の複雑さと回路の深さが量子ビットの数と線形に一致することが証明される。 したがって、「オラクルの複数」は複雑さと深さの点で効率的である。 最後に、回路の深さに関する実証研究を行い、理論解析をさらに強化する。

Quantum algorithms are a very promising field. However, creating and manipulating these kind of algorithms is a very complex task, specially for software engineers used to work at higher abstraction levels. The work presented here is part of a broader research focused on providing operations of a higher abstraction level to manipulate integers codified as a superposition. These operations are designed to be composable and efficient, so quantum software developers can reuse them to create more complex solutions. Specifically, in this paper we present a 'multiples of' operation. To validate this operation we show several examples of quantum circuits and their simulations, including its composition possibilities. A theoretical analysis proves that both the complexity of the required classical calculations and the depth of the circuit scale linearly with the number of qubits. Hence, the 'multiples of' oracle is efficient in terms of complexity and depth. Finally, an empirical study of the circuit depth is conducted to further reinforce the theoretical analysis.
翻訳日:2023-04-11 15:35:22 公開日:2023-04-10
# ヘッドテール損失: オブジェクト指向物体検出とアンカーフリーモデルのための簡易関数

Head-tail Loss: A simple function for Oriented Object Detection and Anchor-free models ( http://arxiv.org/abs/2304.04503v1 )

ライセンス: Link先を確認
Pau Gall\'es, Xi Chen(参考訳) 本稿では,向き付けられた境界ボックスの予測のための新しい損失関数であるhead-tail-lossを提案する。 損失関数は、オブジェクトのアノテーションを表す2つのキーポイントの予測とアノテーションの間の距離を最小化する。 第1のポイントはセンターポイントで、第2のポイントはオブジェクトのヘッドです。 しかし、第2の点では、予測と地底の頭部または尾部との間の最小距離が用いられる。 この方法では、予測が有効である(頭が尾を向けているか、尾が頭を指しているか)。 最終的に重要なのは、物体の方向を検出することだが、その方向は検出しない。 新しい損失関数は、dotaおよびhrsc2016データセットで評価され、船のような細長いオブジェクトや、異なる形状の他のタイプのオブジェクトにも可能性を示した。

This paper presents a new loss function for the prediction of oriented bounding boxes, named head-tail-loss. The loss function consists in minimizing the distance between the prediction and the annotation of two key points that are representing the annotation of the object. The first point is the center point and the second is the head of the object. However, for the second point, the minimum distance between the prediction and either the head or tail of the groundtruth is used. On this way, either prediction is valid (with the head pointing to the tail or the tail pointing to the head). At the end the importance is to detect the direction of the object but not its heading. The new loss function has been evaluated on the DOTA and HRSC2016 datasets and has shown potential for elongated objects such as ships and also for other types of objects with different shapes.
翻訳日:2023-04-11 15:29:51 公開日:2023-04-10
# 未知トポロジを持つコミュニティ検出のためのグラフニューラルネットワークによる探索学習

Graph Neural Network-Aided Exploratory Learning for Community Detection with Unknown Topology ( http://arxiv.org/abs/2304.04497v1 )

ライセンス: Link先を確認
Yu Hou, Cong Tran, Ming Li, Won-Yong Shin(参考訳) ソーシャルネットワークでは,様々なネットワーク分析課題において,コミュニティ構造の発見が根本的な問題として注目されている。 しかし、プライバシの懸念やアクセス制限のため、ネットワーク構造はしばしば不明であり、コストのかかるネットワークトポロジー取得なしに、確立されたコミュニティ検出アプローチは有効ではない。 この課題に対処するために,我々は,ノードメタデータによる探索学習を通じて,未知のトポロジを持つネットワーク内の重複するコミュニティを検出する,新しいエンドツーエンドソリューションMETA-CODEを提案する。 具体的には、META-CODEは、初期ネットワーク推論ステップに加えて、3つの反復ステップで構成される。 1)新しい再構成損失を訓練したグラフニューラルネットワーク(gnns)に基づくノードレベルのコミュニティ・アフィリエーション埋め込み 2)コミュニティアフィリエイトに基づくノードクエリによるネットワーク探索, 3) エッジ接続型Siameseニューラルネットワークモデルを用いたネットワーク推定を行った。 5つの実世界のデータセットを用いた総合的な評価を通じて、META-CODEが示すことを実証する。 (a)ベンチマークコミュニティ検出方法よりも優れている。 b) 実験的な評価と、ノードクエリの有効性を確認するための理論的知見。 (c)各モジュールの影響、及び (d)その計算効率。

In social networks, the discovery of community structures has received considerable attention as a fundamental problem in various network analysis tasks. However, due to privacy concerns or access restrictions, the network structure is often unknown, thereby rendering established community detection approaches ineffective without costly network topology acquisition. To tackle this challenge, we present META-CODE, a novel end-to-end solution for detecting overlapping communities in networks with unknown topology via exploratory learning aided by easy-to-collect node metadata. Specifically, META-CODE consists of three iterative steps in addition to the initial network inference step: 1) node-level community-affiliation embeddings based on graph neural networks (GNNs) trained by our new reconstruction loss, 2) network exploration via community affiliation-based node queries, and 3) network inference using an edge connectivity-based Siamese neural network model from the explored network. Through comprehensive evaluations using five real-world datasets, we demonstrate that META-CODE exhibits (a) its superiority over benchmark community detection methods, (b) empirical evaluations as well as theoretical findings to see the effectiveness of our node query, (c) the influence of each module, and (d) its computational efficiency.
翻訳日:2023-04-11 15:29:37 公開日:2023-04-10
# DeFeeNet: 偏差フィードバックによる3次元人間の動作予測

DeFeeNet: Consecutive 3D Human Motion Prediction with Deviation Feedback ( http://arxiv.org/abs/2304.04496v1 )

ライセンス: Link先を確認
Xiaoning Sun, Huaijiang Sun, Bin Li, Dong Wei, Weiqing Li, Jianfeng Lu(参考訳) 人間とロボットのコラボレーションのような人間の動きを予測する技術を必要とする現実のシナリオを再考しよう。 現在の作業は、人間の動きを予測するタスクを、歴史的に観察されたものに基づいて、短い将来のシーケンス(通常は1秒以内)を予測するワンオフプロセスに単純化する。 しかし、実際のアプリケーションでの動作予測が分離された`observe then predict''ユニットではなく、半オーバーラップされた多数のラウンドからなる連続したプロセスであるという事実が無視されているため、そのような単純化は実用的なニーズを満たさないかもしれない。 時が経つにつれ、前回のラウンドの予測された部分は、新しいラウンドでそれに対応する真実を観測できるが、それらの間の偏差は利用されず、既存の独立した学習方法によって捉えられることはない。 本稿では,既存のワンオフ予測モデルに付加して,連続動作予測タスクに適用した場合の偏差知覚とフィードバックを実現する,シンプルで効果的なネットワークであるDeFeeNetを提案する。 各予測ラウンドにおいて、前回のユニットが生成した偏差をまずdefeenetで符号化し、その後、既存の予測器に組み込んで偏差認識予測方法を可能にします。 defeenet の2つのバージョンをそれぞれ mlp ベースと gru ベースとして設計した。 ヒト3.6mおよびより複雑なバベルにおいて,提案ネットワークが基本モデルによらず連続動作予測性能を向上させることを実験的に示した。

Let us rethink the real-world scenarios that require human motion prediction techniques, such as human-robot collaboration. Current works simplify the task of predicting human motions into a one-off process of forecasting a short future sequence (usually no longer than 1 second) based on a historical observed one. However, such simplification may fail to meet practical needs due to the neglect of the fact that motion prediction in real applications is not an isolated ``observe then predict'' unit, but a consecutive process composed of many rounds of such unit, semi-overlapped along the entire sequence. As time goes on, the predicted part of previous round has its corresponding ground truth observable in the new round, but their deviation in-between is neither exploited nor able to be captured by existing isolated learning fashion. In this paper, we propose DeFeeNet, a simple yet effective network that can be added on existing one-off prediction models to realize deviation perception and feedback when applied to consecutive motion prediction task. At each prediction round, the deviation generated by previous unit is first encoded by our DeFeeNet, and then incorporated into the existing predictor to enable a deviation-aware prediction manner, which, for the first time, allows for information transmit across adjacent prediction units. We design two versions of DeFeeNet as MLP-based and GRU-based, respectively. On Human3.6M and more complicated BABEL, experimental results indicate that our proposed network improves consecutive human motion prediction performance regardless of the basic model.
翻訳日:2023-04-11 15:29:19 公開日:2023-04-10
# ドメイン一般化のためのテスト時間適応の改善

Improved Test-Time Adaptation for Domain Generalization ( http://arxiv.org/abs/2304.04494v1 )

ライセンス: Link先を確認
Liang Chen, Yong Zhang, Yibing Song, Ying Shan, Lingqiao Liu(参考訳) ドメイン一般化(DG)の主な課題は、トレーニングデータとテストデータの間にある分散シフト問題を扱うことである。 近年の研究では、学習モデルにテストデータを適用するテストタイムトレーニング(TTT)が、この問題に対する有望な解決策である可能性が示唆されている。 一般的に、TTT戦略は、テストフェーズ中に更新する信頼できるパラメータを更新および特定するための適切な補助的TTTタスクを選択するという、2つの主要な要因にそのパフォーマンスをヒンジする。 この2つの要因が適切に考慮されていない場合,TTTは改善せず,学習モデルに有害である可能性が示唆された。 本研究は,テスト時間適応法(itta)の改良を提案することで,これらの2つの要因を解決する。 まず、補助目的をヒューリスティックに定義するのではなく、TTTタスクと主予測タスクとの整合性を改善するために調整可能な学習可能なパラメータを含む学習可能なTTTタスクの整合性損失を提案する。 第二に、トレーニングされたモデルに適応パラメータを追加し、テストフェーズでのみ適応パラメータを更新することを提案する。 広範な実験により,提案された2つの戦略が学習モデルに有益であることを示す(第1図参照)。 コードはhttps://github.com/liangchen527/ITTAで入手できる。

The main challenge in domain generalization (DG) is to handle the distribution shift problem that lies between the training and test data. Recent studies suggest that test-time training (TTT), which adapts the learned model with test data, might be a promising solution to the problem. Generally, a TTT strategy hinges its performance on two main factors: selecting an appropriate auxiliary TTT task for updating and identifying reliable parameters to update during the test phase. Both previous arts and our experiments indicate that TTT may not improve but be detrimental to the learned model if those two factors are not properly considered. This work addresses those two factors by proposing an Improved Test-Time Adaptation (ITTA) method. First, instead of heuristically defining an auxiliary objective, we propose a learnable consistency loss for the TTT task, which contains learnable parameters that can be adjusted toward better alignment between our TTT task and the main prediction task. Second, we introduce additional adaptive parameters for the trained model, and we suggest only updating the adaptive parameters during the test phase. Through extensive experiments, we show that the proposed two strategies are beneficial for the learned model (see Figure 1), and ITTA could achieve superior performance to the current state-of-the-art methods on several DG benchmarks. Code is available at https://github.com/liangchen527/ITTA.
翻訳日:2023-04-11 15:28:50 公開日:2023-04-10
# 参照による推論:大規模言語モデルのロスレス加速

Inference with Reference: Lossless Acceleration of Large Language Models ( http://arxiv.org/abs/2304.04487v1 )

ライセンス: Link先を確認
Nan Yang, Tao Ge, Liang Wang, Binxing Jiao, Daxin Jiang, Linjun Yang, Rangan Majumder, Furu Wei(参考訳) LLMアクセラレータであるLLMAを提案し、参照によるLarge Language Model (LLM)推論を無作為に高速化する。 LLMAは、LLMによる復号結果と多くの現実世界のシナリオ(例えば、検索された文書)で利用できる参照の間には、多くの同一のテキストが存在しているという観察によって動機づけられている。 LLMAはまず、参照からスパンのテキストを選択し、トークンをデコーダにコピーし、トークンの妥当性を1つのデコードステップ内で並列にチェックする。 計算並列性の改善によりLLMAは、文脈内参照と出力の間に大きな重複が存在する現実的なシナリオ(検索エンジンやマルチターン会話など)において、greedyデコードと同じ生成結果でLLMの2倍のスピードアップを達成することができる。

We propose LLMA, an LLM accelerator to losslessly speed up Large Language Model (LLM) inference with references. LLMA is motivated by the observation that there are abundant identical text spans between the decoding result by an LLM and the reference that is available in many real world scenarios (e.g., retrieved documents). LLMA first selects a text span from the reference and copies its tokens to the decoder and then efficiently checks the tokens' appropriateness as the decoding result in parallel within one decoding step. The improved computational parallelism allows LLMA to achieve over 2x speed-up for LLMs with identical generation results as greedy decoding in many practical generation scenarios where significant overlap between in-context reference and outputs exists (e.g., search engines and multi-turn conversations).
翻訳日:2023-04-11 15:28:27 公開日:2023-04-10
# ああ、ああ、ああ! ASR転写におけるリスナー認識バックチャネル予測器

Oh, Jeez! or Uh-huh? A Listener-aware Backchannel Predictor on ASR Transcriptions ( http://arxiv.org/abs/2304.04478v1 )

ライセンス: Link先を確認
Daniel Ortega, Chia-Yu Li, Ngoc Thang Vu(参考訳) 本稿では,会話におけるバックチャネルのモデル化に関する最近の研究について述べる。 プロアクティブなバックチャネル理論を動機として,継続器やアセスメントなどのバックチャネルを挿入して,アクティブなリスナーとして機能するシステムを開発することを目的とする。 我々のモデルは, 語彙や音響だけでなく, 様々なバックチャネルの動作を模倣するためにリスナーの埋め込みを利用するという, シンプルで斬新なアイデアも取り入れている。 switchboardベンチマークデータセットにおける実験結果から,この課題における音響的手がかりは語彙的手がかりよりも重要であり,リスナー埋め込みとの組合せは,手作業による書き起こしと自動生成された書き起こしの両方に最適であることが判明した。

This paper presents our latest investigation on modeling backchannel in conversations. Motivated by a proactive backchanneling theory, we aim at developing a system which acts as a proactive listener by inserting backchannels, such as continuers and assessment, to influence speakers. Our model takes into account not only lexical and acoustic cues, but also introduces the simple and novel idea of using listener embeddings to mimic different backchanneling behaviours. Our experimental results on the Switchboard benchmark dataset reveal that acoustic cues are more important than lexical cues in this task and their combination with listener embeddings works best on both, manual transcriptions and automatically generated transcriptions.
翻訳日:2023-04-11 15:28:08 公開日:2023-04-10
# Deep Deterministic Policy Gradientを用いた大規模エージェントベース疫学モデルのエピデミック制御

Epidemic Control on a Large-Scale-Agent-Based Epidemiology Model using Deep Deterministic Policy Gradient ( http://arxiv.org/abs/2304.04475v1 )

ライセンス: Link先を確認
Gaurav Deshkar, Jayanta Kshirsagar, Harshal Hayatnagarkar, and Janani Venugopalan(参考訳) パンデミックの影響を軽減するため、ロックダウン、急速ワクチン接種プログラム、学校閉鎖、経済刺激などいくつかの措置が講じられている。 これらの介入は肯定的あるいは意図しない否定的な結果をもたらす可能性がある。 ラウンドトリップによる最適な介入を自動的にモデル化し決定するための現在の研究は、シミュレーション目標、スケール(数千人)、介入研究に適さないモデルタイプ、探索可能な介入戦略の数(離散対連続)によって制限されている。 我々は,多目的最適化を行う大規模(100,000人)疫学エージェントに基づくシミュレーションにおいて,DDPGに基づく政策最適化フレームワークを用いてこれらの課題に対処する。 経済活動の基本的なシミュレーションを用いて, 最少年齢階層のマルチワクチンシナリオにおいて, ロックダウンとワクチン接種の最適方針を決定する。 ロックダウンやワクチン接種(中年と高齢者)がなければ、健康目標(感染、入院)がバランスの取れた最適経済(貧困線以下の個人)が示される。 結果のさらなる検証とフレームワークのオープンソース化には,詳細なシミュレーションが必要である。

To mitigate the impact of the pandemic, several measures include lockdowns, rapid vaccination programs, school closures, and economic stimulus. These interventions can have positive or unintended negative consequences. Current research to model and determine an optimal intervention automatically through round-tripping is limited by the simulation objectives, scale (a few thousand individuals), model types that are not suited for intervention studies, and the number of intervention strategies they can explore (discrete vs continuous). We address these challenges using a Deep Deterministic Policy Gradient (DDPG) based policy optimization framework on a large-scale (100,000 individual) epidemiological agent-based simulation where we perform multi-objective optimization. We determine the optimal policy for lockdown and vaccination in a minimalist age-stratified multi-vaccine scenario with a basic simulation for economic activity. With no lockdown and vaccination (mid-age and elderly), results show optimal economy (individuals below the poverty line) with balanced health objectives (infection, and hospitalization). An in-depth simulation is needed to further validate our results and open-source our framework.
翻訳日:2023-04-11 15:27:52 公開日:2023-04-10
# graph laplacian pyramid networkを用いたデータインプテーションの欠如

Missing Data Imputation with Graph Laplacian Pyramid Network ( http://arxiv.org/abs/2304.04474v1 )

ライセンス: Link先を確認
Weiqi Zhang, Guanlve Li, Jianheng Tang, Jia Li and Fugee Tsung(参考訳) データ計算は、欠落したデータのユビキタス性のため、一般的かつ重要なタスクである。 多くの努力は、最初に完成したデータを草案し、インプテーションの結果を導出するために第2の精錬を試みる。 本研究では,ディリクレエネルギーの観点から,この広範にわたる実践を分析する。 初歩的な「ドラフト」計算はディリクレのエネルギーを減少させるので、全体のエネルギーを回復するエネルギー維持の「精製」ステップが必要である。 グラフ畳み込みネットワーク(GCN)のような既存の「微細化」手法はエネルギー低下を引き起こす傾向にあるため,本稿では,ディリクレエネルギーの保存と計算性能の向上を目的としたグラフラプラシアンピラミッドネットワーク(GLPN)と呼ばれる新しいフレームワークを提案する。 GLPNはU字型オートエンコーダと残余ネットワークから構成され、それぞれグローバルおよびローカルの詳細情報をキャプチャする。 いくつかの実世界のデータセットに対する広範な実験により、GLPNは3つの異なるメカニズムの下で最先端の手法よりも優れた性能を示す。 ソースコードはhttps://github.com/liguanlue/glpn.comから入手できます。

Data imputation is a prevalent and important task due to the ubiquitousness of missing data. Many efforts try to first draft a completed data and second refine to derive the imputation results, or "draft-then-refine" for short. In this work, we analyze this widespread practice from the perspective of Dirichlet energy. We find that a rudimentary "draft" imputation will decrease the Dirichlet energy, thus an energy-maintenance "refine" step is in need to recover the overall energy. Since existing "refine" methods such as Graph Convolutional Network (GCN) tend to cause further energy decline, in this work, we propose a novel framework called Graph Laplacian Pyramid Network (GLPN) to preserve Dirichlet energy and improve imputation performance. GLPN consists of a U-shaped autoencoder and residual networks to capture global and local detailed information respectively. By extensive experiments on several real-world datasets, GLPN shows superior performance over state-of-the-art methods under three different missing mechanisms. Our source code is available at https://github.com/liguanlue/GLPN.
翻訳日:2023-04-11 15:27:32 公開日:2023-04-10
# バックチャネル予測のための話者-リスナー相互作用のモデル化

Modeling Speaker-Listener Interaction for Backchannel Prediction ( http://arxiv.org/abs/2304.04472v1 )

ライセンス: Link先を確認
Daniel Ortega, Sarina Meyer, Antje Schweitzer and Ngoc Thang Vu(参考訳) 本稿では,英語のYeah,Uh-huh,およびドイツ語の対応トークンの標準的使用と話者-リスナー相互作用の符号化によるバックチャネルモデリングに関する最新の知見を紹介する。 バックチャネル理論は、会話の過程におけるリスナーの活発かつ継続的な役割、話者のその後の講演に対するその影響、そしてそれに伴う動的話者-リスナー相互作用を強調する。 そこで我々は,話者音声から音響特徴を処理し,聴取者のバックチャネル動作を捉え,模倣し,話者とリスナーの相互作用を符号化することで,最小応答に基づくニューラルベース音響バックチャネル分類器を提案する。 スイッチボードとgecoデータセットにおける実験結果から,ほぼすべてのテストシナリオにおいて,話者あるいはリスナの動作埋め込みは,モデルがより正確なバックチャネル予測を行うのに役立つことが分かった。 さらに重要なことに、適切なインタラクションエンコーディング戦略、すなわち話者とリスナの埋め込みの組み合わせは、f1-scoreの観点から両方のデータセットで最高のパフォーマンスをもたらす。

We present our latest findings on backchannel modeling novelly motivated by the canonical use of the minimal responses Yeah and Uh-huh in English and their correspondent tokens in German, and the effect of encoding the speaker-listener interaction. Backchanneling theories emphasize the active and continuous role of the listener in the course of the conversation, their effects on the speaker's subsequent talk, and the consequent dynamic speaker-listener interaction. Therefore, we propose a neural-based acoustic backchannel classifier on minimal responses by processing acoustic features from the speaker speech, capturing and imitating listeners' backchanneling behavior, and encoding speaker-listener interaction. Our experimental results on the Switchboard and GECO datasets reveal that in almost all tested scenarios the speaker or listener behavior embeddings help the model make more accurate backchannel predictions. More importantly, a proper interaction encoding strategy, i.e., combining the speaker and listener embeddings, leads to the best performance on both datasets in terms of F1-score.
翻訳日:2023-04-11 15:27:13 公開日:2023-04-10
# コホート知性に向けて : 電子健康記録分析のための普遍コホート表現学習フレームワーク

Toward Cohort Intelligence: A Universal Cohort Representation Learning Framework for Electronic Health Record Analysis ( http://arxiv.org/abs/2304.04468v1 )

ライセンス: Link先を確認
Changshuo Liu, Wenqiao Zhang, Lingze Zeng, Beng Chin Ooi, James Wei Luen Yip, Kaiping Zheng(参考訳) 電子健康記録(ehr)は、幅広い患者集団の貴重な情報を記録した臨床ルーチンケアから作成され、臨床実践における患者の管理と介入戦略を改善する豊富な機会を提供する。 EHRデータの膨大な可能性を活用するために、マシンラーニングにおける一般的なEHRデータ分析パラダイムは、まず患者のERHデータを活用して、バックボーンによる情報表現を学習し、その表現に基づく多様なヘルスケアダウンストリームタスクをサポートするEHR表現学習である。 残念なことに、このようなパラダイムは、一般的に臨床実践におけるコホート研究として知られる患者の関連性の深い分析にアクセスできない。 特に、同じコホートを持つ患者は、症状や疾患などの医学的状況において類似した特徴を持つ傾向がある。 本稿では, 患者間の詳細なコホート情報を活用することで, EHR活用を促進するための共通コホート表現 lEarning (CORE) フレームワークを提案する。 特に、COREは、患者の診断コードの事前知識に基づいて、患者のコホートを適応的に分割するために、患者間の潜伏関係を測定する明示的な患者モデリングタスクを最初に開発した。 構築されたコホートに基づいて、COREは、事前抽出されたEHRデータ表現をコホート内およびコホート間の観点から再符号化し、拡張されたEHRデータ表現学習を生成する。 COREは多様なバックボーンモデルに容易に適用でき、コホート情報を医療手法に注入してパフォーマンスを高める普遍的なプラグインフレームワークとして機能する。 2つの実世界のデータセットについて広範な実験評価を行い,実験結果からコアの有効性と汎用性を示す。

Electronic Health Records (EHR) are generated from clinical routine care recording valuable information of broad patient populations, which provide plentiful opportunities for improving patient management and intervention strategies in clinical practice. To exploit the enormous potential of EHR data, a popular EHR data analysis paradigm in machine learning is EHR representation learning, which first leverages the individual patient's EHR data to learn informative representations by a backbone, and supports diverse health-care downstream tasks grounded on the representations. Unfortunately, such a paradigm fails to access the in-depth analysis of patients' relevance, which is generally known as cohort studies in clinical practice. Specifically, patients in the same cohort tend to share similar characteristics, implying their resemblance in medical conditions such as symptoms or diseases. In this paper, we propose a universal COhort Representation lEarning (CORE) framework to augment EHR utilization by leveraging the fine-grained cohort information among patients. In particular, CORE first develops an explicit patient modeling task based on the prior knowledge of patients' diagnosis codes, which measures the latent relevance among patients to adaptively divide the cohorts for each patient. Based on the constructed cohorts, CORE recodes the pre-extracted EHR data representation from intra- and inter-cohort perspectives, yielding augmented EHR data representation learning. CORE is readily applicable to diverse backbone models, serving as a universal plug-in framework to infuse cohort information into healthcare methods for boosted performance. We conduct an extensive experimental evaluation on two real-world datasets, and the experimental results demonstrate the effectiveness and generalizability of CORE.
翻訳日:2023-04-11 15:26:54 公開日:2023-04-10
# 散逸性量子ギブズサンプリング

Dissipative Quantum Gibbs Sampling ( http://arxiv.org/abs/2304.04526v1 )

ライセンス: Link先を確認
Daniel Zhang, Jan Lukas Bosse, Toby Cubitt(参考訳) 非零温度の熱平衡系はギブス状態によって記述される。 古典的な多体系では、メトロポリス・ハstingsアルゴリズムは、ギブス分布からサンプリングされる局所更新規則を持つマルコフ過程を与える。 量子系では、ギブス状態からのサンプリングははるかに困難である。 多くのアルゴリズムが提案されているが、これは従来のメトロポリスサンプリングの単純な局所的な更新規則よりも複雑であり、位相推定のような非自明な量子アルゴリズムを必要とする。 ここでは、単純で局所的な更新規則を持つ散逸的量子アルゴリズムが、量子ギブス状態からサンプリング可能であることを示す。 古典的な場合とは対照的に、量子ギブス状態はマルコフ過程の不動点に収束することで生成されるのではなく、条件付き停止過程の停止時に生成される状態によって生成される。 これはメトロポリスサンプリングの長い後続の量子アナログに対する新しい答えを与える。 従来の量子ギブスサンプリングアルゴリズムと比較して、プロセスの局所更新ルールは単純な実装であり、適切な量子ハードウェア上での短期的実装に適している可能性がある。 この散逸的なギブスサンプルは、その性質の仮定や知識なしに任意の量子ハミルトニアンに対して作用し、証明可能な精度と実行時境界を持つ。

Systems in thermal equilibrium at non-zero temperature are described by their Gibbs state. For classical many-body systems, the Metropolis-Hastings algorithm gives a Markov process with a local update rule that samples from the Gibbs distribution. For quantum systems, sampling from the Gibbs state is significantly more challenging. Many algorithms have been proposed, but these are more complex than the simple local update rule of classical Metropolis sampling, requiring non-trivial quantum algorithms such as phase estimation as a subroutine. Here, we show that a dissipative quantum algorithm with a simple, local update rule is able to sample from the quantum Gibbs state. In contrast to the classical case, the quantum Gibbs state is not generated by converging to the fixed point of a Markov process, but by the states generated at the stopping time of a conditionally stopped process. This gives a new answer to the long-sought-after quantum analogue of Metropolis sampling. Compared to previous quantum Gibbs sampling algorithms, the local update rule of the process has a simple implementation, which may make it more amenable to near-term implementation on suitable quantum hardware. This dissipative Gibbs sampler works for arbitrary quantum Hamiltonians, without any assumptions on or knowledge of its properties, and comes with certifiable precision and run-time bounds.
翻訳日:2023-04-11 15:20:33 公開日:2023-04-10
# 視覚言語基礎モデルを用いたマルチオブジェクト環境におけるゼロショット分布検出

Zero-Shot In-Distribution Detection in Multi-Object Settings Using Vision-Language Foundation Models ( http://arxiv.org/abs/2304.04521v1 )

ライセンス: Link先を確認
Atsuyuki Miyai, Qing Yu, Go Irie, Kiyoharu Aizawa(参考訳) 視覚言語基盤モデル(clip)を用いたゼロショットood検出によって対処できるデータセット構築のための重要な前処理は、インターネットからスクレイピングされたノイズ画像からod(out-of-distribution)画像を削除することである。 既存のゼロショットOOD検出設定は、画像が分布内(ID)オブジェクトとOODオブジェクトの両方を持つ現実的なケースを考慮していない。 しかし、希少なクラスや倫理的に不適切なクラスから画像を集める場合には、id画像として識別することが重要である。 本稿では,idオブジェクトを含むイメージをid画像として識別し,idオブジェクトを欠いたイメージをood画像として識別するin-distribution (id) detectionと呼ばれる新しい問題設定を提案する。 本稿では,この問題を解決するために, idオブジェクトを含む任意の画像をid画像として識別可能なクリップ特徴のグローバルおよびローカルな視覚的テキストアライメントに基づく,新しいアプローチである \textbf{g}lobal-\textbf{l}ocal \textbf{m}aximum \textbf{c}oncept \textbf{m}atching (gl-mcm)を提案する。 GL-MCMはマルチオブジェクトデータセットと単一オブジェクトイメージネットベンチマークの両方で比較手法より優れていることを示す。

Removing out-of-distribution (OOD) images from noisy images scraped from the Internet is an important preprocessing for constructing datasets, which can be addressed by zero-shot OOD detection with vision language foundation models (CLIP). The existing zero-shot OOD detection setting does not consider the realistic case where an image has both in-distribution (ID) objects and OOD objects. However, it is important to identify such images as ID images when collecting the images of rare classes or ethically inappropriate classes that must not be missed. In this paper, we propose a novel problem setting called in-distribution (ID) detection, where we identify images containing ID objects as ID images, even if they contain OOD objects, and images lacking ID objects as OOD images. To solve this problem, we present a new approach, \textbf{G}lobal-\textbf{L}ocal \textbf{M}aximum \textbf{C}oncept \textbf{M}atching (GL-MCM), based on both global and local visual-text alignments of CLIP features, which can identify any image containing ID objects as ID images. Extensive experiments demonstrate that GL-MCM outperforms comparison methods on both multi-object datasets and single-object ImageNet benchmarks.
翻訳日:2023-04-11 15:20:14 公開日:2023-04-10
# 視覚認識モデルは画像圧縮に堅牢か?

Are Visual Recognition Models Robust to Image Compression? ( http://arxiv.org/abs/2304.04518v1 )

ライセンス: Link先を確認
Jo\~ao Maria Janeiro, Stanislav Frolov, Alaaeldin El-Nouby, Jakob Verbeek(参考訳) 画像圧縮によるビジュアルコンテンツのデータフットプリントの削減は、ストレージ要件の削減だけでなく、伝送の帯域幅とレイテンシ要件の低減にも不可欠である。 特に、圧縮画像を使用することで、データ転送の高速化と、クラウドベースのサービスに依存するエッジデバイスにおける視覚的認識の応答時間の高速化が可能になる。 本稿では,従来のコーデックと最近の最先端のニューラル圧縮手法を用いて,画像分類,オブジェクト検出,セマンティックセグメンテーションの3つの視覚的認識課題に対する画像圧縮の影響を初めて分析する。 我々は、0.1ビットから2ビット/ピクセル(bpp)までの幅広い圧縮レベルについて検討する。 3つのタスクすべてにおいて、強い圧縮を使用する場合、認識能力に大きな影響を及ぼすことがわかった。 例えば、セグメンテーションmIoUは、評価した最良の圧縮モデルを用いて0.1bppに圧縮すると44.5mIoUから30.5mIoUに削減される。 第2に,圧縮画像における関連情報の欠落や,圧縮アーチファクトを有する画像に対する視覚認識モデルの一般化の欠如により,この性能低下がどの程度生じるかを検証する。 圧縮訓練画像の認識モデルを微調整することにより,性能損失の大部分が回収される。 例えば、セグメンテーションの精度を42 mIoUに戻す、すなわち元のドロップの82%の精度を回復させる。

Reducing the data footprint of visual content via image compression is essential to reduce storage requirements, but also to reduce the bandwidth and latency requirements for transmission. In particular, the use of compressed images allows for faster transfer of data, and faster response times for visual recognition in edge devices that rely on cloud-based services. In this paper, we first analyze the impact of image compression using traditional codecs, as well as recent state-of-the-art neural compression approaches, on three visual recognition tasks: image classification, object detection, and semantic segmentation. We consider a wide range of compression levels, ranging from 0.1 to 2 bits-per-pixel (bpp). We find that for all three tasks, the recognition ability is significantly impacted when using strong compression. For example, for segmentation mIoU is reduced from 44.5 to 30.5 mIoU when compressing to 0.1 bpp using the best compression model we evaluated. Second, we test to what extent this performance drop can be ascribed to a loss of relevant information in the compressed image, or to a lack of generalization of visual recognition models to images with compression artefacts. We find that to a large extent the performance loss is due to the latter: by finetuning the recognition models on compressed training images, most of the performance loss is recovered. For example, bringing segmentation accuracy back up to 42 mIoU, i.e. recovering 82% of the original drop in accuracy.
翻訳日:2023-04-11 15:19:43 公開日:2023-04-10
# 16量子ビット量子コンピュータ上でのカゴメ格子に対するハイゼンベルクスピン1/2ハミルトニアンの高忠実性雑音耐性状態

High Fidelity Noise-Tolerant State Preparation of a Heisenberg spin-1/2 Hamiltonian for the Kagome Lattice on a 16 Qubit Quantum Computer ( http://arxiv.org/abs/2304.04516v1 )

ライセンス: Link先を確認
Wladimir Silva(参考訳) 本研究は、古典固有解法を用いて計算された基底状態の1%未満の忠実度を持つibm 16量子ビット量子コンピュータにおいて、カゴメ格子のハイゼンベルクスピン1/2ハミルトニアンの量子状態を作成する方法を示す。 さらに、このソリューションは非常に高いノイズ耐性(または全体の成功率98%以上)を持つ。 現在の量子コンピュータに固有の永続的なノイズに対処するために、勤勉な注意を払って、我々は、実行時に、非常に高い成功率と高い忠実性を達成することを示します。 この作業は、効率的なスケーラビリティや、任意のキュービットサイズの量子コンピュータ上で動作する能力を含むことで、さらに一歩進める。 IBM 16 qubit のトランスモンプロセッサ ibmq_guadalupe は変分量子固有解器 (VQE) を使用している。

This work describes a method to prepare the quantum state of the Heisenberg spin-1/2 Hamiltonian for the Kagome Lattice in an IBM 16 qubit quantum computer with a fidelity below 1% of the ground state computed via a classical Eigen-solver. Furthermore, this solution has a very high noise tolerance (or overall success rate above 98%). With industrious care taken to deal with the persistent noise inherent to current quantum computers; we show that our solution, when run, multiple times achieves a very high probability of success and high fidelity. We take this work a step further by including efficient scalability or the ability to run on any qubit size quantum computer. The platform of choice for this experiment: The IBM 16 qubit transmon processor ibmq_guadalupe using the Variational Quantum Eigensolver (VQE).
翻訳日:2023-04-11 15:19:18 公開日:2023-04-10
# sood: 半教師付き指向オブジェクト検出に向けて

SOOD: Towards Semi-Supervised Oriented Object Detection ( http://arxiv.org/abs/2304.04515v1 )

ライセンス: Link先を確認
Wei Hua, Dingkang Liang, Jingyu Li, Xiaolong Liu, Zhikang Zou, Xiaoqing Ye, Xiang Bai(参考訳) 近年,物体検出装置の強化を目的としたラベルなしデータ探索を目的とした半監督対象検出(SSOD)が活発に行われている。 しかし、既存のSSODアプローチは主に水平物体に焦点を合わせ、空中画像に共通する多目的物体を残している。 本稿では,疑似ラベルフレームワークを基盤としたsoudと呼ばれる,新しい半教師付き指向オブジェクト検出モデルを提案する。 航空シーンにおける指向オブジェクトに向けて,2つの損失関数をデザインし,より優れた監視を行う。 物体の向きに焦点をあて、第1の損失は、各擬似ラベル予測ペア間の整合性(予測と対応する擬似ラベルを含む)を、その配向ギャップに基づいて適応重みで規則化する。 画像のレイアウトに着目して、第2の損失は類似性を規則化し、擬似ラベルの集合と予測の間の多対多の関係を明示的に構築する。 このようなグローバル一貫性の制約は、半教師あり学習をさらに促進することができる。 提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。 コードはhttps://github.com/HamPerdredes/SOOD.comから入手できる。

Semi-Supervised Object Detection (SSOD), aiming to explore unlabeled data for boosting object detectors, has become an active task in recent years. However, existing SSOD approaches mainly focus on horizontal objects, leaving multi-oriented objects that are common in aerial images unexplored. This paper proposes a novel Semi-supervised Oriented Object Detection model, termed SOOD, built upon the mainstream pseudo-labeling framework. Towards oriented objects in aerial scenes, we design two loss functions to provide better supervision. Focusing on the orientations of objects, the first loss regularizes the consistency between each pseudo-label-prediction pair (includes a prediction and its corresponding pseudo label) with adaptive weights based on their orientation gap. Focusing on the layout of an image, the second loss regularizes the similarity and explicitly builds the many-to-many relation between the sets of pseudo-labels and predictions. Such a global consistency constraint can further boost semi-supervised learning. Our experiments show that when trained with the two proposed losses, SOOD surpasses the state-of-the-art SSOD methods under various settings on the DOTA-v1.5 benchmark. The code will be available at https://github.com/HamPerdredes/SOOD.
翻訳日:2023-04-11 15:19:04 公開日:2023-04-10
# DetCLIPv2:Word-Regionアライメントによる拡張性のあるオープン語彙オブジェクト検出

DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment ( http://arxiv.org/abs/2304.04514v1 )

ライセンス: Link先を確認
Lewei Yao, Jianhua Han, Xiaodan Liang, Dan Xu, Wei Zhang, Zhenguo Li, Hang Xu(参考訳) 本稿では,大規模画像テキストペアを組み込んでオープン語彙オブジェクト検出(OVD)を実現する,効率的でスケーラブルなトレーニングフレームワークであるDetCLIPv2を提案する。 従来のOVDフレームワークは通常、訓練済みの視覚言語モデル(例えばCLIP)や擬似ラベリングプロセスを通じて画像テキストペアを利用するが、DetCLIPv2は、大量の画像テキストペアから端から端まで、粒度の細かい単語領域アライメントを直接学習する。 そこで本稿では,比較対象を導出するために,地域提案とテキスト語との最大領域類似性を用いる。 モデルが広い概念を学習しながらローカライズ能力を得るために、DETCLIPv2は、統一されたデータ定式化の下で検出、接地、画像とテキストのペアデータからハイブリッドで訓練される。 detclipv2は、交替スキームと共同でトレーニングを行い、画像テキストペアに対して低解像度の入力を採用することで、画像テキストペアデータを効率的かつ効果的に活用する。 例えば、Swin-Tのバックボーンを持つDetCLIPv2は、LVISベンチマークで40.4%のゼロショットAPを達成し、それぞれGLIP/GLIPv2/DetCLIPを14.4/11.4/4.5%上回った。

This paper presents DetCLIPv2, an efficient and scalable training framework that incorporates large-scale image-text pairs to achieve open-vocabulary object detection (OVD). Unlike previous OVD frameworks that typically rely on a pre-trained vision-language model (e.g., CLIP) or exploit image-text pairs via a pseudo labeling process, DetCLIPv2 directly learns the fine-grained word-region alignment from massive image-text pairs in an end-to-end manner. To accomplish this, we employ a maximum word-region similarity between region proposals and textual words to guide the contrastive objective. To enable the model to gain localization capability while learning broad concepts, DetCLIPv2 is trained with a hybrid supervision from detection, grounding and image-text pair data under a unified data formulation. By jointly training with an alternating scheme and adopting low-resolution input for image-text pairs, DetCLIPv2 exploits image-text pair data efficiently and effectively: DetCLIPv2 utilizes 13X more image-text pairs than DetCLIP with a similar training time and improves performance. With 13M image-text pairs for pre-training, DetCLIPv2 demonstrates superior open-vocabulary detection performance, e.g., DetCLIPv2 with Swin-T backbone achieves 40.4% zero-shot AP on the LVIS benchmark, which outperforms previous works GLIP/GLIPv2/DetCLIP by 14.4/11.4/4.5% AP, respectively, and even beats its fully-supervised counterpart by a large margin.
翻訳日:2023-04-11 15:18:40 公開日:2023-04-10
# クリップのタイポグラフィー攻撃防止のための防御プリフィックス

Defense-Prefix for Preventing Typographic Attacks on CLIP ( http://arxiv.org/abs/2304.04512v1 )

ライセンス: Link先を確認
Hiroki Azuma, Yusuke Matsui(参考訳) 視覚言語事前学習モデル(VLP)は、様々な視覚言語タスクに革命的な改善をもたらした。 VLPでは、一部の敵対的攻撃は、モデルを偽りまたは不条理な分類に騙す。 以前の研究では、モデルを微調整したり、アーキテクチャを変更したりすることで、これらの攻撃に対処した。 しかし、これらの手法は元のモデルの性能を失う危険を冒し、下流のタスクに適用することは困難である。 特に、他のタスクへの適用性は考慮されていない。 本研究では,モデルパラメータを変更することなく,CLIPに対するタイポグラフィー攻撃の影響の低減について検討した。 これを実現するために,我々は 'prefix learning' というアイデアを拡張し,簡単な方法である Defense-Prefix (DP) を導入し,クラス名の前にDPトークンを挿入し,"`robust' という単語をタイポグラフィー攻撃に対して生成する。 提案手法はモデルパラメータに依存しないため,オブジェクト検出などの下流タスクにも容易に適用できる。 本手法は,モデルのゼロショット機能を維持しつつ,タイポグラフィー攻撃データセットの分類タスクの精度を大幅に向上させる。 さらに,提案手法をオブジェクト検出に適用し,高い適用性と有効性を示す。 コードとデータセットは公開される予定だ。

Vision-language pre-training models (VLPs) have exhibited revolutionary improvements in various vision-language tasks. In VLP, some adversarial attacks fool a model into false or absurd classifications. Previous studies addressed these attacks by fine-tuning the model or changing its architecture. However, these methods risk losing the original model's performance and are difficult to apply to downstream tasks. In particular, their applicability to other tasks has not been considered. In this study, we addressed the reduction of the impact of typographic attacks on CLIP without changing the model parameters. To achieve this, we expand the idea of ``prefix learning'' and introduce our simple yet effective method: Defense-Prefix (DP), which inserts the DP token before a class name to make words ``robust'' against typographic attacks. Our method can be easily applied to downstream tasks, such as object detection, because the proposed method is independent of the model parameters. Our method significantly improves the accuracy of classification tasks for typographic attack datasets, while maintaining the zero-shot capabilities of the model. In addition, we leverage our proposed method for object detection, demonstrating its high applicability and effectiveness. The codes and datasets will be publicly available.
翻訳日:2023-04-11 15:18:05 公開日:2023-04-10
# 平面光導波路を用いた原子の光双極子マイクロトラップ

Optical dipole micro-trap for atoms based on crossed planar photonic waveguides ( http://arxiv.org/abs/2304.04509v1 )

ライセンス: Link先を確認
Yuri B. Ovchinnikov, Folly Eli Ayi-Yovo, and Alessio Spampinato(参考訳) 2つの交差懸濁フォトニックリブ導波路の対応する光学モードによって形成される2色のエバネッセント光波の構成的重ね合わせに基づく原子の光双極子マイクロトラップをモデル化する。 ルビジウム原子のトラップの主なパラメータは、ポテンシャル深さ、トラップからの原子のトンネル速度、トラップされた原子のコヒーレンス時間などである。 このようなトラップの量子メモリや量子論理デバイスへの応用について論じる。

Optical dipole micro-traps for atoms based on constructive superposition of two-colour evanescent light waves, formed by corresponding optical modes of two crossed suspended photonic rib waveguides, are modelled. The main parameters of the traps for rubidium atoms, such as potential depth, tunnelling rates of atoms from the trap and coherence time of the trapped atoms are estimated. Applications of such traps for quantum memory and quantum logic devices are discussed.
翻訳日:2023-04-11 15:17:47 公開日:2023-04-10
# hybridfusion:lidarとvisionのクロスソースポイントクラウド融合

HybridFusion: LiDAR and Vision Cross-Source Point Cloud Fusion ( http://arxiv.org/abs/2304.04508v1 )

ライセンス: Link先を確認
Yu Wang, Shuhui Bu, Lin Chen, Yifei Dong, Kun Li, Xuefeng Cao, Ke Li(参考訳) 近年、異なるセンサからのクロスソースポイントクラウドの登録が重要な研究対象となっている。 しかし、従来の手法では、密度や雲の構造が異なっており、問題に直面している。 これらの問題を解決するために,HybridFusionと呼ばれるクロスソース点雲融合アルゴリズムを提案する。 屋外の大きなシーンで異なる視角から、ソース間の密集点雲を登録することができる。 登録プロセス全体は細かな手続きである。 まず、点雲を小さなパッチに分割し、大域的な記述子と粗いマッチングプロセスを構成する空間分布に基づいてマッチングパッチセットを選択する。 微細マッチングを実現するため、パッチから2D境界点を抽出し、3D調整して2D登録を行う。 最後に、複数のパッチポーズ推定結果がクラスタ化され、最終ポーズを決定するために融合される。 提案手法は質的および定量的な実験により総合的に評価される。 クロスソースクラウド登録の堅牢性を比較するため,提案手法と一般化された反復的最近点法を比較した。 さらに,点雲充填の程度を記述するための指標を提案する。 実験結果から,本手法はクロスソース・ポイント・クラウドの登録において最先端の性能を実現することを示す。

Recently, cross-source point cloud registration from different sensors has become a significant research focus. However, traditional methods confront challenges due to the varying density and structure of cross-source point clouds. In order to solve these problems, we propose a cross-source point cloud fusion algorithm called HybridFusion. It can register cross-source dense point clouds from different viewing angle in outdoor large scenes. The entire registration process is a coarse-to-fine procedure. First, the point cloud is divided into small patches, and a matching patch set is selected based on global descriptors and spatial distribution, which constitutes the coarse matching process. To achieve fine matching, 2D registration is performed by extracting 2D boundary points from patches, followed by 3D adjustment. Finally, the results of multiple patch pose estimates are clustered and fused to determine the final pose. The proposed approach is evaluated comprehensively through qualitative and quantitative experiments. In order to compare the robustness of cross-source point cloud registration, the proposed method and generalized iterative closest point method are compared. Furthermore, a metric for describing the degree of point cloud filling is proposed. The experimental results demonstrate that our approach achieves state-of-the-art performance in cross-source point cloud registration.
翻訳日:2023-04-11 15:17:38 公開日:2023-04-10
# Hist2RNA:乳がん組織像から遺伝子発現を予測するための効率的なディープラーニングアーキテクチャ

hist2RNA: An efficient deep learning architecture to predict gene expression from breast cancer histopathology images ( http://arxiv.org/abs/2304.04507v1 )

ライセンス: Link先を確認
Raktim Kumar Mondol, Ewan K.A. Millar, Peter H Graham, Lois Browne, Arcot Sowmya, Erik Meijering(参考訳) 遺伝子発現は、通常の免疫組織化学(ihc)による再発リスクと治療応答性の予測を改善した乳癌のサブタイプに使用できる。 しかし、このクリニックでは、分子プロファイリングは主にER+がんに使われ、費用がかかり、組織が破壊され、特別なプラットフォームが必要で、結果を得るために数週間かかる。 深層学習アルゴリズムは、デジタル組織病理画像の形態的パターンを効果的に抽出し、分子表現型を迅速かつ費用効率良く予測することができる。 ヘマトキシリンおよびエオシン(H&E)染色スライディング画像(WSIs)からの光性PAM50サブタイプを含む138遺伝子(市販の分子プロファイリングテスト6種を組み込んだ)の発現を予測するため,バルクRNAシークエンシング技術に触発された新しい計算効率の高いhist2RNAを提案する。 トレーニングフェーズは、The Cancer Genome Atlas (TCGA, n=335)の注釈付きH&E画像を用いて、患者レベルでの遺伝子発現を予測する事前訓練モデルから抽出された各患者の特徴の集約を含む。 維持試験セット(n=160, corr=0.82, corr=0.29, corr=0.29)で遺伝子予測を成功させ, IHCおよび生存情報を含む外部組織マイクロアレイ(TMA)データセット(n=498)で探索分析を行った。 本モデルは、不定値解析(c-index=0.56,ハザード比=2.16,p<0.005),および標準臨床病理学的変数(c-index=0.65,ハザード比=1.85,p<0.005)を組み込んだ多変量解析において独立した、tmaデータセット上の遺伝子発現および発光pam50サブタイプ(光aと光b)を予測することができる。

Gene expression can be used to subtype breast cancer with improved prediction of risk of recurrence and treatment responsiveness over that obtained using routine immunohistochemistry (IHC). However, in the clinic, molecular profiling is primarily used for ER+ cancer and is costly and tissue destructive, requires specialized platforms and takes several weeks to obtain a result. Deep learning algorithms can effectively extract morphological patterns in digital histopathology images to predict molecular phenotypes quickly and cost-effectively. We propose a new, computationally efficient approach called hist2RNA inspired by bulk RNA-sequencing techniques to predict the expression of 138 genes (incorporated from six commercially available molecular profiling tests), including luminal PAM50 subtype, from hematoxylin and eosin (H&E) stained whole slide images (WSIs). The training phase involves the aggregation of extracted features for each patient from a pretrained model to predict gene expression at the patient level using annotated H&E images from The Cancer Genome Atlas (TCGA, n=335). We demonstrate successful gene prediction on a held-out test set (n=160, corr=0.82 across patients, corr=0.29 across genes) and perform exploratory analysis on an external tissue microarray (TMA) dataset (n=498) with known IHC and survival information. Our model is able to predict gene expression and luminal PAM50 subtype (Luminal A versus Luminal B) on the TMA dataset with prognostic significance for overall survival in univariate analysis (c-index=0.56, hazard ratio=2.16, p<0.005), and independent significance in multivariate analysis incorporating standard clinicopathological variables (c-index=0.65, hazard ratio=1.85, p<0.005).
翻訳日:2023-04-11 15:17:21 公開日:2023-04-10
# データ拡張器として検出トランスを使用する

Use the Detection Transformer as a Data Augmenter ( http://arxiv.org/abs/2304.04554v1 )

ライセンス: Link先を確認
Luping Wang, Bin Liu(参考訳) Detection Transformer (DETR) は、Transformerアーキテクチャに基づくオブジェクト検出モデルである。 本稿では,データ拡張器としても使用できることを実証する。 我々は、我々のアプローチを、略してDeTR支援のCutMixまたはDeMixと表現する。 DeMixは、シンプルだが非常に効果的なデータ拡張技術であるCutMix上に構築されている。 cutmixはパッチを1つのイメージから別のイメージにカット・ペーストし、新しいイメージを生成することで、モデルパフォーマンスを向上させる。 この新しい例の対応するラベルは、元のラベルの重み付け平均として指定され、その重みはパッチの面積に比例する。 CutMixはカットすべきランダムパッチを選択する。 対照的にDeMixは、事前訓練されたDETRが配置する意味的にリッチなパッチを精巧に選択する。 新しい画像のラベルは、CutMixと同じ方法で指定される。 画像分類のためのベンチマークデータセットの実験結果は、demixがcutmixを含む先行技術データ拡張法を大幅に上回っていることを示している。

Detection Transformer (DETR) is a Transformer architecture based object detection model. In this paper, we demonstrate that it can also be used as a data augmenter. We term our approach as DETR assisted CutMix, or DeMix for short. DeMix builds on CutMix, a simple yet highly effective data augmentation technique that has gained popularity in recent years. CutMix improves model performance by cutting and pasting a patch from one image onto another, yielding a new image. The corresponding label for this new example is specified as the weighted average of the original labels, where the weight is proportional to the area of the patches. CutMix selects a random patch to be cut. In contrast, DeMix elaborately selects a semantically rich patch, located by a pre-trained DETR. The label of the new image is specified in the same way as in CutMix. Experimental results on benchmark datasets for image classification demonstrate that DeMix significantly outperforms prior art data augmentation methods including CutMix.
翻訳日:2023-04-11 15:10:03 公開日:2023-04-10
# 前進と後退の2つのステップ - ディープラーニングによる時系列予測再考

Two Steps Forward and One Behind: Rethinking Time Series Forecasting with Deep Learning ( http://arxiv.org/abs/2304.04553v1 )

ライセンス: Link先を確認
Riccardo Ughi, Eugenio Lomurno and Matteo Matteucci(参考訳) Transformerは、人工知能ニューラルネットワークの世界に革命をもたらした、高度に成功したディープラーニングモデルである。 このモデルは注意機構に基づいており、入力データに存在する様々なパターン間の複雑な意味関係を捉えることができる。 これらの特徴により、Transformerは連続数列の領域への自然適応性を前提として、最近時系列予測問題に活用されている。 文学で評価された結果にもかかわらず、いくつかの著作はこのアプローチの堅牢性に疑問を呈している。 本稿では, 時系列予測の領域に適用した変圧器モデルの有効性をさらに検証し, その限界を実証し, 性能が向上し, 複雑化が著しく少ない代替モデルを提案する。 特に、この予測モデルを単純化することが、ほぼ常に改善につながることを実証的に示し、Transformerベースのアーキテクチャ間の最先端技術に到達した。 また,長時間連続予測におけるアート全体の状態と競合するアテンション機構のない浅層モデルを提案し,極端に長い窓を正確に予測する能力を示す。 本論文は, モデルの有効性を検証するために, 単純なベースラインが常に必要であることを示すとともに, 最新の研究経路や傾向に追従したいという願望を反映し, 必要でなくても最新のモデルを適用することで, 論文を結論づける。

The Transformer is a highly successful deep learning model that has revolutionised the world of artificial neural networks, first in natural language processing and later in computer vision. This model is based on the attention mechanism and is able to capture complex semantic relationships between a variety of patterns present in the input data. Precisely because of these characteristics, the Transformer has recently been exploited for time series forecasting problems, assuming its natural adaptability to the domain of continuous numerical series. Despite the acclaimed results in the literature, some works have raised doubts about the robustness of this approach. In this paper, we further investigate the effectiveness of Transformer-based models applied to the domain of time series forecasting, demonstrate their limitations, and propose a set of alternative models that are better performing and significantly less complex. In particular, we empirically show how simplifying this forecasting model almost always leads to an improvement, reaching the state of the art among Transformer-based architectures. We also propose shallow models without the attention mechanism, which compete with the overall state of the art in long time series forecasting, and demonstrate their ability to accurately predict extremely long windows. We show how it is always necessary to use a simple baseline to verify the effectiveness of one's models, and finally we conclude the paper with a reflection on recent research paths and the desire to follow trends and apply the latest model even where it may not be necessary.
翻訳日:2023-04-11 15:09:49 公開日:2023-04-10
# 顔成分関係を用いた交互表現学習

Kinship Representation Learning with Face Componential Relation ( http://arxiv.org/abs/2304.04546v1 )

ライセンス: Link先を確認
Weng-Tai Su, Min-Hung Chen, Chien-Yi Wang, Shang-Hong Lai, Trista Pei-Chun Chen(参考訳) Kinship Recognitionは、2つの顔画像の被験者が近親者なのか非近親者なのかを判断することを目的としている。 しかし,従来の手法では,顔画像間の空間相関を考慮せず,ヒューリスティックな設計に重点を置いている。 本稿では,顔成分(目,鼻など)間の関係情報に埋め込まれた識別的親和性表現を学習することを目的とする。 この目的を達成するために,画像間の顔成分間の関係を交互に学習し,親族認識のための重要な顔領域を自動的に学習する顔成分関係ネットワークを提案する。 さらに,クロスアテンションからの誘導により損失関数に適応し,より識別的な特徴表現を学習する'ラーニング'を提案する。 提案する \mainmethodabbr~ は、最大の公的なキンシップ認識fiwベンチマークに対して、以前の最先端のメソッドを大きなマージンで上回っている。 コードは受理後に公開される予定だ。

Kinship recognition aims to determine whether the subjects in two facial images are kin or non-kin, which is an emerging and challenging problem. However, most previous methods focus on heuristic designs without considering the spatial correlation between face images. In this paper, we aim to learn discriminative kinship representations embedded with the relation information between face components (e.g., eyes, nose, etc.). To achieve this goal, we propose the Face Componential Relation Network, which learns the relationship between face components among images with a cross-attention mechanism, which automatically learns the important facial regions for kinship recognition. Moreover, we propose \Learning, which adapts the loss function by the guidance from cross-attention to learn more discriminative feature representations. The proposed \MainMethodAbbr~outperforms previous state-of-the-art methods by large margins for the largest public kinship recognition FIW benchmark. The code will be publicly released upon acceptance.
翻訳日:2023-04-11 15:09:26 公開日:2023-04-10
# freconv:周波数分岐積分畳み込みネットワーク

FreConv: Frequency Branch-and-Integration Convolutional Networks ( http://arxiv.org/abs/2304.04540v1 )

ライセンス: Link先を確認
Zhaowen Li, Xu Zhao, Peigeng Ding, Zongxin Gao, Yuting Yang, Ming Tang, Jinqiao Wang(参考訳) 近年の研究では、入力データの周波数情報を利用することでネットワークの性能を向上させることが示されている。 しかし、既存の一般的な畳み込み構造は、データセットに含まれる周波数情報を利用するために特別に設計されていない。 本稿では,バニラ畳み込みを置き換えるために,freconv ( frequency branch-and-integration convolution) という新しい有効モジュールを提案する。 FreConvは、高頻度および低周波情報を抽出し統合するためのデュアルブランチアーキテクチャを採用している。 高周波ブランチでは、低周波情報は通常冗長であるため、低周波ブランチに光抽出器を用いる間、高周波情報を抽出するようにデリバティブフィルタのようなアーキテクチャが設計されている。 freconvは、より合理的な方法で入力データの周波数情報を利用することができ、特徴表現能力を高め、メモリと計算コストを大幅に削減できる。 ベルやホイッスルがなければ、さまざまなタスクの実験結果から、FreConv搭載ネットワークは最先端のベースラインを一貫して上回っていることが示される。

Recent researches indicate that utilizing the frequency information of input data can enhance the performance of networks. However, the existing popular convolutional structure is not designed specifically for utilizing the frequency information contained in datasets. In this paper, we propose a novel and effective module, named FreConv (frequency branch-and-integration convolution), to replace the vanilla convolution. FreConv adopts a dual-branch architecture to extract and integrate high- and low-frequency information. In the high-frequency branch, a derivative-filter-like architecture is designed to extract the high-frequency information while a light extractor is employed in the low-frequency branch because the low-frequency information is usually redundant. FreConv is able to exploit the frequency information of input data in a more reasonable way to enhance feature representation ability and reduce the memory and computational cost significantly. Without any bells and whistles, experimental results on various tasks demonstrate that FreConv-equipped networks consistently outperform state-of-the-art baselines.
翻訳日:2023-04-11 15:09:11 公開日:2023-04-10
# uatta-eb:不確実性を認識したテストタイムアサンブルによるソーシャルメディア上の一般的な精神疾患の分類

UATTA-EB: Uncertainty-Aware Test-Time Augmented Ensemble of BERTs for Classifying Common Mental Illnesses on Social Media Posts ( http://arxiv.org/abs/2304.04539v1 )

ライセンス: Link先を確認
Pratinav Seth and Mihir Agarwal(参考訳) 世界の状況を考えると、世界中の状況から、精神疾患に苦しむ何百万人もの人々が孤立し、直接助けを得ることができないと感じている。 心理学的な研究は、私たちの心の状態がコミュニケーションに使用する言語的特徴に現れうることを示した。 人々は自分自身を表現し、彼らの状況に助けを求めるために、ますますオンラインプラットフォームに目を向けている。 ディープラーニング手法は、ソーシャルメディアを含む様々な情報ソースからメンタルヘルス状態を識別し分析するために一般的に用いられてきた。 それでも、信頼性の欠如や予測の過信など、モデルのキャリブレーション不足といった課題に直面している。 UATTA-EBを提案する: 不確かさを意識したテスト時間拡張されたBERTの組込みにより、Reddit上の構造化されていないユーザデータを解析し、None, Depression, Anxiety, Bipolar Disorder, ADHD, PTSDの6種類の精神疾患を分類できる。

Given the current state of the world, because of existing situations around the world, millions of people suffering from mental illnesses feel isolated and unable to receive help in person. Psychological studies have shown that our state of mind can manifest itself in the linguistic features we use to communicate. People have increasingly turned to online platforms to express themselves and seek help with their conditions. Deep learning methods have been commonly used to identify and analyze mental health conditions from various sources of information, including social media. Still, they face challenges, including a lack of reliability and overconfidence in predictions resulting in the poor calibration of the models. To solve these issues, We propose UATTA-EB: Uncertainty-Aware Test-Time Augmented Ensembling of BERTs for producing reliable and well-calibrated predictions to classify six possible types of mental illnesses- None, Depression, Anxiety, Bipolar Disorder, ADHD, and PTSD by analyzing unstructured user data on Reddit.
翻訳日:2023-04-11 15:08:53 公開日:2023-04-10
# パッチベースアプローチによるoccluded画像のディープフェイク検出

Deepfake Detection of Occluded Images Using a Patch-based Approach ( http://arxiv.org/abs/2304.04537v1 )

ライセンス: Link先を確認
Mahsa Soleimani, Ali Nazari and Mohsen Ebrahimi Moghaddam(参考訳) DeepFakeは、ディープラーニングと人工知能の技術を使って、GANが通常生成するビデオや画像の内容を生成または変更する。 さらに、誤用され、架空のニュース、倫理犯罪、金融犯罪につながり、顔認識システムの性能にも影響を及ぼす。 したがって、実画像や偽画像の検出は、人の画像や動画の独創性を認証するために特に重要である。 このトピックで最も重要な課題の1つは、システムの精度を低下させる障害である。 本研究では,顔と顔のパッチ全体を用いた深層学習のアプローチを提案する。3つのパスによる判断により,障害の存在下でのリアル/フェイク画像を識別する。第1の面の推論,第2の面のパッチの特徴ベクトルの結合に基づく決定,第3のこれらの特徴に基づく多数決である。 このアプローチをテストするために、実画像と偽画像を含む新しいデータセットを作成する。 偽画像を作成するには、FFHQイメージでStyleGANとStyleGAN2を、CelebAイメージでStarGANとPGGANをトレーニングする。 celebaとffhqデータセットは実画像として使用される。 提案手法は他の手法よりも早い時期に高い結果に到達し、異なる組込みデータセットのsota結果を0.4\%-7.9\%増加させる。 また,本実験では,パッチの重み付けにより精度が向上することを示した。

DeepFake involves the use of deep learning and artificial intelligence techniques to produce or change video and image contents typically generated by GANs. Moreover, it can be misused and leads to fictitious news, ethical and financial crimes, and also affects the performance of facial recognition systems. Thus, detection of real or fake images is significant specially to authenticate originality of people's images or videos. One of the most important challenges in this topic is obstruction that decreases the system precision. In this study, we present a deep learning approach using the entire face and face patches to distinguish real/fake images in the presence of obstruction with a three-path decision: first entire-face reasoning, second a decision based on the concatenation of feature vectors of face patches, and third a majority vote decision based on these features. To test our approach, new datasets including real and fake images are created. For producing fake images, StyleGAN and StyleGAN2 are trained by FFHQ images and also StarGAN and PGGAN are trained by CelebA images. The CelebA and FFHQ datasets are used as real images. The proposed approach reaches higher results in early epochs than other methods and increases the SoTA results by 0.4\%-7.9\% in the different built data-sets. Also, we have shown in experimental results that weighing the patches may improve accuracy.
翻訳日:2023-04-11 15:08:31 公開日:2023-04-10
# FAN:Eコマース勧告におけるクリックスルーレート予測のための疲労認識ネットワーク

FAN: Fatigue-Aware Network for Click-Through Rate Prediction in E-commerce Recommendation ( http://arxiv.org/abs/2304.04529v1 )

ライセンス: Link先を確認
Ming Li, Naiyin Liu, Xiaofeng Pan, Yang Huang, Ningning Li, Yingmin Su, Chengjun Mao, and Bo Cao(参考訳) クリックには通常大きなノイズが伴うため、暗黙的なネガティブなユーザー行動(ノンクリック)のモデル化に研究努力が注がれている。 しかし、それらは明示的なネガティブなユーザー行動(例えば、嫌悪)に依存するか、単に非クリックをネガティブなフィードバックとして扱うだけで、ネガティブなユーザーの興味を包括的に学ばない。 このような状況では、類似した推奨が多すぎるため、ユーザは疲労を経験することがある。 本稿では,非クリックによるユーザの疲労を直接知覚する新しいCTRモデルであるFref-Aware Network (FAN)を提案する。 具体的には、非クリックから発生する時系列にフーリエ変換を適用し、ユーザの疲労に関する包括的な情報を含む周波数スペクトルを得る。 次に、周波数スペクトルを対象項目のカテゴリ情報により変調し、各カテゴリについて、疲労の上限とユーザの忍耐の両方が異なるバイアスをモデル化する。 さらに、ユーザ疲労の信頼度をモデル化するゲーティングネットワークを採用し、ユーザ疲労の学習をガイドする補助タスクを設計することにより、十分に学習された疲労表現を入手し、最終的なCTR予測のためにユーザ関心と組み合わせることができる。 実世界のデータセットを用いて、FANの優位性を検証し、オンラインA/Bテストにより、FANが代表的CTRモデルよりも優れていることを示す。

Since clicks usually contain heavy noise, increasing research efforts have been devoted to modeling implicit negative user behaviors (i.e., non-clicks). However, they either rely on explicit negative user behaviors (e.g., dislikes) or simply treat non-clicks as negative feedback, failing to learn negative user interests comprehensively. In such situations, users may experience fatigue because of seeing too many similar recommendations. In this paper, we propose Fatigue-Aware Network (FAN), a novel CTR model that directly perceives user fatigue from non-clicks. Specifically, we first apply Fourier Transformation to the time series generated from non-clicks, obtaining its frequency spectrum which contains comprehensive information about user fatigue. Then the frequency spectrum is modulated by category information of the target item to model the bias that both the upper bound of fatigue and users' patience is different for different categories. Moreover, a gating network is adopted to model the confidence of user fatigue and an auxiliary task is designed to guide the learning of user fatigue, so we can obtain a well-learned fatigue representation and combine it with user interests for the final CTR prediction. Experimental results on real-world datasets validate the superiority of FAN and online A/B tests also show FAN outperforms representative CTR models significantly.
翻訳日:2023-04-11 15:08:09 公開日:2023-04-10
# 非エルミタン系における複合量子相

Composite Quantum Phases in Non-Hermitian Systems ( http://arxiv.org/abs/2304.04588v1 )

ライセンス: Link先を確認
Yuchen Guo, Ruohan Shen, Shuo Yang(参考訳) 非エルミート系は近年、エルミート系には存在しない特異な位相的性質のためにかなりの関心を集めている。 このような性質は自由フェルミオンモデルで完全に特徴づけられているが、ボソニック系の相互作用には未解決の問題である。 本稿では、非エルミート系における量子位相の正確な定義を示し、合成量子位相と呼ばれる新しい位相群を提案する。 1次元スピン-$システムにおけるこれらの相の存在を実証し、数値シミュレーションにより摂動に対するロバスト性を示す。 さらに,本モデルの位相図を調査し,非エルミート系におけるこれら新しい位相の存在を明らかにした。 我々の研究は、非エルミート相互作用系における量子相の研究と構築のための新しい枠組みを確立し、単一粒子像を超えたエキサイティングな可能性を明らかにする。

Non-Hermitian systems have attracted considerable interest in recent years owing to their unique topological properties that are absent in Hermitian systems. While such properties have been thoroughly characterized in free fermion models, they remain an open question for interacting bosonic systems. In this Letter, we present a precise definition of quantum phases for non-Hermitian systems and propose a new family of phases referred to as composite quantum phases. We demonstrate the existence of these phases in a one-dimensional spin-$1$ system and show their robustness against perturbations through numerical simulations. Furthermore, we investigate the phase diagram of our model, indicating the extensive presence of these new phases in non-Hermitian systems. Our work establishes a new framework for studying and constructing quantum phases in non-Hermitian interacting systems, revealing exciting possibilities beyond the single-particle picture.
翻訳日:2023-04-11 15:02:01 公開日:2023-04-10
# アプリケーションのためのハイブリッド量子セキュリティインフラストラクチャのデプロイ:quantumとpost-quantumが連携できる時

Deploying hybrid quantum-secured infrastructure for applications: When quantum and post-quantum can work together ( http://arxiv.org/abs/2304.04585v1 )

ライセンス: Link先を確認
Aleksey K. Fedorov(参考訳) データを保護するために現在使われている暗号化ツールは、特定の計算仮定に基づいており、量子コンピューティングのような技術やアルゴリズムの発展に関して脆弱である。 この潜在的な脅威に対抗する既存の選択肢の1つは量子鍵分布であり、そのセキュリティは量子物理学の法則に基づいている。 量子鍵分布は予期せぬ技術的発展に対して安全である。 第2のアプローチはポスト量子暗号であり、古典的および量子コンピューティング技術の攻撃に対してさえも安全であると考えられている暗号プリミティブのセットである。 この観点から、量子鍵分布、ポスト量子暗号およびそれらの組み合わせに基づく量子セキュリティインフラストラクチャの展開の最近の進歩をレビューする。 フルスタックの量子セキュリティインフラストラクチャのさらなる開発における様々な方向も示されている。 ブロックチェーンや分散台帳といった分散アプリケーションについても論じている。

Most currently used cryptographic tools for protecting data are based on certain computational assumptions, which makes them vulnerable with respect to technological and algorithmic developments, such as quantum computing. One existing option to counter this potential threat is quantum key distribution, whose security is based on the laws of quantum physics. Quantum key distribution is secure against unforeseen technological developments. A second approach is post-quantum cryptography, which is a set of cryptographic primitives that are believed to be secure even against attacks with both classical and quantum computing technologies. From this perspective, this study reviews recent progress in the deployment of the quantum-secured infrastructure based on quantum key distribution, post-quantum cryptography, and their combinations. Various directions in the further development of the full-stack quantum-secured infrastructure are also indicated. Distributed applications, such as blockchains and distributed ledgers, are also discussed.
翻訳日:2023-04-11 15:01:48 公開日:2023-04-10
# 再構成駆動型ダイナミックリファインメントによる関節円板とカップセグメンテーションのための教師なし領域適応

Reconstruction-driven Dynamic Refinement based Unsupervised Domain Adaptation for Joint Optic Disc and Cup Segmentation ( http://arxiv.org/abs/2304.04581v1 )

ライセンス: Link先を確認
Ziyang Chen, Yongsheng Pan, Yong Xia(参考訳) 緑内障は可逆性盲目の主要な原因の1つである。 眼底画像上における光ディスク(OD)とオプティカルカップ(OC)の分離は緑内障検診における重要なステップである。 このタスクのために多くのディープラーニングモデルが構築されているが、異なる医療センターにうまく展開できるod/ocセグメンテーションモデルをトレーニングすることは依然として困難である。 この困難は、主にドメインシフトの問題、すなわち、これらのセンターで収集された基礎画像は、通常、トーン、コントラスト、明るさに大きく異なる。 この問題に対処するため,本稿ではリコンストラクション駆動動的リファインメントネットワーク (RDR-Net) と呼ばれる新しい非教師付きドメイン適応(UDA)手法を提案する。 再構成アライメント(RA)モジュールは、可変オートエンコーダ(VAE)を使用して入力画像の再構成を行い、自己監督的な方法でネットワークのイメージ表現能力を高める。 また、スタイル整合性制約を使用して、ネットワークにより多くのドメイン不変情報を保持させる。 低レベル特徴改善(LFR)モジュールは、入力固有の動的畳み込みを用いて、取得した低レベル特徴のドメイン変動情報を抑制する。 予測マップアライメント(pma)モジュールは、エントロピー駆動の逆学習を詳述し、ネットワークがソースライクな境界と領域を生成するように促す。 我々は,RDR-Netを4つのパブリックファンドイメージデータセットの最先端ソリューションと比較した。 我々の結果は、RDR-Netはセグメント化性能と一般化能力の両面で競合モデルよりも優れていることを示している。

Glaucoma is one of the leading causes of irreversible blindness. Segmentation of optic disc (OD) and optic cup (OC) on fundus images is a crucial step in glaucoma screening. Although many deep learning models have been constructed for this task, it remains challenging to train an OD/OC segmentation model that could be deployed successfully to different healthcare centers. The difficulties mainly comes from the domain shift issue, i.e., the fundus images collected at these centers usually vary greatly in the tone, contrast, and brightness. To address this issue, in this paper, we propose a novel unsupervised domain adaptation (UDA) method called Reconstruction-driven Dynamic Refinement Network (RDR-Net), where we employ a due-path segmentation backbone for simultaneous edge detection and region prediction and design three modules to alleviate the domain gap. The reconstruction alignment (RA) module uses a variational auto-encoder (VAE) to reconstruct the input image and thus boosts the image representation ability of the network in a self-supervised way. It also uses a style-consistency constraint to force the network to retain more domain-invariant information. The low-level feature refinement (LFR) module employs input-specific dynamic convolutions to suppress the domain-variant information in the obtained low-level features. The prediction-map alignment (PMA) module elaborates the entropy-driven adversarial learning to encourage the network to generate source-like boundaries and regions. We evaluated our RDR-Net against state-of-the-art solutions on four public fundus image datasets. Our results indicate that RDR-Net is superior to competing models in both segmentation performance and generalization ability
翻訳日:2023-04-11 15:01:35 公開日:2023-04-10
# 医用画像におけるコヒーレント概念に基づく説明と皮膚病変診断への応用

Coherent Concept-based Explanations in Medical Image and Its Application to Skin Lesion Diagnosis ( http://arxiv.org/abs/2304.04579v1 )

ライセンス: Link先を確認
Cristiano Patr\'icio, Jo\~ao C. Neves, Lu\'is F. Teixeira(参考訳) 悪性黒色腫の早期発見は重篤な合併症の予防と治療成功の可能性を高めるために重要である。 既存のメラノーマ皮膚病変診断のための深層学習アプローチは、モデル予測の背後にある根拠を省略し、これらの診断方法の信頼性と受容性を損なうため、ブラックボックスモデルと見なされる。 概念に基づく説明を提供する試みは、解釈を導出するための追加モデルに依存するポストホックアプローチに基づいている。 本稿では,概念エンコーダによる概念活性化の視覚的コヒーレンスを保証するために,注意機構とコヒーレンス損失項を組み込むことにより,概念ベースのモデルの解釈性を向上させるための本質的に解釈可能なフレームワークを提案する。 提案するフレームワークは、その決定を、人間の解釈可能な概念とその最終的な予測へのそれぞれの貢献、およびその概念が画像に存在する場所の視覚的解釈によって説明する。 皮膚画像データセットの実験では,既存のブラックボックスや概念に基づく皮膚病変分類モデルよりも優れていた。

Early detection of melanoma is crucial for preventing severe complications and increasing the chances of successful treatment. Existing deep learning approaches for melanoma skin lesion diagnosis are deemed black-box models, as they omit the rationale behind the model prediction, compromising the trustworthiness and acceptability of these diagnostic methods. Attempts to provide concept-based explanations are based on post-hoc approaches, which depend on an additional model to derive interpretations. In this paper, we propose an inherently interpretable framework to improve the interpretability of concept-based models by incorporating a hard attention mechanism and a coherence loss term to assure the visual coherence of concept activations by the concept encoder, without requiring the supervision of additional annotations. The proposed framework explains its decision in terms of human-interpretable concepts and their respective contribution to the final prediction, as well as a visual interpretation of the locations where the concept is present in the image. Experiments on skin image datasets demonstrate that our method outperforms existing black-box and concept-based models for skin lesion classification.
翻訳日:2023-04-11 15:01:04 公開日:2023-04-10
# 拡張言語モデルのためのデータ統合から学ぶ

Learnings from Data Integration for Augmented Language Models ( http://arxiv.org/abs/2304.04576v1 )

ライセンス: Link先を確認
Alon Halevy and Jane Dwivedi-Yu(参考訳) 大規模言語モデルの制限の1つは、最新のプロプライエタリデータや個人データにアクセスできないことである。 その結果、外部データにアクセスする技術で言語モデルを拡張しようとする複数の取り組みがある。 その意味でllmは、異種データソースの大規模なコレクションへのシームレスなアクセスを目標とするデータ統合システムのビジョンを共有している。 LLMの詳細と技術は、データ統合とは大きく異なるが、本稿は、データ統合の研究から学んだ教訓のいくつかが、現在我々が言語モデルで行っている研究パスを解明できることを示している。

One of the limitations of large language models is that they do not have access to up-to-date, proprietary or personal data. As a result, there are multiple efforts to extend language models with techniques for accessing external data. In that sense, LLMs share the vision of data integration systems whose goal is to provide seamless access to a large collection of heterogeneous data sources. While the details and the techniques of LLMs differ greatly from those of data integration, this paper shows that some of the lessons learned from research on data integration can elucidate the research path we are conducting today on language models.
翻訳日:2023-04-11 15:00:42 公開日:2023-04-10
# 位相絶縁層成層球のdyadic greens関数

Dyadic Greens function for a topological insulator stratified sphere ( http://arxiv.org/abs/2304.04572v1 )

ライセンス: Link先を確認
Huai-Yi Xie(参考訳) 電磁気学の枠組みの中で, 位相絶縁体(TI)成層球に対してDGF(Dyadic Greens function)を構築する。 これらのDGFに対して、アキシオンカップリング効果を考慮した追加膨張係数を含む。 これらのDGFの適用により、TI成層球近傍の双極子からの光散乱の定式化が導かれる。 数値解析では, 金属被覆TI球, 金属被覆TI球, 金属被覆TI球, 交互金属めっきTI球) の3種類の構成を与え, TI球のトポロジカル磁力(TME) 応答が金属殻の多極プラズマ共鳴に与える影響について検討した。 これらのタイプについて、TME効果はTI成層球近傍の発光双極子に対する崩壊速度スペクトルのいくつかの変化を引き起こすことを示した。 金属シェルの多極性共鳴では,TMEにより誘導されるボンディングモードと低次アンチボンディングモードの赤方偏移がみられたが,高次アンチボンディングモードのものは重要でない。 また、金属被覆ti球面の場合、誘電関数がバルクまたは5つのクインタプル層(5ql)スラブの形に選択されたtiコアの損失の影響を考慮に入れ、tme誘起減衰率スペクトルのいくつかの修正が明らかに抑制される。 これらの現象学的特徴は、分子蛍光実験によるTME効果の探索に有用である。

We construct the dyadic Greens functions (DGFs) for a topological insulator (TI) stratified sphere within the framework of axion electrodynamics. For these DGFs, the additional expansion coefficients are included to account for the axion coupling effect. With the application of these DGFs, we derive the formulation of light scattering from a dipole near a TI stratified sphere. In our numerical studies, we give three types of configurations (a metal-coated TI sphere, a metal-TI-metal-coated TI sphere and an alternating metal-TI stratified sphere) to investigate how the topological magneto-electric (TME) response of the TI sphere (shells) influences on the multipolar plasmonic resonance of the metal shells. For these types, the results show that the TME effect causes some modifications of the decay rate spectrum for an emitting dipole near a TI stratified sphere. For the multipolar resonances of the metal shells, it is observed that the TME-induced red-shifts for the bonding and lower order antibonding modes are found but those for the higher order antibonding modes are insignificant. In addition, for a metal-coated TI sphere, we take into account the effects of losses in the TI core of which the dielectric function is chosen to be the form of the bulk or five quintuple layers (5QL) slab and then the some modifications of the TME-induced decay rate spectrum are obviously suppressed. These phenomenological characteristics provide useful guidance to probing the TME effect via molecular fluorescence experiments.
翻訳日:2023-04-11 15:00:31 公開日:2023-04-10
# ハイブリッド音源を用いた非同期計測デバイス非依存量子鍵分布

Asynchronous measurement-device-independent quantum key distribution with hybrid source ( http://arxiv.org/abs/2304.04569v1 )

ライセンス: Link先を確認
Jun-Lin Bai, Yuan-Mei Xie, Yao Fu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 秘密鍵レート容量の線形制約は、チューフィールド量子鍵分布(QKD)によって克服される。 しかし、複雑な位相同期と位相追跡技術は、ツインフィールドプロトコルの実際の応用を阻害する。 非同期計測デバイス非依存(AMDI)QKDまたはモードペアリングQKDプロトコル(PRX Quantum 3, 020315 (2022), Nat. Commun. 13, 3903 (2022))は、技術要件を緩和し、ツインフィールドプロトコルの同様の性能を維持する。 本稿では,非古典的な光源を持つamdi-qkdプロトコルを提案し,信号状態時間窓内の位相ランダム弱コヒーレント状態から位相ランダムコヒーレント状態重ね合わせ(css)に変更する。 シミュレーションの結果,提案プロトコルはAMDI-QKDプロトコルの鍵レートを大幅に向上するとともに,非古典光源の不完全変調に対するロバスト性を示した。

The linear constraint of secret key rate capacity is overcome by the tiwn-field quantum key distribution (QKD). However, the complex phase-locking and phase-tracking technique requirements throttle the real-life applications of twin-field protocol. The asynchronous measurement-device-independent (AMDI) QKD or called mode-pairing QKD protocol [PRX Quantum 3, 020315 (2022), Nat. Commun. 13, 3903 (2022)] can relax the technical requirements and keep the similar performance of twin-field protocol. Here, we propose an AMDI-QKD protocol with a nonclassical light source by changing the phase-randomized weak coherent state to a phase-randomized coherent-state superposition (CSS) in the signal state time window. Simulation results show that our proposed hybrid source protocol significantly enhances the key rate of the AMDI-QKD protocol, while exhibiting robustness to imperfect modulation of nonclassical light sources.
翻訳日:2023-04-11 14:59:51 公開日:2023-04-10
# ADS_UNet: 病理画像分割のためのネステッドUNet

ADS_UNet: A Nested UNet for Histopathology Image Segmentation ( http://arxiv.org/abs/2304.04567v1 )

ライセンス: Link先を確認
Yilong Yang, Srinandan Dasmahapatra, Sasan Mahmoodi(参考訳) UNetモデルは、収縮エンコーダとアップサンプリングデコーダマップとして配置された完全な畳み込みネットワーク(FCN)層で構成されている。 これらのエンコーダとデコーダマップのネストされたアレンジメントは、UNeteやUNet++のようなUNetモデルの拡張をもたらす。 その他の改良としては、訓練された終端から終端までのセグメントラベルを区別するために畳み込み層の出力を制限すること、深層監視と呼ばれる特性などがある。 これにより、大きなパラメータ空間にもかかわらず、ネストされたUNetモデルの機能の多様性が低下する。 さらに, テクスチャセグメンテーションでは, 複数スケールの画素相関が分類作業に寄与するので, 浅い層をはっきりと監視することで, 性能の向上が期待できる。 本稿では,より浅い層に資源効率の高い深層管理を取り入れ,サブUetsの性能重み付けによるセグメンテーションモデルの構築を行う段階的な付加的学習アルゴリズムであるADS UNetを提案する。 提案するads unetは構成特徴間の相関を減少させ、リソース効率を高めつつ性能を向上させるという主張を支持するため、3つの病理組織学的データセットに実証的な証拠を提供する。 ADS_UNetは、CRAGおよびBCSSデータセット上で、最先端のTransformerベースのモデルよりも1.08、0.6ポイント優れていますが、Transformerが要求する37%のGPU消費と34%のトレーニング時間しか必要としていません。

The UNet model consists of fully convolutional network (FCN) layers arranged as contracting encoder and upsampling decoder maps. Nested arrangements of these encoder and decoder maps give rise to extensions of the UNet model, such as UNete and UNet++. Other refinements include constraining the outputs of the convolutional layers to discriminate between segment labels when trained end to end, a property called deep supervision. This reduces feature diversity in these nested UNet models despite their large parameter space. Furthermore, for texture segmentation, pixel correlations at multiple scales contribute to the classification task; hence, explicit deep supervision of shallower layers is likely to enhance performance. In this paper, we propose ADS UNet, a stage-wise additive training algorithm that incorporates resource-efficient deep supervision in shallower layers and takes performance-weighted combinations of the sub-UNets to create the segmentation model. We provide empirical evidence on three histopathology datasets to support the claim that the proposed ADS UNet reduces correlations between constituent features and improves performance while being more resource efficient. We demonstrate that ADS_UNet outperforms state-of-the-art Transformer-based models by 1.08 and 0.6 points on CRAG and BCSS datasets, and yet requires only 37% of GPU consumption and 34% of training time as that required by Transformers.
翻訳日:2023-04-11 14:59:20 公開日:2023-04-10
# 因果効果推定への予測モデルの適用

Linking a predictive model to causal effect estimation ( http://arxiv.org/abs/2304.04566v1 )

ライセンス: Link先を確認
Jiuyong Li, Lin Liu, Ziqi Xu, Ha Xuan Tran, Thuc Duy Le, Jixue Liu(参考訳) 予測モデルは、与えられた特徴、すなわち特徴ベクトルが与えられた結果の条件付き確率に基づいて結果予測を行う。 一般に、予測モデルは、結果に対する特徴の因果効果、すなわち、他の特徴の値を変更せずに、その特徴が変更されると結果がどのように変化するかを予測することができない。 これは因果効果推定が介入確率を必要とするためである。 しかしながら、パーソナライズされた意思決定、レコメンデーション、公平性計算のような現実世界の多くの問題は、あるインスタンスの結果に対するどんな特徴の因果効果も知る必要がある。 これは、固定された処置変数を持つ従来の因果効果推定問題とは異なる。 本稿ではまず,任意の特徴(治療として)の帰結w.r.t.に対する因果効果を推定する課題に取り組む。 理論的結果は自然に予測モデルと因果効果推定を関連付け、論文で特定された条件が満たされた場合に因果的に予測モデルが解釈可能であることを暗示する。 また,因果解釈モデルのロバスト性についても明らかにした。 本稿では, 種々の予測モデルを用いて, 条件を満たす場合, 特徴の因果効果を, 最先端の因果効果推定法と同じくらい正確に推定できることを実証する。 また、ロバストな予測と個人化された意思決定のための因果的解釈可能な予測モデルの可能性を示す。

A predictive model makes outcome predictions based on some given features, i.e., it estimates the conditional probability of the outcome given a feature vector. In general, a predictive model cannot estimate the causal effect of a feature on the outcome, i.e., how the outcome will change if the feature is changed while keeping the values of other features unchanged. This is because causal effect estimation requires interventional probabilities. However, many real world problems such as personalised decision making, recommendation, and fairness computing, need to know the causal effect of any feature on the outcome for a given instance. This is different from the traditional causal effect estimation problem with a fixed treatment variable. This paper first tackles the challenge of estimating the causal effect of any feature (as the treatment) on the outcome w.r.t. a given instance. The theoretical results naturally link a predictive model to causal effect estimations and imply that a predictive model is causally interpretable when the conditions identified in the paper are satisfied. The paper also reveals the robust property of a causally interpretable model. We use experiments to demonstrate that various types of predictive models, when satisfying the conditions identified in this paper, can estimate the causal effects of features as accurately as state-of-the-art causal effect estimation methods. We also show the potential of such causally interpretable predictive models for robust predictions and personalised decision making.
翻訳日:2023-04-11 14:58:46 公開日:2023-04-10
# SoccerNet-Caption: サッカー放送のコメンタリーのためのDense Video Captioning

SoccerNet-Caption: Dense Video Captioning for Soccer Broadcasts Commentaries ( http://arxiv.org/abs/2304.04565v1 )

ライセンス: Link先を確認
Hassan Mkhallati and Anthony Cioppa and Silvio Giancola and Bernard Ghanem and Marc Van Droogenbroeck(参考訳) サッカーは単なるゲームではない - 国境を越えて世界中の人々を統一するという情熱だ。 観客の怒りからコメンテーターの興奮まで、サッカーの試合のすべての瞬間はスリルです。 しかし、多くのゲームが同時に行われるため、ファンはそれらをすべてライブで見ることはできない。 メインアクションへの通知は役立つが、ライブコメントのエンゲージメントが欠如しており、ファンは離れていると感じている。 このニーズを満たすため,本論文では,単一タイムスタンプに固定されたテキストコメンタリーの生成に着目した,高密度動画キャプションの新たな課題を提案する。 このタスクをサポートするために、715.9時間のサッカー放送ビデオで約37kのタイムスタンプ付きコメンテータからなる挑戦的なデータセットも提示する。 さらに,この課題に対する最初のベンチマークとベースラインを提案し,意味のあるコメントを生成する能力を示しつつも,時間的にコメントをアンカーすることの難しさを強調した。 ブロードキャスターに、ライブゲームと同じレベルのエンゲージメントでビデオのコンテンツを要約するツールを提供することで、この方法では、チームをフォローしているが必ずしもライブゲームを見ることができない多くのファンのニーズを満たすことができる。 本手法は,より広い観客にサッカーコンテンツのアクセシビリティと理解を高める可能性を秘めており,より多くの人に試合の興奮をもたらすものと考えられる。

Soccer is more than just a game - it is a passion that transcends borders and unites people worldwide. From the roar of the crowds to the excitement of the commentators, every moment of a soccer match is a thrill. Yet, with so many games happening simultaneously, fans cannot watch them all live. Notifications for main actions can help, but lack the engagement of live commentary, leaving fans feeling disconnected. To fulfill this need, we propose in this paper a novel task of dense video captioning focusing on the generation of textual commentaries anchored with single timestamps. To support this task, we additionally present a challenging dataset consisting of almost 37k timestamped commentaries across 715.9 hours of soccer broadcast videos. Additionally, we propose a first benchmark and baseline for this task, highlighting the difficulty of temporally anchoring commentaries yet showing the capacity to generate meaningful commentaries. By providing broadcasters with a tool to summarize the content of their video with the same level of engagement as a live game, our method could help satisfy the needs of the numerous fans who follow their team but cannot necessarily watch the live game. We believe our method has the potential to enhance the accessibility and understanding of soccer content for a wider audience, bringing the excitement of the game to more people.
翻訳日:2023-04-11 14:58:20 公開日:2023-04-10
# SemEval-2023 Task 10: 説明可能なオンライン性差別の検出

Attention at SemEval-2023 Task 10: Explainable Detection of Online Sexism (EDOS) ( http://arxiv.org/abs/2304.04610v1 )

ライセンス: Link先を確認
Debashish Roy, Manish Shrivastava(参考訳) 本稿では,分類タスクの形式でのモデルによる決定の解釈可能性,信頼度,理解について検討した。 タスクは3つのサブタスクに分けられる。 最初のタスクは、二元性差別検出を決定することである。 第2の課題は性差別の分類である。 第3の課題は、よりきめ細かい性差別のカテゴリーを記述することである。 本研究は,変換器アーキテクチャを微調整することで,これらのタスクを分類問題として解くことを目的とする。 我々は,複数のトランスフォーマーを組み合わせること,Reddit と Gab の提供する未ラベルデータセットに対するドメイン適応事前トレーニング,ジョイントラーニング,分類ヘッドへの入力として異なるトランスフォーマーの層を用いることなど,アーキテクチャによるいくつかの実験を行った。 このシステムでは,タスクAでは0.839のマクロF1スコア,タスクBでは0.5835のマクロF1スコア,タスクCでは0.3356のマクロF1スコアを達成できた。 その後,タスクbの精度を 0.6228 に,タスクc を 0.3693 に改善した。

In this paper, we have worked on interpretability, trust, and understanding of the decisions made by models in the form of classification tasks. The task is divided into 3 subtasks. The first task consists of determining Binary Sexism Detection. The second task describes the Category of Sexism. The third task describes a more Fine-grained Category of Sexism. Our work explores solving these tasks as a classification problem by fine-tuning transformer-based architecture. We have performed several experiments with our architecture, including combining multiple transformers, using domain adaptive pretraining on the unlabelled dataset provided by Reddit and Gab, Joint learning, and taking different layers of transformers as input to a classification head. Our system (with team name Attention) was able to achieve a macro F1 score of 0.839 for task A, 0.5835 macro F1 score for task B and 0.3356 macro F1 score for task C at the Codalab SemEval Competition. Later we improved the accuracy of Task B to 0.6228 and Task C to 0.3693 in the test set.
翻訳日:2023-04-11 14:52:53 公開日:2023-04-10
# セグメントへのローカライズ:リスクセグメンテーション精度で臓器を改善する作物

Localise to segment: crop to improve organ at risk segmentation accuracy ( http://arxiv.org/abs/2304.04606v1 )

ライセンス: Link先を確認
Abraham George Smith, Denis Kutn\'ar, Ivan Richter Vogelius, Sune Darkner and Jens Petersen(参考訳) 放射線治療を受ける患者のコストと合併症を減らすためには、リスクセグメント化の精度を高める必要がある。 リスクのある臓器のセグメンテーションのためのいくつかの深層学習方法は、2段階のプロセスを使用しており、ローカライズネットワークはまず、関連する領域に画像を生産し、次に、ローカルに特殊化されたネットワークがトリミングされた臓器をセグメンテーションする。 本研究では,フルレゾリューション画像上で訓練された単段ベースラインネットワークと比較し,局所化ステージがもたらした精度改善について検討する。 局所化アプローチはトレーニング時間と安定性の両方を改善し、局所化と臓器分節ネットワークの両方を含む2段階のプロセスは、医学的分節デカスロンデータセットから脾臓、膵臓、心臓の分節精度を著しく向上させる。 また,より小さな臓器に対する局所化のメリットの増大も観察した。 主要な結果を再現するソースコードは、 \href{https://github.com/Abe404/localise_to_segment}{this https URL} にある。

Increased organ at risk segmentation accuracy is required to reduce cost and complications for patients receiving radiotherapy treatment. Some deep learning methods for the segmentation of organs at risk use a two stage process where a localisation network first crops an image to the relevant region and then a locally specialised network segments the cropped organ of interest. We investigate the accuracy improvements brought about by such a localisation stage by comparing to a single-stage baseline network trained on full resolution images. We find that localisation approaches can improve both training time and stability and a two stage process involving both a localisation and organ segmentation network provides a significant increase in segmentation accuracy for the spleen, pancreas and heart from the Medical Segmentation Decathlon dataset. We also observe increased benefits of localisation for smaller organs. Source code that recreates the main results is available at \href{https://github.com/Abe404/localise_to_segment}{this https URL}.
翻訳日:2023-04-11 14:52:36 公開日:2023-04-10
# 人選好によるデクサラスマニピュレーションのための普遍的人間優先学習

Learning a Universal Human Prior for Dexterous Manipulation from Human Preference ( http://arxiv.org/abs/2304.04602v1 )

ライセンス: Link先を確認
Zihan Ding, Yuanpei Chen, Allen Z. Ren, Shixiang Shane Gu, Hao Dong, Chi Jin(参考訳) ロボットで人間のような行動を起こすことは、特にロボットの手を使った巧妙な操作において大きな課題である。 サンプル制約のないシミュレーションでも、スクリプトコントローラは自由度が高いため難解であり、手動の報酬エンジニアリングは困難であり、非現実的な動きにつながる可能性がある。 近年のRLHF(Reinforcement Learning from Human Feedback, RLHF)の進歩を生かして、ビデオ上で直接人間の嗜好フィードバックを用いて、人間に先立って普遍的な人間を学習する枠組みを提案する。 1つのタスク非依存報酬モデルは、様々な警察を反復的に生成し、軌跡に対する人間の好みを収集することで訓練され、その後、微調整段階における警察の行動の規則化に適用される。 提案手法は,ロボットの手の動作を多種多様なタスクで実証し,その一般化能力を示す。

Generating human-like behavior on robots is a great challenge especially in dexterous manipulation tasks with robotic hands. Even in simulation with no sample constraints, scripting controllers is intractable due to high degrees of freedom, and manual reward engineering can also be hard and lead to non-realistic motions. Leveraging the recent progress on Reinforcement Learning from Human Feedback (RLHF), we propose a framework to learn a universal human prior using direct human preference feedback over videos, for efficiently tuning the RL policy on 20 dual-hand robot manipulation tasks in simulation, without a single human demonstration. One task-agnostic reward model is trained through iteratively generating diverse polices and collecting human preference over the trajectories; it is then applied for regularizing the behavior of polices in the fine-tuning stage. Our method empirically demonstrates more human-like behaviors on robot hands in diverse tasks including even unseen tasks, indicating its generalization capability.
翻訳日:2023-04-11 14:52:17 公開日:2023-04-10
# 回転スケール同変ステアブルフィルタ

Rotation-Scale Equivariant Steerable Filters ( http://arxiv.org/abs/2304.04600v1 )

ライセンス: Link先を確認
Yilong Yang, Srinandan Dasmahapatra, Sasan Mahmoodi(参考訳) CNNに回転等分あるいはスケール等分を組み込むことはモデルの一般化性能を向上させるのに有効であることが証明された。 しかし、CNNへの回転とスケールの等価性の統合は広く研究されていない。 生検組織のデジタル組織像は、任意の向きと倍率で撮影でき、異なる解像度で保存され、異なるスケールの細胞が現れる。 従来のCNNを病理画像解析に適用する場合、モデルの一般化性能は制限される。 1) フィルタのパラメータの一部は、回転変換に適合するように訓練され、他の識別的特徴を学習する能力が低下する。 2) あるスケールで画像に訓練された固定サイズフィルタは,異なるスケールで画像に一般化できない。 これらの問題に対処するために、ステアブルフィルタとスケール空間理論を組み込んだ回転スケール可変フィルタ(RSESF)を提案する。 rsesfはガウスフィルタの線形結合であるフィルタのコピーを含み、その方向は方向微分によって制御され、そのスケールパラメータは訓練可能であるが、ネットワークの連続した層における不一致スケールに制限されている。 2つの腺セグメンテーションデータセットに関する広範囲な実験は、トレーニング可能なパラメータと必要なgpuリソースが少なく、他のアプローチよりも優れています。 ソースコードはhttps://github.com/ynulonger/rsesf。

Incorporating either rotation equivariance or scale equivariance into CNNs has proved to be effective in improving models' generalization performance. However, jointly integrating rotation and scale equivariance into CNNs has not been widely explored. Digital histology imaging of biopsy tissue can be captured at arbitrary orientation and magnification and stored at different resolutions, resulting in cells appearing in different scales. When conventional CNNs are applied to histopathology image analysis, the generalization performance of models is limited because 1) a part of the parameters of filters are trained to fit rotation transformation, thus decreasing the capability of learning other discriminative features; 2) fixed-size filters trained on images at a given scale fail to generalize to those at different scales. To deal with these issues, we propose the Rotation-Scale Equivariant Steerable Filter (RSESF), which incorporates steerable filters and scale-space theory. The RSESF contains copies of filters that are linear combinations of Gaussian filters, whose direction is controlled by directional derivatives and whose scale parameters are trainable but constrained to span disjoint scales in successive layers of the network. Extensive experiments on two gland segmentation datasets demonstrate that our method outperforms other approaches, with much fewer trainable parameters and fewer GPU resources required. The source code is available at: https://github.com/ynulonger/RSESF.
翻訳日:2023-04-11 14:51:56 公開日:2023-04-10
# 集積回路の3次元ナノスケールイメージングのための加速自己教師型プチコラミノグラフィー

Accelerated deep self-supervised ptycho-laminography for three-dimensional nanoscale imaging of integrated circuits ( http://arxiv.org/abs/2304.04597v1 )

ライセンス: Link先を確認
Iksung Kang, Yi Jiang, Mirko Holler, Manuel Guizar-Sicairos, A. F. J. Levi, Jeffrey Klug, Stefan Vogt, and George Barbastathis(参考訳) 集積回路などのナノ構造の三次元検査は、セキュリティと信頼性の確保に重要である。 2つの走査操作が必要となる: 標本の複雑な透過率を回復するためのptychography、および3次元空間周波数領域をカバーする複数の投影を取得するための標本の回転。 2種類の回転走査が可能であり、トモグラフィーとラミノグラフィーである。 フラットで拡張された試料では、180度範囲の完全なカバーは不可能であり、3次元空間周波数領域が限られた角度トモグラフィよりも良いカバレッジを提供するため、後者の方が好ましい。 また、全ての射影に対して試料の減衰量がほぼ同じであるためである。 しかし、どちらの手法も大きな獲得時間と計算時間のために時間がかかります。 本稿では,物理規則化深層自己教師学習アーキテクチャを用いて,16倍の角度サンプルと4.67倍の高速計算が可能な集積回路のptycho-laminography再構成の高速化を実証する。 フルスキャニングと学習を伴わない高密度サンプル再構成に対して,再建の忠実さを確認した。 すでに報告されているように(Zhou and Horstmeyer, Opt. Express, 28(9), pp. 12872-12896], 自己教師型学習カーネルが欠落した円錐を埋める能力のため, 密集したサンプル再構成においても復元品質の改善が観察されている。

Three-dimensional inspection of nanostructures such as integrated circuits is important for security and reliability assurance. Two scanning operations are required: ptychographic to recover the complex transmissivity of the specimen; and rotation of the specimen to acquire multiple projections covering the 3D spatial frequency domain. Two types of rotational scanning are possible: tomographic and laminographic. For flat, extended samples, for which the full 180 degree coverage is not possible, the latter is preferable because it provides better coverage of the 3D spatial frequency domain compared to limited-angle tomography. It is also because the amount of attenuation through the sample is approximately the same for all projections. However, both techniques are time consuming because of extensive acquisition and computation time. Here, we demonstrate the acceleration of ptycho-laminographic reconstruction of integrated circuits with 16-times fewer angular samples and 4.67-times faster computation by using a physics-regularized deep self-supervised learning architecture. We check the fidelity of our reconstruction against a densely sampled reconstruction that uses full scanning and no learning. As already reported elsewhere [Zhou and Horstmeyer, Opt. Express, 28(9), pp. 12872-12896], we observe improvement of reconstruction quality even over the densely sampled reconstruction, due to the ability of the self-supervised learning kernel to fill the missing cone.
翻訳日:2023-04-11 14:51:33 公開日:2023-04-10
# ESPnet-ST-v2:多目的音声翻訳ツールキット

ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit ( http://arxiv.org/abs/2304.04596v1 )

ライセンス: Link先を確認
Brian Yan, Jiatong Shi, Yun Tang, Hirofumi Inaguma, Yifan Peng, Siddharth Dalmia, Peter Pol\'ak, Patrick Fernandes, Dan Berrebbi, Tomoki Hayashi, Xiaohui Zhang, Zhaoheng Ni, Moto Hira, Soumi Maiti, Juan Pino, Shinji Watanabe(参考訳) ESPnet-ST-v2はオープンソースのESPnet-STツールキットを改良したものである。 ESPnet-ST-v2 のサポート 1)オフライン音声テキスト翻訳(ST) 2)同時音声テキスト翻訳(SST)、及び 3) オフライン音声音声翻訳(S2ST) -- 各タスクは、ESPnet-ST-v2と他のオープンソースの音声翻訳ツールキットを区別して、幅広いアプローチでサポートされている。 このツールキットはトランスデューサ、ハイブリッドCTC/アテンション、検索可能な中間子を持つマルチデコーダ、時間同期ブロックワイドCTC/アテンション、トランスラトトロンモデル、直接離散単位モデルなどの最先端アーキテクチャを提供する。 本稿では,https://github.com/espnet/espnetで公開されているespnet-st-v2の背後にある全体的な設計,各タスクのモデル,パフォーマンスベンチマークについて述べる。

ESPnet-ST-v2 is a revamp of the open-source ESPnet-ST toolkit necessitated by the broadening interests of the spoken language translation community. ESPnet-ST-v2 supports 1) offline speech-to-text translation (ST), 2) simultaneous speech-to-text translation (SST), and 3) offline speech-to-speech translation (S2ST) -- each task is supported with a wide variety of approaches, differentiating ESPnet-ST-v2 from other open source spoken language translation toolkits. This toolkit offers state-of-the-art architectures such as transducers, hybrid CTC/attention, multi-decoders with searchable intermediates, time-synchronous blockwise CTC/attention, Translatotron models, and direct discrete unit models. In this paper, we describe the overall design, example models for each task, and performance benchmarking behind ESPnet-ST-v2, which is publicly available at https://github.com/espnet/espnet.
翻訳日:2023-04-11 14:51:07 公開日:2023-04-10
# 病理組織像分割のためのスケール同変型unet

Scale-Equivariant UNet for Histopathology Image Segmentation ( http://arxiv.org/abs/2304.04595v1 )

ライセンス: Link先を確認
Yilong Yang, Srinandan Dasmahapatra, Sasan Mahmoodi(参考訳) デジタル病理組織学のスライドは、異なる倍率でスキャンされ、異なる解像度で画像として保存される。 そのようなスケールでトレーニングされた畳み込みニューラルネットワーク(cnns)は、異なるスケールのニューラルネットワークに一般化することができない。 この障害は、しばしば、再スケールしたイメージでトレーニングデータを拡張することで対処され、十分な能力を持つモデルで必要なパターンを学ぶことができる。 あるいは、スケール同値なcnnフィルタを設計することで、モデルのキャパシティを解放し、識別的特徴を学ぶことができる。 本稿では,スケール空間理論に基づく画像セグメンテーションのためのSEUNet(Scale-Equivariant UNet)を提案する。 SEUNetには、ガウス基底フィルタの線形結合であるフィルタのグループが含まれており、スケールパラメータはトレーニング可能であるが、ネットワークの層を通して不整合スケールに分散するように制約されている。 核セグメンテーションデータセットと組織型セグメンテーションデータセットに関する広範囲な実験により,学習可能なパラメータをはるかに少なくして,他のアプローチよりも優れていることが証明された。

Digital histopathology slides are scanned and viewed under different magnifications and stored as images at different resolutions. Convolutional Neural Networks (CNNs) trained on such images at a given scale fail to generalise to those at different scales. This inability is often addressed by augmenting training data with re-scaled images, allowing a model with sufficient capacity to learn the requisite patterns. Alternatively, designing CNN filters to be scale-equivariant frees up model capacity to learn discriminative features. In this paper, we propose the Scale-Equivariant UNet (SEUNet) for image segmentation by building on scale-space theory. The SEUNet contains groups of filters that are linear combinations of Gaussian basis filters, whose scale parameters are trainable but constrained to span disjoint scales through the layers of the network. Extensive experiments on a nuclei segmentation dataset and a tissue type segmentation dataset demonstrate that our method outperforms other approaches, with much fewer trainable parameters.
翻訳日:2023-04-11 14:50:49 公開日:2023-04-10
# 運動制御における事前学習型視覚モデルの場合、全ての政策学習手法が等しくなるわけではない

For Pre-Trained Vision Models in Motor Control, Not All Policy Learning Methods are Created Equal ( http://arxiv.org/abs/2304.04591v1 )

ライセンス: Link先を確認
Yingdong Hu, Renhao Wang, Li Erran Li, Yang Gao(参考訳) 近年,運動制御のための事前学習型視覚モデルの利用に注目が集まっている。 既存の研究は主にプレトレーニングフェーズの重要性を強調しているが、制御固有の微調整において下流政策学習が果たす重要な役割は無視されることが多い。 したがって、事前訓練された視覚モデルが異なる制御ポリシーの下で有効性に一貫性があるかどうかは不明である。 このギャップを埋めるために、強化学習(RL)、行動クローニングによる模倣学習(BC)、視覚報酬機能付き模倣学習(VRF)を含む3種類の政策学習手法を用いて、14種類の事前学習された視覚モデルについて包括的な研究を行う。 本研究は, 事前学習の有効性が下流政策学習アルゴリズムの選択に大きく依存していることの発見を含む, 一連の興味深い結果をもたらす。 従来,RL法に基づく評価は非常に可変であり,信頼性が低いことを示し,VRFやBCといったより堅牢な手法の活用を提唱している。 事前学習されたモデルとそのポリシー学習手法のより普遍的な評価を容易にするため、我々は、作業とともに3つの異なる環境にわたる21のタスクのベンチマークもリリースした。

In recent years, increasing attention has been directed to leveraging pre-trained vision models for motor control. While existing works mainly emphasize the importance of this pre-training phase, the arguably equally important role played by downstream policy learning during control-specific fine-tuning is often neglected. It thus remains unclear if pre-trained vision models are consistent in their effectiveness under different control policies. To bridge this gap in understanding, we conduct a comprehensive study on 14 pre-trained vision models using 3 distinct classes of policy learning methods, including reinforcement learning (RL), imitation learning through behavior cloning (BC), and imitation learning with a visual reward function (VRF). Our study yields a series of intriguing results, including the discovery that the effectiveness of pre-training is highly dependent on the choice of the downstream policy learning algorithm. We show that conventionally accepted evaluation based on RL methods is highly variable and therefore unreliable, and further advocate for using more robust methods like VRF and BC. To facilitate more universal evaluations of pre-trained models and their policy learning methods in the future, we also release a benchmark of 21 tasks across 3 different environments alongside our work.
翻訳日:2023-04-11 14:50:32 公開日:2023-04-10
# LADER: バイオメディカル文献検索のためのログ拡張Dnse検索

LADER: Log-Augmented DEnse Retrieval for Biomedical Literature Search ( http://arxiv.org/abs/2304.04590v1 )

ライセンス: Link先を確認
Qiao Jin, Andrew Shin, Zhiyong Lu(参考訳) 類似した情報を持つクエリは、類似のドキュメントクリックを持つ傾向があり、特に生物医学文献検索エンジンでは、クエリが一般的に短く、上位のドキュメントがクリックのほとんどを占める。 そこで本研究では,類似の学習クエリから検索したクリックログを用いて,高密度検索を補完する簡易プラグインモジュールであるlog-augmented dense retrieval (lader)を提案する。 特にladerは、類似したドキュメントと、所定のクエリに対するクエリの両方を、高密度のレトリバーで見つける。 次に、LADERは、入力クエリと類似性によって重み付けられた類似クエリの関連(クリック)ドキュメントをスコアする。 LADERによる最終文書スコアは、(1)高密度検索器からの文書類似度スコア、(2)類似クエリのクリックログからの集計文書スコアの平均である。 その単純さにもかかわらず、LADERはバイオメディカル文献検索のための最近リリースされたベンチマークであるTripClickで、新しい最先端(SOTA)パフォーマンスを達成した。 頻繁な (HEAD) クエリでは、LADER は NDCG@10 (0.338 v.s. 0.243) に対して 39% で最高の検索モデルを上回っている。 LADERはまた、従来のSOTA(0.303 v.s.0.272)よりも11%の相対的なNDCG@10の改善を持つ、頻度の低い(TORSO)クエリのパフォーマンスも向上している。 類似したクエリが不足しているまれな(TAIL)クエリでは、LADERは以前のSOTAメソッド(NDCG@10:0.310 v.s.0.295)と好意的に比較する。 すべてのクエリにおいて、laderは、追加のトレーニングを必要とせずに、24%-37%の相対的なndcg@10で、密集したレトリバーのパフォーマンスを向上させることができ、より多くのログからさらなるパフォーマンス改善が期待できる。 我々の回帰分析によると、クエリの頻度が高く、クエリ類似性のエントロピーが高く、ドキュメント類似性のエントロピーが低いクエリは、ログ拡張の恩恵を受ける傾向にある。

Queries with similar information needs tend to have similar document clicks, especially in biomedical literature search engines where queries are generally short and top documents account for most of the total clicks. Motivated by this, we present a novel architecture for biomedical literature search, namely Log-Augmented DEnse Retrieval (LADER), which is a simple plug-in module that augments a dense retriever with the click logs retrieved from similar training queries. Specifically, LADER finds both similar documents and queries to the given query by a dense retriever. Then, LADER scores relevant (clicked) documents of similar queries weighted by their similarity to the input query. The final document scores by LADER are the average of (1) the document similarity scores from the dense retriever and (2) the aggregated document scores from the click logs of similar queries. Despite its simplicity, LADER achieves new state-of-the-art (SOTA) performance on TripClick, a recently released benchmark for biomedical literature retrieval. On the frequent (HEAD) queries, LADER largely outperforms the best retrieval model by 39% relative NDCG@10 (0.338 v.s. 0.243). LADER also achieves better performance on the less frequent (TORSO) queries with 11% relative NDCG@10 improvement over the previous SOTA (0.303 v.s. 0.272). On the rare (TAIL) queries where similar queries are scarce, LADER still compares favorably to the previous SOTA method (NDCG@10: 0.310 v.s. 0.295). On all queries, LADER can improve the performance of a dense retriever by 24%-37% relative NDCG@10 while not requiring additional training, and further performance improvement is expected from more logs. Our regression analysis has shown that queries that are more frequent, have higher entropy of query similarity and lower entropy of document similarity, tend to benefit more from log augmentation.
翻訳日:2023-04-11 14:50:08 公開日:2023-04-10
# ハイブリッド畳み込みに基づくデュアルドメインネットワークによるハイパースペクトル画像超解像

Hyperspectral Image Super-Resolution via Dual-domain Network Based on Hybrid Convolution ( http://arxiv.org/abs/2304.04589v1 )

ライセンス: Link先を確認
Tingting Liu, Yuan Liu, Chuncheng Zhang, Xiubao Sui, Qian Chen(参考訳) 入射エネルギーは限られているため,空間分解能の高いハイパースペクトル画像(HSI)を直接取得することは困難である。 HSIの高次元性と相関性を考えると、HSIの超解像(SR)は補助高分解能画像がない場合の課題である。 さらに,空間的特徴を効果的に抽出し,スペクトル情報を十分に活用することが重要である。 本稿では,ハイブリッド畳み込み(srdnet)に基づくデュアルドメインネットワークと呼ばれる,新しいhsiスーパーレゾリューションアルゴリズムを提案する。 具体的には、双対領域ネットワークは、超スペクトルデータの空間スペクトルと周波数情報をフル活用するように設計されている。 スペクトル間自己相似性を捉えるため、空間領域に自己注意学習機構(HSL)を考案する。 一方、ピラミッド構造は注意の受容領域を高めるために適用され、ネットワークの特徴表現能力をさらに強化する。 さらに、HSIの知覚品質をさらに向上するため、周波数領域のモデルを最適化するために周波数損失(HFL)を導入する。 動的重み付け機構は、空間損失に起因する発生周波数と過度な平滑化を徐々に改善するネットワークを駆動する。 最後に, 高分解能空間と低分解能空間のマッピング関係をよりよく把握するために, 漸進的なアップサンプリング戦略を持つ2dおよび3dユニットのハイブリッドモジュールを用いた。 ベンチマークデータセットを用いた実験では,提案手法がhsiのテクスチャ情報を強化し,最先端の手法よりも優れていることを示す。

Since the number of incident energies is limited, it is difficult to directly acquire hyperspectral images (HSI) with high spatial resolution. Considering the high dimensionality and correlation of HSI, super-resolution (SR) of HSI remains a challenge in the absence of auxiliary high-resolution images. Furthermore, it is very important to extract the spatial features effectively and make full use of the spectral information. This paper proposes a novel HSI super-resolution algorithm, termed dual-domain network based on hybrid convolution (SRDNet). Specifically, a dual-domain network is designed to fully exploit the spatial-spectral and frequency information among the hyper-spectral data. To capture inter-spectral self-similarity, a self-attention learning mechanism (HSL) is devised in the spatial domain. Meanwhile the pyramid structure is applied to increase the acceptance field of attention, which further reinforces the feature representation ability of the network. Moreover, to further improve the perceptual quality of HSI, a frequency loss(HFL) is introduced to optimize the model in the frequency domain. The dynamic weighting mechanism drives the network to gradually refine the generated frequency and excessive smoothing caused by spatial loss. Finally, In order to better fully obtain the mapping relationship between high-resolution space and low-resolution space, a hybrid module of 2D and 3D units with progressive upsampling strategy is utilized in our method. Experiments on a widely used benchmark dataset illustrate that the proposed SRDNet method enhances the texture information of HSI and is superior to state-of-the-art methods.
翻訳日:2023-04-11 14:49:34 公開日:2023-04-10
# NeuroBench: コラボレーション,公正,代表的ベンチマークによるニューロモルフィックコンピューティングの促進

NeuroBench: Advancing Neuromorphic Computing through Collaborative, Fair and Representative Benchmarking ( http://arxiv.org/abs/2304.04640v1 )

ライセンス: Link先を確認
Jason Yik, Soikat Hasan Ahmed, Zergham Ahmed, Brian Anderson, Andreas G. Andreou, Chiara Bartolozzi, Arindam Basu, Douwe den Blanken, Petrut Bogdan, Sander Bohte, Younes Bouhadjar, Sonia Buckley, Gert Cauwenberghs, Federico Corradi, Guido de Croon, Andreea Danielescu, Anurag Daram, Mike Davies, Yigit Demirag, Jason Eshraghian, Jeremy Forest, Steve Furber, Michael Furlong, Aditya Gilra, Giacomo Indiveri, Siddharth Joshi, Vedant Karia, Lyes Khacef, James C. Knight, Laura Kriener, Rajkumar Kubendran, Dhireesha Kudithipudi, Gregor Lenz, Rajit Manohar, Christian Mayr, Konstantinos Michmizos, Dylan Muir, Emre Neftci, Thomas Nowotny, Fabrizio Ottati, Ayca Ozcelikkale, Noah Pacik-Nelson, Priyadarshini Panda, Sun Pao-Sheng, Melika Payvand, Christian Pehle, Mihai A. Petrovici, Christoph Posch, Alpha Renner, Yulia Sandamirskaya, Clemens JS Schaefer, Andr\'e van Schaik, Johannes Schemmel, Catherine Schuman, Jae-sun Seo, Sumit Bam Shrestha, Manolis Sifalakis, Amos Sironi, Kenneth Stewart, Terrence C. Stewart, Philipp Stratmann, Guangzhi Tang, Jonathan Timcheck, Marian Verhelst, Craig M. Vineyard, Bernhard Vogginger, Amirreza Yousefzadeh, Biyan Zhou, Fatima Tuz Zohora, Charlotte Frenkel, Vijay Janapa Reddi(参考訳) ニューロモルフィックコンピューティングの分野は、脳にインスパイアされた原則に従うことによって、コンピューティングの効率と能力を高めるという大きな期待を持っている。 しかし、ニューロモルフィック研究で用いられる技術の多様性は、ベンチマークの明確な基準が欠如しており、従来のディープラーニングベースの手法と比較して、ニューロモルフィックな手法の長所と長所の効果的な評価を妨げている。 本稿では,アカデミアと産業のメンバを集めて,ニューロモルフィックコンピューティングのベンチマーク(neurobench)を定義するための協力的取り組みについて述べる。 NeuroBenchの目標は、コミュニティがコミュニティのために開発した、共同で公平で代表的なベンチマークスイートである。 本稿では、ニューロモルフィックソリューションのベンチマークに関する課題について論じ、NeuroBenchの重要な特徴を概説する。 neurobenchは、ニューロモルフィックコンピューティングの目標を統一し、その技術的進歩を促進する標準を定義するための重要なステップであると考えています。 ベンチマークタスクとメトリクスの最新情報については、neurobench.aiをご覧ください。

The field of neuromorphic computing holds great promise in terms of advancing computing efficiency and capabilities by following brain-inspired principles. However, the rich diversity of techniques employed in neuromorphic research has resulted in a lack of clear standards for benchmarking, hindering effective evaluation of the advantages and strengths of neuromorphic methods compared to traditional deep-learning-based methods. This paper presents a collaborative effort, bringing together members from academia and the industry, to define benchmarks for neuromorphic computing: NeuroBench. The goals of NeuroBench are to be a collaborative, fair, and representative benchmark suite developed by the community, for the community. In this paper, we discuss the challenges associated with benchmarking neuromorphic solutions, and outline the key features of NeuroBench. We believe that NeuroBench will be a significant step towards defining standards that can unify the goals of neuromorphic computing and drive its technological progress. Please visit neurobench.ai for the latest updates on the benchmark tasks and metrics.
翻訳日:2023-04-11 14:42:49 公開日:2023-04-10
# EKILA: ジェネレーティブアートのための合成メディアの創出と貢献

EKILA: Synthetic Media Provenance and Attribution for Generative Art ( http://arxiv.org/abs/2304.04639v1 )

ライセンス: Link先を確認
Kar Balan, Shruti Agarwal, Simon Jenni, Andy Parsons, Andrew Gilbert, John Collomosse(参考訳) EKILAは、創造者が生成AI(GenAI)への貢献に対して認識と報酬を受けることを可能にする分散型フレームワークである。 EKILAは、堅牢な視覚的帰属技術を提案し、AI生成画像に責任のある生成モデルとトレーニングデータを決定する、合成画像証明の問題に対処する、新たなコンテンツ証明標準(C2PA)とこれを組み合わせている。 さらに、EKILAはNFT(Non-fungible token)エコシステムを拡張して、権利のトークン化表現を導入し、資産の所有者、権利、および属性(ORA)間の三角関係を可能にする。 ORA関係の活用により、クリエーターはトレーニング同意よりも代理店を表現でき、私たちの帰属モデルを通じて、GenAIにおける資産の使用に対するロイヤリティ支払いを含む認定クレジットを受け取ることができる。

We present EKILA; a decentralized framework that enables creatives to receive recognition and reward for their contributions to generative AI (GenAI). EKILA proposes a robust visual attribution technique and combines this with an emerging content provenance standard (C2PA) to address the problem of synthetic image provenance -- determining the generative model and training data responsible for an AI-generated image. Furthermore, EKILA extends the non-fungible token (NFT) ecosystem to introduce a tokenized representation for rights, enabling a triangular relationship between the asset's Ownership, Rights, and Attribution (ORA). Leveraging the ORA relationship enables creators to express agency over training consent and, through our attribution model, to receive apportioned credit, including royalty payments for the use of their assets in GenAI.
翻訳日:2023-04-11 14:42:30 公開日:2023-04-10
# 強化学習に基づくブラックボックスモデルインバージョン攻撃

Reinforcement Learning-Based Black-Box Model Inversion Attacks ( http://arxiv.org/abs/2304.04625v1 )

ライセンス: Link先を確認
Gyojin Han, Jaehyun Choi, Haeil Lee, Junmo Kim(参考訳) モデル反転攻撃は、モデルにアクセスするだけで機械学習モデルをトレーニングするために使用されるプライベートデータを再構築するプライバシー攻撃の一種である。 近年,GAN(Generative Adversarial Networks)を利用したホワイトボックスモデルインバージョンアタックによる公開データセットからの知識の抽出が注目されている。 一方,GANを利用した現在のブラックボックスモデルインバージョン攻撃は,所定のクエリアクセス数内で攻撃プロセスの完了を保証できない,あるいはホワイトボックス攻撃と同じレベルのパフォーマンスを達成するといった問題に悩まされている。 これらの制約を克服するために,強化学習に基づくブラックボックスモデルインバージョン攻撃を提案する。 我々はマルコフ決定過程(MDP)問題として潜在空間探索を定式化し、強化学習を用いて解く。 提案手法は,生成した画像の信頼性スコアを利用してエージェントに報酬を与える。 最後に、MDPで訓練されたエージェントによって発見された潜伏ベクトルを用いて、プライベートデータを再構成することができる。 種々のデータセットやモデルを用いた実験結果から,我々の攻撃は,最先端の攻撃性能を達成し,標的モデルのプライベート情報を回復することに成功した。 我々は、より高度なブラックボックスモデル逆攻撃を提案し、プライバシー保護機械学習の研究の重要性を強調した。

Model inversion attacks are a type of privacy attack that reconstructs private data used to train a machine learning model, solely by accessing the model. Recently, white-box model inversion attacks leveraging Generative Adversarial Networks (GANs) to distill knowledge from public datasets have been receiving great attention because of their excellent attack performance. On the other hand, current black-box model inversion attacks that utilize GANs suffer from issues such as being unable to guarantee the completion of the attack process within a predetermined number of query accesses or achieve the same level of performance as white-box attacks. To overcome these limitations, we propose a reinforcement learning-based black-box model inversion attack. We formulate the latent space search as a Markov Decision Process (MDP) problem and solve it with reinforcement learning. Our method utilizes the confidence scores of the generated images to provide rewards to an agent. Finally, the private data can be reconstructed using the latent vectors found by the agent trained in the MDP. The experiment results on various datasets and models demonstrate that our attack successfully recovers the private information of the target model by achieving state-of-the-art attack performance. We emphasize the importance of studies on privacy-preserving machine learning by proposing a more advanced black-box model inversion attack.
翻訳日:2023-04-11 14:42:13 公開日:2023-04-10
# フェデレートインクリメンタルセマンティックセグメンテーション

Federated Incremental Semantic Segmentation ( http://arxiv.org/abs/2304.04620v1 )

ライセンス: Link先を確認
Jiahua Dong, Duzhen Zhang, Yang Cong, Wei Cong, Henghui Ding, Dengxin Dai(参考訳) フェデレーション学習に基づくセマンティクスセグメンテーション(fss)は,ローカルクライアントに対する分散トレーニングを通じて広く注目を集めている。 しかし、ほとんどのFSSモデルは、カテゴリが事前に固定されていると仮定しているため、ローカルクライアントが新しいカテゴリを段階的に受け取る一方で、古いクラスにアクセスするメモリストレージを持たない実践的なアプリケーションでは、古いカテゴリを忘れている。 さらに、新しいクラスを収集する新たなクライアントがFSSのグローバルトレーニングに参加し、破滅的な忘れがさらに悪化する可能性がある。 上記の課題を克服するために,クライアント内およびクライアント間両方の面から,古いクラスにおける異種忘れに対処するフォッッティングベースラーニング(FBL)モデルを提案する。 具体的には、適応型クラスバランス付き擬似ラベリングによって生成された擬似ラベルのガイダンスに基づき、背景シフトを伴う古いカテゴリの従属内不均一な忘れを正すために、無視バランス付き意味補償損失と忘れバランス付き関係整合損失を開発する。 局所クライアント内でバランスのとれた勾配伝播と関係整合性蒸留を行う。 さらに,クライアント間からヘテロジニアスな忘れる問題に対処するために,タスク遷移モニタを提案する。 プライバシー保護の下で新しいクラスを識別し、関係蒸留のための最新のグローバルモデルを保存することができる。 定性的な実験により,比較法に対するモデルの大幅な改善が示された。 コードはhttps://github.com/JiahuaDong/FISSで入手できる。

Federated learning-based semantic segmentation (FSS) has drawn widespread attention via decentralized training on local clients. However, most FSS models assume categories are fixed in advance, thus heavily undergoing forgetting on old categories in practical applications where local clients receive new categories incrementally while have no memory storage to access old classes. Moreover, new clients collecting novel classes may join in the global training of FSS, which further exacerbates catastrophic forgetting. To surmount the above challenges, we propose a Forgetting-Balanced Learning (FBL) model to address heterogeneous forgetting on old classes from both intra-client and inter-client aspects. Specifically, under the guidance of pseudo labels generated via adaptive class-balanced pseudo labeling, we develop a forgetting-balanced semantic compensation loss and a forgetting-balanced relation consistency loss to rectify intra-client heterogeneous forgetting of old categories with background shift. It performs balanced gradient propagation and relation consistency distillation within local clients. Moreover, to tackle heterogeneous forgetting from inter-client aspect, we propose a task transition monitor. It can identify new classes under privacy protection and store the latest old global model for relation distillation. Qualitative experiments reveal large improvement of our model against comparison methods. The code is available at https://github.com/JiahuaDong/FISS.
翻訳日:2023-04-11 14:41:52 公開日:2023-04-10
# 複数のttsターゲットを用いた音声から音声への翻訳の促進

Enhancing Speech-to-Speech Translation with Multiple TTS Targets ( http://arxiv.org/abs/2304.04618v1 )

ライセンス: Link先を確認
Jiatong Shi, Yun Tang, Ann Lee, Hirofumi Inaguma, Changhan Wang, Juan Pino, Shinji Watanabe(参考訳) s2st(direct speech-to-speech translation)モデルは通常、ソースとターゲットの両方のパラレル材料が限られているため、データ不足の問題に苦しんでいることが知られている。 したがって、S2STシステムを直接訓練するために、従来の作業では、音声からテキストへの変換(S2TT)からデータを増やすことで、通常、対象言語でサンプルを生成するためにテキスト音声(TTS)システムを使用していた。 しかし、合成されたターゲット音声がS2STモデルにどう影響するかは限定的な研究がある。 本研究では、直接S2STモデルに対する合成対象音声の変更の効果を解析する。 異なるTSシステムからターゲット音声を合成するだけで、S2STの性能が向上する可能性がある。 次に、異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。 大規模な実験により,提案フレームワークはフィッシャー・スペイン語データセットのベースラインよりも一貫した改善(2.8 BLEU)を達成できた。

It has been known that direct speech-to-speech translation (S2ST) models usually suffer from the data scarcity issue because of the limited existing parallel materials for both source and target speech. Therefore to train a direct S2ST system, previous works usually utilize text-to-speech (TTS) systems to generate samples in the target language by augmenting the data from speech-to-text translation (S2TT). However, there is a limited investigation into how the synthesized target speech would affect the S2ST models. In this work, we analyze the effect of changing synthesized target speech for direct S2ST models. We find that simply combining the target speech from different TTS systems can potentially improve the S2ST performances. Following that, we also propose a multi-task framework that jointly optimizes the S2ST system with multiple targets from different TTS systems. Extensive experiments demonstrate that our proposed framework achieves consistent improvements (2.8 BLEU) over the baselines on the Fisher Spanish-English dataset.
翻訳日:2023-04-11 14:41:28 公開日:2023-04-10
# VARS:複数視点からのサッカー自動決定のためのビデオアシスタント参照システム

VARS: Video Assistant Referee System for Automated Soccer Decision Making from Multiple Views ( http://arxiv.org/abs/2304.04617v1 )

ライセンス: Link先を確認
Jan Held, Anthony Cioppa, Silvio Giancola, Abdullah Hamdi, Bernard Ghanem, Marc Van Droogenbroeck(参考訳) ビデオアシスタント・レフェリー(VAR)は協会サッカーに革命をもたらし、審判はピッチ上の出来事をレビューし、情報的な決定を行い、公正性を確保する。 しかし、多くの国での審判の欠如とVARインフラの高コストのため、プロリーグのみがその恩恵を受けることができる。 本稿では,サッカーの意思決定を自動化するビデオアシスタント参照システム(VARS)を提案する。 VARSは、マルチビュービデオ分析における最新の知見を活用し、審判にリアルタイムのフィードバックを提供し、ゲームの結果に影響を及ぼす情報決定を支援する。 varsを検証するために、複数のカメラビューからサッカーファールの新たなビデオデータセットである soccernet-mvfoul を紹介し、プロのサッカー審判による広範囲なファール記述をアノテートし、vars をベンチマークし、これらのファールの特性を自動的に認識する。 VARSはサッカー審判に革命をもたらす可能性を秘めており、プロやアマチュアのフェデレーションのあらゆるレベルにおいて、試合を新たな公平性と正確性に導くことができると考えている。

The Video Assistant Referee (VAR) has revolutionized association football, enabling referees to review incidents on the pitch, make informed decisions, and ensure fairness. However, due to the lack of referees in many countries and the high cost of the VAR infrastructure, only professional leagues can benefit from it. In this paper, we propose a Video Assistant Referee System (VARS) that can automate soccer decision-making. VARS leverages the latest findings in multi-view video analysis, to provide real-time feedback to the referee, and help them make informed decisions that can impact the outcome of a game. To validate VARS, we introduce SoccerNet-MVFoul, a novel video dataset of soccer fouls from multiple camera views, annotated with extensive foul descriptions by a professional soccer referee, and we benchmark our VARS to automatically recognize the characteristics of these fouls. We believe that VARS has the potential to revolutionize soccer refereeing and take the game to new heights of fairness and accuracy across all levels of professional and amateur federations.
翻訳日:2023-04-11 14:41:12 公開日:2023-04-10
# OpenAIの大規模言語モデルによる自動読み出しパス生成

Automated Reading Passage Generation with OpenAI's Large Language Model ( http://arxiv.org/abs/2304.04616v1 )

ライセンス: Link先を確認
Ummugul Bezirhan, Matthias von Davier(参考訳) コンピュータベースの評価や個別学習プラットフォームの普及により、高品質なアイテムの迅速な生産への需要が高まっている。 自動アイテム生成(AIG)は、コンピュータ技術の助けを借りてアイテムモデルを用いて新しいアイテムを生成するプロセスであり、プロセスの各ステップにおける人体の専門家への依存を減らすことを目的としている。 AIGはしばらく前からテスト開発に使われてきた。 それでも、機械学習アルゴリズムの使用は、プロセスの効率と効率を大幅に改善する可能性を秘めている。 本稿では,OpenAIの最新のトランスフォーマーベース言語モデルであるGPT-3を用いて読み出しパスを生成する。 既存の読み出しパスは、AI生成したテキストが第4グレードの読み出しパスに類似した内容と構造を持つことを保証するために、慎重に設計されたプロンプトに使用された。 各プロンプトに対して複数のパスを生成し,レキシルスコア合意に従って最終パスが選択された。 最終ラウンドでは、選択された文は、人間の編集者による簡単な改訂を経て、テキストに文法的および事実的誤りがないことを保証した。 AI生成された全ての通路は、その一貫性、第4学年への適切性、可読性に応じて、人間の裁判官によって評価された。

The widespread usage of computer-based assessments and individualized learning platforms has resulted in an increased demand for the rapid production of high-quality items. Automated item generation (AIG), the process of using item models to generate new items with the help of computer technology, was proposed to reduce reliance on human subject experts at each step of the process. AIG has been used in test development for some time. Still, the use of machine learning algorithms has introduced the potential to improve the efficiency and effectiveness of the process greatly. The approach presented in this paper utilizes OpenAI's latest transformer-based language model, GPT-3, to generate reading passages. Existing reading passages were used in carefully engineered prompts to ensure the AI-generated text has similar content and structure to a fourth-grade reading passage. For each prompt, we generated multiple passages, the final passage was selected according to the Lexile score agreement with the original passage. In the final round, the selected passage went through a simple revision by a human editor to ensure the text was free of any grammatical and factual errors. All AI-generated passages, along with original passages were evaluated by human judges according to their coherence, appropriateness to fourth graders, and readability.
翻訳日:2023-04-11 14:40:52 公開日:2023-04-10
# 最近の教員-学生学習研究に関する調査

A Survey on Recent Teacher-student Learning Studies ( http://arxiv.org/abs/2304.04615v1 )

ライセンス: Link先を確認
Minghong Gao(参考訳) 知識蒸留は、複雑なディープニューラルネットワーク(DNN)からより小さくより高速なDNNへ知識を伝達する手法であり、精度を保っている。 最近の知識蒸留の変種としては、補助蒸留、カリキュラム蒸留、マスク蒸留、脱カップリング蒸留があり、追加部品の導入や学習プロセスの変更によって知識蒸留の性能を向上させることを目的としている。 教育補助蒸留は教育アシスタントと呼ばれる中間モデルを含み、カリキュラム蒸留は人間教育と同様のカリキュラムに従っている。 マスク蒸留は教師が学習した注意機構の伝達に焦点を合わせ、蒸留の分離はタスク損失から蒸留損失を分離する。 全体として、これらの知識蒸留の変種は、知識蒸留の性能向上に有望な結果を示している。

Knowledge distillation is a method of transferring the knowledge from a complex deep neural network (DNN) to a smaller and faster DNN, while preserving its accuracy. Recent variants of knowledge distillation include teaching assistant distillation, curriculum distillation, mask distillation, and decoupling distillation, which aim to improve the performance of knowledge distillation by introducing additional components or by changing the learning process. Teaching assistant distillation involves an intermediate model called the teaching assistant, while curriculum distillation follows a curriculum similar to human education. Mask distillation focuses on transferring the attention mechanism learned by the teacher, and decoupling distillation decouples the distillation loss from the task loss. Overall, these variants of knowledge distillation have shown promising results in improving the performance of knowledge distillation.
翻訳日:2023-04-11 14:40:28 公開日:2023-04-10
# hst-mrf : 医用画像セグメンテーションのためのマルチ受容場を有する異種スウィントランス

HST-MRF: Heterogeneous Swin Transformer with Multi-Receptive Field for Medical Image Segmentation ( http://arxiv.org/abs/2304.04614v1 )

ライセンス: Link先を確認
Xiaofei Huang, Hongfang Gong, Jin Zhang(参考訳) Transformerは、優れた長距離モデリング機能のために、医用画像セグメンテーションに成功している。 しかし、パッチセグメンテーションはトランスフォーマークラスモデルを構築する際に必要である。 このプロセスは医療画像の組織構造を乱し、関連する情報が失われる可能性がある。 本研究では, 医用画像分割のためのu字型ネットワークを用いたマルチレセプティブ・フィールド(hst-mrf)モデルを用いた異種スウィントランスを提案する。 主な目的は、異なる受容場下でパッチ情報を融合することにより、トランスフォーマを用いたパッチセグメンテーションによる構造情報の損失を解決することである。 ヘテロジニアススイム変換器(HST)はコアモジュールであり、不均一な注意を通して多受容フィールドパッチ情報の相互作用を達成し、プログレッシブラーニングの次の段階に渡す。 また,2段階融合モジュールであるMBP(Multimodal bilinear pooling)を設計し,HSTの多受容野情報の融合を支援するとともに,低レベルおよび高レベルの意味情報を組み合わせて病変領域の正確な位置推定を行った。 さらに,アダプティブパッチ埋め込み (APE) とソフトチャネルアテンション (SCA) モジュールを開発した。 ポリプおよび皮膚病変のセグメンテーションタスクのための複数のデータセット上でHST-MRFを評価した。 実験の結果,提案手法は最先端モデルよりも優れ,優れた性能が得られることがわかった。 さらに,各モジュールの有効性とマルチレセプティブ・フィールドセグメンテーションの利点を検証し,アブレーション実験により構造情報の損失を低減した。

The Transformer has been successfully used in medical image segmentation due to its excellent long-range modeling capabilities. However, patch segmentation is necessary when building a Transformer class model. This process may disrupt the tissue structure in medical images, resulting in the loss of relevant information. In this study, we proposed a Heterogeneous Swin Transformer with Multi-Receptive Field (HST-MRF) model based on U-shaped networks for medical image segmentation. The main purpose is to solve the problem of loss of structural information caused by patch segmentation using transformer by fusing patch information under different receptive fields. The heterogeneous Swin Transformer (HST) is the core module, which achieves the interaction of multi-receptive field patch information through heterogeneous attention and passes it to the next stage for progressive learning. We also designed a two-stage fusion module, multimodal bilinear pooling (MBP), to assist HST in further fusing multi-receptive field information and combining low-level and high-level semantic information for accurate localization of lesion regions. In addition, we developed adaptive patch embedding (APE) and soft channel attention (SCA) modules to retain more valuable information when acquiring patch embedding and filtering channel features, respectively, thereby improving model segmentation quality. We evaluated HST-MRF on multiple datasets for polyp and skin lesion segmentation tasks. Experimental results show that our proposed method outperforms state-of-the-art models and can achieve superior performance. Furthermore, we verified the effectiveness of each module and the benefits of multi-receptive field segmentation in reducing the loss of structural information through ablation experiments.
翻訳日:2023-04-11 14:40:15 公開日:2023-04-10
# バングラ語アナロジーの評価について

On Evaluation of Bangla Word Analogies ( http://arxiv.org/abs/2304.04613v1 )

ライセンス: Link先を確認
Mousumi Akter, Souvika Sarkar, Shubhra Kanti Karmaker (Santu)(参考訳) 本稿では,自然言語処理(NLP)分野の基本課題である,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。 世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。 Bangla単語の埋め込みに対する信頼性評価テストセットの開発は、将来の研究のベンチマークと指導に不可欠である。 言語横断研究のための10594のサンプルを含むmikolovデータセットの翻訳版およびキュレーション版と同様に,バングラ専用のmikolovスタイルの単語アナロジー評価セットを16678のサンプルサイズで提供する。 さまざまな最先端の埋め込みモデルによる実験では、Banglaには独自の特徴があり、現在のBanglaの埋め込みは両方のデータセットで高い精度を達成するのに苦戦している。 今後の研究は、より大きなデータセットを持つモデルに焦点をあて、バングラのユニークな形態的特徴を考慮すべきである。 本研究は,Bangla言語1のための信頼性NLPシステム構築に向けた第一歩である。

This paper presents a high-quality dataset for evaluating the quality of Bangla word embeddings, which is a fundamental task in the field of Natural Language Processing (NLP). Despite being the 7th most-spoken language in the world, Bangla is a low-resource language and popular NLP models fail to perform well. Developing a reliable evaluation test set for Bangla word embeddings are crucial for benchmarking and guiding future research. We provide a Mikolov-style word analogy evaluation set specifically for Bangla, with a sample size of 16678, as well as a translated and curated version of the Mikolov dataset, which contains 10594 samples for cross-lingual research. Our experiments with different state-of-the-art embedding models reveal that Bangla has its own unique characteristics, and current embeddings for Bangla still struggle to achieve high accuracy on both datasets. We suggest that future research should focus on training models with larger datasets and considering the unique morphological characteristics of Bangla. This study represents the first step towards building a reliable NLP system for the Bangla language1.
翻訳日:2023-04-11 14:39:45 公開日:2023-04-10
# MERMAIDE:モデルベースメタラーニングによる学習者の学習

MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning ( http://arxiv.org/abs/2304.04668v1 )

ライセンス: Link先を確認
Arundhati Banerjee, Soham Phade, Stefano Ermon, Stephan Zheng(参考訳) 本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。 これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。 さらに、プリンシパルは数発の適応が可能で、介入の回数を最小限にする必要がある。 我々は,学習戦略や報酬機能が異なる分散エージェントに迅速に適応できるプリンシパルをトレーニングするためのモデルベースのメタ学習フレームワークmermaideを紹介する。 このアプローチを段階的に検証する。 まず,最善の応答エージェントを持つstackelberg設定において,実験時に理論的に知られているstackelberg平衡への迅速な収束がメタラーニングによって可能となることを示した。 次に,我々のモデルに基づくメタラーニングアプローチが,未熟な探索・探索戦略とバンディットエージェントとの相互作用に費用対効果があることを示す。 最後に、メタラーニングまたはエージェントの振る舞いモデリングを使用するベースラインを、部分的なエージェント情報を含む$0$shotと$k=1$$-shot設定の両方で上回っています。

We study how a principal can efficiently and effectively intervene on the rewards of a previously unseen learning agent in order to induce desirable outcomes. This is relevant to many real-world settings like auctions or taxation, where the principal may not know the learning behavior nor the rewards of real people. Moreover, the principal should be few-shot adaptable and minimize the number of interventions, because interventions are often costly. We introduce MERMAIDE, a model-based meta-learning framework to train a principal that can quickly adapt to out-of-distribution agents with different learning strategies and reward functions. We validate this approach step-by-step. First, in a Stackelberg setting with a best-response agent, we show that meta-learning enables quick convergence to the theoretically known Stackelberg equilibrium at test time, although noisy observations severely increase the sample complexity. We then show that our model-based meta-learning approach is cost-effective in intervening on bandit agents with unseen explore-exploit strategies. Finally, we outperform baselines that use either meta-learning or agent behavior modeling, in both $0$-shot and $K=1$-shot settings with partial agent information.
翻訳日:2023-04-11 14:34:24 公開日:2023-04-10
# 変動量子ノイズとの戦い:ロバスト量子ニューラルネットワークを実現する圧縮支援フレームワーク

Battle Against Fluctuating Quantum Noise: Compression-Aided Framework to Enable Robust Quantum Neural Network ( http://arxiv.org/abs/2304.04666v1 )

ライセンス: Link先を確認
Zhirui Hu, Youzuo Lin, Qiang Guan, Weiwen Jiang(参考訳) 近年,超伝導量子コンピュータのスケールアップが注目されているが,量子ビット(量子ビット)のノイズは,量子コンピューティングのパワーを活用する現実のアプリケーションにとって依然として障害となっている。 量子アプリケーションにはエラー緩和やエラーアウェア設計が存在するが、ノイズ(すなわち不安定性)の固有のゆらぎは、エラーアウェア設計のパフォーマンスを損なう可能性がある。 さらに悪いことに、ユーザはノイズの変化によるパフォーマンスの低下を認識できないのです。 両問題に対処するため、本論文では量子ニューラルネットワーク(QNN)を用いて、量子ノイズの変動にトレーニングされたQNNを適用する新しい圧縮支援フレームワークQuCADを提案する。 さらに、過去の校正(ノイズ)データにより、当社のフレームワークはオフラインでモデルリポジトリを構築し、オンライン適応プロセスにおける最適化時間を著しく短縮する。 地震検出データセットのエミュレーションの結果から,QuCADは146日で14.91%の精度向上を達成できることがわかった。 7量子ビットのIBM量子プロセッサ上で実行するために、IBM-Jakartaでは、QuCADは一貫して地震検出において12.52%の精度向上を達成することができる。

Recently, we have been witnessing the scale-up of superconducting quantum computers; however, the noise of quantum bits (qubits) is still an obstacle for real-world applications to leveraging the power of quantum computing. Although there exist error mitigation or error-aware designs for quantum applications, the inherent fluctuation of noise (a.k.a., instability) can easily collapse the performance of error-aware designs. What's worse, users can even not be aware of the performance degradation caused by the change in noise. To address both issues, in this paper we use Quantum Neural Network (QNN) as a vehicle to present a novel compression-aided framework, namely QuCAD, which will adapt a trained QNN to fluctuating quantum noise. In addition, with the historical calibration (noise) data, our framework will build a model repository offline, which will significantly reduce the optimization time in the online adaption process. Emulation results on an earthquake detection dataset show that QuCAD can achieve 14.91% accuracy gain on average in 146 days over a noise-aware training approach. For the execution on a 7-qubit IBM quantum processor, IBM-Jakarta, QuCAD can consistently achieve 12.52% accuracy gain on earthquake detection.
翻訳日:2023-04-11 14:34:02 公開日:2023-04-10
# SELFormer:SELFIES言語モデルによる分子表現学習

SELFormer: Molecular Representation Learning via SELFIES Language Models ( http://arxiv.org/abs/2304.04662v1 )

ライセンス: Link先を確認
Atakan Y\"uksel, Erva Ulusoy, Atabey \"Unl\"u, Gamze Deniz, Tunca Do\u{g}an(参考訳) 広大な化学空間の自動計算解析は、創薬や物質科学などの多くの研究分野において重要である。 近年,複雑なデータのコンパクトかつ情報的な数値表現を生成するために,表現学習技術が採用されている。 分子表現を効率的に学習する一つのアプローチは、自然言語処理(nlp)アルゴリズムによる文字列に基づく化学物質の表記法である。 この目的のために提案した手法の多くはSMILES表記を用いるが、SMILESは妥当性とロバスト性に関連する多くの問題と関連付けられており、モデルがデータに隠された知識を効果的に発見するのを防ぐことができる。 本研究では,100%有効でコンパクトで表現力に富んだセルフィーを入力として使用し,柔軟で高品質な分子表現を学習する,トランスフォーマアーキテクチャに基づく化学言語モデルであるselformerを提案する。 SELFormerは200万の薬物類似化合物で事前訓練され、様々な分子特性予測タスクのために微調整されている。 SELFormerは, グラフ学習に基づくアプローチやSMILESに基づく化学言語モデル, 分子の水溶性, 薬物反応の予測など, 競合するすべての手法より優れていた。 また,SELFormerで学習した分子表現を次元還元により可視化し,事前学習モデルでも異なる構造特性を持つ分子を識別できることを示した。 私たちはSELFormerを、そのデータセットと事前トレーニングされたモデルとともに、プログラムツールとして共有しました。 全体としては,化学言語モデリングの文脈でセルフィー表記を使うことの利点を実証し,望ましい機能を持つ新規薬物候補の設計と発見の新たな可能性を開く。

Automated computational analysis of the vast chemical space is critical for numerous fields of research such as drug discovery and material science. Representation learning techniques have recently been employed with the primary objective of generating compact and informative numerical expressions of complex data. One approach to efficiently learn molecular representations is processing string-based notations of chemicals via natural language processing (NLP) algorithms. Majority of the methods proposed so far utilize SMILES notations for this purpose; however, SMILES is associated with numerous problems related to validity and robustness, which may prevent the model from effectively uncovering the knowledge hidden in the data. In this study, we propose SELFormer, a transformer architecture-based chemical language model that utilizes a 100% valid, compact and expressive notation, SELFIES, as input, in order to learn flexible and high-quality molecular representations. SELFormer is pre-trained on two million drug-like compounds and fine-tuned for diverse molecular property prediction tasks. Our performance evaluation has revealed that, SELFormer outperforms all competing methods, including graph learning-based approaches and SMILES-based chemical language models, on predicting aqueous solubility of molecules and adverse drug reactions. We also visualized molecular representations learned by SELFormer via dimensionality reduction, which indicated that even the pre-trained model can discriminate molecules with differing structural properties. We shared SELFormer as a programmatic tool, together with its datasets and pre-trained models. Overall, our research demonstrates the benefit of using the SELFIES notations in the context of chemical language modeling and opens up new possibilities for the design and discovery of novel drug candidates with desired features.
翻訳日:2023-04-11 14:33:09 公開日:2023-04-10
# AI for IT Operations (AIOps) on Cloud Platforms: レビュー、機会、課題

AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities and Challenges ( http://arxiv.org/abs/2304.04661v1 )

ライセンス: Link先を確認
Qian Cheng, Doyen Sahoo, Amrita Saha, Wenzhuo Yang, Chenghao Liu, Gerald Woo, Manpreet Singh, Silvio Saverese, Steven C. H. Hoi(参考訳) IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセス、特にクラウドインフラストラクチャで生成されたビッグデータを組み合わせることを目的としており、可用性を最大化する主な目標として実行可能な洞察を提供する。 対処すべきさまざまな問題と、運用効率を高めるためにAI機能を活用可能な複数のユースケースがあります。 ここでは、AIOpsのビジョン、トレンドの課題、機会、特に基盤となるAI技術についてレビューする。 我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。 主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。 各タスクの課題定式化について議論し,これらの問題を解決するための手法の分類法を提案する。 また、調査対象のトピック、特にAI文学の進歩から大きな恩恵を受ける可能性のあるトピックも特定しています。 また、この分野のトレンドや重要な投資機会についての洞察も提供します。

Artificial Intelligence for IT operations (AIOps) aims to combine the power of AI with the big data generated by IT Operations processes, particularly in cloud infrastructures, to provide actionable insights with the primary goal of maximizing availability. There are a wide variety of problems to address, and multiple use-cases, where AI capabilities can be leveraged to enhance operational efficiency. Here we provide a review of the AIOps vision, trends challenges and opportunities, specifically focusing on the underlying AI techniques. We discuss in depth the key types of data emitted by IT Operations activities, the scale and challenges in analyzing them, and where they can be helpful. We categorize the key AIOps tasks as - incident detection, failure prediction, root cause analysis and automated actions. We discuss the problem formulation for each task, and then present a taxonomy of techniques to solve these problems. We also identify relatively under explored topics, especially those that could significantly benefit from advances in AI literature. We also provide insights into the trends in this field, and what are the key investment opportunities.
翻訳日:2023-04-11 14:32:41 公開日:2023-04-10
# モデルベースオフライン強化学習のための不確実性駆動軌道切断法

Uncertainty-driven Trajectory Truncation for Model-based Offline Reinforcement Learning ( http://arxiv.org/abs/2304.04660v1 )

ライセンス: Link先を確認
Junjie Zhang, Jiafei Lyu, Xiaoteng Ma, Jiangpeng Yan, Jun Yang, Le Wan, Xiu Li(参考訳) トレーニングされた環境ダイナミクスを備えたモデルベースオフライン強化学習(RL)アルゴリズムは、品質の低いデータセットでさえも、固定サイズのデータセットから優れたポリシをうまく学習することができる。 しかし残念ながら、トレーニングされたダイナミクスモデルから生成されたサンプルが信頼できることは保証できない(例えば、いくつかの合成サンプルは静的データセットの支持領域の外側にあるかもしれない)。 この問題に対処するため, 軌道に沿って蓄積された不確かさが大きすぎる場合, 合成軌道を適応的に切断するトラジェクトリトラニケーション (TATU) を提案する。 理論的には、TATUの性能境界を示し、その利点を正当化する。 TATUの利点を実証的に示すために、まず2つの古典的モデルベースオフラインRLアルゴリズム、MOPOとCOMBOを組み合わせる。 さらに、TATUを市販のモデルなしオフラインRLアルゴリズム、例えばBCQと統合する。 D4RLベンチマーク実験の結果、TATUは性能を著しく改善し、しばしば大きなマージンで改善した。

Equipped with the trained environmental dynamics, model-based offline reinforcement learning (RL) algorithms can often successfully learn good policies from fixed-sized datasets, even some datasets with poor quality. Unfortunately, however, it can not be guaranteed that the generated samples from the trained dynamics model are reliable (e.g., some synthetic samples may lie outside of the support region of the static dataset). To address this issue, we propose Trajectory Truncation with Uncertainty (TATU), which adaptively truncates the synthetic trajectory if the accumulated uncertainty along the trajectory is too large. We theoretically show the performance bound of TATU to justify its benefits. To empirically show the advantages of TATU, we first combine it with two classical model-based offline RL algorithms, MOPO and COMBO. Furthermore, we integrate TATU with several off-the-shelf model-free offline RL algorithms, e.g., BCQ. Experimental results on the D4RL benchmark show that TATU significantly improves their performance, often by a large margin.
翻訳日:2023-04-11 14:32:23 公開日:2023-04-10
# エルゴード反復の強い安定性について

On the strong stability of ergodic iterations ( http://arxiv.org/abs/2304.04657v1 )

ライセンス: Link先を確認
L\'aszl\'o Gy\"orfi, Attila Lovas, Mikl\'os R\'asonyi(参考訳) 定常およびエルゴード列によって駆動される反復ランダム関数によって生成される過程を再検討する。 そのような過程は、ランダムな初期化が存在し、その過程が定常でエルゴード的であり、他の初期化に対しては、2つの過程の差はほぼ確実にゼロに収束するときに強く安定と呼ばれる。 対応する再帰写像上のいくつかの穏やかな条件の下では、駆動列の条件がなければ、繰り返しの強い安定性を示す。 確率近似やキューイングなどいくつかの応用が研究されている。 さらに,依存雑音を伴うランジュバン型反復とマルチタイプの分岐過程について新たな結果が得られた。

We revisit processes generated by iterated random functions driven by a stationary and ergodic sequence. Such a process is called strongly stable if a random initialization exists, for which the process is stationary and ergodic, and for any other initialization, the difference of the two processes converges to zero almost surely. Under some mild conditions on the corresponding recursive map, without any condition on the driving sequence, we show the strong stability of iterations. Several applications are surveyed such as stochastic approximation and queuing. Furthermore, new results are deduced for Langevin-type iterations with dependent noise and for multitype branching processes.
翻訳日:2023-04-11 14:32:05 公開日:2023-04-10
# テストデータでトレーニングするのか? ナンバープレート認識における近接デュプリケートの影響

Do We Train on Test Data? The Impact of Near-Duplicates on License Plate Recognition ( http://arxiv.org/abs/2304.04653v1 )

ライセンス: Link先を確認
Rayson Laroca, Valter Estevam, Alceu S. Britto Jr., Rodrigo Minetto, David Menotti(参考訳) この研究は、ライセンスプレート認識(LPR)研究で広く採用されているデータセットのトレーニングとテストセットにおいて、ほとんど重複している部分に注意を向けている。 これらの複製は、異なるものの同じライセンスプレートを示す画像を指す。 私たちの実験は、この分野で最も人気のある2つのデータセットで行われ、6つのよく知られたモデルがフェアスプリットの下でトレーニングされテストされた場合、認識率が大幅に低下することを示しています。 さらに、データセットの1つでは、モデルのランクが、重複のない分割の下でトレーニングおよびテストされた時に大きく変化した。 これらの重複は,LPRの深層学習モデルの評価と開発に大きく偏っていることが示唆された。 我々が見つけたほぼ重複点のリストと公平な分割の提案は、https://raysonlaroca.github.io/supp/lpr-train-on-test/でさらなる研究のために公開されている。

This work draws attention to the large fraction of near-duplicates in the training and test sets of datasets widely adopted in License Plate Recognition (LPR) research. These duplicates refer to images that, although different, show the same license plate. Our experiments, conducted on the two most popular datasets in the field, show a substantial decrease in recognition rate when six well-known models are trained and tested under fair splits, that is, in the absence of duplicates in the training and test sets. Moreover, in one of the datasets, the ranking of models changed considerably when they were trained and tested under duplicate-free splits. These findings suggest that such duplicates have significantly biased the evaluation and development of deep learning-based models for LPR. The list of near-duplicates we have found and proposals for fair splits are publicly available for further research at https://raysonlaroca.github.io/supp/lpr-train-on-test/
翻訳日:2023-04-11 14:31:54 公開日:2023-04-10
# 連続学習に基づく総合的心電図解釈法ECG-CL

ECG-CL: A Comprehensive Electrocardiogram Interpretation Method Based on Continual Learning ( http://arxiv.org/abs/2304.04646v1 )

ライセンス: Link先を確認
Hongxiang Gao, Xingyao Wang, Zhenghua Chen, Min Wu, Jianqing Li and Chengyu Liu(参考訳) 心電図(ecg)モニタリングは、心血管疾患(cvd)早期診断の最も強力な技術の一つであり、インテリジェントなウェアラブルecgデバイスの導入は、毎日のモニタリングを可能にした。 しかし、ECGの解釈に専門的な専門知識が必要であったため、公衆のアクセスは再び制限され、高度な診断アルゴリズムの開発が必要になった。 従来のルールベースのアルゴリズムは、ディープラーニングベースの手法で完全に勝っている。 しかし、スマート診断アルゴリズムの進歩は、小さなデータセット、一貫性のないデータラベリング、ローカルおよびグローバルECG情報の非効率使用、複数のモデルのデプロイに要するメモリと推論時間、タスク間の情報転送の欠如といった問題によって妨げられている。 本研究では,局所形態情報とグローバルリズム情報の両方を活用し,低分解能高レベル意味情報の開発に資する,高分解能低レベル意味情報を維持するマルチレゾリューションモデルを提案する。 効果的なデータレバレッジとタスク間知識伝達の観点から,パラメータ分離に基づくECG連続学習(ECG-CL)アプローチを開発する。 クロスドメインインクリメンタルラーニングのためのセグメンテーションからクラス化、カテゴリインクリメンタルラーニングのためのマイノリティ・ツー・メジャー、タスクインクリメンタルラーニングのための小規模から大規模のサンプル、という4つのオープンアクセスデータセットにおけるモデルの性能を評価した。 本手法は,ECGセグメンテーションから情報的形態的・リズム的特徴を抽出し,より高品質な分類結果を得る。 インテリジェントなウェアラブルアプリケーションの観点からは、単一リードECGに基づく包括的なECG解釈アルゴリズムの可能性も確認されている。

Electrocardiogram (ECG) monitoring is one of the most powerful technique of cardiovascular disease (CVD) early identification, and the introduction of intelligent wearable ECG devices has enabled daily monitoring. However, due to the need for professional expertise in the ECGs interpretation, general public access has once again been restricted, prompting the need for the development of advanced diagnostic algorithms. Classic rule-based algorithms are now completely outperformed by deep learning based methods. But the advancement of smart diagnostic algorithms is hampered by issues like small dataset, inconsistent data labeling, inefficient use of local and global ECG information, memory and inference time consuming deployment of multiple models, and lack of information transfer between tasks. We propose a multi-resolution model that can sustain high-resolution low-level semantic information throughout, with the help of the development of low-resolution high-level semantic information, by capitalizing on both local morphological information and global rhythm information. From the perspective of effective data leverage and inter-task knowledge transfer, we develop a parameter isolation based ECG continual learning (ECG-CL) approach. We evaluated our model's performance on four open-access datasets by designing segmentation-to-classification for cross-domain incremental learning, minority-to-majority class for category incremental learning, and small-to-large sample for task incremental learning. Our approach is shown to successfully extract informative morphological and rhythmic features from ECG segmentation, leading to higher quality classification results. From the perspective of intelligent wearable applications, the possibility of a comprehensive ECG interpretation algorithm based on single-lead ECGs is also confirmed.
翻訳日:2023-04-11 14:31:39 公開日:2023-04-10
# フェデレートPAC学習

Federated PAC Learning ( http://arxiv.org/abs/2304.04641v1 )

ライセンス: Link先を確認
Xiaojin Zhang, Anbu Huang, Lixin Fan, Kai Chen, Qiang Yang(参考訳) Federated Learning(FL)は、プライバシ、ユーティリティ、効率性を主柱とする、新たな分散学習パラダイムである。 既存の研究は、無限小のプライバシー漏洩、ユーティリティ損失、効率性を同時に達成することは不可能であることを示している。 したがって、FLアルゴリズムを設計する際、最適なトレードオフソリューションを見つける方法が重要な考慮事項である。 共通の方法は、トレードオフ問題を多目的最適化問題として、すなわち、予め定義された値を超えないプライバシー漏洩を抑えながら、ユーティリティ損失と効率の低下を最小限にすることである。 しかし、既存の多目的最適化フレームワークは非常に時間がかかり、パレートフロンティアの存在を保証していないため、より効率的で容易に解決できるため、多目的問題を単一目的に変換する解決策を模索する動機となっている。 そこで本研究では,pac学習を活用し,サンプル複雑性の観点から複数の目的を定量化するための統一フレームワークであるfeedpacを提案する。この定量化により,複数の目的の解空間を共有次元に制約することが可能となり,単一目的最適化アルゴリズムの助けを借りて解くことができる。 具体的には,pac学習の観点から,ユーティリティ損失,プライバシリーク,プライバシ利用効率トレードオフ,攻撃者のコストの定量化に関する結果と詳細な分析を行う。

Federated learning (FL) is a new distributed learning paradigm, with privacy, utility, and efficiency as its primary pillars. Existing research indicates that it is unlikely to simultaneously attain infinitesimal privacy leakage, utility loss, and efficiency. Therefore, how to find an optimal trade-off solution is the key consideration when designing the FL algorithm. One common way is to cast the trade-off problem as a multi-objective optimization problem, i.e., the goal is to minimize the utility loss and efficiency reduction while constraining the privacy leakage not exceeding a predefined value. However, existing multi-objective optimization frameworks are very time-consuming, and do not guarantee the existence of the Pareto frontier, this motivates us to seek a solution to transform the multi-objective problem into a single-objective problem because it is more efficient and easier to be solved. To this end, in this paper, we propose FedPAC, a unified framework that leverages PAC learning to quantify multiple objectives in terms of sample complexity, such quantification allows us to constrain the solution space of multiple objectives to a shared dimension, so that it can be solved with the help of a single-objective optimization algorithm. Specifically, we provide the results and detailed analyses of how to quantify the utility loss, privacy leakage, privacy-utility-efficiency trade-off, as well as the cost of the attacker from the PAC learning perspective.
翻訳日:2023-04-11 14:31:07 公開日:2023-04-10
# オンライン教師なし時系列予測のための脳インスパイクスパイクニューラルネットワーク

Brain-Inspired Spiking Neural Network for Online Unsupervised Time Series Prediction ( http://arxiv.org/abs/2304.04697v1 )

ライセンス: Link先を確認
Biswadeep Chakraborty, Saibal Mukhopadhyay(参考訳) 進化する動的システムを予測するためのエネルギーとデータ効率のオンライン時系列予測は、いくつかの分野、特にストリーミングデータに基づいて継続的に更新する必要があるエッジAIアプリケーションにおいて重要である。 しかし、現在のDNNベースの教師付きオンライン学習モデルでは、大量のトレーニングデータが必要であり、基礎となるシステムが変化しても迅速に適応できない。 さらに、これらのモデルは、入ってくるデータと連続的なリトレーニングを必要とし、非常に非効率である。 これらの問題を解決するために, スパイクタイミング依存型可塑性(STDP)を訓練した, 連続学習に基づく教師なしリカレントスパイクニューラルネットワークモデル(CLURSNN)を提案する。 CLURSNNは、RSNNのリカレント層におけるニューロンの膜電位を最大間隔で測定することで、ランダム遅延埋め込みを用いて基礎となる力学系を再構築することで、オンライン予測を行う。 また、トポロジカルデータ解析を用いて、予測された時系列と観測された時系列の永続ホモロジー間のワッサーシュタイン距離を損失関数として用いた新しい手法を提案する。 提案手法は,進化するロレンツ63力学系を予測する際に,最先端のDNNモデルよりも優れていることを示す。

Energy and data-efficient online time series prediction for predicting evolving dynamical systems are critical in several fields, especially edge AI applications that need to update continuously based on streaming data. However, current DNN-based supervised online learning models require a large amount of training data and cannot quickly adapt when the underlying system changes. Moreover, these models require continuous retraining with incoming data making them highly inefficient. To solve these issues, we present a novel Continuous Learning-based Unsupervised Recurrent Spiking Neural Network Model (CLURSNN), trained with spike timing dependent plasticity (STDP). CLURSNN makes online predictions by reconstructing the underlying dynamical system using Random Delay Embedding by measuring the membrane potential of neurons in the recurrent layer of the RSNN with the highest betweenness centrality. We also use topological data analysis to propose a novel methodology using the Wasserstein Distance between the persistence homologies of the predicted and observed time series as a loss function. We show that the proposed online time series prediction methodology outperforms state-of-the-art DNN models when predicting an evolving Lorenz63 dynamical system.
翻訳日:2023-04-11 14:24:20 公開日:2023-04-10
# Video-kMaX:オンラインおよびニアオンラインビデオパノプティクスセグメンテーションのためのシンプルな統一アプローチ

Video-kMaX: A Simple Unified Approach for Online and Near-Online Video Panoptic Segmentation ( http://arxiv.org/abs/2304.04694v1 )

ライセンス: Link先を確認
Inkyu Shin, Dahun Kim, Qihang Yu, Jun Xie, Hong-Seok Kim, Bradley Green, In So Kweon, Kuk-Jin Yoon, Liang-Chieh Chen(参考訳) ビデオパノプティカル・セグメンテーション(VPS)は、全ピクセルをセグメント化し、ビデオ内のオブジェクトを関連付けることで、包括的なピクセルレベルのシーン理解を実現することを目的としている。 現在のソリューションは、オンラインとほぼオンラインのアプローチに分類できる。 時間とともに進化する各カテゴリは独自の特殊設計を持ち、異なるカテゴリ間のモデルを適応させることは簡単ではない。 そこで本研究では,オンラインおよびオンラインに近いVPSに対して統一的なアプローチを提案する。 提案するビデオkmaxのメタアーキテクチャは,クリップセグメンタ内(クリップレベルのセグメンテーション),クロスクリップアソシエータ(クリップ以外のアソシエータ)という2つのコンポーネントで構成されている。 分割器とアソシエータをそれぞれインスタンス化するために,Click-kMaX (clip k-means mask transformer) と HiLA-MB (hierarchical Location-Aware Memory Buffer) を提案する。 当社の一般的な定式化には,クリップ長を1にすることで,特別なケースとしてオンラインシナリオを含める。 ベルとホイッスルがなければ、video-kmaxはkitti-stepとvipsegでビデオのパオプティカルセグメンテーション、vspwでビデオのセマンティクスセグメンテーションを新たに設定する。 コードは公開される予定だ。

Video Panoptic Segmentation (VPS) aims to achieve comprehensive pixel-level scene understanding by segmenting all pixels and associating objects in a video. Current solutions can be categorized into online and near-online approaches. Evolving over the time, each category has its own specialized designs, making it nontrivial to adapt models between different categories. To alleviate the discrepancy, in this work, we propose a unified approach for online and near-online VPS. The meta architecture of the proposed Video-kMaX consists of two components: within clip segmenter (for clip-level segmentation) and cross-clip associater (for association beyond clips). We propose clip-kMaX (clip k-means mask transformer) and HiLA-MB (Hierarchical Location-Aware Memory Buffer) to instantiate the segmenter and associater, respectively. Our general formulation includes the online scenario as a special case by adopting clip length of one. Without bells and whistles, Video-kMaX sets a new state-of-the-art on KITTI-STEP and VIPSeg for video panoptic segmentation, and VSPW for video semantic segmentation. Code will be made publicly available.
翻訳日:2023-04-11 14:24:01 公開日:2023-04-10
# マルチビューデータ統合と予測のためのスケーラブルランダム化カーネル法

Scalable Randomized Kernel Methods for Multiview Data Integration and Prediction ( http://arxiv.org/abs/2304.04692v1 )

ライセンス: Link先を確認
Sandra E. Safo and Han Lu(参考訳) 複数のソースからのデータを協調的に関連づけるスケーラブルなランダム化カーネル手法を開発し、同時に結果を予測するか、ユニットを2つ以上のクラスに分類する。 提案手法は,多視点データにおける非線形関係を,臨床結果の予測とともにモデル化し,ビュー間の関係に最も寄与する変数や変数群を同定する。 ランダムなフーリエ基底はシフト不変カーネル関数を近似して各ビューの非線形写像を構成することができ、これらの写像と結果変数を用いてビュー非依存の低次元表現を学習する。 シミュレーション研究により,提案手法は,他の線形・非線形手法よりも多視点データ統合に優れることを示した。 提案手法がcovid-19関連遺伝子発現,メタボロミクス,プロテオミクス,および脂質代謝データに適用されたとき,いくつかの分子シグネチャがcovid-19状態と重症度を示すことが判明した。 実データアプリケーションおよびサンプルサイズが小さいシミュレーションの結果から,提案手法がサンプルサイズ問題に有用である可能性が示唆された。 可用性: 私たちのアルゴリズムはPytorchで実装され、Rでインターフェースされています。

We develop scalable randomized kernel methods for jointly associating data from multiple sources and simultaneously predicting an outcome or classifying a unit into one of two or more classes. The proposed methods model nonlinear relationships in multiview data together with predicting a clinical outcome and are capable of identifying variables or groups of variables that best contribute to the relationships among the views. We use the idea that random Fourier bases can approximate shift-invariant kernel functions to construct nonlinear mappings of each view and we use these mappings and the outcome variable to learn view-independent low-dimensional representations. Through simulation studies, we show that the proposed methods outperform several other linear and nonlinear methods for multiview data integration. When the proposed methods were applied to gene expression, metabolomics, proteomics, and lipidomics data pertaining to COVID-19, we identified several molecular signatures forCOVID-19 status and severity. Results from our real data application and simulations with small sample sizes suggest that the proposed methods may be useful for small sample size problems. Availability: Our algorithms are implemented in Pytorch and interfaced in R and would be made available at: https://github.com/lasandrall/RandMVLearn.
翻訳日:2023-04-11 14:23:33 公開日:2023-04-10
# ゼロショット時空間行動検出のための対話型プロンプト

Interaction-Aware Prompting for Zero-Shot Spatio-Temporal Action Detection ( http://arxiv.org/abs/2304.04688v1 )

ライセンス: Link先を確認
Wei-Jhe Huang, Jheng-Hsien Yeh, Gueter Josmy Faure, Min-Hung Chen, Shang-Hong Lai(参考訳) 空間的-時間的行動検出の目標は、ビデオ内で各人の行動が起こる時間と場所を決定し、対応する行動カテゴリを分類することである。 既存の手法の多くは、大量のトレーニングデータを必要とする完全教師付き学習を採用しており、ゼロショット学習を実現するのは非常に困難である。 本稿では,訓練済みの視覚言語モデルを用いて代表的画像とテキストの特徴を抽出し,それらの特徴の相互作用モジュール間の関係をモデル化してインタラクション特徴を得る。 さらに、この機能を使って各ラベルにより適切なテキスト機能を得るよう促す。 最後に、各ラベルのインタラクション特徴とテキスト特徴との類似度を算出し、アクションカテゴリを決定する。 j-hmdb と ucf101-24 データセットを用いた実験により,提案するインタラクションモジュールと視覚機能の整合性が向上し,ゼロショット時空間動作検出に優れた精度が得られた。 コードは受理後にリリースされます。

The goal of spatial-temporal action detection is to determine the time and place where each person's action occurs in a video and classify the corresponding action category. Most of the existing methods adopt fully-supervised learning, which requires a large amount of training data, making it very difficult to achieve zero-shot learning. In this paper, we propose to utilize a pre-trained visual-language model to extract the representative image and text features, and model the relationship between these features through different interaction modules to obtain the interaction feature. In addition, we use this feature to prompt each label to obtain more appropriate text features. Finally, we calculate the similarity between the interaction feature and the text feature for each label to determine the action category. Our experiments on J-HMDB and UCF101-24 datasets demonstrate that the proposed interaction module and prompting make the visual-language features better aligned, thus achieving excellent accuracy for zero-shot spatio-temporal action detection. The code will be released upon acceptance.
翻訳日:2023-04-11 14:23:11 公開日:2023-04-10
# クラッタテーブル上での触覚検出の学習

Learning to Detect Touches on Cluttered Tables ( http://arxiv.org/abs/2304.04687v1 )

ライセンス: Link先を確認
Norberto Adrian Goussies, Kenji Hata, Shruthi Prabhakara, Abhishek Amit, Tony Aube, Carl Cepress, Diana Chang, Li-Te Cheng, Horia Stefan Ciurdar, Mike Cleron, Chelsey Fleming, Ashwin Ganti, Divyansh Garg, Niloofar Gheissari, Petra Luna Grutzik, David Hendon, Daniel Iglesia, Jin Kim, Stuart Kyle, Chris LaRosa, Roman Lewkow, Peter F McDermott, Chris Melancon, Paru Nackeeran, Neal Norwitz, Ali Rahimi, Brett Rampata, Carlos Sobrinho, George Sung, Natalie Zauhar, Palash Nandy(参考訳) 本稿では,デジタルインテリジェンスをテーブルにもたらすランプフォームファクターを備えた,自己完結型カメラプロジェクタテーブルトップシステムを提案する。 テーブルトップをインタラクティブにするためのリアルタイム,オンデバイス,学習ベースのタッチ検出アルゴリズムを提案する。 トップダウン設定と学習に基づくアルゴリズムは,既存のカメラプロジェクタテーブルトップシステムの主要な制限であるclutterの存在に頑健である。 我々の研究プロトタイプは、テーブル上の手操作とオブジェクトを組み合わせた一連の体験を可能にします。 ビデオはhttps://youtu.be/hElC_c25Fg8で見ることができる。

We present a novel self-contained camera-projector tabletop system with a lamp form-factor that brings digital intelligence to our tables. We propose a real-time, on-device, learning-based touch detection algorithm that makes any tabletop interactive. The top-down configuration and learning-based algorithm makes our method robust to the presence of clutter, a main limitation of existing camera-projector tabletop systems. Our research prototype enables a set of experiences that combine hand interactions and objects present on the table. A video can be found at https://youtu.be/hElC_c25Fg8.
翻訳日:2023-04-11 14:22:52 公開日:2023-04-10
# FairPilot: フェアネスレンズによるハイパーパラメータチューニングのための探索システム

FairPilot: An Explorative System for Hyperparameter Tuning through the Lens of Fairness ( http://arxiv.org/abs/2304.04679v1 )

ライセンス: Link先を確認
Francesco Di Carlo, Nazanin Nezami, Hadis Anahideh, Abolfazl Asudeh(参考訳) リスクの高い意思決定ドメインにおける機械学習(ML)の潜在的なメリットにもかかわらず、MLのデプロイは実践者にとってアクセスできないため、差別のリスクがある。 このような領域におけるMLの信頼と受容を確立するためには、MLツールの民主化と公平性の考慮が不可欠である。 本稿では、さまざまなモデル、異なるハイパーパラメータ、幅広いフェアネス定義の組み合わせを探索することにより、MLモデルの責任ある開発を促進するためのインタラクティブシステムであるFairPilotを紹介する。 本研究では,<best>MLモデルを選択する上での課題を強調し,FairPilotが評価基準のセットを選択し,モデルとハイパーパラメータのParetoフロンティアをインタラクティブマップとして表示する。 FairPilotは、これらの機能を結合した最初のシステムであり、ユーザが自分のモデルを責任を持って選択するユニークな機会を提供する。

Despite the potential benefits of machine learning (ML) in high-risk decision-making domains, the deployment of ML is not accessible to practitioners, and there is a risk of discrimination. To establish trust and acceptance of ML in such domains, democratizing ML tools and fairness consideration are crucial. In this paper, we introduce FairPilot, an interactive system designed to promote the responsible development of ML models by exploring a combination of various models, different hyperparameters, and a wide range of fairness definitions. We emphasize the challenge of selecting the ``best" ML model and demonstrate how FairPilot allows users to select a set of evaluation criteria and then displays the Pareto frontier of models and hyperparameters as an interactive map. FairPilot is the first system to combine these features, offering a unique opportunity for users to responsibly choose their model.
翻訳日:2023-04-11 14:22:43 公開日:2023-04-10
# 人工知能/操作研究ワークショップ2報告

Artificial Intelligence/Operations Research Workshop 2 Report Out ( http://arxiv.org/abs/2304.04677v1 )

ライセンス: Link先を確認
John Dickerson, Bistra Dilkina, Yu Ding, Swati Gupta, Pascal Van Hentenryck, Sven Koenig, Ramayya Krishnan, Radhika Kulkarni, Catherine Gill, Haley Griffin, Maddy Hunter, Ann Schwartz(参考訳) このワークショップは、信頼できるAIとOR技術の基本的な要素と、すべてのAIとORシステムがシステム設計にこれらの要素を実装する方法に焦点を当てている。 信頼に値するAIのさまざまなトピックに関する4つのセッションが開催され、それらはフェアネス、説明可能なAI/因果性、ロバストネス/プライオリティ、ヒューマンアライメントとヒューマンコンピュータインタラクションである。 これらのトピックの議論に続いて、ワークショップ参加者は、AIとOR研究者の協力を必要とし、最終的には社会的ニーズに利益をもたらすため、両方の分野から基本的な技術を統合するという課題もブレインストーミングした。

This workshop Report Out focuses on the foundational elements of trustworthy AI and OR technology, and how to ensure all AI and OR systems implement these elements in their system designs. Four sessions on various topics within Trustworthy AI were held, these being Fairness, Explainable AI/Causality, Robustness/Privacy, and Human Alignment and Human-Computer Interaction. Following discussions of each of these topics, workshop participants also brainstormed challenge problems which require the collaboration of AI and OR researchers and will result in the integration of basic techniques from both fields to eventually benefit societal needs.
翻訳日:2023-04-11 14:22:27 公開日:2023-04-10
# 大規模言語モデルを用いた多言語機械翻訳:実験結果と分析

Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis ( http://arxiv.org/abs/2304.04675v1 )

ライセンス: Link先を確認
Wenhao Zhu, Hongyi Liu, Qingxiu Dong, Jingjing Xu, Lingpeng Kong, Jiajun Chen, Lei Li, Shujian Huang(参考訳) 大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示している。 本稿では, MMT における LLM の利点と課題を, 2 つの質問に答えて体系的に検討する。 1) 大量の言語を翻訳する上で,LLMはどの程度機能するのか? 2)翻訳におけるLLMの性能に影響を及ぼす要因は何か? 我々は102言語でXGLM, OPT, BLOOMZ, ChatGPTなどの人気のあるLLMを評価した。 実験の結果、最高のモデルであるchatgptでさえ、83.33%の翻訳方向で教師付きベースラインnllbよりも遅れていることがわかった。 さらなる分析により,LSMはMTに使用する場合,新たな作業パターンを示すことがわかった。 第一に、プロンプトのセマンティクスは、コンテキスト内exemplarsが与えられたとき、驚くほど無視され、llmは、不合理なプロンプトでも強力なパフォーマンスを示す。 第2に、言語横断の例題は、同じ言語対の例題よりも、低リソース翻訳のための優れたタスク命令を提供することができる。 第3に、データセットFlores-101上でのBLOOMZの過大評価性能を観察し、パブリックデータセットを評価に用いる場合の潜在的なリスクを示す。

Large language models (LLMs) have demonstrated remarkable potential in handling multilingual machine translation (MMT). In this paper, we systematically investigate the advantages and challenges of LLMs for MMT by answering two questions: 1) How well do LLMs perform in translating a massive number of languages? 2) Which factors affect LLMs' performance in translation? We evaluate popular LLMs, including XGLM, OPT, BLOOMZ, and ChatGPT, on 102 languages. Our empirical results show that even the best model ChatGPT still lags behind the supervised baseline NLLB in 83.33% of translation directions. Through further analysis, we discover that LLMs exhibit new working patterns when used for MMT. First, prompt semantics can surprisingly be ignored when given in-context exemplars, where LLMs still show strong performance even with unreasonable prompts. Second, cross-lingual exemplars can provide better task instruction for low-resource translation than exemplars in the same language pairs. Third, we observe the overestimated performance of BLOOMZ on dataset Flores-101, indicating the potential risk when using public datasets for evaluation.
翻訳日:2023-04-11 14:22:16 公開日:2023-04-10
# 地域深部萎縮症 : 縦型mriからアルツハイマー病進展部位の自動同定のための自己教師あり学習法

Regional Deep Atrophy: a Self-Supervised Learning Method to Automatically Identify Regions Associated With Alzheimer's Disease Progression From Longitudinal MRI ( http://arxiv.org/abs/2304.04673v1 )

ライセンス: Link先を確認
Mengjin Dong, Long Xie, Sandhitsu R. Das, Jiancong Wang, Laura E.M. Wisse, Robin deFlores, David A. Wolk, Paul A. Yushkevich (for the Alzheimer's Disease Neuroimaging Initiative)(参考訳) 特に海馬における脳萎縮の経時的評価は、アルツハイマー病(AD)のような神経変性疾患のバイオマーカーとしてよく研究されている。 臨床試験では、疾患修正治療の治療効果を追跡するために、脳の進行率を推定することができる。 しかし、ほとんどの最先端測定は、MRI画像のセグメント化や変形可能な登録によって直接変化を計算し、頭の動きやMRIのアーティファクトを神経変性と誤報し、その精度に影響を与える可能性がある。 前報では、畳み込みニューラルネットワークを用いて、時間と関連する縦方向MRIスキャンペア間の差を定量化するディープラーニング手法であるDeepAtrophyを開発した。 DeepAtrophyは、時間的順序や相対的なスキャン間隔などの経時的MRIスキャンから時間的情報を推測する精度が高い。 DeepAtrophyはまた、全体的な萎縮スコアを提供し、疾患の進行と治療効果の潜在的なバイオマーカーとして機能することが示されている。 しかし、DeepAtrophyは解釈不可能であり、MRIの変化が進行測定にどう寄与するかは不明である。 本稿では,deepatrophyからの時間的推論アプローチと変形可能な登録ニューラルネットワークを組み合わせた地域深部萎縮(rda)と,時間的推論に時間的変化が寄与するmri画像の領域を強調する注意機構を提案する。 rdaはdeepatrophyと同様の予測精度を持つが、その追加的な解釈性は臨床現場での使用をより許容し、ad初期の臨床試験で疾患モニタリングのためのより敏感なバイオマーカーをもたらす可能性がある。

Longitudinal assessment of brain atrophy, particularly in the hippocampus, is a well-studied biomarker for neurodegenerative diseases, such as Alzheimer's disease (AD). In clinical trials, estimation of brain progressive rates can be applied to track therapeutic efficacy of disease modifying treatments. However, most state-of-the-art measurements calculate changes directly by segmentation and/or deformable registration of MRI images, and may misreport head motion or MRI artifacts as neurodegeneration, impacting their accuracy. In our previous study, we developed a deep learning method DeepAtrophy that uses a convolutional neural network to quantify differences between longitudinal MRI scan pairs that are associated with time. DeepAtrophy has high accuracy in inferring temporal information from longitudinal MRI scans, such as temporal order or relative inter-scan interval. DeepAtrophy also provides an overall atrophy score that was shown to perform well as a potential biomarker of disease progression and treatment efficacy. However, DeepAtrophy is not interpretable, and it is unclear what changes in the MRI contribute to progression measurements. In this paper, we propose Regional Deep Atrophy (RDA), which combines the temporal inference approach from DeepAtrophy with a deformable registration neural network and attention mechanism that highlights regions in the MRI image where longitudinal changes are contributing to temporal inference. RDA has similar prediction accuracy as DeepAtrophy, but its additional interpretability makes it more acceptable for use in clinical settings, and may lead to more sensitive biomarkers for disease monitoring in clinical trials of early AD.
翻訳日:2023-04-11 14:21:59 公開日:2023-04-10
# Deep Image Matting: 総合的な調査

Deep Image Matting: A Comprehensive Survey ( http://arxiv.org/abs/2304.04672v1 )

ライセンス: Link先を確認
Jizhizi Li, Jing Zhang, Dacheng Tao(参考訳) 画像マッチングとは、自然画像から正確なアルファマットを抽出することであり、画像編集などの下流アプリケーションにおいて重要な役割を果たしている。 不適切な問題にもかかわらず、伝統的な手法は何十年にもわたってそれを解こうとしてきた。 ディープラーニングの出現は、イメージマッティングの分野に革命をもたらし、自動、インタラクティブ、参照画像マッティングなど、複数の新しいテクニックを生み出した。 本稿では,ディープラーニング時代における画像マッチングの最近の進歩を包括的に概観する。 2つの基本的なサブタスク、つまり、アルファマットを予測するためにユーザが定義した入力を含む補助入力ベースのイメージマットリングと、手動の介入なしに結果を生成する自動イメージマットングです。 課題設定やネットワーク構造に応じて,これらの2つのタスクの既存手法を体系的に検討し,その利点と欠点を概説する。 さらに,一般的な画像マッティングデータセットを導入し,代表的なマッティング手法の性能を定量的・質的に評価する。 最後に,画像マッチングの応用について論じ,既存の課題と今後の研究の可能性を明らかにする。 また、https://github.com/jizhizili/matting-surveyでdeep image mattingの迅速な開発を追跡するためのパブリックリポジトリも維持しています。

Image matting refers to extracting precise alpha matte from natural images, and it plays a critical role in various downstream applications, such as image editing. Despite being an ill-posed problem, traditional methods have been trying to solve it for decades. The emergence of deep learning has revolutionized the field of image matting and given birth to multiple new techniques, including automatic, interactive, and referring image matting. This paper presents a comprehensive review of recent advancements in image matting in the era of deep learning. We focus on two fundamental sub-tasks: auxiliary input-based image matting, which involves user-defined input to predict the alpha matte, and automatic image matting, which generates results without any manual intervention. We systematically review the existing methods for these two tasks according to their task settings and network structures and provide a summary of their advantages and disadvantages. Furthermore, we introduce the commonly used image matting datasets and evaluate the performance of representative matting methods both quantitatively and qualitatively. Finally, we discuss relevant applications of image matting and highlight existing challenges and potential opportunities for future research. We also maintain a public repository to track the rapid development of deep image matting at https://github.com/JizhiziLi/matting-survey.
翻訳日:2023-04-11 14:21:28 公開日:2023-04-10
# 確率重み平均化を用いた不確実性を考慮した自然言語推論

Uncertainty-Aware Natural Language Inference with Stochastic Weight Averaging ( http://arxiv.org/abs/2304.04726v1 )

ライセンス: Link先を確認
Aarne Talman, Hande Celikkanat, Sami Virpioja, Markus Heinonen, J\"org Tiedemann(参考訳) 本稿では,自然言語理解(NLU)タスクにおけるStochastic Weight Averaging-Gaussian(SWAG)を用いたベイズ的不確実性モデリングを提案する。 本手法を自然言語推論 (nli) の標準タスクに適用し, 予測精度と人間のアノテーションの不一致との相関性の観点から, 手法の有効性を実証する。 我々は、SWAGにおける不確実性表現は、人間の言語理解にも見られる主観的解釈と自然変化をよりよく反映していると論じる。 その結果、NLUタスクにおいて、しばしば無視されるニューラルネットワークモデリングの側面である不確実性モデリングの重要性が明らかになった。

This paper introduces Bayesian uncertainty modeling using Stochastic Weight Averaging-Gaussian (SWAG) in Natural Language Understanding (NLU) tasks. We apply the approach to standard tasks in natural language inference (NLI) and demonstrate the effectiveness of the method in terms of prediction accuracy and correlation with human annotation disagreements. We argue that the uncertainty representations in SWAG better reflect subjective interpretation and the natural variation that is also present in human language understanding. The results reveal the importance of uncertainty modeling, an often neglected aspect of neural language modeling, in NLU tasks.
翻訳日:2023-04-11 14:15:59 公開日:2023-04-10
# Metropolized Hamiltonian Monte Carloは、Metropolis-adjusted Langevinアルゴリズムよりも確実に優れていますか?

When does Metropolized Hamiltonian Monte Carlo provably outperform Metropolis-adjusted Langevin algorithm? ( http://arxiv.org/abs/2304.04724v1 )

ライセンス: Link先を確認
Yuansi Chen and Khashayar Gatmiry(参考訳) 本研究では,ハミルトニアン・モンテカルロ(hmc)とleapfrog積分器の混合時間を,ログ密度が滑らかな$\mathbb{r}^d$ 上の分布から解析し,フロベニウスノルムにリプシッツ・ヘッシアンをもち,等長度法を満たす。 グラデーションの複雑さを$\epsilon$ に限定し,$\tilde o(d^{1/4}\text{polylog}(1/\epsilon))$ というウォームスタートからの全変動距離で$\epsilon$ に限定し,leapfrog ステップ数を 1 よりも大きく選択するメリットを実証した。 Wu et al. (2022) における$\tilde{O}(d^{1/2}\text{polylog}(1/\epsilon))$ dimension dependency を持つメトロポリス調整ランゲヴィンアルゴリズム (MALA) の以前の解析を上回り、連続 HMC 力学の離散化における位置と速度変数の結合分布がほぼ不変であることを示す。 この鍵となる特徴は、跳躍ステップ数に対する誘導によって示される場合、メトロポリ化HMCの受容率制御に現れる様々な量のモーメントを推定することができることである。 さらに、文献におけるHMC分布重なり制御の別のボトルネックに対処するため、2つの異なる点で初期化されたHMCダイナミクスを介してガウス分布のプッシュフォワード間のクルバック・リーブラー分散を上界化するための新しいアプローチを提案する。 特に,本解析では辺縁の対数凹凸性や独立性は必要とせず,等長不等式にのみ依存する。 結果の適用性を説明するために,本フレームワークに該当する自然関数のいくつかの例について論じる。

We analyze the mixing time of Metropolized Hamiltonian Monte Carlo (HMC) with the leapfrog integrator to sample from a distribution on $\mathbb{R}^d$ whose log-density is smooth, has Lipschitz Hessian in Frobenius norm and satisfies isoperimetry. We bound the gradient complexity to reach $\epsilon$ error in total variation distance from a warm start by $\tilde O(d^{1/4}\text{polylog}(1/\epsilon))$ and demonstrate the benefit of choosing the number of leapfrog steps to be larger than 1. To surpass previous analysis on Metropolis-adjusted Langevin algorithm (MALA) that has $\tilde{O}(d^{1/2}\text{polylog}(1/\epsilon))$ dimension dependency in Wu et al. (2022), we reveal a key feature in our proof that the joint distribution of the location and velocity variables of the discretization of the continuous HMC dynamics stays approximately invariant. This key feature, when shown via induction over the number of leapfrog steps, enables us to obtain estimates on moments of various quantities that appear in the acceptance rate control of Metropolized HMC. Moreover, to deal with another bottleneck on the HMC proposal distribution overlap control in the literature, we provide a new approach to upper bound the Kullback-Leibler divergence between push-forwards of the Gaussian distribution through HMC dynamics initialized at two different points. Notably, our analysis does not require log-concavity or independence of the marginals, and only relies on an isoperimetric inequality. To illustrate the applicability of our result, several examples of natural functions that fall into our framework are discussed.
翻訳日:2023-04-11 14:15:49 公開日:2023-04-10
# ダングリングケースを用いたエンティティアライメントのためのグラフ構造情報の検討

Investigating Graph Structure Information for Entity Alignment with Dangling Cases ( http://arxiv.org/abs/2304.04718v1 )

ライセンス: Link先を確認
Jin Xu, Yangning Li, Xiangjin Xie, Yinghui Li, Niu Hu, Haitao Zheng, Yong Jiang(参考訳) エンティティアライメント(ea)は、知識工学において重要な役割を果たす異なる知識グラフ(kgs)における等価なエンティティの発見を目指している。 近年、全てのエンティティが対応する同等のエンティティを持つわけではないと仮定するより現実的な設定として、エンティティをぶら下げるeaが提案されている。 本稿では,この設定に焦点を当てる。 いくつかの研究は、翻訳API、事前訓練された単語埋め込み、その他の既製のツールを活用することでこの問題を調査している。 しかし、これらのアプローチはサイド情報(例えばエンティティ名)に過度に依存し、サイド情報がない場合は動作しない。 逆に、彼らは依然としてKGの最も基本的なグラフ構造情報を十分に活用していない。 構造情報の活用を改善するために,3次元で改良されたWOGCL(Weakly-Optimal Graph Contrastive Learning)と呼ばれる新しいエンティティアライメントフレームワークを提案する。 (i)モデル。 本稿では,局所的およびグローバルなグラフ構造類似性を捉えるため,Gated Graph Attention Networkを提案する。 (ii)訓練。 コントラスト学習と最適トランスポート学習の2つの学習目的は、最適なトランスポート計画を通じて識別可能な実体表現を得ることである。 (iii)推論。 推測段階では,PageRank を用いた高次構造類似性を計算する手法が提案されている。 2つのダングリングベンチマークに関する広範な実験は、wogclが従来の(相対的な)設定とダングリング(統合された)設定の両方において、純粋な構造情報を持つ現在の最先端のメソッドよりも優れていることを示している。 コードはもうすぐ公開される。

Entity alignment (EA) aims to discover the equivalent entities in different knowledge graphs (KGs), which play an important role in knowledge engineering. Recently, EA with dangling entities has been proposed as a more realistic setting, which assumes that not all entities have corresponding equivalent entities. In this paper, we focus on this setting. Some work has explored this problem by leveraging translation API, pre-trained word embeddings, and other off-the-shelf tools. However, these approaches over-rely on the side information (e.g., entity names), and fail to work when the side information is absent. On the contrary, they still insufficiently exploit the most fundamental graph structure information in KG. To improve the exploitation of the structural information, we propose a novel entity alignment framework called Weakly-Optimal Graph Contrastive Learning (WOGCL), which is refined on three dimensions : (i) Model. We propose a novel Gated Graph Attention Network to capture local and global graph structure similarity. (ii) Training. Two learning objectives: contrastive learning and optimal transport learning are designed to obtain distinguishable entity representations via the optimal transport plan. (iii) Inference. In the inference phase, a PageRank-based method is proposed to calculate higher-order structural similarity. Extensive experiments on two dangling benchmarks demonstrate that our WOGCL outperforms the current state-of-the-art methods with pure structural information in both traditional (relaxed) and dangling (consolidated) settings. The code will be public soon.
翻訳日:2023-04-11 14:15:05 公開日:2023-04-10
# 時間拡張BERTによる構造化文の完全帰納的時間関係予測

Incorporating Structured Sentences with Time-enhanced BERT for Fully-inductive Temporal Relation Prediction ( http://arxiv.org/abs/2304.04717v1 )

ライセンス: Link先を確認
Zhongwu Chen, Chengjin Xu, Fenglong Su, Zhen Huang, Yong Dou(参考訳) 不完全な時間的知識グラフ(TKG)における時間的関係予測は、帰納的および帰納的の両方において一般的な時間的知識グラフ補完(TKGC)問題である。 従来の埋め込みベースのTKGCモデル(TKGE)は構造的接続に依存しており、固定されたエンティティ、すなわちトランスダクティブ設定しか扱えない。 テストtkgが新たなエンティティを含む帰納的設定では、最新のメソッドはシンボリックルールまたは事前学習言語モデル(plm)に基づいている。 しかし、それらはそれぞれ柔軟性がなく、時間固有のものではない。 本研究では、学習セットとテストセットのエンティティが完全に解離した完全帰納的設定をTKGに拡張し、より柔軟で時間に敏感な時間的関係予測アプローチSST-BERTに向けてさらに一歩踏み込み、構造化文を時間拡張BERTに組み込む。 本モデルでは,構造的文を符号化することで,エンティティ履歴を取得し,意味空間のルールを暗黙的に学習し,柔軟性の問題を解く。 SST-BERTの時間感度を高めるため、時間マスキングMLMタスクを用いて、TKGに特化して生成される時間トークンを多く含むコーパスでBERTを事前訓練することを提案する。 対象の四重項の発生確率を計算するため,時間的・意味的な両視点から構造化された文をすべてスコアに集約する。 トランスダクティブデータセットと新たに生成されたフルインダクティブベンチマークの実験によると、SST-BERTは最先端のベースラインよりも改善されている。

Temporal relation prediction in incomplete temporal knowledge graphs (TKGs) is a popular temporal knowledge graph completion (TKGC) problem in both transductive and inductive settings. Traditional embedding-based TKGC models (TKGE) rely on structured connections and can only handle a fixed set of entities, i.e., the transductive setting. In the inductive setting where test TKGs contain emerging entities, the latest methods are based on symbolic rules or pre-trained language models (PLMs). However, they suffer from being inflexible and not time-specific, respectively. In this work, we extend the fully-inductive setting, where entities in the training and test sets are totally disjoint, into TKGs and take a further step towards a more flexible and time-sensitive temporal relation prediction approach SST-BERT, incorporating Structured Sentences with Time-enhanced BERT. Our model can obtain the entity history and implicitly learn rules in the semantic space by encoding structured sentences, solving the problem of inflexibility. We propose to use a time masking MLM task to pre-train BERT in a corpus rich in temporal tokens specially generated for TKGs, enhancing the time sensitivity of SST-BERT. To compute the probability of occurrence of a target quadruple, we aggregate all its structured sentences from both temporal and semantic perspectives into a score. Experiments on the transductive datasets and newly generated fully-inductive benchmarks show that SST-BERT successfully improves over state-of-the-art baselines.
翻訳日:2023-04-11 14:14:37 公開日:2023-04-10
# RESPECT: パイプライン化されたコーラルエッジTPUによる強化学習に基づくエッジスケジューリング

RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral Edge TPUs ( http://arxiv.org/abs/2304.04716v1 )

ライセンス: Link先を確認
Jiaqi Yin, Yingjie Li, Daniel Robinson, Cunxi Yu(参考訳) ディープニューラルネットワーク(DNN)は、かなりの計算量とメモリ要件を持ち、その計算グラフのコンパイルは、リソース制約のあるエッジコンピューティングシステム(計算、I/O、メモリバウンド)の性能に大きな影響を与える。 計算グラフの効率的な実行には効率的なスケジューリングアルゴリズムが必要であるが、最適なスケジューリングソリューションを生成することは難題である。 さらに、DNN計算グラフのスケジューリングの複雑さは、メモリ通信コストやDNNのサイズの増加を考慮したパイプライン化されたマルチコアシステムにおいてさらに増大する。 学習データセットのための合成グラフを用いて,最適化アルゴリズムの振る舞いを学習し,実行時のオーバーヘッドを短く解くことで,最適に近いスケジューリング結果を生成する強化学習(rl)ベースのスケジューリングフレームワークについて述べる。 我々のフレームワークは、Coral Edge TPUsシステム上にデプロイされた10の人気のあるImageNetモデルで、商用コンパイラ上での実際のオンチップ推論ランタイムの高速化を、最大$\sim2.5\times$で実証しました。 さらに、正確な最適化手法と比較して、提案したRLスケジューリングは、商用コンパイラと比較して最大683$\times$スピードアップし、正確な最適解と最大930$\times$スピードアップとを一致させる。 最後に,RESPECT が小型合成グラフから大規模実世界の DNN 計算グラフへの最適解法挙動を再現できることを実証する包括的一般化性試験を行った。

Deep neural networks (DNNs) have substantial computational and memory requirements, and the compilation of its computational graphs has a great impact on the performance of resource-constrained (e.g., computation, I/O, and memory-bound) edge computing systems. While efficient execution of their computational graph requires an effective scheduling algorithm, generating the optimal scheduling solution is a challenging NP-hard problem. Furthermore, the complexity of scheduling DNN computational graphs will further increase on pipelined multi-core systems considering memory communication cost, as well as the increasing size of DNNs. Using the synthetic graph for the training dataset, this work presents a reinforcement learning (RL) based scheduling framework RESPECT, which learns the behaviors of optimal optimization algorithms and generates near-optimal scheduling results with short solving runtime overhead. Our framework has demonstrated up to $\sim2.5\times$ real-world on-chip inference runtime speedups over the commercial compiler with ten popular ImageNet models deployed on the physical Coral Edge TPUs system. Moreover, compared to the exact optimization methods, the proposed RL scheduling improves the scheduling optimization runtime by up to 683$\times$ speedups compared to the commercial compiler and matches the exact optimal solutions with up to 930$\times$ speedups. Finally, we perform a comprehensive generalizability test, which demonstrates RESPECT successfully imitates optimal solving behaviors from small synthetic graphs to large real-world DNNs computational graphs.
翻訳日:2023-04-11 14:14:08 公開日:2023-04-10
# SAMセグメンテーションは可能か? サムがカモフラージュされた物体検出に出会ったとき

Can SAM Segment Anything? When SAM Meets Camouflaged Object Detection ( http://arxiv.org/abs/2304.04709v1 )

ライセンス: Link先を確認
Lv Tang, Haoke Xiao, Bo Li(参考訳) samはmeta ai researchが最近リリースしたセグメンテーションモデルで、汎用オブジェクトセグメンテーションのパフォーマンスが印象的なため、急速に注目を集めている。 しかし、迷彩画など特定の場面に一般化する能力はまだ不明である。 カモフラージュされた物体検出(COD)は、周囲にシームレスに統合され、医学、芸術、農業などの分野で多くの実用的応用がある物体を識別する。 本研究では, SAMがCODタスクに対処できるかどうかを問うとともに, 最大セグメンテーション評価とカモフラージュ位置評価を用いて, CODベンチマークにおけるSAMの性能を評価する。 また,SAMの性能を22の最先端COD法と比較した。 その結果,SAMはジェネリックオブジェクトセグメンテーションにおけるpromiseを示すが,CODタスクの性能は限定的であることがわかった。 これは、CODタスクに対処するより強力なSAMを構築する方法について、さらなる研究を行う機会を与える。 この論文の結果は \url{https://github.com/luckybird1994/samcod} で示される。

SAM is a segmentation model recently released by Meta AI Research and has been gaining attention quickly due to its impressive performance in generic object segmentation. However, its ability to generalize to specific scenes such as camouflaged scenes is still unknown. Camouflaged object detection (COD) involves identifying objects that are seamlessly integrated into their surroundings and has numerous practical applications in fields such as medicine, art, and agriculture. In this study, we try to ask if SAM can address the COD task and evaluate the performance of SAM on the COD benchmark by employing maximum segmentation evaluation and camouflage location evaluation. We also compare SAM's performance with 22 state-of-the-art COD methods. Our results indicate that while SAM shows promise in generic object segmentation, its performance on the COD task is limited. This presents an opportunity for further research to explore how to build a stronger SAM that may address the COD task. The results of this paper are provided in \url{https://github.com/luckybird1994/SAMCOD}.
翻訳日:2023-04-11 14:13:40 公開日:2023-04-10
# CherryPicker: セマンティック骨格化とチェリーツリーのトポロジカル再構築

CherryPicker: Semantic Skeletonization and Topological Reconstruction of Cherry Trees ( http://arxiv.org/abs/2304.04708v1 )

ライセンス: Link先を確認
Lukas Meyer, Andreas Gilson, Oliver Scholz, Marc Stamminger(参考訳) 植物の表現型付けでは、木々の3次元点雲からの正確な形質の抽出はいまだに未解決の問題である。 花や果実などの木の器官の自動モデリングと形質抽出には,木と木の骨格の意味的に区切られた点雲が必要である。 そこで,木々の光度点雲を再構築し,セマンティックセグメンテーションを行い,そのトポロジ的構造を骨格として抽出するCherryPickerを提案する。 本システムでは, 3D 植物表現型アプリケーションにおいて, 自動処理を実現するために, 最先端のアルゴリズムを組み合わせる。 本パイプライン内では,単眼再構築のスケール係数を自動的に推定し,スケール曖昧さを克服し,計量的に正しい点雲を得る手法を提案する。 さらに,ラプラシアンに基づく収縮に基づくセマンティックスケルトン化アルゴリズムを提案する。 また,異なる木の器官を意味的に重み付けすることで,閉塞や構造的大きさの変化によって引き起こされるアーティファクトを効果的に除去できることを示す。 チェリーピッカーは桜の質の高いトポロジー復元を精巧に行う。

In plant phenotyping, accurate trait extraction from 3D point clouds of trees is still an open problem. For automatic modeling and trait extraction of tree organs such as blossoms and fruits, the semantically segmented point cloud of a tree and the tree skeleton are necessary. Therefore, we present CherryPicker, an automatic pipeline that reconstructs photo-metric point clouds of trees, performs semantic segmentation and extracts their topological structure in form of a skeleton. Our system combines several state-of-the-art algorithms to enable automatic processing for further usage in 3D-plant phenotyping applications. Within this pipeline, we present a method to automatically estimate the scale factor of a monocular reconstruction to overcome scale ambiguity and obtain metrically correct point clouds. Furthermore, we propose a semantic skeletonization algorithm build up on Laplacian-based contraction. We also show by weighting different tree organs semantically, our approach can effectively remove artifacts induced by occlusion and structural size variations. CherryPicker obtains high-quality topology reconstructions of cherry trees with precise details.
翻訳日:2023-04-11 14:13:20 公開日:2023-04-10
# Open-Vocabulary Visual Recognitionのための20のクラスによるプロンプト事前学習

Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition ( http://arxiv.org/abs/2304.04704v1 )

ライセンス: Link先を確認
Shuhuai Ren, Aston Zhang, Yi Zhu, Shuai Zhang, Shuai Zheng, Mu Li, Alex Smola, Xu Sun(参考訳) 本稿では,視覚言語モデルの事前学習手法であるPOMPを提案する。 メモリと計算の効率が良いため、POMPは学習したプロンプトによって、20以上のクラスでリッチな視覚概念の集合に意味情報を凝縮することができる。 事前学習すると、強い転送能力を持つプロンプトを画像分類、意味セグメンテーション、オブジェクト検出など様々な視覚認識タスクに直接接続し、ゼロショット方式で認識性能を向上させることができる。 実証的な評価によると、POMPは21の下流データセット(例えば、10の分類データセットの平均精度67.0%(CoOpと比較して+3.1%)と84.4 hIoU(ZSSegと比較して+6.9)で最先端のパフォーマンスを達成する。

This work proposes POMP, a prompt pre-training method for vision-language models. Being memory and computation efficient, POMP enables the learned prompt to condense semantic information for a rich set of visual concepts with over twenty-thousand classes. Once pre-trained, the prompt with a strong transferable ability can be directly plugged into a variety of visual recognition tasks including image classification, semantic segmentation, and object detection, to boost recognition performances in a zero-shot manner. Empirical evaluation shows that POMP achieves state-of-the-art performances on 21 downstream datasets, e.g., 67.0% average accuracy on 10 classification dataset (+3.1% compared to CoOp) and 84.4 hIoU on open-vocabulary Pascal VOC segmentation (+6.9 compared to ZSSeg).
翻訳日:2023-04-11 14:13:03 公開日:2023-04-10
# 低リソース感性分析のための伝達学習

Transfer Learning for Low-Resource Sentiment Analysis ( http://arxiv.org/abs/2304.04703v1 )

ライセンス: Link先を確認
Razhan Hameed and Sina Ahmadi and Fatemeh Daneshfar(参考訳) 感性分析は、テキストから主観的情報を識別し抽出するプロセスである。 言語横断的アプローチを自動的に採用する進歩にもかかわらず、感情分析システムの実装と評価には、様々な社会文化的・言語学的特徴を考慮した言語固有のデータが必要である。 本稿では,中央クルド人の感情分析のためのデータセットの収集とアノテーションについて述べる。 このタスクのために、古典的な機械学習とニューラルネットワークベースのテクニックをいくつか探求する。 さらに,データ拡張のための事前学習モデルを活用するために,転送学習のアプローチを採用している。 データ拡張はタスクの難易度にもかかわらず高いf$_1$スコアと精度を達成することを実証する。

Sentiment analysis is the process of identifying and extracting subjective information from text. Despite the advances to employ cross-lingual approaches in an automatic way, the implementation and evaluation of sentiment analysis systems require language-specific data to consider various sociocultural and linguistic peculiarities. In this paper, the collection and annotation of a dataset are described for sentiment analysis of Central Kurdish. We explore a few classical machine learning and neural network-based techniques for this task. Additionally, we employ an approach in transfer learning to leverage pretrained models for data augmentation. We demonstrate that data augmentation achieves a high F$_1$ score and accuracy despite the difficulty of the task.
翻訳日:2023-04-11 14:12:43 公開日:2023-04-10
# ランダム化による部分モジュラ最大化の長期公正化

Achieving Long-term Fairness in Submodular Maximization through Randomization ( http://arxiv.org/abs/2304.04700v1 )

ライセンス: Link先を確認
Shaojie Tang, Jing Yuan, Twumasi Mensah-Boateng(参考訳) サブモジュール関数最適化は、大規模なデータセットから簡潔で多様なデータポイントを識別することを目的としたデータ要約を含む、機械学習やデータ分析に多くの応用がある。 人種や性別などの繊細な属性を含む可能性のあるデータ項目を扱う場合、公平さを意識したアルゴリズムを実装し、異なるグループの不平等な表現につながるバイアスを防止することが重要である。 そこで,本研究では,群フェアネス制約を満たしながら単調部分モジュラー関数を最大化する問題を考察する。 この領域における以前の研究とは異なり、各群から選択される期待される項目数が上下のしきい値の形で制約を受けるような実現可能集合上の分布を計算し、各群の表現が長期的なバランスを保つことを目的としてランダム化解を許容する。 ここで集合は、そのサイズが定数値$b$を超えなければ実現可能であると考えられる。 我々の研究は、この問題に対する一連の近似アルゴリズムの開発を含む。

Submodular function optimization has numerous applications in machine learning and data analysis, including data summarization which aims to identify a concise and diverse set of data points from a large dataset. It is important to implement fairness-aware algorithms when dealing with data items that may contain sensitive attributes like race or gender, to prevent biases that could lead to unequal representation of different groups. With this in mind, we investigate the problem of maximizing a monotone submodular function while meeting group fairness constraints. Unlike previous studies in this area, we allow for randomized solutions, with the objective being to calculate a distribution over feasible sets such that the expected number of items selected from each group is subject to constraints in the form of upper and lower thresholds, ensuring that the representation of each group remains balanced in the long term. Here a set is considered feasible if its size does not exceed a constant value of $b$. Our research includes the development of a series of approximation algorithms for this problem.
翻訳日:2023-04-11 14:12:33 公開日:2023-04-10
# 視覚インコンテキスト学習の改善のための効果的な要因の検討

Exploring Effective Factors for Improving Visual In-Context Learning ( http://arxiv.org/abs/2304.04748v1 )

ライセンス: Link先を確認
Yanpeng Sun, Qiang Chen, Jian Wang, Jingdong Wang, Zechao Li(参考訳) In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測する。 NLPで広く研究されているが、コンピュータビジョンにおける比較的新しい研究分野である。 本稿では,視覚内コンテキスト学習の性能に影響を与える要因を明らかにするため,プロンプト選択とプロンプト融合が,視覚内コンテキスト学習の推論性能に直接影響を与える2つの主要な要因であることを示す。 プロンプト選択は、モデルが新しいタスクを理解するのに役立つ最も適切なプロンプトや例を特定するプロセスである。 モデルに関連するプロンプトを提供することで、より効果的かつ効率的に学ぶことができるため、これは重要です。 プロンプト融合は、大規模視覚モデル内の異なる位置からの知識を組み合わせることを伴う。 これにより、モデルはモデルのさまざまな部分に格納された多様な知識を活用して、新しいタスクのパフォーマンスを向上させることができる。 これらの知見に基づき、視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。 具体的には,まず画素レベルの検索手法を用いて適切なプロンプトを選択し,次に異なるプロンプト融合法を用いて大規模モデルに格納されたすべての知識を活性化し,最終的に異なるプロンプト融合法から得られた予測結果をアンサンブルして最終的な予測結果を得る。 また,単目的セグメンテーションと検出タスクについて広範な実験を行い,プロンプトSelFの有効性を実証した。 注目すべきは、プロンプトSelFがOSLSMベースのメタラーニングを初めて1ショットセグメンテーションで上回ったことだ。 これは、コンテキスト内学習の大きな可能性を示している。 ソースコードとモデルは \url{https://github.com/syp2ysy/prompt-SelF} で入手できる。

The In-Context Learning (ICL) is to understand a new task via a few demonstrations (aka. prompt) and predict new inputs without tuning the models. While it has been widely studied in NLP, it is still a relatively new area of research in computer vision. To reveal the factors influencing the performance of visual in-context learning, this paper shows that prompt selection and prompt fusion are two major factors that have a direct impact on the inference performance of visual context learning. Prompt selection is the process of identifying the most appropriate prompt or example to help the model understand new tasks. This is important because providing the model with relevant prompts can help it learn more effectively and efficiently. Prompt fusion involves combining knowledge from different positions within the large-scale visual model. By doing this, the model can leverage the diverse knowledge stored in different parts of the model to improve its performance on new tasks. Based these findings, we propose a simple framework prompt-SelF for visual in-context learning. Specifically, we first use the pixel-level retrieval method to select a suitable prompt, and then use different prompt fusion methods to activate all the knowledge stored in the large-scale model, and finally ensemble the prediction results obtained from different prompt fusion methods to obtain the final prediction results. And we conduct extensive experiments on single-object segmentation and detection tasks to demonstrate the effectiveness of prompt-SelF. Remarkably, the prompt-SelF has outperformed OSLSM based meta-learning in 1-shot segmentation for the first time. This indicated the great potential of visual in-context learning. The source code and models will be available at \url{https://github.com/syp2ysy/prompt-SelF}.
翻訳日:2023-04-11 14:05:34 公開日:2023-04-10
# ソフトマッシュノイズを用いた安価でより良い拡散言語モデル

A Cheaper and Better Diffusion Language Model with Soft-Masked Noise ( http://arxiv.org/abs/2304.04746v1 )

ライセンス: Link先を確認
Jiaao Chen, Aston Zhang, Mu Li, Alex Smola, Diyi Yang(参考訳) 近年,反復的復調に基づく拡散モデルが提案され,画像生成などの様々な世代タスクに活用されている。 しかし、本質的に連続データのために構築される方法として、既存の拡散モデルは、言語などの離散データモデリングにおいていくつかの制限がある。 例えば、一般的に用いられるガウス雑音は離散的腐敗をうまく扱えないし、連続空間の目的が拡散過程におけるテクストデータに対して特に次元が高い場合には安定ではない。 そこで本研究では, 言語モデルのための新しい拡散モデルであるマスキング拡散lmを導入し, 学習コストの低減, 性能の向上, 言語の言語的特徴に着想を得た。 具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。 また、各拡散ステップにおけるクロスエントロピー損失関数によるカテゴリー分布を直接予測し、連続空間と離散空間をより効率的かつ簡単な方法で接続する。 5つの制御された生成タスクの実験を通じて、マスク拡散lmは、最先端の拡散モデルよりも優れた生成品質を、効率良く達成できることを実証する。

Diffusion models that are based on iterative denoising have been recently proposed and leveraged in various generation tasks like image generation. Whereas, as a way inherently built for continuous data, existing diffusion models still have some limitations in modeling discrete data, e.g., languages. For example, the generally used Gaussian noise can not handle the discrete corruption well, and the objectives in continuous spaces fail to be stable for textual data in the diffusion process especially when the dimension is high. To alleviate these issues, we introduce a novel diffusion model for language modeling, Masked-Diffuse LM, with lower training cost and better performances, inspired by linguistic features in languages. Specifically, we design a linguistic-informed forward process which adds corruptions to the text through strategically soft-masking to better noise the textual data. Also, we directly predict the categorical distribution with cross-entropy loss function in every diffusion step to connect the continuous space and discrete space in a more efficient and straightforward way. Through experiments on 5 controlled generation tasks, we demonstrate that our Masked-Diffuse LM can achieve better generation quality than the state-of-the-art diffusion models with better efficiency.
翻訳日:2023-04-11 14:05:08 公開日:2023-04-10
# 拡散モデルを用いた曖昧な医用画像分割

Ambiguous Medical Image Segmentation using Diffusion Models ( http://arxiv.org/abs/2304.04745v1 )

ライセンス: Link先を確認
Aimon Rahman and Jeya Maria Jose Valanarasu and Ilker Hacihaliloglu and Vishal M Patel(参考訳) 専門家のグループからの集団的洞察は、臨床業務における個人の最高の診断よりも優れていることが常に証明されている。 医用画像セグメンテーションのタスクでは、AIベースの代替手段に関する既存の研究は、専門家グループの力を利用するのではなく、最高の個人を模倣できるモデルの開発に焦点を当てている。 本稿では,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。 提案モデルでは, 最小付加学習のみを用いて拡散の固有確率的サンプリング過程を活用し, セグメンテーションマスクの分布を生成する。 今回我々は,ct,超音波,mriの3種類の医用画像モダリティを用いて,その発生頻度を捉えながら,複数の変異を生成できることを実証した。 総合的な結果から,提案手法は,自然発生の変動を保ちながら,既存の曖昧なセグメント化ネットワークよりも精度が高いことがわかった。 また, 集団的洞察の臨床的実践の関心と合致するセグメント化予測の精度だけでなく, 多様性を評価するための新しい指標を提案する。

Collective insights from a group of experts have always proven to outperform an individual's best diagnostic for clinical tasks. For the task of medical image segmentation, existing research on AI-based alternatives focuses more on developing models that can imitate the best individual rather than harnessing the power of expert groups. In this paper, we introduce a single diffusion model-based approach that produces multiple plausible outputs by learning a distribution over group insights. Our proposed model generates a distribution of segmentation masks by leveraging the inherent stochastic sampling process of diffusion using only minimal additional learning. We demonstrate on three different medical image modalities- CT, ultrasound, and MRI that our model is capable of producing several possible variants while capturing the frequencies of their occurrences. Comprehensive results show that our proposed approach outperforms existing state-of-the-art ambiguous segmentation networks in terms of accuracy while preserving naturally occurring variation. We also propose a new metric to evaluate the diversity as well as the accuracy of segmentation predictions that aligns with the interest of clinical practice of collective insights.
翻訳日:2023-04-11 14:04:48 公開日:2023-04-10
# 量子極符号のリストデコードによる論理誤差率の改善

Improved Logical Error Rate via List Decoding of Quantum Polar Codes ( http://arxiv.org/abs/2304.04743v1 )

ライセンス: Link先を確認
Anqi Gong and Joseph M. Renes(参考訳) 逐次キャンセルリストデコーダ(SCL)は、復号エラーの少ない古典極符号に対して効率的な復号器であり、小さいリストサイズで最大値デコーダ(MLD)を近似する。 ここでは、SCLを量子極符号の復号化タスクに適応させ、古典的ケースの性能と低複雑性を継承し、特定のチャネルに対する量子MDDを近似することができることを示す。 我々は,従来の量子極性符号の構成において,少量の絡み合い支援の必要性を完全に回避する分極重み(pw)法に基づく新しい量子極性符号にscl復号を適用する。 正確な誤差パターンを見つけるために、量子SCLデコーダ(SCL-E)は、類似の大きさの曲面符号と類似の大きさとレートの低密度パリティチェック符号との競合性能を示す。 SCLデコーダは、その代わりに、各等価クラスのエラーの確率を近似し、最も可能性が高いクラスを選択するために用いられる。 我々は,このクラス指向デコーダ(SCL-C)をSCL-Eデコーダと比較し,論理誤差率の顕著な改善を見出した。 この改善は、低重量エラーからの貢献がエラークラスの確率に対して合理的な近似を与えるという事実に起因する。 SCL-E と SCL-C は,コードサイズ N とリストサイズ L の SCL の複雑性 O(LN logN) を維持している。

The successive cancellation list decoder (SCL) is an efficient decoder for classical polar codes with low decoding error, approximating the maximum likelihood decoder (MLD) for small list sizes. Here we adapt the SCL to the task of decoding quantum polar codes and show that it inherits the high performance and low complexity of the classical case, and can approximate the quantum MLD for certain channels. We apply SCL decoding to a novel version of quantum polar codes based on the polarization weight (PW) method, which entirely avoids the need for small amounts of entanglement assistance apparent in previous quantum polar code constructions. When used to find the precise error pattern, the quantum SCL decoder (SCL-E) shows competitive performance with surface codes of similar size and low-density parity check codes of similar size and rate. The SCL decoder may instead be used to approximate the probability of each equivalence class of errors, and then choose the most likely class. We benchmark this class-oriented decoder (SCL-C) against the SCL-E decoder and find a noticeable improvement in the logical error rate. This improvement stems from the fact that the contributions from just the low-weight errors give a reasonable approximation to the error class probabilities. Both SCL-E and SCL-C maintain the complexity O(LN logN) of SCL for code size N and list size L. We also show that the list decoder can be used to gain insight into the weight distribution of the codes and how this impacts the effect of degenerate errors.
翻訳日:2023-04-11 14:04:29 公開日:2023-04-10
# 安定マッチングを有する検出変圧器

Detection Transformer with Stable Matching ( http://arxiv.org/abs/2304.04742v1 )

ライセンス: Link先を確認
Shilong Liu, Tianhe Ren, Jiayu Chen, Zhaoyang Zeng, Hao Zhang, Feng Li, Hongyang Li, Jun Huang, Hang Su, Jun Zhu, Lei Zhang(参考訳) 本稿では,Detection TRansformers (DETR) におけるデコーダ層間の整合安定性問題について考察する。 DeTRにおける不安定なマッチングは、DreTRにおける1対1のマッチング設計によって強調される多重最適化パス問題によって引き起こされる。 この問題に対処するために,最も重要な設計は,正の例の分類スコアを監督する位置指標(iouなど)のみを使用することであることを示す。 本原理では,DTRの分類損失と整合コスト,位置監督損失と位置変調コストに位置計測値を統合することで,簡易かつ効果的な2つの修正を提案する。 いくつかの DETR 変種について本手法を検証する。 本手法はベースラインに対して一貫した改善を示す。 DINOとメソッドを統合することで、12エポックおよび24エポックのトレーニング設定下でResNet-50バックボーンを使用してCOCO検出ベンチマークで50.4および51.5APを達成し、同じ設定で新しいレコードを達成する。 我々は,Swin-Largeバックボーンを用いたCOCO検出試験で63.8 APを達成した。 私たちのコードはhttps://github.com/IDEA-Research/Stable-DINOで公開されます。

This paper is concerned with the matching stability problem across different decoder layers in DEtection TRansformers (DETR). We point out that the unstable matching in DETR is caused by a multi-optimization path problem, which is highlighted by the one-to-one matching design in DETR. To address this problem, we show that the most important design is to use and only use positional metrics (like IOU) to supervise classification scores of positive examples. Under the principle, we propose two simple yet effective modifications by integrating positional metrics to DETR's classification loss and matching cost, named position-supervised loss and position-modulated cost. We verify our methods on several DETR variants. Our methods show consistent improvements over baselines. By integrating our methods with DINO, we achieve 50.4 and 51.5 AP on the COCO detection benchmark using ResNet-50 backbones under 12 epochs and 24 epochs training settings, achieving a new record under the same setting. We achieve 63.8 AP on COCO detection test-dev with a Swin-Large backbone. Our code will be made available at https://github.com/IDEA-Research/Stable-DINO.
翻訳日:2023-04-11 14:03:57 公開日:2023-04-10
# 単一原子のナノフォトニックキャビティ冷却

Nanophotonic cavity cooling of a single atom ( http://arxiv.org/abs/2304.04741v1 )

ライセンス: Link先を確認
Chenwei Lv, Ming Zhu, Sambit Banerjee, Chen-Lung Hung(参考訳) 弱励起ナノフォトニックキャビティに強く結合した2層原子の外部および内部ダイナミクスについて検討した。 本研究では, キャビティポンプ場による双極子力, 摩擦力, 確率力を算出し, キャビティ表面付近に3次元冷却領域が存在することを示す。 2色エバネッセント場トラップを例として3次元モンテカルロシミュレーションを行い、運動量拡散によるトラップへの単一原子の効率的な負荷とトラップ中心付近でのキャビティ冷却の安定性を実証した。 その結果, キャビティ冷却は, 自由空間から表面マイクロトラップに直接冷間原子を装填する有望な方法であることがわかった。 さらに,ポンプ強度が原子トラップおよび載荷効率に及ぼす影響についても検討した。

We investigate external and internal dynamics of a two-level atom strongly coupled to a weakly pumped nanophotonic cavity. We calculate the dipole force, friction force, and stochastic force due to the cavity pump field, and show that a three-dimensional cooling region exists near the surface of a cavity. Using a two-color evanescent field trap as an example, we perform three-dimensional Monte-Carlo simulations to demonstrate efficient loading of single atoms into a trap by momentum diffusion, and the stability of cavity cooling near the trap center. Our analyses show that cavity cooling can be a promising method for directly loading cold atoms from free-space into a surface micro-trap. We further discuss the impact of pump intensity on atom trapping and loading efficiency.