このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230219となっている論文です。

PDF登録状況(公開日: 20230219)

TitleAuthorsAbstract論文公表日・翻訳日
# マルチモーダルマルチタスク多言語学習

Few-shot Multimodal Multitask Multilingual Learning ( http://arxiv.org/abs/2303.12489v1 )

ライセンス: Link先を確認
Aman Chadha, Vinija Jain(参考訳) 移行学習のパラダイムとしての少数ショット学習は、限られたデータを持つシナリオにおいて大きな牽引力を得てきたが、主に非モーダルモデルと非言語モデルの構築の文脈で検討されてきた。 さらに、数発のマルチタスク学習領域における既存の文献の大部分は、入力として手動で生成されたプロンプトを必要とするコンテキスト内学習を行い、手動プロンプトエンジニアリングのレベルによって異なる結果をもたらす。 さらに、インコンテキスト学習は、計算、メモリ、ストレージの大幅なコストに悩まされており、予測が行われる度にモデルを通じてプロンプトの例をすべて実行するため、推論レイテンシが高くなる。 対照的に、微調整パラダイムによる伝達学習に基づく手法は、上記の問題をタスク毎の微調整重量の1回コストで回避する。 しかし,このような手法はマルチタスク学習に欠かせない。 本稿では,タスク固有のハイパーネットワークを用いて事前学習された視覚モデルと言語モデルを適用し,それと対比的に微調整することで,マルチモーダルマルチタスクマルチリンガル(fm3)設定のための少数ショット学習を提案する。 FM3のアーキテクチャは、コンテキスト内および微調整ベースの学習の両世界の長所を結合し、3つの主要なコンポーネントから構成される。 (i)単発学習を可能にするマルチモーダルコントラスト微調整 (二)マルチタスク学習のためのハイパーネットワークタスク適応、及び (iii)タスク固有の出力は、多種多様なタスクに対応する。 FM3は視覚と言語領域における最も顕著なタスク、すなわち視覚的包摂(VE)、視覚的質問応答(VQA)、ニューラルエンティティ認識(NER)やQNLI、MNLI、QQP、SST-2を含むGLUEベンチマークなどの自然言語理解(NLU)タスクを学習する。

While few-shot learning as a transfer learning paradigm has gained significant traction for scenarios with limited data, it has primarily been explored in the context of building unimodal and unilingual models. Furthermore, a significant part of the existing literature in the domain of few-shot multitask learning perform in-context learning which requires manually generated prompts as the input, yielding varying outcomes depending on the level of manual prompt-engineering. In addition, in-context learning suffers from substantial computational, memory, and storage costs which eventually leads to high inference latency because it involves running all of the prompt's examples through the model every time a prediction is made. In contrast, methods based on the transfer learning via the fine-tuning paradigm avoid the aforementioned issues at a one-time cost of fine-tuning weights on a per-task basis. However, such methods lack exposure to few-shot multimodal multitask learning. In this paper, we propose few-shot learning for a multimodal multitask multilingual (FM3) setting by adapting pre-trained vision and language models using task-specific hypernetworks and contrastively fine-tuning them to enable few-shot learning. FM3's architecture combines the best of both worlds of in-context and fine-tuning based learning and consists of three major components: (i) multimodal contrastive fine-tuning to enable few-shot learning, (ii) hypernetwork task adaptation to perform multitask learning, and (iii) task-specific output heads to cater to a plethora of diverse tasks. FM3 learns the most prominent tasks in the vision and language domains along with their intersections, namely visual entailment (VE), visual question answering (VQA), and natural language understanding (NLU) tasks such as neural entity recognition (NER) and the GLUE benchmark including QNLI, MNLI, QQP, and SST-2.
翻訳日:2023-03-25 03:18:13 公開日:2023-02-19
# 機械学習を用いたファッションモデルポーズ推薦と生成

Fashion-model pose recommendation and generation using Machine Learning ( http://arxiv.org/abs/2303.08660v1 )

ライセンス: Link先を確認
Vijitha Kannumuru, Santhosh Kannan S P, Krithiga Shankar, Joy Larnyoh, Rohith Mahadevan, Raja CSP Raman(参考訳) ファッションモデルのポーズはファッション業界において重要な属性である。 クリエイティブディレクター、プロダクションハウスのモデリング、そしてトップフォトグラファーは、常にポーズできるプロのモデルを探します。 正しいポーズのスキルがなければ、プロのモデリングの雇用に着地するチャンスは、残念なことにほとんどない。 モデルや写真家が写真撮影中にストライクする最善のポーズを確信していない場合もあります。 本研究は,入力画像に基づく類似画像の連続をファッション担当者に提案することに集中する。 画像は異なる部分に分割され、同様のイメージがユーザに提案される。 これは入力画像の色ヒストグラムを計算し、データセット内のすべての画像にそれを適用することで達成され、ヒストグラムを比較する。 合成画像はプライバシーの懸念を回避し、写真撮影のコストを克服するために人気を集めている。 そこで本研究では,スタイルGANを用いたレコメンデーションエンジンから合成画像を生成する作業をある程度拡張する。

Fashion-model pose is an important attribute in the fashion industry. Creative directors, modeling production houses, and top photographers always look for professional models able to pose. without the skill to correctly pose, their chances of landing professional modeling employment are regrettably quite little. There are occasions when models and photographers are unsure of the best pose to strike while taking photographs. This research concentrates on suggesting the fashion personnel a series of similar images based on the input image. The image is segmented into different parts and similar images are suggested for the user. This was achieved by calculating the color histogram of the input image and applying the same for all the images in the dataset and comparing the histograms. Synthetic images have become popular to avoid privacy concerns and to overcome the high cost of photoshoots. Hence, this paper also extends the work of generating synthetic images from the recommendation engine using styleGAN to an extent.
翻訳日:2023-03-19 11:39:11 公開日:2023-02-19
# グアニン/シトシン系繊維コストと脱選択延長にもかかわらずデジタル生物が維持する抵抗性:微生物系抗生物質抵抗性への影響

Resistance Maintained in Digital Organisms despite Guanine/Cytosine-Based Fitness Cost and Extended De-Selection: Implications to Microbial Antibiotics Resistance ( http://arxiv.org/abs/2302.13897v1 )

ライセンス: Link先を確認
Clarence FG Castillo, Zhu En Chay, Maurice HT Ling(参考訳) 抗生物質耐性は病気の治療に多くの合併症を引き起こしており、病原体は特定の抗生物質に感受性がなく、そのような抗生物質の使用はもはや治療に効果がない。 デジタル生物を利用した最近の研究は、耐性が確立すれば、耐性を維持するためのフィットネスコストが存在しないと仮定して、抗生物質の消毒後に特定の抗生物質抵抗の完全な除去が不可能であることを示している。 適応コストは環境の変化に対する反応と呼ばれ、ある領域における生物の能力が他の領域の費用を犠牲にして向上する。 本研究の目的は、デジタル生物を用いて、フィットネスコストが抵抗を維持する上で生じる抵抗の獲得率と損失率を調べることである。 以上の結果から, 抗生物質による選択的圧力の除去によるgc含有フィットネスコストは, 初期選択, 反復的脱選択, 選択的圧力の再導入の各段階において, 抵抗性に類似した傾向を示した。 Paired t-testは、初期喪失後の抵抗の長期安定化は、フィットネスコストに差がないため統計的に有意ではないことを示唆した。 このことは、抗生物質の消毒中に抗生物質耐性を維持するための適合コストがあるにもかかわらず、抗生物質の消毒後に特定の抗生物質耐性の完全な除去が不可能であることを示している。

Antibiotics resistance has caused much complication in the treatment of diseases, where the pathogen is no longer susceptible to specific antibiotics and the use of such antibiotics are no longer effective for treatment. A recent study that utilizes digital organisms suggests that complete elimination of specific antibiotic resistance is unlikely after the disuse of antibiotics, assuming that there are no fitness costs for maintaining resistance once resistance are established. Fitness cost are referred to as reaction to change in environment, where organism improves its' abilities in one area at the expense of the other. Our goal in this study is to use digital organisms to examine the rate of gain and loss of resistance where fitness costs have incurred in maintaining resistance. Our results showed that GC-content based fitness cost during de-selection by removal of antibiotic-induced selective pressure portrayed similar trends in resistance compared to that of no fitness cost, at all stages of initial selection, repeated de-selection and re-introduction of selective pressure. Paired t-test suggested that prolonged stabilization of resistance after initial loss is not statistically significant for its difference to that of no fitness cost. This suggests that complete elimination of specific antibiotics resistance is unlikely after the disuse of antibiotics despite presence of fitness cost in maintaining antibiotic resistance during the disuse of antibiotics, once a resistant pool of micro-organism has been established.
翻訳日:2023-03-05 05:43:48 公開日:2023-02-19
# 注視推定のための脳波データの電極クラスタリングと帯域通過解析

Electrode Clustering and Bandpass Analysis of EEG Data for Gaze Estimation ( http://arxiv.org/abs/2302.12710v1 )

ライセンス: Link先を確認
Ard Kastrati, Martyna Beata Plomecka, Jo\"el K\"uchler, Nicolas Langer, Roger Wattenhofer(参考訳) 本研究は,脳波を用いた視線推定の可能性を示すために,これまでに公表された論文の調査結果を検証した。 さらに, モデル性能をわずかに低下させることで, 電極数を大幅に削減できることを示すことにより, 脳波に基づく眼球追跡のためには, 高密度で高価な脳波キャップは不要であることを示す。 データ駆動型アプローチを用いて、どの電極クラスターが視線推定に影響を及ぼし、異なるタイプのEEGデータ前処理がモデルの性能にどのように影響するかを確立する。 最後に、各タスクにおいてどの記録周波数が最も重要かを検査する。

In this study, we validate the findings of previously published papers, showing the feasibility of an Electroencephalography (EEG) based gaze estimation. Moreover, we extend previous research by demonstrating that with only a slight drop in model performance, we can significantly reduce the number of electrodes, indicating that a high-density, expensive EEG cap is not necessary for the purposes of EEG-based eye tracking. Using data-driven approaches, we establish which electrode clusters impact gaze estimation and how the different types of EEG data preprocessing affect the models' performance. Finally, we also inspect which recorded frequencies are most important for the defined tasks.
翻訳日:2023-03-05 05:41:30 公開日:2023-02-19
# NISQデバイスにおける密度行列を用いた量子密度推定:量子異常検出への応用

Quantum Density Estimation with Density Matrices in NISQ Devices: Application to Quantum Anomaly Detection ( http://arxiv.org/abs/2201.10006v3 )

ライセンス: Link先を確認
Diego H. Useche, Oscar A. Bustos-Brinez, Joseph A. Gallego, Fabio A. Gonz\'alez(参考訳) 密度推定は統計学と機械学習の中心的なタスクである。 この問題は、観測されたデータセットに適合する基礎となる確率分布を決定することである。 その関連性にもかかわらず、密度推定のための量子アルゴリズムを探求する研究はほとんどない。 本稿では、密度行列の期待値に基づく新しい古典量子密度推定モデルと、新しい量子変分核学習戦略を提案する。 量子ハードウェアを用いて、混合量子状態を介してトレーニングデータの確率分布を符号化する。 コアサブルーチンとして,量子コンピュータ上でのスペクトル分解に基づく混合密度行列の期待値を推定する新しい手法を提案する。 さらに,本手法の古典量子異常検出への応用について述べる。 密度推定モデルは、様々なデータセット上で量子ランダムおよび適応フーリエ特性の両方を用いてテストされ、密度推定および異常検出における量子適応フーリエ特性の優れた性能を示す。 この研究の重要な発見は、ノイズ中間スケール量子コンピュータ上で高い性能で密度推定と異常検出を行うことができることを示すことである。

Density estimation is a central task in statistics and machine learning. This problem consists of determining the underlying probability distribution that fits an observed data set. Despite its relevance, few works have explored quantum algorithms for density estimation. In this article, we present a novel classical-quantum density estimation model based on the expected values of density matrices and a new quantum variational kernel learning strategy. The method uses quantum hardware to encode probability distributions of training data via mixed quantum states. As a core subroutine, we present a new method to estimate the expected value of a mixed density matrix based on its spectral decomposition on a quantum computer. In addition, we illustrate an application of the method for classical-quantum anomaly detection. The density estimation model is tested with both quantum random and adaptive Fourier features on various data sets; results show the superior performance of quantum adaptive Fourier features for density estimation and anomaly detection. An important finding of this work is to show that it is possible to perform density estimation and anomaly detection with high performance on noise intermediate-scale quantum computers.
翻訳日:2023-02-28 00:30:31 公開日:2023-02-19
# 最も密度の高い結晶対称性群パッキングのエントロピー信頼領域

Entropic trust region for densest crystallographic symmetry group packings ( http://arxiv.org/abs/2202.11959v3 )

ライセンス: Link先を確認
Miloslav Torda, John Y. Goulermas, Roland P\'u\v{c}ek and Vitaliy Kurlin(参考訳) 分子結晶構造予測(CSP)は、分子の化学組成と圧力-温度条件から最も安定した周期構造を求める。 現代のCSPソルバは、分子間ポテンシャルによって誘導される複雑なエネルギーランドスケープ内の最小自由エネルギー構造を探索するために、大域最適化手法を用いる。 これらの方法の大きな注意事項は、初期構成がランダムであるため、探索は局所ミニマでの収束に影響を受けやすいことである。 分子の幾何学的表現に関して密に充填された初期配置を提供することは、cspを著しく加速することができる。 これらの観測により、結晶対称性群(CSG)に制限された周期的パッキングのクラスを定義し、情報幾何学的枠組みによる最も密度の高いCSGパッキングの探索法を設計する。 CSGは構成空間上のトロイダル位相を誘導するため、多変量フォン・ミゼス分布を拡張して$n$次元平面単位トーラス上で定義される確率分布からなる統計多様体上で非ユークリッド信頼領域法を行う。 適合関数の適応的な量子的再構成を最適化スケジュールに導入することにより、局所的な双対測地流による幾何学的特徴付けをアルゴリズムに提供する。 さらに,適応的選択量定義信頼領域の幾何について検討し,拡張多変量フォン・ミゼス分布ランダムベクトルの要素間の確率依存性の最大化を行うことを示す。 最適解が知られている2次元csgにおける凸多角形の密度が最も高い充填体の挙動と性能を実験的に評価し,ペンタセン薄膜cspへの応用を実証した。

Molecular crystal structure prediction (CSP) seeks the most stable periodic structure given the chemical composition of a molecule and pressure-temperature conditions. Modern CSP solvers use global optimization methods to search for structures with minimal free energy within a complex energy landscape induced by intermolecular potentials. A major caveat of these methods is that initial configurations are random, making thus the search susceptible to convergence at local minima. Providing initial configurations that are densely packed with respect to the geometric representation of a molecule can significantly accelerate CSP. Motivated by these observations, we define a class of periodic packings restricted to crystallographic symmetry groups (CSG) and design a search method for the densest CSG packings in an information-geometric framework. Since the CSG induce a toroidal topology on the configuration space, a non-Euclidean trust region method is performed on a statistical manifold consisting of probability distributions defined on an $n$-dimensional flat unit torus by extending the multivariate von Mises distribution. Introducing an adaptive quantile reformulation of the fitness function into the optimization schedule provides the algorithm with a geometric characterization through local dual geodesic flows. Moreover, we examine the geometry of the adaptive selection-quantile defined trust region and show that the algorithm performs a maximization of stochastic dependence among elements of the extended multivariate von Mises distributed random vector. We experimentally evaluate the behavior and performance of the method on various densest packings of convex polygons in $2$-dimensional CSGs for which optimal solutions are known, and demonstrate its application in the pentacene thin-film CSP.
翻訳日:2023-02-24 01:52:17 公開日:2023-02-19
# 順序因子の欲望の発見

Greedy Discovery of Ordinal Factors ( http://arxiv.org/abs/2302.11554v1 )

ライセンス: Link先を確認
Dominik D\"urrschnabel, Gerd Stumme(参考訳) 大規模なデータセットでは、構造の発見と分析が難しい。 したがって、アイテムにタグやキーワードを導入するのが一般的である。 アプリケーションでは、このようなデータセットはこれらのタグに基づいてフィルタリングされる。 それでも、タグがいくつかある中型のデータセットでさえ、複雑で、人間が操作しにくいシステムになる。 本研究では,この問題に対処するために順序因子分析法を採用する。 順序因子は、タグのサブセットをその基礎構造に基づいて線形順序に配置する。 このような順序因子からなる完全な順序因子化は、元のデータセットを正確に表現する。 このような順序因子化に基づいて、データセット内のさまざまな項目と属性間の関係を発見し、説明する方法を提供する。 しかし、高濃度の1つの順序因子でさえ計算が複雑である。 そこで本研究では, グリーディアルゴリズムを提案する。 このアルゴリズムは、形式的概念解析で開発された既存の高速アルゴリズムを用いて順序因子を抽出する。 次に,データセット内の関係を包括的に発見する手法を提案する。 さらに、順序因子化から生じる表現に基づいて距離測定を導入し、類似した項目を発見する。 本手法を評価するために,異なるデータセットのケーススタディを行う。

In large datasets, it is hard to discover and analyze structure. It is thus common to introduce tags or keywords for the items. In applications, such datasets are then filtered based on these tags. Still, even medium-sized datasets with a few tags result in complex and for humans hard-to-navigate systems. In this work, we adopt the method of ordinal factor analysis to address this problem. An ordinal factor arranges a subset of the tags in a linear order based on their underlying structure. A complete ordinal factorization, which consists of such ordinal factors, precisely represents the original dataset. Based on such an ordinal factorization, we provide a way to discover and explain relationships between different items and attributes in the dataset. However, computing even just one ordinal factor of high cardinality is computationally complex. We thus propose the greedy algorithm in this work. This algorithm extracts ordinal factors using already existing fast algorithms developed in formal concept analysis. Then, we leverage to propose a comprehensive way to discover relationships in the dataset. We furthermore introduce a distance measure based on the representation emerging from the ordinal factorization to discover similar items. To evaluate the method, we conduct a case study on different datasets.
翻訳日:2023-02-23 14:08:23 公開日:2023-02-19
# 不確実性認識に基づく深層強化学習によるソーシャルメディア情報の意図分析

Uncertainty-Aware Reward-based Deep Reinforcement Learning for Intent Analysis of Social Media Information ( http://arxiv.org/abs/2302.10195v1 )

ライセンス: Link先を確認
Zhen Guo, Qi Zhang, Xinwei An, Qisheng Zhang, Audun J{\o}sang, Lance M. Kaplan, Feng Chen, Dong H. Jeong, Jin-Hee Cho(参考訳) 偽ニュースを広める様々な深刻な悪影響があるため、悪意のある人だけが偽ニュースを広めることはよく知られている。 しかし、必ずしも社会科学的な研究に基づくものではない。 その意図に基づいて偽ニューススプレッダーの種類を区別することは、異なるアプローチによる偽ニュースの拡散を緩和するために効果的に介入する方法を導くために重要である。 そこで本研究では,偽ニュースの適切な意図を識別可能な意図分類フレームワークを提案する。 我々は,長い短期記憶(LSTM)意図分類器にアクターを付加する場合に,入力シーケンスからノイズのある単語を除去することにより,各ツイートの構造表現を最適化するディープ強化学習(DRL)を活用する。 ポリシー勾配DRLモデル(例えばREINFORCE)は、アクターをより高い遅延報酬に導くことができる。 また,効果的な意思決定のために,多次元の不確実性に明示的に対処できる主観的意見を用いて,新たな不確実性認識即時報酬を考案する。 注釈付き意図クラスを持つ偽ニュースツイートデータセットから600Kのトレーニングエピソードを抽出し,DRLにおける不確実性を考慮した報酬の評価を行った。 評価の結果,提案フレームワークは,選択された単語数を効率的に削減し,高い95\%のマルチクラス精度を維持できることが判明した。

Due to various and serious adverse impacts of spreading fake news, it is often known that only people with malicious intent would propagate fake news. However, it is not necessarily true based on social science studies. Distinguishing the types of fake news spreaders based on their intent is critical because it will effectively guide how to intervene to mitigate the spread of fake news with different approaches. To this end, we propose an intent classification framework that can best identify the correct intent of fake news. We will leverage deep reinforcement learning (DRL) that can optimize the structural representation of each tweet by removing noisy words from the input sequence when appending an actor to the long short-term memory (LSTM) intent classifier. Policy gradient DRL model (e.g., REINFORCE) can lead the actor to a higher delayed reward. We also devise a new uncertainty-aware immediate reward using a subjective opinion that can explicitly deal with multidimensional uncertainty for effective decision-making. Via 600K training episodes from a fake news tweets dataset with an annotated intent class, we evaluate the performance of uncertainty-aware reward in DRL. Evaluation results demonstrate that our proposed framework efficiently reduces the number of selected words to maintain a high 95\% multi-class accuracy.
翻訳日:2023-02-22 17:33:32 公開日:2023-02-19
# オンライン製品レビューの有用性予測における事前学習言語モデルの有効性評価

Evaluating the Effectiveness of Pre-trained Language Models in Predicting the Helpfulness of Online Product Reviews ( http://arxiv.org/abs/2302.10199v1 )

ライセンス: Link先を確認
Ali Boluki, Javad Pourmostafa Roshan Sharami, Dimitar Shterionov(参考訳) 企業や顧客は製品レビューから貴重な情報を得ることができる。 レビューの数は、その潜在的な有用性に基づいてランク付けする必要があることが多い。 しかし、オンラインマーケットプレースで役に立つ投票を受けたレビューはごくわずかだ。 既存の投票数に基づいてすべてのレビューをソートすると、読者の注目が限られているため、有益なレビューが無関心になる可能性がある。 レビュー有用性予測の問題は、より高いレビューボリューム、新しく書かれたレビューやローンチ製品にとってさらに重要である。 本稿では,RoBERTaとXLM-R言語モデルを用いてオンライン製品レビューの有用性を予測する。 文献に関する我々の研究の貢献には、最先端言語モデル(単言語と多言語の両方)の有効性、堅牢なベースライン、これらのアプローチを評価する際にランク付け指標を考慮に入れること、そして初めて多言語モデルを評価することが含まれる。 実験にはAmazonレビューデータセットを使用します。 いくつかの製品カテゴリーについて検討した結果,多言語および単言語事前学習言語モデルはRMSEにおいて,手作り特徴を持つランダム森林を最大23%まで利用したベースラインよりも優れていた。 事前訓練された言語モデルは、複雑なテキストフィーチャエンジニアリングの必要性を減らす。 しかし,本研究の結果から,事前学習した多言語モデルは1言語のみの微調整には使用できない可能性が示唆された。 我々は、追加機能の有無に関わらず、言語モデルのパフォーマンスを評価する。 その結果,レビュアーによる製品評価などの追加機能を含めれば,予測手法をさらに改善できることがわかった。

Businesses and customers can gain valuable information from product reviews. The sheer number of reviews often necessitates ranking them based on their potential helpfulness. However, only a few reviews ever receive any helpfulness votes on online marketplaces. Sorting all reviews based on the few existing votes can cause helpful reviews to go unnoticed because of the limited attention span of readers. The problem of review helpfulness prediction is even more important for higher review volumes, and newly written reviews or launched products. In this work we compare the use of RoBERTa and XLM-R language models to predict the helpfulness of online product reviews. The contributions of our work in relation to literature include extensively investigating the efficacy of state-of-the-art language models -- both monolingual and multilingual -- against a robust baseline, taking ranking metrics into account when assessing these approaches, and assessing multilingual models for the first time. We employ the Amazon review dataset for our experiments. According to our study on several product categories, multilingual and monolingual pre-trained language models outperform the baseline that utilizes random forest with handcrafted features as much as 23% in RMSE. Pre-trained language models reduce the need for complex text feature engineering. However, our results suggest that pre-trained multilingual models may not be used for fine-tuning only one language. We assess the performance of language models with and without additional features. Our results show that including additional features like product rating by the reviewer can further help the predictive methods.
翻訳日:2023-02-22 17:27:48 公開日:2023-02-19
# ChatGPTも理解できますか? ChatGPTと微調整BERTの比較検討

Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT ( http://arxiv.org/abs/2302.10198v1 )

ライセンス: Link先を確認
Qihuang Zhong, Liang Ding, Juhua Liu, Bo Du and Dacheng Tao(参考訳) 近年、ChatGPTは人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。 いくつかの先行研究により、ChatGPTは既存のモデルと比較して顕著な生成能力を持つことが示された。 しかし、ChatGPTの理解能力の定量的分析はほとんど注目されていない。 本稿では,最もポピュラーなGLUEベンチマークを用いてChatGPTの理解能力について検討し,その4つのモデルとの比較を行った。 私たちはそれを見つけました 1) ChatGPTは,言い換えや類似性タスクの処理に不足する。 2)ChatGPTは,推論タスクにおけるBERTモデルを大きなマージンで上回る。 3) ChatGPT は感情分析や質問応答タスクにおいて BERT と同等の性能を示した。 さらに、推論タスクからのいくつかの悪いケースは、ChatGPTの潜在的な制限を示している。

Recently, ChatGPT has attracted great attention, as it can generate fluent and high-quality responses to human inquiries. Several prior studies have shown that ChatGPT attains remarkable generation ability compared with existing models. However, the quantitative analysis of ChatGPT's understanding ability has been given little attention. In this report, we explore the understanding ability of ChatGPT by evaluating it on the most popular GLUE benchmark, and comparing it with 4 representative fine-tuned BERT-style models. We find that: 1) ChatGPT falls short in handling paraphrase and similarity tasks; 2) ChatGPT outperforms all BERT models on inference tasks by a large margin; 3) ChatGPT achieves comparable performance compared with BERT on sentiment analysis and question answering tasks. Additionally, several bad cases from inference tasks show the potential limitation of ChatGPT.
翻訳日:2023-02-22 17:27:24 公開日:2023-02-19
# 成長する調節性神経細胞オートマトン

Growing Steerable Neural Cellular Automata ( http://arxiv.org/abs/2302.10197v1 )

ライセンス: Link先を確認
Ettore Randazzo, Alexander Mordvintsev and Craig Fouts(参考訳) ニューラルセルラーオートマタ(NCA)モデルは、局所的な調整から生じるパターン形成と複雑なグローバルな振る舞いに顕著な能力を示している。 しかし、NAAの当初の実装では、細胞は自身の向きを調整することができず、モデルデザイナがそれらを外部に向き付ける責任がある。 NCA(Growing Isotropic Neural Cellular Automata)の最近の等方的変種は、その近傍の空間状態の勾配を知覚する依存性を取り除くことで、モデル指向非依存の細胞を、下から、右から、あるいは左から、もはや区別できないようにしている。 本研究では, 調整可能な内部状態によって決定されるように, 各セルが自身の向きに責任を持つようにすることで, NCAを別のアプローチで再検討する。 得られたステアブルncaは、同一パターンに埋め込まれた配向の異なる細胞を含む。 等方性 NCA が配向に依存しないのに対して、ステアブル NCA はキラリティを持ち、それらは所定の左右対称性を持つ。 したがって, 2種のみを用いた対称性の破断, (2) 回転不変なトレーニング目標の導入, システムのアップダウン対称性を壊すために非同期セル更新に頼ることで, ステアブルなncaを等方性に類似するが, より単純な方法で訓練できることが示されている。

Neural Cellular Automata (NCA) models have shown remarkable capacity for pattern formation and complex global behaviors stemming from local coordination. However, in the original implementation of NCA, cells are incapable of adjusting their own orientation, and it is the responsibility of the model designer to orient them externally. A recent isotropic variant of NCA (Growing Isotropic Neural Cellular Automata) makes the model orientation-independent - cells can no longer tell up from down, nor left from right - by removing its dependency on perceiving the gradient of spatial states in its neighborhood. In this work, we revisit NCA with a different approach: we make each cell responsible for its own orientation by allowing it to "turn" as determined by an adjustable internal state. The resulting Steerable NCA contains cells of varying orientation embedded in the same pattern. We observe how, while Isotropic NCA are orientation-agnostic, Steerable NCA have chirality: they have a predetermined left-right symmetry. We therefore show that we can train Steerable NCA in similar but simpler ways than their Isotropic variant by: (1) breaking symmetries using only two seeds, or (2) introducing a rotation-invariant training objective and relying on asynchronous cell updates to break the up-down symmetry of the system.
翻訳日:2023-02-22 17:27:13 公開日:2023-02-19
# 人工生命の活力について

On the Liveliness of Artificial Life ( http://arxiv.org/abs/2302.10196v1 )

ライセンス: Link先を確認
Yong Zher Koh and Maurice HT Ling(参考訳) デジタル生命体としても知られる人工生命モデルが本当に生きているかどうかについての哲学的な議論が進行中である。 主な困難は、人生の包括的で明確な定義を見つけることである。 By examining similarities and differences in recent definitions of life, we define life as "any system with a boundary to confine the system within a definite volume and protect the system from external effects, consisting of a program that is capable of improvisation, able to react and adapt to the environment, able to regenerate parts of it-self or its entirety, with energy system comprises of non-interference sets of secluded reactions for self-sustenance, is considered alive or a living system. Any incomplete system containing a program and can be re-assembled into a living system; thereby, converting the reassembled system for the purpose of the incomplete system, are also considered alive." この定義を用いて、デジタル生物は、一部のデジタル生物が生きているとはみなされていないとしても、生命の境界の場合ではないかもしれないと論じる。 さらに,システム全体の連続性と,生命の将来の定義をテストするためのシステム内の要素の不連続性に関する実験フレームワークを提案する。

There has been on-going philosophical debate on whether artificial life models, also known as digital organisms, are truly alive. The main difficulty appears to be finding an encompassing and definite definition of life. By examining similarities and differences in recent definitions of life, we define life as "any system with a boundary to confine the system within a definite volume and protect the system from external effects, consisting of a program that is capable of improvisation, able to react and adapt to the environment, able to regenerate parts of it-self or its entirety, with energy system comprises of non-interference sets of secluded reactions for self-sustenance, is considered alive or a living system. Any incomplete system containing a program and can be re-assembled into a living system; thereby, converting the reassembled system for the purpose of the incomplete system, are also considered alive." Using this definition, we argue that digital organisms may not be the boundary case of life even though some digital organisms are not considered alive; thereby, taking the view that some form of digital organisms can be considered alive. In addition, we present an experimental framework based on continuity of the overall system and potential discontinuity of elements within the system for testing future definitions of life.
翻訳日:2023-02-22 17:26:45 公開日:2023-02-19
# タッカー分解を伴うテンソル回帰のノイズ推定 $\ell_0$ 正則化

Noise-Augmented $\ell_0$ Regularization of Tensor Regression with Tucker Decomposition ( http://arxiv.org/abs/2302.10775v1 )

ライセンス: Link先を確認
Tian Yan, Yinan Li, Fang Liu(参考訳) テンソルデータは多次元配列である。 テンソル予測器を用いた低ランク分解に基づく回帰法はテンソル予測器の構造情報を利用するが、テンソル回帰器のパラメータ数は著しく減少する。 本研究では,タッカー分解に伴うテンソル回帰(TR)のパラメータを正規化するために,NA$_0$CT$^2$(タッカー分解におけるコアテンソルの正規化に対するノイズ拡張)という手法を提案する。 理論上、NA$_0$CT$^2$は、線形TRの正確な$\ell_0$正規化と、タッカー分解から核テンソル上の一般化線型TRを実現する。 我々の知る限り、NA$_0$CT$^2$は核テンソルで$\ell_0$を達成するためのTRにおける最初のタッカー分解に基づく正規化法である。 na$_0$ct$^2$ は反復的な手順で実装され、各反復において2つの単純なステップを含む -- 更新されたパラメータ推定のタッカー分解からコアテンソルに基づくノイズデータを生成し、ベクタライズされた予測器上のノイズ提示データに対して正規glmを実行する。 我々は,NA$_0$CT$^2$の実装と,その$\ell_0$正規化効果をシミュレーション研究と実データアプリケーションの両方で示す。 その結果,na$_0$ct$^2$は,他の分解型tr法と比較して,正規化の有無にかかわらず予測精度が向上することが示唆された。

Tensor data are multi-dimension arrays. Low-rank decomposition-based regression methods with tensor predictors exploit the structural information in tensor predictors while significantly reducing the number of parameters in tensor regression. We propose a method named NA$_0$CT$^2$ (Noise Augmentation for $\ell_0$ regularization on Core Tensor in Tucker decomposition) to regularize the parameters in tensor regression (TR), coupled with Tucker decomposition. We establish theoretically that NA$_0$CT$^2$ achieves exact $\ell_0$ regularization in linear TR and generalized linear TR on the core tensor from the Tucker decomposition. To our knowledge, NA$_0$CT$^2$ is the first Tucker decomposition-based regularization method in TR to achieve $\ell_0$ in core tensor. NA$_0$CT$^2$ is implemented through an iterative procedure and involves two simple steps in each iteration -- generating noisy data based on the core tensor from the Tucker decomposition of the updated parameter estimate and running a regular GLM on noise-augmented data on vectorized predictors. We demonstrate the implementation of NA$_0$CT$^2$ and its $\ell_0$ regularization effect in both simulation studies and real data applications. The results suggest that NA$_0$CT$^2$ improves predictions compared to other decomposition-based TR approaches, with or without regularization and it also helps to identify important predictors though not designed for that purpose.
翻訳日:2023-02-22 14:37:05 公開日:2023-02-19
# 階層型情報ネットワークのための人工知能プロトコル

The Emerged Artificial Intelligence Protocol for Hierarchical Information Network ( http://arxiv.org/abs/2302.09463v1 )

ライセンス: Link先を確認
Caesar Wu and Pascal Bouvry(参考訳) 最近の人工知能の開発により、機械は人間のレベルの知性を達成することができる。 問題解決と意思決定は、人間の知能を測定する2つの精神能力である。 多くの学者が異なるモデルを提案している。 しかし、多レベル抽象化によるai指向階層モデルの構築にはギャップがある。 本研究では,与えられた問題に対して最適かつ説明可能な解を提供する7つの異なるレイヤからなる,AIプロトコルとして知られる新しいモデルを提案する。

The recent development of artificial intelligence enables a machine to achieve a human level of intelligence. Problem-solving and decision-making are two mental abilities to measure human intelligence. Many scholars have proposed different models. However, there is a gap in establishing an AI-oriented hierarchical model with a multilevel abstraction. This study proposes a novel model known as the emerged AI protocol that consists of seven distinct layers capable of providing an optimal and explainable solution for a given problem.
翻訳日:2023-02-21 18:28:55 公開日:2023-02-19
# medvit: 一般医用画像分類のためのロバストな視覚トランスフォーマー

MedViT: A Robust Vision Transformer for Generalized Medical Image Classification ( http://arxiv.org/abs/2302.09462v1 )

ライセンス: Link先を確認
Omid Nejati Manzari, Hamid Ahmadabadi, Hossein Kashiani, Shahriar B. Shokouhi, Ahmad Ayatollahi(参考訳) 畳み込みニューラルネットワーク(CNN)は、自動疾患診断のための既存の医療システムである。 しかし、不正確な診断が安全領域で悲惨な結果をもたらす可能性があるため、逆境攻撃の潜在的な脅威に対する深層医療診断システムの信頼性に関する懸念は依然として残っている。 本研究では,CNNの局所性と視覚変換器のグローバル接続性を備えた,高堅牢で効率的なCNN-Transformerハイブリッドモデルを提案する。 様々な表現部分空間の情報に協調して関与しながら,自己着脱機構の高次複雑性を軽減するため,効率的な畳み込み操作を用いて注意機構を構築する。 さらに,攻撃に対するトランスフォーマーモデルの脆弱性を軽減するために,よりスムーズな意思決定境界の学習を試みる。 この目的のために,ミニバッチ内の特徴平均と分散を置換することにより,高レベルの特徴空間における画像の形状情報を強化する。 計算複雑性の少ないハイブリッドモデルは,MedMNIST-2Dデータセットの大規模コレクションに関する最先端の研究と比較して,その堅牢性と一般化能力を示す。

Convolutional Neural Networks (CNNs) have advanced existing medical systems for automatic disease diagnosis. However, there are still concerns about the reliability of deep medical diagnosis systems against the potential threats of adversarial attacks since inaccurate diagnosis could lead to disastrous consequences in the safety realm. In this study, we propose a highly robust yet efficient CNN-Transformer hybrid model which is equipped with the locality of CNNs as well as the global connectivity of vision Transformers. To mitigate the high quadratic complexity of the self-attention mechanism while jointly attending to information in various representation subspaces, we construct our attention mechanism by means of an efficient convolution operation. Moreover, to alleviate the fragility of our Transformer model against adversarial attacks, we attempt to learn smoother decision boundaries. To this end, we augment the shape information of an image in the high-level feature space by permuting the feature mean and variance within mini-batches. With less computational complexity, our proposed hybrid model demonstrates its high robustness and generalization ability compared to the state-of-the-art studies on a large-scale collection of standardized MedMNIST-2D datasets.
翻訳日:2023-02-21 18:28:49 公開日:2023-02-19
# 顔詐欺防止のためのライブネススコアに基づく回帰ニューラルネットワーク

Liveness score-based regression neural networks for face anti-spoofing ( http://arxiv.org/abs/2302.09461v1 )

ライセンス: Link先を確認
Youngjun Kwak, Minyoung Jung, Hunjae Yoo, JinHo Shin, Changick Kim(参考訳) 従来のアンチスプーフィング手法では、擬似マップかユーザ定義ラベルのいずれかを使用しており、それぞれのアプローチの性能は、擬似マップを生成するサードパーティネットワークの精度と、ユーザがそのラベルを定義する方法に依存する。 本稿では,サードパーティのネットワークやユーザへの依存を克服するためのライブネススコアに基づく回帰ネットワークを提案する。 まず,実画像に関連する情報量を示す離散ラベルを生成するために,擬似離散ラベル符号化と呼ばれる新しいラベル技術を導入する。 第2に,提案する監督と期待生活スコアの差異を学習するための回帰ネットワークに基づく期待生活スコアを提案する。 最後に,4つの顔反スプーフィングベンチマークを用いて実験を行い,提案手法の有効性を検証した。 実験の結果,提案手法は従来の手法よりも優れていた。

Previous anti-spoofing methods have used either pseudo maps or user-defined labels, and the performance of each approach depends on the accuracy of the third party networks generating pseudo maps and the way in which the users define the labels. In this paper, we propose a liveness score-based regression network for overcoming the dependency on third party networks and users. First, we introduce a new labeling technique, called pseudo-discretized label encoding for generating discretized labels indicating the amount of information related to real images. Secondly, we suggest the expected liveness score based on a regression network for training the difference between the proposed supervision and the expected liveness score. Finally, extensive experiments were conducted on four face anti-spoofing benchmarks to verify our proposed method on both intra-and cross-dataset tests. The experimental results show our approach outperforms previous methods.
翻訳日:2023-02-21 18:28:32 公開日:2023-02-19
# 論理的帰納的バイアスによる言語表現の学習

Learning Language Representations with Logical Inductive Bias ( http://arxiv.org/abs/2302.09458v1 )

ライセンス: Link先を確認
Jianshu Chen(参考訳) トランスフォーマーアーキテクチャは、大規模なラベルのないテキストから強い言語表現を学ぶ自然言語タスクの解決で大きな成功を収めた。 本稿では,より優れた言語表現学習のための新しい論理帰納的バイアスを探求する。 論理推論は、与えられた知識や事実から答えを得るための形式的方法論として知られている。 このような観点から着想を得た我々は、この新たな帰納バイアスを符号化するために、FOLNet(First-Order Logic Network)と呼ばれる新しいニューラルネットワークを開発した。 我々は,学習可能なホルン節として,完全微分可能なニューラルネットワーク(folnet)にフォワードチェーンされる一連のニューラルロジック演算子を構築した。 興味深いことに、トランスフォーマーの自己アテンションモジュールは、2つのニューラルネットワーク演算子によって構成できる。 提案するFOLNetは,他の事前学習モデルと同一の入力・出力インタフェースを持つため,同様の損失を用いて事前学習・微調整を行うことができる。 また、他の事前訓練されたモデルを置き換える際に、FOLNetをプラグアンドプレイで使用できる。 論理的な帰納的バイアスにより,事前学習によって学習した‘論理推論スキル’のセットは,下流のさまざまなタスクを等しく解くことができることが期待される。 このため、FOLNetはより強力な転送能力を持つ言語表現を学習する。 いくつかの言語理解タスクの実験結果は、事前訓練されたfolnetモデルは、既存の強力なトランスフォーマーベースのアプローチよりも優れていることを示している。

Transformer architectures have achieved great success in solving natural language tasks, which learn strong language representations from large-scale unlabeled texts. In this paper, we seek to go further beyond and explore a new logical inductive bias for better language representation learning. Logic reasoning is known as a formal methodology to reach answers from given knowledge and facts. Inspired by such a view, we develop a novel neural architecture named FOLNet (First-Order Logic Network), to encode this new inductive bias. We construct a set of neural logic operators as learnable Horn clauses, which are further forward-chained into a fully differentiable neural architecture (FOLNet). Interestingly, we find that the self-attention module in transformers can be composed by two of our neural logic operators, which probably explains their strong reasoning performance. Our proposed FOLNet has the same input and output interfaces as other pretrained models and thus could be pretrained/finetuned by using similar losses. It also allows FOLNet to be used in a plug-and-play manner when replacing other pretrained models. With our logical inductive bias, the same set of ``logic deduction skills'' learned through pretraining are expected to be equally capable of solving diverse downstream tasks. For this reason, FOLNet learns language representations that have much stronger transfer capabilities. Experimental results on several language understanding tasks show that our pretrained FOLNet model outperforms the existing strong transformer-based approaches.
翻訳日:2023-02-21 18:28:17 公開日:2023-02-19
# 敵対的機械学習: バックドア攻撃, 重み攻撃, 敵対的事例の体系的調査

Adversarial Machine Learning: A Systematic Survey of Backdoor Attack, Weight Attack and Adversarial Example ( http://arxiv.org/abs/2302.09457v1 )

ライセンス: Link先を確認
Baoyuan Wu, Li Liu, Zihao Zhu, Qingshan Liu, Zhaofeng He, Siwei Lyu(参考訳) 敵対的機械学習(adversarial machine learning, aml)は、人間との一貫性や予期せぬ予測を可能にする機械学習の敵対的現象を研究する。 トレーニング時の逆襲(バックドア攻撃)、デプロイメント時の逆攻撃(重み攻撃)、推論時の逆攻撃(逆攻撃)など、機械学習システムのさまざまなステージで発生するこの逆攻撃を探求するために、いくつかのパラダイムが最近開発されている。 しかしながら、これらのパラダイムは共通の目標を共有していますが、開発はほとんど独立しており、AMLの全体像はありません。 本研究は,amlコミュニティに統一的な視点を提供し,この分野全体の進歩を体系的に見直すことを目的とする。 まず、AMLに関する一般的な定義を提供し、次に既存の攻撃パラダイムをカバーするための統一的な数学的枠組みを提案する。 提案されている統一フレームワークによると、これらのパラダイム間のつながりや違いを明確に把握するだけでなく、各パラダイムにおける既存の作品を体系的に分類し、レビューすることができる。

Adversarial machine learning (AML) studies the adversarial phenomenon of machine learning, which may make inconsistent or unexpected predictions with humans. Some paradigms have been recently developed to explore this adversarial phenomenon occurring at different stages of a machine learning system, such as training-time adversarial attack (i.e., backdoor attack), deployment-time adversarial attack (i.e., weight attack), and inference-time adversarial attack (i.e., adversarial example). However, although these paradigms share a common goal, their developments are almost independent, and there is still no big picture of AML. In this work, we aim to provide a unified perspective to the AML community to systematically review the overall progress of this field. We firstly provide a general definition about AML, and then propose a unified mathematical framework to covering existing attack paradigms. According to the proposed unified framework, we can not only clearly figure out the connections and differences among these paradigms, but also systematically categorize and review existing works in each paradigm.
翻訳日:2023-02-21 18:27:53 公開日:2023-02-19
# 予測誤差保証による分散オフラインポリシー評価

Distributional Offline Policy Evaluation with Predictive Error Guarantees ( http://arxiv.org/abs/2302.09456v1 )

ライセンス: Link先を確認
Runzhe Wu, Masatoshi Uehara, Wen Sun(参考訳) 本研究では,ポリシから生成されていないオフラインデータセット,すなわち分散オフラインポリシ評価(OPE)を用いて,ポリシの戻り値の分布を推定する問題について検討する。 本稿では,FLEと呼ばれるアルゴリズムを提案する。このアルゴリズムは,最大同値推定(MLE)問題列を実行し,MLEを用いてトレーニングできる限り,最先端の確率的生成モデルを統合する柔軟性を有する。 FLEは有限地平線と無限地平線割引設定の両方に使用することができ、報酬は多次元ベクトルとなる。 理論的な結果から、有限地平線と無限地平線が割引された設定の両方において、FLEは総変分距離とワッサーシュタイン距離で基底真理に近い分布を学習できることを示した。 理論的な結果は,オフラインデータがテスト方針のトレースをカバーし,教師付き学習mle手続きが成功する条件下に存在する。 実験では,2つの生成モデル,ガウス混合モデルと拡散モデルを用いてFLEの性能を示す。 多次元報酬設定では、拡散モデルを持つFLEは、テストポリシの戻りの複雑な分布を推定することができる。

We study the problem of estimating the distribution of the return of a policy using an offline dataset that is not generated from the policy, i.e., distributional offline policy evaluation (OPE). We propose an algorithm called Fitted Likelihood Estimation (FLE), which conducts a sequence of Maximum Likelihood Estimation (MLE) problems and has the flexibility of integrating any state-of-art probabilistic generative models as long as it can be trained via MLE. FLE can be used for both finite horizon and infinite horizon discounted settings where rewards can be multi-dimensional vectors. In our theoretical results, we show that for both finite and infinite horizon discounted settings, FLE can learn distributions that are close to the ground truth under total variation distance and Wasserstein distance, respectively. Our theoretical results hold under the conditions that the offline data covers the test policy's traces and the supervised learning MLE procedures succeed. Experimentally, we demonstrate the performance of FLE with two generative models, Gaussian mixture models and diffusion models. For the multi-dimensional reward setting, FLE with diffusion models is capable of estimating the complicated distribution of the return of a test policy.
翻訳日:2023-02-21 18:27:34 公開日:2023-02-19
# 一般線形帯域における最適政策値の推定

Estimating Optimal Policy Value in General Linear Contextual Bandits ( http://arxiv.org/abs/2302.09451v1 )

ライセンス: Link先を確認
Jonathan N. Lee, Weihao Kong, Aldo Pacchiano, Vidya Muthukumar, Emma Brunskill(参考訳) 多くのバンディット問題において、政策によって達成可能な最大報酬はしばしば前もって不明である。 我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。 これを$V^*$推定と呼ぶ。 最近、高速$v^*$推定が可能であるが、ガウス共変量を持つ不連続な線形バンディットでのみ可能であることが示されている。 より現実的なコンテキスト分布に対してこれが可能かどうかは、モデル選択のようなタスクに対してオープンで重要な質問である。 本稿では、まず、この一般的な問題が難しいことを示す下限を示す。 しかし、より強い仮定の下では、$\widetilde{\mathcal{O}}(\sqrt{d})$ $V^*$ のサブ線形推定が実際には情報理論的に可能であり、$d$ が次元であることを示すアルゴリズムと解析を与える。 次に, 一般分布に留まり, 文脈分布がガウス分布である場合の密接である$v^*$上の問題依存上限を推定する, より実用的で計算効率の高いアルゴリズムを提案する。 我々のアルゴリズムは上限を推定するために$\widetilde{\mathcal{O}}(\sqrt{d})$サンプルのみを必要とすることを証明している。 我々は,この上限値と推定器を用いて,バンディットモデル選択および治療効果試験におけるいくつかの応用の新規かつ改善された保証を得る。

In many bandit problems, the maximal reward achievable by a policy is often unknown in advance. We consider the problem of estimating the optimal policy value in the sublinear data regime before the optimal policy is even learnable. We refer to this as $V^*$ estimation. It was recently shown that fast $V^*$ estimation is possible but only in disjoint linear bandits with Gaussian covariates. Whether this is possible for more realistic context distributions has remained an open and important question for tasks such as model selection. In this paper, we first provide lower bounds showing that this general problem is hard. However, under stronger assumptions, we give an algorithm and analysis proving that $\widetilde{\mathcal{O}}(\sqrt{d})$ sublinear estimation of $V^*$ is indeed information-theoretically possible, where $d$ is the dimension. We then present a more practical, computationally efficient algorithm that estimates a problem-dependent upper bound on $V^*$ that holds for general distributions and is tight when the context distribution is Gaussian. We prove our algorithm requires only $\widetilde{\mathcal{O}}(\sqrt{d})$ samples to estimate the upper bound. We use this upper bound and the estimator to obtain novel and improved guarantees for several applications in bandit model selection and testing for treatment effects.
翻訳日:2023-02-21 18:27:13 公開日:2023-02-19
# マルチタスク強化学習によるロバスト二足跳躍制御

Robust and Versatile Bipedal Jumping Control through Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2302.09450v1 )

ライセンス: Link先を確認
Zhongyu Li, Xue Bin Peng, Pieter Abbeel, Sergey Levine, Glen Berseth, Koushil Sreenath(参考訳) この研究は、トルク制御二足歩行ロボットが現実世界でロバストで多用途な動的ジャンプを行えるようにすることで、二足歩行ロボットのアジリティの限界を押し上げることを目的としている。 本研究では,異なる場所や方向へのジャンプなど,さまざまなジャンプタスクを達成するために,ロボットを訓練するためのマルチタスク強化学習フレームワークを提案する。 そこで本研究では,ロボットの入出力(i/o)履歴をエンコードし,その短期的i/o履歴に直接アクセスする新たなポリシー構造を提案する。 多様なマルチタスク政策を訓練するために,異なる目的のために異なる訓練段階を含む多段階学習手法を用いる。 マルチステージトレーニングの後、マルチタスクポリシは、物理的な二足歩行ロボットであるCassieに直接転送することができる。 さまざまなタスクのトレーニングと、より多様なシナリオの探求は、現実世界の展開中に摂動や着陸不良から回復するために、さまざまな学習スキルを活用できる、非常に堅牢なポリシにつながる。 提案されたマルチタスクポリシーのロバスト性により、カッシーは長いジャンプ、高架プラットフォームへのジャンプ、多軸ジャンプなど、現実世界での様々な挑戦的なジャンプタスクを完了できる。

This work aims to push the limits of agility for bipedal robots by enabling a torque-controlled bipedal robot to perform robust and versatile dynamic jumps in the real world. We present a multi-task reinforcement learning framework to train the robot to accomplish a large variety of jumping tasks, such as jumping to different locations and directions. To improve performance on these challenging tasks, we develop a new policy structure that encodes the robot's long-term input/output (I/O) history while also providing direct access to its short-term I/O history. In order to train a versatile multi-task policy, we utilize a multi-stage training scheme that includes different training stages for different objectives. After multi-stage training, the multi-task policy can be directly transferred to Cassie, a physical bipedal robot. Training on different tasks and exploring more diverse scenarios leads to highly robust policies that can exploit the diverse set of learned skills to recover from perturbations or poor landings during real-world deployment. Such robustness in the proposed multi-task policy enables Cassie to succeed in completing a variety of challenging jump tasks in the real world, such as standing long jumps, jumping onto elevated platforms, and multi-axis jumps.
翻訳日:2023-02-21 18:26:52 公開日:2023-02-19
# 隠れた共同ファウンダーによる不規則時系列観測による治療効果の推定

Estimating Treatment Effects from Irregular Time Series Observations with Hidden Confounders ( http://arxiv.org/abs/2302.09446v1 )

ライセンス: Link先を確認
Defu Cao, James Enouen, Yan Liu(参考訳) 治療効果の推定は因果推論において重要な役割を担い、政策分析や意思決定のような現実世界の多くの応用がある。 それでも、隠れた共同創設者の存在下での縦断的な治療効果の推定は非常に難しい問題である。 近年,隠れた共同設立者の存在を無視して,時間動的観測データから未偏りの ite 推定を得る作業が増えている。 さらに、隠れた共同創設者を扱う既存の作業の多くは、継続的な時間設定には適用できない。 本稿では,隠れた共同創設者の存在下での動的時間設定におけるデコンウンディングに焦点をあてる作業の行を延長する。 神経微分方程式の最近の進歩を利用して,確率制御微分方程式とリプシッツ制約畳み込み演算を用いた潜在因子モデルを構築し,進行中の介入や不規則にサンプリングされた観測に関する情報を連続的に取り入れる。 合成データセットと現実世界データセットの両方の実験では、隠れた共同創設者の存在下で治療効果を推定するための連続時間法が期待されている。

Estimating treatment effects plays a crucial role in causal inference, having many real-world applications like policy analysis and decision making. Nevertheless, estimating treatment effects in the longitudinal setting in the presence of hidden confounders remains an extremely challenging problem. Recently, there is a growing body of work attempting to obtain unbiased ITE estimates from time-dynamic observational data by ignoring the possible existence of hidden confounders. Additionally, many existing works handling hidden confounders are not applicable for continuous-time settings. In this paper, we extend the line of work focusing on deconfounding in the dynamic time setting in the presence of hidden confounders. We leverage recent advancements in neural differential equations to build a latent factor model using a stochastic controlled differential equation and Lipschitz constrained convolutional operation in order to continuously incorporate information about ongoing interventions and irregularly sampled observations. Experiments on both synthetic and real-world datasets highlight the promise of continuous time methods for estimating treatment effects in the presence of hidden confounders.
翻訳日:2023-02-21 18:26:30 公開日:2023-02-19
# 勾配に基づくwang-landauアルゴリズム : 入力空間上のニューラルネットワークの\\output分散のための新しいサンプリング器

Gradient-based Wang--Landau Algorithm: A Novel Sampler for \\Output Distribution of Neural Networks over the Input Space ( http://arxiv.org/abs/2302.09484v1 )

ライセンス: Link先を確認
Weitang Liu, Ying-Wai Li, Yi-Zhuang You, Jingbo Shang(参考訳) 入力空間全体にわたるニューラルネットワーク(NN)の出力分布は、完全な入出力マッピング関係をキャプチャし、より包括的なNN理解への洞察を提供する。 排他的列挙法や従来のモンテカルロ法は、特に高次元入力に対して非現実的なサンプリング時間を示すことができる。 そこで本研究では,GWLを用いた新しいサンプリング手法を提案する。 まず、NNの出力分布と物理系の状態密度(DOS)との接続を描画する。 次に,そのランダムな提案を勾配に基づくモンテカルロ提案に置き換え,dos問題に対する古典的なスプリマーであるwang-landauアルゴリズムを再構成する。 このように、gwlサンプリング器は入力空間の未探索部分集合をより効率的に調査する。 例えば、バイナリ画像分類タスクにおいて、cnnとresnetは、人間の認識不能な画像の大部分を非常にネガティブなロジット値にマッピングした。

The output distribution of a neural network (NN) over the entire input space captures the complete input-output mapping relationship, offering insights toward a more comprehensive NN understanding. Exhaustive enumeration or traditional Monte Carlo methods for the entire input space can exhibit impractical sampling time, especially for high-dimensional inputs. To make such difficult sampling computationally feasible, in this paper, we propose a novel Gradient-based Wang-Landau (GWL) sampler. We first draw the connection between the output distribution of a NN and the density of states (DOS) of a physical system. Then, we renovate the classic sampler for the DOS problem, the Wang-Landau algorithm, by replacing its random proposals with gradient-based Monte Carlo proposals. This way, our GWL sampler investigates the under-explored subsets of the input space much more efficiently. Extensive experiments have verified the accuracy of the output distribution generated by GWL and also showcased several interesting findings - for example, in a binary image classification task, both CNN and ResNet mapped the majority of human unrecognizable images to very negative logit values.
翻訳日:2023-02-21 18:19:37 公開日:2023-02-19
# 個人モデルトレーニングに必要な公共事前訓練はなぜ必要か

Why Is Public Pretraining Necessary for Private Model Training? ( http://arxiv.org/abs/2302.09483v1 )

ライセンス: Link先を確認
Arun Ganesh, Mahdi Haghifam, Milad Nasr, Sewoong Oh, Thomas Steinke, Om Thakkar, Abhradeep Thakurta, Lun Wang(参考訳) ベンチマーク言語とビジョンタスクでトレーニングされたモデルのプライバシ利用トレードオフにおいて、公開データを事前トレーニングすることによる顕著な改善が報告されている。 これは、非プライベート環境での事前トレーニングの標準的な動機である転送学習のメリットにも起因している。 しかし、プライバシー下での事前トレーニングによって達成される改善の対照的性は、プライベートでない設定と比べて、これらの利益を駆動する深い、明確な原因があることを示唆している。 この現象を説明するために、モデルトレーニングの非凸損失環境は、2つのフェーズを通過する最適化アルゴリズムを必要とすると仮定する。 第一に、アルゴリズムはロスランドスケープにおいて良い「悪い」を選択する必要がある。 第二に、このアルゴリズムはその盆地内で簡単な最適化を解く。 前者はプライベートデータでは解決が難しいが、後者は分散シフトやデータ不足のために公開データでは解決が難しい。 この直感で導かれた理論的な構成は、公的な事前訓練なしに私的な訓練の分離を確実に示すものである。 さらに、CIFAR10とLibriSpeechに関する体系的な実験は、我々の仮説を支持する証拠を提供する。

In the privacy-utility tradeoff of a model trained on benchmark language and vision tasks, remarkable improvements have been widely reported with the use of pretraining on publicly available data. This is in part due to the benefits of transfer learning, which is the standard motivation for pretraining in non-private settings. However, the stark contrast in the improvement achieved through pretraining under privacy compared to non-private settings suggests that there may be a deeper, distinct cause driving these gains. To explain this phenomenon, we hypothesize that the non-convex loss landscape of a model training necessitates an optimization algorithm to go through two phases. In the first, the algorithm needs to select a good "basin" in the loss landscape. In the second, the algorithm solves an easy optimization within that basin. The former is a harder problem to solve with private data, while the latter is harder to solve with public data due to a distribution shift or data scarcity. Guided by this intuition, we provide theoretical constructions that provably demonstrate the separation between private training with and without public pretraining. Further, systematic experiments on CIFAR10 and LibriSpeech provide supporting evidence for our hypothesis.
翻訳日:2023-02-21 18:19:16 公開日:2023-02-19
# 量子緩和に基づく最適化アルゴリズム:理論的拡張

Quantum-Relaxation Based Optimization Algorithms: Theoretical Extensions ( http://arxiv.org/abs/2302.09481v1 )

ライセンス: Link先を確認
Kosei Teramoto and Rudy Raymond and Eyuri Wakakuwa and Hiroshi Imai(参考訳) 量子ランダムアクセス最適化アルゴリズム(Quantum Random Access Optimizer, QRAO)は、フラーらによって提案された量子ランダムアクセス符号(QRAC)を用いて、単一量子ビットでバイナリ最適化の複数の変数を符号化する最適化アルゴリズムである。 最大カット問題に対するqraoの近似比率は、ビット対キュービットの圧縮比が3ドルxである場合0.555ドル、圧縮比が2ドルxであれば0.625ドルであり、空間効率と近似可能性の間のトレードオフを示す。 本研究では,3つの古典ビットを2つの量子ビット(ビット対量子ビット圧縮比は1.5$x)にエンコードする別のQRACを用いて量子緩和を拡張し,最大カット問題に対する近似比を0.722$とする。 また、フラー=et~alの当初の量子緩和と異なり、常に2xビット対量子ビットの圧縮比を保証する新しい量子緩和も設計する。 非自明な近似比が$\left(>\frac{1}{2}\right)$ のときの状態を分析する。 この結果が量子近似可能性の解析と,量子緩和に基づくアプローチの実用化に繋がることを期待している。

Quantum Random Access Optimizer (QRAO) is a quantum-relaxation based optimization algorithm proposed by Fuller et al. that utilizes Quantum Random Access Code (QRAC) to encode multiple variables of binary optimization in a single qubit. The approximation ratio bound of QRAO for the maximum cut problem is $0.555$ if the bit-to-qubit compression ratio is $3$x, while it is $0.625$ if the compression ratio is $2$x, thus demonstrating a trade-off between space efficiency and approximability. In this research, we extend the quantum-relaxation by using another QRAC which encodes three classical bits into two qubits (the bit-to-qubit compression ratio is $1.5$x) and obtain its approximation ratio for the maximum cut problem as $0.722$. Also, we design a novel quantum relaxation that always guarantees a $2$x bit-to-qubit compression ratio which is unlike the original quantum relaxation of Fuller~et~al. We analyze the condition when it has a non-trivial approximation ratio bound $\left(>\frac{1}{2}\right)$. We hope that our results lead to the analysis of the quantum approximability and practical efficiency of the quantum-relaxation based approaches.
翻訳日:2023-02-21 18:18:57 公開日:2023-02-19
# フェデレーション学習の対向的ロバスト性に関する研究

Delving into the Adversarial Robustness of Federated Learning ( http://arxiv.org/abs/2302.09479v1 )

ライセンス: Link先を確認
Jie Zhang, Bo Li, Chen Chen, Lingjuan Lyu, Shuang Wu, Shouhong Ding, Chao Wu(参考訳) フェデレートラーニング(FL)では、モデルは敵の例に対して中心的に訓練されたモデルと同じくらい脆弱である。 しかし、連合学習の逆境的堅牢性はほとんど解明されていない。 本稿では,連合学習の逆ロバスト性に関する課題に光を当てる。 既存のFL手法の敵意的脆弱性をよりよく理解するために,様々な攻撃に対する包括的堅牢性評価と敵意的訓練手法を実践する。 さらに,特に非iid設定において,flにおける直接的敵意訓練がテスト精度を著しく損なうことによる悪影響を明らかにする。 本研究では,flシステムの精度とロバスト性を改善するために,2つのコンポーネント(局所再重み付けとグローバル正規化)からなる,決定境界に基づくフェデレーション逆学習(dbfat)と呼ばれる新しいアルゴリズムを提案する。 複数のデータセットに対する大規模な実験は、DBFATがIDと非IID設定の両方で、他のベースラインを一貫して上回っていることを示している。

In Federated Learning (FL), models are as fragile as centrally trained models against adversarial examples. However, the adversarial robustness of federated learning remains largely unexplored. This paper casts light on the challenge of adversarial robustness of federated learning. To facilitate a better understanding of the adversarial vulnerability of the existing FL methods, we conduct comprehensive robustness evaluations on various attacks and adversarial training methods. Moreover, we reveal the negative impacts induced by directly adopting adversarial training in FL, which seriously hurts the test accuracy, especially in non-IID settings. In this work, we propose a novel algorithm called Decision Boundary based Federated Adversarial Training (DBFAT), which consists of two components (local re-weighting and global regularization) to improve both accuracy and robustness of FL systems. Extensive experiments on multiple datasets demonstrate that DBFAT consistently outperforms other baselines under both IID and non-IID settings.
翻訳日:2023-02-21 18:18:35 公開日:2023-02-19
# 誰の確率? 何の事? Khrennikovへの回答

Whose Probabilities? About What? A Reply to Khrennikov ( http://arxiv.org/abs/2302.09475v1 )

ライセンス: Link先を確認
Blake C. Stacey(参考訳) khrennikovは最近の論文で、量子測定結果の一致に関する特定の定理はqbismとして知られる量子力学の解釈の問題を引き起こすと主張している。 QBismが確率に与える意味に照らして、この定理の基本的な設定を考えると、主張が根拠がないことを示す。

In a recent article, Khrennikov claims that a particular theorem about agreement between quantum measurement results poses a problem for the interpretation of quantum mechanics known as QBism. Considering the basic setup of that theorem in light of the meaning that QBism gives to probability shows that the claim is unfounded.
翻訳日:2023-02-21 18:18:18 公開日:2023-02-19
# マルチスペース多点アライメントによるビデオテキスト検索

Video-Text Retrieval by Supervised Multi-Space Multi-Grained Alignment ( http://arxiv.org/abs/2302.09473v1 )

ライセンス: Link先を確認
Yimu Wang, Peng Shi(参考訳) 近年の映像テキスト検索の進歩は,より優れた表現学習の探求によって進んでいるが,本稿では,映像とテキストの間で共有されるアライメント表現空間を学習するための,新しいマルチスペース多粒度教師付き学習フレームワークsumaを提案する。 共有整列空間は有限個の概念クラスタで初期化され、それぞれが多くの基本的な概念(単語)を参照する。 テキストデータが手元にある場合,提案する類似性とアライメント損失を用いて,共有アライメント空間を教師ありに更新することができる。 さらに,多粒度アライメントを実現するために,映像のモダリティをモデル化し,細粒度および粗粒度類似度を計算するフレーム表現を組み込んだ。 学習された共有整合空間と多粒度類似性から、ビデオテキスト検索ベンチマークの広範な実験により、既存の手法よりもSUMAの方が優れていることが示された。

While recent progress in video-text retrieval has been advanced by the exploration of better representation learning, in this paper, we present a novel multi-space multi-grained supervised learning framework, SUMA, to learn an aligned representation space shared between the video and the text for video-text retrieval. The shared aligned space is initialized with a finite number of concept clusters, each of which refers to a number of basic concepts (words). With the text data at hand, we are able to update the shared aligned space in a supervised manner using the proposed similarity and alignment losses. Moreover, to enable multi-grained alignment, we incorporate frame representations for better modeling the video modality and calculating fine-grained and coarse-grained similarity. Benefiting from learned shared aligned space and multi-grained similarity, extensive experiments on several video-text retrieval benchmarks demonstrate the superiority of SUMA over existing methods.
翻訳日:2023-02-21 18:18:14 公開日:2023-02-19
# 電荷保存を持つ非エルミートハミルトニアンの絡み合い相転移に関する全計数統計

Full Counting Statistics across the Entanglement Phase Transition of Non-Hermitian Hamiltonians with Charge Conservations ( http://arxiv.org/abs/2302.09470v1 )

ライセンス: Link先を確認
Tian-Gang Zhou, Yi-Neng Zhou and Pengfei Zhang(参考訳) 量子測定を行うと、物理観測可能な$O$の期待値だけでなく、可能なすべての結果の確率分布も生成される。 フルカウンティング統計(fcs) $z(\phi, o)$、この分布のフーリエ変換は測定の完全な情報を含んでいる。 本研究では,非エルミートSYKモデルで記述された1次元システムに対して,サブシステム$A$の電荷演算子である$Q_A$のFCSについて検討する。 相互作用系に対する体積法的な絡み合った位相と非相互作用系に対する臨界位相の両方において、共形対称性が出現し、$F(\phi, Q_A)\equiv \log Z(\phi, Q_A)\sim \phi^2\log |A|$となる。 短距離の絡み合った位相では、F(\phi, Q_A)\sim (1-\cos\phi) |\partial A|$ は相互作用の有無にかかわらずエリア・ローの振る舞いを示す。 以上の結果から,FCSは非エルミート系におけるエンタングルメント相転移の普遍的なプローブであり,複数のレプリカの導入を必要としないことが示唆された。 また、離散対称性、長距離ホッピング、高次元への一般化の結果についても論じる。

Performing quantum measurements produces not only the expectation value of a physical observable $O$ but also the probability distribution of all possible outcomes. The full counting statistics (FCS) $Z(\phi, O)$, a Fourier transform of this distribution, contains the complete information of the measurement. In this work, we study the FCS of $Q_A$, the charge operator in subsystem $A$, for 1D systems described by non-Hermitian SYK models, which are solvable in the large-$N$ limit. In both the volume-law entangled phase for interacting systems and the critical phase for non-interacting systems, the conformal symmetry emerges, which gives $F(\phi, Q_A)\equiv \log Z(\phi, Q_A)\sim \phi^2\log |A|$. In short-range entangled phases, the FCS shows area-law behavior $F(\phi, Q_A)\sim (1-\cos\phi) |\partial A|$, regardless of the presence of interactions. Our results suggest the FCS is a universal probe of entanglement phase transitions in non-Hermitian systems with conserved charges, which does not require the introduction of multiple replicas. We also discuss the consequence of discrete symmetry, long-range hopping, and generalizations to higher dimensions.
翻訳日:2023-02-21 18:17:53 公開日:2023-02-19
# 顔編集のための3dアウェアスタイルナーフエンコーダの設計

Designing a 3D-Aware StyleNeRF Encoder for Face Editing ( http://arxiv.org/abs/2302.09467v1 )

ライセンス: Link先を確認
Songlin Yang, Wei Wang, Bo Peng, Jing Dong(参考訳) GANインバージョンは多くの顔操作タスクで利用されてきたが、2D GANは多視点3D一貫性のある画像を生成するのに失敗することが多い。 2D GAN用に設計されたエンコーダは、インバージョンと編集に十分な3D情報を提供することができない。 したがって、3D対応のGANインバージョンは、GANの3D編集能力を高めるために提案される。 しかし、3D対応のGANインバージョンはいまだ探索されていない。 この問題に対処するために,強力なStyleNeRFモデルに基づくGANインバージョンと顔編集のための3D対応(3Da)エンコーダを提案する。 提案する3daエンコーダは,パラメトリック3次元顔モデルと学習可能なディテール表現モデルを組み合わせた形状,テクスチャ,視野方向コードを生成する。 よりフレキシブルな顔操作のために、二分岐のStyleFlowモジュールを設計し、不整合幾何とテクスチャフローでStyleNeRFコードを転送する。 顔属性の編集とテクスチャ伝達の両面で3次元一貫した顔操作を実現した。 さらに,映像編集では,フレームコードのシーケンスを共通の正準多様体にすることで,編集属性の時間的一貫性を向上させる。

GAN inversion has been exploited in many face manipulation tasks, but 2D GANs often fail to generate multi-view 3D consistent images. The encoders designed for 2D GANs are not able to provide sufficient 3D information for the inversion and editing. Therefore, 3D-aware GAN inversion is proposed to increase the 3D editing capability of GANs. However, the 3D-aware GAN inversion remains under-explored. To tackle this problem, we propose a 3D-aware (3Da) encoder for GAN inversion and face editing based on the powerful StyleNeRF model. Our proposed 3Da encoder combines a parametric 3D face model with a learnable detail representation model to generate geometry, texture and view direction codes. For more flexible face manipulation, we then design a dual-branch StyleFlow module to transfer the StyleNeRF codes with disentangled geometry and texture flows. Extensive experiments demonstrate that we realize 3D consistent face manipulation in both facial attribute editing and texture transfer. Furthermore, for video editing, we make the sequence of frame codes share a common canonical manifold, which improves the temporal consistency of the edited attributes.
翻訳日:2023-02-21 18:17:26 公開日:2023-02-19
# RePrompt: 精密表現に向けてAI生成芸術を再現する自動プロンプト編集

RePrompt: Automatic Prompt Editing to Refine AI-Generative Art Towards Precise Expressions ( http://arxiv.org/abs/2302.09466v1 )

ライセンス: Link先を確認
Yunlong Wang, Shuyuan Shen, Brian Y. Lim(参考訳) 生成AIモデルは、テキストプロンプトで画像を生成する素晴らしい能力を示しており、視覚芸術の創造性と自己表現の創造性に恩恵をもたらす可能性がある。 しかし、生成した画像が入力テキストから文脈や感情を正確に表現しているかは明らかでない。 我々は,AI生成画像の感情表現性を探求し,生成画像の正確な表現に向けてテキストプロンプトを洗練させるRePromptを開発した。 クラウドソースによる編集戦略に触発されて、名詞の数や具体性などの直感的なテキスト機能をキュレーションし、プロキシモデルを訓練し、AI生成画像の特徴効果を分析した。 プロキシモデルのモデル説明を用いて,テキストプロンプトを調整し,正確な感情表現のための画像生成を最適化した。 シミュレーションとユーザスタディを行い、RePromptはAI生成画像の感情表現性、特に負の感情に対して著しく改善することを示した。

Generative AI models have shown impressive ability to produce images with text prompts, which could benefit creativity in visual art creation and self-expression. However, it is unclear how precisely the generated images express contexts and emotions from the input texts. We explored the emotional expressiveness of AI-generated images and developed RePrompt, an automatic method to refine text prompts toward precise expression of the generated images. Inspired by crowdsourced editing strategies, we curated intuitive text features, such as the number and concreteness of nouns, and trained a proxy model to analyze the feature effects on the AI-generated image. With model explanations of the proxy model, we curated a rubric to adjust text prompts to optimize image generation for precise emotion expression. We conducted simulation and user studies, which showed that RePrompt significantly improves the emotional expressiveness of AI-generated images, especially for negative emotions.
翻訳日:2023-02-21 18:17:05 公開日:2023-02-19
# 確率的生成フローネットワーク

Stochastic Generative Flow Networks ( http://arxiv.org/abs/2302.09465v1 )

ライセンス: Link先を確認
Ling Pan, Dinghuai Zhang, Moksh Jain, Longbo Huang, Yoshua Bengio(参考訳) 生成フローネットワーク(英: Generative Flow Networks、略してGFlowNets)は、「制御としての推論」のレンズを通して複雑な組合せ構造をサンプリングすることを学ぶ確率的エージェントのファミリーである。 彼らは与えられたエネルギーの景観から高品質で多様な候補を生み出す大きな可能性を示してきた。 しかし、既存のGFlowNetは決定論的環境にのみ適用でき、確率力学のより一般的なタスクではフェールし、適用性を制限することができる。 この課題を克服するため,本稿ではgflownetsを確率環境に拡張する新しいアルゴリズムであるstochastic gflownetsを紹介する。 状態遷移を2つのステップに分解することで、Stochastic GFlowNetsは環境確率性を分離し、動的モデルを学び、それをキャプチャする。 広範囲な実験結果から、確率的GFlowNetsは、確率力学を持つ様々な標準ベンチマークにおいて、標準GFlowNetsやMCMCおよびRLベースのアプローチよりも大きなアドバンテージを提供することが示された。

Generative Flow Networks (or GFlowNets for short) are a family of probabilistic agents that learn to sample complex combinatorial structures through the lens of "inference as control". They have shown great potential in generating high-quality and diverse candidates from a given energy landscape. However, existing GFlowNets can be applied only to deterministic environments, and fail in more general tasks with stochastic dynamics, which can limit their applicability. To overcome this challenge, this paper introduces Stochastic GFlowNets, a new algorithm that extends GFlowNets to stochastic environments. By decomposing state transitions into two steps, Stochastic GFlowNets isolate environmental stochasticity and learn a dynamics model to capture it. Extensive experimental results demonstrate that Stochastic GFlowNets offer significant advantages over standard GFlowNets as well as MCMC- and RL-based approaches, on a variety of standard benchmarks with stochastic dynamics.
翻訳日:2023-02-21 18:16:47 公開日:2023-02-19
# ランク最小化と構造モデル推論

Rank-Minimizing and Structured Model Inference ( http://arxiv.org/abs/2302.09521v1 )

ライセンス: Link先を確認
Pawan Goyal and Benjamin Peherstorfer and Peter Benner(参考訳) 機械学習でデータから情報を抽出することは、ますます重要な役割を担っているが、物理法則やその他の第一原理は、科学や工学に関心のあるシステムやプロセスに関する重要な洞察を提供し続けている。 本研究は, 構造に符号化された物理的洞察を持つデータからモデルを推論し, モデル順序を最小化し, トレーニングデータの適合性を抑えるとともに, 条件のない冗長な自由度と修正に十分なデータを自動的に除去する手法を提案する。 モデルは、トレーニングデータの補間を強制し、モデルの順序を解行列のランクに関連付ける一般化シルベスター方程式の特定の例の解行列によって定式化される。 提案手法は最小ランク解に対するシルベスター方程式を数値解し,低次モデルを得る。 数値実験により、構造保存とランク最小化の組み合わせは、構造保存だけで学習される同等の予測品質のモデルよりも、桁違いに低い自由度を持つ正確なモデルをもたらすことが示された。

While extracting information from data with machine learning plays an increasingly important role, physical laws and other first principles continue to provide critical insights about systems and processes of interest in science and engineering. This work introduces a method that infers models from data with physical insights encoded in the form of structure and that minimizes the model order so that the training data are fitted well while redundant degrees of freedom without conditions and sufficient data to fix them are automatically eliminated. The models are formulated via solution matrices of specific instances of generalized Sylvester equations that enforce interpolation of the training data and relate the model order to the rank of the solution matrices. The proposed method numerically solves the Sylvester equations for minimal-rank solutions and so obtains models of low order. Numerical experiments demonstrate that the combination of structure preservation and rank minimization leads to accurate models with orders of magnitude fewer degrees of freedom than models of comparable prediction quality that are learned with structure preservation alone.
翻訳日:2023-02-21 18:10:56 公開日:2023-02-19
# 脳MRIを用いた多発性硬化症病変検出法に関する文献的考察

A Bibliography of Multiple Sclerosis Lesions Detection Methods using Brain MRIs ( http://arxiv.org/abs/2302.09516v1 )

ライセンス: Link先を確認
Atif Shah, Maged S. Al-Shaibani, Moataz Ahmad, Reem Bunyan(参考訳) 導入:多発性硬化症(MS)は世界中の何百万人もの人に影響を及ぼす慢性疾患である。 MSは、眼、脊髄、脳などの中枢神経系の様々な器官に重大な影響を与える。 背景:MS病変の診断を支援するため,コンピュータ支援法が広く用いられている。 磁気共鳴画像(MRI)におけるMS病変の自動検出とセグメンテーションの分野では,かなりの研究がなされている。 方法:本研究では,コンピュータ支援によるMS病変の検出と分節化に用いられている様々なアプローチについて検討する。 データ駆動型,統計型,教師あり機械学習,教師なし機械学習,ファジィ,ディープラーニングベースの6つのカテゴリに分類した。 我々はこれらのアプローチの下で異なる技術を分析し、その強みと弱みを強調する。 結果:本研究から,関連文献の約25%にあたる相当量の作業が統計に基づくms病変分割技術に焦点をあて,データ駆動型手法が21.15%,ディープラーニングが19.23%,教師あり手法が15.38%であった。 この研究は今後の研究で解決すべき課題やギャップを指摘している。 この研究は、MS病変の検出と分節化において過去10年間に行われた成果を示している。 その結果,近年,ディープラーニングの手法は他の手法よりも優れていることがわかった。

Introduction: Multiple Sclerosis (MS) is a chronic disease that affects millions of people across the globe. MS can critically affect different organs of the central nervous system such as the eyes, the spinal cord, and the brain. Background: To help physicians in diagnosing MS lesions, computer-aided methods are widely used. In this regard, a considerable research has been carried out in the area of automatic detection and segmentation of MS lesions in magnetic resonance images (MRIs). Methodology: In this study, we review the different approaches that have been used in computer-aided detection and segmentation of MS lesions. Our review resulted in categorizing MS lesion segmentation approaches into six broad categories: data-driven, statistical, supervised machine learning, unsupervised machine learning, fuzzy, and deep learning-based techniques. We critically analyze the different techniques under these approaches and highlight their strengths and weaknesses. Results: From the study, we observe that a considerable amount of work, around 25% of related literature, is focused on statistical-based MS lesion segmentation techniques, followed by 21.15% for data-driven based methods, 19.23% for deep learning and 15.38% for supervised methods. Implication: The study points out the challenges/gaps to be addressed in future research. The study shows the work which has been done in last one decade in detection and segmentation of MS lesions. The results show that, in recent years, deep learning methods are outperforming all the others methods.
翻訳日:2023-02-21 18:10:39 公開日:2023-02-19
# 野生におけるテキスト分類:大規模長尾名前正規化データセット

Text Classification in the Wild: a Large-scale Long-tailed Name Normalization Dataset ( http://arxiv.org/abs/2302.09509v1 )

ライセンス: Link先を確認
Jiexing Qi, Shuhao Li, Zhixin Guo, Yusheng Huang, Chenghu Zhou, Weinan Zhang, Xinbing Wang, and Zhouhan Lin(参考訳) 実世界のデータは通常、長い尾の分布を示し、頻繁なラベルと多数のショットラベルがある。 機関名正規化の研究はこの現象を示す完璧な応用例である。 世界中の多くの機関が公開文献にその名前の膨大なバリエーションを持っている。 本研究では,まず,自然にロングテール分布を示す25k以上のクラスを含む大規模施設名正規化データセット lot-insts1 を収集した。 ゼロショットとゼロショットの学習シナリオを巨大な多ショットクラスから分離するために、私たちはテストセットを4つの異なるサブセット(多ショット、中、少数)とゼロショットのオープンセットから構築します。 また,検索に基づく手法から,事前学習されたbertモデルを用いたニューラルネットワーク手法まで幅広い範囲をカバーする,データ上のいくつかの重要なベースライン手法を再現した。 さらに,小ショットおよびゼロショットテストセット上での分布外一般化を改良したBERTモデルを提案する。 ロングテール現象に焦点を当てた他のデータセットと比較して、データセットは既存の最大のロングテールデータセットよりも1桁多くトレーニングデータを持ち、手動で合成するのではなく、自然にロングテールです。 私たちは、この問題を研究する上で重要な、異なるシナリオを提供すると信じています。 私たちの知る限りでは、これはロングテールとオープンセットの分類問題に焦点を当てた最初の自然言語データセットです。

Real-world data usually exhibits a long-tailed distribution,with a few frequent labels and a lot of few-shot labels. The study of institution name normalization is a perfect application case showing this phenomenon. There are many institutions worldwide with enormous variations of their names in the publicly available literature. In this work, we first collect a large-scale institution name normalization dataset LoT-insts1, which contains over 25k classes that exhibit a naturally long-tailed distribution. In order to isolate the few-shot and zero-shot learning scenarios from the massive many-shot classes, we construct our test set from four different subsets: many-, medium-, and few-shot sets, as well as a zero-shot open set. We also replicate several important baseline methods on our data, covering a wide range from search-based methods to neural network methods that use the pretrained BERT model. Further, we propose our specially pretrained, BERT-based model that shows better out-of-distribution generalization on few-shot and zero-shot test sets. Compared to other datasets focusing on the long-tailed phenomenon, our dataset has one order of magnitude more training data than the largest existing long-tailed datasets and is naturally long-tailed rather than manually synthesized. We believe it provides an important and different scenario to study this problem. To our best knowledge, this is the first natural language dataset that focuses on long-tailed and open-set classification problems.
翻訳日:2023-02-21 18:10:17 公開日:2023-02-19
# 室温原子量子メモリを用いた単一光子同期

Single-photon synchronization with a room-temperature atomic quantum memory ( http://arxiv.org/abs/2302.09508v1 )

ライセンス: Link先を確認
Omri Davidson, Ohad Yogev, Eilon Poem and Ofer Firstenberg(参考訳) 狭帯域原子遷移と互換性のある単一光子の効率的な同期は、フォトニック量子情報処理に不可欠な課題である。 本稿では、室温原子量子メモリを用いた独立生成単一光子の同期について報告する。 光子源とメモリはファイバで相互接続され、同じはしごレベルの原子構造を用いる。 我々は、ヘラルドされたシングルフォトンを、$\eta_\text{e2e}=25\%$で、最終的に$g^{(2)}_\text{h}=0.023$で保存して回収する。 私たちの同期プロセスは、光子対の一致率を10倍以上増加させ、検出された同期光子対を毎秒1000ドル以上の速度に到達します。 同期光子の識別不能性は、ホン・ウー・マンデル干渉測定によって検証される。

Efficient synchronization of single photons that are compatible with narrowband atomic transitions is an outstanding challenge, which could prove essential for photonic quantum information processing. Here we report on the synchronization of independently-generated single photons using a room-temperature atomic quantum memory. The photon source and the memory are interconnected by fibers and employ the same ladder-level atomic scheme. We store and retrieve the heralded single photons with end-to-end efficiency of $\eta_\text{e2e}=25\%$ and final anti-bunching of $g^{(2)}_\text{h}=0.023$. Our synchronization process results in over tenfold increase in the photon-pair coincidence rate, reaching a rate of more than $1000$ detected synchronized photon pairs per second. The indistinguishability of the synchronized photons is verified by a Hong-Ou-Mandel interference measurement.
翻訳日:2023-02-21 18:09:55 公開日:2023-02-19
# 行動条件付き衣服追跡による自己監督型衣服再構成

Self-supervised Cloth Reconstruction via Action-conditioned Cloth Tracking ( http://arxiv.org/abs/2302.09502v1 )

ライセンス: Link先を確認
Zixuan Huang, Xingyu Lin, David Held(参考訳) 状態推定は布の高次元性と自己閉塞性に起因する布の操作において最大の課題の1つである。 メッシュリコンストラクションモデルをシミュレーションで訓練することにより,クランプ服の完全な状態を特定することを提案する。 しかし,このようなモデルでは,布のシミュレーションと実世界の違いにより,模擬と現実のギャップに悩まされがちである。 本研究では,実世界のメッシュ再構築モデルを微調整する自己教師型手法を提案する。 クランプ布のフルメッシュは実世界では入手が難しいため,自己教師型学習のための擬似ラベルを生成するために,特別なデータ収集手法と行動条件付きモデルベース布追跡手法を設計する。 この擬似ラベルデータセット上で事前トレーニングされたメッシュ再構成モデルを微調整することにより、人間のアノテーションを必要とせず、再構成メッシュの品質を改善し、下流操作タスクの性能を向上させることができることを示す。

State estimation is one of the greatest challenges for cloth manipulation due to cloth's high dimensionality and self-occlusion. Prior works propose to identify the full state of crumpled clothes by training a mesh reconstruction model in simulation. However, such models are prone to suffer from a sim-to-real gap due to differences between cloth simulation and the real world. In this work, we propose a self-supervised method to finetune a mesh reconstruction model in the real world. Since the full mesh of crumpled cloth is difficult to obtain in the real world, we design a special data collection scheme and an action-conditioned model-based cloth tracking method to generate pseudo-labels for self-supervised learning. By finetuning the pretrained mesh reconstruction model on this pseudo-labeled dataset, we show that we can improve the quality of the reconstructed mesh without requiring human annotations, and improve the performance of downstream manipulation task.
翻訳日:2023-02-21 18:09:41 公開日:2023-02-19
# ロングテール認識のための相互排他変調器

Mutual Exclusive Modulator for Long-Tailed Recognition ( http://arxiv.org/abs/2302.09498v1 )

ライセンス: Link先を確認
Haixu Long, Xiaolin Zhang, Zongtai Luo, Jianbo Liu(参考訳) LTR(Long-tailed Recognition)は、カテゴリー間で非常に不均衡なトレーニングサンプルを与えられた高性能な分類器を学習するタスクである。 既存の作品の多くは、テールクラスの特徴を強化するか、帰納的バイアスを減らすために分類器を再バランスさせることでこの問題に対処している。 本稿では,LTRタスクの根本原因,すなわち,各クラスに対するトレーニングサンプルのバランスが著しく不均衡であることについて検討し,簡単な解法を提案する。 トレーニング画像の数に応じて,カテゴリを3つのグループ(多く,中,少数)に分割した。 カテゴリーの3つのグループは別々に予測され、分類の難しさを減らす。 このアイデアは自然に、与えられたサンプルを適切なクラスグループに割り当てる方法という新しい問題を引き起こします。 本稿では,各グループに属する画像の確率を推定できる相互排他変調器を提案する。 特に、変調器は軽量モジュールで構成され、相互排他目的で学習される。 したがって、変調器の出力確率は、トレーニングデータセットのデータボリュームヒントを符号化する。 さらに事前情報として利用して分類器の予測を導く。 提案手法を評価するために、ImageNet-LT、Place-LT、iNaturalist 2018などの複数のデータセットに関する広範な実験を行っている。 提案手法は,最先端のベンチマークと比較して競争性能が向上する。

The long-tailed recognition (LTR) is the task of learning high-performance classifiers given extremely imbalanced training samples between categories. Most of the existing works address the problem by either enhancing the features of tail classes or re-balancing the classifiers to reduce the inductive bias. In this paper, we try to look into the root cause of the LTR task, i.e., training samples for each class are greatly imbalanced, and propose a straightforward solution. We split the categories into three groups, i.e., many, medium and few, according to the number of training images. The three groups of categories are separately predicted to reduce the difficulty for classification. This idea naturally arises a new problem of how to assign a given sample to the right class groups? We introduce a mutual exclusive modulator which can estimate the probability of an image belonging to each group. Particularly, the modulator consists of a light-weight module and learned with a mutual exclusive objective. Hence, the output probabilities of the modulator encode the data volume clues of the training dataset. They are further utilized as prior information to guide the prediction of the classifier. We conduct extensive experiments on multiple datasets, e.g., ImageNet-LT, Place-LT and iNaturalist 2018 to evaluate the proposed approach. Our method achieves competitive performance compared to the state-of-the-art benchmarks.
翻訳日:2023-02-21 18:09:27 公開日:2023-02-19
# X-Adv:X線禁止項目検出に対する物理対物攻撃

X-Adv: Physical Adversarial Object Attacks against X-ray Prohibited Item Detection ( http://arxiv.org/abs/2302.09491v1 )

ライセンス: Link先を確認
Aishan Liu, Jun Guo, Jiakai Wang, Siyuan Liang, Renshuai Tao, Wenbo Zhou, Cong Liu, Xianglong Liu, Dacheng Tao(参考訳) 敵対的攻撃は、ディープラーニングモデルの堅牢性を評価するのに有用である。 既存の攻撃は主に可視光スペクトル(ピクセル方向のテクスチャ摂動など)に基づいて行われる。 しかし, 禁止品のX線検出などの安全上重要なシナリオにおいて, X線イメージングが広く適用されているにもかかわらず, テクスチャフリーなX線画像をターゲットにした攻撃はいまだ検討されていない。 本稿では,X線によるアイテム検出の禁止を目的とした敵攻撃の研究に向けて第一歩を踏み出し,このような攻撃がもたらす深刻な脅威を明らかにする。 具体的には、このシナリオにおける物理的敵攻撃の成功は、色/テクスチャの減少と複雑な重複による課題を回避するために特別に設計されるべきである。 そこで本研究では,X線検出器を袋に入れた状態で消毒できる逆向剤として機能する物理印刷可能な金属を製造するためのX-advを提案する。 色/テクスチャフェーディングに関連する問題を解消するため,直交テクスチャを直接生成するのではなく,代理モデルの勾配を用いて3次元プリント可能なオブジェクトの生成を容易にする微分変換器を開発した。 複雑な重なり合いインスタンスを持つ荷物に印刷された3d敵オブジェクトを配置するために,我々は,禁止アイテムが他のアイテムに多く混入する最悪の場合,攻撃性能の強い場所を見つけるためのポリシーベースの強化学習戦略を設計する。 提案するx-advの有効性を検証するために,デジタルと物理の両方で広範囲にわたる実験を行った(後者の場合,商用x線セキュリティ検査システムを導入する)。 さらに,物理世界のX線敵対攻撃データセットXADについて述べる。

Adversarial attacks are valuable for evaluating the robustness of deep learning models. Existing attacks are primarily conducted on the visible light spectrum (e.g., pixel-wise texture perturbation). However, attacks targeting texture-free X-ray images remain underexplored, despite the widespread application of X-ray imaging in safety-critical scenarios such as the X-ray detection of prohibited items. In this paper, we take the first step toward the study of adversarial attacks targeted at X-ray prohibited item detection, and reveal the serious threats posed by such attacks in this safety-critical scenario. Specifically, we posit that successful physical adversarial attacks in this scenario should be specially designed to circumvent the challenges posed by color/texture fading and complex overlapping. To this end, we propose X-adv to generate physically printable metals that act as an adversarial agent capable of deceiving X-ray detectors when placed in luggage. To resolve the issues associated with color/texture fading, we develop a differentiable converter that facilitates the generation of 3D-printable objects with adversarial shapes, using the gradients of a surrogate model rather than directly generating adversarial textures. To place the printed 3D adversarial objects in luggage with complex overlapped instances, we design a policy-based reinforcement learning strategy to find locations eliciting strong attack performance in worst-case scenarios whereby the prohibited items are heavily occluded by other items. To verify the effectiveness of the proposed X-Adv, we conduct extensive experiments in both the digital and the physical world (employing a commercial X-ray security inspection system for the latter case). Furthermore, we present the physical-world X-ray adversarial attack dataset XAD.
翻訳日:2023-02-21 18:09:07 公開日:2023-02-19
# ソーシャルメディア画像から自殺リスクを予測するための、解釈可能な人工知能戦略

A Picture May Be Worth a Thousand Lives: An Interpretable Artificial Intelligence Strategy for Predictions of Suicide Risk from Social Media Images ( http://arxiv.org/abs/2302.09488v1 )

ライセンス: Link先を確認
Yael Badian, Yaakov Ophir, Refael Tikochinski, Nitay Calderon, Anat Brunstein Klomek, Roi Reichart(参考訳) 自殺予防における人工知能の使用に関する有望な研究は、ブラックボックスの方法論、不十分な結果対策、ソーシャルメディア画像などの非言語的入力に関する研究(今日のデジタル時代における彼らの人気にもかかわらず)など、主要なギャップがある。 本研究ではこれらのギャップに対処し、画像から有効な自殺リスクのハイブリッドかつ解釈可能な予測モデルを構築するための理論駆動戦略とボトムアップ戦略を組み合わせる。 先導的な仮説は、イメージには感情と対人関係、自殺関連の治療と理論の2つの中心的な概念に関する貴重な情報が含まれるというものだった。 データセットには、ゴールドスタンダードの自殺スケールを完了した841人のFacebookユーザーによる177,220の画像が含まれている。 画像は最先端のアルゴリズムであるCLIPで表現され、このアルゴリズムは、(複雑なニューラルネットワークとは対照的に)単純なロジスティック回帰予測モデルの入力として機能する事前定義された特徴を抽出した。 これらの特徴は、日常言語(例えば、明るい写真、悲しい人々の写真)を用いた基本的な、理論駆動の視覚要素に対処した。 ハイブリッドモデル(理論駆動法とボトムアップ法を統合した)の結果は、一般的なボトムアップアルゴリズムを超える高い予測性能を示し、画像(すべて)を有効活用して自殺リスクを予測する最初の証拠となった。 リード仮説に対応して、リスクの高いユーザーはネガティブな感情が高まり、親近感が低下する画像を持っていた。 この結果は,非言語的自殺警告の文脈で議論されている。 特に、この研究は複雑なタスクにおけるハイブリッドモデルの利点を示し、自殺のリアルタイム監視ツールの開発に使用できるシンプルで柔軟な予測戦略を提供する。

The promising research on Artificial Intelligence usages in suicide prevention has principal gaps, including black box methodologies, inadequate outcome measures, and scarce research on non-verbal inputs, such as social media images (despite their popularity today, in our digital era). This study addresses these gaps and combines theory-driven and bottom-up strategies to construct a hybrid and interpretable prediction model of valid suicide risk from images. The lead hypothesis was that images contain valuable information about emotions and interpersonal relationships, two central concepts in suicide-related treatments and theories. The dataset included 177,220 images by 841 Facebook users who completed a gold-standard suicide scale. The images were represented with CLIP, a state-of-the-art algorithm, which was utilized, unconventionally, to extract predefined features that served as inputs to a simple logistic-regression prediction model (in contrast to complex neural networks). The features addressed basic and theory-driven visual elements using everyday language (e.g., bright photo, photo of sad people). The results of the hybrid model (that integrated theory-driven and bottom-up methods) indicated high prediction performance that surpassed common bottom-up algorithms, thus providing a first proof that images (alone) can be leveraged to predict validated suicide risk. Corresponding with the lead hypothesis, at-risk users had images with increased negative emotions and decreased belonginess. The results are discussed in the context of non-verbal warning signs of suicide. Notably, the study illustrates the advantages of hybrid models in such complicated tasks and provides simple and flexible prediction strategies that could be utilized to develop real-life monitoring tools of suicide.
翻訳日:2023-02-21 18:08:39 公開日:2023-02-19
# AI意思決定支援ツールの使用が、タンザニアにおけるドラッグディスペンサーによる批判的思考と過度信頼にどのように影響するかを理解する

Understanding how the use of AI decision support tools affect critical thinking and over-reliance on technology by drug dispensers in Tanzania ( http://arxiv.org/abs/2302.09487v1 )

ライセンス: Link先を確認
Ally Jr Salim, Megan Allen, Kelvin Mariki, Kevin James Masoy and Jafary Liana(参考訳) 医療におけるAIの使用は、ケアデリバリーを改善し、患者の成果を高めるための提供者の決定を強化するように設計されている。 臨床環境でのデプロイメントでは、プロバイダとAI間のインタラクションは、これらのデジタルツールがより広範な健康的な結果に与える影響を計測し理解するための重要な要素である。 aiアルゴリズムが診断精度が高い場合でも、医療提供者は自らの経験に頼っ、最終的な判断を直感的に行うことが多い。 その他の場合、プロバイダーはAIモデルのアウトプットに必然的に依存しているため、技術への過度な依存が懸念される。 本研究の目的は,提案する臨床症例の鑑別診断において,薬局ディスペンサーがaiを活用した技術をどのように依存しているかを理解することである。 我々は, 薬物ディスペンサーが常に正しい技術にどう反応するかを検討し, 自己の批判的な考えを伴わずにその技術に頼り始めるかどうかを計測した。 私たちは、AIがその決定について説明を提供していない場合でも、ディスペンサーがAIによる決定に頼っていたことを発見した。

The use of AI in healthcare is designed to improve care delivery and augment the decisions of providers to enhance patient outcomes. When deployed in clinical settings, the interaction between providers and AI is a critical component for measuring and understanding the effectiveness of these digital tools on broader health outcomes. Even in cases where AI algorithms have high diagnostic accuracy, healthcare providers often still rely on their experience and sometimes gut feeling to make a final decision. Other times, providers rely unquestioningly on the outputs of the AI models, which leads to a concern about over-reliance on the technology. The purpose of this research was to understand how reliant drug shop dispensers were on AI-powered technologies when determining a differential diagnosis for a presented clinical case vignette. We explored how the drug dispensers responded to technology that is framed as always correct in an attempt to measure whether they begin to rely on it without any critical thought of their own. We found that dispensers relied on the decision made by the AI 25 percent of the time, even when the AI provided no explanation for its decision.
翻訳日:2023-02-21 18:08:09 公開日:2023-02-19
# LC-NeRF:ニューラルランディアンスフィールドにおける局所制御可能な顔生成

LC-NeRF: Local Controllable Face Generation in Neural Randiance Field ( http://arxiv.org/abs/2302.09486v1 )

ライセンス: Link先を確認
Wenyang Zhou, Lu Yuan, Shuyu Chen, Lin Gao, Shimin Hu(参考訳) ニューラルレイディアンスフィールド(NeRF)の開発により、3D顔生成は高画質で3D整合性を実現している。 近年,NeRF表現による3次元顔の生成と編集のために,幾何とテクスチャを疎結合する手法が提案されている。 これらの生成モデルの潜在コードは顔全体に影響するため、これらのコードの変更は顔全体の変化を引き起こす。 しかし、ユーザーは通常、顔の編集時にローカル領域を編集し、他の領域に影響を受けたくない。 潜在コードの変更は、グローバル生成結果に影響を与えるため、これらの方法は、局所的な顔領域のきめ細かい制御を許さない。 nerfベースの顔編集における局所制御性を向上させるため,我々は,局所領域生成モジュールと空間認識融合モジュールからなるlc-nerfを提案する。 質的・定量的評価により,最先端顔編集法よりも局所的な編集性が向上した。 提案手法は,テキスト駆動顔画像編集などの下流タスクにおいても良好に機能する。

3D face generation has achieved high visual quality and 3D consistency thanks to the development of neural radiance fields (NeRF). Recently, to generate and edit 3D faces with NeRF representation, some methods are proposed and achieve good results in decoupling geometry and texture. The latent codes of these generative models affect the whole face, and hence modifications to these codes cause the entire face to change. However, users usually edit a local region when editing faces and do not want other regions to be affected. Since changes to the latent code affect global generation results, these methods do not allow for fine-grained control of local facial regions. To improve local controllability in NeRF-based face editing, we propose LC-NeRF, which is composed of a Local Region Generators Module and a Spatial-Aware Fusion Module, allowing for local geometry and texture control of local facial regions. Qualitative and quantitative evaluations show that our method provides better local editing than state-of-the-art face editing methods. Our method also performs well in downstream tasks, such as text-driven facial image editing.
翻訳日:2023-02-21 18:07:49 公開日:2023-02-19
# auto.gov: 分散金融(defi)のための学習に基づくオンチェーンガバナンス

Auto.gov: Learning-based On-chain Governance for Decentralized Finance (DeFi) ( http://arxiv.org/abs/2302.09551v1 )

ライセンス: Link先を確認
Jiahua Xu, Daniel Perez, Yebo Feng, Benjamin Livshits(参考訳) 分散ファイナンス(defi)は、貸出プロトコルや自動化マーケットメーカ(amm)など、多くの種類のプロトコルで、ここ数年で大きな関心を集めている。 これらのプロトコルは通常、オフチェーンガバナンスを使用して制御され、トークンホルダが投票してプロトコルのさまざまなパラメータを変更することができる。 しかしこれまでは、これらのパラメータの選択は、通常はプロトコルの背後にあるコアチームが行う手動のプロセスだった。 本研究では,DeFi環境をモデル化し,深層Q-network(DQN)強化学習を用いた半自動パラメータ調整手法を提案する。 我々のシステムは、データ駆動の正当化でこれらのパラメータを調整するために、直感的なガバナンス提案を自動的に生成する。 評価の結果,学習に基づくオンチェーンガバナンス手順は,既存の手動アプローチよりも反応性,客観的,効率的であることが判明した。

Decentralized finance (DeFi) has seen a tremendous increase in interest in the past years with many types of protocols, such as lending protocols or automated market-makers (AMMs) These protocols are typically controlled using off-chain governance, where token holders can vote to modify different parameters of the protocol. Up till now, however, choosing these parameters has been a manual process, typically done by the core team behind the protocol. In this work, we model a DeFi environment and propose a semi-automatic parameter adjustment approach with deep Q-network (DQN) reinforcement learning. Our system automatically generates intuitive governance proposals to adjust these parameters with data-driven justifications. Our evaluation results demonstrate that a learning-based on-chain governance procedure is more reactive, objective, and efficient than the existing manual approach.
翻訳日:2023-02-21 18:01:40 公開日:2023-02-19
# トポロジ的特徴選択:グラフに基づくフィルタ特徴選択手法

Topological Feature Selection: A Graph-Based Filter Feature Selection Approach ( http://arxiv.org/abs/2302.09543v1 )

ライセンス: Link先を確認
Antonio Briola and Tomaso Aste(参考訳) 本稿では,位相的に制約されたネットワーク表現のパワーを生かした,教師なしグラフベースのフィルタ特徴選択手法を提案する。 我々は,和声グラフ群(重み付き最大フィルタ付きグラフ)を用いて特徴間の依存関係構造をモデル化し,ネットワーク内の相対的位置を調べることにより,特徴の関連性を最大化する。 このようなアプローチは、その代替案と比較して特に満足できる3つの側面を示します。 (i) 高度に調整可能で、入力データの性質に容易に適応することができる。 (ii)完全に説明可能であり、同時に、驚くほどの単純さを維持している。 (iii)代替品に比べて計算上安価である。 提案アルゴリズムは,異種評価条件下での現在の最先端技術よりも優れているか,あるいは一致していることを示す,異なる適用領域の16のベンチマークデータセットで検証する。

In this paper, we introduce a novel unsupervised, graph-based filter feature selection technique which exploits the power of topologically constrained network representations. We model dependency structures among features using a family of chordal graphs (the Triangulated Maximally Filtered Graph), and we maximise the likelihood of features' relevance by studying their relative position inside the network. Such an approach presents three aspects that are particularly satisfactory compared to its alternatives: (i) it is highly tunable and easily adaptable to the nature of input data; (ii) it is fully explainable, maintaining, at the same time, a remarkable level of simplicity; (iii) it is computationally cheaper compared to its alternatives. We test our algorithm on 16 benchmark datasets from different applicative domains showing that it outperforms or matches the current state-of-the-art under heterogeneous evaluation conditions.
翻訳日:2023-02-21 18:01:26 公開日:2023-02-19
# アップヴォート? ダウンボート? 投票なし? Redditにおける反応機構と政治談話の関係の理解

Upvotes? Downvotes? No Votes? Understanding the relationship between reaction mechanisms and political discourse on Reddit ( http://arxiv.org/abs/2302.09540v1 )

ライセンス: Link先を確認
Orestis Papakyriakopoulos, Severin Engelmann, Amy Winecoff(参考訳) 政治談話の多くは、ソーシャルメディア上でオンラインで行われている。 政策立案者や研究者は、世界中の政治談話の品質形成におけるソーシャルメディアデザインの役割を理解しようとしている。 過去数十年間、政治談話理論の奨学金は、熟考、市民、デマゴジック談話のような顕著な政治修辞学の異なるタイプの特徴を生み出してきた。 本研究では,ユーザの議論におけるソーシャルメディアの反応機構(アップボレート,ダウンボレート)と政治レトリックとの関係について,政治談話理論の深い概念分析に携わることにより検討する。 まず、2010年から2018年にかけて、Redditの55の政治サブフォーラムで15500万のユーザーコメントを分析し、ユーザーの政治的議論のスタイルが、熟考、市民的、虚構的談話の本質的な要素と一致しているかを探る。 第2に、検証因子分析と差分モデルを組み合わせる定量的研究を行い、異なる反応機構スキーム(例えば、アップボイトとダウンボイトのみ、反応機構なし)が、熟考的、市民的、またはデマゴジックな言説の多かれ少なかれ特徴的な政治的ユーザの議論に対応するかどうかを探索する。 主に3つのテイクアウトを作成します。 まず、「政治的修辞主義の理想的構成」であるにもかかわらず、政治談話理論はredditの政治的議論を広く表現している。 第二に、上位と下降の両方のサブフォラムでの議論は、より意図的で市民的なユーザー談話と関連付けられていることが分かりました。 第3に、ソーシャルメディアの議論はサブredditで最も想像力に富み、反応メカニズムはまったくない。 これらの知見は、ソーシャルメディアインターフェース設計とユーザー間の敬意ある政治的議論との関係に関する政策議論に重要な貢献を提供する。

A significant share of political discourse occurs online on social media platforms. Policymakers and researchers try to understand the role of social media design in shaping the quality of political discourse around the globe. In the past decades, scholarship on political discourse theory has produced distinct characteristics of different types of prominent political rhetoric such as deliberative, civic, or demagogic discourse. This study investigates the relationship between social media reaction mechanisms (i.e., upvotes, downvotes) and political rhetoric in user discussions by engaging in an in-depth conceptual analysis of political discourse theory. First, we analyze 155 million user comments in 55 political subforums on Reddit between 2010 and 2018 to explore whether users' style of political discussion aligns with the essential components of deliberative, civic, and demagogic discourse. Second, we perform a quantitative study that combines confirmatory factor analysis with difference in differences models to explore whether different reaction mechanism schemes (e.g., upvotes only, upvotes and downvotes, no reaction mechanisms) correspond with political user discussion that is more or less characteristic of deliberative, civic, or demagogic discourse. We produce three main takeaways. First, despite being "ideal constructs of political rhetoric," we find that political discourse theories describe political discussions on Reddit to a large extent. Second, we find that discussions in subforums with only upvotes, or both up- and downvotes are associated with user discourse that is more deliberate and civic. Third, social media discussions are most demagogic in subreddits with no reaction mechanisms at all. These findings offer valuable contributions for ongoing policy discussions on the relationship between social media interface design and respectful political discussion among users.
翻訳日:2023-02-21 18:01:13 公開日:2023-02-19
# グラフに基づく半教師あり学習のための擬似コントラスト学習

Pseudo Contrastive Learning for Graph-based Semi-supervised Learning ( http://arxiv.org/abs/2302.09532v1 )

ライセンス: Link先を確認
Weigang Lu, Ziyu Guan, Wei Zhao, Yaming Yang, Yuanhai Lv, Baosheng Yu, Dacheng Tao(参考訳) Pseudo Labelingは、半教師付きグラフニューラルネットワーク(GNN)の性能を向上させるために、自信のある予測に基づいて追加の擬似ラベルを生成する手法である。 しかし, 生成した擬似ラベルの品質は, ラベルに対する分類対象の感度が高いため, 長年懸念されてきた。 aノードが特定のクラスに属している'ことを示す信頼できない分類監督を避けるために、``2ノードは同じクラスに属していない'を示すフォールトトレラントなコントラスト監督を推奨する。 そこで、高品質な擬似ラベルを生成する問題は緩和されたバージョン、すなわち信頼性のあるコントラストペアに変換される。 そこで我々は,Pseudo Contrastive Learning (PCL) と呼ばれるGNNのための汎用フレームワークを提案する。 正と負の擬ラベルが同じクラスをターゲットとする2つのノードを分離する。 トポロジカルな知識を学習に取り入れるために、より小さなトポロジカルな距離を持つ負のペアを分離するのにより多くの労力を費やすトポロジカルに重み付けされた対照的な損失を考案する。 さらに,データ拡張の重大さを緩和するために,符号化表現にドロップアウトを適用するだけでノードを拡張できる。 理論的には、PCLの軽量化は、負対の分離を効果的に学習する表現正規化器のように機能することを示す。 実験では,5つの実世界のグラフにおける他の一般的な手法と一貫して比較し,様々なモデルでpclを採用している。

Pseudo Labeling is a technique used to improve the performance of semi-supervised Graph Neural Networks (GNNs) by generating additional pseudo-labels based on confident predictions. However, the quality of generated pseudo-labels has long been a concern due to the sensitivity of the classification objective to given labels. To avoid the untrustworthy classification supervision indicating ``a node belongs to a specific class,'' we favor the fault-tolerant contrasting supervision demonstrating ``two nodes do not belong to the same class.'' Thus, the problem of generating high-quality pseudo-labels is then transformed into a relaxed version, i.e., finding reliable contrasting pairs. To achieve this, we propose a general framework for GNNs, termed Pseudo Contrastive Learning (PCL). It separates two nodes whose positive and negative pseudo-labels target the same class. To incorporate topological knowledge into learning, we devise a topologically weighted contrastive loss that spends more effort separating negative pairs with smaller topological distances. Additionally, to alleviate the heavy reliance on data augmentation, we augment nodes only by applying dropout to the encoded representations. Theoretically, we prove that PCL with the lightweight augmentation works like a representation regularizer to effectively learn separation between negative pairs. Experimentally, we employ PCL on various models, which consistently outperform their counterparts using other popular general techniques on five real-world graphs.
翻訳日:2023-02-21 18:00:40 公開日:2023-02-19
# AIIR-MIX: 個人固有のリワード混合ネットワークを意識するマルチエージェント強化学習

AIIR-MIX: Multi-Agent Reinforcement Learning Meets Attention Individual Intrinsic Reward Mixing Network ( http://arxiv.org/abs/2302.09531v1 )

ライセンス: Link先を確認
Wei Li, Weiyan Liu, Shitong Shao, and Shiyi Huang(参考訳) 協調型マルチエージェント強化学習(MARL)では,各エージェントの貢献を減らし,それに対応する報酬を付与することが重要である。 これまでの研究では、本質的な報酬関数を設計することで問題を解決しようとするが、本質的な報酬は、これらの研究の要約による環境報酬と単純に組み合わせるだけで、marlフレームワークの性能は満足できない。 我々は,MARLにおけるAtention individual Intrinsic Reward Mixing Network (AIIR-MIX) という新しい手法を提案し,AIIR-MIXの貢献を以下に示す。 a) チームワークをより効果的にするための注意機構に基づく,新たな本質的報酬ネットワークを構築する。 b) 環境条件の変化に応じて, 内因性と外因性報酬を非線形かつ動的に組み合わせることのできる混合ネットワークを提案する。 我々はstarcraft iiのバトルゲームにおけるaiir-mixと最先端(sota)marl法を比較した。 その結果,AIIR-MIXは高い性能を示し,平均試験勝利率で現在の先進的な手法を破ることができることがわかった。 AIIR-MIXの有効性を検証するため,追加のアブレーション研究を行った。 その結果,AIIR-MIXは各エージェントに対して,実際の貢献に応じてリアルタイムな固有報酬を動的に割り当てることができることがわかった。

Deducing the contribution of each agent and assigning the corresponding reward to them is a crucial problem in cooperative Multi-Agent Reinforcement Learning (MARL). Previous studies try to resolve the issue through designing an intrinsic reward function, but the intrinsic reward is simply combined with the environment reward by summation in these studies, which makes the performance of their MARL framework unsatisfactory. We propose a novel method named Attention Individual Intrinsic Reward Mixing Network (AIIR-MIX) in MARL, and the contributions of AIIR-MIX are listed as follows:(a) we construct a novel intrinsic reward network based on the attention mechanism to make teamwork more effective. (b) we propose a Mixing network that is able to combine intrinsic and extrinsic rewards non-linearly and dynamically in response to changing conditions of the environment. We compare AIIR-MIX with many State-Of-The-Art (SOTA) MARL methods on battle games in StarCraft II. And the results demonstrate that AIIR-MIX performs admirably and can defeat the current advanced methods on average test win rate. To validate the effectiveness of AIIR-MIX, we conduct additional ablation studies. The results show that AIIR-MIX can dynamically assign each agent a real-time intrinsic reward in accordance with their actual contribution.
翻訳日:2023-02-21 18:00:13 公開日:2023-02-19
# ISIC 2016-2020データセットを用いたコンピュータビジョンによるメラノーマのリスクレベル分類に関する総合的評価

A Comprehensive Evaluation Study on Risk Level Classification of Melanoma by Computer Vision on ISIC 2016-2020 Datasets ( http://arxiv.org/abs/2302.09528v1 )

ライセンス: Link先を確認
Chengdong Yao(参考訳) 皮膚がんは最も一般的な種類のがんである。 特にメラノーマは皮膚がん死の75%の原因であるが、最も一般的な皮膚がんである。 メラノーマの検出は何百万人もの人に良い影響を与える可能性がある。 ISICアーカイブには皮膚病変の皮膚内視鏡像のコレクションが最大である。 本研究では,コンピュータビジョンに高度な深層学習技術を適用し,皮膚病変の画像におけるメラノーマの同定の有効性を検討した。 先行訓練モデル,深層学習分類器,移動学習などを含む過去の手法の見直しを通じて,メラノーマの同定などの臨床的問題に対する一般的な深層学習法の適用性を示す。 最後に,isic 2016 - 2020データセットにおいて,バリデーションaucが94%以上,感度が90%以上の処理フローを提案する。

Skin cancer is the most common type of cancer. Specifically, melanoma is the cause of 75% of skin cancer deaths, although it is the least common skin cancer. Better detection of melanoma could have a positive impact on millions of people. The ISIC archive contains the largest publicly available collection of dermatoscopic images of skin lesions. In this research, we investigate the efficacy of applying advanced deep learning techniques in computer vision to identify melanoma in images of skin lesions. Through reviewing previous methods, including pre-trained models, deep-learning classifiers, transfer learning, etc., we demonstrate the applicability of the popular deep learning methods on critical clinical problems such as identifying melanoma. Finally, we proposed a processing flow with a validation AUC greater than 94% and a sensitivity greater than 90% on ISIC 2016 - 2020 datasets.
翻訳日:2023-02-21 17:59:50 公開日:2023-02-19
# SanskritShala: 教育とアノテーションのためのWebベースのインタフェースを備えたニューラルサンスクリットNLPツールキット

SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface for Pedagogical and Annotation Purposes ( http://arxiv.org/abs/2302.09527v1 )

ライセンス: Link先を確認
Jivnesh Sandhan, Anshul Agarwal, Laxmidhar Behera, Tushar Sandhan and Pawan Goyal(参考訳) サンスクリット自然言語処理(nlp)ツールキットsanskritshala(サンスクリット学派)を用いて,単語のセグメンテーション,形態的タグ付け,係り受け解析,複合型識別など,いくつかのタスクの計算言語解析を容易にする。 現在、我々のシステムはあらゆるタスクのベンチマークデータセットに最先端のパフォーマンスを報告しています。 SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。 簡単に使えるインタラクティブなデータアノテーション機能で構築されており、アノテータがミスを犯したときのシステムの予測を修正できる。 ツールキットに含まれる4つのモジュールのソースコード、サンスクリットコーパスで訓練された7つのワード埋め込みモデル、および単語類似性、関連性、分類、アナロジー予測などのアノテーション付きデータセットを公開し、単語埋め込みの固有の特性を評価する。 われわれが知る限り、これはWebベースのインターフェースと多数のNLPモジュールを備えた、最初のニューラルベースのNLPツールキットである。 サンスクリットと協力する意思のある人々は、教育的および注釈的な目的に役に立つと確信している。 SanskritShala は以下の https://cnerg.iitkgp.ac.in/sanskritshala で利用可能である。 私たちのプラットフォームのデモビデオは、https://youtu.be/x0x31y9k0mw4で閲覧できます。

We present a neural Sanskrit Natural Language Processing (NLP) toolkit named SanskritShala (a school of Sanskrit) to facilitate computational linguistic analyses for several tasks such as word segmentation, morphological tagging, dependency parsing, and compound type identification. Our systems currently report state-of-the-art performance on available benchmark datasets for all tasks. SanskritShala is deployed as a web-based application, which allows a user to get real-time analysis for the given input. It is built with easy-to-use interactive data annotation features that allow annotators to correct the system predictions when it makes mistakes. We publicly release the source codes of the 4 modules included in the toolkit, 7 word embedding models that have been trained on publicly available Sanskrit corpora and multiple annotated datasets such as word similarity, relatedness, categorization, analogy prediction to assess intrinsic properties of word embeddings. So far as we know, this is the first neural-based Sanskrit NLP toolkit that has a web-based interface and a number of NLP modules. We are sure that the people who are willing to work with Sanskrit will find it useful for pedagogical and annotative purposes. SanskritShala is available at: https://cnerg.iitkgp.ac.in/sanskritshala. The demo video of our platform can be accessed at: https://youtu.be/x0X31Y9k0mw4.
翻訳日:2023-02-21 17:59:35 公開日:2023-02-19
# 混合半教師付き一般線形回帰と深層学習への応用

Mixed Semi-Supervised Generalized-Linear-Regression with applications to Deep learning ( http://arxiv.org/abs/2302.09526v1 )

ライセンス: Link先を確認
Oren Yuval, Saharon Rosset(参考訳) 回帰タスクにおける教師あり学習の予測性能を向上させる半教師あり学習法(SSL)を設計するためにラベルなしデータを使用する手法を提案する。 主な考え方は、ラベルなしデータを統合するための異なるメカニズムを設計し、ラベルなしデータに与えられる重みを制御する混合パラメータ$\alpha$を含めることである。 一般化線形モデル (glm) に着目し, 異なる混合機構の特性を解析し, いずれの場合においても, 非ラベルデータと非零混合比 $\alpha>0$ を統合することは必然的に有益であることを示した。 さらに、ラベル付きデータとラベルなしデータを使用しながら、混合SSLが最高の予測性能を提供する場合、最良の混合比$\alpha^*$を推定するための厳密なフレームワークを提供する。 提案手法の有効性は,理論解析を支援する方法として,多種多様な条件下で,標準的な教師付きモデルと比較して大幅に改善されている。 また、実世界の回帰タスクにおいて、ディープニューラルネットワークのようなより複雑なモデルを改善するための方法論(直感的な修正を含む)の適用性を実証する。

We present a methodology for using unlabeled data to design semi supervised learning (SSL) methods that improve the prediction performance of supervised learning for regression tasks. The main idea is to design different mechanisms for integrating the unlabeled data, and include in each of them a mixing parameter $\alpha$, controlling the weight given to the unlabeled data. Focusing on Generalized-Linear-Models (GLM), we analyze the characteristics of different mixing mechanisms, and prove that in all cases, it is inevitably beneficial to integrate the unlabeled data with some non-zero mixing ratio $\alpha>0$, in terms of predictive performance. Moreover, we provide a rigorous framework for estimating the best mixing ratio $\alpha^*$ where mixed-SSL delivers the best predictive performance, while using the labeled and the unlabeled data on hand. The effectiveness of our methodology in delivering substantial improvement compared to the standard supervised models, under a variety of settings, is demonstrated empirically through extensive simulation, in a manner that supports the theoretical analysis. We also demonstrate the applicability of our methodology (with some intuitive modifications) in improving more complex models such as deep neural networks, in a real-world regression tasks.
翻訳日:2023-02-21 17:59:09 公開日:2023-02-19
# オンライン話者認識とクラスタリングのための確率的バックエンド

Probabilistic Back-ends for Online Speaker Recognition and Clustering ( http://arxiv.org/abs/2302.09523v1 )

ライセンス: Link先を確認
Alexey Sholokhov, Nikita Kuzmin, Kong Aik Lee, Eng Siong Chng(参考訳) 本稿では,オンライン話者クラスタリングのタスクにおいて自然に発生するマルチエンローメント話者認識に着目し,このシナリオにおけるスコアリングバックエンドの特性について検討する。 まず,人気のコサインスコアが,多人数の登録発話を伴う低得点校正に苦しむことを示す。 第2に,確率的線形判別分析(plda)の極めて制約のあるバージョンに基づく,cosineスコアの簡易な置き換えを提案する。 提案モデルでは,1対1比較の場合と同様の性能を維持しつつ,コサインスコアを改良し,マルチエンクルーメント認識を実現する。 最後に、各ステップが自然にマルチエンローメント認識を伴うオンライン話者クラスタリングタスクについて考察する。 本研究では,不確実性処理能力やスコアキャリブレーションの改善など,pldaモデルの利点を享受できるオンラインクラスタリングアルゴリズムを提案する。 本実験は,提案アルゴリズムの有効性を示す。

This paper focuses on multi-enrollment speaker recognition which naturally occurs in the task of online speaker clustering, and studies the properties of different scoring back-ends in this scenario. First, we show that popular cosine scoring suffers from poor score calibration with a varying number of enrollment utterances. Second, we propose a simple replacement for cosine scoring based on an extremely constrained version of probabilistic linear discriminant analysis (PLDA). The proposed model improves over the cosine scoring for multi-enrollment recognition while keeping the same performance in the case of one-to-one comparisons. Finally, we consider an online speaker clustering task where each step naturally involves multi-enrollment recognition. We propose an online clustering algorithm allowing us to take benefits from the PLDA model such as the ability to handle uncertainty and better score calibration. Our experiments demonstrate the effectiveness of the proposed algorithm.
翻訳日:2023-02-21 17:58:47 公開日:2023-02-19
# 強化学習を用いた対話型ビデオコーパスモーメント検索

Interactive Video Corpus Moment Retrieval using Reinforcement Learning ( http://arxiv.org/abs/2302.09522v1 )

ライセンス: Link先を確認
Zhixin Ma and Chong-Wah Ngo(参考訳) 既知のビデオ検索は、検索結果をインタラクティブに調査し、初期クエリを洗練するために、Human-in-the-loopで有効である。 それでも、検索結果の最初の数ページが視覚的に類似したアイテムで沼されたり、検索対象がランクリストの奥深くに隠されたりすると、ノウイムのターゲットを見つけるのは通常、ブラウジングと結果検査の長い時間を要する。 本稿では,ユーザからのフィードバックから長期学習により,数ラウンドのインタラクションで検索対象に到達することを目的とした強化学習によってこの問題に取り組む。 具体的には、フィードバックに基づいてナビゲーションパスをインタラクティブに計画し、ユーザコメントに対する長期的な報酬を最大化する潜在的なターゲットを推奨する。 我々は,ビデオコーパスモーメント検索(VCMR)の課題に対して,大規模なビデオコーパスからモーメントをローカライズする実験を行った。 TVRとDiDeMoデータセットの実験結果から,VCMRの最先端のオートサーチエンジンであるCONQUERとHEROのランキングの奥深くに隠された瞬間の検索に有効なことが確認された。

Known-item video search is effective with human-in-the-loop to interactively investigate the search result and refine the initial query. Nevertheless, when the first few pages of results are swamped with visually similar items, or the search target is hidden deep in the ranked list, finding the know-item target usually requires a long duration of browsing and result inspection. This paper tackles the problem by reinforcement learning, aiming to reach a search target within a few rounds of interaction by long-term learning from user feedbacks. Specifically, the system interactively plans for navigation path based on feedback and recommends a potential target that maximizes the long-term reward for user comment. We conduct experiments for the challenging task of video corpus moment retrieval (VCMR) to localize moments from a large video corpus. The experimental results on TVR and DiDeMo datasets verify that our proposed work is effective in retrieving the moments that are hidden deep inside the ranked lists of CONQUER and HERO, which are the state-of-the-art auto-search engines for VCMR.
翻訳日:2023-02-21 17:58:33 公開日:2023-02-19
# ゼロサムゲームとしてのデータフリー量子化の再考

Rethinking Data-Free Quantization as a Zero-Sum Game ( http://arxiv.org/abs/2302.09572v1 )

ライセンス: Link先を確認
Biao Qian, Yang Wang, Richang Hong and Meng Wang(参考訳) データフリー量子化(dfq)は、実データにアクセスせずに量子化ネットワーク(q)の性能を回復するが、代わりに全精度ネットワーク(p)から学習し、ジェネレータ(g)を介して偽のサンプルを生成する。 しかし、そのようなサンプル生成過程はQとは全く独立であり、Qの学習過程よりも生成したサンプル、すなわち有益または敵対的な適応性を考慮せず、非無視的な性能損失をもたらす。 さまざまなビット幅シナリオの下でQに対するサンプル適応性を計測し、活用するにはどうすればよいのか? 量子化されたネットワークに 最適な適応性を持つサンプルを 生成する方法は? --dfqを再訪させてください。 本稿では,ゲーム理論的な観点から,dfqを2人のプレイヤー - ジェネレータと量子化ネットワーク - 間のゼロサムゲームとして専門化し,さらに適応性アウェアサンプル生成 (adasg) 法を提案する。 技術的には、AdaSGはDFQをサンプル適応性に固定された動的最大化vs最小化ゲームプロセスとして再構成する。 最大化処理は、好適な適応性を有するサンプルを生成することを目的としており、性能回復のためにQを校正した後の最小化処理により、サンプル適応性がさらに低減される。 バランスギャップは、ゲームプロセスの定常性がqを最大限に有益に導くために定義され、理論分析と実証研究は、最先端技術に対するadasgの優位性を検証する。 私たちのコードはhttps://github.com/hfutqian/adasgで利用可能です。

Data-free quantization (DFQ) recovers the performance of quantized network (Q) without accessing the real data, but generates the fake sample via a generator (G) by learning from full-precision network (P) instead. However, such sample generation process is totally independent of Q, specialized as failing to consider the adaptability of the generated samples, i.e., beneficial or adversarial, over the learning process of Q, resulting into non-ignorable performance loss. Building on this, several crucial questions -- how to measure and exploit the sample adaptability to Q under varied bit-width scenarios? how to generate the samples with desirable adaptability to benefit the quantized network? -- impel us to revisit DFQ. In this paper, we answer the above questions from a game-theory perspective to specialize DFQ as a zero-sum game between two players -- a generator and a quantized network, and further propose an Adaptability-aware Sample Generation (AdaSG) method. Technically, AdaSG reformulates DFQ as a dynamic maximization-vs-minimization game process anchored on the sample adaptability. The maximization process aims to generate the sample with desirable adaptability, such sample adaptability is further reduced by the minimization process after calibrating Q for performance recovery. The Balance Gap is defined to guide the stationarity of the game process to maximally benefit Q. The theoretical analysis and empirical studies verify the superiority of AdaSG over the state-of-the-arts. Our code is available at https://github.com/hfutqian/AdaSG.
翻訳日:2023-02-21 17:52:28 公開日:2023-02-19
# SEMI-PointRend: 半導体ウェハの欠陥分類とレンダリングとしてのセグメンテーションの改善

SEMI-PointRend: Improved Semiconductor Wafer Defect Classification and Segmentation as Rendering ( http://arxiv.org/abs/2302.09569v1 )

ライセンス: Link先を確認
MinJin Hwang, Bappaditya Dey, Enrique Dehaerne, Sandip Halder, Young-han Shin(参考訳) 本研究では半導体欠陥セグメント化にPointRend(Point-based Rendering)法を適用した。 PointRendはコンピュータグラフィックスにおける画像レンダリングにインスパイアされた反復的セグメンテーションアルゴリズムであり、高解像度セグメンテーションマスクを生成する新しい画像セグメンテーション手法である。 また、Mask-RCNNのような一般的なインスタンスセグメンテーションメタアーキテクチャやFCNのようなセマンティックメタアーキテクチャにも柔軟に統合できる。 我々は、SEMI-PointRendと呼ばれるモデルを実装し、PointRendニューラルネットワークモジュールを適用して正確なセグメンテーションマスクを生成する。 本稿では, 各種欠陥タイプ(ラインラプス, シングルブリッジ, シンブリッジ, マルチブリッジ非ホリゾンタル)に対するセミポイントドおよびマスクrcnnの欠陥分割予測の比較について検討する。 SEMI-PointRend が Mask R-CNN を最大 18.8% 上回っていることを示す。

In this study, we applied the PointRend (Point-based Rendering) method to semiconductor defect segmentation. PointRend is an iterative segmentation algorithm inspired by image rendering in computer graphics, a new image segmentation method that can generate high-resolution segmentation masks. It can also be flexibly integrated into common instance segmentation meta-architecture such as Mask-RCNN and semantic meta-architecture such as FCN. We implemented a model, termed as SEMI-PointRend, to generate precise segmentation masks by applying the PointRend neural network module. In this paper, we focus on comparing the defect segmentation predictions of SEMI-PointRend and Mask-RCNN for various defect types (line-collapse, single bridge, thin bridge, multi bridge non-horizontal). We show that SEMI-PointRend can outperforms Mask R-CNN by up to 18.8% in terms of segmentation mean average precision.
翻訳日:2023-02-21 17:52:02 公開日:2023-02-19
# 深層学習における最適化手法 -総括-

Optimization Methods in Deep Learning: A Comprehensive Overview ( http://arxiv.org/abs/2302.09566v1 )

ライセンス: Link先を確認
David Shulman(参考訳) 近年,画像認識,自然言語処理,音声認識などの分野において,ディープラーニングは大きな成功を収めている。 ディープラーニングの有効性は、ディープニューラルネットワークのトレーニングに使用される最適化方法に大きく依存する。 本稿では,Stochastic Gradient Descent,Adagrad,Adadelta,RMSpropといった一階最適化手法の概要と,NesterovAccelered gradient,Adam,Nadam,AdaMax,AMSGradといった最近の運動量に基づく適応勾配法について述べる。 また,深層学習における最適化に伴う課題を議論し,重み初期化,バッチ正規化,レイヤ正規化など,これらの課題に対処する手法を検討する。 最後に、異なるディープラーニングタスクとデータセットの最適化方法を選択するための推奨事項を提供する。 本論文は,深層学習における最適化手法の包括的ガイドであり,この分野の研究者や実践者の参考として利用できる。

In recent years, deep learning has achieved remarkable success in various fields such as image recognition, natural language processing, and speech recognition. The effectiveness of deep learning largely depends on the optimization methods used to train deep neural networks. In this paper, we provide an overview of first-order optimization methods such as Stochastic Gradient Descent, Adagrad, Adadelta, and RMSprop, as well as recent momentum-based and adaptive gradient methods such as Nesterov accelerated gradient, Adam, Nadam, AdaMax, and AMSGrad. We also discuss the challenges associated with optimization in deep learning and explore techniques for addressing these challenges, including weight initialization, batch normalization, and layer normalization. Finally, we provide recommendations for selecting optimization methods for different deep learning tasks and datasets. This paper serves as a comprehensive guide to optimization methods in deep learning and can be used as a reference for researchers and practitioners in the field.
翻訳日:2023-02-21 17:51:45 公開日:2023-02-19
# 半導体欠陥検出のためのYOLOv7の最適化

Optimizing YOLOv7 for Semiconductor Defect Detection ( http://arxiv.org/abs/2302.09565v1 )

ライセンス: Link先を確認
Enrique Dehaerne, Bappaditya Dey, Sandip Halder, Stefan De Gendt(参考訳) ディープラーニング(DL)を用いた物体検出の分野は、多くの新しい技術やモデルが提案されている。 YOLOv7は、工業用途に普及したYOLOモデルを基にした最先端のオブジェクト検出器である。 そのようなアプリケーションドメインの1つは半導体欠陥検査である。 任意の機械学習モデルの性能はハイパーパラメータに依存する。 さらに、1つ以上のモデルの異なる方法での予測の組み合わせは、パフォーマンスにも影響を及ぼす可能性がある。 本研究では,最近提案されている最新の物体検出器であるyolov7を用いて,ハイパーパラメータの異なるモデルの訓練と評価を行い,半導体ラインの空間パターン欠陥の検出精度において,どのモデルが性能を向上させるかを検証した。 デフォルトのハイパーパラメータとNon Maximum Suppression(NMS)予測を備えたベースYOLOv7モデルは、平均精度(mAP)の観点から、以前の研究から得られるすべてのRetinaNetモデルより優れている。 トレーニング中に画像がランダムに反転すると、すべての欠陥クラスの平均APが3%改善することがわかった。 他のハイパーパラメータ値は、デフォルトモデルと比較して特定のクラスに対してのみapを改善した。 欠陥クラスで最高のAPを達成するモデルを組み合わせることは効果的なアンサンブル戦略であることがわかった。 重み付きボックスフュージョン(WBF)予測を用いたアンサンブルからの予測を組み合わせることで、最高の性能が得られた。 WBFの最良のアンサンブルは、デフォルトモデルのmAPを10%改善した。

The field of object detection using Deep Learning (DL) is constantly evolving with many new techniques and models being proposed. YOLOv7 is a state-of-the-art object detector based on the YOLO family of models which have become popular for industrial applications. One such possible application domain can be semiconductor defect inspection. The performance of any machine learning model depends on its hyperparameters. Furthermore, combining predictions of one or more models in different ways can also affect performance. In this research, we experiment with YOLOv7, a recently proposed, state-of-the-art object detector, by training and evaluating models with different hyperparameters to investigate which ones improve performance in terms of detection precision for semiconductor line space pattern defects. The base YOLOv7 model with default hyperparameters and Non Maximum Suppression (NMS) prediction combining outperforms all RetinaNet models from previous work in terms of mean Average Precision (mAP). We find that vertically flipping images randomly during training yields a 3% improvement in the mean AP of all defect classes. Other hyperparameter values improved AP only for certain classes compared to the default model. Combining models that achieve the best AP for different defect classes was found to be an effective ensembling strategy. Combining predictions from ensembles using Weighted Box Fusion (WBF) prediction gave the best performance. The best ensemble with WBF improved on the mAP of the default model by 10%.
翻訳日:2023-02-21 17:51:26 公開日:2023-02-19
# Fixflow: 軽量CNN推論における固定点算術的評価フレームワーク

Fixflow: A Framework to Evaluate Fixed-point Arithmetic in Light-Weight CNN Inference ( http://arxiv.org/abs/2302.09564v1 )

ライセンス: Link先を確認
Farhad Taheri, Siavash Bayat-Sarmadi, Hatame Mosanaei-Boorani and Reza Taheri(参考訳) 畳み込みニューラルネットワーク(CNN)は、IoTアプリケーションのリソース制約されたデバイスで広く利用されている。 計算の複雑さとメモリフットプリントを減らすために、リソース制約のあるデバイスは固定ポイント表現を使用する。 この表現は浮動小数点数と同等の分類精度でハードウェアの面積とエネルギーを消費する。 しかし,低精度の固定点表現を用いるためには,高精度化のための様々な考察が必要である。 推論精度を改善するために多くの量子化と再学習技術が提案されているが、これらのアプローチは時間がかかり、データセット全体にアクセスする必要がある。 本稿では,異なる固定点ハードウェアユニットがCNN推定精度に与える影響について検討する。 そこで本研究では,ハードウェアレベルでの固定点演算がcnn分類精度に与える影響を評価するためにfixflowというフレームワークを提案する。 ハードウェアアクセラレータでは, ラウンドリング法や固定点演算結果の精度の調整など, 異なる固定点考慮を適用できる。 Fixflowは、異なる算術単位(truncated multipliersなど)がCNN分類精度に与える影響を決定することができる。 さらに,これらのユニットのエネルギー消費と面積をハードウェアアクセラレーターで評価する。 2つの共通mnistとcifar-10データセットで実験を行った。 その結果,ハードウェアレベルでの異なる手法を特に低精度で採用することで,分類精度を大きく変化させることができることがわかった。

Convolutional neural networks (CNN) are widely used in resource-constrained devices in IoT applications. In order to reduce the computational complexity and memory footprint, the resource-constrained devices use fixed-point representation. This representation consumes less area and energy in hardware with similar classification accuracy compared to the floating-point ones. However, to employ the low-precision fixed-point representation, various considerations to gain high accuracy are required. Although many quantization and re-training techniques are proposed to improve the inference accuracy, these approaches are time-consuming and require access to the entire dataset. This paper investigates the effect of different fixed-point hardware units on CNN inference accuracy. To this end, we provide a framework called Fixflow to evaluate the effect of fixed-point computations performed at hardware level on CNN classification accuracy. We can employ different fixed-point considerations at the hardware accelerators.This includes rounding methods and adjusting the precision of the fixed-point operation's result. Fixflow can determine the impact of employing different arithmetic units (such as truncated multipliers) on CNN classification accuracy. Moreover, we evaluate the energy and area consumption of these units in hardware accelerators. We perform experiments on two common MNIST and CIFAR-10 datasets. Our results show that employing different methods at the hardware level specially with low-precision, can significantly change the classification accuracy.
翻訳日:2023-02-21 17:51:07 公開日:2023-02-19
# 税:複数注釈付き意味セグメンテーションの傾向・割り当て説明器

TAX: Tendency-and-Assignment Explainer for Semantic Segmentation with Multi-Annotators ( http://arxiv.org/abs/2302.09561v1 )

ライセンス: Link先を確認
Yuan-Chia Cheng, Zu-Yun Shiau, Fu-En Yang, Yu-Chiang Frank Wang(参考訳) ディープニューラルネットワークの分類予測の方法を理解するために、近年、望ましい説明を提供する手法の開発に注目が集まっている。 しかし、既存の手法の多くは、意味セグメンテーションに容易に適用することはできない。 一貫したラベリング傾向を持つ単一アノテータで注釈付けされた接地画素レベルのラベルを見る代わりに、解釈可能なセマンティックセグメンテーションを提供し、2つの批判的かつ実践的な質問に答えることを目指している。 本稿では,アノテータと割り当てレベルでの解釈性を実現するために,TAX(Tendency-and-Assignment Explainer)の学習フレームワークを提案する。 具体的には、各アノテーションのラベル付け傾向をモデル化するための畳み込みカーネルサブセットを学習し、プロトタイプバンクを共同で観察して、上記のカーネルを学習するための視覚的ガイダンスを提供する。 評価のために,マルチアノテータを用いた合成データセットと実世界のデータセットについて検討する。 我々のTAXは、同等の性能を持つ最先端ネットワークアーキテクチャに適用可能である一方で、両方のレベルでのセグメンテーションの解釈可能性も提供できることを示す。

To understand how deep neural networks perform classification predictions, recent research attention has been focusing on developing techniques to offer desirable explanations. However, most existing methods cannot be easily applied for semantic segmentation; moreover, they are not designed to offer interpretability under the multi-annotator setting. Instead of viewing ground-truth pixel-level labels annotated by a single annotator with consistent labeling tendency, we aim at providing interpretable semantic segmentation and answer two critical yet practical questions: "who" contributes to the resulting segmentation, and "why" such an assignment is determined. In this paper, we present a learning framework of Tendency-and-Assignment Explainer (TAX), designed to offer interpretability at the annotator and assignment levels. More specifically, we learn convolution kernel subsets for modeling labeling tendencies of each type of annotation, while a prototype bank is jointly observed to offer visual guidance for learning the above kernels. For evaluation, we consider both synthetic and real-world datasets with multi-annotators. We show that our TAX can be applied to state-of-the-art network architectures with comparable performances, while segmentation interpretability at both levels can be offered accordingly.
翻訳日:2023-02-21 17:50:48 公開日:2023-02-19
# Deep Selector-JPEG:人間の視覚基準を用いた画像分類におけるコンピュータビジョンのための適応JPEG画像圧縮

Deep Selector-JPEG: Adaptive JPEG Image Compression for Computer Vision in Image classification with Human Vision Criteria ( http://arxiv.org/abs/2302.09560v1 )

ライセンス: Link先を確認
Hossam Amer, Sepideh Shaterian, and En-hui Yang(参考訳) ストレージ/帯域のリソースが限られているため、Deep Neural Networks(DNN)を使用するコンピュータビジョン(CV)アプリケーションへの入力イメージは、ヒューマンビジョン(Human Vision, HV)に合わせてJPEGで符号化されることが多い。 本稿では,HV基準を満たした画像分類をターゲットとした適応JPEG圧縮手法であるDeep Selector-JPEGを提案する。 各画像に対して、Deep Selector-JPEGは、圧縮係数(QF)を選択して圧縮し、圧縮比(CR)とDNN分類器(Rate-Accuracy Performance)との良好なトレードオフが、様々なDNN分類器の一連の画像に対して達成され、その圧縮された画像のMS−SSIMは、高い確率でHVが定める閾値よりも大きい。 Deep Selector-JPEGは軽量または重厚なセレクタアーキテクチャで設計されている。 実験により,同一CRにおけるJPEGと比較して,HV制約を満たすとともに,同一CRにおける分類精度が0.2%から1%に向上する試験DNN分類器に対して,ImageNet検証セットよりも高いレート精度を実現することが示された。 ディープセレクタJPEGは、より高いCRで元の分類精度を提供することもできる。

With limited storage/bandwidth resources, input images to Computer Vision (CV) applications that use Deep Neural Networks (DNNs) are often encoded with JPEG that is tailored to Human Vision (HV). This paper presents Deep Selector-JPEG, an adaptive JPEG compression method that targets image classification while satisfying HV criteria. For each image, Deep Selector-JPEG selects adaptively a Quality Factor (QF) to compress the image so that a good trade-off between the Compression Ratio (CR) and DNN classifier Accuracy (Rate-Accuracy performance) can be achieved over a set of images for a variety of DNN classifiers while the MS-SSIM of such compressed image is greater than a threshold value predetermined by HV with a high probability. Deep Selector-JPEG is designed via light-weighted or heavy-weighted selector architectures. Experimental results show that in comparison with JPEG at the same CR, Deep Selector-JPEG achieves better Rate-Accuracy performance over the ImageNet validation set for all tested DNN classifiers with gains in classification accuracy between 0.2% and 1% at the same CRs while satisfying HV constraints. Deep Selector-JPEG can also roughly provide the original classification accuracy at higher CRs.
翻訳日:2023-02-21 17:50:23 公開日:2023-02-19
# 教師付きコントラスト学習と特徴融合による人間関係検証の改善

Supervised Contrastive Learning and Feature Fusion for Improved Kinship Verification ( http://arxiv.org/abs/2302.09556v1 )

ライセンス: Link先を確認
Nazim Bendib(参考訳) 顔関係検証は,2つの顔画像間の家族関係の程度を決定するタスクである。 最近、法医学、ソーシャルメディア、人口統計学にまたがる様々な応用に多くの関心を集めている。 過去10年間、ディープラーニングベースのアプローチが、最先端のパフォーマンスを達成するための有望なソリューションとして現れてきた。 本稿では,関連個体間の類似性を最大化し,非関連個体間での類似性を最小化するために,教師付きコントラスト学習を用いて近親性検証を行う新しい手法を提案する。 実験では最新結果を示し,wild(fiw)データセットにおける81.1%の精度を達成した。

Facial Kinship Verification is the task of determining the degree of familial relationship between two facial images. It has recently gained a lot of interest in various applications spanning forensic science, social media, and demographic studies. In the past decade, deep learning-based approaches have emerged as a promising solution to this problem, achieving state-of-the-art performance. In this paper, we propose a novel method for solving kinship verification by using supervised contrastive learning, which trains the model to maximize the similarity between related individuals and minimize it between unrelated individuals. Our experiments show state-of-the-art results and achieve 81.1% accuracy in the Families in the Wild (FIW) dataset.
翻訳日:2023-02-21 17:49:55 公開日:2023-02-19
# 画像復元のための混合階層ネットワーク

Mixed Hierarchy Network for Image Restoration ( http://arxiv.org/abs/2302.09554v1 )

ライセンス: Link先を確認
Hu Gao and Depeng Dang(参考訳) 画像復元は、デブラリングやデレイニングなど、長期にわたる低レベルの視覚問題である。 画像復元の過程では,空間的詳細や文脈情報だけでなく,システムの複雑さも考慮する必要がある。 画像復元の質を保証できる手法は数多くあるが, 現状技術(SOTA)手法の複雑さも増大している。 この動機付けにより、これらの競合する目標のバランスをとることができる混合階層ネットワークを提案する。 システム複雑性を軽減するためにブロック内の設計を行いながら、劣化した画像からコンテキスト情報と空間詳細を段階的に復元する。 具体的には,まずエンコーダデコーダアーキテクチャを用いて文脈情報を学習し,空間的詳細を保存する高分解能分岐と組み合わせる。 簡易な解析と比較のために、このアーキテクチャのシステムの複雑さを軽減するために、非線形活性化関数を乗法で置き換えたり取り除いたりし、単純なネットワーク構造を使う。 さらに,エンコーダデコーダの中間ブロックに対する空間畳み込みをグローバルな自己注意に置き換える。 その結果、mhnetと呼ばれる密にリンクされた階層アーキテクチャは、画像のデレイニングやデブラリングなど、いくつかの画像復元タスクにおいて強力なパフォーマンス向上をもたらす。

Image restoration is a long-standing low-level vision problem, e.g., deblurring and deraining. In the process of image restoration, it is necessary to consider not only the spatial details and contextual information of restoration to ensure the quality, but also the system complexity. Although many methods have been able to guarantee the quality of image restoration, the system complexity of the state-of-the-art (SOTA) methods is increasing as well. Motivated by this, we present a mixed hierarchy network that can balance these competing goals. Our main proposal is a mixed hierarchy architecture, that progressively recovers contextual information and spatial details from degraded images while we design intra-blocks to reduce system complexity. Specifically, our model first learns the contextual information using encoder-decoder architectures, and then combines them with high-resolution branches that preserve spatial detail. In order to reduce the system complexity of this architecture for convenient analysis and comparison, we replace or remove the nonlinear activation function with multiplication and use a simple network structure. In addition, we replace spatial convolution with global self-attention for the middle block of encoder-decoder. The resulting tightly interlinked hierarchy architecture, named as MHNet, delivers strong performance gains on several image restoration tasks, including image deraining, and deblurring.
翻訳日:2023-02-21 17:49:43 公開日:2023-02-19
# 量子エンハンス型トポロジカルデータ解析:実装の観点からのpeep

Quantum-Enhanced Topological Data Analysis: A Peep from an Implementation Perspective ( http://arxiv.org/abs/2302.09553v1 )

ライセンス: Link先を確認
Ankit Khandelwal and M Girish Chandra(参考訳) トポロジカルデータ解析(TDA)の量子アルゴリズムへの関心は、データ解析の強力なツールであるため高まっているが、高い計算コストがかかる可能性がある。 qtda(quantum topological data analysis)には、さまざまな提案や観察があるが、ソフトウェアプラットフォームでそれを実装するために必要な詳細は欠落している。 本稿では,このギャップを埋めるために,ベッチ数を計算するアルゴリズムの実装を提案する。 選択した量子アルゴリズムのステップバイステップ命令と、機械学習タスクにどのように使用できるかの側面を提供する。 そこで本研究では,ベッチ数を用いた分類の結果を奨励し,ショット数と精度量子ビットが量子アルゴリズムの結果に与える影響を予備的に解析する。

There is heightened interest in quantum algorithms for Topological Data Analysis (TDA) as it is a powerful tool for data analysis, but it can get highly computationally expensive. Even though there are different propositions and observations for Quantum Topological Data Analysis (QTDA), the necessary details to implement them on software platforms are lacking. Towards closing this gap, the present paper presents an implementation of one such algorithm for calculating Betti numbers. The step-by-step instructions for the chosen quantum algorithm and the aspects of how it can be used for machine learning tasks are provided. We provide encouraging results on using Betti numbers for classification and give a preliminary analysis of the effect of the number of shots and precision qubits on the outcome of the quantum algorithm.
翻訳日:2023-02-21 17:49:21 公開日:2023-02-19
# textit{ab initio} 計算によるダイヤモンド中の酸素空孔錯体の研究

Investigation of oxygen-vacancy complexes in diamond by means of \textit{ab initio} calculations ( http://arxiv.org/abs/2302.09593v1 )

ライセンス: Link先を確認
Nima Ghafari Cherati, Gerg\H{o} Thiering, and \'Ad\'am Gali(参考訳) ダイヤモンドの点欠陥は量子ビットとして作用する。 近年、酸素空孔関連欠陥がダイヤモンドのいわゆるST1色中心の起源となり、長寿命の固体量子メモリを実現することが提案されている。 この提案に動機づけられて,第一原理密度汎関数理論計算を用いて,ダイヤモンド中の酸素空孔錯体を体系的に検討した。 酸素空孔欠陥はいずれも中性電荷状態において高いスピン基底状態を有しており,ST1色中心の起源として無視されている。 高スピン準安定酸素空孔複合体を同定し、将来の実験でその磁気光学特性を同定する。

Point defects in diamond may act as quantum bits. Recently, oxygen-vacancy related defects have been proposed to the origin of the so-called ST1 color center in diamond that can realize a long-living solid-state quantum memory. Motivated by this proposal we systematically investigate oxygen-vacancy complexes in diamond by means of first principles density functional theory calculations. We find that all the considered oxygen-vacancy defects have a high-spin ground state in their neutral charge state, which disregards them as an origin for the ST1 color center. We identify a high-spin metastable oxygen-vacancy complex and characterize their magnetooptical properties for identification in future experiments.
翻訳日:2023-02-21 17:42:39 公開日:2023-02-19
# ディープ・ディテクタとトラッカーによるビデオアノテーションの高速化

Accelerated Video Annotation driven by Deep Detector and Tracker ( http://arxiv.org/abs/2302.09590v1 )

ライセンス: Link先を確認
Eric Price and Aamir Ahmad(参考訳) ビデオ中の物体の真実を注釈付けすることは、ロボットの知覚や機械学習において、オブジェクトトラッカーの性能評価や画像ベースの物体検出装置の訓練など、いくつかの下流タスクにおいて不可欠である。 動画内の各画像フレーム上の移動物体の注釈付きインスタンスの精度は極めて重要である。 手動アノテーションによってそれを達成することは、非常に時間と労力を消費するだけでなく、高いエラー率につながる。 State-of-the-artアノテーションメソッドは、最初のフレームでのみオブジェクト境界ボックスを手動で初期化し、アダブーストやカーネル相関フィルタといった古典的な追跡手法を使ってそれらの境界ボックスを追跡する。 これらはすぐに漂流し、面倒な手動の監督を必要とする。 本稿では,学習ベース検出器(SSD)と学習ベーストラッカー(RE$^3$)を組み合わせたアノテーション手法を提案する。 これによりアノテーションのドリフトが大幅に減少し,手動による監督が要求される。 本手法は,提案手法と既存のベースラインを用いて,ドローンビデオフレーム上でのアノテーション実験により検証する。 ソースコードとアノテーションプログラムの実行方法の詳細は、https://github.com/robot-perception-group/smarter-labelmeで確認できる。

Annotating object ground truth in videos is vital for several downstream tasks in robot perception and machine learning, such as for evaluating the performance of an object tracker or training an image-based object detector. The accuracy of the annotated instances of the moving objects on every image frame in a video is crucially important. Achieving that through manual annotations is not only very time consuming and labor intensive, but is also prone to high error rate. State-of-the-art annotation methods depend on manually initializing the object bounding boxes only in the first frame and then use classical tracking methods, e.g., adaboost, or kernelized correlation filters, to keep track of those bounding boxes. These can quickly drift, thereby requiring tedious manual supervision. In this paper, we propose a new annotation method which leverages a combination of a learning-based detector (SSD) and a learning-based tracker (RE$^3$). Through this, we significantly reduce annotation drifts, and, consequently, the required manual supervision. We validate our approach through annotation experiments using our proposed annotation method and existing baselines on a set of drone video frames. Source code and detailed information on how to run the annotation program can be found at https://github.com/robot-perception-group/smarter-labelme
翻訳日:2023-02-21 17:42:28 公開日:2023-02-19
# FusionMotion: ニューラルネットワークによる連続動作予測のためのマルチセンサ非同期核融合

FusionMotion: Multi-Sensor Asynchronous Fusion for Continuous Occupancy Prediction via Neural-ODE ( http://arxiv.org/abs/2302.09585v1 )

ライセンス: Link先を確認
Yining Shi, Kun Jiang, Ke Wang, Jiusi Li, Yunlong Wang, Diange Yang(参考訳) 静的環境下でロボットの動作計画を容易にする効率的な方法として,占有マップが広く認識されている。 しかし、インテリジェントな車両では、安全運転を確保するためには、現在と将来の両方の瞬間の占有が必要である。 自動車業界では、交通シナリオにおける将来の占有率マップの正確かつ継続的な予測は、依然として大きな課題である。 本稿では,連続占有予測のためのマルチセンサ時空間融合戦略を体系的に検討する。 本稿では,非同期マルチセンサデータの融合を実現し,時間間隔と時間軸の可変な将来の占有マップを予測可能な,新しい鳥眼視(bev)占有率予測器であるfusionmotionを提案する。 注目すべきは、FusionMotionは、占有率予測のためのリカレントニューラルネットワークにおけるニューラル常微分方程式の採用である。 FusionMotionは、時間的水平線上のBEV特徴の微分を学習し、暗黙センサのBEV特徴測定を更新し、ODEステップ毎に将来の状態を伝搬する。 大規模なnuScenesとLyft L5データセットに関する大規模な実験は、FusionMotionが従来の方法よりも大幅に優れていることを示している。 さらに、同期要件を削減しながら、lyft l5データセット上のbevfusionスタイルの融合戦略を上回っている。 コードとモデルは利用可能になる。

Occupancy maps are widely recognized as an efficient method for facilitating robot motion planning in static environments. However, for intelligent vehicles, occupancy of both the present and future moments is required to ensure safe driving. In the automotive industry, the accurate and continuous prediction of future occupancy maps in traffic scenarios remains a formidable challenge. This paper investigates multi-sensor spatio-temporal fusion strategies for continuous occupancy prediction in a systematic manner. This paper presents FusionMotion, a novel bird's eye view (BEV) occupancy predictor which is capable of achieving the fusion of asynchronous multi-sensor data and predicting the future occupancy map with variable time intervals and temporal horizons. Remarkably, FusionMotion features the adoption of neural ordinary differential equations on recurrent neural networks for occupancy prediction. FusionMotion learns derivatives of BEV features over temporal horizons, updates the implicit sensor's BEV feature measurements and propagates future states for each ODE step. Extensive experiments on large-scale nuScenes and Lyft L5 datasets demonstrate that FusionMotion significantly outperforms previous methods. In addition, it outperforms the BEVFusion-style fusion strategy on the Lyft L5 dataset while reducing synchronization requirements. Codes and models will be made available.
翻訳日:2023-02-21 17:42:07 公開日:2023-02-19
# DGP-Net:Few-Shot SARターゲット認識のための高密度グラフプロトタイプネットワーク

DGP-Net: Dense Graph Prototype Network for Few-Shot SAR Target Recognition ( http://arxiv.org/abs/2302.09584v1 )

ライセンス: Link先を確認
Xiangyu Zhou, Qianru Wei, Yuhui Zhang(参考訳) 合成開口レーダ(SAR)画像の特殊な撮像原理(圧縮角の変動)による必然的特徴偏差は、特に数ショット学習(FSL)において、認識精度の低下につながる。 この問題に対処するために,ポテンシャル特徴の学習による特徴偏差を解消し,特徴分布の学習による分類を行うためのグラフプロトタイプネットワーク(DGP-Net)を提案する。 本モデルにおける試作機の役割は,FSLにおける単一サンプリングの持続性に起因する同種試料間の距離の増大を解消し,モデルのロバスト性を高めることである。 MSTARデータセットを用いた実験結果から,DGP-Netは抑うつ角度の異なるSAR画像に対して良好な分類結果を示し,認識精度は通常のFSL法よりも高いことがわかった。

The inevitable feature deviation of synthetic aperture radar (SAR) image due to the special imaging principle (depression angle variation) leads to poor recognition accuracy, especially in few-shot learning (FSL). To deal with this problem, we propose a dense graph prototype network (DGP-Net) to eliminate the feature deviation by learning potential features, and classify by learning feature distribution. The role of the prototype in this model is to solve the problem of large distance between congeneric samples taken due to the contingency of single sampling in FSL, and enhance the robustness of the model. Experimental results on the MSTAR dataset show that the DGP-Net has good classification results for SAR images with different depression angles and the recognition accuracy of it is higher than typical FSL methods.
翻訳日:2023-02-21 17:41:50 公開日:2023-02-19
# 大規模言語モデルにおける人間の感情知識表現の創出と離散的感情推論支援

Human Emotion Knowledge Representation Emerges in Large Language Models and Supports Discrete Emotion Inference ( http://arxiv.org/abs/2302.09582v1 )

ライセンス: Link先を確認
Ming Li, Yusheng Su, Hsiu-Yuan Huang, Jiali Cheng, Xin Hu, Xinmiao Zhang, Huadong Wang, Yujia Qin, Xiaozhi Wang, Zhiyuan Liu, Dan Zhang(参考訳) 人間がどのように離散的な感情を推測するかは、心理学の分野における基本的な研究課題である。 感情に関する概念知識(感情知識)は感情推論に不可欠であると提案されているが、これまでの証拠はほとんどが間接的で決定的ではない。 大規模言語モデル(llm)が様々な概念知識の効果的な表現を支援することが示されているため、本研究は人間の感情推論のメカニズムを調査するためにllmの人工ニューロンをさらに活用した。 人工ニューロンはプロンプトによって活性化され、LLM(RoBERTa)は27個の離散的な感情を人間の行動と類似した概念構造を示した。 さらに、llmに基づく概念構造は、感情推論のための感情の14の基本的な概念的属性に依存することを示した。 さらに, 属性特異的ニューロンの操作により, 対応するLLMの感情推定性能が低下し, 人体における概念的属性の表現の有効性と性能劣化が相関していることが判明した。 本研究は,大規模言語モデルにおける感情知識表現の出現の直接的証拠を提供し,離散的感情推論に対するカジュアルサポートを提案する。

How humans infer discrete emotions is a fundamental research question in the field of psychology. While conceptual knowledge about emotions (emotion knowledge) has been suggested to be essential for emotion inference, evidence to date is mostly indirect and inconclusive. As the large language models (LLMs) have been shown to support effective representations of various human conceptual knowledge, the present study further employed artificial neurons in LLMs to investigate the mechanism of human emotion inference. With artificial neurons activated by prompts, the LLM (RoBERTa) demonstrated a similar conceptual structure of 27 discrete emotions as that of human behaviors. Furthermore, the LLM-based conceptual structure revealed a human-like reliance on 14 underlying conceptual attributes of emotions for emotion inference. Most importantly, by manipulating attribute-specific neurons, we found that the corresponding LLM's emotion inference performance deteriorated, and the performance deterioration was correlated to the effectiveness of representations of the conceptual attributes on the human side. Our findings provide direct evidence for the emergence of emotion knowledge representation in large language models and suggest its casual support for discrete emotion inference.
翻訳日:2023-02-21 17:41:33 公開日:2023-02-19
# ハイブリッドスペクトル法と高調波振動子に基づく時空間ガウス過程の非分離共分散カーネル

Non-separable Covariance Kernels for Spatiotemporal Gaussian Processes based on a Hybrid Spectral Method and the Harmonic Oscillator ( http://arxiv.org/abs/2302.09580v1 )

ライセンス: Link先を確認
Dionissios T.Hristopulos(参考訳) ガウス過程は、高次元空間における関数の近似に対する柔軟で非パラメトリックな枠組みを提供する。 共分散カーネルはガウス過程の主エンジンであり、予測分布の基盤となる相関を取り入れている。 時空間データセットを持つアプリケーションでは、適切なカーネルはジョイント空間と時間依存をモデル化する必要がある。 分離可能な時空間共分散カーネルは単純性と計算効率を提供する。 しかし、分離不能なカーネルには、観測された相関をよりよく捉える時空相互作用が含まれる。 明示的な表現を認めるほとんどの非分離カーネルは、第一原理の導出よりも数学的考察(許容条件)に基づいている。 物理引数に基づく共分散カーネルを生成するためのハイブリッドスペクトル手法を提案する。 このアプローチは、確率、線形、減衰、高調波発振器(LDHO)にルーツを持つ、物理的に動機づけられた非分離性共分散カーネルの新たなクラスを導出するために用いられる。 新しいカーネルは、時空相関の単調および振動減衰の両方の関数を含む。 LDHO共分散核は、振動子係数を変調する分散関係によって導入された時空相互作用を含む。 3つの振動子系(アンダーダンピング、臨界ダンピング、オーバーダンピング)における時空間共分散核の明示的な関係を導出し、それらの性質を調べる。

Gaussian processes provide a flexible, non-parametric framework for the approximation of functions in high-dimensional spaces. The covariance kernel is the main engine of Gaussian processes, incorporating correlations that underpin the predictive distribution. For applications with spatiotemporal datasets, suitable kernels should model joint spatial and temporal dependence. Separable space-time covariance kernels offer simplicity and computational efficiency. However, non-separable kernels include space-time interactions that better capture observed correlations. Most non-separable kernels that admit explicit expressions are based on mathematical considerations (admissibility conditions) rather than first-principles derivations. We present a hybrid spectral approach for generating covariance kernels which is based on physical arguments. We use this approach to derive a new class of physically motivated, non-separable covariance kernels which have their roots in the stochastic, linear, damped, harmonic oscillator (LDHO). The new kernels incorporate functions with both monotonic and oscillatory decay of space-time correlations. The LDHO covariance kernels involve space-time interactions which are introduced by dispersion relations that modulate the oscillator coefficients. We derive explicit relations for the spatiotemporal covariance kernels in the three oscillator regimes (underdamping, critical damping, overdamping) and investigate their properties.
翻訳日:2023-02-21 17:41:13 公開日:2023-02-19
# 読み出しモデル切替による表現評価

Evaluating Representations with Readout Model Switching ( http://arxiv.org/abs/2302.09579v1 )

ライセンス: Link先を確認
Yazhe Li, Jorg Bornschein, Marcus Hutter(参考訳) Deep Learningの成功の多くは、優れた表現を学ぶことに基づいているが、彼らの品質を評価する厳密な方法は欠如している。 本稿では,表現の評価をモデル選択問題として扱うとともに,最小記述長(MDL)の原理を用いて評価指標を作成することを提案する。 読み出しモデルの容量を制限するという確立された実践とは対照的に、読み出しモデルのための離散および連続値のハイブリッドモデル空間を設計し、それらの予測を組み合わせるための切り替え戦略を用いる。 mdlスコアはモデルの複雑さとデータ効率を考慮しています。 結果として、特定のタスクと表現に最も適したモデルが選択され、比較のための統一された尺度となる。 提案手法はオンライン手法で効率的に計算可能であり,様々なアーキテクチャ (ResNet と ViT) の事前学習された視覚エンコーダと,下流タスクにおける客観的機能 (教師および自己監督) に関する結果を示す。 本手法を精度に基づく手法と比較し,複数の読み出しモデルを用いた場合,後者は一貫性がないことを示す。 最後に,モデルスケーリング,推奨読み出しモデル,データ効率など評価によって明らかにされる重要な特性について考察する。

Although much of the success of Deep Learning builds on learning good representations, a rigorous method to evaluate their quality is lacking. In this paper, we treat the evaluation of representations as a model selection problem and propose to use the Minimum Description Length (MDL) principle to devise an evaluation metric. Contrary to the established practice of limiting the capacity of the readout model, we design a hybrid discrete and continuous-valued model space for the readout models and employ a switching strategy to combine their predictions. The MDL score takes model complexity, as well as data efficiency into account. As a result, the most appropriate model for the specific task and representation will be chosen, making it a unified measure for comparison. The proposed metric can be efficiently computed with an online method and we present results for pre-trained vision encoders of various architectures (ResNet and ViT) and objective functions (supervised and self-supervised) on a range of downstream tasks. We compare our methods with accuracy-based approaches and show that the latter are inconsistent when multiple readout models are used. Finally, we discuss important properties revealed by our evaluations such as model scaling, preferred readout model, and data efficiency.
翻訳日:2023-02-21 17:40:53 公開日:2023-02-19
# スプリットラーニングにおけるサーバサイドバックドアアタックの可能性について

On Feasibility of Server-side Backdoor Attacks on Split Learning ( http://arxiv.org/abs/2302.09578v1 )

ライセンス: Link先を確認
Behrad Tajalli, Oguzhan Ersoy, Stjepan Picek(参考訳) 分割学習は、複数の参加者(クライアント)がデータセットをプライベートに保ちながら共有モデルをトレーニングできる協調学習設計である。 近年の研究では、協調学習モデル、特に連合学習モデルは、モデル推論やバックドア攻撃のようなセキュリティやプライバシ攻撃に弱いことが示されている。 バックドア攻撃(英: backdoor attack)は、攻撃者がモデルのトレーニングプロセスを操作してモデル出力を制御しようとする一連の毒殺攻撃である。 スプリットラーニングに対する推論攻撃に関する研究は行われているが、バックドア攻撃の試験はまだ行われていない。 本稿では,スプリット学習に対する新しいバックドア攻撃を行い,その効果について検討する。 クライアント側での従来のバックドア攻撃にもかかわらず、サーバ側からバックドアトリガーを注入します。 この目的のために、我々は、サロゲートクライアントとオートエンコーダを使用して、入力されたスマッシュデータと、その無実の参加者への流出勾配を介してモデルに毒を与える2つの攻撃方法を提供する。 画像ドメイン内の3つのモデルアーキテクチャと3つの公開データセットを用いて実験を行い、攻撃方法を評価するために合計761の実験を行った。 その結果, 強いパターンと注入法を用いても, スプリットラーニングは非常に堅牢で, 中毒に対する耐性が高いことがわかった。 mnistデータセットの最高の結果として、攻撃成功率は100%だが、他のほとんどのケースでは、カット層を増加させる場合、攻撃成功率はほとんどない。

Split learning is a collaborative learning design that allows several participants (clients) to train a shared model while keeping their datasets private. Recent studies demonstrate that collaborative learning models, specifically federated learning, are vulnerable to security and privacy attacks such as model inference and backdoor attacks. Backdoor attacks are a group of poisoning attacks in which the attacker tries to control the model output by manipulating the model's training process. While there have been studies regarding inference attacks on split learning, it has not yet been tested for backdoor attacks. This paper performs a novel backdoor attack on split learning and studies its effectiveness. Despite traditional backdoor attacks done on the client side, we inject the backdoor trigger from the server side. For this purpose, we provide two attack methods: one using a surrogate client and another using an autoencoder to poison the model via incoming smashed data and its outgoing gradient toward the innocent participants. We did our experiments using three model architectures and three publicly available datasets in the image domain and ran a total of 761 experiments to evaluate our attack methods. The results show that despite using strong patterns and injection methods, split learning is highly robust and resistant to such poisoning attacks. While we get the attack success rate of 100% as our best result for the MNIST dataset, in most of the other cases, our attack shows little success when increasing the cut layer.
翻訳日:2023-02-21 17:40:32 公開日:2023-02-19
# ロバストモデルにおける定常点損失

Stationary Point Losses for Robust Model ( http://arxiv.org/abs/2302.09575v1 )

ライセンス: Link先を確認
Weiwei Gao, Dazhi Zhang, Yao Li, Zhichang Guo, Ovanes Petrosian(参考訳) 堅牢性を保証することができないことは、セキュリティ要求ドメインにおけるディープラーニングモデルの適用の大きな障害のひとつだ。 最も一般的に使用されるクロスエントロピー(CE)損失は、ニューラルネットワークの堅牢な境界を保証するものではない。 CE損失は、境界をより堅牢な位置に押し上げるのではなく、決定境界でニューラルネットワークを鋭くし、低い損失を達成する。 堅牢な境界は、異なるクラスからのサンプルの中央に保持されるべきであり、したがって境界からサンプルへのマージンを最大化する。 これはCE損失が静止点を持たないためだと思います。 本稿では,少なくとも1つの定常点を正しい分類側に有する定常点損失(定常点損失)という新たな損失の族を提案する。 精度を損なうことなく,sp損失によって頑健な境界を保証できることを実証した。 SP損失では、敵の例を生成するために大きな摂動が必要となる。 我々はsp損失を適用することで,様々な敵の攻撃の下でロバスト性が向上することを示す。 さらに、sp損失によって学習されるロバストな境界は、不均衡データセットでもうまく機能する。

The inability to guarantee robustness is one of the major obstacles to the application of deep learning models in security-demanding domains. We identify that the most commonly used cross-entropy (CE) loss does not guarantee robust boundary for neural networks. CE loss sharpens the neural network at the decision boundary to achieve a lower loss, rather than pushing the boundary to a more robust position. A robust boundary should be kept in the middle of samples from different classes, thus maximizing the margins from the boundary to the samples. We think this is due to the fact that CE loss has no stationary point. In this paper, we propose a family of new losses, called stationary point (SP) loss, which has at least one stationary point on the correct classification side. We proved that robust boundary can be guaranteed by SP loss without losing much accuracy. With SP loss, larger perturbations are required to generate adversarial examples. We demonstrate that robustness is improved under a variety of adversarial attacks by applying SP loss. Moreover, robust boundary learned by SP loss also performs well on imbalanced datasets.
翻訳日:2023-02-21 17:40:08 公開日:2023-02-19
# 深層カーネル学習のガイド

Guided Deep Kernel Learning ( http://arxiv.org/abs/2302.09574v1 )

ライセンス: Link先を確認
Idan Achituve, Gal Chechik, Ethan Fetaya(参考訳) ガウス過程とディープニューラルネットワークの表現力の組み合わせは、今日ではdkl(deep kernel learning)を通じて一般的に行われている。 残念なことに、カーネル最適化プロセスのため、これはしばしばベイズ的な利点を失う。 本研究では,無限幅ニューラルネットワークを用いて深層カーネルを学習する新しい手法を提案する。 本稿では、最適化プロセスにおけるDKLモデルのガイドとしてニューラルネットワークガウス過程(NNGP)モデルを提案する。 提案手法は,新しいデータポイントに遭遇した場合のDKL目標の信頼度に適応するために,NNGPの確実性評価を利用する。 その結果、我々は、NNGPのベイズ的挙動、すなわち過度な適合に対する頑健さ、そして正確な不確実性推定を生かし、より深いカーネルの一般化能力、スケーラビリティ、柔軟性を維持できる。 実験では, 様々なサイズと寸法のベンチマークデータセット上で, オーバーフィッティングに頑健であり, 予測性能が良好であり, 信頼性の高い不確実性推定を行う。

Combining Gaussian processes with the expressive power of deep neural networks is commonly done nowadays through deep kernel learning (DKL). Unfortunately, due to the kernel optimization process, this often results in losing their Bayesian benefits. In this study, we present a novel approach for learning deep kernels by utilizing infinite-width neural networks. We propose to use the Neural Network Gaussian Process (NNGP) model as a guide to the DKL model in the optimization process. Our approach harnesses the reliable uncertainty estimation of the NNGPs to adapt the DKL target confidence when it encounters novel data points. As a result, we get the best of both worlds, we leverage the Bayesian behavior of the NNGP, namely its robustness to overfitting, and accurate uncertainty estimation, while maintaining the generalization abilities, scalability, and flexibility of deep kernels. Empirically, we show on multiple benchmark datasets of varying sizes and dimensionality, that our method is robust to overfitting, has good predictive performance, and provides reliable uncertainty estimations.
翻訳日:2023-02-21 17:39:54 公開日:2023-02-19
# 離散価値メカニズムの「f$-differential privacy guarantees」について

On the $f$-Differential Privacy Guarantees of Discrete-Valued Mechanisms ( http://arxiv.org/abs/2302.09624v1 )

ライセンス: Link先を確認
Richeng Jin, Zhonggen Su, Caijun Zhong, Zhaoyang Zhang, Tony Quek, Huaiyu Dai(参考訳) 本稿では,複数のユーザの協調的なデータ分析を,プライバシの懸念と限られた通信能力で調整するフェデレーションデータ分析問題を考える。 一般に採用されている圧縮スキームは、通信効率を向上しながら、ローカルデータに情報損失を導入しており、そのような離散値のメカニズムがプライバシー保護を提供するかどうかには疑問が残る。 本稿では,その簡単な実装と厳密な理論的基礎により,プライバシー対策の金本位になったことを考慮し,f$-differential privacy (dp) のレンズに有限出力空間を持つ離散値機構のプライバシー保証について検討する。 プライバシリークを仮説検証問題として解釈することにより,二項機構,符号ベース手法,三元系圧縮機など,様々な離散値機構の$f$-dpが保証されるタイプiとタイプiiのトレードオフのクローズドフォーム表現を導出する。 さらに,二項機構と三項圧縮機のビザンチン弾性について検討し,微分プライバシー,ビザンチン弾性,通信効率のトレードオフを特徴付ける。 最後に,フェデレート学習における確率勾配勾配の差分化に対する提案手法の適用について論じる。

We consider a federated data analytics problem in which a server coordinates the collaborative data analysis of multiple users with privacy concerns and limited communication capability. The commonly adopted compression schemes introduce information loss into local data while improving communication efficiency, and it remains an open question whether such discrete-valued mechanisms provide any privacy protection. Considering that differential privacy has become the gold standard for privacy measures due to its simple implementation and rigorous theoretical foundation, in this paper, we study the privacy guarantees of discrete-valued mechanisms with finite output space in the lens of $f$-differential privacy (DP). By interpreting the privacy leakage as a hypothesis testing problem, we derive the closed-form expression of the tradeoff between type I and type II error rates, based on which the $f$-DP guarantees of a variety of discrete-valued mechanisms, including binomial mechanisms, sign-based methods, and ternary-based compressors, are characterized. We further investigate the Byzantine resilience of binomial mechanisms and ternary compressors and characterize the tradeoff among differential privacy, Byzantine resilience, and communication efficiency. Finally, we discuss the application of the proposed method to differentially private stochastic gradient descent in federated learning.
翻訳日:2023-02-21 17:34:36 公開日:2023-02-19
# コンカレント・アリーブースティングと競合防止による相補的競争的影響最大化

Jointly Complementary&Competitive Influence Maximization with Concurrent Ally-Boosting and Rival-Preventing ( http://arxiv.org/abs/2302.09620v1 )

ライセンス: Link先を確認
Qihao Shi, Wenjie Tian, Wujian Yang, Mengqi Xue, Can Wang, Minghui Wu(参考訳) 本稿では,新しい影響拡散モデル,すなわち相補的非競合的独立カスケード(c$^2$ic)モデルを提案する。 C$^2$ICモデルは、影響力増強(IB)モデル、キャンペーンオブリブラス(CO)ICモデル、ネガティブな意見を持つIC-N(ICモデル)モデルの3つのよく知られた影響モデルを一般化する。 これは、補完的および競争的な影響が多エージェント環境下で包括的に広がると考える最初のモデルである。 これに対応して,Complementary\&Competitive influence maximization (C$^2$IM) 問題を提案する。 アリシードセットと競合シードセットが与えられた場合、C$^2$IM問題は、アリスプレッドを強化し、競合スプレッドを同時に防止できるアシスタントノードのセットを選択することを目的としている。 この問題はnp-hardであり,影響促進問題と影響ブロック問題を一般化できることを示す。 異なるカスケード優先度をモノトニック性とサブモジュラリティ(m\&s)保持条件によって4つのケースに分類し、それぞれ4つのアルゴリズムを理論的近似境界で設計する。 そこで本研究では,実ソーシャルネットワーク上で広範囲に実験を行い,提案アルゴリズムの有効性を実証した。 この研究が、この分野の作業を合理化するのに役立つより一般化した影響モデルを構築するための、豊富な将来の探索を刺激できることを願っている。

In this paper, we propose a new influence spread model, namely, Complementary\&Competitive Independent Cascade (C$^2$IC) model. C$^2$IC model generalizes three well known influence model, i.e., influence boosting (IB) model, campaign oblivious (CO)IC model and the IC-N (IC model with negative opinions) model. This is the first model that considers both complementary and competitive influence spread comprehensively under multi-agent environment. Correspondingly, we propose the Complementary\&Competitive influence maximization (C$^2$IM) problem. Given an ally seed set and a rival seed set, the C$^2$IM problem aims to select a set of assistant nodes that can boost the ally spread and prevent the rival spread concurrently. We show the problem is NP-hard and can generalize the influence boosting problem and the influence blocking problem. With classifying the different cascade priorities into 4 cases by the monotonicity and submodularity (M\&S) holding conditions, we design 4 algorithms respectively, with theoretical approximation bounds provided. We conduct extensive experiments on real social networks and the experimental results demonstrate the effectiveness of the proposed algorithms. We hope this work can inspire abundant future exploration for constructing more generalized influence models that help streamline the works of this area.
翻訳日:2023-02-21 17:34:07 公開日:2023-02-19
# 多言語コンテンツモデレーション:Redditを事例として

Multilingual Content Moderation: A Case Study on Reddit ( http://arxiv.org/abs/2302.09618v1 )

ライセンス: Link先を確認
Meng Ye, Karan Sikka, Katherine Atwell, Sabit Hassan, Ajay Divakaran, Malihe Alikhani(参考訳) コンテンツモデレーションは、事前に定義されたプラットフォームルールに基づいてコンテンツをフラグするプロセスである。 AIモデレーターは、ユーザーを保護し、人間のモデレーターのメンタルヘルスをトラウマコンテンツから保護する必要性が高まっている。 先行研究はヘイトフル/検閲言語を特定することに重点を置いているが、コンテンツモデレーションの課題を満たすには不十分である。 1)モデレーション決定は、攻撃的音声の検出を前提とした規則違反に基づく。 2)このような規則はしばしば適応型解を伴うコミュニティ間で異なる。 我々は、英語、ドイツ語、スペイン語、フランス語の56のサブレディットにまたがる1.8万のRedditコメントの多言語データセットを導入することで、コンテンツモデレーションの課題について検討する。 基礎となる課題に注目し,言語間移動,ラベル雑音下での学習(人間のバイアス),モデレーションモデルの伝達,違反規則の予測など,関連する研究課題を提案する。 私たちのデータセットと分析は、オートモデレーションの課題と機会に備えるのに役立ちます。

Content moderation is the process of flagging content based on pre-defined platform rules. There has been a growing need for AI moderators to safeguard users as well as protect the mental health of human moderators from traumatic content. While prior works have focused on identifying hateful/offensive language, they are not adequate for meeting the challenges of content moderation since 1) moderation decisions are based on violation of rules, which subsumes detection of offensive speech, and 2) such rules often differ across communities which entails an adaptive solution. We propose to study the challenges of content moderation by introducing a multilingual dataset of 1.8 Million Reddit comments spanning 56 subreddits in English, German, Spanish and French. We perform extensive experimental analysis to highlight the underlying challenges and suggest related research problems such as cross-lingual transfer, learning under label noise (human biases), transfer of moderation models, and predicting the violated rule. Our dataset and analysis can help better prepare for the challenges and opportunities of auto moderation.
翻訳日:2023-02-21 17:33:24 公開日:2023-02-19
# 光-核準極効果に基づく核スピンの2光子界面

Two-photon Interface of Nuclear Spins Based on the Opto-Nuclear Quadrupolar Effect ( http://arxiv.org/abs/2302.09616v1 )

ライセンス: Link先を確認
Haowe Xu, Changhao Li, Guoqing Wang, Hua Wang, Hao Tang, Ariel Rebekah Barr, Paola Cappellaro, and Ju Li(参考訳) 光子と核スピンは量子情報科学と技術においてよく知られた2つの構成要素である。 光子と核スピンの効率的なインターフェースを確立することは、これらの2つの量子系をハイブリダイゼーションするのに非常に望ましいが、核スピンと環境との相互作用が通常大きく弱いため、また核スピン周波数と光周波数の間にも大きなギャップがあるため、困難である。 本研究では,光子をラマン散乱に類似した原子核スピンに効率的に結合できるオプト核四極子(onq)効果を提案する。 以前の研究と比較すると、ONQ効果にはアンシラ電子スピンは必要ない。 これは欠陥のない非磁性結晶の応用性や長い核スピンコヒーレンス時間などの利点をもたらす。 さらに、光子の周波数は任意であり、材料の加熱を最小限に抑え、長距離通信のための通信波長に合わせるために微調整することができる。 摂動理論と第一原理計算を用いて、onq効果が核スピンと結合する他の非線形光学効果よりも数桁強いことを証明した。 この理論に基づいて、量子メモリ、量子トランスダクション、物質同位体分析を含むONQ効果の有望な応用を提案する。 また,ONQ効果の実証実験に関する問題点についても論じる。

Photons and nuclear spins are two well-known building blocks in quantum information science and technology. Establishing an efficient interface between optical photons and nuclear spins, while highly desirable for hybridizing these two quantum systems, is challenging because the interactions between nuclear spins and the environment are usually weak in magnitude, and there is also a formidable gap between nuclear spin frequencies and optical frequencies. In this work, we propose an opto-nuclear quadrupolar (ONQ) effect, whereby optical photons can be efficiently coupled to nuclear spins, similar to Raman scattering. Compared to previous works, ancilla electron spins are not required for the ONQ effect. This leads to advantages such as applicability in defect-free nonmagnetic crystals and longer nuclear spin coherence time. In addition, the frequency of the optical photons can be arbitrary, so they can be fine-tuned to minimize the material heating and to match telecom wavelengths for long-distance communications. Using perturbation theory and first-principles calculations, we demonstrate that the ONQ effect is stronger by several orders of magnitude than other nonlinear optical effects that could couple to nuclear spins. Based on this rationale, we propose promising applications of the ONQ effect, including quantum memory, quantum transduction, and materials isotope spectroscopy. We also discuss issues relevant to the experimental demonstration of the ONQ effect.
翻訳日:2023-02-21 17:32:55 公開日:2023-02-19
# 核マグノンのレーザー冷却

Laser Cooling of Nuclear Magnons ( http://arxiv.org/abs/2302.09615v1 )

ライセンス: Link先を確認
Haowe Xu, Guoqing Wang, Changhao Li, Hua Wang, Hao Tang, Ariel Rebekah Barr, Paola Cappellaro, and Ju Li(参考訳) 核スピンの基底状態への初期化は、低温でも熱エネルギーと比較して小さなエネルギースケールのため困難である。 本稿では、2色光子が効率的に核スピンと相互作用できる光核四極子効果を提案する。 このような光学界面を利用して、核スピンアンサンブルの集合励起である核マグノンを光学的に冷却できることを実証する。 実現可能な実験条件下では、レーザー冷却は核マノンの個体数とエントロピーを2桁以上抑えることができ、量子情報科学における核スピンの応用を促進することができる。

The initialization of nuclear spin to its ground state is challenging due to its small energy scale compared with thermal energy, even at cryogenic temperature. In this Letter, we propose an opto-nuclear quadrupolar effect, whereby two-color optical photons can efficiently interact with nuclear spins. Leveraging such an optical interface, we demonstrate that nuclear magnons, the collective excitations of nuclear spin ensemble, can be cooled down optically. Under feasible experimental conditions, laser cooling can suppress the population and entropy of nuclear magnons by more than two orders of magnitude, which could facilitate the application of nuclear spins in quantum information science.
翻訳日:2023-02-21 17:32:35 公開日:2023-02-19
# 名前付きエンティティデータセット生成のための機械翻訳の可能性を探る:ペルシア語と英語の事例

Exploring the Potential of Machine Translation for Generating Named Entity Datasets: A Case Study between Persian and English ( http://arxiv.org/abs/2302.09611v1 )

ライセンス: Link先を確認
Amir Sartipi and Afsaneh Fatemi(参考訳) 本研究は、英語データセットに機械翻訳を適用することにより、ペルシャ語名付きエンティティデータセットの生成に焦点をあてる。 生成したデータセットは1つの単言語モデルと1つの多言語トランスモデルを用いて評価した。 2003年のconllデータセットは最高85.11%のf1スコアを達成している。 対照的に、WNUT 2017データセットは40.02%という低いF1スコアを得た。 本研究の結果は,ペルシャ語のような低リソース言語を対象とした高品質なエンティティ認識データセット作成における機械翻訳の可能性を強調した。 この研究は、これらの生成されたデータセットのパフォーマンスを英語名付きエンティティ認識システムと比較し、このタスクに対する機械翻訳の有効性に関する洞察を提供する。 さらに、このアプローチは、低リソース言語のデータを拡張したり、ノイズデータを生成して、名前付きエンティティシステムをより堅牢にし、改善するために使用することができる。

This study focuses on the generation of Persian named entity datasets through the application of machine translation on English datasets. The generated datasets were evaluated by experimenting with one monolingual and one multilingual transformer model. Notably, the CoNLL 2003 dataset has achieved the highest F1 score of 85.11%. In contrast, the WNUT 2017 dataset yielded the lowest F1 score of 40.02%. The results of this study highlight the potential of machine translation in creating high-quality named entity recognition datasets for low-resource languages like Persian. The study compares the performance of these generated datasets with English named entity recognition systems and provides insights into the effectiveness of machine translation for this task. Additionally, this approach could be used to augment data in low-resource language or create noisy data to make named entity systems more robust and improve them.
翻訳日:2023-02-21 17:32:24 公開日:2023-02-19
# オンライン・オフラインマルチエージェント強化学習のための自己教師型情報集約による効率的なコミュニケーション

Efficient Communication via Self-supervised Information Aggregation for Online and Offline Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2302.09605v1 )

ライセンス: Link先を確認
Cong Guan, Feng Chen, Lei Yuan, Zongzhang Zhang, Yang Yu(参考訳) チームメイトからのメッセージを利用することで、協調的マルチエージェント強化学習(MARL)におけるコーディネーションを改善することができる。 以前の作業は通常、チームメイトの生のメッセージをポリシーの入力としてローカル情報と組み合わせます。 しかし、メッセージ集約を無視することは、ポリシー学習に重大な非効率をもたらす。 近年の表現学習の進歩により、協調的なMARLにおいて、効率的なメッセージアグリゲーションが良い協調に欠かせないと論じている。 本稿では, エージェントが受信したメッセージをコンパクトな表現に集約し, 高い関連性を持ち, 局所的なポリシーの強化を図るために, 自己教師情報集約 (masia) によるマルチエージェント通信を提案する。 具体的には、置換不変メッセージエンコーダを設計し、メッセージから共通情報集約表現を生成し、将来の情報を自己管理的に再構成および撮影することで最適化する。 したがって、各エージェントは、新しいメッセージ抽出機構により、集約表現の最も関連する部分を利用して意思決定を行う。 さらに,実世界のアプリケーションにおけるオフライン学習の可能性を考慮して,マルチエージェント通信のためのオフラインベンチマークを構築した。 実験結果は,オンラインとオフラインの両方において,提案手法が優れていることを示した。 また,本論文では,組込みオフラインベンチマークをコミュニケーション能力検証のためのテストベッドとして公開し,今後の研究を支援する。

Utilizing messages from teammates can improve coordination in cooperative Multi-agent Reinforcement Learning (MARL). Previous works typically combine raw messages of teammates with local information as inputs for policy. However, neglecting message aggregation poses significant inefficiency for policy learning. Motivated by recent advances in representation learning, we argue that efficient message aggregation is essential for good coordination in cooperative MARL. In this paper, we propose Multi-Agent communication via Self-supervised Information Aggregation (MASIA), where agents can aggregate the received messages into compact representations with high relevance to augment the local policy. Specifically, we design a permutation invariant message encoder to generate common information-aggregated representation from messages and optimize it via reconstructing and shooting future information in a self-supervised manner. Hence, each agent would utilize the most relevant parts of the aggregated representation for decision-making by a novel message extraction mechanism. Furthermore, considering the potential of offline learning for real-world applications, we build offline benchmarks for multi-agent communication, which is the first as we know. Empirical results demonstrate the superiority of our method in both online and offline settings. We also release the built offline benchmarks in this paper as a testbed for communication ability validation to facilitate further future research.
翻訳日:2023-02-21 17:32:09 公開日:2023-02-19
# 報酬系列分布を用いた視覚強化学習の一般化

Generalization in Visual Reinforcement Learning with the Reward Sequence Distribution ( http://arxiv.org/abs/2302.09601v1 )

ライセンス: Link先を確認
Jie Wang, Rui Yang, Zijie Geng, Zhihao Shi, Mingxuan Ye, Qi Zhou, Shuiwang Ji, Bin Li, Yongdong Zhang, and Feng Wu(参考訳) 部分的に観察されたマルコフ決定過程(POMDP)の一般化は、実シナリオにおける視覚強化学習(VRL)の成功に不可欠である。 広く使われている考え方は、PMDPの共通機能、すなわち報酬と遷移ダイナミクスのタスク関連情報を符号化するタスク関連表現を学習することである。 潜在状態空間における遷移ダイナミクス(タスク関連で視覚的障害に不変である)はエージェントには未知であるため、既存の手法では観察空間における遷移ダイナミクスを使用して、遷移ダイナミクスにおけるタスク関連情報を抽出する。 しかし、観察空間におけるそのような遷移ダイナミクスは、タスク非関連な視覚的邪魔を伴い、VRL法の一般化性能を低下させる。 そこで本研究では,開始観測に基づく報酬シーケンス分布と,事前定義された後続アクションシーケンス(rsd-oa)を提案する。 RSD-OA の魅力は、(1) RSD-OA は、タスク非関連情報を移行ダイナミクスから引き起こすことなく、予め定義された後続のアクションシーケンスに条件付けされているため、視覚的障害に不変であり、(2) 報酬シーケンスは、報酬と遷移ダイナミクスの両方において、長期的なタスク関連情報をキャプチャする。 実験により, rsd-oaに基づく表現学習アプローチは, 視覚障害を伴うdeepmind制御タスクの最先端を上回って, 未知覚環境における一般化性能を大幅に向上させることが示された。

Generalization in partially observed markov decision processes (POMDPs) is critical for successful applications of visual reinforcement learning (VRL) in real scenarios. A widely used idea is to learn task-relevant representations that encode task-relevant information of common features in POMDPs, i.e., rewards and transition dynamics. As transition dynamics in the latent state space -- which are task-relevant and invariant to visual distractions -- are unknown to the agents, existing methods alternatively use transition dynamics in the observation space to extract task-relevant information in transition dynamics. However, such transition dynamics in the observation space involve task-irrelevant visual distractions, degrading the generalization performance of VRL methods. To tackle this problem, we propose the reward sequence distribution conditioned on the starting observation and the predefined subsequent action sequence (RSD-OA). The appealing features of RSD-OA include that: (1) RSD-OA is invariant to visual distractions, as it is conditioned on the predefined subsequent action sequence without task-irrelevant information from transition dynamics, and (2) the reward sequence captures long-term task-relevant information in both rewards and transition dynamics. Experiments demonstrate that our representation learning approach based on RSD-OA significantly improves the generalization performance on unseen environments, outperforming several state-of-the-arts on DeepMind Control tasks with visual distractions.
翻訳日:2023-02-21 17:31:50 公開日:2023-02-19
# ガイド付き深度マップの超高解像度化:サーベイ

Guided Depth Map Super-resolution: A Survey ( http://arxiv.org/abs/2302.09598v1 )

ライセンス: Link先を確認
Zhiwei Zhong, Xianming Liu, Junjun Jiang, Debin Zhao, Xiangyang Ji(参考訳) 高分解能(HR)深度マップを低分解能(LR)観測から再構築することを目的としたガイド深度マップ超解像(GDSR)は,長年の課題であり,コンピュータビジョンや画像処理コミュニティからも注目されている。 近年,特に強力な深層学習技術を用いて,数多くの新しい効果的なアプローチが提案されている。 本調査は,近年のGDSRの動向を総合的に調査する試みである。 まず、GDSRの問題を要約し、なぜそれが難しいのかを説明する。 次に,一般的なデータセットと画像品質評価手法を紹介する。 さらに,既存のgdsr法を,フィルタリングベース法,事前ベース法,学習ベース法という3つのカテゴリに大まかに分類した。 それぞれのカテゴリにおいて,公開アルゴリズムと設計原則の一般的な説明,代表的な手法の要約,それらのハイライトと限界について論じる。 また、深度関連アプリケーションも導入されている。 さらに, 統一的な実験構成に基づく代表的な手法の性能評価実験を行い, 読者に系統的かつ公平な性能評価を提供する。 最後に、さらなる研究のために、この調査を可能な方向とオープンな問題で結論づける。 すべての関連物質は \url{https://github.com/zhwzhong/Guided-Depth-Map-Super- resolution-A-Survey} で見ることができる。

Guided depth map super-resolution (GDSR), which aims to reconstruct a high-resolution (HR) depth map from a low-resolution (LR) observation with the help of a paired HR color image, is a longstanding and fundamental problem, it has attracted considerable attention from computer vision and image processing communities. A myriad of novel and effective approaches have been proposed recently, especially with powerful deep learning techniques. This survey is an effort to present a comprehensive survey of recent progress in GDSR. We start by summarizing the problem of GDSR and explaining why it is challenging. Next, we introduce some commonly used datasets and image quality assessment methods. In addition, we roughly classify existing GDSR methods into three categories, i.e., filtering-based methods, prior-based methods, and learning-based methods. In each category, we introduce the general description of the published algorithms and design principles, summarize the representative methods, and discuss their highlights and limitations. Moreover, the depth related applications are introduced. Furthermore, we conduct experiments to evaluate the performance of some representative methods based on unified experimental configurations, so as to offer a systematic and fair performance evaluation to readers. Finally, we conclude this survey with possible directions and open problems for further research. All the related materials can be found at \url{https://github.com/zhwzhong/Guided-Depth-Map-Super-resolution-A-Survey}.
翻訳日:2023-02-21 17:31:23 公開日:2023-02-19
# 潜在クラス条件雑音モデル

Latent Class-Conditional Noise Model ( http://arxiv.org/abs/2302.09595v1 )

ライセンス: Link先を確認
Jiangchao Yao, Bo Han, Zhihan Zhou, Ya Zhang, Ivor W. Tsang(参考訳) ノイズの多いラベルによる学習はビッグデータ時代に必須となり、正確なアノテーションに人件費を節約している。 従来のノイズ遷移に基づく手法は、CCN(Class-Conditional Noise Model)の下で理論的に基礎的な性能を達成した。 しかし、これらのアプローチは、ノイズ遷移を事前に見積もるために利用可能な理想的だが非現実的アンカーセットに基づいている。 その後の研究は神経層としての推定に適応するが、後方伝播におけるパラメータの不正な確率的学習は、望ましくない局所的な最小値に容易に該当する。 本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためにLCCN(Latent Class-Conditional Noise Model)を導入することで,この問題を解決する。 ディリクレ空間にノイズ遷移を投影することで、学習は、神経層で包まれたアドホックなパラメトリック空間ではなく、完全なデータセットによって特徴づけられる単純性に制約される。 lccnの動的ラベル回帰法を推定し,gibbsサンプラーを用いて,潜在真のラベルを効率的に推定し,分類器を訓練し,ノイズをモデル化する。 提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。 さらに、オープンセットノイズラベル、半教師あり学習、およびクロスモデルトレーニングと互換性のある異なるラベルにLCCNを一般化する。 様々な実験が、現在の最先端手法よりもLCCNとその変種が優れていることを実証している。

Learning with noisy labels has become imperative in the Big Data era, which saves expensive human labors on accurate annotations. Previous noise-transition-based methods have achieved theoretically-grounded performance under the Class-Conditional Noise model (CCN). However, these approaches builds upon an ideal but impractical anchor set available to pre-estimate the noise transition. Even though subsequent works adapt the estimation as a neural layer, the ill-posed stochastic learning of its parameters in back-propagation easily falls into undesired local minimums. We solve this problem by introducing a Latent Class-Conditional Noise model (LCCN) to parameterize the noise transition under a Bayesian framework. By projecting the noise transition into the Dirichlet space, the learning is constrained on a simplex characterized by the complete dataset, instead of some ad-hoc parametric space wrapped by the neural layer. We then deduce a dynamic label regression method for LCCN, whose Gibbs sampler allows us efficiently infer the latent true labels to train the classifier and to model the noise. Our approach safeguards the stable update of the noise transition, which avoids previous arbitrarily tuning from a mini-batch of samples. We further generalize LCCN to different counterparts compatible with open-set noisy labels, semi-supervised learning as well as cross-model training. A range of experiments demonstrate the advantages of LCCN and its variants over the current state-of-the-art methods.
翻訳日:2023-02-21 17:31:01 公開日:2023-02-19
# 弱教師付きラベル学習フロー

Weakly Supervised Label Learning Flows ( http://arxiv.org/abs/2302.09649v1 )

ライセンス: Link先を確認
You Lu, Chidubem Arachie, Bert Huang(参考訳) 教師付き学習は通常、大量のラベル付きデータを必要とする。 しかし、多くのタスクにおいて、地道ラベルの取得にはコストがかかる。 あるいは、弱教師付きメソッドは、あるデータにほぼラベル付けされる安価な弱い信号で学習する。 多くの既存の弱教師付き学習手法は、入力データと弱信号からラベルを推定する決定論的関数を学習する。 本稿では,弱教師付き学習問題の一般的なフレームワークであるラベル学習フロー(LLF)を開発する。 本手法は正規化フローに基づく生成モデルである。 LLFの主な考え方は、弱い信号によって定義された制約空間内で、データの全ての可能なラベル付けの条件付き可能性の最適化である。 条件流を逆行的に訓練し,ラベル推定を回避したllfの訓練法を開発した。 モデルがトレーニングされると、サンプリングアルゴリズムを使って予測を行うことができる。 LLFを3つの弱教師付き学習問題に適用する。 実験の結果,本手法は比較対象のベースラインよりも優れていた。

Supervised learning usually requires a large amount of labelled data. However, attaining ground-truth labels is costly for many tasks. Alternatively, weakly supervised methods learn with cheap weak signals that only approximately label some data. Many existing weakly supervised learning methods learn a deterministic function that estimates labels given the input data and weak signals. In this paper, we develop label learning flows (LLF), a general framework for weakly supervised learning problems. Our method is a generative model based on normalizing flows. The main idea of LLF is to optimize the conditional likelihoods of all possible labelings of the data within a constrained space defined by weak signals. We develop a training method for LLF that trains the conditional flow inversely and avoids estimating the labels. Once a model is trained, we can make predictions with a sampling algorithm. We apply LLF to three weakly supervised learning problems. Experiment results show that our method outperforms many baselines we compare against.
翻訳日:2023-02-21 17:24:19 公開日:2023-02-19
# 計画に基づく説明可能な対話システム

A Planning-Based Explainable Collaborative Dialogue System ( http://arxiv.org/abs/2302.09646v1 )

ライセンス: Link先を確認
Philip R. Cohen and Lucian Galescu(参考訳) Evaはマルチモーダルな会話システムで、ユーザが協調対話を通じてドメイン目標を達成するのに役立つ。 このシステムは,ユーザの意図を推測し,それらの目標を達成するための計画を立て,障害が存在するかどうかを検出し,それらを克服するか,より高い目標を達成するための計画を立てる。 そうすることで、システムは、自身の信念、目標、意図、およびユーザのそれに対する明確な理由と理由を維持し、理性を持つようになる。 信念推論は、Hhorn-clauseメタ解釈を用いて達成される。 計画と推論サブシステムは、複雑な行動を行う意図の形成と分解を含む永続的な目標と意図の原則と、それらを放棄できる条件に従う。 物理的な行為は物理的状態に影響し、デジタル行為はデジタル状態に影響し、スピーチ行為は精神的および社会的状態に影響する。 この一般的なアプローチにより、Evaは、リクエスト、通知、質問、確認、レコメンデーション、オファー、受け入れ、挨拶、エモーティブ表現を含む様々なスピーチ行為を計画できる。 これらはそれぞれ、計画と推論プロセスで使用される、正式に定義された意味論を持っている。 異なるユーザーの精神状態を追跡することができるため、多人数対話を行うことができる。 重要なのは、evaがそれぞれの背後にある計画を作ったため、その発声を説明できることだ。 最後に、Evaはマルチモーダル入力と出力を使用し、感情的な音声行為とともに顔と頭の動きを知覚し、活用できるアバターを駆動する。

Eva is a multimodal conversational system that helps users to accomplish their domain goals through collaborative dialogue. The system does this by inferring users' intentions and plans to achieve those goals, detects whether obstacles are present, finds plans to overcome them or to achieve higher-level goals, and plans its actions, including speech acts,to help users accomplish those goals. In doing so, the system maintains and reasons with its own beliefs, goals and intentions, and explicitly reasons about those of its user. Belief reasoning is accomplished with a modal Horn-clause meta-interpreter. The planning and reasoning subsystems obey the principles of persistent goals and intentions, including the formation and decomposition of intentions to perform complex actions, as well as the conditions under which they can be given up. In virtue of its planning process, the system treats its speech acts just like its other actions -- physical acts affect physical states, digital acts affect digital states, and speech acts affect mental and social states. This general approach enables Eva to plan a variety of speech acts including requests, informs, questions, confirmations, recommendations, offers, acceptances, greetings, and emotive expressions. Each of these has a formally specified semantics which is used during the planning and reasoning processes. Because it can keep track of different users' mental states, it can engage in multi-party dialogues. Importantly, Eva can explain its utterances because it has created a plan standing behind each of them. Finally, Eva employs multimodal input and output, driving an avatar that can perceive and employ facial and head movements along with emotive speech acts.
翻訳日:2023-02-21 17:24:07 公開日:2023-02-19
# エントロピー拘束集合の超越的性質:その2

Transcendental properties of entropy-constrained sets: Part II ( http://arxiv.org/abs/2302.09645v1 )

ライセンス: Link先を確認
Vjosa Blakaj and Chokri Manai(参考訳) 本稿では, 様々なエントロピー制約集合の半代数的性質を利用して, ある種の単一レター公式の不可能性について論じる。 焦点は相対エントロピー、相互情報、R\'{e}nyiエントロピーのレベル集合の性質の研究である。 上記のエントロピー量の1つが固定された状態の集合の超越構造を解析する。 これらのエントロピー測度の半代数的一発キャラクタリゼーション(semi)は,古典的および量子的ケースの両方に有界なアンシラを持つ。

In this work, we address the question of the impossibility of certain single-letter formulas by exploiting the semi-algebraic nature of various entropy-constrained sets. The focus lies on studying the properties of the level sets of relative entropy, mutual information, and R\'{e}nyi entropies. We analyze the transcendental structure of the set of states in which one of the aforementioned entropy quantities is fixed. Our results rule out (semi)algebraic single-shot characterizations of these entropy measures with bounded ancilla for both the classical and quantum cases.
翻訳日:2023-02-21 17:23:39 公開日:2023-02-19
# データ適応型シーケンシャルベイズ推論のための微分可能粒子フィルタの概要

An overview of differentiable particle filters for data-adaptive sequential Bayesian inference ( http://arxiv.org/abs/2302.09639v1 )

ライセンス: Link先を確認
Xiongjie Chen, Yunpeng Li(参考訳) 後方分布を重み付きサンプルで近似することにより、粒子フィルタ(PF)は非線形逐次状態推定問題を解くための効率的なメカニズムを提供する。 粒子フィルタの有効性は様々な応用で認識されているが、粒子フィルタの性能は動的モデルと計測モデルの知識と効果的な提案分布の構築に依存している。 粒子フィルタの設計における新たなトレンドは、微分可能な粒子フィルタ(DPF)である。 ニューラルネットワークによる粒子フィルタの構成と勾配降下による最適化により、微分可能な粒子フィルタは、視覚に基づくロボットの局所化のような複雑な高次元タスクにおいて、シーケンスデータの推論を行うための有望な計算ツールである。 本稿では, 微分可能粒子フィルタの最近の進歩とその応用について概説する。 我々は, 動的モデル, 測定モデル, 提案分布, 最適化目的, 微分可能再サンプリング技術など, 微分可能な粒子フィルタの主要成分の異なる設計選択に特に注目する。

By approximating posterior distributions with weighted samples, particle filters (PFs) provide an efficient mechanism for solving non-linear sequential state estimation problems. While the effectiveness of particle filters has been recognised in various applications, the performance of particle filters relies on the knowledge of dynamic models and measurement models, and the construction of effective proposal distributions. An emerging trend in designing particle filters is the differentiable particle filters (DPFs). By constructing particle filters' components through neural networks and optimising them by gradient descent, differentiable particle filters are a promising computational tool to perform inference for sequence data in complex high-dimensional tasks such as vision-based robot localisation. In this paper, we provide a review of recent advances in differentiable particle filters and their applications. We place special emphasis on different design choices of key components of differentiable particle filters, including dynamic models, measurement models, proposal distributions, optimisation objectives, and differentiable resampling techniques.
翻訳日:2023-02-21 17:23:27 公開日:2023-02-19
# マルチモーダル関係グラフ学習による医用画像視覚質問応答の解釈

Interpretable Medical Image Visual Question Answering via Multi-Modal Relationship Graph Learning ( http://arxiv.org/abs/2302.09636v1 )

ライセンス: Link先を確認
Xinyue Hu, Lin Gu, Kazuma Kobayashi, Qiyuan An, Qingyu Chen, Zhiyong Lu, Chang Su, Tatsuya Harada, Yingying Zhu(参考訳) 医用視覚質問応答 (VQA) は、入力医療画像に関する臨床的に関連する質問に答えることを目的としている。 この手法は、特に資源汚染国における公衆衛生システムの負担を軽減しつつ、医療専門家の効率を向上させる可能性を秘めている。 既存の医療用VQA法では、背景にある空間的、意味的、医療的知識を活用することなく、医用画像を符号化し、視覚的特徴と質問の対応を学習する傾向がある。 これは部分的には、しばしば単純な質問を含む現在の医療用VQAデータセットの小さいためである。 そこで我々はまず胸部X線画像を中心に,包括的で大規模な医療用VQAデータセットを収集した。 質問は、データセット内の病名、場所、レベル、タイプなど、詳細な関係に関するものだった。 このデータセットに基づいて,画像領域,質問,意味ラベルの3つの異なる関係グラフ(空間関係,意味関係,暗黙の関係グラフ)を構築することで,新たなベースライン手法を提案する。 回答とグラフ推論パスは、異なる質問に対して学習される。

Medical visual question answering (VQA) aims to answer clinically relevant questions regarding input medical images. This technique has the potential to improve the efficiency of medical professionals while relieving the burden on the public health system, particularly in resource-poor countries. Existing medical VQA methods tend to encode medical images and learn the correspondence between visual features and questions without exploiting the spatial, semantic, or medical knowledge behind them. This is partially because of the small size of the current medical VQA dataset, which often includes simple questions. Therefore, we first collected a comprehensive and large-scale medical VQA dataset, focusing on chest X-ray images. The questions involved detailed relationships, such as disease names, locations, levels, and types in our dataset. Based on this dataset, we also propose a novel baseline method by constructing three different relationship graphs: spatial relationship, semantic relationship, and implicit relationship graphs on the image regions, questions, and semantic labels. The answer and graph reasoning paths are learned for different questions.
翻訳日:2023-02-21 17:23:13 公開日:2023-02-19
# マグニチュード:SIGNSGDをマグニチュードで固定する : データ不均一性の存在下でのスパーシフィケーション

Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification in the Presence of Data Heterogeneity ( http://arxiv.org/abs/2302.09634v1 )

ライセンス: Link先を確認
Richeng Jin, Xiaofan He, Caijun Zhong, Zhaoyang Zhang, Tony Quek, Huaiyu Dai(参考訳) 通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおける大きなボトルネックの1つになっている。 この懸念を緩和するため,様々な勾配圧縮法が提案され,符号に基づくアルゴリズムが注目されている。 しかし、signgdは、新しい連合学習(fl)パラダイムで一般的に見られる、データの不均一性の存在下では収束しない。 非収束問題に対処するためにエラーフィードバックが提案されている。 それでも、労働者は局所的に圧縮エラーを追跡する必要があるため、労働者は学習プロセス全体を通してトレーニングに参加できないため、FLには適さない。 本稿では,通信効率をさらに向上しつつ,signgdの非収束問題に対処する,マグニチュード駆動のスパーシフィケーションスキームを提案する。 さらに、学習性能を向上させるため、局所的な更新スキームがさらに組み込まれ、提案手法の収束が確立される。 提案手法の有効性はFashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。

Communication overhead has become one of the major bottlenecks in the distributed training of deep neural networks. To alleviate the concern, various gradient compression methods have been proposed, and sign-based algorithms are of surging interest. However, SIGNSGD fails to converge in the presence of data heterogeneity, which is commonly observed in the emerging federated learning (FL) paradigm. Error feedback has been proposed to address the non-convergence issue. Nonetheless, it requires the workers to locally keep track of the compression errors, which renders it not suitable for FL since the workers may not participate in the training throughout the learning process. In this paper, we propose a magnitude-driven sparsification scheme, which addresses the non-convergence issue of SIGNSGD while further improving communication efficiency. Moreover, the local update scheme is further incorporated to improve the learning performance, and the convergence of the proposed method is established. The effectiveness of the proposed scheme is validated through experiments on Fashion-MNIST, CIFAR-10, and CIFAR-100 datasets.
翻訳日:2023-02-21 17:22:54 公開日:2023-02-19
# HomoDistil: トレーニング済みトランスのタスク非依存蒸留

HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained Transformers ( http://arxiv.org/abs/2302.09632v1 )

ライセンス: Link先を確認
Chen Liang, Haoming Jiang, Zheng Li, Xianfeng Tang, Bin Yin and Tuo Zhao(参考訳) 知識蒸留は、訓練済み言語モデルの実践的展開を容易にする強力なモデル圧縮アプローチであることが示されている。 本稿ではタスク非依存蒸留に焦点を当てる。 これは小さな計算コストとメモリフットプリントで様々なタスクで簡単に微調整できるコンパクトな事前学習モデルを生成する。 実際の利点にもかかわらず、タスク非依存の蒸留は困難である。 教師モデルは,生徒モデルよりもはるかに容量が大きく,表現力も強いため,大量のオープンドメイントレーニングデータに対して,教師と一致する予測を生成することは極めて困難である。 このような大きな予測の不一致は、しばしば知識蒸留の利益を減少させる。 この課題に対処するため,本研究では,イテレーティブプルーニングを備えた新しいタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。 具体的には,教師モデルから学生モデルを初期化し,対象の幅に達するまで反復的に生徒のニューロンを刺激する。 このようなアプローチは, 蒸留過程を通して, 教師と生徒の予測の差を小さく保ち, 知識伝達の有効性を保証している。 大規模な実験により、HomoDistilは既存のベースラインを大幅に改善した。

Knowledge distillation has been shown to be a powerful model compression approach to facilitate the deployment of pre-trained language models in practice. This paper focuses on task-agnostic distillation. It produces a compact pre-trained model that can be easily fine-tuned on various tasks with small computational costs and memory footprints. Despite the practical benefits, task-agnostic distillation is challenging. Since the teacher model has a significantly larger capacity and stronger representation power than the student model, it is very difficult for the student to produce predictions that match the teacher's over a massive amount of open-domain training data. Such a large prediction discrepancy often diminishes the benefits of knowledge distillation. To address this challenge, we propose Homotopic Distillation (HomoDistil), a novel task-agnostic distillation approach equipped with iterative pruning. Specifically, we initialize the student model from the teacher model, and iteratively prune the student's neurons until the target width is reached. Such an approach maintains a small discrepancy between the teacher's and student's predictions throughout the distillation process, which ensures the effectiveness of knowledge transfer. Extensive experiments demonstrate that HomoDistil achieves significant improvements on existing baselines.
翻訳日:2023-02-21 17:22:36 公開日:2023-02-19
# 局所的測定と古典的コミュニケーションによる状態のグローバルおよびトポロジ的順序の調査:量子エネルギーテレポーテーションによるSPT位相図の研究

Investigating global and topological order of states by local measurement and classical communication: Study on SPT phase diagrams by quantum energy teleportation ( http://arxiv.org/abs/2302.09630v1 )

ライセンス: Link先を確認
Kazuki Ikeda(参考訳) 局所的測定と古典的コミュニケーション(LOCC)のみでの国家のグローバルおよびトポロジカルな順序を含む非局所的な秩序の解消は、システムの対称性やそれに基づくトポロジカル空間といった多体系のグローバルな特性によって状態のトポロジが決定されるため、非常に非自明で困難な課題である。 本稿では,地上状態とLOCCの絡み合い特性を用いて遠隔観測者間の非自明なエネルギー移動を予測した量子エネルギーテレポーテーションプロトコルを用いて,Isingモデルの位相図と対称性保護位相(SPT)位相を再現した。 私たちが使用しているモデルには、Haldaneモデル、AKLTモデル、Kitaevモデルがあります。 そこで本手法は,様々な凝縮物物理学および統計力学における相転移を決定・定量化するための新しい一般実験枠組みを提案する。

Distinguishing non-local orders, including global and topological orders of states through solely local measurements and classical communications (LOCC) is a highly non-trivial and challenging task since the topology of states is determined by the global characteristics of the many-body system, such as the system's symmetry and the topological space it is based on. Here we report that we reproduced the phase diagram of Ising model and symmetry protected topological (SPT) phases using the quantum energy teleportation protocol, which foresees non-trivial energy transfer between remote observers using the entanglement nature of the ground state and LOCC. The model we use includes the Haldane model, the AKLT model and the Kitaev model. Therefore our method paves a new general experimental framework to determine and quantify phase transitions in various condensed matter physics and statistical mechanics.
翻訳日:2023-02-21 17:22:17 公開日:2023-02-19
# BiofilmScanner: バイオフィルム画像から細菌細胞の形態的属性を取得するための計算知能アプローチ

BiofilmScanner: A Computational Intelligence Approach to Obtain Bacterial Cell Morphological Attributes from Biofilm Image ( http://arxiv.org/abs/2302.09629v1 )

ライセンス: Link先を確認
Md Hafizur Rahman, Md Ali Azam, Md Abir Hossen, Shankarachary Ragi, and Venkataramana Gadhamshetty(参考訳) Desulfovibrio alaskensis G20(DA-G20)は、微生物による腐食問題に関連する硫酸還元菌(SRB)のモデルとして利用される。 srbベースのバイオフィルムは、金属インフラの年間10億ドルのバイオ腐食の原因と考えられている。 成長段階の異なるSRBバイオフィルムにおける細菌細胞の形状とサイズ特性の抽出を理解することは、抗腐食技術の設計を支援する。 しかし、多くの問題は、時間を要する幾何学的特性抽出、低い効率、高いエラー率など、現在のアプローチに影響を及ぼす。 本稿では,不変モーメントと統合したyolactベースのディープラーニング手法であるbiofilscannerを提案する。 本手法は,SRB画像中の細菌細胞を効率よく検出・分節し,同時に低誤差の分節細胞の幾何学的特性を計測する。 提案手法の数値実験により,BiofilmScannerはMsk-RCNN法およびDLv3+法よりも2.1倍,6.8倍速く,細胞の幾何学的特性を検出し,セグメンテーションし,測定することができる。 さらにバイオフィルムスキャナーは85.28%のF1スコアを獲得し、Mask-RCNNとDLv3+はそれぞれ77.67%と75.18%のF1スコアを得た。

Desulfovibrio alaskensis G20 (DA-G20) is utilized as a model for sulfate-reducing bacteria (SRB) that are associated with corrosion issues caused by microorganisms. SRB-based biofilms are thought to be responsible for the billion-dollar-per-year bio-corrosion of metal infrastructure. Understanding the extraction of the bacterial cells' shape and size properties in the SRB-biofilm at different growth stages will assist with the design of anti-corrosion techniques. However, numerous issues affect current approaches, including time-consuming geometric property extraction, low efficiency, and high error rates. This paper proposes BiofilScanner, a Yolact-based deep learning method integrated with invariant moments to address these problems. Our approach efficiently detects and segments bacterial cells in an SRB image while simultaneously invariant moments measure the geometric characteristics of the segmented cells with low errors. The numerical experiments of the proposed method demonstrate that the BiofilmScanner is 2.1x and 6.8x faster than our earlier Mask-RCNN and DLv3+ methods for detecting, segmenting, and measuring the geometric properties of the cell. Furthermore, the BiofilmScanner achieved an F1-score of 85.28% while Mask-RCNN and DLv3+ obtained F1-scores of 77.67% and 75.18%, respectively.
翻訳日:2023-02-21 17:21:53 公開日:2023-02-19
# エネルギー効率のよい家庭:イングランドにおける住宅エネルギー効率の社会的・空間的パターン

Energy Efficient Homes: The Social and Spatial Patterns of Residential Energy Efficiency in England ( http://arxiv.org/abs/2302.09628v1 )

ライセンス: Link先を確認
Boyana Buyuklieva, Adam Dennett, Nick Bailey and Jeremy Morley(参考訳) 住宅のエネルギー効率の低さは、緊急の環境と社会的影響の大きな問題である。 英国の住宅は化石燃料にエネルギー供給に大きく依存しており、欧州で最も低いエネルギー効率を持っている。 住宅の約半分(2008~22年の間に14万戸)をカバーするEPC(Energy Performance Certificates)のデータを用いて,イングランド全体でのエネルギー効率の空間的変動を調査した。 本研究は, 住宅の建築形態, 建築年代, 大きさの固定特性を指標として, 住宅の組成を考慮し, 当局間の差異を検討した。 我々は地理的・社会的文脈(地域・都市・農村・分断)の多様性を探求し、それぞれの課題の規模を図示する。 また,より容易に改良された要因,例えば氷河型との関連や,局所的な行動や進歩に関する洞察を与える改善プログラムへの地域参加との関連についても検討した。

Poor energy efficiency of homes is a major problem with urgent environmental and social implications. Housing in the UK relies heavily on fossil fuels for energy supply and has some of the lowest energy efficiency in Europe. We explore spatial variations in energy efficiency across England using data from Energy Performance Certificates (EPCs), which cover approximately half of the residential stock (14M homes between 2008-22). We examine variations between authorities after accounting for the composition of the housing stock in terms of its fixed characteristics of property type, building age and size. We explore variations in terms of geographical and social context (region, urban-rural and deprivation), which gives a picture of the scale of the challenge each faces. We also examine variations in relation to the more readily upgraded factors, such as glazing types, and in relation to local participation in improvement programmes which gives some insight into local actions or progress achieved.
翻訳日:2023-02-21 17:21:29 公開日:2023-02-19
# 病理学者を模倣する:2重注意モデルによるgigapixel histology画像のスコア付け

Mimicking a Pathologist: Dual Attention Model for Scoring of Gigapixel Histology Images ( http://arxiv.org/abs/2302.09682v1 )

ライセンス: Link先を確認
Manahil Raza, Ruqayya Awan, Raja Muhammad Saad Bashir, Talha Qaiser, Nasir M. Rajpoot(参考訳) スライド画像全体(WSI)の自動処理に関わるいくつかの大きな課題は、そのシャーサイズ、倍率レベルの違い、高解像度である。 これらのイメージをAIフレームワークに直接使用することは、メモリ制約のために計算コストが高く、WSIのダウンサンプリングは情報損失を引き起こし、WSIをタイルに分割し、パッチは重要なコンテキスト情報の損失をもたらす。 病理医による視覚検査を模倣する2つの主成分からなる新しい二重注意アプローチを提案する。 第1のコンポーネントは、WSIの高レベルなビューを入力として、様々な関心領域を決定するソフトアテンションモデルである。 選択された高注意領域から多様で空間的に異なる画像タイルを抽出するために,独自のサンプリング手法を用いる。 第2のコンポーネントはハードアテンション分類モデルであり、分類のために各タイルから多重解像度の視線列を抽出する。 注意は区別できないため、強化学習を用いてこの成分を訓練し、与えられたタイルのパッチを全て処理することなく視線の位置を予測し、病理医の診断方法と整合する。 提案モデルの有効性を実証するために,共同損失関数を用いて,コンポーネントを個別かつエンドツーエンドにトレーニングする。 乳がんのHER2予測と,大腸癌に対する2つのMMRバイオマーカーのIntact/Loss像の予測の2つの異なるIHC症例に提案したモデルを応用した。 提案手法は,WSIのごく一部を高い倍率で処理しながら,最先端の手法に匹敵する精度が得られることを示す。

Some major challenges associated with the automated processing of whole slide images (WSIs) includes their sheer size, different magnification levels and high resolution. Utilizing these images directly in AI frameworks is computationally expensive due to memory constraints, while downsampling WSIs incurs information loss and splitting WSIs into tiles and patches results in loss of important contextual information. We propose a novel dual attention approach, consisting of two main components, to mimic visual examination by a pathologist. The first component is a soft attention model which takes as input a high-level view of the WSI to determine various regions of interest. We employ a custom sampling method to extract diverse and spatially distinct image tiles from selected high attention areas. The second component is a hard attention classification model, which further extracts a sequence of multi-resolution glimpses from each tile for classification. Since hard attention is non-differentiable, we train this component using reinforcement learning and predict the location of glimpses without processing all patches of a given tile, thereby aligning with pathologist's way of diagnosis. We train our components both separately and in an end-to-end fashion using a joint loss function to demonstrate the efficacy of our proposed model. We employ our proposed model on two different IHC use cases: HER2 prediction on breast cancer and prediction of Intact/Loss status of two MMR biomarkers, for colorectal cancer. We show that the proposed model achieves accuracy comparable to state-of-the-art methods while only processing a small fraction of the WSI at highest magnification.
翻訳日:2023-02-21 17:15:51 公開日:2023-02-19
# 強化学習における最適値関数の構成性と境界

Compositionality and Bounds for Optimal Value Functions in Reinforcement Learning ( http://arxiv.org/abs/2302.09676v1 )

ライセンス: Link先を確認
Jacob Adamczyk, Stas Tiomkin, Rahul Kulkarni(参考訳) エージェントが以前に解決した問題に対してソリューションを再利用する能力は、新しいタスクを効率的に学習するには不可欠である。 強化学習における価値関数の構成を用いた最近の研究は、エージェントが原始的なタスクの解を使って指数関数的に多くの新しいタスクの解を得ることができることを示した。 しかし、これまでの研究は力学、構成法、報酬関数の構造に制限的な仮定に依存していた。 ここでは, 報酬関数の構造を制約せずに一般合成関数の場合には, 決定論と確率力学の両方に適用できると考える。 この一般的な設定では、対応する最適値関数の境界を提供し、対応するポリシーの値を特徴付ける。 理論的な結果から,エントロピー正規化学習と標準強化学習の両方におけるトレーニングの改善が導かれ,数値シミュレーションにより検証した。

An agent's ability to reuse solutions to previously solved problems is critical for learning new tasks efficiently. Recent research using composition of value functions in reinforcement learning has shown that agents can utilize solutions of primitive tasks to obtain solutions for exponentially many new tasks. However, previous work has relied on restrictive assumptions on the dynamics, the method of composition, and the structure of reward functions. Here we consider the case of general composition functions without any restrictions on the structure of reward functions, applicable to both deterministic and stochastic dynamics. For this general setup, we provide bounds on the corresponding optimal value functions and characterize the value of corresponding policies. The theoretical results derived lead to improvements in training for both entropy-regularized and standard reinforcement learning, which we validate with numerical simulations.
翻訳日:2023-02-21 17:15:22 公開日:2023-02-19
# 線形弾性のための物理対応深層学習フレームワーク

Physics-aware deep learning framework for linear elasticity ( http://arxiv.org/abs/2302.09668v1 )

ライセンス: Link先を確認
Arunabha M. Roy and Rikhi Bose(参考訳) 本稿では,線形連続弾性問題に対して,効率的で堅牢なデータ駆動型ディープラーニング(DL)計算フレームワークを提案する。 この手法は、物理学インフォームドニューラルネットワーク(pinns)の基礎に基づいている。 フィールド変数の正確な表現のために,多目的損失関数を提案する。 支配的偏微分方程式(pde)の残差に対応する項、支配物理学に由来する構成関係、様々な境界条件、問題領域内のランダムに選択されたコロケーション点間のデータ駆動的物理的知識適合項からなる。 この目的のために、フィールド変数を近似する複数の密結合された独立系ニューラルネットワーク(ann)を訓練し、正確な解を得る。 弾性に対するエアリー解やキルヒホフ・ラブプレート問題を含むいくつかのベンチマーク問題を解く。 正確性と堅牢性の点でのパフォーマンスは、分析ソリューションとの優れた一致を示す現在のフレームワークの優位性を示している。 本研究は、軽量で正確でロバストなニューラルネットワークのデータ駆動構成において、解析的関係で利用可能な物理情報とdl技術の優れた能力に依存する古典的手法の利点を組み合わせたものである。 ここで開発されたモデルは、異なる計算プラットフォームで容易に適応できる最小限のネットワークパラメータを用いて、計算速度を大幅に向上させることができる。

The paper presents an efficient and robust data-driven deep learning (DL) computational framework developed for linear continuum elasticity problems. The methodology is based on the fundamentals of the Physics Informed Neural Networks (PINNs). For an accurate representation of the field variables, a multi-objective loss function is proposed. It consists of terms corresponding to the residual of the governing partial differential equations (PDE), constitutive relations derived from the governing physics, various boundary conditions, and data-driven physical knowledge fitting terms across randomly selected collocation points in the problem domain. To this end, multiple densely connected independent artificial neural networks (ANNs), each approximating a field variable, are trained to obtain accurate solutions. Several benchmark problems including the Airy solution to elasticity and the Kirchhoff-Love plate problem are solved. Performance in terms of accuracy and robustness illustrates the superiority of the current framework showing excellent agreement with analytical solutions. The present work combines the benefits of the classical methods depending on the physical information available in analytical relations with the superior capabilities of the DL techniques in the data-driven construction of lightweight, yet accurate and robust neural networks. The models developed herein can significantly boost computational speed using minimal network parameters with easy adaptability in different computational platforms.
翻訳日:2023-02-21 17:15:08 公開日:2023-02-19
# cityspec with shield: 要求の形式化のためのセキュアなインテリジェントアシスタント

CitySpec with Shield: A Secure Intelligent Assistant for Requirement Formalization ( http://arxiv.org/abs/2302.09665v1 )

ライセンス: Link先を確認
Zirong Chen, Issa Li, Haoxiang Zhang, Sarah Preum, John A. Stankovic, Meiyi Ma(参考訳) 都市のリアルタイム運用が安全と性能の要求を満たすことを保証するため、スマートシティで監視システムの開発が増えている。 しかし、既存の都市要件の多くは英語で書かれており、不正確、曖昧な情報が欠けている。 人為的要件をマシン理解可能な監視システムの形式仕様に変換する上で,都市政策立案者支援の需要が高まっている。 この制限に対処するため、スマートシティにおける要求仕様のための初のインテリジェントアシスタントシステムであるCitySpecを構築した。 CitySpecを作成するために、まず100以上の都市から異なる領域(例えば輸送とエネルギー)にわたる1500以上の都市要件を収集し、都市固有の知識を抽出し、3,061単語の都市語彙のデータセットを生成する。 また,要求合成による翻訳モデルの構築や,遮蔽バリデーションを用いた新しいオンライン学習フレームワークの開発も行なっている。 実世界の都市要件に対する評価結果は、CitySpecが要件仕様の文レベル精度を59.02%から86.64%に引き上げ、新しい都市と新しいドメインに強い適応性を持つことを示している(例えば、シアトルにおける要件F1スコアは、オンライン学習で77.6%から93.75%に増加した)。 シールド機能の強化後、CitySpecは最も知られているテキストの敵対的入力(例えば、シールド機能後のDeepWordBugの攻撃成功率は82.73%から0%に減少する)に免疫されている。 異なるドメインから18人の参加者でCitySpecをテストする。 CitySpecは、異なるドメインに対する強力なユーザビリティと適応性を示し、悪意のある入力に対する堅牢性を示している。

An increasing number of monitoring systems have been developed in smart cities to ensure that the real-time operations of a city satisfy safety and performance requirements. However, many existing city requirements are written in English with missing, inaccurate, or ambiguous information. There is a high demand for assisting city policymakers in converting human-specified requirements to machine-understandable formal specifications for monitoring systems. To tackle this limitation, we build CitySpec, the first intelligent assistant system for requirement specification in smart cities. To create CitySpec, we first collect over 1,500 real-world city requirements across different domains (e.g., transportation and energy) from over 100 cities and extract city-specific knowledge to generate a dataset of city vocabulary with 3,061 words. We also build a translation model and enhance it through requirement synthesis and develop a novel online learning framework with shielded validation. The evaluation results on real-world city requirements show that CitySpec increases the sentence-level accuracy of requirement specification from 59.02% to 86.64%, and has strong adaptability to a new city and a new domain (e.g., the F1 score for requirements in Seattle increases from 77.6% to 93.75% with online learning). After the enhancement from the shield function, CitySpec is now immune to most known textual adversarial inputs (e.g., the attack success rate of DeepWordBug after the shield function is reduced to 0% from 82.73%). We test the CitySpec with 18 participants from different domains. CitySpec shows its strong usability and adaptability to different domains, and also its robustness to malicious inputs.
翻訳日:2023-02-21 17:14:51 公開日:2023-02-19
# 意味的不確かさ:自然言語生成における不確かさ推定のための言語的不変性

Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation ( http://arxiv.org/abs/2302.09664v1 )

ライセンス: Link先を確認
Lorenz Kuhn, Yarin Gal, Sebastian Farquhar(参考訳) 大規模言語モデルにおける不確実性を測定する手法を提案する。 質問応答のようなタスクでは、基礎モデルの自然言語出力をいつ信頼できるかを知ることが不可欠である。 自然言語における不確実性を測定することは「意味的同値性」によって困難であることが示され、異なる文が同じ意味を持つ可能性がある。これらの課題を克服するためには、共通意味によって生成された言語的不変性を組み込んだ意味的エントロピーを導入する。 我々の手法は教師なしであり、単一のモデルのみを使用し、 'off-the-shelf'言語モデルを変更する必要はない。 包括的アブレーション研究において,semantic entropyは,質問応答データセットにおけるモデルの精度を,同等のベースラインよりも予測できることを示した。

We introduce a method to measure uncertainty in large language models. For tasks like question answering, it is essential to know when we can trust the natural language outputs of foundation models. We show that measuring uncertainty in natural language is challenging because of `semantic equivalence' -- different sentences can mean the same thing. To overcome these challenges we introduce semantic entropy -- an entropy which incorporates linguistic invariances created by shared meanings. Our method is unsupervised, uses only a single model, and requires no modifications to `off-the-shelf' language models. In comprehensive ablation studies we show that the semantic entropy is more predictive of model accuracy on question answering data sets than comparable baselines.
翻訳日:2023-02-21 17:14:19 公開日:2023-02-19
# サイズ不変形状変換のスペクトル特性

Spectral properties of size-invariant shape transformation ( http://arxiv.org/abs/2302.09663v1 )

ライセンス: Link先を確認
Alhun Aydin(参考訳) サイズ不変形状変換(Size-invariant shape transformation)は、ルベーグ測度の下でサイズを保ちながら領域の形状を変更する技法である。 量子閉じ込め系では、この変換は、凝縮媒体のディリクレスペクトルに付随する閉じ込められた粒子の物理的性質におけるいわゆる量子形状効果をもたらす。 ここでは、サイズ不変形状変換によって生成されるレベル間の幾何結合が固有スペクトルの非一様スケーリングを引き起こすことを示す。 特に、非一様レベルスケーリングは、第1固有値の低下(基底状態の低減)とスペクトルギャップの変化(エネルギー準位分割または対称性による縮退形成)の2つの異なるスペクトル特徴によって特徴づけられる。 本稿では,これらの局所的な領域の球性に関連する局所的幅(すなわち領域の一部が限定的になる)の増加による基底状態の低減について説明する。 我々は、2つの異なる尺度を用いて球面の正確な定量化を行う: 記載された$n$-球面の半径とハウスドルフ距離。 Rayleigh-Faber-Krahnの不等式のため、球状度が大きいほど第一固有値が低い。 すると、初期構成の対称性に依存するレベル分割や縮退は、ワイル法則によって同じ漸近的な振る舞いを持つ固有値を決定する大きさ不変性の直接的な結果となる。 さらに, 基底状態の低下は, 量子形状効果を示す系において, 自発的遷移が低エントロピー状態へ特異な効果をもたらす原因となる量子熱雪崩を引き起こすことを見出した。 サイズ保存変換の異常なスペクトル特性は、古典的に想像できない量子熱機械に繋がる閉じ込めジオメトリを設計するのに役立つ。

Size-invariant shape transformation is a technique of changing the shape of a domain while preserving its sizes under the Lebesgue measure. In quantum confined systems, this transformation leads to so-called quantum shape effects in the physical properties of confined particles associated with the Dirichlet spectrum of the confining medium. Here we show that the geometric couplings between levels generated by the size-invariant shape transformations cause nonuniform scaling in the eigenspectra. In particular, the nonuniform level scaling is characterized by two distinct spectral features: lowering of the first eigenvalue (ground state reduction) and changing of the spectral gaps (energy level splitting or degeneracy formation depending on the symmetries). We explain the ground state reduction by the increase in local breadth (i.e. parts of the domain becoming less confined) that is associated with the sphericity of these local portions of the domain. We accurately quantify the sphericity using two different measures: the radius of the inscribed $n$-sphere and the Hausdorff distance. Due to Rayleigh-Faber-Krahn inequality, the greater the sphericity, the lower the first eigenvalue. Then, level splitting or degeneracy, depending on the symmetries of the initial configuration, becomes a direct consequence of size-invariance dictating the eigenvalues to have the same asymptotic behavior due to Weyl law. Furthermore, we find that the ground state reduction causes a quantum thermal avalanche which is the underlying reason for the peculiar effect of spontaneous transitions to lower entropy states in systems exhibiting the quantum shape effect. Unusual spectral characteristics of size-preserving transformations can assist in designing confinement geometries that could lead to classically inconceivable quantum thermal machines.
翻訳日:2023-02-21 17:14:03 公開日:2023-02-19
# がん患者の症状進展予測のためのケアの解釈

Interpret Your Care: Predicting the Evolution of Symptoms for Cancer Patients ( http://arxiv.org/abs/2302.09659v1 )

ライセンス: Link先を確認
Rupali Bhati, Jennifer Jones, Audrey Durand(参考訳) がん治療は患者にとって困難なプロセスであり、治療中や治療後の多くの副作用を引き起こす。 この治療は、ほとんどすべての身体システムに影響を与え、痛み、疲労、睡眠障害、認知障害などをもたらす。 これらの状態は、しばしば未診断または未治療である。 本稿では,患者データを用いて症状の進化を予測し,治療関連障害を予防し,有意義な改善を図る。 本研究の目的は,患者の診断後の痛みと疲労度を予測することである。 20163患者からなる実世界患者データにlightgbmと呼ばれる解釈可能な決定木モデルを実装した。 データセットにはSMOTEのオーバーサンプリング手法を用いて解決するクラス不均衡問題が存在する。 以上の結果から, 症状の前段階の値が予測の重要な指標となり, 痛みレベル予測における重み付き平均偏差が3.52, 疲労度が2.27であった。

Cancer treatment is an arduous process for patients and causes many side-effects during and post-treatment. The treatment can affect almost all body systems and result in pain, fatigue, sleep disturbances, cognitive impairments, etc. These conditions are often under-diagnosed or under-treated. In this paper, we use patient data to predict the evolution of their symptoms such that treatment-related impairments can be prevented or effects meaningfully ameliorated. The focus of this study is on predicting the pain and tiredness level of a patient post their diagnosis. We implement an interpretable decision tree based model called LightGBM on real-world patient data consisting of 20163 patients. There exists a class imbalance problem in the dataset which we resolve using the oversampling technique of SMOTE. Our empirical results show that the value of the previous level of a symptom is a key indicator for prediction and the weighted average deviation in prediction of pain level is 3.52 and of tiredness level is 2.27.
翻訳日:2023-02-21 17:13:35 公開日:2023-02-19
# 球軌道データを用いたテーブルテニスストロークの検出と認識

Table Tennis Stroke Detection and Recognition Using Ball Trajectory Data ( http://arxiv.org/abs/2302.09657v1 )

ライセンス: Link先を確認
Kaustubh Milind Kulkarni, Rohan S Jamadagni, Jeffrey Aaron Paul, Sucheth Shenoy(参考訳) 本研究では,球軌道のみを用いた卓球ストロークの検出と分類を行う新しい課題について検討した。 4人のプロの卓球選手が実行した6つのストローククラスからなるデータセットの入手には、審判の視点にある1つのカメラのセットアップが用いられています。 従来のオブジェクト検出モデルであるyolov4と、時間的ヒートマップに基づくモデルであるtracknetv2を使用したボールトラッキングをデータセットに実装し、そのパフォーマンスをベンチマークしました。 球軌道データを用いてストロークの時間的境界を抽出する数学的アプローチにより,我々のデータセットでは2023個の有効なストロークが得られた。 時間畳み込みネットワークは87.155%の精度で全く見えないデータでストローク認識を実行した。 いくつかの機械学習およびディープラーニングに基づくモデルアーキテクチャは、ボール軌跡入力を用いてストローク認識のために訓練され、その性能に基づいてベンチマークされている。 卓球分野でのストローク認識は、プレイヤーのアクションに焦点を絞ったビデオデータを用いて人間の行動認識に基づいて広範囲に研究されてきたが、ボールの軌跡データの使用はスポーツの未調査の特徴である。 したがって、この研究の背景にある動機は、最小限の入力情報を用いて、ストローク検出や認識のような有意義な推論を描画できることである。

In this work, the novel task of detecting and classifying table tennis strokes solely using the ball trajectory has been explored. A single camera setup positioned in the umpire's view has been employed to procure a dataset consisting of six stroke classes executed by four professional table tennis players. Ball tracking using YOLOv4, a traditional object detection model, and TrackNetv2, a temporal heatmap based model, have been implemented on our dataset and their performances have been benchmarked. A mathematical approach developed to extract temporal boundaries of strokes using the ball trajectory data yielded a total of 2023 valid strokes in our dataset, while also detecting services and missed strokes successfully. The temporal convolutional network developed performed stroke recognition on completely unseen data with an accuracy of 87.155%. Several machine learning and deep learning based model architectures have been trained for stroke recognition using ball trajectory input and benchmarked based on their performances. While stroke recognition in the field of table tennis has been extensively explored based on human action recognition using video data focused on the player's actions, the use of ball trajectory data for the same is an unexplored characteristic of the sport. Hence, the motivation behind the work is to demonstrate that meaningful inferences such as stroke detection and recognition can be drawn using minimal input information.
翻訳日:2023-02-21 17:13:20 公開日:2023-02-19
# 不正確なベイズニューラルネットワーク

Imprecise Bayesian Neural Networks ( http://arxiv.org/abs/2302.09656v1 )

ライセンス: Link先を確認
Michele Caprio, Souradeep Dutta, Kuk Jin Jang, Vivian Lin, Radoslav Ivanov, Oleg Sokolsky, Insup Lee(参考訳) 不確かさの定量化と分散シフトへの堅牢性は、機械学習と人工知能の重要な目標である。 ベイズニューラルネットワーク(BNN)は予測の不確実性を評価することができるが、異なる不確実性源は区別できない。 我々は不正確なベイズニューラルネットワーク(IBNN)を提案し、標準BNNの欠点を一般化し克服する。 後者は1つの事前分布と可能性分布を用いて訓練されるのに対し、IBNNは震源と可能性集合を用いて訓練される。 失語症とてんかんの不確かさを区別し、それらを定量化する。 さらに、IBNNはベイズ感度分析の点で堅牢であり、分布シフトに対してBNNよりも堅牢である。 また、PACのような性質を享受する結果の集合を計算するためにも使用できる。 IBNNを2つのケーススタディに適用する。 1つは、人工膵臓制御のための血糖値とインスリン動態のモデル化、2つは、自律運転シナリオにおける運動予測である。 IBNNsは,BNNsベンチマークのアンサンブルよりも性能がよいことを示す。

Uncertainty quantification and robustness to distribution shifts are important goals in machine learning and artificial intelligence. Although Bayesian neural networks (BNNs) allow for uncertainty in the predictions to be assessed, different sources of uncertainty are indistinguishable. We present imprecise Bayesian neural networks (IBNNs); they generalize and overcome some of the drawbacks of standard BNNs. These latter are trained using a single prior and likelihood distributions, whereas IBNNs are trained using credal prior and likelihood sets. They allow to distinguish between aleatoric and epistemic uncertainties, and to quantify them. In addition, IBNNs are robust in the sense of Bayesian sensitivity analysis, and are more robust than BNNs to distribution shift. They can also be used to compute sets of outcomes that enjoy PAC-like properties. We apply IBNNs to two case studies. One, to model blood glucose and insulin dynamics for artificial pancreas control, and two, for motion prediction in autonomous driving scenarios. We show that IBNNs performs better when compared to an ensemble of BNNs benchmark.
翻訳日:2023-02-21 17:12:56 公開日:2023-02-19
# 多言語ニューラルマシン翻訳のスケーリング則

Scaling Laws for Multilingual Neural Machine Translation ( http://arxiv.org/abs/2302.09650v1 )

ライセンス: Link先を確認
Patrick Fernandes, Behrooz Ghorbani, Xavier Garcia, Markus Freitag, Orhan Firat(参考訳) 本研究では,多言語ニューラルマシン翻訳モデルのスケーリング特性に関する大規模な実証的研究を行う。 モデルサイズの増加がモデル性能に与える影響について検討し,スケーリング行動におけるトレーニング混合物組成の役割について検討する。 学習混合物中の個々の言語ペアの重み付けの変化は,スケーリング法則の乗法的要因にのみ影響することがわかった。 特に、異なる混合率を用いて訓練された多言語モデルは、すべて同じスケーリング指数を示す。 新たな共同スケーリング法則の定式化により,各言語対に割り当てられたパラメータの有効数を計算し,モデルのスケーリング行動における言語類似性の役割を検討する。 言語の類似性が影響する証拠はほとんどない。 対照的に、多言語性の方向は重要な役割を担い、複数の言語から英語に翻訳されるモデルは、その逆の言語よりもタスクごとに多くの効果的なパラメータを持つ。 最後に,任意の言語重み付けで訓練された多言語モデルの性能を予測するために,我々の観測を活用し,大規模多言語モデルにおける言語バランスに必要な労力を大幅に削減する。 この結果はドメイン内テストセットとドメイン外テストセットの両方に適用でき、chrfやbleurtといった複数の評価指標に適用できる。

In this work, we provide a large-scale empirical study of the scaling properties of multilingual neural machine translation models. We examine how increases in the model size affect the model performance and investigate the role of the training mixture composition on the scaling behavior. We find that changing the weightings of the individual language pairs in the training mixture only affect the multiplicative factor of the scaling law. In particular, we observe that multilingual models trained using different mixing rates all exhibit the same scaling exponent. Through a novel joint scaling law formulation, we compute the effective number of parameters allocated to each language pair and examine the role of language similarity in the scaling behavior of our models. We find little evidence that language similarity has any impact. In contrast, the direction of the multilinguality plays a significant role, with models translating from multiple languages into English having a larger number of effective parameters per task than their reversed counterparts. Finally, we leverage our observations to predict the performance of multilingual models trained with any language weighting at any scale, significantly reducing efforts required for language balancing in large multilingual models. Our findings apply to both in-domain and out-of-domain test sets and to multiple evaluation metrics, such as ChrF and BLEURT.
翻訳日:2023-02-21 17:12:41 公開日:2023-02-19
# 肺の異常診断を改善する胸部x線リブ抑制の効率的でロバストな方法

An Efficient and Robust Method for Chest X-Ray Rib Suppression that Improves Pulmonary Abnormality Diagnosis ( http://arxiv.org/abs/2302.09696v1 )

ライセンス: Link先を確認
Di Xu, Qifan Xu, Kevin Nhieu, Dan Ruan and Ke Sheng(参考訳) 胸部X線(CXR)に対する胸部骨陰影の抑制は肺疾患の診断を改善することが示唆された。 従来のアプローチは、教師なしの物理的および教師なしのディープラーニングモデルに分類される。 それにもかかわらず、物理的モデルが形態学的詳細を保存できるが、非常に長い処理時間のコストで、既存のdl法は、堅牢なトレーニングのために十分な/適格な根拠真理(gt)を収集する困難に直面し、臨床的に許容される偽陽性率を維持するのに失敗する。 本稿では,(1)空間変換勾配場における物理モデルにより排除されたGT骨影を用いたトレーニングペアの生成という,一般化可能かつ効率的な2段階のワークフローを提案する。 2) CXRを高速に除去するために,ステージ1データセット上でのネットワークトレーニングをフル教師する。 ステップ2では,ピーク信号と雑音比,マルチスケール構造類似度指標の客観的最小化と組み合わせた,sadxnetと呼ばれる密結合ネットワークを設計した。 SADXNetは、空間フィルタをU字型(例えば、X=7、フィルタ = 16, 64, 256, 512, 256, 64, 16)に整理し、ネットワークフロー全体の特徴マップ次元を保存する。 視覚的には、SADXNetは、血管/異常を危険にさらすことなく、リブ縁と肺壁/めまい付近を抑えることができる。 定量的には、テスト中は ~0 のRMSEを達成し、一つの予測は <1s である。 提案するリブ抑制機構の評価には,肺結節の検出,肺疾患の分類,局在などの下流課題が用いられる。 3.23%および6.62%の範囲でauc値が上昇し、203および385の絶対偽陽性率は肺結節の検出と共通肺疾患の局在に別々に低下した。

Suppression of thoracic bone shadows on chest X-rays (CXRs) has been indicated to improve the diagnosis of pulmonary disease. Previous approaches can be categorized as unsupervised physical and supervised deep learning models. Nevertheless, with physical models able to preserve morphological details but at the cost of extremely long processing time, existing DL methods face challenges of gathering sufficient/qualitative ground truth (GT) for robust training, thus leading to failure in maintaining clinically acceptable false positive rates. We hereby propose a generalizable yet efficient workflow of two stages: (1) training pairs generation with GT bone shadows eliminated in by a physical model in spatially transformed gradient fields. (2) fully supervised image denoising network training on stage-one datasets for fast rib removal on incoming CXRs. For step two, we designed a densely connected network called SADXNet, combined with peak signal to noise ratio and multi-scale structure similarity index measure objective minimization to suppress bony structures. The SADXNet organizes spatial filters in U shape (e.g., X=7; filters = 16, 64, 256, 512, 256, 64, 16) and preserves the feature map dimension throughout the network flow. Visually, SADXNet can suppress the rib edge and that near the lung wall/vertebra without jeopardizing the vessel/abnormality conspicuity. Quantitively, it achieves RMSE of ~0 during testing with one prediction taking <1s. Downstream tasks including lung nodule detection as well as common lung disease classification and localization are used to evaluate our proposed rib suppression mechanism. We observed 3.23% and 6.62% area under the curve (AUC) increase as well as 203 and 385 absolute false positive decrease for lung nodule detection and common lung disease localization, separately.
翻訳日:2023-02-21 17:05:33 公開日:2023-02-19
# 因果メディエーション分析のためのアンタングル表現

Disentangled Representation for Causal Mediation Analysis ( http://arxiv.org/abs/2302.09694v1 )

ライセンス: Link先を確認
Ziqi Xu, Debo Cheng, Jiuyong Li, Jixue Liu, Lin Liu, Ke Wang(参考訳) 観察データから直接的および間接的因果効果を推定することは、因果メカニズムを理解し、異なる介入下での行動を予測する上で重要である。 因果媒介分析は直接的および間接的な効果を明らかにするためにしばしば用いられる方法である。 深層学習は調停分析に有望性を示しているが、現在の手法では、治療、調停、結果に影響を及ぼす潜在性共起者を仮定し、異なるタイプの潜在性共起者を識別できない(例えば、仲介者または結果にのみ影響を及ぼす共同設立者)。 さらに、現在の手法は、複数のタイプの潜在的共同設立者を扱うには不可能な逐次的無知の仮定に基づいている。 本研究は, 逐次的無知の仮定を回避し, 代替として断片的分解仮定を適用することを目的とする。 そこで本研究では,助成金の表現を3つのタイプに分けて,自然的直接効果,自然間接効果,および全効果を正確に推定する,ディスタングル・メディエーション分析変分自動エンコーダ(DMAVAE)を提案する。 実験の結果,提案手法は既存の手法よりも優れ,高い一般化能力を有することがわかった。 さらに本手法を実世界のデータセットに適用し,その可能性を示す。

Estimating direct and indirect causal effects from observational data is crucial to understanding the causal mechanisms and predicting the behaviour under different interventions. Causal mediation analysis is a method that is often used to reveal direct and indirect effects. Deep learning shows promise in mediation analysis, but the current methods only assume latent confounders that affect treatment, mediator and outcome simultaneously, and fail to identify different types of latent confounders (e.g., confounders that only affect the mediator or outcome). Furthermore, current methods are based on the sequential ignorability assumption, which is not feasible for dealing with multiple types of latent confounders. This work aims to circumvent the sequential ignorability assumption and applies the piecemeal deconfounding assumption as an alternative. We propose the Disentangled Mediation Analysis Variational AutoEncoder (DMAVAE), which disentangles the representations of latent confounders into three types to accurately estimate the natural direct effect, natural indirect effect and total effect. Experimental results show that the proposed method outperforms existing methods and has strong generalisation ability. We further apply the method to a real-world dataset to show its potential application.
翻訳日:2023-02-21 17:05:03 公開日:2023-02-19
# msam: マイクロバッチ平均シャープネス最小化

mSAM: Micro-Batch-Averaged Sharpness-Aware Minimization ( http://arxiv.org/abs/2302.09693v1 )

ライセンス: Link先を確認
Kayhan Behdin, Qingquan Song, Aman Gupta, Ayan Acharya, David Durfee, Borja Ocejo, Sathiya Keerthi, Rahul Mazumder(参考訳) 現代のディープラーニングモデルは過度にパラメータ化され、異なる最適化が広く異なる一般化性能をもたらす。 これを説明するために、Sharpness-Aware Minimization (SAM) は、基礎となる損失関数を修正し、よりフラットなミニマへ導出する方法を導出する。 本稿では,マイクロバッチ SAM (mSAM) と呼ばれるSAMの変種に着目し,マイクロバッチのいくつかの相反するシャード(マイクロバッチ)にまたがる対向的摂動によって生じる更新を平均化する。 本稿では,最近開発された平坦性解析の汎用フレームワークを拡張し,シャープネスを認識できる最小化のための分散勾配計算が理論的により平坦な最小化を実現することを示す。 この理論上の優位性をサポートするために,様々な画像分類と自然言語処理タスクについて,徹底した経験的評価を行う。 また, 従来の研究とは対照的に, mSAM は計算コストを大幅に増大させることなく, 柔軟かつ並列的に実装可能であることを示す。 mSAM の実践的な実装は,SAM と比較して幅広いタスクにおいて優れた一般化性能を示し,理論的枠組みをさらに支持する。

Modern deep learning models are over-parameterized, where different optima can result in widely varying generalization performance. To account for this, Sharpness-Aware Minimization (SAM) modifies the underlying loss function to guide descent methods towards flatter minima, which arguably have better generalization abilities. In this paper, we focus on a variant of SAM known as micro-batch SAM (mSAM), which, during training, averages the updates generated by adversarial perturbations across several disjoint shards (micro batches) of a mini-batch. We extend a recently developed and well-studied general framework for flatness analysis to show that distributed gradient computation for sharpness-aware minimization theoretically achieves even flatter minima. In order to support this theoretical superiority, we provide a thorough empirical evaluation on a variety of image classification and natural language processing tasks. We also show that contrary to previous work, mSAM can be implemented in a flexible and parallelizable manner without significantly increasing computational costs. Our practical implementation of mSAM yields superior generalization performance across a wide range of tasks compared to SAM, further supporting our theoretical framework.
翻訳日:2023-02-21 17:04:40 公開日:2023-02-19
# Bi-LSTMとBi-GRUを用いたハイブリッドディープラーニングモデルによる人工呼吸器の予測圧力

Forecasting Pressure Of Ventilator Using A Hybrid Deep Learning Model Built With Bi-LSTM and Bi-GRU To Simulate Ventilation ( http://arxiv.org/abs/2302.09691v1 )

ライセンス: Link先を確認
Md. Jafril Alam, Jakaria Rabbi, Shamim Ahamed(参考訳) 人工呼吸器シミュレーションシステムは、機械的換気をより簡単かつ効果的にすることができる。 その結果,人工呼吸器の設計には患者の人工呼吸器圧の予測が不可欠となる。 患者に対して必要換気圧を予測するためのハイブリッド深層学習アプローチを提案する。 このシステムはBi-LSTMとBi-GRUネットワークで構成されている。 提案モデルではSELU活性化関数を用いた。 提案手法を実世界の問題に適用できるように,MAE と MSE を用いて提案モデルの精度を検討した。 モデルはテストデータに対して良好に動作し、非常に少ない損失を生み出しました。 本研究では,データ収集,データ解析,データクリーニング,ハイブリッドBi-LSTMとBi-GRUモデルの構築,モデルのトレーニング,モデル評価,結果分析を行った。 本研究の結果を現代的作品と比較し,提案モデルの有用性について検討した。

A ventilator simulation system can make mechanical ventilation easier and more effective. As a result, predicting a patient's ventilator pressure is essential when designing a simulation ventilator. We suggested a hybrid deep learning-based approach to forecast required ventilator pressure for patients. This system is made up of Bi-LSTM and Bi-GRU networks. The SELU activation function was used in our proposed model. MAE and MSE were used to examine the accuracy of the proposed model so that our proposed methodology can be applied to real-world problems. The model performed well against test data and created far too few losses. Major parts of our research were data collection, data analysis, data cleaning, building hybrid Bi-LSTM and Bi-GRU model, training the model, model evaluation, and result analysis. We compared the results of our research with some contemporary works, and our proposed model performed better than those models.
翻訳日:2023-02-21 17:04:19 公開日:2023-02-19
# AutoDOViz: 意思決定最適化のための人間中心の自動化

AutoDOViz: Human-Centered Automation for Decision Optimization ( http://arxiv.org/abs/2302.09688v1 )

ライセンス: Link先を確認
Daniel Karl I. Weidele, Shazia Afzal, Abel N. Valente, Cole Makuch, Owen Cornec, Long Vu, Dharmashankar Subramanian, Werner Geyer, Rahul Nair, Inge Vejsbjerg, Radu Marinescu, Paulito Palmes, Elizabeth M. Daly, Loraine Franke, Daniel Haehn(参考訳) 本稿では、強化学習(RL)を用いた自動意思決定最適化(AutoDO)のための対話型ユーザインタフェースであるAutoDOVizを提案する。 決定最適化(DO)は、専門家が試行錯誤を通じてソリューションを微調整するのに長い時間を要するDO研究者によって古典的に実践されている。 AutoMLパイプライン検索は、ソリューションの検索とチューニングに自動化を活用することで、データサイエンティストが最適な機械学習パイプラインを見つけるのを容易にすることを目指している。 最近では、これらの進歩がAutoDOのドメインに適用され、アルゴリズムの選択とパラメータチューニングを通じて、最高の強化学習パイプラインを見つけることを目標としている。 しかし、決定最適化はML問題と比較してはるかに複雑な問題仕様を必要とする。 AutoDOVizは、強化学習問題のための問題仕様におけるデータサイエンティストの参入障壁を低くし、RLパイプライン探索のためのAutoDOアルゴリズムの利点を活用し、最後に、問題定式化とドメインの専門家とソリューション提案をコミュニケーションする際の典型的なインタラクティブな性質を促進するために、可視化とポリシーの洞察を作成する。 本稿では,DO実践者とビジネスコンサルタントとの半構造化専門家インタビューから得られた知見を報告する。 我々は,データサイエンティストによるシステム実装を評価し,提案するソリューションを用いた場合,その実装がよりオープンであることを確認した。 AutoDOVizはさらにRLエージェントモデルの信頼性を高め、自動トレーニングと評価プロセスをより理解できるようにする。 MLタスクにおける他の自動化について示すように、インターフェイスがヒューマン・イン・ザ・ループを促進する場合、ユーザとリバーサの恩恵を受けることができると結論付けている。

We present AutoDOViz, an interactive user interface for automated decision optimization (AutoDO) using reinforcement learning (RL). Decision optimization (DO) has classically being practiced by dedicated DO researchers where experts need to spend long periods of time fine tuning a solution through trial-and-error. AutoML pipeline search has sought to make it easier for a data scientist to find the best machine learning pipeline by leveraging automation to search and tune the solution. More recently, these advances have been applied to the domain of AutoDO, with a similar goal to find the best reinforcement learning pipeline through algorithm selection and parameter tuning. However, Decision Optimization requires significantly more complex problem specification when compared to an ML problem. AutoDOViz seeks to lower the barrier of entry for data scientists in problem specification for reinforcement learning problems, leverage the benefits of AutoDO algorithms for RL pipeline search and finally, create visualizations and policy insights in order to facilitate the typical interactive nature when communicating problem formulation and solution proposals between DO experts and domain experts. In this paper, we report our findings from semi-structured expert interviews with DO practitioners as well as business consultants, leading to design requirements for human-centered automation for DO with RL. We evaluate a system implementation with data scientists and find that they are significantly more open to engage in DO after using our proposed solution. AutoDOViz further increases trust in RL agent models and makes the automated training and evaluation process more comprehensible. As shown for other automation in ML tasks, we also conclude automation of RL for DO can benefit from user and vice-versa when the interface promotes human-in-the-loop.
翻訳日:2023-02-21 17:04:05 公開日:2023-02-19
# インダクタンス言語における医療用クエリのインテント識別とエンティティ抽出

Intent Identification and Entity Extraction for Healthcare Queries in Indic Languages ( http://arxiv.org/abs/2302.09685v1 )

ライセンス: Link先を確認
Ankan Mullick, Ishani Mondal, Sourjyadip Ray, R Raghav, G Sai Chaitanya, Pawan Goyal(参考訳) インドのような先進国では、データとリソース不足言語の技術的な制限が、医療のための高度なNLUシステムの開発に脅威をもたらしている。 医療における最先端の言語モデルの現況を評価するために,まず2つの異なる医療データセット,すなわちインド医療問合せインテント-webmdと1mg (ihqid-webmdとihqid-1mg) と1つの実世界のインド病院における問合せデータを英語と複数のインド語(hindi, bengali, tamil, telugu, marathi, gujarati)で提示し,問合せインテントにアノテートすることにより,問題を検討した。 私たちの目標は、クエリインテントを検出し、対応するエンティティを抽出することです。 様々な現実的な環境でモデルセットを広範囲に実験し、英語データへのアクセスのみ(コストはかかるが)とターゲット言語データへのアクセス(より高価)に基づいて2つのシナリオを探索する。 経験的分析により文脈特異的な実践的関連性を分析する。 総合f1スコアで表される結果は、我々のアプローチが意図や実体を特定するのに効果的であることを示している。

Scarcity of data and technological limitations for resource-poor languages in developing countries like India poses a threat to the development of sophisticated NLU systems for healthcare. To assess the current status of various state-of-the-art language models in healthcare, this paper studies the problem by initially proposing two different Healthcare datasets, Indian Healthcare Query Intent-WebMD and 1mg (IHQID-WebMD and IHQID-1mg) and one real world Indian hospital query data in English and multiple Indic languages (Hindi, Bengali, Tamil, Telugu, Marathi and Gujarati) which are annotated with the query intents as well as entities. Our aim is to detect query intents and extract corresponding entities. We perform extensive experiments on a set of models in various realistic settings and explore two scenarios based on the access to English data only (less costly) and access to target language data (more expensive). We analyze context specific practical relevancy through empirical analysis. The results, expressed in terms of overall F1 score show that our approach is practically useful to identify intents and entities.
翻訳日:2023-02-21 17:03:35 公開日:2023-02-19
# SimFair: 公正なマルチラベル分類のための統一フレームワーク

SimFair: A Unified Framework for Fairness-Aware Multi-Label Classification ( http://arxiv.org/abs/2302.09683v1 )

ライセンス: Link先を確認
Tianci Liu, Haoyu Wang, Yaqing Wang, Xiaoqian Wang, Lu Su, Jing Gao(参考訳) 近年、機械学習アルゴリズムによる不公平な決定に対する懸念が高まっている。 モデル決定の公平性を改善するために、様々な公平性の概念が提案され、多くの公平性認識手法が開発されている。 しかし、既存の定義や手法のほとんどは単段分類のみに焦点を当てている。 各インスタンスが複数のラベルに関連付けられているマルチラベル分類の公正性はまだ確立されていない。 このギャップを埋めるために,本稿では公平性を考慮したマルチラベル分類について検討する。 まず,2つの人気公正概念であるDP(Demographic Parity)とEOp(Equalized Opportunity)をマルチラベル分類シナリオに拡張することから始める。 系統的な研究を通して、不均一な分散ラベルのため、EOpは通常、少数のインスタンスを持つラベルに対して信頼性の高い推定値を構築することができないことを示す。 次に、新しいフレームワークを提案する。 \textbf{Sim}ilarity $s$-induced \textbf{Fair}ness$s_\gamma$-SimFair。 この新しいフレームワークは、特定のラベルグループに対して公平性を推定する際に類似したラベルを持つデータを活用し、DPとEOpを統一することができる。 実世界のデータセットの理論的解析と実験結果は、既存のメソッドである$s_\gamma$-SimFairのマルチラベル分類タスクに対する利点を示している。

Recent years have witnessed increasing concerns towards unfair decisions made by machine learning algorithms. To improve fairness in model decisions, various fairness notions have been proposed and many fairness-aware methods are developed. However, most of existing definitions and methods focus only on single-label classification. Fairness for multi-label classification, where each instance is associated with more than one labels, is still yet to establish. To fill this gap, we study fairness-aware multi-label classification in this paper. We start by extending Demographic Parity (DP) and Equalized Opportunity (EOp), two popular fairness notions, to multi-label classification scenarios. Through a systematic study, we show that on multi-label data, because of unevenly distributed labels, EOp usually fails to construct a reliable estimate on labels with few instances. We then propose a new framework named \textbf{Sim}ilarity $s$-induced \textbf{Fair}ness ($s_\gamma$-SimFair). This new framework utilizes data that have similar labels when estimating fairness on a particular label group for better stability, and can unify DP and EOp. Theoretical analysis and experimental results on real-world datasets together demonstrate the advantage of over existing methods $s_\gamma$-SimFair on multi-label classification tasks.
翻訳日:2023-02-21 17:03:05 公開日:2023-02-19