このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220904となっている論文です。

PDF登録状況(公開日: 20220904)

TitleAuthorsAbstract論文公表日・翻訳日
# 薬学生のための高度な数学における知識評価のためのWebベース試験の再設計

Redesign of web-based exam for knowledge evaluation in Advanced Mathematics for pharmaceutical students based on analysis of the results ( http://arxiv.org/abs/2004.02784v2 )

ライセンス: Link先を確認
Gergana Maneva, Mancho Manev(参考訳) あらゆる場所で情報技術の活用が、新しい教育方法の要求につながっている。 現代のe-ラーニング環境は、生徒の獲得した知識とスキルの教育、学習、評価を新しい時代へと導く。 学生の e-learning に対するモチベーションについて考察する。 高度な数学のコースは、メディカル大学(Plovdiv)の薬学部のカリキュラムの一部である。 学生の知識評価には,大学におけるハイブリッド型試験,すなわち,自由かつオープンソースのe教育プラットフォームであるMoodleを用いて作成した課題解決部と遠隔 Web ベーステストが使用される。 本稿では,統計的手法と機器を用いて,学生の知識評価のための実装した電子テストの詳細な分析を行う。 テストに含まれる質問と、学生が与えた回答を推定して分析する。 このようにして、テスト質問のデータベースを改善した。 得られた結果は、開発した知識評価の品質と実装のタイプを高めるために使用される。

The usage of the information technologies everywhere leads to demands for new manners of education. Modern e-learning environments lead the teaching, the learning and the evaluation of acquired knowledge and skills of the students to a new era. The students' motivation for e-learning is considered. The course of Advanced Mathematics is part of the curriculum of pharmaceutical students at the Medical University - Plovdiv. For students' knowledge evaluation it is used a hybrid-type exam in this university discipline, i.e. a problems-solving part and a remote web-based test which is created using the free and open-source e-educational platform Moodle. This paper presents a detailed analysis of the implemented electronic test for knowledge evaluation of the students, using statistical methods and instruments. The questions included in the test and the respective answers given by the students are estimated and analysed. Thus, it is made an improvement of the database of the test questions. The received results are used to enhance the quality of the developed knowledge evaluation and the type of its implementation.
翻訳日:2023-05-26 06:26:05 公開日:2022-09-04
# フィールドの基本性

The Fundamentality of Fields ( http://arxiv.org/abs/2202.09425v3 )

ライセンス: Link先を確認
Charles T. Sebens(参考訳) 量子場理論は、底辺において場や粒子の量子論であるかどうかについては議論がある。 場構成上の波動関数、あるいは粒子構成上の波動関数を用いて、理論へのフィールドアプローチをとることができる。 本稿では,(1)粒子波動関数が光子に対して利用できないこと,(2)電子の古典場モデルがスピンと自己相互作用の両方を古典粒子モデルより優れていること,(3)粒子波動関数の空間が粒子波動関数の空間よりも大きいこと,の3つの利点を論じる。 本論文は,(1)フェルミオン場値と波動関数振幅に対するグラスマン数の使用を合法化するか,あるいは省くか,(2)量子場が粒子のような振る舞いを引き起こすか,という2つの重要な課題についても述べる。

There is debate as to whether quantum field theory is, at bottom, a quantum theory of fields or particles. One can take a field approach to the theory, using wave functionals over field configurations, or a particle approach, using wave functions over particle configurations. This article argues for a field approach, presenting three advantages over a particle approach: (1) particle wave functions are not available for photons, (2) a classical field model of the electron gives a superior account of both spin and self-interaction as compared to a classical particle model, and (3) the space of field wave functionals appears to be larger than the space of particle wave functions. The article also describes two important tasks facing proponents of a field approach: (1) legitimize or excise the use of Grassmann numbers for fermionic field values and in wave functional amplitudes, and (2) describe how quantum fields give rise to particle-like behavior.
翻訳日:2023-02-24 17:14:17 公開日:2022-09-04
# なぜオンライン教育プログラムが成功するのか? 学生の認知と成功

Why Are Some Online Educational Programs Successful? Student Cognition and Success ( http://arxiv.org/abs/2209.05462v1 )

ライセンス: Link先を確認
Marissa Keech and Ashok Goel(参考訳) MOOC(Massive Open Online Courses)は、かつてアクセシビリティと手頃な価格を約束していた。 しかし、MOOCには専門家のフィードバックや社会的相互作用がなく、学生のエンゲージメントも維持力も低い。 そのため、米国の主要な公立大学では、コンピュータサイエンスのオンライン大学院プログラムを含むオンライン教育の代替プログラムが登場した。 このプログラムは9000人以上の学生が参加して成功していると考えられている。 認知科学の視点を取り入れて、なぜオンライン教育コースが成功するのかという疑問に答える。 本研究では,学習者のモチベーションと自己統制をプログラムの1コース,特に人工知能(AI)コースで測定する。 学生の調査結果は、自己効力感、認知戦略利用、本質的価値の自己申告による評価は、比較的高いだけでなく、学習の過程でも一般的に増加することを示している。 このデータによると、オンラインAIコースは、学生が自己効力が高く、クラスが自己統制学習を奨励するため、成功かもしれない。

Massive Open Online Courses (MOOCs) once offered the promise of accessibility and affordability. However, MOOCs typically lack expert feedback and social interaction, and have low student engagement and retention. Thus, alternative programs for online education have emerged including an online graduate program in computer science at a major public university in USA. This program is considered a success with over 9000 students now enrolled in the program. We adopt the perspective of cognitive science to answer the question why do only some online educational courses succeed? We measure learner motivation and self-regulation in one course in the program, specifically a course on artificial intelligence (AI). Surveys of students indicate that students self-reported assessments of self-efficacy, cognitive strategy use, and intrinsic value of the course are not only fairly high, but also generally increase over the course of learning. This data suggests that the online AI course might be a success because the students have high self-efficacy and the class fosters self-regulated learning.
翻訳日:2023-02-19 11:07:36 公開日:2022-09-04
# FairSNA: ソーシャルネットワーク分析におけるアルゴリズムフェアネス

FairSNA: Algorithmic Fairness in Social Network Analysis ( http://arxiv.org/abs/2209.01678v1 )

ライセンス: Link先を確認
Akrati Saxena, George Fletcher, Mykola Pechenizkiy(参考訳) 近年,機械学習,自然言語処理,情報検索など様々な分野において,公平性認識手法の設計が注目されている。 しかし,ソーシャルネットワークにおける構造バイアスや不平等の理解や,sna(social network analysis)における様々な研究課題に対する公平性認識手法の設計は注目されていない。 本稿では,ソーシャルネットワークの構造バイアスが様々なsna手法の公平性に与える影響を強調する。 さらに,リンク予測,影響最大化,集中度ランキング,コミュニティ検出など,異なるsna問題に対するネットワーク構造に基づくソリューションを提案する上で考慮すべき公平性について論じる。 本論文は,提案するソリューションにおいて,公正さと偏見を考慮した研究はほとんどなく,リンク予測や影響の最大化,PageRankなど,いくつかの研究トピックに重点を置いている。 しかし、インフルエンスブロッキングやコミュニティ検出など、他の研究トピックに対してはフェアネスはまだ対処されていない。 我々は, 公正性制約, 限界, ビジョンなど, SNA のさまざまな研究テーマについて, 現状を概観する。 また、これらの研究で使用される評価指標、利用可能なデータセット、合成ネットワーク生成モデルについても述べる。 最後に,fairness と sna のギャップを埋めるために研究者の注意を必要とするオープンリサーチの方向性を強調する。

In recent years, designing fairness-aware methods has received much attention in various domains, including machine learning, natural language processing, and information retrieval. However, understanding structural bias and inequalities in social networks and designing fairness-aware methods for various research problems in social network analysis (SNA) have not received much attention. In this work, we highlight how the structural bias of social networks impacts the fairness of different SNA methods. We further discuss fairness aspects that should be considered while proposing network structure-based solutions for different SNA problems, such as link prediction, influence maximization, centrality ranking, and community detection. This paper clearly highlights that very few works have considered fairness and bias while proposing solutions; even these works are mainly focused on some research topics, such as link prediction, influence maximization, and PageRank. However, fairness has not yet been addressed for other research topics, such as influence blocking and community detection. We review state-of-the-art for different research topics in SNA, including the considered fairness constraints, their limitations, and our vision. This paper also covers evaluation metrics, available datasets, and synthetic network generating models used in such studies. Finally, we highlight various open research directions that require researchers' attention to bridge the gap between fairness and SNA.
翻訳日:2023-02-19 10:57:04 公開日:2022-09-04
# スケーラブルな半量子鍵分布

Scalable Mediated Semi-quantum Key Distribution ( http://arxiv.org/abs/2205.06528v3 )

ライセンス: Link先を確認
Chong-Qiang Ye, Jian Li, Xiu-Bo Chen, Yan-Yan Hou(参考訳) 半量子鍵分布(M-SQKD)により、2つの制限された「半量子」または「古典的」ユーザーが、TPが完全に量子パワーを持ち、信頼できない可能性がある第三者(TP)の助けを借りて秘密鍵を確立することができる。 最近、複数のプロトコルが二者シナリオで研究されているが、M-SQKDを多者シナリオで検討する者はいない。 本稿では,ベル状態に基づく円形M-SQKDプロトコルを設計し,複数の「古典的」ユーザの鍵分布を実現するためのアプローチを提案する。 そして、このプロトコルが漸近的シナリオにおける無条件セキュリティであることを証明した。 プロトコルのキーレートと耐雑音性は、チャネルで観測されるパラメータを利用して導き出すことができる。 この結果から,本プロトコルは完全量子的なセキュリティを持つ可能性が示唆された。 また、提案プロトコルを、ノイズ耐性、量子ビット効率、通信コスト、スケーラビリティの観点から類似したプロトコルと比較する。 最後に,本論文のセキュリティ証明手法は,他の円形半量子暗号プロトコルのセキュリティ研究に寄与する可能性がある。

Mediated semi-quantum key distribution (M-SQKD) permits two limited "semi-quantum" or "classical" users to establish a secret key with the help of a third party (TP), in which TP has fully quantum power and may be untrusted. Several protocols have been studied recently for two-party scenarios, but no one has considered M-SQKD for multi-party scenarios. In this paper, we design a circular M-SQKD protocol based on Bell states, which offers an approach to realizing multiple "classical" users' key distribution. Then, we prove the protocol is unconditional security in the asymptotic scenario. The protocol's key rate and noise tolerance can be derived by utilizing the parameters observed in the channel. The results show that our protocol may hold similar security to a fully quantum one. We also compare the proposed protocol with similar protocols in terms of noise tolerance, qubit efficiency, communication cost, and scalability. Finally, the security proof method of this paper may contribute to studying the security of other circular semi-quantum cryptography protocols.
翻訳日:2023-02-13 07:00:17 公開日:2022-09-04
# DNFとCNFの近似値

The Approximate Degree of DNF and CNF Formulas ( http://arxiv.org/abs/2209.01584v1 )

ライセンス: Link先を確認
Alexander A. Sherstov(参考訳) ブール関数 $f\colon\{0,1\}^n\to\{0,1\}$ の近似次数は、実多項式 $p$ の最小次数であり、f$ に近似する: $|f(x)-p(x)|\leq1/3$ すべての$x\in\{0,1\}^n に対して。 任意の $\delta>0 に対して、$$ は概算次数 $\Omega(n^{1-\delta}) の多項式サイズの CNF と DNF の公式を構築し、$ は本質的に$n の自明な上限に一致する。 これは以前の下界の多項式的に改善され、過去10年間に広範な研究がなされた質問である定数深度回路の近似次数 ("\text{AC}^0$") を完全に解決する。 以前は、$\Omega(n^{1-\delta})$ lower bound は $\text{AC}^0$ の深さの回路でしか知られておらず、1/\delta$ (Bun and Thaler, FOCS 2017) で成長する。 さらに,我々のCNF式とDNF式は,その幅が一定である場合に最も単純である。 この結果は一方的な近似においても成り立ち、次の結果をもたらす。 i) 基本的には、有界エラー量子モデルにおける$\text{AC}^0$回路、$k$-party number-on-the-foreheadランダム化モデルおよび$k$-party number-on-the-forehead非決定論的モデルにおける通信複雑性を解決している: すべての$\delta>0$に対して、これらのモデルは$\Omega(n^{1-\delta})$, $\Omega(n/4^k^2)^{1-\delta}$, $\Omega(n/4^k^2)^{1-\delta}$, $\Omega(n/4^k^2)^{1-\delta}$, (ii)特に、マルチパーティ通信クラス $\text{conp}_k$ は、特に単純な関数である多項式サイズの定数幅 cnf によって、$\text{np}_k$ と $\text{bpp}_k$ とを本質的に最適に分離できることを示す。 (iii) 関数の一辺近似次数に対して$O(1)$対$\Omega(n^{1-\delta})$、関数の一辺近似次数に対して$O(1)$対$\Omega(n^{1-\delta})$、関数の一辺近似次数に対して$O(1)$対$Omega(n^{1-\delta})$という本質的に厳密な分離を与える。

The approximate degree of a Boolean function $f\colon\{0,1\}^n\to\{0,1\}$ is the minimum degree of a real polynomial $p$ that approximates $f$ pointwise: $|f(x)-p(x)|\leq1/3$ for all $x\in\{0,1\}^n.$ For every $\delta>0,$ we construct CNF and DNF formulas of polynomial size with approximate degree $\Omega(n^{1-\delta}),$ essentially matching the trivial upper bound of $n.$ This improves polynomially on previous lower bounds and fully resolves the approximate degree of constant-depth circuits ($\text{AC}^0$), a question that has seen extensive research over the past 10 years. Previously, an $\Omega(n^{1-\delta})$ lower bound was known only for $\text{AC}^0$ circuits of depth that grows with $1/\delta$ (Bun and Thaler, FOCS 2017). Moreover, our CNF and DNF formulas are the simplest possible in that they have constant width. Our result holds even for one-sided approximation, and has the following further consequences. (i) We essentially settle the communication complexity of $\text{AC}^0$ circuits in the bounded-error quantum model, $k$-party number-on-the-forehead randomized model, and $k$-party number-on-the-forehead nondeterministic model: we prove that for every $\delta>0$, these models require $\Omega(n^{1-\delta})$, $\Omega(n/4^kk^2)^{1-\delta}$, and $\Omega(n/4^kk^2)^{1-\delta}$, respectively, bits of communication even for polynomial-size constant-width CNF formulas. (ii) In particular, we show that the multiparty communication class $\text{coNP}_k$ can be separated essentially optimally from $\text{NP}_k$ and $\text{BPP}_k$ by a particularly simple function, a polynomial-size constant-width CNF. (iii) We give an essentially tight separation, of $O(1)$ versus $\Omega(n^{1-\delta})$, for the one-sided versus two-sided approximate degree of a function; and $O(1)$ versus $\Omega(n^{1-\delta})$ for the one-sided approximate degree of a function $f$ versus its negation $\neg f$.
翻訳日:2023-01-27 23:24:36 公開日:2022-09-04
# フォトニック一方向量子計算のためのコンパイルフレームワーク

A Compilation Framework for Photonic One-Way Quantum Computation ( http://arxiv.org/abs/2209.01545v1 )

ライセンス: Link先を確認
Hezi Zhang, Anbang Wu, Yuke Wang, Gushu Li, Hassan Shapourian, Alireza Shabani and Yufei Ding(参考訳) 固体量子量子ビット(例えば超伝導トランスモン)と比較すると、フライングフォトニック量子ビットは長期の大規模量子コンピューティングにいくつかの利点がある。 まず、フォトニック量子ビットで作られた量子omputerは、基本的に室温で動作する。 また、実用的な時間スケールで数百万キュービットまでスケールアップする可能性を持つ、最高のテクニックの1つです。 さらに、既存の光ファイバーベースの通信システムと容易に統合でき、個々の量子コンピュータの大規模分散量子コンピューティングシステムへの接続が容易になる。 本稿では,一方向量子計算を現実のフォトニック量子デバイスに適応する,最初のエンドツーエンドコンパイルフレームワークを提案する。 ソリッドステート量子技術をターゲットにした以前のコンパイルとは異なり、我々のコンパイルフレームワークは、プログラミングとハードウェアの両方のレベルでフォトニクス量子コンピューティングの新しい特徴に対処する必要がある。 例えば、全ての計算は1量子ビットと2量子ビットのゲートの代わりに測定の形でネイティブに行われ、測定後の量子ビットは即座に破壊される。 この方向の最初の作業として、量子プログラムをフォトニックデバイスにマッピングする巨大な最適化空間を公開し、新しいコンパイラ最適化設計で計算資源を桁違いに節約することができる。

Compared to solid-state quantum qubits (e.g., superconducting transmons), flying photonic qubits have several advantages for long-term, large-scale quantum computing. First, quantum omputers made from photonic qubits can, in principle, operate at room temperature. They are also one of the best techniques that have the potential to scale up to millions of qubits over a practical timescale. In addition, they can be easily integrated into existing fiber-optic-based telecommunications systems, facilitating the connection of individual quantum computers toward large-scale distributed quantum computing systems. In this paper, we propose the first end-to-end compilation framework to accommodate one-way quantum computation toward realistic photonic quantum devices. Unlike previous compilation efforts targeting solid-state-qubit quantum technologies, our compilation framework need to deal with a new set of unique features of photonics quantum computing at both programming and hardware levels. For example, all computations are natively conducted in the form of measurements instead of 1-qubit and 2-qubit gates and qubits will be destroyed instantly after the measurements. Being the first work in this direction, we unveil the huge optimization space for mapping a quantum program to photonic devices where computation resources can be saved by orders of magnitude with novel compiler optimization designs.
翻訳日:2023-01-27 23:23:25 公開日:2022-09-04
# Millikelvin温度でのTEM:超伝導量子ビットの観察と利用

TEM at Millikelvin Temperatures: Observing and Utilizing Superconducting Qubits ( http://arxiv.org/abs/2209.01537v1 )

ライセンス: Link先を確認
Hiroshi Okamoto, Reza Firouzmandi, Ryosuke Miyamura, Vahid Sazgari, Shun Okumura, Shota Uchita, and Ismet I. Kaya(参考訳) 本稿では,ミリケルビン温度透過電子顕微鏡(tem)の開発例を示す。 このような発展の既知の理由をレビューし、超伝導量子回路の最近の進歩によって開けた新たな可能性を提示し、最後に、現在進行中の実験成果について報告する。 具体的には,超伝導量子ビット周辺の量子力学的に重畳された電磁場を観測する可能性について初めて検討する。 この後、共振器内の異常な量子状態におけるマイクロ波光子のtem観察に関する新しいアイデアが導かれる。 次に、標準量子限界を超える低線量電子顕微鏡を含むこれらの現象の潜在的な応用について検討する。 最後に、期待されているエンジニアリング課題と、著者が現在進行中のミリケルビンTEMの構築実験について述べる。 また,本論文に詳しくない興味のある読者のために,Appendixの超伝導回路について簡単な紹介を行う。

We present a case for developing a millikelvin-temperature transmission electron microscope (TEM). We start by reviewing known reasons for such development, then present new possibilities that have been opened up by recent progress in superconducting quantum circuitry, and finally report on our ongoing experimental effort. Specifically, we first review possibilities to observe a quantum mechanically superposed electromagnetic field around a superconducting qubit. This is followed by a new idea on TEM observation of microwave photons in an unusual quantum state in a resonator. We then proceed to review potential applications of these phenomena, which include low dose electron microscopy beyond the standard quantum limit. Finally, anticipated engineering challenges, as well as the authors' current ongoing experimental effort towards building a millikelvin TEM are described. In addition, we provide a brief introduction to superconducting circuitry in the Appendix for the interested reader who is not familiar with the subject.
翻訳日:2023-01-27 23:23:05 公開日:2022-09-04
# 光格子におけるスケーラブルな絡み合いの作成と検証法

A scheme to create and verify scalable entanglement in optical lattice ( http://arxiv.org/abs/2209.01531v1 )

ライセンス: Link先を確認
You Zhou, Bo Xiao, Meng-Da Li, Qi Zhao, Zhen-Sheng Yuan, Xiongfeng Ma, Jian-Wei Pan(参考訳) スケーラブルな量子情報処理を実現するため、様々な物理システムにおける大規模絡み合い状態の生成に多大な努力が払われている。 光格子中の超低温原子は、その実現可能な初期化と並列操作により、有望なプラットフォームの一つと見なされている。 本研究では,光格子における大域的絡み合いを生成・特徴付ける効率的なスキームを提案する。 2層量子回路のみを用いて、2重井戸における超交換相互作用に基づく2量子エンタングルゲートを利用する。 これらの操作の並列性により、生成は高速でスケーラブルになる。 この非安定化状態の絡み合いを検証するため,我々はフルトモグラフィに比べて資源消費の少ない3つの補完的検出プロトコルを主に設計した。 特に、絡み合う性質を特定するために2つの均質な局所的な測定設定が必要なだけである。 我々の絡み合い生成および検証プロトコルは、光学格子におけるさらなる量子情報処理の基礎となる。

To achieve scalable quantum information processing, great efforts have been devoted to the creation of large-scale entangled states in various physical systems. Ultracold atom in optical lattice is considered as one of the promising platforms due to its feasible initialization and parallel manipulation. In this work, we propose an efficient scheme to generate and characterize global entanglement in the optical lattice. With only two-layer quantum circuits, the generation utilizes two-qubit entangling gates based on the superexchange interaction in double wells. The parallelism of these operations enables the generation to be fast and scalable. To verify the entanglement of this non-stabilizer state, we mainly design three complementary detection protocols which are less resource-consuming compared to the full tomography. In particular, one just needs two homogenous local measurement settings to identify the entanglement property. Our entanglement generation and verification protocols provide the foundation for the further quantum information processing in optical lattice.
翻訳日:2023-01-27 23:22:53 公開日:2022-09-04
# 双方向生成特許言語モデルの有効性

The Effectiveness of Bidirectional Generative Patent Language Models ( http://arxiv.org/abs/2211.09690v1 )

ライセンス: Link先を確認
Jieh-Sheng Lee(参考訳) 生成型特許言語モデルは、人間がより効果的に特許テキストを書くのを助けることができる。 問題は、人間中心の観点から有効性を測定する方法と、有効性を改善する方法である。 本書では,10%以上の有効性を高めるために,自己完備関数の簡易設計を提案する。 新しい設計では、オートコンプリートの有効性が60%以上に達するため、キーストロークの60%以上がオートコンプリートによって節約できる。 特許文書の執筆は必ずしも開始から終了まで開始しないので、生成モデルがどこからでもユーザを支援することができるかどうかが問題となる。 この疑問に答えるために、本書の生成モデルは、両方の方向のトレーニングデータで事前訓練される。 生成モデルは双方向になる。 テキスト生成は双方向であるため、自動完全効率の計算は双方向であり、テキスト中のどこからでも開始できる。 徹底的な実験の後、重要な発見は、同じテキストに対するモデルのオートコンプリートの有効性が、計算がどこから始まっても、類似していることである。 このような双方向モデルは,ユーザがどこに書き始めたとしても,同じレベルでユーザを支援することができる。

Generative patent language models can assist humans to write patent text more effectively. The question is how to measure effectiveness from a human-centric perspective and how to improve effectiveness. In this manuscript, a simplified design of the autocomplete function is proposed to increase effectiveness by more than 10%. With the new design, the effectiveness of autocomplete can reach more than 60%, which means that more than 60% of keystrokes can be saved by autocomplete. Since writing patent text does not necessarily start from the beginning to the end, a question is whether the generative model can assist a user no matter where to start writing. To answer the question, the generative models in this manuscript are pre-trained with training data in both directions. The generative models become bidirectional. Since text generation is bidirectional, the calculation of autocomplete effectiveness can be bidirectional and starts from anywhere in the text. After thorough experiments, a key finding is that the autocomplete effectiveness of a model for the same text remains similar no matter where the calculation starts. The finding indicates that such bidirectional models can assist a user at a similar level, no matter where the user starts to write.
翻訳日:2023-01-27 23:19:10 公開日:2022-09-04
# 任意状態のためのハイゼンベルク画像における量子情報の局所性について

On Locality of Quantum Information in the Heisenberg Picture for Arbitrary States ( http://arxiv.org/abs/2209.02695v1 )

ライセンス: Link先を確認
Otto C.W. Kong (Nat'l Central U, Taiwan, KIAS, Korea)(参考訳) 量子絡み合い(quantum entanglement)は、量子物理学を適切に理解する上で重要な問題であり、量子情報科学における大きな潜在的な応用のリソースでもある。 一般に量子非局所性(quantum nonlocality)として強調されている問題の問題は、主に量子ビット系の量子情報の流れのセットにおいて、量子情報のハイゼンベルク像の概念を通じて、刺激的な検査を受けている。 deutsch と hayden は、この概念が量子情報の局所的な記述を与えることを示した。 より基本的な観点からは、可観測性のdeutsch-hayden行列値(deutsch-hayden matrix value of the observables in a generic set)と呼ばれるものを少し修正したバージョンを導入することで分析する。 最近紹介した可観測性の非可換値の並列概念とともに、一般複合システムの任意の任意の状態における局所可観測性によって運ばれる量子情報のような値の局所性を示す。

Quantum entanglement is a key issue to a proper understanding of quantum physics and beyond, as well as resources of great potential applications in quantum information science. The issue of what has been commonly emphasized as quantum nonlocality has received an inspiring examination through the notion of Heisenberg picture of quantum information, mostly in a setting of quantum information flows in a system of qubits. Deutsch and Hayden established that the notion gives a local description of quantum information. We analyze that from a more fundamental perspective, with the introduction of a slightly modified version of what we call the Deutsch-Hayden matrix values of observables in a generic setting. Together with our recently introduced parallel notion of the noncommutative values of observables, we illustrate the locality of such values as quantum information carried by local observables in any given arbitrary state of a general composite system.
翻訳日:2023-01-27 23:18:53 公開日:2022-09-04
# 量子コンピュータにおけるエラー伝播の解析

Analysis of Error Propagation in Quantum Computers ( http://arxiv.org/abs/2209.01699v1 )

ライセンス: Link先を確認
Ziang Yu and Yingzhou Li(参考訳) ほとんどの量子ゲート誤差は確率誤差モデルとクラウス誤差モデルという2つの誤差モデルによって特徴づけられる。 これらの2つのモデルまたはその両方を混合した量子回路において、フロベニウスノルムによる伝播誤差は2(1 - (1r)^m)$で上限され、ここで$0 \le r < 1$ は量子ビット数と回路深さとは一定独立であり、$m$ は回路内のゲート数である。 合成量子回路と量子フーリエ変換回路の数値実験を,IBM Vigo量子コンピュータのシミュレータ上で行い,解析結果の検証を行った。

Most quantum gate errors can be characterized by two error models, namely the probabilistic error model and the Kraus error model. We proved that for a quantum circuit with either of those two models or a mix of both, the propagation error in terms of Frobenius norm is upper bounded by $2(1 - (1 - r)^m)$, where $0 \le r < 1$ is a constant independent of the qubit number and circuit depth, and $m$ is the number of gates in the circuit. Numerical experiments of synthetic quantum circuits and quantum Fourier transform circuits are performed on the simulator of the IBM Vigo quantum computer to verify our analytical results, which show that our upper bound is tight.
翻訳日:2023-01-27 23:18:33 公開日:2022-09-04
# コンジェクチュアCは静止している

Conjecture C Still Stands ( http://arxiv.org/abs/2209.01648v1 )

ライセンス: Link先を確認
Gil Kalai(参考訳) 10年以上前に著者は、$n$-qubit 量子状態 $\rho$ の複雑さに対するパラメータ $K(\rho )$ を記述し、このパラメータが$n$ の超多項式であるとき、状態 $\rho$ は実験的に実現可能である(量子フォールトトレランスなしでは実験的に達成されない)という予想("Conjecture C" と呼ばれる)を提起した。 その後すぐに(arXiv:1204.3404)、Steve Flammia と Aram Harrow は単純な$W$状態は "Conjecture C" に反例であると主張した。 我々は、flammiaとharrowの$w$-statesに関する議論は不完全であると指摘した。 さらに、ノイズの多い中間スケール量子(NISQ)コンピュータにおける過去10年間の実験的進歩から、$W$状態は単純なように、NISQコンピュータでは実験的に達成できず、量子フォールトトレランスなしでは構築できないことを示唆している。

More than ten years ago the author described a parameter $K(\rho )$ for the complexity of $n$-qubit quantum state $\rho$ and raised the conjecture (referred to as "Conjecture C") that when this parameter is superpolynomial in $n$, the state $\rho$ is not experimentally feasible (and will not be experimentally achieved without quantum fault-tolerance). Shortly afterward [6] (arXiv:1204.3404), Steve Flammia and Aram Harrow claimed that the simple easy-to-construct $W$ states are counterexamples to "Conjecture C." We point out that Flammia and Harrow's argument regarding $W$-states is incomplete. Moreover, the emergent picture from experimental progress of the past decade on noisy intermediate scale quantum (NISQ) computers suggests that $W$-states, as simple as they appear, cannot be achieved experimentally by NISQ computers, and can not be constructed without quantum fault-tolerance.
翻訳日:2023-01-27 23:17:55 公開日:2022-09-04
# 超対称性と対流拡散反応方程式

Supersymmetry and Convection-Diffusion-Reaction equations ( http://arxiv.org/abs/2209.01647v1 )

ライセンス: Link先を確認
Choon-Lin Ho(参考訳) 本研究では,別のcdr方程式の解からdarboux変換を通じて対流拡散反応方程式の解を生成することに関心を持つ。 この方法は、反応係数のある種の場合によって解明される。 また、類似性解を通じて連結された対流拡散反応方程式の超対称対についても論じた。

In this work we are concerned with generating solutions of a class of Convection-Diffusion-Reaction equation from the solutions of another CDR equation through the Darboux transformations. The method is elucidated by cases with certain types of the reaction coefficients. We have also discussed briefly supersymmetric pairs of Convection-Diffusion-Reaction equations connected through similarity solutions.
翻訳日:2023-01-27 23:17:30 公開日:2022-09-04
# 粒子の位置と運動量の連続的同時測定

Continuous simultaneous measurement of position and momentum of a particle ( http://arxiv.org/abs/2209.01612v1 )

ライセンス: Link先を確認
Filip Gampel, Mariusz Gajda(参考訳) 我々は、その位置と運動量を同時に測定する検出器によって連続的に監視される量子粒子のモデルを定式化する。 検出時に粒子がコヒーレント状態の離散部分集合として選択されたメーター状態の1つに現れることを仮定して、波動関数の崩壊の仮定を実装した。 したがって、メーターによって観察されるダイナミクスは、コヒーレント状態間のランダムなジャンプシーケンスである。 モンテカルロ波動関数を用いてそのような軌道を生成する。 偏分散検出器では, 確率過程の更新理論による手法を用いて, 半解析結果を得る。 特に自由粒子の動力学の異なるレジームを同定して定量的に論じる:低い尋問頻度のストロボスコピック運動から、監視が頻繁な場合のゼノ効果を想起させる遅延ダイナミクスまで。 半連続的な空間分布では、古典的軌跡の出現を示す。 それらの統計特性を考察し、測定の効果が波動関数の「空間的フィルタリング」に対応する他の検出手法と比較した。

We formulate a model of a quantum particle continuously monitored by detectors measuring simultaneously its position and momentum. We implement the postulate of wavefunction collapse by assuming that upon detection the particle is found in one of the meters' states chosen as a discrete subset of coherent states. The dynamics, as observed by the meters, is thus a random sequence of jumps between coherent states. We generate such trajectories using the Monte Carlo Wavefunction method. For sparsely distributed detectors, we use methods from renewal theory of stochastic processes to obtain some semi-analytic results. In particular, the different regimes of dynamics of the free particle are identified and quantitatively discussed: from stroboscopic motion in the case of low interrogation frequency, to delayed dynamics reminiscent of the Zeno effect if monitoring is frequent. For a semi-continuous spatial distribution of meters the emergence of classical trajectories is shown. Their statistical properties are discussed and compared to other detection schemes in which the effect of measurement corresponds to "spatial filtering" of the wavefunction.
翻訳日:2023-01-27 23:17:27 公開日:2022-09-04
# 単層半導体における電荷キャリア錯体

Charge-carrier complexes in monolayer semiconductors ( http://arxiv.org/abs/2209.01593v1 )

ライセンス: Link先を確認
E. Mostaani, R. J. Hunt, D. M. Thomas, M. Szyniszewski, A. R. P. Montblanch, M. Barbone, M. Atature, N. D. Drummond, A. C. Ferrari(参考訳) 単層(1l)半導体の光ルミネッセンス(pl)スペクトルは、異なる電荷キャリア錯体のピークを示す。 これらの錯体の結合エネルギーの拡散量子モンテカルロシミュレーションを行い、電場および磁場に対する応答について検討する。 遷移金属ジアルコゲナイド (TMD) 中では最大の自由電荷担持錯体であるため, クイントン (チャージバイエクシトン) に着目した。 1L-TMDにおける電荷キャリア錯体の結合エネルギーと$\textit{ab initio}$相互作用ポテンシャルを用いた結果を比較することにより,電荷間のリトバ-ケルディッシュ相互作用ポテンシャルの精度を検証した。 磁場$<8$tは結合エネルギー(be)を実験と一致して$\sim0.2$ mev,t$^{-1}$に変更し、異なる錯体のbeの変異は非常に似ている。 我々の結果は1L半導体のPLスペクトルにおける電荷錯体の同定に役立つ

The photoluminescence (PL) spectra of monolayer (1L) semiconductors feature peaks ascribed to different charge-carrier complexes. We perform diffusion quantum Monte Carlo simulations of the binding energies of these complexes and examine their response to electric and magnetic fields. We focus on quintons (charged biexcitons), since they are the largest free charge-carrier complexes in transition-metal dichalcogenides (TMDs). We examine the accuracy of the Rytova-Keldysh interaction potential between charges by comparing the binding energies of charge-carrier complexes in 1L-TMDs with results obtained using $\textit{ab initio}$ interaction potentials. Magnetic fields$<8$T change the binding energies (BEs) by$\sim0.2$ meV,T$^{-1}$, in agreement with experiments, with the BE variations of different complexes being very similar. Our results will help identify charge complexes in the PL spectra of 1L-semiconductors
翻訳日:2023-01-27 23:17:01 公開日:2022-09-04
# 自律走行車の安全かつ効率的な行動計画のためのマルチエージェント強化学習手法

A Multi-Agent Reinforcement Learning Approach For Safe and Efficient Behavior Planning Of Connected Autonomous Vehicles ( http://arxiv.org/abs/2003.04371v3 )

ライセンス: Link先を確認
Songyang Han, Shanglin Zhou, Jiangwei Wang, Lynn Pepin, Caiwen Ding, Jie Fu, Fei Miao(参考訳) 近年の無線技術の発展により、コネクテッド・自動運転車(CAV)はV2V通信によって環境に関する情報を収集できるようになっている。 本研究では,CAVのための情報共有型マルチエージェント強化学習(MARL)フレームワークを設計し,交通効率と安全性を向上させるための意思決定を行う際の余分な情報を活用する。 私たちが提案するsafe actor-criticアルゴリズムには,停止q関数とsafeアクションマッピングという2つの新しい手法がある。 停止したQ関数は隣接するCAVの共有情報を利用して,大規模CAVシステムにおいて,Q関数の結合状態と動作空間が我々のアルゴリズムでは成長しない。 truncated-Q と大域 Q-関数の近似誤差の有界性を証明する。 安全なアクションマッピングは、制御バリア機能に基づいたトレーニングと実行の両方の安全保証を提供する。 CARLAシミュレータを用いて,CAVの速度と快適さを異なるCAV比と異なる交通密度で比較することにより,CAVシステムの効率を向上できることを示す。 また,我々のアプローチは安全でないアクションの実行を回避し,常に他の車両から安全な距離を保っていることを示す。 我々は,共用視覚が早期に障害物を観測し,交通渋滞を避けるために行動を起こすのに役立つことを示すために,障害物回避シナリオを構築した。

The recent advancements in wireless technology enable connected autonomous vehicles (CAVs) to gather information about their environment by vehicle-to-vehicle (V2V) communication. In this work, we design an information-sharing-based multi-agent reinforcement learning (MARL) framework for CAVs, to take advantage of the extra information when making decisions to improve traffic efficiency and safety. The safe actor-critic algorithm we propose has two new techniques: the truncated Q-function and safe action mapping. The truncated Q-function utilizes the shared information from neighboring CAVs such that the joint state and action spaces of the Q-function do not grow in our algorithm for a large-scale CAV system. We prove the bound of the approximation error between the truncated-Q and global Q-functions. The safe action mapping provides a provable safety guarantee for both the training and execution based on control barrier functions. Using the CARLA simulator for experiments, we show that our approach can improve the CAV system's efficiency in terms of average velocity and comfort under different CAV ratios and different traffic densities. We also show that our approach avoids the execution of unsafe actions and always maintains a safe distance from other vehicles. We construct an obstacle-at-corner scenario to show that the shared vision can help CAVs to observe obstacles earlier and take action to avoid traffic jams.
翻訳日:2022-12-25 08:25:15 公開日:2022-09-04
# 動的システムのカーネル2サンプルテスト

A Kernel Two-sample Test for Dynamical Systems ( http://arxiv.org/abs/2004.11098v3 )

ライセンス: Link先を確認
Friedrich Solowjow, Dominik Baumann, Christian Fiedler, Andreas Jocham, Thomas Seel, and Sebastian Trimpe(参考訳) データストリームが同じ分布から引き出されるかどうかを評価することは、さまざまな機械学習問題の中心である。 これは、生体医療、経済、工学システムにおいて、そのようなシステムが多くの現実世界のプロセスに不可欠であるため、動的システムによって生成されるデータに特に関係している。 カーネル2つのサンプルテストは独立変数と同一分散確率変数を比較するのに強力であるが、力学系を比較するための確立された方法は存在しない。 主な問題は、本質的に侵害された独立の仮定である。 我々は,3つの課題に対処して,動的システムの2サンプルテストを提案する。 (i)関連する計量で自己相関を捉える混合という新しい概念を導入する。 (二)純粋にデータに依存して混合の速度を推定する効率的な方法を提案し、 (iii)確立されたカーネル2サンプルテストに統合する。 その結果、実際に使うのが簡単で、理論的な保証があるデータ駆動型メソッドが出来上がります。 人間の歩行データからの異常検出の例として,人間の知識や特徴工学を使わずに,テストが容易に適用可能であることを示す。

Evaluating whether data streams are drawn from the same distribution is at the heart of various machine learning problems. This is particularly relevant for data generated by dynamical systems since such systems are essential for many real-world processes in biomedical, economic, or engineering systems. While kernel two-sample tests are powerful for comparing independent and identically distributed random variables, no established method exists for comparing dynamical systems. The main problem is the inherently violated independence assumption. We propose a two-sample test for dynamical systems by addressing three core challenges: we (i) introduce a novel notion of mixing that captures autocorrelations in a relevant metric, (ii) propose an efficient way to estimate the speed of mixing relying purely on data, and (iii) integrate these into established kernel two-sample tests. The result is a data-driven method that is straightforward to use in practice and comes with sound theoretical guarantees. In an example application to anomaly detection from human walking data, we show that the test is readily applicable without any human expert knowledge and feature engineering.
翻訳日:2022-12-10 09:01:03 公開日:2022-09-04
# オートPETチャレンジ2022:全体FDG-PET/CTにおけるステップバイステップ病変セグメンテーション

AutoPET Challenge 2022: Step-by-Step Lesion Segmentation in Whole-body FDG-PET/CT ( http://arxiv.org/abs/2209.09199v1 )

ライセンス: Link先を確認
Zhantao Liu, Shaonan Zhong, and Junyang Mo(参考訳) 腫瘍病変の自動分離はPET/CTの定量的解析において重要な初期処理ステップである。 しかし, 形状, サイズ, 吸収強度の異なる多くの腫瘍病変は, 全身の解剖学的文脈で分布し, 健康な臓器にも顕著な取り込みがある。 したがって,全身PET/CT腫瘍病変セグメント化モデルの構築は難しい課題である。 本稿では,この問題に対処するために,ステップバイステップの3次元セグメンテーション手法を提案する。 diceスコアは 0.92、false positiveボリュームは 0.89、false negativeボリュームは 0.53 の予備テストセットで達成しました。

Automatic segmentation of tumor lesions is a critical initial processing step for quantitative PET/CT analysis. However, numerous tumor lesions with different shapes, sizes, and uptake intensity may be distributed in different anatomical contexts throughout the body, and there is also significant uptake in healthy organs. Therefore, building a systemic PET/CT tumor lesion segmentation model is a challenging task. In this paper, we propose a novel step-by-step 3D segmentation method to address this problem. We achieved Dice score of 0.92, false positive volume of 0.89 and false negative volume of 0.53 on preliminary test set.The code of our work is available on the following link: https://github.com/rightl/autopet.
翻訳日:2022-09-25 17:50:55 公開日:2022-09-04
# モデル非依存法による詳細な塩分マップの生成

Generating detailed saliency maps using model-agnostic methods ( http://arxiv.org/abs/2209.09202v1 )

ライセンス: Link先を確認
Maciej Sakowicz(参考訳) 説明可能な人工知能の新興分野は、複雑な機械学習モデルの意思決定プロセスを説明する方法の研究に焦点を当てている。 コンピュータビジョンにおける説明可能性の分野では、入力w.r.t.の個々のピクセルの重要性を可視化するサリエンシマップとして説明が提供される。 本研究は, RISEと呼ばれる摂動型モデル非依存的説明可能性法に着目し, グリッドベースアプローチの問題点を詳しく検討し, 正方形オクルージョンをボローニメッシュのセルに基づく凸多角形オクルージョンに置き換えることと, オクルージョンマスクジェネレータに情報性を保証することの2つの修正を提案する。 VRISE (Voronoi-RISE) と呼ばれるこれらの修正は、サンプリング密度が非常に低いか非常に高い場合において、大きなオクルージョンを用いて生成されたマップの精度を向上し、サリエンシマップの収束を加速することを目的としている。 ILSVRC2012の検証分割において, VRISE と RISE が生成したサリエンシマップの精度を定量的に比較し,サリエンシ誘導型コンテンツ挿入・削除基準とバウンディングボックスに基づくローカライゼーション基準を用いて比較した。 さらに,RISE と VRISE のサリエンシマップへの影響をよりよく理解するために,構成可能なオクルージョンパターンパラメータの空間について検討する。 また,実験の過程で観察された2つの効果を,「特徴スライシング」と「サリエンシー・ミスアトリビューション」のランダムサンプリングアプローチから説明し,実証した。 その結果,凸多角形オクルージョンは粗いオクルージョンメッシュや多対象画像に対してより正確なマップが得られるが,他の場合では改善は保証されない。 本報知性保証は、計算オーバーヘッドを負うことなく収束率を増加させることが示される。

The emerging field of Explainable Artificial Intelligence focuses on researching methods of explaining the decision making processes of complex machine learning models. In the field of explainability for Computer Vision, explanations are provided as saliency maps, which visualize the importance of individual pixels of the input w.r.t. the model's prediction. In this work we focus on a perturbation-based, model-agnostic explainability method called RISE, elaborate on observed shortcomings of its grid-based approach and propose two modifications: replacement of square occlusions with convex polygonal occlusions based on cells of a Voronoi mesh and addition of an informativeness guarantee to the occlusion mask generator. These modifications, collectively called VRISE (Voronoi-RISE), are meant to, respectively, improve the accuracy of maps generated using large occlusions and accelerate convergence of saliency maps in cases where sampling density is either very low or very high. We perform a quantitative comparison of accuracy of saliency maps produced by VRISE and RISE on the validation split of ILSVRC2012, using a saliency-guided content insertion/deletion metric and a localization metric based on bounding boxes. Additionally, we explore the space of configurable occlusion pattern parameters to better understand their influence on saliency maps produced by RISE and VRISE. We also describe and demonstrate two effects observed over the course of experimentation, arising from the random sampling approach of RISE: "feature slicing" and "saliency misattribution". Our results show that convex polygonal occlusions yield more accurate maps for coarse occlusion meshes and multi-object images, but improvement is not guaranteed in other cases. The informativeness guarantee is shown to increase the convergence rate without incurring a significant computational overhead.
翻訳日:2022-09-25 17:40:20 公開日:2022-09-04
# ディープクリックスルー率予測モデルの過剰フィット現象の解明に向けて

Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models ( http://arxiv.org/abs/2209.06053v1 )

ライセンス: Link先を確認
Zhao-Yu Zhang, Xiang-Rong Sheng, Yujing Zhang, Biye Jiang, Shuguang Han, Hongbo Deng, Bo Zheng(参考訳) 深層学習技術は産業レコメンデーションシステムに広く応用されている。 しかし、レコメンデーションシステムにおけるモデルの過剰フィット問題に対する注意は少なく、それとは対照的に、ディープニューラルネットワークの重要な問題として認識されている。 CTR(Click-Through Rate)予測の文脈では、モデル性能が第2のエポックの開始時に劇的な劣化を示すという、興味深い1つのエポックなオーバーフィッティングの問題が観察される。 このような現象は、CTRモデルの実際の応用において広く見られた。 これにより、最高のパフォーマンスは通常、1つのエポックでトレーニングすることで達成される。 この現象の背後にある要因を理解するため,Alibabaのディスプレイ広告システムから収集した生産データについて広範な実験を行った。 その結果, モデル構造, 高速収束率の最適化アルゴリズム, 特徴空間は, ワンエポック現象と密接に関連していることがわかった。 また,このような現象を説明するための仮説を提案し,概念実証実験を行う。 この成果が,パフォーマンス向上のためのエポックのトレーニングに関する今後の研究に光を当ててくれることを願っています。

Deep learning techniques have been applied widely in industrial recommendation systems. However, far less attention has been paid to the overfitting problem of models in recommendation systems, which, on the contrary, is recognized as a critical issue for deep neural networks. In the context of Click-Through Rate (CTR) prediction, we observe an interesting one-epoch overfitting problem: the model performance exhibits a dramatic degradation at the beginning of the second epoch. Such a phenomenon has been witnessed widely in real-world applications of CTR models. Thereby, the best performance is usually achieved by training with only one epoch. To understand the underlying factors behind the one-epoch phenomenon, we conduct extensive experiments on the production data set collected from the display advertising system of Alibaba. The results show that the model structure, the optimization algorithm with a fast convergence rate, and the feature sparsity are closely related to the one-epoch phenomenon. We also provide a likely hypothesis for explaining such a phenomenon and conduct a set of proof-of-concept experiments. We hope this work can shed light on future research on training more epochs for better performance.
翻訳日:2022-09-18 16:54:12 公開日:2022-09-04
# 統計的モデル性能評価のためのランダムスプリット

Beyond Random Split for Assessing Statistical Model Performance ( http://arxiv.org/abs/2209.03346v1 )

ライセンス: Link先を確認
Carlos Catania and Jorge Guerra and Juan Manuel Romero and Gabriel Caffaratti and Martin Marchetta(参考訳) ランダムに実行されたデータセットのトレイン/テスト分割は一般的なプラクティスだが、いくつかのシナリオでパフォーマンスの一般化を推定する最善のアプローチであるとは限らない。 実際、通常の機械学習手法は、データセットが代表的でない場合や、稀でわかりやすい例が検出問題の根本的な側面である場合、一般化誤差を過大評価することがある。 本研究では,予測者のトレーニングとテストセットの分割可能性に基づいて,戦略を分析する。 このような戦略は、人口の代表性を最小にし、珍しい例や珍しい例を含めることを保証することを目的としており、データセットが代表的でない場合の一般化誤差をより正確に見積もる。 決定木に基づく2つのベースライン分類器を用いて検討した4つの分割戦略を検証した。 両分類器はネットワークセキュリティ検出問題の低表現データセットctu19に適用された。 予備的な結果は,モンテカルロ分割戦略に3つの代替戦略を適用することの重要性を示した。

Even though a train/test split of the dataset randomly performed is a common practice, could not always be the best approach for estimating performance generalization under some scenarios. The fact is that the usual machine learning methodology can sometimes overestimate the generalization error when a dataset is not representative or when rare and elusive examples are a fundamental aspect of the detection problem. In the present work, we analyze strategies based on the predictors' variability to split in training and testing sets. Such strategies aim at guaranteeing the inclusion of rare or unusual examples with a minimal loss of the population's representativeness and provide a more accurate estimation about the generalization error when the dataset is not representative. Two baseline classifiers based on decision trees were used for testing the four splitting strategies considered. Both classifiers were applied on CTU19 a low-representative dataset for a network security detection problem. Preliminary results showed the importance of applying the three alternative strategies to the Monte Carlo splitting strategy in order to get a more accurate error estimation on different but feasible scenarios.
翻訳日:2022-09-09 13:30:05 公開日:2022-09-04
# 教師なし映像オブジェクトセグメンテーションにおける動き依存性低減のための運動処理

Treating Motion as Option to Reduce Motion Dependency in Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2209.03138v1 )

ライセンス: Link先を確認
Suhwan Cho, Minhyeok Lee, Seunghoon Lee, Chaewon Park, Donghyeong Kim, Sangyoun Lee(参考訳) 教師なしビデオオブジェクトセグメンテーション(VOS)は、画素レベルでの動画シーケンスにおいて最も顕著なオブジェクトを検出することを目的としている。 教師なしのVOSでは、ほとんどの最先端の手法は、光学フローマップから得られる動きの手がかりと外観の手がかりを利用して、通常、背景に比べて顕著な動きを持つという特性を利用する。 しかし、それらは動きの手がかりに過度に依存しており、信頼性に欠ける場合もあるため、安定した予測はできない。 既存の2ストリームVOS方式の動作依存性を低減するため,動作キューを任意に利用する新しい動作・アズ・オプション・ネットワークを提案する。 また,動きが必ずしも必要ではないネットワークの特性を十分に活用するために,協調的なネットワーク学習戦略を導入する。 すべての公開ベンチマークデータセットにおいて,提案するネットワークは,リアルタイムな推論速度で最先端のパフォーマンスを実現する。

Unsupervised video object segmentation (VOS) aims to detect the most salient object in a video sequence at the pixel level. In unsupervised VOS, most state-of-the-art methods leverage motion cues obtained from optical flow maps in addition to appearance cues to exploit the property that salient objects usually have distinctive movements compared to the background. However, as they are overly dependent on motion cues, which may be unreliable in some cases, they cannot achieve stable prediction. To reduce this motion dependency of existing two-stream VOS methods, we propose a novel motion-as-option network that optionally utilizes motion cues. Additionally, to fully exploit the property of the proposed network that motion is not always required, we introduce a collaborative network learning strategy. On all the public benchmark datasets, our proposed network affords state-of-the-art performance with real-time inference speed.
翻訳日:2022-09-08 12:43:32 公開日:2022-09-04
# ビデオオブジェクトセグメンテーションにおける画素レベル等化マッチング

Pixel-Level Equalized Matching for Video Object Segmentation ( http://arxiv.org/abs/2209.03139v1 )

ライセンス: Link先を確認
Suhwan Cho, Woo Jin Kim, MyeongAh Cho, Seunghoon Lee, Minhyeok Lee, Chaewon Park, Sangyoun Lee(参考訳) 参照フレームの情報をクエリフレームに転送する特徴類似性マッチングは、半教師付きビデオオブジェクトセグメンテーションにおいて重要なコンポーネントである。 主観的マッチングが採用されれば、バックグラウンドインタラプタが容易に発生し、性能を低下させることができる。 単射マッチング機構は、クエリフレームに転送される情報量を制限することでこれを防ぐが、2つの制限がある。 1) 単射マッチングは,テスト時に単射マッチングに変換されるため,完全には活用できない。 2)最適ハイパーパラメータの探索には,テストタイムの手動チューニングが必要である。 これらの制約を克服し、信頼性の高い情報転送を実現するため、等化マッチング機構を導入する。 基準フレーム情報が過度に参照されることを防止するため、クエリと共にソフトマックス操作を単純に施すことで、クエリフレームへの潜在的貢献を均等化する。 公開ベンチマークデータセットでは,提案手法は最先端手法に匹敵する性能を実現する。

Feature similarity matching, which transfers the information of the reference frame to the query frame, is a key component in semi-supervised video object segmentation. If surjective matching is adopted, background distractors can easily occur and degrade the performance. Bijective matching mechanisms try to prevent this by restricting the amount of information being transferred to the query frame, but have two limitations: 1) surjective matching cannot be fully leveraged as it is transformed to bijective matching at test time; and 2) test-time manual tuning is required for searching the optimal hyper-parameters. To overcome these limitations while ensuring reliable information transfer, we introduce an equalized matching mechanism. To prevent the reference frame information from being overly referenced, the potential contribution to the query frame is equalized by simply applying a softmax operation along with the query. On public benchmark datasets, our proposed approach achieves a comparable performance to state-of-the-art methods.
翻訳日:2022-09-08 12:43:16 公開日:2022-09-04
# 限定的なスコープでトップダウンのディープコード生成へ

Towards Top-Down Deep Code Generation in Limited Scopes ( http://arxiv.org/abs/2209.01566v1 )

ライセンス: Link先を確認
Jian Gu, Harald C. Gall(参考訳) 深層コード生成はソフトウエアエンジニアリングのためのディープラーニング(DL4SE)のトピックであり、意図された機能のためのコードを生成するためにニューラルモデルを採用する。 エンドツーエンドのニューラルメソッドにはドメイン知識とソフトウェア階層の認識が欠けているため、結果は手作業による修正を必要とすることが多い。 コード生成の潜在的な改善を体系的に検討するために、意図から実現までトップダウン開発全体に参加させます。 このプロセスでは、大量のサンプル、特徴、知識の恩恵を受けます。 基礎として,コード情報の分類を利用して,コードデータに基づく分類,すなわちコード分類を構築することを提案する。 さらに、テキストデータとコードデータを関連付ける3層セマンティックピラミッド(SP)を導入する。 異なる抽象化レベルの情報を識別し、開発におけるドメイン知識を導入し、ソフトウェアの階層を明らかにします。 さらに,高モジュール性と低複雑性のソフトウェアに焦点を当てた,セマンティックピラミッドフレームワーク(SPF)をアプローチとして提案する。 SPFはコード生成プロセスを段階に分割し、潜在的な相互作用のためのスポットを予約する。 最終的に、SPFの応用範囲を考え出した。

Deep code generation is a topic of deep learning for software engineering (DL4SE), which adopts neural models to generate code for the intended functions. Since end-to-end neural methods lack the awareness of domain knowledge and software hierarchy, the results often require manual correction. To systematically explore the potential improvements of code generation, we let it participate in the whole top-down development from intentions to realizations, which is possible in limited scopes. In the process, it benefits from massive samples, features, and knowledge. As the foundation, we suggest building a taxonomy on code data, namely code taxonomy, leveraging the categorization of code information. Moreover, we introduce a three-layer semantic pyramid (SP) to associate text data and code data. It identifies the information of different abstraction levels, and thus introduces the domain knowledge on development and reveals the hierarchy of software. Furthermore, we propose a semantic pyramid framework (SPF) as the approach, focusing on softwares of high modularity and low complexity. SPF divides the code generation process into stages and reserves spots for potential interactions. Eventually, we conceived application scopes for SPF.
翻訳日:2022-09-07 15:37:34 公開日:2022-09-04
# 個々の確率予測の調整

Reconciling Individual Probability Forecasts ( http://arxiv.org/abs/2209.01687v1 )

ライセンス: Link先を確認
Aaron Roth and Alexander Tolbert and Scott Weinstein(参考訳) 個人確率は、明日雨が降る確率、アリスが次の12ヶ月以内に死ぬ確率、ボブが次の18ヶ月で暴力犯罪で逮捕される確率など、一度しか実現されない結果の確率を指す。 個人の確率は基本的に理解できない。 それでも、データに同意する2つの当事者、すなわちデータ分布からサンプルを採取する方法は、個々の確率をモデル化する方法に同意できないことを示す。 これは、2つのモデルのうち少なくとも1つを実証的に改ざんし改善するために、実質的に不一致である個々の確率の2つのモデルが一緒に使用できるためである。 これは「和解(reconciliation)」のプロセスにおいて効率よく反復され、両者が合意するモデルが、開始したモデルよりも優れていること、そして(ほとんど)個々の確率の予測(ほぼ)至るところで合意するモデルとなる。 個々の確率は認識できないが、計算量とデータ効率のよいプロセスで競合し、合意に至らなければならないと結論づける。 したがって、予測問題やモデル乗法問題と呼ばれる問題に対する答えを提供するという、予測に大きく相反する2つの正確で改善不可能なモデルが存在する状況では、私たち自身を見つけることはできない。

Individual probabilities refer to the probabilities of outcomes that are realized only once: the probability that it will rain tomorrow, the probability that Alice will die within the next 12 months, the probability that Bob will be arrested for a violent crime in the next 18 months, etc. Individual probabilities are fundamentally unknowable. Nevertheless, we show that two parties who agree on the data -- or on how to sample from a data distribution -- cannot agree to disagree on how to model individual probabilities. This is because any two models of individual probabilities that substantially disagree can together be used to empirically falsify and improve at least one of the two models. This can be efficiently iterated in a process of "reconciliation" that results in models that both parties agree are superior to the models they started with, and which themselves (almost) agree on the forecasts of individual probabilities (almost) everywhere. We conclude that although individual probabilities are unknowable, they are contestable via a computationally and data efficient process that must lead to agreement. Thus we cannot find ourselves in a situation in which we have two equally accurate and unimprovable models that disagree substantially in their predictions -- providing an answer to what is sometimes called the predictive or model multiplicity problem.
翻訳日:2022-09-07 15:37:16 公開日:2022-09-04
# Concatenated Classic and Neural (CCN) Codes: ConcatenatedAE

Concatenated Classic and Neural (CCN) Codes: ConcatenatedAE ( http://arxiv.org/abs/2209.01701v1 )

ライセンス: Link先を確認
Onur G\"unl\"u, Rick Fritschek, Rafael F. Schaefer(参考訳) 誤り訂正に使用される小さなニューラルネットワーク(NN)は、古典的なチャネルコードを改善し、チャネルモデルの変更に対処する。 我々は、同じNNを複数回符号化し、外部の古典符号と直列結合した1ホットコードで、そのような構造のコード次元を拡張する。 我々は同じネットワークパラメータを持つNNを設計し、各Reed-Solomon符号は異なるNNへの入力となる。 付加的なガウス雑音流路におけるブロック誤差確率の小さなニューラルコードと比較しての顕著な改善と、チャネルモデルの変化に対するロバスト性を示す。

Small neural networks (NNs) used for error correction were shown to improve on classic channel codes and to address channel model changes. We extend the code dimension of any such structure by using the same NN under one-hot encoding multiple times, which are serially-concatenated with an outer classic code. We design NNs with the same network parameters, where each Reed-Solomon codeword symbol is an input to a different NN. Significant improvements in block error probabilities for an additive Gaussian noise channel as compared to the small neural code are illustrated, as well as robustness to channel model changes.
翻訳日:2022-09-07 15:36:39 公開日:2022-09-04
# 相乗的冗長性:自動運転車の安全性検証に向けて

Synergistic Redundancy: Towards Verifiable Safety for Autonomous Vehicles ( http://arxiv.org/abs/2209.01710v1 )

ライセンス: Link先を確認
Ayoosh Bansal, Simon Yu, Hunmin Kim, Bo Li, Naira Hovakimyan, Marco Caccamo and Lui Sha(参考訳) 自律走行車(AV)の開発が進むにつれて、その環境における乗客やエージェントの安全に関する懸念が高まっている。 自動運転車による現実世界の交通衝突は、この懸念を複雑化させている。 オープンソースの自動運転実装は、非決定論的障害やコーナーケースに弱いマシンラーニングやディープニューラルネットワーク(dnn)に大きく依存する、複雑な相互依存的なタスクを持つソフトウェアアーキテクチャを示している。 これらの複雑なサブシステムは、安全を維持しながら、AVのミッションを果たすために協力する。 これらのシステムの実証的信頼性と信頼性を高めるために、大幅な改善がなされているが、DNN検証の固有の制限は、AVにおける決定論的安全性を保証する上で、必要不可欠な課題を生み出している。 AVのような複雑なサイバー物理システムのための安全アーキテクチャであるSynergistic Redundancy (SR)を提案する。 SRは、システムのミッションと安全タスクを分離することで、特定の障害に対する検証可能な安全保証を提供する。 主要な役割を独立に果たすと同時に、部分的に機能的に冗長なミッションと安全タスクが相互に助け合わされ、総合的なシステムの改善が図られる。 相乗的安全層は、そのタスクを満たすために検証可能で論理的に解析可能なソフトウェアのみを使用する。 ミッション層との密接な調整により、システム内の安全臨界断層の簡易かつ早期検出が可能になる。 SRはミッション層の最適化目標を単純化し、設計を改善する。 SRはハイパフォーマンスの安全なデプロイを提供するが、本質的には検証不可能な機械学習ソフトウェアである。 本研究ではまず, SRアーキテクチャの設計と特徴について述べるとともに, AVにおける障害物存在検出障害の重要な問題に着目し, 解の有効性を評価する。

As Autonomous Vehicle (AV) development has progressed, concerns regarding the safety of passengers and agents in their environment have risen. Each real world traffic collision involving autonomously controlled vehicles has compounded this concern. Open source autonomous driving implementations show a software architecture with complex interdependent tasks, heavily reliant on machine learning and Deep Neural Networks (DNN), which are vulnerable to non deterministic faults and corner cases. These complex subsystems work together to fulfill the mission of the AV while also maintaining safety. Although significant improvements are being made towards increasing the empirical reliability and confidence in these systems, the inherent limitations of DNN verification create an, as yet, insurmountable challenge in providing deterministic safety guarantees in AV. We propose Synergistic Redundancy (SR), a safety architecture for complex cyber physical systems, like AV. SR provides verifiable safety guarantees against specific faults by decoupling the mission and safety tasks of the system. Simultaneous to independently fulfilling their primary roles, the partially functionally redundant mission and safety tasks are able to aid each other, synergistically improving the combined system. The synergistic safety layer uses only verifiable and logically analyzable software to fulfill its tasks. Close coordination with the mission layer allows easier and early detection of safety critical faults in the system. SR simplifies the mission layer's optimization goals and improves its design. SR provides safe deployment of high performance, although inherently unverifiable, machine learning software. In this work, we first present the design and features of the SR architecture and then evaluate the efficacy of the solution, focusing on the crucial problem of obstacle existence detection faults in AV.
翻訳日:2022-09-07 15:36:20 公開日:2022-09-04
# 縦型ctによる肺癌診断における経時的視野トランスフォーマ

Time-distance vision transformers in lung cancer diagnosis from longitudinal computed tomography ( http://arxiv.org/abs/2209.01676v1 )

ライセンス: Link先を確認
Thomas Z. Li, Kaiwen Xu, Riqiang Gao, Yucheng Tang, Thomas A. Lasko, Fabien Maldonado, Kim Sandler, Bennett A. Landman(参考訳) 単一のX線画像から得られた特徴は、時間とともに病変がどの程度変化しているかに関する情報を提供することができない。 繰り返し画像から計算される時間依存的特徴は、これらの変化を捉え、時間的行動によって悪性病変を識別するのに役立つ。 しかし、縦型医用イメージングは、データ取得における不規則な時間間隔のばらばらさという独特の課題を示している。 自己注意は時系列と自然画像の汎用的で効率的な学習メカニズムであることが示されているが、スパースと不規則にサンプリングされた空間的特徴の間の時間的距離を解釈する能力は研究されていない。 本研究では,(1)連続時間のベクトル埋め込みと(2)自己注意重みを拡大する時間強調モデルを用いて,時間依存型視覚変換器(ViT)の2つの解釈を提案する。 この2つのアルゴリズムは, 合成肺結節の良性と悪性肺がんの鑑別と, NLST(National Lung Screening Trial)による肺検診による肺検診の結果に基づいて評価された。 合成結節上での時間依存性ViTの評価実験は、標準ViTと比較して不規則サンプル長手画像の分類において根本的な改善が見られた。 nlstから胸部ctをスクリーニングする際のクロスバリデーション(0.785 aucと0.786 auc)は横断的アプローチ(0.734 auc)を著しく上回り,良性と悪性の鑑別において先行する縦型医用画像法(0.779 auc)の判別性能と一致した。 この研究は、縦断的医療画像の分類のための最初の自己注意に基づくフレームワークである。 私たちのコードはhttps://github.com/tom1193/time-distance-transformerで利用可能です。

Features learned from single radiologic images are unable to provide information about whether and how much a lesion may be changing over time. Time-dependent features computed from repeated images can capture those changes and help identify malignant lesions by their temporal behavior. However, longitudinal medical imaging presents the unique challenge of sparse, irregular time intervals in data acquisition. While self-attention has been shown to be a versatile and efficient learning mechanism for time series and natural images, its potential for interpreting temporal distance between sparse, irregularly sampled spatial features has not been explored. In this work, we propose two interpretations of a time-distance vision transformer (ViT) by using (1) vector embeddings of continuous time and (2) a temporal emphasis model to scale self-attention weights. The two algorithms are evaluated based on benign versus malignant lung cancer discrimination of synthetic pulmonary nodules and lung screening computed tomography studies from the National Lung Screening Trial (NLST). Experiments evaluating the time-distance ViTs on synthetic nodules show a fundamental improvement in classifying irregularly sampled longitudinal images when compared to standard ViTs. In cross-validation on screening chest CTs from the NLST, our methods (0.785 and 0.786 AUC respectively) significantly outperform a cross-sectional approach (0.734 AUC) and match the discriminative performance of the leading longitudinal medical imaging algorithm (0.779 AUC) on benign versus malignant classification. This work represents the first self-attention-based framework for classifying longitudinal medical images. Our code is available at https://github.com/tom1193/time-distance-transformer.
翻訳日:2022-09-07 15:32:17 公開日:2022-09-04
# 不均衡大規模データセット上での機械学習手法を用いた掘削作業中の損失循環事象の分類に関する事例研究

A Case Study on the Classification of Lost Circulation Events During Drilling using Machine Learning Techniques on an Imbalanced Large Dataset ( http://arxiv.org/abs/2209.01607v1 )

ライセンス: Link先を確認
Toluwalase A. Olukoga, Yin Feng(参考訳) 本研究では,大規模不均衡掘削データセットを用いて,損失循環量の予測と分類を行う機械学習モデルを提案する。 我々は,容易に解釈可能な機械学習手法を用いて,大規模な掘削エンジニアリング課題に取り組むための再現可能なコア技術を示す。 イランのアザデガン油田層からのクラス不均衡問題を伴う65,000以上の記録データを用いた。 データセットの17のパラメータのうち11は、5つの失われた循環イベントの分類に使用される。 分類モデルの生成には,6つの基本機械学習アルゴリズムと4つのアンサンブル学習手法を用いた。 リニア識別分析(LDA)、ロジスティック回帰(LR)、サポートベクトルマシン(SVM)、分類と回帰木(CART)、k-Nearest Neighbors(KNN)、ガウスネーブベイズ(GNB)は6つの基本技術である。 また,ベイジングとアンサンブル学習を併用し,予測性能向上のための解の探索を行った。 これらのアルゴリズムの性能は、精度、精度、リコール、F1スコアの4つの指標を用いて測定される。 好ましい評価基準として、データ不均衡を表す重み付きF1スコアを選択する。 カート模型は, 平均重み付きf1-score 0.9904, 標準偏差 0.0015 の掘削流体循環損失の同定に最適であることが判明した。 アンサンブル学習手法を適用すると、決定木からなるランダムフォレストアンサンブルが最高の予測性能を示した。 完全重み付きF1スコア1.0の損失循環イベントを特定し、分類した。 また, PFI(Permutation Feature Importance)を用いて, 掘削中に消失した循環イベントを正確に認識する上で, 測定深度が最も重要な要因であることがわかった。

This study presents machine learning models that forecast and categorize lost circulation severity preemptively using a large class imbalanced drilling dataset. We demonstrate reproducible core techniques involved in tackling a large drilling engineering challenge utilizing easily interpretable machine learning approaches. We utilized a 65,000+ records data with class imbalance problem from Azadegan oilfield formations in Iran. Eleven of the dataset's seventeen parameters are chosen to be used in the classification of five lost circulation events. To generate classification models, we used six basic machine learning algorithms and four ensemble learning methods. Linear Discriminant Analysis (LDA), Logistic Regression (LR), Support Vector Machines (SVM), Classification and Regression Trees (CART), k-Nearest Neighbors (KNN), and Gaussian Naive Bayes (GNB) are the six fundamental techniques. We also used bagging and boosting ensemble learning techniques in the investigation of solutions for improved predicting performance. The performance of these algorithms is measured using four metrics: accuracy, precision, recall, and F1-score. The F1-score weighted to represent the data imbalance is chosen as the preferred evaluation criterion. The CART model was found to be the best in class for identifying drilling fluid circulation loss events with an average weighted F1-score of 0.9904 and standard deviation of 0.0015. Upon application of ensemble learning techniques, a Random Forest ensemble of decision trees showed the best predictive performance. It identified and classified lost circulation events with a perfect weighted F1-score of 1.0. Using Permutation Feature Importance (PFI), the measured depth was found to be the most influential factor in accurately recognizing lost circulation events while drilling.
翻訳日:2022-09-07 15:26:55 公開日:2022-09-04
# 強凸問題に対する適応勾配法の動的回帰

Dynamic Regret of Adaptive Gradient Methods for Strongly Convex Problems ( http://arxiv.org/abs/2209.01608v1 )

ライセンス: Link先を確認
Parvin Nazari, Esmaile Khorram(参考訳) ADAGRADなどの適応勾配アルゴリズムとその変種は、ディープニューラルネットワークのトレーニングで人気を博している。 適応的手法に関する多くの研究は、良い後悔の保証を達成するためにパフォーマンス指標としての静的な後悔に焦点を当ててきたが、これらの手法の動的な後悔の分析はいまだに不明である。 静的な後悔とは対照的に、動的後悔は環境の非定常性を明確に解明するという意味で、パフォーマンス測定の強い概念であると考えられている。 本稿では,時間とともに変化する参照(最適)ソリューションに対して,オンライン学習者のパフォーマンスを計測する動的後悔の概念を通じて,強力な凸条件下でADAGRADの変種(M-ADAGRAD)を経る。 我々は,環境の非定常性を本質的に反映する最小化系列の経路長という観点から,後悔の束縛を示す。 さらに、各ラウンドにおける学習者への勾配の多重アクセスを利用して、動的後悔の制限を強化する。 実験の結果,M-ADAGRADは実際にも有効であることが示唆された。

Adaptive gradient algorithms such as ADAGRAD and its variants have gained popularity in the training of deep neural networks. While many works as for adaptive methods have focused on the static regret as a performance metric to achieve a good regret guarantee, the dynamic regret analyses of these methods remain unclear. As opposed to the static regret, dynamic regret is considered to be a stronger concept of performance measurement in the sense that it explicitly elucidates the non-stationarity of the environment. In this paper, we go through a variant of ADAGRAD (referred to as M-ADAGRAD ) in a strong convex setting via the notion of dynamic regret, which measures the performance of an online learner against a reference (optimal) solution that may change over time. We demonstrate a regret bound in terms of the path-length of the minimizer sequence that essentially reflects the non-stationarity of environments. In addition, we enhance the dynamic regret bound by exploiting the multiple accesses of the gradient to the learner in each round. Empirical results indicate that M-ADAGRAD works also well in practice.
翻訳日:2022-09-07 15:26:23 公開日:2022-09-04
# 無線チャネル上での効率的な分散学習

Communication Efficient Distributed Learning over Wireless Channels ( http://arxiv.org/abs/2209.01682v1 )

ライセンス: Link先を確認
Idan Achituve and Wenbo Wang and Ethan Fetaya and Amir Leshem(参考訳) 垂直分散学習は、複数のラーニングワーカーが収集したローカル機能を活用し、よりよいグローバルモデルを形成する。 しかしながら、特にキャパシティに制約のある無線ネットワーク上に学習システムが構築されている場合、作業者とパラメータトレーニングのためのモデルアグリゲータ間のデータの交換は、通信の重荷を負う。 本稿では,各作業者が局所観測データの低次元埋め込みを別々に学習する,新しい階層型分散学習フレームワークを提案する。 そして、この合成された入力をアグリゲータに効率的に送信する通信効率のよい分散最大プーリングを行う。 共有無線チャネル上でのデータ交換を行うために,全学習者からの出力データの最大プール動作を実現するための日和見的キャリアセンシングに基づくプロトコルを提案する。 シミュレーション実験により,提案した学習フレームワークは,学習者数に依存しない通信負荷を必要としながら,学習者の生出力の連結を利用して学習モデルとほぼ同一のモデル精度を達成可能であることが示された。

Vertical distributed learning exploits the local features collected by multiple learning workers to form a better global model. However, the exchange of data between the workers and the model aggregator for parameter training incurs a heavy communication burden, especially when the learning system is built upon capacity-constrained wireless networks. In this paper, we propose a novel hierarchical distributed learning framework, where each worker separately learns a low-dimensional embedding of their local observed data. Then, they perform communication efficient distributed max-pooling for efficiently transmitting the synthesized input to the aggregator. For data exchange over a shared wireless channel, we propose an opportunistic carrier sensing-based protocol to implement the max-pooling operation for the output data from all the learning workers. Our simulation experiments show that the proposed learning framework is able to achieve almost the same model accuracy as the learning model using the concatenation of all the raw outputs from the learning workers, while requiring a communication load that is independent of the number of workers.
翻訳日:2022-09-07 15:26:05 公開日:2022-09-04
# セルベースNASアーキテクチャのプライバシーリスクについて

On the Privacy Risks of Cell-Based NAS Architectures ( http://arxiv.org/abs/2209.01688v1 )

ライセンス: Link先を確認
Hai Huang, Zhikun Zhang, Yun Shen, Michael Backes, Qi Li, Yang Zhang(参考訳) ニューラルアーキテクチャサーチ(NAS)に関する既存の研究は主に、より優れたパフォーマンスで効率的にネットワークアーキテクチャを探索することに焦点を当てている。 NASが調査したアーキテクチャがプライバシ攻撃に対して堅牢であるかどうかを体系的に理解するには、ほとんど進歩していない。 本稿では、このギャップを埋め、NASアーキテクチャのプライバシーリスクを体系的に測定する。 本研究から得られた知見を生かして,細胞性NASアーキテクチャの細胞パターンを更に探求し,細胞パターンがNAS検索アーキテクチャのプライバシリスクに与える影響を評価する。 広範な実験を通じて、プライバシ攻撃に対する堅牢なnasアーキテクチャの設計方法や、nasが調査したアーキテクチャと他のプライバシリスクとの間の隠れた相関を理解するための一般的な方法論を明らかにした。

Existing studies on neural architecture search (NAS) mainly focus on efficiently and effectively searching for network architectures with better performance. Little progress has been made to systematically understand if the NAS-searched architectures are robust to privacy attacks while abundant work has already shown that human-designed architectures are prone to privacy attacks. In this paper, we fill this gap and systematically measure the privacy risks of NAS architectures. Leveraging the insights from our measurement study, we further explore the cell patterns of cell-based NAS architectures and evaluate how the cell patterns affect the privacy risks of NAS-searched architectures. Through extensive experiments, we shed light on how to design robust NAS architectures against privacy attacks, and also offer a general methodology to understand the hidden correlation between the NAS-searched architectures and other privacy risks.
翻訳日:2022-09-07 15:25:47 公開日:2022-09-04
# コピュラエントロピーに基づく生存分析のための可変選択

Copula Entropy based Variable Selection for Survival Analysis ( http://arxiv.org/abs/2209.01561v1 )

ライセンス: Link先を確認
Jian Ma(参考訳) 変数選択は統計学と機械学習において重要な問題である。 コピュラエントロピー (CE) は統計的独立性を測定する数学的概念であり、近年変数選択に適用されている。 本稿では,CEに基づく変数選択法を生存分析に適用する。 その考え方は、変数とCEとの時間と時間との相関を測り、CE値に従って変数を選択することである。 シミュレーションデータと2つの実がんデータを用いて,提案手法と無作為生存林とラッソ・コックスの2つの手法を比較した。 実験の結果,提案手法はより解釈可能な「右」変数を選択でき,予測性能が向上することがわかった。

Variable selection is an important problem in statistics and machine learning. Copula Entropy (CE) is a mathematical concept for measuring statistical independence and has been applied to variable selection recently. In this paper we propose to apply the CE-based method for variable selection to survival analysis. The idea is to measure the correlation between variables and time-to-event with CE and then select variables according to their CE value. Experiments on simulated data and two real cancer data were conducted to compare the proposed method with two related methods: random survival forest and Lasso-Cox. Experimental results showed that the proposed method can select the 'right' variables out that are more interpretable and lead to better prediction performance.
翻訳日:2022-09-07 15:18:29 公開日:2022-09-04
# PhishClone: クローンの侵入攻撃の効果を計測する

PhishClone: Measuring the Efficacy of Cloning Evasion Attacks ( http://arxiv.org/abs/2209.01582v1 )

ライセンス: Link先を確認
Arthur Wong, Alsharif Abuadbba, Mahathir Almashor, Salil Kanhere(参考訳) Webベースのフィッシングはデータ漏洩の90%以上を占めており、ほとんどのWebブラウザやセキュリティベンダーは機械学習(ML)モデルを緩和に頼っている。 それにもかかわらず、フィシュタンクやウイルストタルのようなフィッシングアグリゲーターに定期的に投稿されるリンクは、既存の検出器をバイパスすることが容易に示されている。 以前の技術では、自動化されたWebサイトのクローンは、軽い突然変異によって攻撃者の間で勢いを増している。 これは現在の文献に限られており、MLに基づく準最適対策につながる。 この研究は、幅広い循環で様々な最先端のクローン技術をコンパイルし、評価する最初の実証研究である。 13,394件のサンプルを収集し,7つの異なるクローニング機構を用いて4つの人気サイトを対象として,8,566件のフィッシングページを確認した。 これらのサンプルは、不正アクセスを防ぐために、防御されたプラットフォーム内で悪意のあるコードを削除して複製された。 次に,VirusTotalおよび他のプラットフォームにサイトを報告し,7日間の定期的なポーリングを行い,各クローン技術の有効性を確認した。 その結果、我々のクローンを検知するセキュリティベンダーは存在せず、より効果的な検出器の必要性が証明された。 最後に、クローン攻撃のリスクを軽減するために、web開発者やmlベースの防御を支援する4つの推奨事項を提示する。

Web-based phishing accounts for over 90% of data breaches, and most web-browsers and security vendors rely on machine-learning (ML) models as mitigation. Despite this, links posted regularly on anti-phishing aggregators such as PhishTank and VirusTotal are shown to easily bypass existing detectors. Prior art suggests that automated website cloning, with light mutations, is gaining traction with attackers. This has limited exposure in current literature and leads to sub-optimal ML-based countermeasures. The work herein conducts the first empirical study that compiles and evaluates a variety of state-of-the-art cloning techniques in wide circulation. We collected 13,394 samples and found 8,566 confirmed phishing pages targeting 4 popular websites using 7 distinct cloning mechanisms. These samples were replicated with malicious code removed within a controlled platform fortified with precautions that prevent accidental access. We then reported our sites to VirusTotal and other platforms, with regular polling of results for 7 days, to ascertain the efficacy of each cloning technique. Results show that no security vendor detected our clones, proving the urgent need for more effective detectors. Finally, we posit 4 recommendations to aid web developers and ML-based defences to alleviate the risks of cloning attacks.
翻訳日:2022-09-07 15:18:14 公開日:2022-09-04
# 共同避難経路とスケジューリング問題に対するスケーラブルなデータ駆動手法

A Scalable Data-Driven Technique for Joint Evacuation Routing and Scheduling Problems ( http://arxiv.org/abs/2209.01535v1 )

ライセンス: Link先を確認
Kazi Ashik Islam, Da Qi Chen, Madhav Marathe, Henning Mortveit, Samarth Swarup, Anil Vullikanti(参考訳) 避難計画(Evacuation planning)は、住民を安全な場所に移動させ、被害を最小限に抑えることを目的とする災害管理の重要な部分である。 すべての避難計画にはルーティングとスケジューリングという2つの重要な要素がある。 しかし, 平均避難時間や避難完了時間の最小化などの目的と組み合わせた2成分の最適化は, 計算量的に難しい問題である。 そこで本研究では,ヒューリスティック探索と数学的最適化を組み合わせた拡張性のある最適化手法であるMIP-LNSを提案する。 我々はテキサス州ヒューストンのハリス郡からの実際の道路網と人口データを使い、MIP-LNSを用いて地域への避難ルートとスケジュールを見つける。 提案手法は,所定の時間内に平均避難時間,避難完了時間,解の最適性保証の観点から,既存の手法よりも優れた解を求める。 本研究領域では,エージェントによる避難シミュレーションを行い,ソリューションの有効性とロバスト性を実証した。 提案するスケジュールからある程度逸脱しても,所定の避難計画が有効であることを示す。 また,道路事故による避難計画への影響についても検討した。 以上の結果から,MIP-LNSは道路の工期推定情報を利用して,より優れた避難計画を立てることができることがわかった。

Evacuation planning is a crucial part of disaster management where the goal is to relocate people to safety and minimize casualties. Every evacuation plan has two essential components: routing and scheduling. However, joint optimization of these two components with objectives such as minimizing average evacuation time or evacuation completion time, is a computationally hard problem. To approach it, we present MIP-LNS, a scalable optimization method that combines heuristic search with mathematical optimization and can optimize a variety of objective functions. We use real-world road network and population data from Harris County in Houston, Texas, and apply MIP-LNS to find evacuation routes and schedule for the area. We show that, within a given time limit, our proposed method finds better solutions than existing methods in terms of average evacuation time, evacuation completion time and optimality guarantee of the solutions. We perform agent-based simulations of evacuation in our study area to demonstrate the efficacy and robustness of our solution. We show that our prescribed evacuation plan remains effective even if the evacuees deviate from the suggested schedule upto a certain extent. We also examine how evacuation plans are affected by road failures. Our results show that MIP-LNS can use information regarding estimated deadline of roads to come up with better evacuation plans in terms evacuating more people successfully and conveniently.
翻訳日:2022-09-07 15:07:01 公開日:2022-09-04
# 視覚計測のための擬似LiDAR

Pseudo-LiDAR for Visual Odometry ( http://arxiv.org/abs/2209.01567v1 )

ライセンス: Link先を確認
Huiying Deng, Guangming Wang, Zhiheng Feng, Chaokang Jiang, Xinrui Wu, Yanzi Miao, and Hesheng Wang(参考訳) 既存の手法では、LiDARのオドメトリーは優れた性能を示すが、それでもその価格優位性のために視覚オドメトリーは広く使われている。 従来,視覚計測の課題は主に連続画像の入力に依存していた。 しかし、オドメトリネットワークが画像から提供されるエピポーラ幾何情報を学習することは非常に複雑である。 本稿では,この問題を解決するために,擬似LiDARの概念をオドメトリーに導入する。 擬似LiDARポイントクラウドは、画像によって生成された深度マップを3Dポイントクラウドにバックプロジェクションし、画像表現の仕方を変える。 ステレオ画像と比較して、ステレオマッチングネットワークによって生成された擬似LiDAR点雲は、明示的な3D座標を得ることができる。 6自由度(DoF)ポーズ変換は3次元空間で発生するため、擬似LiDAR点雲によって提供される3D構造情報は画像よりも直接的である。 スパースLiDARと比較すると、擬似LiDARはより密度の高い点雲を持つ。 擬似LiDARが提供するリッチポイントクラウド情報をフル活用するために、投射型高密度オドメトリーパイプラインを採用する。 以前のLiDARベースのアルゴリズムは、オドメトリーネットワークへの入力として、点雲から8192点をサンプリングした。 投影認識密度オドメトリパイプラインは、画像から生成された疑似ライダー点雲を、ネットワークへの入力としてエラー点を除いてすべて取り出す。 画像中の3次元幾何学情報をフル活用しながら、画像内の意味情報もオドメトリータスクで使用される。 2D-3Dの融合は、画像のみに基づくオドメトリーで達成される。 KITTIデータセットの実験により,本手法の有効性が証明された。 我々の知る限りでは、これは擬似LiDARを用いた初めての視覚計測法である。

In the existing methods, LiDAR odometry shows superior performance, but visual odometry is still widely used for its price advantage. Conventionally, the task of visual odometry mainly rely on the input of continuous images. However, it is very complicated for the odometry network to learn the epipolar geometry information provided by the images. In this paper, the concept of pseudo-LiDAR is introduced into the odometry to solve this problem. The pseudo-LiDAR point cloud back-projects the depth map generated by the image into the 3D point cloud, which changes the way of image representation. Compared with the stereo images, the pseudo-LiDAR point cloud generated by the stereo matching network can get the explicit 3D coordinates. Since the 6 Degrees of Freedom (DoF) pose transformation occurs in 3D space, the 3D structure information provided by the pseudo-LiDAR point cloud is more direct than the image. Compared with sparse LiDAR, the pseudo-LiDAR has a denser point cloud. In order to make full use of the rich point cloud information provided by the pseudo-LiDAR, a projection-aware dense odometry pipeline is adopted. Most previous LiDAR-based algorithms sampled 8192 points from the point cloud as input to the odometry network. The projection-aware dense odometry pipeline takes all the pseudo-LiDAR point clouds generated from the images except for the error points as the input to the network. While making full use of the 3D geometric information in the images, the semantic information in the images is also used in the odometry task. The fusion of 2D-3D is achieved in an image-only based odometry. Experiments on the KITTI dataset prove the effectiveness of our method. To the best of our knowledge, this is the first visual odometry method using pseudo-LiDAR.
翻訳日:2022-09-07 14:56:16 公開日:2022-09-04
# 映像スナップショット圧縮イメージングのための時空間変圧器

Spatial-Temporal Transformer for Video Snapshot Compressive Imaging ( http://arxiv.org/abs/2209.01578v1 )

ライセンス: Link先を確認
Lishun Wang, Miao Cao, Yong Zhong and Xin Yuan(参考訳) ビデオスナップショット圧縮画像(SCI)は、複数の連続したビデオフレームを1つの計測でキャプチャする。 基本原理は、異なるマスクを通して高速フレームを変調することであり、これらの変調フレームは、低速2dセンサ(ダビング光エンコーダ)でキャプチャされた単一の測定値に要約され、必要に応じて所望の高速フレーム(ダビングソフトウェアデコーダ)を再構築するためにアルゴリズムが使用される。 本稿では,映像sciにおける再構成アルゴリズム,すなわち圧縮計測から一連の映像フレームを復元する手法について検討する。 具体的には,空間領域と時間領域の相関を利用した時空間変圧器(stformer)を提案する。 stformerネットワークはトークン生成ブロックとビデオ再構成ブロックで構成され、これら2つのブロックは一連のstformerブロックで接続される。 各STFormerブロックは、空間的自己注意枝と時間的自己注意枝とからなり、これら2つの枝の出力は融合ネットワークによって統合される。 シミュレーションデータと実データの両方に関する広範な結果は、stformerの最先端のパフォーマンスを示している。 コードとモデルはhttps://github.com/ucaswangls/STFormer.gitで公開されている。

Video snapshot compressive imaging (SCI) captures multiple sequential video frames by a single measurement using the idea of computational imaging. The underlying principle is to modulate high-speed frames through different masks and these modulated frames are summed to a single measurement captured by a low-speed 2D sensor (dubbed optical encoder); following this, algorithms are employed to reconstruct the desired high-speed frames (dubbed software decoder) if needed. In this paper, we consider the reconstruction algorithm in video SCI, i.e., recovering a series of video frames from a compressed measurement. Specifically, we propose a Spatial-Temporal transFormer (STFormer) to exploit the correlation in both spatial and temporal domains. STFormer network is composed of a token generation block, a video reconstruction block, and these two blocks are connected by a series of STFormer blocks. Each STFormer block consists of a spatial self-attention branch, a temporal self-attention branch and the outputs of these two branches are integrated by a fusion network. Extensive results on both simulated and real data demonstrate the state-of-the-art performance of STFormer. The code and models are publicly available at https://github.com/ucaswangls/STFormer.git
翻訳日:2022-09-07 14:55:51 公開日:2022-09-04
# ハイブリッド差分プライバシー保証を用いたクロスネットワークソーシャルユーザ埋め込み

Cross-Network Social User Embedding with Hybrid Differential Privacy Guarantees ( http://arxiv.org/abs/2209.01539v1 )

ライセンス: Link先を確認
Jiaqian Ren and Lei Jiang and Hao Peng and Lingjuan Lyu and Zhiwei Liu and Chaochao Chen and Jia Wu and Xu Bai and Philip S. Yu(参考訳) 複数のオンラインソーシャルネットワーク(OSN)を統合することは、ユーザ好みのモデリング、リコメンデーション、リンク予測など、下流の多くのソーシャルマイニングタスクに重要な意味を持つ。 しかし残念ながら、機密情報漏洩に関するプライバシー上の懸念が強まっている。 ユーザーのプライバシーを維持しながら、異なるオンラインソーシャルネットワークからのデータを完全に活用する方法はほとんど未解決だ。 そこで本研究では,プライバシ保護方式でユーザの包括的表現を学ぶために,クロスネットワークなソーシャルユーザ埋め込みフレームワークdp-crosueを提案する。 我々は、部分的に連携したソーシャルネットワークからの情報と、異なるプライバシー保証を共同で検討する。 特に,ヘテロジニアスなソーシャルネットワーク毎に,我々はまず,異種データ型に対するプライバシ期待の変動を捉えるために,ハイブリッドな差分プライバシー概念を導入する。 次に,ソーシャルネットワークにまたがるユーザリンクを見つけるために,ヘテロジニアスなネットワーク組込み技術によってユーザ組込みを実現する,教師なしのユーザ組込みに基づくアライメントを行う。 ユーザ埋め込みをさらに強化するため、新しいネットワーク間GCN埋め込みモデルは、それらの整列したユーザを介して、ネットワーク間で知識を伝達するように設計されている。 3つの実世界のデータセットに対する大規模な実験は、我々のアプローチがユーザの関心予測タスクを大幅に改善し、ユーザ属性推論攻撃を埋め込みから防御することを示した。

Integrating multiple online social networks (OSNs) has important implications for many downstream social mining tasks, such as user preference modelling, recommendation, and link prediction. However, it is unfortunately accompanied by growing privacy concerns about leaking sensitive user information. How to fully utilize the data from different online social networks while preserving user privacy remains largely unsolved. To this end, we propose a Cross-network Social User Embedding framework, namely DP-CroSUE, to learn the comprehensive representations of users in a privacy-preserving way. We jointly consider information from partially aligned social networks with differential privacy guarantees. In particular, for each heterogeneous social network, we first introduce a hybrid differential privacy notion to capture the variation of privacy expectations for heterogeneous data types. Next, to find user linkages across social networks, we make unsupervised user embedding-based alignment in which the user embeddings are achieved by the heterogeneous network embedding technology. To further enhance user embeddings, a novel cross-network GCN embedding model is designed to transfer knowledge across networks through those aligned users. Extensive experiments on three real-world datasets demonstrate that our approach makes a significant improvement on user interest prediction tasks as well as defending user attribute inference attacks from embedding.
翻訳日:2022-09-07 14:42:26 公開日:2022-09-04
# ASTra:不均衡分類のための新しいアルゴリズムレベルアプローチ

ASTra: A Novel Algorithm-Level Approach to Imbalanced Classification ( http://arxiv.org/abs/2209.01685v1 )

ライセンス: Link先を確認
David Twomey and Denise Gorse(参考訳) 本稿では,astra (asymmetric sigmoid transfer function) と呼ばれる新しい出力層活性化関数を提案する。 これを損失関数と組み合わせることで、マイノリティの誤分類を効果的にターゲットすることができる。 これら2つの方法は、組み合わせを最も深刻な不均衡なケースに推奨しながら、同時に、または別々に使用できる。 提案されたアプローチは、588.24から4000までのIRとごく少数の少数例(一部のデータセットでは5つまで)のデータセットでテストされている。 2から12個の隠れユニットを持つニューラルネットワークを用いた実験は、幅広い複雑なハイブリッドデータレベルのアンサンブル分類器をデプロイした最近の研究で得られた同等の結果と同等か、同等であることが示された。

We propose a novel output layer activation function, which we name ASTra (Asymmetric Sigmoid Transfer function), which makes the classification of minority examples, in scenarios of high imbalance, more tractable. We combine this with a loss function that helps to effectively target minority misclassification. These two methods can be used together or separately, with their combination recommended for the most severely imbalanced cases. The proposed approach is tested on datasets with IRs from 588.24 to 4000 and very few minority examples (in some datasets, as few as five). Results using neural networks with from two to 12 hidden units are demonstrated to be comparable to, or better than, equivalent results obtained in a recent study that deployed a wide range of complex, hybrid data-level ensemble classifiers.
翻訳日:2022-09-07 14:39:15 公開日:2022-09-04
# モデルフリーおよびモデルベース強化学習のための変分推論

Variational Inference for Model-Free and Model-Based Reinforcement Learning ( http://arxiv.org/abs/2209.01693v1 )

ライセンス: Link先を確認
Felix Leibfried(参考訳) 変分推論 (VI) は、抽出可能な後方分布と抽出可能な後方分布を近似する特定のベイズ近似である。 VI は、推論問題を最適化問題として、より具体的には、近似後続のパラメータに関して、限界確率の対数の低い境界を最大化することが目的である。 一方、強化学習(rl)は自律エージェントを扱い、将来の累積報酬の概念を最大化するなど、それらを最適に振る舞う方法を扱っている。 エージェントのアクションが環境の将来の状態に影響を与えない非シーケンス設定では、rlは文脈的バンディットとベイズ最適化によってカバーされる。 しかし、エージェントの行動が将来の状態に影響を与える適切なシーケンシャルシナリオでは、短期的な報酬は、潜在的長期的報酬に対して慎重に取り除かれる必要がある。 この写本は、VIとRLの明らかに異なる主題が2つの基本的な方法でどのようにリンクされているかを示している。 第1に、将来の累積報酬を最大化するためのRLの最適化目標は、非順序およびシーケンシャル設定の両方において、ソフトポリシー制約の下でVIの目標を介して回収することができる。 このポリシー制約は単に人工的なだけでなく、多くのrlタスクにおいて有用な正規化剤として証明され、エージェント性能が大幅に向上した。 第二に、エージェントが運用している環境について学習しようとするモデルベースRLにおいて、モデル学習部分は、環境力学を管理するプロセス上の推論問題として自然に表現することができる。 環境状態がエージェントによって完全に観測可能な場合 VI と、観察分布を通して部分的に観測可能な場合 VI の2つのシナリオを区別する。

Variational inference (VI) is a specific type of approximate Bayesian inference that approximates an intractable posterior distribution with a tractable one. VI casts the inference problem as an optimization problem, more specifically, the goal is to maximize a lower bound of the logarithm of the marginal likelihood with respect to the parameters of the approximate posterior. Reinforcement learning (RL) on the other hand deals with autonomous agents and how to make them act optimally such as to maximize some notion of expected future cumulative reward. In the non-sequential setting where agents' actions do not have an impact on future states of the environment, RL is covered by contextual bandits and Bayesian optimization. In a proper sequential scenario, however, where agents' actions affect future states, instantaneous rewards need to be carefully traded off against potential long-term rewards. This manuscript shows how the apparently different subjects of VI and RL are linked in two fundamental ways. First, the optimization objective of RL to maximize future cumulative rewards can be recovered via a VI objective under a soft policy constraint in both the non-sequential and the sequential setting. This policy constraint is not just merely artificial but has proven as a useful regularizer in many RL tasks yielding significant improvements in agent performance. And second, in model-based RL where agents aim to learn about the environment they are operating in, the model-learning part can be naturally phrased as an inference problem over the process that governs environment dynamics. We are going to distinguish between two scenarios for the latter: VI when environment states are fully observable by the agent and VI when they are only partially observable through an observation distribution.
翻訳日:2022-09-07 14:39:01 公開日:2022-09-04
# ハミルトン力学系のシンプレクティック統合的記号回帰

Symplectically Integrated Symbolic Regression of Hamiltonian Dynamical Systems ( http://arxiv.org/abs/2209.01521v1 )

ライセンス: Link先を確認
Daniel M. DiPietro, Bo Zhu(参考訳) 本稿では,データから物理支配方程式を学習する新しい手法であるSymplectically Integrated Symbolic Regression(SISR)を提案する。 SISRは多層LSTM-RNNを用いて、確率的にハミルトン記号表現をサンプリングする。 シンプレクティック・ニューラル・ネットワークを用いて,探索空間を制限しながら,オンザフライで入力可能なデータから有意義な物理前処理を抽出するモデル非依存手法を開発した。 予測性能はLSTM-RNNをトレーニングし、リスク探索ポリシー勾配アプローチによりより優れた関数を生成するために使用される。 これらの手法を用いて, 振動子, 振り子, 2体および3体重力系から, 雑音および極小データセットを用いた正しい制御方程式を抽出する。

Here we present Symplectically Integrated Symbolic Regression (SISR), a novel technique for learning physical governing equations from data. SISR employs a deep symbolic regression approach, using a multi-layer LSTM-RNN with mutation to probabilistically sample Hamiltonian symbolic expressions. Using symplectic neural networks, we develop a model-agnostic approach for extracting meaningful physical priors from the data that can be imposed on-the-fly into the RNN output, limiting its search space. Hamiltonians generated by the RNN are optimized and assessed using a fourth-order symplectic integration scheme; prediction performance is used to train the LSTM-RNN to generate increasingly better functions via a risk-seeking policy gradients approach. Employing these techniques, we extract correct governing equations from oscillator, pendulum, two-body, and three-body gravitational systems with noisy and extremely small datasets.
翻訳日:2022-09-07 14:31:07 公開日:2022-09-04
# 論理ネットワークの構造符号化のためのprufer-sequenceに基づく大規模グラフ表現

A Prufer-Sequence Based Representation of Large Graphs for Structural Encoding of Logic Networks ( http://arxiv.org/abs/2209.01596v1 )

ライセンス: Link先を確認
Manjari Pradhan and Bhargab B. Bhattacharya(参考訳) 今日の実生活システムにおけるグラフの広範性は非常に明らかであり、システムはグラフとして明示的に存在するか、あるいは1つとして容易にモデル化できる。 このようなグラフィカルな構造は、ストアハウスの豊富な情報である。 これは、ノードやグラフ全体に関心があるかどうかによって、様々な意味を持つ。 本稿では,主に,グラフの構造が実生活システムの性質に影響を及ぼすという,後続の推論に関心を寄せる。 このような構造的影響のモデルは、その構造的特性を通じて、VLSI回路のような複雑で大規模なシステムの有用な性質を推論するのに有用である。 しかし、そのような関係をモデル化するために機械学習(ML)ベースの手法を適用する前に、グラフの効果的な表現が必須である。 本稿では,グラフの頂点数の観点から,損失のない線形サイズのグラフ表現を提案し,そのグラフの1次元表現を与える。 我々の表現は木のプルーファーエンコーディングに基づいている。 さらに,本手法は,単木で表現可能なグラフを初めて変換する,$\mathcal{GT}$-enhancementと呼ばれる新しい手法に基づいている。 エンコーディングはまた、追加のグラフプロパティを含めるスコープを提供し、コードの解釈性を改善する。

The pervasiveness of graphs in today's real life systems is quite evident, where the system either explicitly exists as graph or can be readily modelled as one. Such graphical structure is thus a store house rich information. This has various implication depending on whether we are interested in a node or the graph as a whole. In this paper, we are primarily concerned with the later, that is, the inference that the structure of the graph influences the property of the real life system it represents. A model of such structural influence would be useful in inferencing useful properties of complex and large systems, like VLSI circuits, through its structural property. However, before we can apply some machine learning (ML) based technique to model such relationship, an effective representation of the graph is imperative. In this paper, we propose a graph representation which is lossless, linear-sized in terms of number of vertices and gives a 1-D representation of the graph. Our representation is based on Prufer encoding for trees. Moreover, our method is based on a novel technique, called $\mathcal{GT}$-enhancement whereby we first transform the graph such that it can be represented by a singular tree. The encoding also provides scope to include additional graph property and improve the interpretability of the code.
翻訳日:2022-09-07 14:30:50 公開日:2022-09-04
# 不均衡クラスにおける最適機械学習ツールを用いたフラッド検出

Fraud Detection Using Optimized Machine Learning Tools Under Imbalance Classes ( http://arxiv.org/abs/2209.01642v1 )

ライセンス: Link先を確認
Mary Isangediok, Kelum Gajamannage(参考訳) 不正検出は、時間とともに詐欺パターンの性質が変化し、そのような洗練されたパターンを学ぶための詐欺例が限られているため、難しい課題である。 したがって、機械学習(ML)ツールのスマートバージョンによる不正検出は、安全性を確保するために不可欠である。 フラッド検出は主要なML分類タスクであるが、対応するMLツールの最適性能は、最適なハイパーパラメータ値の使用に依存する。 さらに、非バランスなクラスによる分類は、ほとんどのML分類手法が無視するマイノリティクラスにおける性能の低下を引き起こすため、非常に困難である。 そこで本研究では,非バランスなクラスを処理して精度を最大化し,偽陽性を同時に低減する,ロジスティック回帰,決定木,ランダム森林,極端な勾配向上の4つの最先端ML手法について検討する。 まず、これらの分類器は、2つの不正検出データセット、すなわちフィッシングウェブサイトURLと不正クレジットカードトランザクションに基づいてトレーニングされる。 次に、サンプリングフレームワーク、すなわちRandomUnderSampler、SMOTE、SMOTEENNを実装することで、元のデータセット毎に3つの合成バランスデータセットを生成する。 全16実験に対する最適ハイパーパラメータはRandomzedSearchCV法を用いて明らかにした。 不正検出の文脈における16のアプローチの有効性を、受信操作特性曲線(AUC ROC)の領域と、精度とリコール曲線(AUC PR)の2つのベンチマークパフォーマンス指標を用いて比較する。 フィッシングWebサイトのURLとクレジットカード詐欺トランザクションデータセットの両方について、元のデータでトレーニングされた極端なグラデーションは、不均衡なデータセットで信頼できるパフォーマンスを示し、AUC ROCとAUC PRの両方で他の3つのメソッドよりも優れていることを示している。

Fraud detection is a challenging task due to the changing nature of fraud patterns over time and the limited availability of fraud examples to learn such sophisticated patterns. Thus, fraud detection with the aid of smart versions of machine learning (ML) tools is essential to assure safety. Fraud detection is a primary ML classification task; however, the optimum performance of the corresponding ML tool relies on the usage of the best hyperparameter values. Moreover, classification under imbalanced classes is quite challenging as it causes poor performance in minority classes, which most ML classification techniques ignore. Thus, we investigate four state-of-the-art ML techniques, namely, logistic regression, decision trees, random forest, and extreme gradient boost, that are suitable for handling imbalance classes to maximize precision and simultaneously reduce false positives. First, these classifiers are trained on two original benchmark unbalanced fraud detection datasets, namely, phishing website URLs and fraudulent credit card transactions. Then, three synthetically balanced datasets are produced for each original data set by implementing the sampling frameworks, namely, RandomUnderSampler, SMOTE, and SMOTEENN. The optimum hyperparameters for all the 16 experiments are revealed using the method RandomzedSearchCV. The validity of the 16 approaches in the context of fraud detection is compared using two benchmark performance metrics, namely, area under the curve of receiver operating characteristics (AUC ROC) and area under the curve of precision and recall (AUC PR). For both phishing website URLs and credit card fraud transaction datasets, the results indicate that extreme gradient boost trained on the original data shows trustworthy performance in the imbalanced dataset and manages to outperform the other three methods in terms of both AUC ROC and AUC PR.
翻訳日:2022-09-07 14:30:29 公開日:2022-09-04
# 半教師対象検出における教師の指導力の向上

Consistent Teacher Provides Better Supervision in Semi-supervised Object Detection ( http://arxiv.org/abs/2209.01589v1 )

ライセンス: Link先を確認
Xinjiang Wang, Xingyi Yang, Shilong Zhang, Yijiang Li, Litong Feng, Shijie Fang, Chengqi Lyu, Kai Chen, Wayne Zhang(参考訳) 本研究では,半教師対象検出(SSOD)におけるユニークな課題を深く掘り下げる。 現在の検出器は一般に3つの矛盾問題に悩まされている。 1)従来の割当て方針が騒音のラベル付けに敏感であることに矛盾がある。 2) サブタスクの不整合: 分類と回帰の予測が同じ特徴点でミスアライメントされる。 3) 時間的不整合, 擬似bボックスは異なるトレーニングステップで劇的に変化する。 これらの問題は、学生ネットワークの不整合最適化目標をもたらし、性能を低下させ、モデルの収束を遅くする。 そこで我々は,上記の課題を解決すべく,一貫した教師という体系的な解決法を提案する。 まず,適応型アンカーアサインは静的IoUベースの戦略に代えて,学生ネットワークがノイズの多いプシュドボックスに耐性を持つようにし,次に,機能アライメントモジュールを設計してサブタスク予測を調整し,最後に擬似ボックス閾値を動的に調整するためにガウス混合モデル(GMM)を採用する。 Consistent Teacherは、幅広いSSOD評価に関する新しい強力なベースラインを提供する。 ResNet-50のバックボーンで40.0mAPを達成し、注釈付きMS-COCOデータの10%しか与えられていない。 完全な注釈付きMS-COCOにラベルなしのデータを追加すると、パフォーマンスはさらに49.1 mAPに向上する。 私たちのコードは近々オープンソース化される予定です。

In this study, we dive deep into the unique challenges in semi-supervised object detection~(SSOD). We observe that current detectors generally suffer from 3 inconsistency problems. 1) Assignment inconsistency, that the conventional assignment policy is sensitive to labeling noise. 2) Subtasks inconsistency, where the classification and regression predictions are misaligned at the same feature point. 3) Temporal inconsistency, that the pseudo bboxes vary dramatically at different training steps. These issues lead to inconsistent optimization objectives of the student network, thus deteriorating performance and slowing down the model convergence. We, therefore, propose a systematic solution, termed Consistent Teacher, to remedy the above-mentioned challenges. First, adaptive anchor assignment substitutes the static IoU-based strategy, which enables the student network to be resistant to noisy psudo bboxes; Then we calibrate the subtask predictions by designing a feature alignment module; Lastly, We adopt a Gaussian Mixture Model (GMM) to dynamically adjust the pseudo-boxes threshold. Consistent Teacher provides a new strong baseline on a large range of SSOD evaluations. It achieves 40.0 mAP with ResNet-50 backbone given only 10% of annotated MS-COCO data, which surpasses previous baselines using pseudo labels by around 4 mAP. When trained on fully annotated MS-COCO with additional unlabeled data, the performance further increases to 49.1 mAP. Our code will be open-sourced soon.
翻訳日:2022-09-07 14:03:54 公開日:2022-09-04
# クロスセンシングハイパースペクトル画像分類のための単一ソース領域拡張ネットワーク

Single-source Domain Expansion Network for Cross-Scene Hyperspectral Image Classification ( http://arxiv.org/abs/2209.01634v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Wei Li, Weidong Sun, Ran Tao, Qian Du(参考訳) 現在、クロスシーン超スペクトル画像(hsi)の分類が注目されている。 ソースドメイン(sd)上でのみモデルをトレーニングし、tdがリアルタイムに処理され、トレーニングに再利用できない場合に、モデルを直接ターゲットドメイン(td)に転送する必要がある。 ドメイン一般化の考え方に基づき、ドメイン拡張の信頼性と有効性を保証するためにsdenet(single-source domain expansion network)が開発された。 この方法は、生成的逆境学習を用いてSDで訓練し、TDでテストする。 意味エンコーダとモルヒックエンコーダを含むジェネレータは、空間的およびスペクトル的ランダム化が可変空間およびスペクトル情報を生成するために特に使用されるエンコーダ・ランダム化・デコーダアーキテクチャに基づいて拡張ドメイン(ED)を生成するように設計され、その形態的知識はドメイン拡張中にドメイン不変情報として暗黙的に適用される。 さらに、教師付きコントラスト学習を判別器で使用し、sdおよびedのクラス内サンプルを駆動するクラスワイズ領域不変表現を学習する。 一方、逆行訓練は、ジェネレータを最適化してSDとEDのクラス内サンプルを分離させるように設計されている。 2つの公開HSIデータセットと1つの追加マルチスペクトル画像(MSI)データセットに対する大規模な実験は、最先端技術と比較して提案手法の優位性を示している。

Currently, cross-scene hyperspectral image (HSI) classification has drawn increasing attention. It is necessary to train a model only on source domain (SD) and directly transferring the model to target domain (TD), when TD needs to be processed in real time and cannot be reused for training. Based on the idea of domain generalization, a Single-source Domain Expansion Network (SDEnet) is developed to ensure the reliability and effectiveness of domain extension. The method uses generative adversarial learning to train in SD and test in TD. A generator including semantic encoder and morph encoder is designed to generate the extended domain (ED) based on encoder-randomization-decoder architecture, where spatial and spectral randomization are specifically used to generate variable spatial and spectral information, and the morphological knowledge is implicitly applied as domain invariant information during domain expansion. Furthermore, the supervised contrastive learning is employed in the discriminator to learn class-wise domain invariant representation, which drives intra-class samples of SD and ED. Meanwhile, adversarial training is designed to optimize the generator to drive intra-class samples of SD and ED to be separated. Extensive experiments on two public HSI datasets and one additional multispectral image (MSI) dataset demonstrate the superiority of the proposed method when compared with state-of-the-art techniques.
翻訳日:2022-09-07 14:03:31 公開日:2022-09-04
# カプセルネットワークを用いた眼周囲NIR画像からのアルコール消費量検出

Alcohol Consumption Detection from Periocular NIR Images Using Capsule Network ( http://arxiv.org/abs/2209.01657v1 )

ライセンス: Link先を確認
Juan Tapia, Enrique Lopez Droguett and Christoph Busch(参考訳) 本研究では,近赤外(NIR)眼球画像からアルコール摂取を検出する手法を提案する。 この研究は、アルコールなどの外的要因が中枢神経系(CNS)に及ぼす影響を決定することに焦点を当てている。 目標は、これが虹彩や瞳孔の動きにどのように影響するかを分析し、標準の虹彩NIRカメラでこれらの変化を捉えられるかどうかを調べることである。 本稿では,アルコール摂取対象の虹彩NIR画像の分類を行う新しいFused Capsule Network(F-CapsNet)を提案する。 その結果、f-capsnetアルゴリズムは、標準カプセルネットワークアルゴリズムとしての半分のパラメータを用いて、92.3%の精度でiris nir画像のアルコール消費量を検出できることがわかった。 本研究は, アルコール摂取による事故の防止と「デューティの満足度」を推定する自動システム開発に向けた一歩である。

This research proposes a method to detect alcohol consumption from Near-Infra-Red (NIR) periocular eye images. The study focuses on determining the effect of external factors such as alcohol on the Central Nervous System (CNS). The goal is to analyse how this impacts on iris and pupil movements and if it is possible to capture these changes with a standard iris NIR camera. This paper proposes a novel Fused Capsule Network (F-CapsNet) to classify iris NIR images taken under alcohol consumption subjects. The results show the F-CapsNet algorithm can detect alcohol consumption in iris NIR images with an accuracy of 92.3% using half of the parameters as the standard Capsule Network algorithm. This work is a step forward in developing an automatic system to estimate "Fitness for Duty" and prevent accidents due to alcohol consumption.
翻訳日:2022-09-07 14:03:04 公開日:2022-09-04
# 近赤外近赤外虹彩画像を用いた勤務適性予測のための学習

Learning to Predict Fitness for Duty using Near Infrared Periocular Iris Images ( http://arxiv.org/abs/2209.01683v1 )

ライセンス: Link先を確認
Juan Tapia, Daniel Benalcazar, Andres Valenzuela, Leonardo Causa, Enrique Lopez Droguett, Christoph Busch(参考訳) 本研究では,近赤外線(nir)眼球画像からのアルコール,薬物摂取,睡眠不足による警告条件の低減を検出するためのデータベースと手法を提案する。 この研究は、中枢神経系(CNS)に対する外部因子の影響を判定することに焦点を当てている。 目標は、これが虹彩や瞳孔の動きに与える影響を分析し、これらの変化を標準の虹彩捕獲装置で分類できるかどうかを分析することである。 本稿では,アルコール/ドラッグ/スリープ性の影響下で被験者から採取した虹彩NIR画像を分類するMobileNetV2を提案する。 その結果,MobileNetV2をベースとした分類器は,アルコール摂取後に採取した虹彩検体から不適合診断条件を検出でき,薬物摂取量も91.3%,99.1%と良好に検出できることがわかった。 睡眠状態は72.4%と最も困難である。 Fit/Unfitクラスに属する2種類のグループ画像に対して、標準のDeep Learning Networkアルゴリズムよりも少ないパラメータを用いて、それぞれ94.0%と84.0%の精度を得た。 本研究は,「勤務適性」を分類し,アルコール・薬物摂取・眠気による事故を防止する自動システムを開発するためのバイオメトリック応用の一歩である。

This research proposes a new database and method to detect the reduction of alertness conditions due to alcohol, drug consumption and sleepiness deprivation from Near-Infra-Red (NIR) periocular eye images. The study focuses on determining the effect of external factors on the Central Nervous System (CNS). The goal is to analyse how this impacts iris and pupil movement behaviours and if it is possible to classify these changes with a standard iris NIR capture device. This paper proposes a modified MobileNetV2 to classify iris NIR images taken from subjects under alcohol/drugs/sleepiness influences. The results show that the MobileNetV2-based classifier can detect the Unfit alertness condition from iris samples captured after alcohol and drug consumption robustly with a detection accuracy of 91.3% and 99.1%, respectively. The sleepiness condition is the most challenging with 72.4%. For two-class grouped images belonging to the Fit/Unfit classes, the model obtained an accuracy of 94.0% and 84.0%, respectively, using a smaller number of parameters than the standard Deep learning Network algorithm. This work is a step forward in biometric applications for developing an automatic system to classify "Fitness for Duty" and prevent accidents due to alcohol/drug consumption and sleepiness.
翻訳日:2022-09-07 14:02:47 公開日:2022-09-04
# task-aware contrastive learning による髄膜腫と脳浸潤の同時予測

Joint Prediction of Meningioma Grade and Brain Invasion via Task-Aware Contrastive Learning ( http://arxiv.org/abs/2209.01517v1 )

ライセンス: Link先を確認
Tianling Liu and Wennan Liu and Lequan Yu and Liang Wan and Tong Han and Lei Zhu(参考訳) 髄膜腫の術前および非侵襲的予測は,臨床診断に直接的な影響を及ぼすため,臨床実践において重要である。 さらに、髄膜腫の脳浸潤(すなわち、隣接する脳組織内に腫瘍組織が存在すること)は髄膜腫の分解の独立した基準であり、治療戦略に影響を与える。 これら2つのタスクに対処する努力が報告されているが、その多くは手作りの機能に依存しており、2つの予測タスクを同時に利用する試みはない。 本稿では,マルチモーダルMRIによる髄膜腫グレードと脳浸潤を共同で予測するタスク対応コントラスト学習アルゴリズムを提案する。 基本的マルチタスク学習フレームワークをベースとして,画像特徴をタスク固有の特徴やタスク共通特徴に分解するコントラスト学習戦略を導入し,それら固有の関係を明示的に活用して,2つの予測タスクの特徴表現を改善する。 この回顧調査では, 800例(高次148例, 62例)の髄膜腫と診断し, 病理組織学的検討を行った。 実験の結果, 提案アルゴリズムは, 髄膜腫と脳浸潤の予測において, AUCの0:8870と0:9787をそれぞれ達成し, 代替マルチタスク学習法よりも優れていた。 コードはhttps://github.com/IsDling/predictTCLで公開されている。

Preoperative and noninvasive prediction of the meningioma grade is important in clinical practice, as it directly influences the clinical decision making. What's more, brain invasion in meningioma (i.e., the presence of tumor tissue within the adjacent brain tissue) is an independent criterion for the grading of meningioma and influences the treatment strategy. Although efforts have been reported to address these two tasks, most of them rely on hand-crafted features and there is no attempt to exploit the two prediction tasks simultaneously. In this paper, we propose a novel task-aware contrastive learning algorithm to jointly predict meningioma grade and brain invasion from multi-modal MRIs. Based on the basic multi-task learning framework, our key idea is to adopt contrastive learning strategy to disentangle the image features into task-specific features and task-common features, and explicitly leverage their inherent connections to improve feature representation for the two prediction tasks. In this retrospective study, an MRI dataset was collected, for which 800 patients (containing 148 high-grade, 62 invasion) were diagnosed with meningioma by pathological analysis. Experimental results show that the proposed algorithm outperforms alternative multi-task learning methods, achieving AUCs of 0:8870 and 0:9787 for the prediction of meningioma grade and brain invasion, respectively. The code is available at https://github.com/IsDling/predictTCL.
翻訳日:2022-09-07 13:55:55 公開日:2022-09-04
# 皮膚病変分類のためのデータ駆動Deep Supervision

Data-Driven Deep Supervision for Skin Lesion Classification ( http://arxiv.org/abs/2209.01527v1 )

ライセンス: Link先を確認
Suraj Mishra, Yizhe Zhang, Li Zhang, Tianyu Zhang, X. Sharon Hu, Danny Z. Chen(参考訳) 近年,色素性,非色素性,脱色素性非メラノサイト性皮膚病変の自動分類が注目されている。 しかし, 肌のテクスチャ, 病変形状, 脱落コントラスト, 照明条件などの画像変化は, 分類精度に影響を及ぼすロバストな特徴抽出を阻害する。 本稿では,入力データを利用してロバストな特徴抽出を行う新しい深層ニューラルネットワークを提案する。 具体的には,畳み込みネットワークの動作(視野)を分析し,特徴抽出の改善のための深い監視の場所を求める。 これを実現するために、私たちはまず、オブジェクトマスクを生成するためのアクティベーションマッピングを行い、分類出力生成に最も重要な入力領域を強調します。 次に、被写体マスクの近似対象形状と層別有効受容場が一致するネットワーク層を、深層監視の焦点として選択する。 3つのメラノーマ検出データセットと2つのヴィチリゴ検出データセットの異なる種類の畳み込み特徴抽出器と分類器を用いて,本手法の有効性を検証する。

Automatic classification of pigmented, non-pigmented, and depigmented non-melanocytic skin lesions have garnered lots of attention in recent years. However, imaging variations in skin texture, lesion shape, depigmentation contrast, lighting condition, etc. hinder robust feature extraction, affecting classification accuracy. In this paper, we propose a new deep neural network that exploits input data for robust feature extraction. Specifically, we analyze the convolutional network's behavior (field-of-view) to find the location of deep supervision for improved feature extraction. To achieve this, first, we perform activation mapping to generate an object mask, highlighting the input regions most critical for classification output generation. Then the network layer whose layer-wise effective receptive field matches the approximated object shape in the object mask is selected as our focus for deep supervision. Utilizing different types of convolutional feature extractors and classifiers on three melanoma detection datasets and two vitiligo detection datasets, we verify the effectiveness of our new method.
翻訳日:2022-09-07 13:55:27 公開日:2022-09-04
# マスク視覚モデルを用いたエンドツーエンドビデオ言語変換器の実証的研究

An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling ( http://arxiv.org/abs/2209.01540v1 )

ライセンス: Link先を確認
Tsu-Jui Fu and Linjie Li and Zhe Gan and Kevin Lin and William Yang Wang and Lijuan Wang and Zicheng Liu(参考訳) Masked Visual Modeling (MVM)は視覚前トレーニングに有効であることが最近証明されている。 ビデオ入力に関する同様の再構成目的(例えば、マスクフレームモデリング)は、ビデオ言語(VidL)事前トレーニングで検討されているが、以前の研究で抽出されたビデオ機能は、事前トレーニング中にMVMによって洗練されず、不満足なダウンストリーム性能をもたらす。 本研究では,VidL学習におけるMVMの可能性について,系統的に検討する。 具体的には、固定されたビデオ表現とMVMトレーニングの切断を緩和する、完全なエンドツーエンドVIOLET(VIdeO-LanguagE Transformer)に基づく。 低レベル画素値と配向勾配から高レベル深度マップ,光フロー,離散的視覚トークン,潜時視覚特徴に至るまで,MVMの8つの異なる再構成対象を探索した。 我々は総合的な実験を行い、MVMの効果的なトレーニングにつながる要因について洞察を提供する。 ビデオ質問応答,ビデオキャプション,テキスト・ツー・ビデオ検索など,13のVidLベンチマークにおいて,MVM目標で事前学習したVIOLETが顕著に改善されていることを示す。

Masked visual modeling (MVM) has been recently proven effective for visual pre-training. While similar reconstructive objectives on video inputs (e.g., masked frame modeling) have been explored in video-language (VidL) pre-training, the pre-extracted video features in previous studies cannot be refined through MVM during pre-training, and thus leading to unsatisfactory downstream performance. In this work, we systematically examine the potential of MVM in the context of VidL learning. Specifically, we base our study on a fully end-to-end VIdeO-LanguagE Transformer (VIOLET), which mitigates the disconnection between fixed video representations and MVM training. In total, eight different reconstructive targets of MVM are explored, from low-level pixel values and oriented gradients to high-level depth maps, optical flow, discrete visual tokens and latent visual features. We conduct comprehensive experiments and provide insights on the factors leading to effective MVM training. Empirically, we show VIOLET pre-trained with MVM objective achieves notable improvements on 13 VidL benchmarks, ranging from video question answering, video captioning, to text-to-video retrieval.
翻訳日:2022-09-07 13:55:10 公開日:2022-09-04
# 二元系ニューラルネットワークの繰り返し双線型最適化

Recurrent Bilinear Optimization for Binary Neural Networks ( http://arxiv.org/abs/2209.01542v1 )

ライセンス: Link先を確認
Sheng Xu, Yanjing Li, Tiancheng Wang, Teli Ma, Baochang Zhang, Peng Gao, Yu Qiao, Jinhu Lv and Guodong Guo(参考訳) バイナリニューラルネットワーク(BNN)は、現実世界の組み込みデバイスに非常に有望である。 強力なBNNを実現するための重要なステップの1つとして、スケールファクターの計算は、実際の評価値に対するパフォーマンスギャップを減らす上で重要な役割を果たす。 しかし、既存のbnnは実値重みとスケール因子の固有双線型関係を無視し、不十分なトレーニングプロセスによって生じる最適以下のモデルとなる。 この問題に対処するために,BNN(RBONN)の学習過程を改善するために,バック伝搬過程における固有双線形変数を関連付けることを提案する。 私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。 具体的には,リカレント最適化と密度reluを用いて,実値の少ない重み付きフィルタを逐次バックトラックし,制御可能な学習プロセスに基づいて,その性能限界に達する。 我々は、様々なモデルやデータセット上で最先端のBNNよりも優れた性能を示す頑健なRBONNを得る。 特にオブジェクト検出のタスクにおいて、RBONNは高い一般化性能を持つ。 私たちのコードはhttps://github.com/SteveTsui/RBONNで公開されています。

Binary Neural Networks (BNNs) show great promise for real-world embedded devices. As one of the critical steps to achieve a powerful BNN, the scale factor calculation plays an essential role in reducing the performance gap to their real-valued counterparts. However, existing BNNs neglect the intrinsic bilinear relationship of real-valued weights and scale factors, resulting in a sub-optimal model caused by an insufficient training process. To address this issue, Recurrent Bilinear Optimization is proposed to improve the learning process of BNNs (RBONNs) by associating the intrinsic bilinear variables in the back propagation process. Our work is the first attempt to optimize BNNs from the bilinear perspective. Specifically, we employ a recurrent optimization and Density-ReLU to sequentially backtrack the sparse real-valued weight filters, which will be sufficiently trained and reach their performance limits based on a controllable learning process. We obtain robust RBONNs, which show impressive performance over state-of-the-art BNNs on various models and datasets. Particularly, on the task of object detection, RBONNs have great generalization performance. Our code is open-sourced on https://github.com/SteveTsui/RBONN .
翻訳日:2022-09-07 13:54:48 公開日:2022-09-04
# POMDPの解決としてのシステム解釈 : 機関の正式な理解に向けて

Interpreting systems as solving POMDPs: a step towards a formal understanding of agency ( http://arxiv.org/abs/2209.01619v1 )

ライセンス: Link先を確認
Martin Biehl and Nathaniel Virgo(参考訳) どのような状況下において,システムには信念と目標があり,そのようなエージェント関連の機能は物理的状態とどのように関係するのか? 近年の研究では、システムの状態が外部世界に対する信念を表す確率分布にマップされる機能である解釈マップの概念が提案されている。 そのような写像は完全に任意ではない、なぜなら、その信念はベイズの定理と一致する方法で時間とともに進化しなければならず、従ってシステムのダイナミクスはその可能な解釈を制約しなければならないからである。 ここでは、このアプローチに基づいて、信念だけでなく、目標や行動の観点からも解釈の概念を提案します。 このために我々は、部分的に観測可能なマルコフ過程(英語版)(POMDP)の既存の理論を利用する: システムは、POMDPの隠蔽状態に関する信念を記述した解釈写像を許容するだけでなく、その信念状態に応じて最適な行動を取る場合、POMDPの解として解釈できる。 エージェントはシステムであり、このシステムをPOMDPソリューションとして解釈する。 POMDPは、それが目的を持つことを意味することの唯一の可能な定式化ではないが、それでも、システムがエージェントであることを意味するより一般的な公式な定義への一歩である。

Under what circumstances can a system be said to have beliefs and goals, and how do such agency-related features relate to its physical state? Recent work has proposed a notion of interpretation map, a function that maps the state of a system to a probability distribution representing its beliefs about an external world. Such a map is not completely arbitrary, as the beliefs it attributes to the system must evolve over time in a manner that is consistent with Bayes' theorem, and consequently the dynamics of a system constrain its possible interpretations. Here we build on this approach, proposing a notion of interpretation not just in terms of beliefs but in terms of goals and actions. To do this we make use of the existing theory of partially observable Markov processes (POMDPs): we say that a system can be interpreted as a solution to a POMDP if it not only admits an interpretation map describing its beliefs about the hidden state of a POMDP but also takes actions that are optimal according to its belief state. An agent is then a system together with an interpretation of this system as a POMDP solution. Although POMDPs are not the only possible formulation of what it means to have a goal, this nevertheless represents a step towards a more general formal definition of what it means for a system to be an agent.
翻訳日:2022-09-07 13:43:02 公開日:2022-09-04
# 多言語多言語ニューラルマシン翻訳のための情報言語表現学習

Informative Language Representation Learning for Massively Multilingual Neural Machine Translation ( http://arxiv.org/abs/2209.01530v1 )

ライセンス: Link先を確認
Renren Jin and Deyi Xiong(参考訳) すべての言語でパラメータを完全に共有する多言語ニューラルネットワーク翻訳モデルでは、通常、人工言語トークンが望ましいターゲット言語への翻訳を誘導するために使用される。 しかし、最近の研究では、予測される言語トークンは、特にゼロショット翻訳において、多言語ニューラルマシン翻訳モデルから正しい翻訳方向へのナビゲートに失敗することがある。 この問題を軽減するために,言語埋め込み具現化法と言語認識型多頭注意法という2つの手法を提案する。 前者言語は、ソースからターゲットへの情報の流れに沿って異なる臨界切替点に埋め込み、翻訳方向案内信号の増幅を目的としている。 後者は、連続空間における言語を表現するためにベクトルの代わりに行列を利用する。 行列は、複数の部分空間で言語表現を学ぶために、複数のヘッドに分割される。 大規模多言語ニューラルマシン翻訳のための2つのデータセットの実験結果は、言語対応のマルチヘッド注意が教師付き翻訳とゼロショット翻訳の両方に有益であり、ターゲット外の翻訳問題を著しく軽減することを示している。 さらなる言語型学予測実験により,本手法で学習した行列型言語表現は,豊かな言語型学の特徴を捉えることができることが示された。

In a multilingual neural machine translation model that fully shares parameters across all languages, an artificial language token is usually used to guide translation into the desired target language. However, recent studies show that prepending language tokens sometimes fails to navigate the multilingual neural machine translation models into right translation directions, especially on zero-shot translation. To mitigate this issue, we propose two methods, language embedding embodiment and language-aware multi-head attention, to learn informative language representations to channel translation into right directions. The former embodies language embeddings into different critical switching points along the information flow from the source to the target, aiming at amplifying translation direction guiding signals. The latter exploits a matrix, instead of a vector, to represent a language in the continuous space. The matrix is chunked into multiple heads so as to learn language representations in multiple subspaces. Experiment results on two datasets for massively multilingual neural machine translation demonstrate that language-aware multi-head attention benefits both supervised and zero-shot translation and significantly alleviates the off-target translation issue. Further linguistic typology prediction experiments show that matrix-based language representations learned by our methods are capable of capturing rich linguistic typology features.
翻訳日:2022-09-07 13:33:15 公開日:2022-09-04
# トピックと深部変動モデルを用いた解釈可能なフェイクニュース検出

Interpretable Fake News Detection with Topic and Deep Variational Models ( http://arxiv.org/abs/2209.01536v1 )

ライセンス: Link先を確認
Marjan Hosseini, Alireza Javadian Sabet, Suining He, and Derek Aguiar(参考訳) ソーシャルメディアへの社会的依存が高まり、ニュースや情報に対するユーザー生成コンテンツへの依存が高まり、信頼できない情報源や偽コンテンツの影響が増大し、メディアへの信頼が低下する。 このような情報の信頼性を検証することは、確認バイアスの影響を受けやすい作業であり、偽ニュースと実ニュースを区別するアルゴリズム技術の開発につながる。 しかし、既存の手法の多くは解釈が難しく、予測への信頼を確立するのが難しく、実世界のシナリオの多くで非現実的な仮定をするのも困難である。 本研究では,解釈可能な特徴と手法を用いたテキストコンテンツの偽ニュース検出に焦点を当てた。 特に,変分オートエンコーダと双方向長短期記憶(LSTM)ネットワークを用いて,ベイジアンアドミキチャーモデルから推定されるセマンティックトピック関連特徴を持つテキストニュースの高密度表現を統合した深層確率モデルを開発した。 3つの実世界のデータセットによる大規模な実験により、我々のモデルは最先端の競合モデルに匹敵する性能を達成し、学習したトピックからモデルの解釈可能性を促進することを示した。 最後に,低次元埋め込みにおける分離性による性能評価と質的評価により,ニューラル埋め込みとトピック特徴の統合の有効性と精度を定量的に評価するモデルアブレーション研究を行った。

The growing societal dependence on social media and user generated content for news and information has increased the influence of unreliable sources and fake content, which muddles public discourse and lessens trust in the media. Validating the credibility of such information is a difficult task that is susceptible to confirmation bias, leading to the development of algorithmic techniques to distinguish between fake and real news. However, most existing methods are challenging to interpret, making it difficult to establish trust in predictions, and make assumptions that are unrealistic in many real-world scenarios, e.g., the availability of audiovisual features or provenance. In this work, we focus on fake news detection of textual content using interpretable features and methods. In particular, we have developed a deep probabilistic model that integrates a dense representation of textual news using a variational autoencoder and bi-directional Long Short-Term Memory (LSTM) networks with semantic topic-related features inferred from a Bayesian admixture model. Extensive experimental studies with 3 real-world datasets demonstrate that our model achieves comparable performance to state-of-the-art competing models while facilitating model interpretability from the learned topics. Finally, we have conducted model ablation studies to justify the effectiveness and accuracy of integrating neural embeddings and topic features both quantitatively by evaluating performance and qualitatively through separability in lower dimensional embeddings.
翻訳日:2022-09-07 13:32:52 公開日:2022-09-04
# すべての絵が物語を語る: イメージグラウンド制御可能なスタイリスティックなストーリー生成

Every picture tells a story: Image-grounded controllable stylistic story generation ( http://arxiv.org/abs/2209.01638v1 )

ライセンス: Link先を確認
Holy Lovenia, Bryan Wilie, Romain Barraud, Samuel Cahyawijaya, Willy Chung, Pascale Fung(参考訳) イメージから短いストーリーを生成するのは大変なことです。 画像キャプションとは異なり、画像からのストーリー生成は、ストーリーの一貫性を保ち、ストーリーの品質を適切に評価し、生成されたストーリーを特定のスタイルに操り、トレーニング中の監督を制限するイメージとストーリーのペアリファレンスデータセットの不足に対処するという、複数の課題を提起する。 本稿では, PPST (Plug-and-Play Story Teller) を導入し, イメージ・ツー・ストーリー生成を改善する。 1)クリップとgpt-2という大規模事前学習モデルの導入によるデータ不足問題の軽減と、最小限の監督による流麗な画像からテキストへの生成の促進 2)スタイリスティックなアダプタを組み込んでストーリー生成を制御することで,よりスタイルに関連した生成を可能にする。 我々は,非スタイル,ロマンススタイル,アクションスタイルのppstアプローチを用いて,画像からストーリーへの生成実験を行い,自動評価とヒューマン評価の両方を用いて,これまでの3つの側面,すなわちストーリーコヒーレンス,イメージストーリーの関連性,スタイル適合性の比較を行った。 その結果,PPSTはストーリーコヒーレンスを向上し,画像とストーリーの関連性も向上することがわかった。

Generating a short story out of an image is arduous. Unlike image captioning, story generation from an image poses multiple challenges: preserving the story coherence, appropriately assessing the quality of the story, steering the generated story into a certain style, and addressing the scarcity of image-story pair reference datasets limiting supervision during training. In this work, we introduce Plug-and-Play Story Teller (PPST) and improve image-to-story generation by: 1) alleviating the data scarcity problem by incorporating large pre-trained models, namely CLIP and GPT-2, to facilitate a fluent image-to-text generation with minimal supervision, and 2) enabling a more style-relevant generation by incorporating stylistic adapters to control the story generation. We conduct image-to-story generation experiments with non-styled, romance-styled, and action-styled PPST approaches and compare our generated stories with those of previous work over three aspects, i.e., story coherence, image-story relevance, and style fitness, using both automatic and human evaluation. The results show that PPST improves story coherence and has better image-story relevance, but has yet to be adequately stylistic.
翻訳日:2022-09-07 13:32:26 公開日:2022-09-04
# SCL-RAI:NERにおける未ラベルエンティティ問題に対する検索拡張推論を用いたスパン型コントラスト学習

SCL-RAI: Span-based Contrastive Learning with Retrieval Augmented Inference for Unlabeled Entity Problem in NER ( http://arxiv.org/abs/2209.01646v1 )

ライセンス: Link先を確認
Shuzheng Si, Shuang Zeng, Jiaxing Lin, Baobao Chang(参考訳) 名前付きエンティティ認識は、テキスト内のエンティティを見つけて分類するタスクである。 しかし、NERデータセットのUnlabeled Entity Problemは、NERのパフォーマンスを著しく損なう。 本稿では,この問題に対処するためのSCL-RAIを提案する。 まず,異なるラベルで表現するスパンの距離を減らし,異なるラベルで表現するコントラスト学習を行うことにより,エンティティ間のあいまいさを軽減し,ラベルのないエンティティに対するモデルの堅牢性を向上させる。 そこで我々は,決定境界シフト問題を緩和する検索拡張推論を提案する。 本手法は,2つの実世界のデータセットにおいて,従来のSOTA法よりも4.21%,F1スコアが8.64%向上した。

Named Entity Recognition is the task to locate and classify the entities in the text. However, Unlabeled Entity Problem in NER datasets seriously hinders the improvement of NER performance. This paper proposes SCL-RAI to cope with this problem. Firstly, we decrease the distance of span representations with the same label while increasing it for different ones via span-based contrastive learning, which relieves the ambiguity among entities and improves the robustness of the model over unlabeled entities. Then we propose retrieval augmented inference to mitigate the decision boundary shifting problem. Our method significantly outperforms the previous SOTA method by 4.21% and 8.64% F1-score on two real-world datasets.
翻訳日:2022-09-07 13:32:00 公開日:2022-09-04
# ArgLegalSumm:Argument Miningによる法的文書の抽象要約の改善

ArgLegalSumm: Improving Abstractive Summarization of Legal Documents with Argument Mining ( http://arxiv.org/abs/2209.01650v1 )

ライセンス: Link先を確認
Mohamed Elaraby, Diane Litman(参考訳) 法的文書の要約を生成する上で難しい課題は、議論的な性質に対処する能力である。 本稿では,議論ロールラベリングを要約プロセスに統合することにより,法律文書の議論構造を捉えるための簡単な手法を提案する。 事前学習型言語モデルによる実験により,提案手法は強ベースラインよりも性能を向上させることが示された。

A challenging task when generating summaries of legal documents is the ability to address their argumentative nature. We introduce a simple technique to capture the argumentative structure of legal documents by integrating argument role labeling into the summarization process. Experiments with pretrained language models show that our proposed approach improves performance over strong baselines
翻訳日:2022-09-07 13:31:49 公開日:2022-09-04
# 差分監査によるデータ漏洩

Data Provenance via Differential Auditing ( http://arxiv.org/abs/2209.01538v1 )

ライセンス: Link先を確認
Xin Mu, Ming Pang, Feida Zhu(参考訳) ADP(Auditing Data Provenance, Auditing Data Provenance)とは、機械学習モデルのトレーニングに特定のデータが使用されているかどうかを監査することである。 この課題の実現性は、ラベル情報の提供や目標モデルのトレーニングプロトコルの知識といった特定の条件下で、例えばシャドウ監査手法のような既存の監査手法によって実証されてきた。 残念ながら、どちらの条件も実際のアプリケーションでは利用できないことが多い。 本稿では,統計学的に有意な差分に基づいて,異なるアプローチでデータの監査を行うための実用的なフレームワークである差分監査(dpda)によるデータプロヴァンスについて紹介する。 このフレームワークでは、ラベル付き出力データを使ってシャドウモデルをトレーニングすることなく、監査者がトレーニングデータとトレーニングデータとを区別することができる。 さらに,2つの効果的な監査機能実装,加算関数と乗算関数を提案する。 提案する監査手法の有効性を示す実世界のデータセットの評価を報告する。

Auditing Data Provenance (ADP), i.e., auditing if a certain piece of data has been used to train a machine learning model, is an important problem in data provenance. The feasibility of the task has been demonstrated by existing auditing techniques, e.g., shadow auditing methods, under certain conditions such as the availability of label information and the knowledge of training protocols for the target model. Unfortunately, both of these conditions are often unavailable in real applications. In this paper, we introduce Data Provenance via Differential Auditing (DPDA), a practical framework for auditing data provenance with a different approach based on statistically significant differentials, i.e., after carefully designed transformation, perturbed input data from the target model's training set would result in much more drastic changes in the output than those from the model's non-training set. This framework allows auditors to distinguish training data from non-training ones without the need of training any shadow models with the help of labeled output data. Furthermore, we propose two effective auditing function implementations, an additive one and a multiplicative one. We report evaluations on real-world data sets demonstrating the effectiveness of our proposed auditing technique.
翻訳日:2022-09-07 13:08:53 公開日:2022-09-04
# cnn心筋mrセグメンテーションにおける人種と性バイアスの系統的研究

A systematic study of race and sex bias in CNN-based cardiac MR segmentation ( http://arxiv.org/abs/2209.01627v1 )

ライセンス: Link先を確認
Tiarna Lee, Esther Puyol-Anton, Bram Ruijsink, Miaojing Shi, and Andrew P. King(参考訳) コンピュータビジョンでは、ディープラーニングモデルにおける潜在的な人口統計バイアスを評価することに大きな研究関心が寄せられている。 このようなバイアスの主な原因の1つは、トレーニングデータの不均衡である。 バイアスの潜在的影響がはるかに大きい医療画像では、あまり関心が寄せられていない。 医用イメージングパイプラインでは、興味のある構造の分割は、患者の管理に使用される臨床バイオマーカーを推定する上で重要な役割を果たす。 畳み込みニューラルネットワーク(CNN)はこのプロセスを自動化するために使われ始めている。 CNNを用いたセグメンテーションにおいて,トレーニングセットの不均衡が人種や性バイアスに与える影響について,最初の系統的研究を行った。 本研究は,短軸シン心磁気共鳴画像から心構造を抽出し,人種/性不均衡の異なる複数のCNNセグメンテーションモデルを訓練する。 性別実験では有意な偏見はないが、2つの異なる人種実験では有意な偏見が見られ、健康データセットにおける異なる人口集団の適切な表現を検討する必要性が強調された。

In computer vision there has been significant research interest in assessing potential demographic bias in deep learning models. One of the main causes of such bias is imbalance in the training data. In medical imaging, where the potential impact of bias is arguably much greater, there has been less interest. In medical imaging pipelines, segmentation of structures of interest plays an important role in estimating clinical biomarkers that are subsequently used to inform patient management. Convolutional neural networks (CNNs) are starting to be used to automate this process. We present the first systematic study of the impact of training set imbalance on race and sex bias in CNN-based segmentation. We focus on segmentation of the structures of the heart from short axis cine cardiac magnetic resonance images, and train multiple CNN segmentation models with different levels of race/sex imbalance. We find no significant bias in the sex experiment but significant bias in two separate race experiments, highlighting the need to consider adequate representation of different demographic groups in health datasets.
翻訳日:2022-09-07 13:01:58 公開日:2022-09-04
# データ依存型カーネルによるカーネル回帰について

On Kernel Regression with Data-Dependent Kernels ( http://arxiv.org/abs/2209.01691v1 )

ライセンス: Link先を確認
James B. Simon(参考訳) カーネル回帰(KR)における主要なハイパーパラメータは、カーネルの選択である。 KRのほとんどの理論的研究において、カーネルはトレーニングデータを見る前に固定されていると仮定する。 この仮定の下では、最適核は対象関数の先行共分散と等しいことが知られている。 本稿では、トレーニングデータを見た後にカーネルを更新できるKRについて考察する。 この設定では、ターゲット関数の後部を用いたカーネルの類似的な選択が最適であることを示す。 データ依存型カーネル学習者としてのディープニューラルネットワークの視点への接続について論じる。

The primary hyperparameter in kernel regression (KR) is the choice of kernel. In most theoretical studies of KR, one assumes the kernel is fixed before seeing the training data. Under this assumption, it is known that the optimal kernel is equal to the prior covariance of the target function. In this note, we consider KR in which the kernel may be updated after seeing the training data. We point out that an analogous choice of kernel using the posterior of the target function is optimal in this setting. Connections to the view of deep neural networks as data-dependent kernel learners are discussed.
翻訳日:2022-09-07 12:58:36 公開日:2022-09-04
# マルチモーダルマスクオートエンコーダは構成的病理組織学的表現を学習する

Multi-modal Masked Autoencoders Learn Compositional Histopathological Representations ( http://arxiv.org/abs/2209.01534v1 )

ライセンス: Link先を確認
Wisdom Oluchi Ikezogwo, Mehmet Saygin Seyfioglu, Linda Shapiro(参考訳) 自己教師付き学習(SSL)は、ラベルを必要としないプレテキストタスクを利用することで、有益な帰納バイアスの学習を可能にする。 SSLのラベルのない性質は、パッチレベルの人間のアノテーションが難しいスライド組織像全体(WSI)において特に重要である。 Masked Autoencoders (MAE) は、ネガティブサンプリングを必要とせず、データ拡張をほとんど必要とせず、デジタル病理学に適した最近のSSLメソッドである。 しかし、自然画像とデジタル病理画像とのドメインシフトは、パッチレベルのWSIのためのMAEの設計においてさらなる研究が必要である。 本稿では, 病理組織学におけるMAEの設計選択について検討する。 さらに,Hematoxylin & Eosin(H&E)染色WSIの特異な組成性を利用した多モードMAE(MMAE)を導入する。 公開パッチレベルのデータセットNCT-CRC-HE-100Kで実験を行った。 その結果,MMAEアーキテクチャは8種類の組織表現型タスクにおいて,教師付きベースラインや他の最先端SSL技術よりも優れており,100個のラベル付きサンプルのみを用いて微調整を行った。 私たちのコードはhttps://github.com/wisdomikezogwo/mmae_pathologyで利用可能です。

Self-supervised learning (SSL) enables learning useful inductive biases through utilizing pretext tasks that require no labels. The unlabeled nature of SSL makes it especially important for whole slide histopathological images (WSIs), where patch-level human annotation is difficult. Masked Autoencoders (MAE) is a recent SSL method suitable for digital pathology as it does not require negative sampling and requires little to no data augmentations. However, the domain shift between natural images and digital pathology images requires further research in designing MAE for patch-level WSIs. In this paper, we investigate several design choices for MAE in histopathology. Furthermore, we introduce a multi-modal MAE (MMAE) that leverages the specific compositionality of Hematoxylin & Eosin (H&E) stained WSIs. We performed our experiments on the public patch-level dataset NCT-CRC-HE-100K. The results show that the MMAE architecture outperforms supervised baselines and other state-of-the-art SSL techniques for an eight-class tissue phenotyping task, utilizing only 100 labeled samples for fine-tuning. Our code is available at https://github.com/wisdomikezogwo/MMAE_Pathology
翻訳日:2022-09-07 12:56:16 公開日:2022-09-04
# 胸部x線レポート生成のためのコントラスト学習前訓練による代表画像特徴抽出

Representative Image Feature Extraction via Contrastive Learning Pretraining for Chest X-ray Report Generation ( http://arxiv.org/abs/2209.01604v1 )

ライセンス: Link先を確認
Yu-Jen Chen, Wei-Hsiang Shen, Hao-Wei Chung, Jing-Hao Chiu, Da-Cheng Juan, Tsung-Ying Ho, Chi-Tung Cheng, Meng-Lin Li, Tsung-Yi Ho(参考訳) 医療報告の生成は、時間がかかり、経験豊富な放射線技師の専門知識を必要とするため、難しい課題である。 医療レポート生成の目標は、画像所見を正確に捉えて記述することである。 以前の研究では、異なるドメインの巨大なデータセットを持つニューラルネットワークのビジュアルエンコーディングを事前トレーニングしており、特定の医療領域で一般的な視覚的表現を学べない。 本研究では,視覚エンコーダの事前学習にコントラスト学習手法を用い,追加のメタ情報を必要としない医用レポート生成フレームワークを提案する。 また, コントラスト学習の枠組みでは, 肺分節を増補法として採用する。 このセグメンテーションは、ネットワークが肺領域の視覚特徴のエンコーディングに集中するように導く。 実験結果から,提案手法は医療報告の性能と質を定量的かつ質的に改善することが示された。

Medical report generation is a challenging task since it is time-consuming and requires expertise from experienced radiologists. The goal of medical report generation is to accurately capture and describe the image findings. Previous works pretrain their visual encoding neural networks with large datasets in different domains, which cannot learn general visual representation in the specific medical domain. In this work, we propose a medical report generation framework that uses a contrastive learning approach to pretrain the visual encoder and requires no additional meta information. In addition, we adopt lung segmentation as an augmentation method in the contrastive learning framework. This segmentation guides the network to focus on encoding the visual feature within the lung region. Experimental results show that the proposed framework improves the performance and the quality of the generated medical reports both quantitatively and qualitatively.
翻訳日:2022-09-07 12:55:56 公開日:2022-09-04
# 潜在表現学習による条件付き独立テスト

Conditional Independence Testing via Latent Representation Learning ( http://arxiv.org/abs/2209.01547v1 )

ライセンス: Link先を確認
Bao Duong and Thin Nguyen(参考訳) 条件付き無依存の検出は、いくつかの統計および機械学習タスク、特に因果発見アルゴリズムにおいて重要な役割を果たす。 本研究では,表現学習に基づく条件付き独立性テストのための新しい非パラメトリック手法であるlcit(latent representation based conditional independence test)を提案する。 我々の主な貢献は、Z が与えられた X と Y の独立性をテストするための生成フレームワークの提案であり、まず条件変数 Z に関する情報を持たない対象変数 X と Y の潜在表現を推論することである。 実験的な評価では、LCITは様々な評価基準の下で一貫していくつかの最先端のベースラインを上回り、多様な合成データセットと実データセットのコレクションにおいて、非線形および高次元の両方に順応することができる。

Detecting conditional independencies plays a key role in several statistical and machine learning tasks, especially in causal discovery algorithms. In this study, we introduce LCIT (Latent representation based Conditional Independence Test)-a novel non-parametric method for conditional independence testing based on representation learning. Our main contribution involves proposing a generative framework in which to test for the independence between X and Y given Z, we first learn to infer the latent representations of target variables X and Y that contain no information about the conditioning variable Z. The latent variables are then investigated for any significant remaining dependencies, which can be performed using the conventional partial correlation test. The empirical evaluations show that LCIT outperforms several state-of-the-art baselines consistently under different evaluation metrics, and is able to adapt really well to both non-linear and high-dimensional settings on a diverse collection of synthetic and real data sets.
翻訳日:2022-09-07 12:49:37 公開日:2022-09-04
# パワーミュアヘッド平均に基づく新しい近接近傍アルゴリズム

A Novel Nearest Neighbors Algorithm Based on Power Muirhead Mean ( http://arxiv.org/abs/2209.01514v1 )

ライセンス: Link先を確認
Kourosh Shahnazari, Seyed Moein Ayyoubzadeh(参考訳) 本研究の目的は,K-Nearest Neighbors に基づく新しい分類器を提案し,パワー・ミュアヘッド平均演算子を用いて各クラスの局所的平均を計算することである。 我々は新しい手法をPower Muirhead Mean K-Nearest Neighbors (PMM-KNN) と呼ぶ。 PMM-KNN分類器は、他のNearest Neighbors法と比較した場合の利点として、各問題に対して決定および微調整できるいくつかのパラメータを持つ。 PMM-KNNの性能を評価するために、よく知られた5つのデータセットを使用した。 研究結果は、PMM-KNNが他の分類法よりも優れていることを示している。

This study aimed to propose a novel classifier based on K-Nearest Neighbors which calculates the local means of every class using the Power Muirhead Mean operator. We have called our new method Power Muirhead Mean K-Nearest Neighbors (PMM-KNN) classifier. The PMM-KNN classifier has several parameters which can be determined and fine-tuned for each problem that is countered as an advantage compared to other Nearest Neighbors methods. We used five well-known datasets to assess PMM-KNN performance. The research results demonstrate that the PMM-KNN has outperformed some of the other classification methods.
翻訳日:2022-09-07 12:45:11 公開日:2022-09-04
# 極端ラベル不足下での自律クロスドメイン適応

Autonomous Cross Domain Adaptation under Extreme Label Scarcity ( http://arxiv.org/abs/2209.01548v1 )

ライセンス: Link先を確認
Weiwei Weng, Mahardhika Pratama, Choiru Za'in, Marcus De Carvalho, Rakaraddi Appan, Andri Ashfahani, Edward Yapp Kien Yee(参考訳) クロスドメインマルチストリーム分類(cross domain multistream classification)は、絶え間なく変化する環境において、異なるが関連するストリームを処理する高速ドメイン適応を求める難しい問題である。 既存のマルチストリーム分類器は、ターゲットストリームにラベル付きサンプルは含まないが、ソースストリームの完全なラベル付きサンプルを必要とするため、高価なラベル付けコストがかかる。 本稿では,プロセス実行前にソースストリームのラベル付きサンプルがごくわずかしか提供されないクロスドメインマルチストリーム分類問題において,ラベル不足の問題に対処することを目的とする。 我々のソリューションであるLearning Streaming Process from partial Ground Truth (LEOPARD)は、様々なデータ分布に対して、その隠れノード、レイヤ、クラスタを動的に追加・削除する柔軟なディープクラスタリングネットワーク上に構築されている。 深いクラスタリング戦略は、クラスタリングフレンドリなラテントスペースにつながる同時機能学習とクラスタリング技術によって支えられている。 ドメイン適応戦略は、特徴抽出器が、ソースとターゲットストリームを分類するドメイン分類器を騙すように訓練される対向領域適応技術に依存する。 LEOPARDは,24例中15例において,顕著なアルゴリズムに比べて性能が向上することを示す。 LEOPARDのソースコードは \url{https://github.com/wengweng001/LEOPARD.git} で共有され、さらなる研究を可能にする。

A cross domain multistream classification is a challenging problem calling for fast domain adaptations to handle different but related streams in never-ending and rapidly changing environments. Notwithstanding that existing multistream classifiers assume no labelled samples in the target stream, they still incur expensive labelling cost since they require fully labelled samples of the source stream. This paper aims to attack the problem of extreme label shortage in the cross domain multistream classification problems where only very few labelled samples of the source stream are provided before process runs. Our solution, namely Learning Streaming Process from Partial Ground Truth (LEOPARD), is built upon a flexible deep clustering network where its hidden nodes, layers and clusters are added and removed dynamically in respect to varying data distributions. A deep clustering strategy is underpinned by a simultaneous feature learning and clustering technique leading to clustering-friendly latent spaces. A domain adaptation strategy relies on the adversarial domain adaptation technique where a feature extractor is trained to fool a domain classifier classifying source and target streams. Our numerical study demonstrates the efficacy of LEOPARD where it delivers improved performances compared to prominent algorithms in 15 of 24 cases. Source codes of LEOPARD are shared in \url{https://github.com/wengweng001/LEOPARD.git} to enable further study.
翻訳日:2022-09-07 12:45:01 公開日:2022-09-04
# 不均衡分類のための潜在的生成的逆ネットワーク

Latent Preserving Generative Adversarial Network for Imbalance classification ( http://arxiv.org/abs/2209.01555v1 )

ライセンス: Link先を確認
Tanmoy Dam, Md Meftahul Ferdaus, Mahardhika Pratama, Sreenatha G. Anavatti, Senthilnath Jayavelu, Hussein A. Abbass(参考訳) 多くの実世界の分類問題はクラスラベルの頻度が不均衡であり、「クラス不均衡」問題として知られる。 古典的な分類アルゴリズムは多数派クラスに偏りがちであり、分類器は少数派クラスの誤分類に弱い。 文献はこの問題を修正する手法に富んでいるが、問題の次元性が増大するにつれて、これらの手法の多くはスケールアップせず、実行コストが禁止される。 本稿では,エンドツーエンドの深層生成分類器を提案する。 本稿では,他の2つの深層ネットワーク,識別器,分類器で対角ゲームを行うために使用されるジェネレータの潜在空間を予め保持するドメイン制約オートエンコーダを提案する。 3つの異なるマルチクラス不均衡問題と最先端法との比較について広範な実験を行った。 実験の結果,高次元不均衡分類問題に対する一般的なアルゴリズムよりも優れた手法が得られた。 私たちのコードはhttps://github.com/TanmDL/SLPPL-GANで利用可能です。

Many real-world classification problems have imbalanced frequency of class labels; a well-known issue known as the "class imbalance" problem. Classic classification algorithms tend to be biased towards the majority class, leaving the classifier vulnerable to misclassification of the minority class. While the literature is rich with methods to fix this problem, as the dimensionality of the problem increases, many of these methods do not scale-up and the cost of running them become prohibitive. In this paper, we present an end-to-end deep generative classifier. We propose a domain-constraint autoencoder to preserve the latent-space as prior for a generator, which is then used to play an adversarial game with two other deep networks, a discriminator and a classifier. Extensive experiments are carried out on three different multi-class imbalanced problems and a comparison with state-of-the-art methods. Experimental results confirmed the superiority of our method over popular algorithms in handling high-dimensional imbalanced classification problems. Our code is available on https://github.com/TanmDL/SLPPL-GAN.
翻訳日:2022-09-07 12:44:38 公開日:2022-09-04
# グラフの強化連続学習

Reinforced Continual Learning for Graphs ( http://arxiv.org/abs/2209.01556v1 )

ライセンス: Link先を確認
Appan Rakaraddi, Siew Kei Lam, Mahardhika Pratama, Marcus De Carvalho(参考訳) グラフニューラルネットワーク(GNN)は、グラフや同様のトポロジ的データ構造に関連する多くのタスクのバックボーンとなっている。 ノードやグラフの分類/回帰タスクに関連する領域では、多くの作業が確立されているが、ほとんどが単一のタスクを扱う。 グラフの連続学習はほとんど探索されておらず、既存のグラフ連続学習アプローチはタスク・インクリメンタル学習のシナリオに限られている。 本稿では,アーキテクチャベースとメモリベースを組み合わせたグラフ連続学習戦略を提案する。 構造学習戦略は強化学習によって推進され、制御ネットワークは、新しいタスクが観測されたときにベースネットワークから追加/実行されるノードの最適な数を決定するように訓練され、十分なネットワーク容量が確保される。 パラメータ学習戦略はダーク・エクスペリエンス・リプレイ(Dark Experience replay)の概念に基づいており、破滅的な忘れ問題に対処する。 本手法は,タスク・インクリメンタル学習とクラスインクリメンタル学習のいずれにおいても,いくつかのグラフ連続学習ベンチマーク問題により数値的に検証される。 近年の論文と比較すると,どちらの設定でも性能が向上している。 実装コードは \url{https://github.com/codexhammer/gcl} で見ることができる。

Graph Neural Networks (GNNs) have become the backbone for a myriad of tasks pertaining to graphs and similar topological data structures. While many works have been established in domains related to node and graph classification/regression tasks, they mostly deal with a single task. Continual learning on graphs is largely unexplored and existing graph continual learning approaches are limited to the task-incremental learning scenarios. This paper proposes a graph continual learning strategy that combines the architecture-based and memory-based approaches. The structural learning strategy is driven by reinforcement learning, where a controller network is trained in such a way to determine an optimal number of nodes to be added/pruned from the base network when new tasks are observed, thus assuring sufficient network capacities. The parameter learning strategy is underpinned by the concept of Dark Experience replay method to cope with the catastrophic forgetting problem. Our approach is numerically validated with several graph continual learning benchmark problems in both task-incremental learning and class-incremental learning settings. Compared to recently published works, our approach demonstrates improved performance in both the settings. The implementation code can be found at \url{https://github.com/codexhammer/gcl}.
翻訳日:2022-09-07 12:44:23 公開日:2022-09-04
# スケーラブルなadversarial online continual learning

Scalable Adversarial Online Continual Learning ( http://arxiv.org/abs/2209.01558v1 )

ライセンス: Link先を確認
Tanmoy Dam, Mahardhika Pratama, MD Meftahul Ferdaus, Sreenatha Anavatti, Hussein Abbas(参考訳) 相反的連続学習は、破滅的忘れ込み問題に対する感受性の低いタスク不変特徴を生成する特徴アライメントプロセスが存在するため、継続的な学習問題に有効である。 しかしながら、ACL法はタスク固有のネットワークや識別器に依存するため、かなり複雑である。 また、オンライン(一時期)の継続的学習問題には適さない反復的なトレーニングプロセスも実施する。 本稿では,共通特徴をタスク固有の特徴に変換するパラメータ生成器と,共通特徴を推論する対戦ゲームにおける単一識別器とを,スケーラブルな逆連続学習(SCALE)手法を提案する。 学習過程は3つの損失関数の新たな組み合わせを用いてメタラーニング方式で行われる。 SCALEは、精度と実行時間の両方で顕著なマージンで顕著なベースラインを上回ります。

Adversarial continual learning is effective for continual learning problems because of the presence of feature alignment process generating task-invariant features having low susceptibility to the catastrophic forgetting problem. Nevertheless, the ACL method imposes considerable complexities because it relies on task-specific networks and discriminators. It also goes through an iterative training process which does not fit for online (one-epoch) continual learning problems. This paper proposes a scalable adversarial continual learning (SCALE) method putting forward a parameter generator transforming common features into task-specific features and a single discriminator in the adversarial game to induce common features. The training process is carried out in meta-learning fashions using a new combination of three loss functions. SCALE outperforms prominent baselines with noticeable margins in both accuracy and execution time.
翻訳日:2022-09-07 12:44:05 公開日:2022-09-04
# ニューラルネットワークの一般化:広範な調査

Generalization in Neural Networks: A Broad Survey ( http://arxiv.org/abs/2209.01610v1 )

ライセンス: Link先を確認
Chris Rohlfs(参考訳) 本稿では,(1)サンプル,(2)分布,(3)ドメイン,(4)タスク,(5)モダリティ,(6)スコープの一般化を含む,ニューラルネットワークモデルのさまざまな抽象化レベルに関する概念,モデリングアプローチ,最近の知見についてレビューする。 1)サンプルの一般化の結果、ImageNetの場合、最近の改善のほとんどすべてがオーバーフィッティングのトレーニングエラーを減少させ、オーバーフィッティングのトレーニングエラーはほとんどなくし、将来の進歩はオーバーフィッティングの削減に焦点を合わせる必要がある。 統計学からの視点では、(2)分布の一般化はサンプル重量の変化や入出力関係の変化と交互に見ることができる。 (3)ドメイン一般化への移行学習アプローチを要約し、最近の進歩と豊富なドメイン適応ベンチマークデータセットが利用可能である。 (4)タスク一般化における最近のブレークスルーは、少数ショットメタラーニングアプローチとBERT NLPエンジンを含み、(5)画像とテキストデータを統合し、嗅覚、視覚、聴覚のモダリティにわたって生物学的にインスパイアされたネットワークを適用した最近のモダリティ一般化研究が議論されている。 知識グラフを深部NLPアプローチに組み込むための最近の(6)スコープ一般化結果について概説する。 さらに、神経科学の概念は、脳のモジュラー構造と、ドーパミン駆動の条件付けが抽象的思考につながるステップについて論じられている。

This paper reviews concepts, modeling approaches, and recent findings along a spectrum of different levels of abstraction of neural network models including generalization across (1) Samples, (2) Distributions, (3) Domains, (4) Tasks, (5) Modalities, and (6) Scopes. Results on (1) sample generalization show that, in the case of ImageNet, nearly all the recent improvements reduced training error while overfitting stayed flat; with nearly all the training error eliminated, future progress will require a focus on reducing overfitting. Perspectives from statistics highlight how (2) distribution generalization can be viewed alternately as a change in sample weights or a change in the input-output relationship. Transfer learning approaches to (3) domain generalization are summarized, as are recent advances and the wealth of domain adaptation benchmark datasets available. Recent breakthroughs surveyed in (4) task generalization include few-shot meta-learning approaches and the BERT NLP engine, and recent (5) modality generalization studies are discussed that integrate image and text data and that apply a biologically-inspired network across olfactory, visual, and auditory modalities. Recent (6) scope generalization results are reviewed that embed knowledge graphs into deep NLP approaches. Additionally, concepts from neuroscience are discussed on the modular architecture of brains and the steps by which dopamine-driven conditioning leads to abstract thinking.
翻訳日:2022-09-07 12:43:52 公開日:2022-09-04
# 再帰的・反復的削除による知覚分析のための量的停止語生成

Quantitative Stopword Generation for Sentiment Analysis via Recursive and Iterative Deletion ( http://arxiv.org/abs/2209.01519v1 )

ライセンス: Link先を確認
Daniel M. DiPietro(参考訳) ストップワードは意味的な情報が少なく、しばしばテキストデータから削除され、データセットのサイズが小さくなり、機械学習モデルのパフォーマンスが向上する。 その結果、研究者は効果的なストップワードセットを生成する技術の開発を試みた。 従来のアプローチは、言語の専門家に依存する質的手法から、コーパスで計算された相関や周波数依存メトリクスを使って単語の重要性を抽出する統計的アプローチまで様々である。 本稿では,逐次的かつ再帰的な特徴削除アルゴリズムを用いて,事前学習されたトランスフォーマーの語彙からどの単語を削除することができるか,特に感情分析のタスクにおいて,その性能の低下を最小限に抑えるための新しい定量的手法を提案する。 実証的に、このアプローチで生成されたストップワードリストは、トレーニングされたロジスティック回帰モデルの精度を0.25%向上させながら、コーパスを28.4%縮小する例において、モデル性能に無視できることなく、データセットサイズを大幅に削減する。 別の例では、コーパスは63.7%縮小され、精度は2.8%減少した。 これらの有望な結果は,本手法が特定のNLPタスクに対して高い効率の停止語セットを生成できることを示唆している。

Stopwords carry little semantic information and are often removed from text data to reduce dataset size and improve machine learning model performance. Consequently, researchers have sought to develop techniques for generating effective stopword sets. Previous approaches have ranged from qualitative techniques relying upon linguistic experts, to statistical approaches that extract word importance using correlations or frequency-dependent metrics computed on a corpus. We present a novel quantitative approach that employs iterative and recursive feature deletion algorithms to see which words can be deleted from a pre-trained transformer's vocabulary with the least degradation to its performance, specifically for the task of sentiment analysis. Empirically, stopword lists generated via this approach drastically reduce dataset size while negligibly impacting model performance, in one such example shrinking the corpus by 28.4% while improving the accuracy of a trained logistic regression model by 0.25%. In another instance, the corpus was shrunk by 63.7% with a 2.8% decrease in accuracy. These promising results indicate that our approach can generate highly effective stopword sets for specific NLP tasks.
翻訳日:2022-09-07 12:40:19 公開日:2022-09-04
# 深層学習におけるスパースエキスパートモデルの検討

A Review of Sparse Expert Models in Deep Learning ( http://arxiv.org/abs/2209.01667v1 )

ライセンス: Link先を確認
William Fedus, Jeff Dean, Barret Zoph(参考訳) スパースエキスパートモデル(Sparse expert model)は、ディープラーニングの一般的なアーキテクチャとして再開発される30年前のコンセプトだ。 このアーキテクチャのクラスは、ミックス・オブ・エキスパート、スイッチ・トランスフォーマー、ルーティング・ネットワーク、ベース・レイヤなどを含んでいる。 これにより、スパーシティの度合いは、非常に大きいが効率的なモデルを実現するために、例ごとの計算からパラメータカウントを分離する。 結果として得られたモデルは、自然言語処理、コンピュータビジョン、音声認識など、さまざまな領域で大幅に改善されている。 本稿では,スパースエキスパートモデルの概念を概観し,共通アルゴリズムの基本的記述,深層学習時代の進歩の文脈化,今後の研究分野の強調によって結論付ける。

Sparse expert models are a thirty-year old concept re-emerging as a popular architecture in deep learning. This class of architecture encompasses Mixture-of-Experts, Switch Transformers, Routing Networks, BASE layers, and others, all with the unifying idea that each example is acted on by a subset of the parameters. By doing so, the degree of sparsity decouples the parameter count from the compute per example allowing for extremely large, but efficient models. The resulting models have demonstrated significant improvements across diverse domains such as natural language processing, computer vision, and speech recognition. We review the concept of sparse expert models, provide a basic description of the common algorithms, contextualize the advances in the deep learning era, and conclude by highlighting areas for future work.
翻訳日:2022-09-07 12:39:58 公開日:2022-09-04
# 対話型質問回答システム:文献レビュー

Interactive Question Answering Systems: Literature Review ( http://arxiv.org/abs/2209.01621v1 )

ライセンス: Link先を確認
Giovanni Maria Biancofiore, Yashar Deldjoo, Tommaso Di Noia, Eugenio Di Sciascio, Fedelucio Narducci(参考訳) 質問応答システムは,Web上の情報検索において,人気かつ頻繁な効果的な手段として認識されている。 このようなシステムでは,質問を自然言語で提示することで,質問に対する簡潔な応答を得られる。 対話型質問応答(interactive question answering)は、最近提案され、ますます普及しているソリューションであり、質問応答と対話システムの交差点に位置する。 一方、ユーザは通常の言語で質問をし、質問に対する実際の応答を見つけることができ、一方、最初の要求に複数の応答、非常に少ない応答、曖昧さがある場合、システムは質問応答セッションを対話に長引かせることができる。 ユーザがより多くの質問を行えるようにすることで、インタラクティブな質問応答により、ユーザーは動的にシステムと対話し、より正確な結果を受け取ることができる。 本調査は,現在の文献で広く普及している対話型質問応答法の概要を概説する。 質問応答システムの基本的な原則を説明することから始まり、統一されたフレームワーク内で識別されたすべての作品を結合するための新しい表記法と分類法を定義する。 次に,対話型質問応答システムに関するレビュー論文を提示し,提案手法,評価手法,データセット/アプリケーション領域の観点から検討した。 また,コミュニティが生み出す課題や課題に関するトレンドについて述べることで,研究者の今後の関心を浮き彫りにする。 私たちの作業は、この文献研究で取り上げられた主要なトピックをすべて合成したGitHubページによってさらにサポートされています。 https://sisinflab.github.io/interactive-question-answering-systems-survey/

Question answering systems are recognized as popular and frequently effective means of information seeking on the web. In such systems, information seekers can receive a concise response to their query by presenting their questions in natural language. Interactive question answering is a recently proposed and increasingly popular solution that resides at the intersection of question answering and dialogue systems. On the one hand, the user can ask questions in normal language and locate the actual response to her inquiry; on the other hand, the system can prolong the question-answering session into a dialogue if there are multiple probable replies, very few, or ambiguities in the initial request. By permitting the user to ask more questions, interactive question answering enables users to dynamically interact with the system and receive more precise results. This survey offers a detailed overview of the interactive question-answering methods that are prevalent in current literature. It begins by explaining the foundational principles of question-answering systems, hence defining new notations and taxonomies to combine all identified works inside a unified framework. The reviewed published work on interactive question-answering systems is then presented and examined in terms of its proposed methodology, evaluation approaches, and dataset/application domain. We also describe trends surrounding specific tasks and issues raised by the community, so shedding light on the future interests of scholars. Our work is further supported by a GitHub page with a synthesis of all the major topics covered in this literature study. https://sisinflab.github.io/interactive-question-answering-systems-survey/
翻訳日:2022-09-07 12:39:00 公開日:2022-09-04
# YOLOv5を用いたイネ葉病の分類と検出

Rice Leaf Disease Classification and Detection Using YOLOv5 ( http://arxiv.org/abs/2209.01579v1 )

ライセンス: Link先を確認
Md Ershadul Haque, Ashikur Rahman, Iftekhar Junaeid, Samiul Ul Hoque, Manoranjan Paul(参考訳) 世界の百か国以上で主要な食品は米(oryza sativa)である。 米の栽培は世界の経済成長に不可欠である。 しかし、農業が直面する主な課題は稲葉病である。 作物の品質と量は減少しており、これが主な原因である。 いずれの国の農家も稲葉病に関する知識が乏しいため、稲葉病を正しく診断することはできない。 だからこそ、米の葉の適切な世話はできないのです。 その結果、生産量は減少している。 文献調査から,YOLOv5は,他の深層学習法と比較してよい結果を示した。 オブジェクト検出技術の継続的な進歩の結果,米葉病モニタリングシステムを構築するために,極めて高精度かつ高速なYOLOファミリーアルゴリズムが様々な場面認識タスクに使用されている。 1500個のデータ集合に注釈を付け, YOLOv5深層学習に基づくイネ葉病の分類・検出手法を提案する。 そして、YOLOv5モデルをトレーニングし、評価した。 シミュレーションの結果,本論文で提案する拡張yolov5ネットワークのオブジェクト検出精度が向上した。 必要な認識精度、リコール、mAP値、F1スコアは、それぞれ90\%、67\%、76\%、81\%である。

A staple food in more than a hundred nations worldwide is rice (Oryza sativa). The cultivation of rice is vital to global economic growth. However, the main issue facing the agricultural industry is rice leaf disease. The quality and quantity of the crops have declined, and this is the main cause. As farmers in any country do not have much knowledge about rice leaf disease, they cannot diagnose rice leaf disease properly. That's why they cannot take proper care of rice leaves. As a result, the production is decreasing. From literature survey, it has seen that YOLOv5 exhibit the better result compare to others deep learning method. As a result of the continual advancement of object detection technology, YOLO family algorithms, which have extraordinarily high precision and better speed have been used in various scene recognition tasks to build rice leaf disease monitoring systems. We have annotate 1500 collected data sets and propose a rice leaf disease classification and detection method based on YOLOv5 deep learning. We then trained and evaluated the YOLOv5 model. The simulation outcomes show improved object detection result for the augmented YOLOv5 network proposed in this article. The required levels of recognition precision, recall, mAP value, and F1 score are 90\%, 67\%, 76\%, and 81\% respectively are considered as performance metrics.
翻訳日:2022-09-07 12:34:29 公開日:2022-09-04
# 大きな言語モデルは、人間が知っていることを知っていますか?

Do Large Language Models know what humans know? ( http://arxiv.org/abs/2209.01515v1 )

ライセンス: Link先を確認
Sean Trott, Cameron Jones, Tyler Chang, James Michaelov, Benjamin Bergen(参考訳) 人間は心の理論として知られる精神状態を他人に当てはめることができる。 しかし、この能力が生来の生物学的養育や、発達を通じて得られた経験、特に他者の精神状態を記述する言語にどの程度影響するかは不明である。 大量のヒト言語に曝露したモデルが心の理論の証拠を発達させるかどうかを評価することにより,言語暴露仮説の妥当性を検証した。 本研究は,人間と最先端の大規模言語モデルgpt-3に対して,心の理論を評価するために広く用いられている偽信念課題の言語版を提案する。 どちらも他人の信念に敏感であるが、言語モデルは人間ほどには機能しないが、人間よりも多くの言語に晒されているにもかかわらず、彼らの行動の完全な範囲を説明することもない。 これは、言語曝露が人間の心の理論の発展の仕方を説明する一方で、他のメカニズムも責任を負っていることを示唆している。

Humans can attribute mental states to others, a capacity known as Theory of Mind. However, it is unknown to what extent this ability results from an innate biological endowment or from experience accrued through child development, particularly exposure to language describing others' mental states. We test the viability of the language exposure hypothesis by assessing whether models exposed to large quantities of human language develop evidence of Theory of Mind. In a pre-registered analysis, we present a linguistic version of the False Belief Task, widely used to assess Theory of Mind, to both human participants and a state-of-the-art Large Language Model, GPT-3. Both are sensitive to others' beliefs, but the language model does not perform as well as the humans, nor does it explain the full extent of their behavior, despite being exposed to more language than a human would in a lifetime. This suggests that while language exposure may in part explain how humans develop Theory of Mind, other mechanisms are also responsible.
翻訳日:2022-09-07 12:27:35 公開日:2022-09-04
# 低リソーステキスト分類のための単語ロール付き選択的テキスト拡張

Selective Text Augmentation with Word Roles for Low-Resource Text Classification ( http://arxiv.org/abs/2209.01560v1 )

ライセンス: Link先を確認
Biyang Guo, Songqiao Han, Hailiang Huang(参考訳) データ拡張技術はテキスト分類タスクにおいて、特に低リソースシナリオにおいて、分類器の性能を向上させるために広く使われている。 従来の手法では、テキスト内の単語の異なる機能を考慮することなくテキスト拡張を行い、不満足なサンプルを生成する。 異なる単語はテキスト分類において異なる役割を担い、それによってテキスト拡張の適切な役割を戦略的に選択することができる。 本研究は,まず,テキスト内の単語とテキストカテゴリーの関係を,統計的相関性や意味的類似性の観点から識別し,それらを用いて,テキスト分類の異なる機能を持つゴールド,ベンチャー,ボヌス,トライヴィアルの4つの役割に分割する。 これらの単語の役割に基づいて,STA(Selective Text Augmentation)と呼ばれる新たな拡張手法を提案し,特定の役割を持つ単語に対して,異なるテキスト編集操作を選択的に適用する。 STAは、オリジナルのコアセマンティクスを保持しながら、多様で比較的クリーンなサンプルを生成することができ、実装も非常に簡単である。 5つのベンチマークの低リソーステキスト分類データセットに対する大規模な実験により、STAが生成した拡張サンプルは、従来の非選択的手法よりも大幅に優れた分類モデルの性能を向上させることができた。 クロスデータセットの実験は、staが以前のメソッドよりも、他のデータセットへの分類器の一般化に役立つことをさらに示している。

Data augmentation techniques are widely used in text classification tasks to improve the performance of classifiers, especially in low-resource scenarios. Most previous methods conduct text augmentation without considering the different functionalities of the words in the text, which may generate unsatisfactory samples. Different words may play different roles in text classification, which inspires us to strategically select the proper roles for text augmentation. In this work, we first identify the relationships between the words in a text and the text category from the perspectives of statistical correlation and semantic similarity and then utilize them to divide the words into four roles -- Gold, Venture, Bonus, and Trivial words, which have different functionalities for text classification. Based on these word roles, we present a new augmentation technique called STA (Selective Text Augmentation) where different text-editing operations are selectively applied to words with specific roles. STA can generate diverse and relatively clean samples, while preserving the original core semantics, and is also quite simple to implement. Extensive experiments on 5 benchmark low-resource text classification datasets illustrate that augmented samples produced by STA successfully boost the performance of classification models which significantly outperforms previous non-selective methods, including two large language model-based techniques. Cross-dataset experiments further indicate that STA can help the classifiers generalize better to other datasets than previous methods.
翻訳日:2022-09-07 12:27:20 公開日:2022-09-04
# ProBoost:確率型分類器のブースティング方法

ProBoost: a Boosting Method for Probabilistic Classifiers ( http://arxiv.org/abs/2209.01611v1 )

ライセンス: Link先を確認
F\'abio Mendon\c{c}a, Sheikh Shanawaz Mostafa, Fernando Morgado-Dias, Antonio G. Ravelo-Garc\'ia, and M\'ario A. T. Figueiredo(参考訳) 本研究では,確率的分類器のための新しいブースティングアルゴリズムproboostを提案する。 このアルゴリズムは、各トレーニングサンプルの認識論的不確実性を利用して、最も挑戦的かつ未確認のものを決定する; そして、これらのサンプルの関連性は、次の弱い学習者のために増大し、最も不確実性が高いと判明したサンプルに徐々に焦点を合わせるシーケンスを生成する。 最後に、弱い学習者の出力を重み付けした分類器のアンサンブルに結合する。 弱い学習者によって推定される不確実性に応じて,学習セットのアンダーサンプリング,オーバーサンプリング,重み付けを行う3つの手法が提案されている。 さらに,アンサンブルの組み合わせについて2つの考察を行った。 ここで考慮されている弱い学習者は標準畳み込みニューラルネットワークであり、不確実性推定の基礎となる確率モデルは変分推論かモンテカルロドロップアウトのいずれかを使用する。 MNISTベンチマークデータセットで行った実験の結果、ProBoostは大幅な性能向上をもたらすことが示された。 その結果,4人の弱い学習者しか持たないモデルが,ProBoostを使わずに学習したモデルと比較して12%以上の改善(精度,感度,特異性)をもたらすことを示す指標として,比較的達成可能な改善を評価することでさらに強調された。

ProBoost, a new boosting algorithm for probabilistic classifiers, is proposed in this work. This algorithm uses the epistemic uncertainty of each training sample to determine the most challenging/uncertain ones; the relevance of these samples is then increased for the next weak learner, producing a sequence that progressively focuses on the samples found to have the highest uncertainty. In the end, the weak learners' outputs are combined into a weighted ensemble of classifiers. Three methods are proposed to manipulate the training set: undersampling, oversampling, and weighting the training samples according to the uncertainty estimated by the weak learners. Furthermore, two approaches are studied regarding the ensemble combination. The weak learner herein considered is a standard convolutional neural network, and the probabilistic models underlying the uncertainty estimation use either variational inference or Monte Carlo dropout. The experimental evaluation carried out on MNIST benchmark datasets shows that ProBoost yields a significant performance improvement. The results are further highlighted by assessing the relative achievable improvement, a metric proposed in this work, which shows that a model with only four weak learners leads to an improvement exceeding 12% in this metric (for either accuracy, sensitivity, or specificity), in comparison to the model learned without ProBoost.
翻訳日:2022-09-07 12:21:03 公開日:2022-09-04