このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230216となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# D波量子コンピュータによる金融危機予測に向けて Towards Prediction of Financial Crashes with a D-Wave Quantum Computer ( http://arxiv.org/abs/1904.05808v4 ) ライセンス: Link先を確認 | Yongcheng Ding, Javier Gonzalez-Conde, Lucas Lamata, Jos\'e D. Mart\'in-Guerrero, Enrique Lizaso, Samuel Mugel, Xi Chen, Rom\'an Or\'us, Enrique Solano, Mikel Sanz | (参考訳) 複雑な金融ネットワークにおける金融事故の予測はNPハード問題として知られており、既知のアルゴリズムが最適解を効率的に見つけることを保証できない。
我々は,d-wave量子コンピュータを用いて,金融均衡を達成するための性能をベンチマークすることにより,この問題に対する新たなアプローチを実験的に検討する。
具体的には、非線形金融モデルの平衡条件は、高階非拘束二元最適化(hubo)問題に埋め込まれ、最大2量子ビット相互作用を持つスピン-$1/2$ハミルトニアンに変換される。
したがって、この問題は相互作用するスピンハミルトニアンの基底状態を見つけることと同値であり、量子アニーラと近似することができる。
シミュレーションのサイズは主に、正しい接続性を持つ論理キュービットを表す大量の物理キュービットの必要性によって制約される。
我々の実験は、量子コンピュータにおけるこの量的マクロ経済学問題の体系化の道を開いた。 Prediction of financial crashes in a complex financial network is known to be an NP-hard problem, which means that no known algorithm can guarantee to find optimal solutions efficiently. We experimentally explore a novel approach to this problem by using a D-Wave quantum computer, benchmarking its performance for attaining financial equilibrium. To be specific, the equilibrium condition of a nonlinear financial model is embedded into a higher-order unconstrained binary optimization (HUBO) problem, which is then transformed to a spin-$1/2$ Hamiltonian with at most two-qubit interactions. The problem is thus equivalent to finding the ground state of an interacting spin Hamiltonian, which can be approximated with a quantum annealer. The size of the simulation is mainly constrained by the necessity of a large quantity of physical qubits representing a logical qubit with the correct connectivity. Our experiment paves the way to codify this quantitative macroeconomics problem in quantum computers. | 翻訳日:2023-03-25 04:42:10 公開日:2023-02-16 |
# トーリックコードデコーダの$d\geq 2$次元における効率的なカラーコードデコーダ Efficient color code decoders in $d\geq 2$ dimensions from toric code decoders ( http://arxiv.org/abs/1905.07393v3 ) ライセンス: Link先を確認 | Aleksander Kubica and Nicolas Delfosse | (参考訳) 我々は,$d\geq 2$次元のカラーコードの効率的なデコーダ,制限デコーダを導入し,任意の$d$-dimensional toric コードデコーダと局所昇降手順を組み合わせてリカバリ操作を見つける。
制限デコーダは、対応するトーリック符号デコーダが成功した場合に限り、色コードの誤りを正しく修正できることを証明する。
また,2次元と3次元のカラーコードに対する制限デコーダ閾値を,完全なシンドローム抽出によるビットフリップおよび位相フリップノイズに対して数値的に推定する。
2次元カラーコード閾値 $p_{\textrm{2d}} \approx 10.2\%$ on the square-octagon lattice is par with the toric code threshold on the square lattice. 報告する。 We introduce an efficient decoder of the color code in $d\geq 2$ dimensions, the Restriction Decoder, which uses any $d$-dimensional toric code decoder combined with a local lifting procedure to find a recovery operation. We prove that the Restriction Decoder successfully corrects errors in the color code if and only if the corresponding toric code decoding succeeds. We also numerically estimate the Restriction Decoder threshold for the color code in two and three dimensions against the bit-flip and phase-flip noise with perfect syndrome extraction. We report that the 2D color code threshold $p_{\textrm{2D}} \approx 10.2\%$ on the square-octagon lattice is on a par with the toric code threshold on the square lattice. | 翻訳日:2023-03-25 04:30:35 公開日:2023-02-16 |
# コモンセンス推論による事前学習モデル教育--予備kbベースアプローチ Teaching Pretrained Models with Commonsense Reasoning: A Preliminary KB-Based Approach ( http://arxiv.org/abs/1909.09743v2 ) ライセンス: Link先を確認 | Shiyang Li, Jianshu Chen, Dian Yu | (参考訳) 近年、事前訓練された言語モデル(例えばBERT)は多くの下流の自然言語理解タスクで大きな成功を収め、ある程度のコモンセンス推論能力を示している。
しかし、コモンセンスタスクでの彼らのパフォーマンスは、まだ人間のものとは程遠い。
予備的な試みとして,最大コモンセンス知識ベース(KB)であるConceptNetの構造化知識を活用することで,プレトレーニング済みモデルを常識推論で教える,シンプルかつ効果的な手法を提案する。
具体的には、KBにおける構造化知識により、様々な論理形式を構築し、コモンセンス論理的推論を必要とする複数の選択質問を生成することができる。
実験により,これらの学習例を改良すると,プレトレーニングされたモデルは,特に数ショットの学習環境において,常識的推論を必要とするタスクにおける性能を常に向上することが示された。
さらに、どの論理関係がコモンセンス推論とより関連があるかを理解するために分析を行う。 Recently, pretrained language models (e.g., BERT) have achieved great success on many downstream natural language understanding tasks and exhibit a certain level of commonsense reasoning ability. However, their performance on commonsense tasks is still far from that of humans. As a preliminary attempt, we propose a simple yet effective method to teach pretrained models with commonsense reasoning by leveraging the structured knowledge in ConceptNet, the largest commonsense knowledge base (KB). Specifically, the structured knowledge in KB allows us to construct various logical forms, and then generate multiple-choice questions requiring commonsense logical reasoning. Experimental results demonstrate that, when refined on these training examples, the pretrained models consistently improve their performance on tasks that require commonsense reasoning, especially in the few-shot learning setting. Besides, we also perform analysis to understand which logical relations are more relevant to commonsense reasoning. | 翻訳日:2023-03-25 04:23:27 公開日:2023-02-16 |
# AI利用カード: 責任を持ってAI生成コンテンツを報告する AI Usage Cards: Responsibly Reporting AI-generated Content ( http://arxiv.org/abs/2303.03886v1 ) ライセンス: Link先を確認 | Jan Philip Wahle and Terry Ruas and Saif M. Mohammad and Norman Meuschke and Bela Gipp | (参考訳) ChatGPTのようなAIシステムが人間による作業と区別できないコンテンツを生成できることを考えると、この技術の責任を負うことが懸念される。
aiシステムの利用のメリットとメリットを理解するにはより多くの時間を要するが、その迅速かつ無差別な採用は現実である。
現在、コンテンツ生成にAIの責任ある使用を定義し、報告する共通のフレームワークと言語がありません。
以前の研究では、特定のシナリオ(例えば、ロボット工学や医学)でAIを使用するためのガイドラインが提案されていた。
まず、aiの責任ある使用法である \textit{define}に対して、透明性、完全性、説明責任からなる3次元モデルを提案する。
第2に,科学研究におけるAI活用の標準化手法である 'AI Usage Cards' を紹介する。
私たちのモデルとカードは、ユーザーが責任あるAI利用の原則を反映できるようにします。
また、研究コミュニティが様々な形のAIの使用を追跡、比較、疑問視することを支援し、受け入れられたコミュニティ規範の開発を支援する。
提案するフレームワークおよびレポートシステムは、科学研究におけるAIの倫理的かつ責任ある利用を促進することを目的としており、さまざまな研究分野においてAIの使用を報告するための標準化されたアプローチを提供する。
また、科学研究用のAIUsage Cardを簡単に生成し、さまざまな機械可読フォーマットでエクスポートして、さまざまな作業製品に含めるための無料サービスを提供している。 Given AI systems like ChatGPT can generate content that is indistinguishable from human-made work, the responsible use of this technology is a growing concern. Although understanding the benefits and harms of using AI systems requires more time, their rapid and indiscriminate adoption in practice is a reality. Currently, we lack a common framework and language to define and report responsible use of AI for content generation. Prior work proposed guidelines for using AI in specific scenarios (e.g., robotics or medicine) which are not transferable to conducting and reporting scientific research. Our work makes two contributions: First, we propose a three-dimensional model consisting of transparency, integrity, and accountability to \textit{define} the responsible use of AI. Second, we introduce ``AI Usage Cards'', a standardized way to \textit{report} the use of AI in scientific research. Our model and cards allow users to reflect on key principles of responsible AI usage. They also help the research community trace, compare, and question various forms of AI usage and support the development of accepted community norms. The proposed framework and reporting system aim to promote ethical and responsible use of AI in scientific research and provide a standardized approach for reporting AI usage across different research fields. We also provide a free service to easily generate AI Usage Cards for scientific work via a questionnaire and export them in various machine-readable formats for inclusion in different work products at \url{https://ai-cards.org}. | 翻訳日:2023-03-12 03:40:02 公開日:2023-02-16 |
# AIリスク懐疑論 - 総合的な調査 AI Risk Skepticism, A Comprehensive Survey ( http://arxiv.org/abs/2303.03885v1 ) ライセンス: Link先を確認 | Vemir Michael Ambartsoumean, Roman V. Yampolskiy | (参考訳) この徹底的な研究で、人工知能に関連する潜在的な危険性に関して生じた懐疑論、すなわちaiリスク懐疑論について詳しく調べました。
本研究は,その話題に関する異なる視点を考慮に入れ,科学に現れた他の形態の懐疑論と類似している。
我々は、AIの危険性に関する様々な懐疑論を、関係する誤った思考の種類によって分類する。
AIの将来とそれが引き起こすリスクについて、AI研究者にとって、これが関心と価値になることを期待しています。
aiにおける懐疑論とリスクの問題は決定的に重要であり、真剣に検討する必要がある。
科学的研究の厳密さと正確さでこれらの問題に対処することで、我々は直面する異論をより深く理解し、それらを解決するための適切な方法を見つけることを望んでいる。 In this thorough study, we took a closer look at the skepticism that has arisen with respect to potential dangers associated with artificial intelligence, denoted as AI Risk Skepticism. Our study takes into account different points of view on the topic and draws parallels with other forms of skepticism that have shown up in science. We categorize the various skepticisms regarding the dangers of AI by the type of mistaken thinking involved. We hope this will be of interest and value to AI researchers concerned about the future of AI and the risks that it may pose. The issues of skepticism and risk in AI are decidedly important and require serious consideration. By addressing these issues with the rigor and precision of scientific research, we hope to better understand the objections we face and to find satisfactory ways to resolve them. | 翻訳日:2023-03-12 03:39:34 公開日:2023-02-16 |
# 量子絡み合いの持続的ホモロジー Persistent homology of quantum entanglement ( http://arxiv.org/abs/2110.10214v3 ) ライセンス: Link先を確認 | Bart Olsthoorn | (参考訳) 量子エンタングルメントエントロピーの構造は、指数関数的に大きいヒルベルト空間の小さな角に集中し、基底状態を見つける問題を効率的にパラメータ化するためにしばしば利用される。
典型的な例は、局所およびガッピングハミルトニアンに対する行列積状態の使用である。
本研究では、トポロジデータ解析の分野から比較的新しい手法である永続ホモロジーを用いた絡み合いエントロピーの構造について検討する。
一対のサイト間の逆量子相互情報は、フィルターされた単体複体を形成する距離計量として用いられる。
一般的なスピンモデルの基底状態と励起状態の両方を例に分析する。
さらに, 係数や境界条件の異なるホモロジーの効果についても考察した。
これらの基本的な例以外にも、時空が絡み合いからどのように現れるかという問題との関連を含む、この現代の計算アプローチの将来の有望な応用についても論じる。 Structure in quantum entanglement entropy is often leveraged to focus on a small corner of the exponentially large Hilbert space and efficiently parameterize the problem of finding ground states. A typical example is the use of matrix product states for local and gapped Hamiltonians. We study the structure of entanglement entropy using persistent homology, a relatively new method from the field of topological data analysis. The inverse quantum mutual information between pairs of sites is used as a distance metric to form a filtered simplicial complex. Both ground states and excited states of common spin models are analyzed as an example. Furthermore, the effect of homology with different coefficients and boundary conditions is also explored. Beyond these basic examples, we also discuss the promising future applications of this modern computational approach, including its connection to the question of how spacetime could emerge from entanglement. | 翻訳日:2023-03-11 01:51:50 公開日:2023-02-16 |
# 水中ターゲット認識のためのカスタマイズモース火炎最適化アルゴリズムによる深層ニューラルネットワークの進化 Evolving Deep Neural Network by Customized Moth Flame Optimization Algorithm for Underwater Targets Recognition ( http://arxiv.org/abs/2303.00922v1 ) ライセンス: Link先を確認 | Mohammad Khishe, Mokhtar Mohammadi, Tarik A. Rashid, Hoger Mahmud, Seyedali Mirjalili | (参考訳) 本章では、深層ニューラルネットワークを微調整し、異なる水中ソナーデータセットを認識するために、moth flame optimization(mfo)アルゴリズムを提案する。
メタヒューリスティックアルゴリズム、早期収束、局所最小値のトラップ、合理的時間での収束の失敗などによって進化した他のモデルと同様、MFOは高次元探索空間の問題を解決するために直面する3つの欠陥である。
スパイラル飛行は、火炎にかかわる姿勢をどのように調整するかを決定するため、MFOの重要な要素であり、スパイラル運動の形状は、探査と利用のフェーズ間の遷移の挙動を調節することができる。
そこで本章では,特に水中目標分類タスクにおいて,mfoの性能に異なる曲率と傾斜を有する7つの渦状運動の効率について検討する。
カスタマイズされたモデルの性能を評価するために、Sejnowski & Gormanのデータセットのベンチマークに加えて、2つの実験されたソナーデータセット、すなわち受動ソナーとアクティブデータセットを利用する。
MFOとその修正結果は、ヒープベース最適化(HBO)、チップ最適化アルゴリズム(ChOA)、アントライオン最適化(ALO)、確率フラクタル探索(SFS)、古典的なパーティクルスワーム最適化(PSO)の4つの新しい自然に触発されたアルゴリズムと比較される。
その結果、カスタマイズされたMFOは、他の最先端モデルよりも優れた性能を示し、セヨノフスキーとゴルマンの分類レートが1.5979、0.9985、2.0879、パッシブ、アクティブデータセットがそれぞれ増加することを確認した。
また, 異なる渦状運動を用いることで, 時間複雑性が著しく増大しないことも確認できた。 This chapter proposes using the Moth Flame Optimization (MFO) algorithm for finetuning a Deep Neural Network to recognize different underwater sonar datasets. Same as other models evolved by metaheuristic algorithms, premature convergence, trapping in local minima, and failure to converge in a reasonable time are three defects MFO confronts in solving problems with high-dimension search space. Spiral flying is the key component of the MFO as it determines how the moths adjust their positions in relation to flames; thereby, the shape of spiral motions can regulate the transition behavior between the exploration and exploitation phases. Therefore, this chapter investigates the efficiency of seven spiral motions with different curvatures and slopes in the performance of the MFO, especially for underwater target classification tasks. To assess the performance of the customized model, in addition to benchmark Sejnowski & Gorman's dataset, two experimental sonar datasets, i.e., the passive sonar and active datasets, are exploited. The results of MFO and its modifications are compared to four novel nature-inspired algorithms, including Heap-Based Optimizer (HBO), Chimp Optimization Algorithm (ChOA), Ant Lion Optimization (ALO), Stochastic Fractals Search (SFS), as well as the classic Particle Swarm Optimization (PSO). The results confirm that the customized MFO shows better performance than the other state-of-the-art models so that the classification rates are increased 1.5979, 0.9985, and 2.0879 for Sejnowski & Gorman, passive, and active datasets, respectively. The results also approve that time complexity is not significantly increased by using different spiral motions. | 翻訳日:2023-03-05 05:34:20 公開日:2023-02-16 |
# 気候ティッピングポイント発見のための生成的逆ネットワーク(tip-gan) A Generative Adversarial Network for Climate Tipping Point Discovery (TIP-GAN) ( http://arxiv.org/abs/2302.10274v1 ) ライセンス: Link先を確認 | Jennifer Sleeman, David Chung, Anand Gnanadesikan, Jay Brett, Yannis Kevrekidis, Marisa Hughes, Thomas Haine, Marie-Aude Pradal, Renske Gelderloos, Chace Ashcraft, Caroline Tang, Anshu Saksena, Larry White | (参考訳) 我々は,地球系モデルにおける潜在的な気候の転換点のキャラクタリゼーションを改善するため,TIP-GAN(Tip Point Generative Adversarial Network)を提案する。
我々は,これらのモデルのパラメータ空間を探索し,これからのティッピングポイントを検出し,ティッピングポイントのドライバを検出するための敵ゲームについて述べる。
このセットアップでは、ジェネレータのセットが、気候の転換点を呼び出すモデル構成を構築することを学ぶ。
判別器は、どのジェネレータがそれぞれのモデル構成を生成しているか、特定の構成がチップングポイントに繋がるかどうかを識別する。
判別器はoracle(surrogate climate model)を使用してトレーニングされ、生成されたモデル構成がチップングポイントに繋がるかどうかをテストする。
本稿では,Atlantic Meridional Overturning Circulation (AMOC) の崩壊を誘発するためのGANの適用例を示す。
モデル状態空間における不確実性領域を気候傾斜点付近で活用するために,損失関数と発電機数を変更する実験結果を共有する。
さらに、当社の訓練された判別器は、oracleを使わずに、高い精度でamoc崩壊を予測できることを示しました。
このアプローチは、他のティッピングポイントに一般化する可能性があり、また、ティッピングポイントの研究に興味のあるユーザに、計算集約的な気候モデルでそのようなティッピングポイントを誘発する可能性のあるパラメータセットを指示することで、気候モデリングの研究を強化することができる。 We propose a new Tipping Point Generative Adversarial Network (TIP-GAN) for better characterizing potential climate tipping points in Earth system models. We describe an adversarial game to explore the parameter space of these models, detect upcoming tipping points, and discover the drivers of tipping points. In this setup, a set of generators learn to construct model configurations that will invoke a climate tipping point. The discriminator learns to identify which generators are generating each model configuration and whether a given configuration will lead to a tipping point. The discriminator is trained using an oracle (a surrogate climate model) to test if a generated model configuration leads to a tipping point or not. We demonstrate the application of this GAN to invoke the collapse of the Atlantic Meridional Overturning Circulation (AMOC). We share experimental results of modifying the loss functions and the number of generators to exploit the area of uncertainty in model state space near a climate tipping point. In addition, we show that our trained discriminator can predict AMOC collapse with a high degree of accuracy without the use of the oracle. This approach could generalize to other tipping points, and could augment climate modeling research by directing users interested in studying tipping points to parameter sets likely to induce said tipping points in their computationally intensive climate models. | 翻訳日:2023-02-26 14:38:01 公開日:2023-02-16 |
# SceneHGN:微細幾何を用いた3次元室内シーン生成のための階層グラフネットワーク SceneHGN: Hierarchical Graph Networks for 3D Indoor Scene Generation with Fine-Grained Geometry ( http://arxiv.org/abs/2302.10237v1 ) ライセンス: Link先を確認 | Lin Gao, Jia-Mu Sun, Kaichun Mo, Yu-Kun Lai, Leonidas J. Guibas, Jie Yang | (参考訳) 3D屋内シーンは、インテリアデザインからゲーム、バーチャルおよび拡張現実に至るまで、コンピュータグラフィックスで広く使われている。
部屋のレイアウトや家具の種類、幾何学、配置など、豊富な情報も含まれている。
高品質な3D屋内シーンは、専門知識が必要であり、手動で高品質な3D屋内シーンを設計するのに時間を要する。
既存の研究は部分的な問題にのみ対処する: 部屋のレイアウトを生成することを学ぶ研究や、個々の家具オブジェクトの詳細な構造と幾何学を生成する研究がある。
しかしながら、これらの部分的なステップは関連しており、最適な合成のために対処する必要がある。
SCENEHGNは3次元屋内シーンの階層的なグラフネットワークであり,部屋レベルからオブジェクトレベルまでの全階層を考慮し,最後にオブジェクト部分レベルに展開する。
そこで,本手法は,細粒度形状の家具オブジェクトとレイアウトを含む,再現可能な3dルームコンテンツを直接生成することができる。
この課題に対処するため,部屋とオブジェクトレベルの中間プロキシとして機能領域を導入し,学習をより管理可能にする。
このグラフベースの表現は、異なるレベルの親ノードと子ノードをつなぐ垂直エッジと、同じレベルでノード間の関係をエンコードする水平エッジの両方を包含する。
提案手法は, 部分ステップの結果とそれしか達成できない代替手法との比較においても, 優れた生成結果が得られることを示す。
また,任意の部屋境界によるパートレベルの部屋編集,部屋補間,部屋生成など,様々なアプリケーションに対して有効であることを示す。 3D indoor scenes are widely used in computer graphics, with applications ranging from interior design to gaming to virtual and augmented reality. They also contain rich information, including room layout, as well as furniture type, geometry, and placement. High-quality 3D indoor scenes are highly demanded while it requires expertise and is time-consuming to design high-quality 3D indoor scenes manually. Existing research only addresses partial problems: some works learn to generate room layout, and other works focus on generating detailed structure and geometry of individual furniture objects. However, these partial steps are related and should be addressed together for optimal synthesis. We propose SCENEHGN, a hierarchical graph network for 3D indoor scenes that takes into account the full hierarchy from the room level to the object level, then finally to the object part level. Therefore for the first time, our method is able to directly generate plausible 3D room content, including furniture objects with fine-grained geometry, and their layout. To address the challenge, we introduce functional regions as intermediate proxies between the room and object levels to make learning more manageable. To ensure plausibility, our graph-based representation incorporates both vertical edges connecting child nodes with parent nodes from different levels, and horizontal edges encoding relationships between nodes at the same level. Extensive experiments demonstrate that our method produces superior generation results, even when comparing results of partial steps with alternative methods that can only achieve these. We also demonstrate that our method is effective for various applications such as part-level room editing, room interpolation, and room generation by arbitrary room boundaries. | 翻訳日:2023-02-26 14:36:23 公開日:2023-02-16 |
# 仮想エージェントのための音声エンティティ抽出 Spoken Entity Extraction for Virtual Agents ( http://arxiv.org/abs/2302.10186v1 ) ライセンス: Link先を確認 | Karan Singla, Yeon-Jun Kim, Ryan Price, Shahab Jalalvand, Srinivas Bangalore | (参考訳) 本稿では,音声エンコーダを用いた音声処理のいくつかの側面,特に中間文表現を伴わない音声から直接エンティティを抽出することについて再検討する。
人間とコンピュータの会話では、名前や住所、メールアドレスなどのエンティティを音声から抽出することが難しい。
本稿では, テキストの書き起こしを必要とせずに, 音声読取可能な音声の実体を直接抽出する, 微調整事前学習音声エンコーダの効果について検討する。
このような直接的アプローチは、エンコーダを最適化して、音声の固有部分のみを書写し、キャリア句やエンティティの綴りといった余分な部分を無視する。
企業仮想エージェントからの対話の文脈において,1段階のアプローチは,最初に生成する語彙転写の典型的な2段階のカスケードよりも優れており,その後にテキストに基づくエンティティ抽出によって音声エンティティを識別できることを実証する。 This paper reimagines some aspects of speech processing using speech encoders, specifically about extracting entities directly from speech, with no intermediate textual representation. In human-computer conversations, extracting entities such as names, postal addresses and email addresses from speech is a challenging task. In this paper, we study the impact of fine-tuning pre-trained speech encoders on extracting spoken entities in human-readable form directly from speech without the need for text transcription. We illustrate that such a direct approach optimizes the encoder to transcribe only the entity relevant portions of speech, ignoring the superfluous portions such as carrier phrases and spellings of entities. In the context of dialogs from an enterprise virtual agent, we demonstrate that the 1-step approach outperforms the typical 2-step cascade of first generating lexical transcriptions followed by text-based entity extraction for identifying spoken entities. | 翻訳日:2023-02-26 14:35:46 公開日:2023-02-16 |
# グラフテキスト自己教師型学習に基づくマルチモーダル事前学習モデルの一般化アルゴリズム Generalization algorithm of multimodal pre-training model based on graph-text self-supervised training ( http://arxiv.org/abs/2302.10315v1 ) ライセンス: Link先を確認 | Zhangxiaobing and Tangzhenhao and Longzi and Fuxianghua | (参考訳) 近年,視覚情報の導入がニューラルマシン翻訳(NMT)の効果を効果的に改善できることが,多くの研究で示されている。
その効果は、多数のバイリンガル並列文ペアと手作業による画像アノテーションの可用性に大きく依存する。
画像の欠如と画像の有効性は解決が困難である。
本稿では,視覚情報や不正確さの欠如を克服し,NMTにおける画像の適用性を高める,自己指導型トレーニングのためのマルチモーダル事前学習アルゴリズムを提案する。
具体的には、既存の文章から多くの画像を検索エンジンで検索し、視覚情報とテキストの関係を通して、グラフィックとテキストの自己教師あり学習タスクを行い、より効果的なテキストの視覚情報を得る。
フィルタされた情報を微調整のためのマルチモーダル機械翻訳として使用する場合,グローバル音声データセットにおける翻訳の効果は,ベースラインよりも0.5 bleu高い値を示す。 Recently, a large number of studies have shown that the introduction of visual information can effectively improve the effect of neural machine translation (NMT). Its effectiveness largely depends on the availability of a large number of bilingual parallel sentence pairs and manual image annotation. The lack of images and the effectiveness of images have been difficult to solve. In this paper, a multimodal pre-training generalization algorithm for self-supervised training is proposed, which overcomes the lack of visual information and inaccuracy, and thus extends the applicability of images on NMT. Specifically, we will search for many pictures from the existing sentences through the search engine, and then through the relationship between visual information and text, do the self-supervised training task of graphics and text to obtain more effective visual information for text. We show that when the filtered information is used as multimodal machine translation for fine-tuning, the effect of translation in the global voice dataset is 0.5 BLEU higher than the baseline. | 翻訳日:2023-02-26 14:19:15 公開日:2023-02-16 |
# 動的名前付きエンティティ認識 Dynamic Named Entity Recognition ( http://arxiv.org/abs/2302.10314v1 ) ライセンス: Link先を確認 | Tristan Luiggi, Laure Soulier, Vincent Guigue, Siwar Jendoubi, Aur\'elien Baelde | (参考訳) 名前付きエンティティ認識(ner)は、テキスト中のエンティティの検出とタイプを含む、挑戦的で広く研究されているタスクである。
これまでのところ、NERはエンティティ型付けを普遍クラス(日付、人、場所など)に分類するタスクとしてアプローチしている。
近年のインナチュラル言語処理の進歩は、過度な適合と記憶に繋がる複雑性が増大するアーキテクチャに焦点を絞っている。
私たちの仕事は、エンティティのタイプがコンテキストに依存し、記憶だけでは解決できない状況をターゲットにしています。
動的名前付きエンティティ認識(DNER)は、コンテキストを利用してエンティティを抽出するアルゴリズムの能力をよりよく評価するためのフレームワークを提供する。
DNERベンチマークは、DNER-RotoWireとDNER-IMDbという2つのデータセットに基づいている。
本稿では,本課題に関連する課題と研究軸を反映したベースラインモデルと実験結果について述べる。 Named Entity Recognition (NER) is a challenging and widely studied task that involves detecting and typing entities in text. So far,NER still approaches entity typing as a task of classification into universal classes (e.g. date, person, or location). Recent advances innatural language processing focus on architectures of increasing complexity that may lead to overfitting and memorization, and thus, underuse of context. Our work targets situations where the type of entities depends on the context and cannot be solved solely by memorization. We hence introduce a new task: Dynamic Named Entity Recognition (DNER), providing a framework to better evaluate the ability of algorithms to extract entities by exploiting the context. The DNER benchmark is based on two datasets, DNER-RotoWire and DNER-IMDb. We evaluate baseline models and present experiments reflecting issues and research axes related to this novel task. | 翻訳日:2023-02-26 14:19:00 公開日:2023-02-16 |
# 異種環境における分散学習--適応集計と計算量削減による連合学習 Distributed Learning in Heterogeneous Environment: federated learning with adaptive aggregation and computation reduction ( http://arxiv.org/abs/2302.10757v1 ) ライセンス: Link先を確認 | Jingxin Li, Toktam Mahmoodi, Hak-Keung Lam | (参考訳) 連合学習は近年多くのブレークスルーを達成しているが、学習環境の不均一性は、その性能を著しく制限し、現実世界の応用を妨げる。
不均質なデータ、時変無線条件、コンピューティング制限されたデバイスは3つの大きな課題であり、不安定なトレーニングプロセスと精度の低下をもたらすことが多い。
本稿では,これらの課題に対処するための戦略を提案する。
本研究では,不均質なデータ分布を対象とし,前ラウンドからのモデル更新と現在のラウンドとを混合し,大きなモデルシフトを回避し,トレーニング安定性を維持する新しい適応混合集約(ama)方式を提案する。
さらに、動的無線環境による非同期モデル更新のための新しい安定化に基づく重み付け方式を提案する。
最後に,特徴抽出器(FES)を共有化して,計算機限定のデバイスに分類器のみを更新させることにより,転送学習に基づくCPUフレンドリな計算還元手法を提案する。
シミュレーションの結果,提案フレームワークは既存の最先端ソリューションを上回り,テスト精度が向上し,トレーニング安定性が最大2.38%,93.10%向上した。
さらに,提案フレームワークは,適切な遅延環境下で最大15発の通信遅延を許容できるが,精度は低下しない。 Although federated learning has achieved many breakthroughs recently, the heterogeneous nature of the learning environment greatly limits its performance and hinders its real-world applications. The heterogeneous data, time-varying wireless conditions and computing-limited devices are three main challenges, which often result in an unstable training process and degraded accuracy. Herein, we propose strategies to address these challenges. Targeting the heterogeneous data distribution, we propose a novel adaptive mixing aggregation (AMA) scheme that mixes the model updates from previous rounds with current rounds to avoid large model shifts and thus, maintain training stability. We further propose a novel staleness-based weighting scheme for the asynchronous model updates caused by the dynamic wireless environment. Lastly, we propose a novel CPU-friendly computation-reduction scheme based on transfer learning by sharing the feature extractor (FES) and letting the computing-limited devices update only the classifier. The simulation results show that the proposed framework outperforms existing state-of-the-art solutions and increases the test accuracy, and training stability by up to 2.38%, 93.10% respectively. Additionally, the proposed framework can tolerate communication delay of up to 15 rounds under a moderate delay environment without significant accuracy degradation. | 翻訳日:2023-02-26 14:06:49 公開日:2023-02-16 |
# eagle:メッシュトランスフォーマーによる乱流流体力学の大規模学習 Eagle: Large-Scale Learning of Turbulent Fluid Dynamics with Mesh Transformers ( http://arxiv.org/abs/2302.10803v1 ) ライセンス: Link先を確認 | Steeven Janny, Aur\'elien B\'eneteau, Nicolas Thome, Madiha Nadri, Julie Digne, Christian Wolf | (参考訳) 流体力学の推定は、計算が複雑で、ハイエンドのハードウェアでも時間がかかるナビエ・ストークス方程式を解く数値モデルのシミュレーションと積分によって古典的に行われる。
これは、最近機械学習、特にgraph neural networks(gnn)、および固定幾何の静的なシーンにおける静的オブジェクトのデータセット上で訓練され、評価された変種で対処されている、非常に難しい問題である。
既存の作業の複雑さを超えて、新しいモデル、メソッド、ベンチマークを導入しようとしています。
本研究では,非線形シーン構造と相互作用する移動流体源による非定常流体力学のシミュレーションから得られた,1億1100万の2dメッシュからなる大規模データセットeagleを提案する。
EAGLEデータセット上で,将来的な圧力と速度の予測を行うため,新しいメッシュトランスを導入した。
ノードクラスタリング、グラフプーリング、グローバルアテンションを活用して、既存のGNNメソッドのように、多数のイテレーションを必要とせずに、空間的に離れたデータポイント間の長距離依存関係を学習する。
この変換器は,既存の合成データと実データの両方,およびEAGLE上での最先端性能より優れていることを示す。
最後に、我々のアプローチが気流への参加を学び、複雑な情報を1回にまとめることを強調します。 Estimating fluid dynamics is classically done through the simulation and integration of numerical models solving the Navier-Stokes equations, which is computationally complex and time-consuming even on high-end hardware. This is a notoriously hard problem to solve, which has recently been addressed with machine learning, in particular graph neural networks (GNN) and variants trained and evaluated on datasets of static objects in static scenes with fixed geometry. We attempt to go beyond existing work in complexity and introduce a new model, method and benchmark. We propose EAGLE, a large-scale dataset of 1.1 million 2D meshes resulting from simulations of unsteady fluid dynamics caused by a moving flow source interacting with nonlinear scene structure, comprised of 600 different scenes of three different types. To perform future forecasting of pressure and velocity on the challenging EAGLE dataset, we introduce a new mesh transformer. It leverages node clustering, graph pooling and global attention to learn long-range dependencies between spatially distant data points without needing a large number of iterations, as existing GNN methods do. We show that our transformer outperforms state-of-the-art performance on, both, existing synthetic and real datasets and on EAGLE. Finally, we highlight that our approach learns to attend to airflow, integrating complex information in a single iteration. | 翻訳日:2023-02-26 13:59:37 公開日:2023-02-16 |
# GLUECons:制約下での学習のためのジェネリックベンチマーク GLUECons: A Generic Benchmark for Learning Under Constraints ( http://arxiv.org/abs/2302.10914v1 ) ライセンス: Link先を確認 | Hossein Rajaby Faghihi, Aliakbar Nafar, Chen Zheng, Roshanak Mirzaee, Yue Zhang, Andrzej Uszok, Alexander Wan, Tanawan Premsri, Dan Roth, and Parisa Kordjamshidi | (参考訳) 近年の研究では、ディープラーニングアーキテクチャにドメイン知識を統合することが効果的であることが示されており、必要なデータ量を削減し、モデルの判断の正確性を改善し、モデルの解釈可能性を向上させる。
しかし,知識統合手法を体系的に評価するベンチマークは,研究コミュニティには欠落している。
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
いずれの場合も、外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
より詳細な分析のために,これらのモデルの結果をタスク性能に加えて,新たな拡張評価基準を用いて報告する。
この取り組みは、制約統合技術をより包括的かつ体系的に比較し、関連する研究課題を特定するためのフレームワークを提供する。
最先端のニューラルモデルの問題を緩和するためのさらなる研究を促進する。 Recent research has shown that integrating domain knowledge into deep learning architectures is effective -- it helps reduce the amount of required data, improves the accuracy of the models' decisions, and improves the interpretability of models. However, the research community is missing a convened benchmark for systematically evaluating knowledge integration methods. In this work, we create a benchmark that is a collection of nine tasks in the domains of natural language processing and computer vision. In all cases, we model external knowledge as constraints, specify the sources of the constraints for each task, and implement various models that use these constraints. We report the results of these models using a new set of extended evaluation criteria in addition to the task performances for a more in-depth analysis. This effort provides a framework for a more comprehensive and systematic comparison of constraint integration techniques and for identifying related research challenges. It will facilitate further research for alleviating some problems of state-of-the-art neural models. | 翻訳日:2023-02-26 13:31:51 公開日:2023-02-16 |
# gaussian switch sampling: アクティブラーニングへの2次アプローチ Gaussian Switch Sampling: A Second Order Approach to Active Learning ( http://arxiv.org/abs/2302.12018v1 ) ライセンス: Link先を確認 | Ryan Benkert, Mohit Prabhushankar, Ghassan AlRegib, Armin Pacharmi, and Enrique Corona | (参考訳) アクティブラーニングでは、獲得関数はモデル多様体内の表現位置から直接情報性を定義する。
しかし、ほとんどの機械学習モデル(特にニューラルネットワーク)では、アクティブな学習ラウンド間のトレーニングプール変動のため、この表現は固定されていない。
したがって、いくつかの一般的な戦略は実験パラメータ(例えばアーキテクチャ)に敏感であり、分散設定に対するモデルのロバスト性を考慮していない。
この問題を軽減するために,本研究では,アクティブラーニングの文脈における情報内容とサンプルの重要性の2次定義を提案する。
具体的には、トレーニング中にニューラルネットワークがサンプルを"忘れている"頻度で重要度を定義します。
モデル表現が訓練データの欠如によって制約されている場合でも, 精度の高い重要度スコアが得られた。
分析に動機づけられ,ガウススイッチサンプリング(gauss)を開発した。
GauSSは,3つの分布内ベンチマーク,3つの分布外ベンチマーク,および3つの異なるアーキテクチャの徹底的な実験により,異常分布に対して非依存かつ堅牢であることを示す。
4つの一般的なクエリ戦略と比較すると,最大5%の改善が報告されている。 In active learning, acquisition functions define informativeness directly on the representation position within the model manifold. However, for most machine learning models (in particular neural networks) this representation is not fixed due to the training pool fluctuations in between active learning rounds. Therefore, several popular strategies are sensitive to experiment parameters (e.g. architecture) and do not consider model robustness to out-of-distribution settings. To alleviate this issue, we propose a grounded second-order definition of information content and sample importance within the context of active learning. Specifically, we define importance by how often a neural network "forgets" a sample during training - artifacts of second order representation shifts. We show that our definition produces highly accurate importance scores even when the model representations are constrained by the lack of training data. Motivated by our analysis, we develop Gaussian Switch Sampling (GauSS). We show that GauSS is setup agnostic and robust to anomalous distributions with exhaustive experiments on three in-distribution benchmarks, three out-of-distribution benchmarks, and three different architectures. We report an improvement of up to 5% when compared against four popular query strategies. | 翻訳日:2023-02-26 13:13:55 公開日:2023-02-16 |
# 認知主義を拒絶する:深層学習のための計算現象論 Rejecting Cognitivism: Computational Phenomenology for Deep Learning ( http://arxiv.org/abs/2302.09071v1 ) ライセンス: Link先を確認 | Pierre Beckmann, Guillaume K\"ostner, In\^es Hip\'olito | (参考訳) 本稿では,新しい手法である計算現象論,(現象論に基づく)一人称視点と計算モデルのメカニズムとの対話に基づく,深層学習のための非表現主義的枠組みを提案する。
これにより、ニューラルネットワークが外部実体の表現を符号化する現代認知主義的深層学習の解釈を拒絶する。
この解釈は主に、科学的実体に対する強い存在論的コミットメントと、脳がこれらの実体の象徴的表現に作用するという考えを組み合わせた、神経表現主義に依存している。
We proceed as follows: after offering a review of cognitivism and neuro-representationalism in the field of deep learning, we first elaborate a phenomenological critique of these positions; we then sketch out computational phenomenology and distinguish it from existing alternatives; finally we apply this new method to deep learning models trained on specific tasks, in order to formulate a conceptual framework of deep-learning, that allows one to think of artificial neural networks' mechanisms in terms of lived experience. We propose a non-representationalist framework for deep learning relying on a novel method: computational phenomenology, a dialogue between the first-person perspective (relying on phenomenology) and the mechanisms of computational models. We thereby reject the modern cognitivist interpretation of deep learning, according to which artificial neural networks encode representations of external entities. This interpretation mainly relies on neuro-representationalism, a position that combines a strong ontological commitment towards scientific theoretical entities and the idea that the brain operates on symbolic representations of these entities. We proceed as follows: after offering a review of cognitivism and neuro-representationalism in the field of deep learning, we first elaborate a phenomenological critique of these positions; we then sketch out computational phenomenology and distinguish it from existing alternatives; finally we apply this new method to deep learning models trained on specific tasks, in order to formulate a conceptual framework of deep-learning, that allows one to think of artificial neural networks' mechanisms in terms of lived experience. | 翻訳日:2023-02-21 20:36:38 公開日:2023-02-16 |
# ゲームにおけるレジリエンス向上のための共感型AI Empathetic AI for Empowering Resilience in Games ( http://arxiv.org/abs/2302.09070v1 ) ライセンス: Link先を確認 | Reza Habibi, Johannes Pfau, Jonattan Holmes, Magy Seif El-Nasr | (参考訳) 失敗とレジリエンスはゲームプレイの重要な側面です。
これは、プレイヤーが頻繁に失敗に適応し対処する必要がある、真剣で競争的なゲームにとって特に重要である。
このような状況では、困難な状況に対処し適応するために感情を調節する活動的なプロセスである感情調節が不可欠である。
人間の知能の顕著な側面の1つであり、精神的な健康と幸福を促進する。
インテリジェント・チュータリングシステムの分野で、ユーザーが感情制御に対処するための人工的な感情制御アシスタントの開発に取り組んでいるが、そのようなシステムやアイデアを(現実的な)ビデオゲームに組み込むことはほとんどない。
本稿では,情緒的人工知能(EAI)を確立するためのデータ駆動型6フェーズアプローチを提案する。この手法は,生のチャットログデータを用いて重要な情緒的状態を検出し,共通シーケンスと感情制御戦略を同定し,それらを介入システムに適用するために一般化する。 Failure and resilience are important aspects of gameplay. This is especially important for serious and competitive games, where players need to adapt and cope with failure frequently. In such situations, emotion regulation -- the active process of modulating ones' emotions to cope and adapt to challenging situations -- becomes essential. It is one of the prominent aspects of human intelligence and promotes mental health and well-being. While there has been work on developing artificial emotional regulation assistants to help users cope with emotion regulation in the field of Intelligent Tutoring systems, little is done to incorporate such systems or ideas into (serious) video games. In this paper, we introduce a data-driven 6-phase approach to establish empathetic artificial intelligence (EAI), which operates on raw chat log data to detect key affective states, identify common sequences and emotion regulation strategies and generalizes these to make them applicable for intervention systems. | 翻訳日:2023-02-21 20:36:21 公開日:2023-02-16 |
# 生産農場における土壌センサと気象観測所からのセンサデータのオープンデータセット An Open Dataset of Sensor Data from Soil Sensors and Weather Stations at Production Farms ( http://arxiv.org/abs/2302.09072v1 ) ライセンス: Link先を確認 | Charilaos Mousoulis, Pengcheng Wang, Nguyen Luu Do, Jose F Waimin, Nithin Raghunathan, Rahim Rahimi, Ali Shakouri, and Saurabh Bagchi | (参考訳) 農業活動においては、気候や土壌条件が特に重要である。
これらの要因とその栄養素および硝酸塩の吸収速度に関する研究は、より制御された肥料や化学物質の使用を通じて、作物の収量と環境保護の両方に利益をもたらす有用な洞察をもたらす可能性がある。
農村部、農業用センサーネットワークから得られる公共データにはpaucityがある。
これは、農村部におけるIoTネットワークの展開とメンテナンスにおいて直面する、ユニークな課題によるものだ。
WHINと呼ばれる5年間のプロジェクトの一環として、インディアナ州パーデュー大学周辺で生産および実験農場からセンサーデータを収集してきた。
ここでは,3つの生産農場にまたがる3ノードの代表サンプルから土壌センサデータからなるデータセットを5ヶ月毎にリリースする。
このデータを気象データと関連付け、土壌における雨の吸収に関する洞察を得る。
データセットはhttps://purduewhin.ecn.purdue.edu/dataset2021。 Weather and soil conditions are particularly important when it comes to farming activities. Study of these factors and their role in nutrient and nitrate absorption rates can lead to useful insights with benefits for both the crop yield and the protection of the environment through the more controlled use of fertilizers and chemicals. There is a paucity of public data from rural, agricultural sensor networks. This is partly due to the unique challenges faced during the deployment and maintenance of IoT networks in rural agricultural areas. As part of a 5-year project called WHIN we have been deploying and collecting sensor data from production and experimental agricultural farms in and around Purdue University in Indiana. Here we release a dataset comprising soil sensor data from a representative sample of 3 nodes across 3 production farms, each for 5 months. We correlate this data with the weather data and draw some insights about the absorption of rain in the soil. We provide the dataset at: https://purduewhin.ecn.purdue.edu/dataset2021. | 翻訳日:2023-02-21 20:24:43 公開日:2023-02-16 |
# 言語モデルと表理解のギャップを埋める Bridge the Gap between Language models and Tabular Understanding ( http://arxiv.org/abs/2302.09302v1 ) ライセンス: Link先を確認 | Nuo Chen, Linjun Shou, Ming Gong, Jian Pei, Chenyu You, Jianhui Chang, Daxin Jiang, Jia Li | (参考訳) 自然言語領域における事前学習の成功以降,テーブル事前学習のパラダイムが提案され,急速に採用されている。
表付き事前学習言語モデル(TPLM)の有望な発見にもかかわらず、事前学習と微調整フェーズの間には入力ギャップがある。
例えば、テーブルとテキスト入力で事前訓練されたTPLMは、テーブル質問応答のようなテーブル-テキスト共同入力のタスクにも有効であるが、テーブル検索のような入力としてテーブルまたはテキストのみのタスクには有効である。
そこで我々は,テーブルテキスト,テーブル,テキストの3種類のマルチモーダル入力を動的にサポートする手法であるutpを提案する。
特に, UTP は, 1 種類の入力に対して汎用マスク言語モデリングの目的を第一に利用し, 様々な入力に適応するようにモデルを強制する2つの戦略で事前訓練されている。
2)教師なしインスタンス間トレーニング信号によるテーブルテキスト間相互モダリティ表現の一貫性を促進するために,コントラスト学習を用いたクロスモーダルコントラスト正則化(cmcr)を提案する。
結果として得られたモデルは、事前学習と微調整の間の入力ギャップを橋渡しするだけでなく、テーブルとテキストのアライメントを進化させる。
UTPは単一モーダル入力タスク(テーブル検索など)と相互モーダル入力タスク(テーブル質問応答など)において優れた結果が得られることを示す。 Table pretrain-then-finetune paradigm has been proposed and employed at a rapid pace after the success of pre-training in the natural language domain. Despite the promising findings in tabular pre-trained language models (TPLMs), there is an input gap between pre-training and fine-tuning phases. For instance, TPLMs jointly pre-trained with table and text input could be effective for tasks also with table-text joint input like table question answering, but it may fail for tasks with only tables or text as input such as table retrieval. To this end, we propose UTP, an approach that dynamically supports three types of multi-modal inputs: table-text, table, and text. Specifically, UTP is pre-trained with two strategies: (1) We first utilize a universal mask language modeling objective on each kind of input, enforcing the model to adapt various inputs. (2) We then present Cross-Modal Contrastive Regularization (CMCR), which utilizes contrastive learning to encourage the consistency between table-text cross-modality representations via unsupervised instance-wise training signals during pre-training. By these means, the resulting model not only bridges the input gap between pre-training and fine-tuning but also advances in the alignment of table and text. Extensive results show UTP achieves superior results on uni-modal input tasks (e.g., table retrieval) and cross-modal input tasks (e.g., table question answering). | 翻訳日:2023-02-21 19:23:09 公開日:2023-02-16 |
# 内在次元レンズによる安定拡散の表現多様体の探索 Exploring the Representation Manifolds of Stable Diffusion Through the Lens of Intrinsic Dimension ( http://arxiv.org/abs/2302.09301v1 ) ライセンス: Link先を確認 | Henry Kvinge, Davis Brown, Charles Godfrey | (参考訳) プロンプティングは、ユーザーが多くの基礎モデルのフレーバーとより効果的に対話できる重要なメカニズムとなっている。
実際、ここ数年の間、きちんとしたプロンプトが、そのようなモデルの中で創発的な機能を解き放つことがあることが示されてきた。
コミュニティ内でプロンプトに関する実証的な調査が盛んに行われているが、数学的レベルでプロンプトを研究した研究は、比較的少ない。
本研究では、安定拡散におけるプロンプトによって誘導される基本幾何学的性質の理解に向けて、モデル内の内部表現の本質的な次元に焦点をあてる。
プロンプトの選択は、探索したモデルの両方の層における表現の本質的な次元に大きな影響を与えるが、この影響の性質は検討中の層に依存している。
例えば、モデルの特定のボトルネック層では、表現の内在次元は(代理モデルを用いて測定される)即時パープレキシティと相関するが、この相関は潜在層では明らかではない。
我々の証拠は、本質的な次元は、異なるプロンプトがテキスト・ツー・イメージモデルに与える影響について将来の研究に有用なツールになり得ることを示唆している。 Prompting has become an important mechanism by which users can more effectively interact with many flavors of foundation model. Indeed, the last several years have shown that well-honed prompts can sometimes unlock emergent capabilities within such models. While there has been a substantial amount of empirical exploration of prompting within the community, relatively few works have studied prompting at a mathematical level. In this work we aim to take a first step towards understanding basic geometric properties induced by prompts in Stable Diffusion, focusing on the intrinsic dimension of internal representations within the model. We find that choice of prompt has a substantial impact on the intrinsic dimension of representations at both layers of the model which we explored, but that the nature of this impact depends on the layer being considered. For example, in certain bottleneck layers of the model, intrinsic dimension of representations is correlated with prompt perplexity (measured using a surrogate model), while this correlation is not apparent in the latent layers. Our evidence suggests that intrinsic dimension could be a useful tool for future studies of the impact of different prompts on text-to-image models. | 翻訳日:2023-02-21 19:22:42 公開日:2023-02-16 |
# 安価な教師付きクエリ生成による検索エンジンによる対話応答生成 Search-Engine-augmented Dialogue Response Generation with Cheaply Supervised Query Production ( http://arxiv.org/abs/2302.09300v1 ) ライセンス: Link先を確認 | Ante Wang, Linfeng Song, Qi Liu, Haitao Mi, Longyue Wang, Zhaopeng Tu, Jinsong Su, Dong Yu | (参考訳) 知識支援対話応答生成は、より有益な応答を生み出すことを期待して、関連する外部知識によるチャットボットの強化を目的としている。
以前の研究の大部分は、関連する知識が静的な知識プールから入力または取り出されると仮定している。
しかし、この仮定は、知識が継続的に更新され、チャットボットが有用な知識を動的に取り出すという現実世界の状況に反する。
応答生成のために,任意の検索エンジンから膨大な動的情報にアクセス可能な対話モデルを提案する。
コアモジュールとして、クエリプロデューサを使用して、対話コンテキストからクエリを生成して、検索エンジンと対話する。
そこで我々は,検索した記事と次の対話応答を比較した結果から,安価なノイズ管理を用いた学習アルゴリズムを設計する。
結果として、クエリープロデューサは、ゴールドクエリの人間のアノテーションなしで調整され、他のドメインや検索エンジンに簡単に転送できる。
実験の結果、我々のクエリー生成元は、金の知識を検索するためにR@1とR@5のレート62.4%と74.8%を達成でき、BARTや他の典型的なシステムを用いて、強い知識支援ベースラインよりも優れた応答を生成できることがわかった。 Knowledge-aided dialogue response generation aims at augmenting chatbots with relevant external knowledge in the hope of generating more informative responses. The majority of previous work assumes that the relevant knowledge is given as input or retrieved from a static pool of knowledge. However, this assumption violates the real-world situation, where knowledge is continually updated and a chatbot has to dynamically retrieve useful knowledge. We propose a dialogue model that can access the vast and dynamic information from any search engine for response generation. As the core module, a query producer is used to generate queries from a dialogue context to interact with a search engine. We design a training algorithm using cheap noisy supervision for the query producer, where the signals are obtained by comparing retrieved articles with the next dialogue response. As the result, the query producer is adjusted without any human annotation of gold queries, making it easily transferable to other domains and search engines. Experiments show that our query producer can achieve R@1 and R@5 rates of 62.4% and 74.8% for retrieving gold knowledge, and the overall model generates better responses over strong knowledge-aided baselines using BART and other typical systems. | 翻訳日:2023-02-21 19:22:22 公開日:2023-02-16 |
# 自動音声認識のための光ゲートリカレントユニットの安定化と高速化 Stabilising and accelerating light gated recurrent units for automatic speech recognition ( http://arxiv.org/abs/2302.10144v1 ) ライセンス: Link先を確認 | Adel Moumen, Titouan Parcollet | (参考訳) ライトゲートリカレントユニット(Li-GRU)は、標準ゲートリカレントユニット(GRU)よりも軽量で高速でありながら、自動音声認識(ASR)タスクにおける印象的な結果を達成することで有名である。
しかし、その整列された線形ユニットの候補再帰ゲート上の非有界性は、トレーニング過程を乱す重要な勾配爆発現象を誘発し、有名なデータセットに適用されないようにする。
本稿では,その安定性に必要な条件を理論的に経験的に導出するとともに,その5倍の速さで高速化する工学的機構を導出し,sli-gruと呼ばれる新しいアーキテクチャを導入する。
次に,新たに獲得した機能を示すtoyタスクと,より複雑なリカレントニューラルネットワークと比較して単語誤り率の低い3つのasrデータセットの両方について,その性能を評価する。 The light gated recurrent units (Li-GRU) is well-known for achieving impressive results in automatic speech recognition (ASR) tasks while being lighter and faster to train than a standard gated recurrent units (GRU). However, the unbounded nature of its rectified linear unit on the candidate recurrent gate induces an important gradient exploding phenomenon disrupting the training process and preventing it from being applied to famous datasets. In this paper, we theoretically and empirically derive the necessary conditions for its stability as well as engineering mechanisms to speed up by a factor of five its training time, hence introducing a novel version of this architecture named SLi-GRU. Then, we evaluate its performance both on a toy task illustrating its newly acquired capabilities and a set of three different ASR datasets demonstrating lower word error rates compared to more complex recurrent neural networks. | 翻訳日:2023-02-21 14:37:59 公開日:2023-02-16 |
# 一般化生存確率 Generalized Survival Probability ( http://arxiv.org/abs/2302.08512v1 ) ライセンス: Link先を確認 | David A. Zarate-Herrada, Lea F. Santos, E. Jonathan Torres-Herrera | (参考訳) 生存確率は、平衡状態から取り出されたシステムが初期状態から移行していない確率を測定する。
非エルゴード状態の解析に使用される一般化エントロピーに触発され、生存確率の一般化版を導入し、固有状態の構造とエルゴード性の研究を支援する方法について論じる。 The survival probability measures the probability that a system taken out of equilibrium has not yet moved out from its initial state. Inspired by the generalized entropies used to analyze nonergodic states, we introduce a generalized version of the survival probability, and discuss how it can assist studies of the structure of the eigenstates and ergodicity. | 翻訳日:2023-02-20 17:02:11 公開日:2023-02-16 |
# マルウェア検出のための生成型adversarial network--調査 Generative Adversarial Networks for Malware Detection: a Survey ( http://arxiv.org/abs/2302.08558v1 ) ライセンス: Link先を確認 | Aeryn Dunmore, Julian Jang-Jaccard, Fariza Sabrian, Jin Kwak | (参考訳) ian goodfellow氏の2014年の論文で提案されて以来、生成的敵ネットワークの領域に関する研究が爆発的に増えている。
多くの分野で利用されてきたが、マルウェア研究の領域は、GANが根ざした問題空間である。
データセットのバランスから、まれなクラスで目に見えない例の作成に至るまで、GANモデルはアプリケーションに広範な機会を提供します。
本稿では,マルウェア問題領域におけるジェネレーティブ・アドバイサル・ネットワークの利用に関する現在の研究と文献について調査する。
これは、生成的敵モデルがこの分野に何を提供するか、およびマルウェア研究のどの領域が最適に活用されているかについて、読者が全体的な理解を得ることができることを期待して行われる。
本報告では, 関連調査, GAN の異なるカテゴリについて紹介し, GAN を様々なトピックに最適化する最近の研究成果と今後の探索の方向性について述べる。 Since their proposal in the 2014 paper by Ian Goodfellow, there has been an explosion of research into the area of Generative Adversarial Networks. While they have been utilised in many fields, the realm of malware research is a problem space in which GANs have taken root. From balancing datasets to creating unseen examples in rare classes, GAN models offer extensive opportunities for application. This paper surveys the current research and literature for the use of Generative Adversarial Networks in the malware problem space. This is done with the hope that the reader may be able to gain an overall understanding as to what the Generative Adversarial model provides for this field, and for what areas within malware research it is best utilised. It covers the current related surveys, the different categories of GAN, and gives the outcomes of recent research into optimising GANs for different topics, as well as future directions for exploration. | 翻訳日:2023-02-20 16:53:26 公開日:2023-02-16 |
# 再利用可能なデータ排気を伴う無限動作コンテキストバンディット Infinite Action Contextual Bandits with Reusable Data Exhaust ( http://arxiv.org/abs/2302.08551v1 ) ライセンス: Link先を確認 | Mark Rucker, Yinglun Zhu, Paul Mineiro | (参考訳) 無限アクションの文脈的包帯の場合、スムーズな後悔と回帰の減少は、アクションセットとは独立に計算コストを持つ最先端のオンライン統計性能をもたらす。
これにより、オフラインモデル選択などのダウンストリームデータサイエンスプロセスの実行が抑制される。
本稿では,オンライン計算コストの増大と引き換えに,スムーズさ(つまり,アクションセットとはいまだに独立している)の順にのみ,その重み付けを適切に定義するオンラインアルゴリズムについて述べる。
これにより、運用シナリオにおけるスムーズな後悔の導入に対する重要な障害が取り除かれる。 For infinite action contextual bandits, smoothed regret and reduction to regression results in state-of-the-art online statistical performance with computational cost independent of the action set: unfortunately, the resulting data exhaust does not have well-defined importance-weights. This frustrates the execution of downstream data science processes such as offline model selection. In this paper we describe an online algorithm with an equivalent smoothed regret guarantee, but which generates well-defined importance weights: in exchange, the online computational cost increases, but only to order smoothness (i.e., still independent of the action set). This removes a key obstacle to adoption of smoothed regret in production scenarios. | 翻訳日:2023-02-20 16:53:09 公開日:2023-02-16 |
# 導波路アレイの変調における局所位相シフトの局在効果 Localization effects from local phase shifts in the modulation of waveguide arrays ( http://arxiv.org/abs/2302.08547v1 ) ライセンス: Link先を確認 | Konrad Tschernig, Armando Perez-Leija, Kurt Busch | (参考訳) 人工ゲージ場は、光子に固有の電荷がないにもかかわらず、磁場の影響下にあるように光の伝播を操作できる。
典型的には、そのような場はフォトニック格子の周期的変調によって設計され、1つの周期の後の有効結合係数が複素値になる。
本研究では,光導波路格子の変調に局所的ランダム位相シフトを適用することにより,人工ゲージ場にランダム性を導入する可能性を検討する。
まず, 2つの結合単一モード導波路からなる素子単位について検討し, 位相シフト, 変調振幅, 変調周波数の関数として変調の1周期後の有効複素値結合係数を求める。
これにより、変調位相の変化が有効結合係数の十分に大きな変化を生じさせ、アンダーソン局在を誘導するレジームを同定する。
これらの結果を用いて,各導波路の変調位相をランダムに選択することにより,x-の1次元および2次元格子およびヘリカル変調導波路におけるアンダーソン局在の開始を数値的に示す。
ランダムゲージ場の存在下での波動伝搬のさらなる基礎的研究に加えて, 全体の格子の足跡を変えることなく, 結合係数の計算が可能となった。
概念実証として,動的局所化および欠陥のない表面状態を示す相外変調格子を設計する方法を示す。
したがって、変調位相が機能導波路格子の柔らかさ設計において重要な役割を果たすことを期待する。 Artificial gauge fields enable the intriguing possibility to manipulate the propagation of light as if it were under the influence of a magnetic field even though photons possess no intrinsic electric charge. Typically, such fields are engineered via periodic modulations of photonic lattices such that the effective coupling coefficients after one period become complex-valued. In this work, we investigate the possibility to introduce randomness into artificial gauge fields by applying local random phase shifts in the modulation of lattices of optical waveguides. We first study the elemental unit consisting of two coupled single-mode waveguides and determine the effective complex-valued coupling coefficient after one period of the modulation as a function of the phase shift, the modulation amplitude and the modulation frequency. Thereby we identify the regime where varying the modulation phase yields sufficiently large changes of the effective coupling coefficient to induce Anderson localization. Using these results, we demonstrate numerically the onset of Anderson localization in 1D- and 2D-lattices of x-, and helically-modulated waveguides via randomly choosing the modulation phases of the individual waveguides. Besides further fundamental investigations of wave propagation in the presence of random gauge fields, our findings enable the engineering of the coupling coefficients without changing the footprint of the overall lattice. As a proof of concept, we demonstrate how to engineer out-of-phase modulated lattices which exhibit dynamic localization and defect-free surface states. Therefore, we anticipate that the modulation phase will play an important role in the judicious design of functional waveguide lattices. | 翻訳日:2023-02-20 16:52:57 公開日:2023-02-16 |
# THC:テンソル同型圧縮を用いた分散ディープラーニングの高速化 THC: Accelerating Distributed Deep Learning Using Tensor Homomorphic Compression ( http://arxiv.org/abs/2302.08545v1 ) ライセンス: Link先を確認 | Minghao Li (1), Ran Ben Basat (2), Shay Vargaftik (3), ChonLam Lao (1), Kevin Xu (4), Xinran Tang (1), Michael Mitzenmacher (1), Minlan Yu (1) ((1) Harvard University, (2) University College London, (3) VMware Research, (4) Harvard College) | (参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、画像分類、コンピュータビジョン、自然言語処理などの重要なユースケースのためのデファクト標準である。
dnnとデータセットが大きくなるにつれて、さらに大きなクラスタでの分散トレーニングが必要になる。
主なボトルネックは、労働者が全体単位のモデル更新(すなわち勾配)を交換する通信オーバーヘッドである。
このボトルネックに対処し、トレーニングを加速するために、広くデプロイされたアプローチは圧縮である。
しかし、従来のデプロイメントでは、各方向に一方向勾配圧縮スキームを用いることで、双方向の圧縮スキームを適用することが多い。
これにより、パラメータサーバの計算オーバーヘッドが大きくなり、圧縮エラーが増大し、トレーニング時間が長くなり、精度が低下する。
本稿では、圧縮された値を直接集約し、帯域幅を精度のトレードオフに最適化し、上記のオーバーヘッドを解消する新しい双方向圧縮フレームワークであるTensor Homomorphic Compression (THC)を紹介する。
さらに、THCはインネットワークアグリゲーション(INA)と互換性があり、さらなる加速を可能にする。
テストベッドに対する評価では、THCはソフトウェアPSで最大1.32倍、INAで最大1.51倍の時間と精度を改善する。
最後に、THCは拡張性があり、許容するパケットロス率に耐性があることを実証する。 Deep neural networks (DNNs) are the de-facto standard for essential use cases, such as image classification, computer vision, and natural language processing. As DNNs and datasets get larger, they require distributed training on increasingly larger clusters. A main bottleneck is then the resulting communication overhead where workers exchange model updates (i.e., gradients) on a per-round basis. To address this bottleneck and accelerate training, a widely-deployed approach is compression. However, previous deployments often apply bi-directional compression schemes by simply using a uni-directional gradient compression scheme in each direction. This results in significant computational overheads at the parameter server and increased compression error, leading to longer training and lower accuracy. We introduce Tensor Homomorphic Compression (THC), a novel bi-directional compression framework that enables the direct aggregation of compressed values while optimizing the bandwidth to accuracy tradeoff, thus eliminating the aforementioned overheads. Moreover, THC is compatible with in-network aggregation (INA), which allows for further acceleration. Evaluation over a testbed shows that THC improves time-to-accuracy in comparison to alternatives by up to 1.32x with a software PS and up to 1.51x using INA. Finally, we demonstrate that THC is scalable and tolerant for acceptable packet-loss rates. | 翻訳日:2023-02-20 16:52:30 公開日:2023-02-16 |
# 多部系におけるモノガミーとポリガミーの関係について On monogamy and polygamy relations of multipartite systems ( http://arxiv.org/abs/2302.08534v1 ) ライセンス: Link先を確認 | Xia Zhang, Naihuan Jing, Ming Liu, Haitao Ma | (参考訳) 我々は,多部量子系の量子相関に関する一夫一婦制と多妻制の関係を統一的に研究する。
任意の二分測度は、この測度の$r$パワーに対する単ガミーと多ガミーの関係に従うことが知られている。
一般化された単ガミーと多ガミーの関係は、重み付け形式の測度の他のパワーに推移的であることを示す。
我々は、重み付き一夫一婦制と多妻制の関係が、最近利用可能な関係よりも強いことを示した。
比較は, 両状況において, 結果が強いことを示す詳細な例で示される。 We study the monogamy and polygamy relations related to quantum correlations for multipartite quantum systems in a unified manner. It is known that any bipartite measure obeys monogamy and polygamy relations for the $r$-power of the measure. We show in a uniformed manner that the generalized monogamy and polygamy relations are transitive to other powers of the measure in weighted forms. We demonstrate that our weighted monogamy and polygamy relations are stronger than recently available relations. Comparisons are given in detailed examples which show that our results are stronger in both situations. | 翻訳日:2023-02-20 16:52:10 公開日:2023-02-16 |
# ネットワーク効果ゲームとしてのフェデレーション学習 Federated Learning as a Network Effects Game ( http://arxiv.org/abs/2302.08533v1 ) ライセンス: Link先を確認 | Shengyuan Hu, Dung Daniel Ngo, Shuran Zheng, Virginia Smith, Zhiwei Steven Wu | (参考訳) federated learning(fl)は、ローカルデータを直接共有することなく、機械学習の精度を向上させるために、クライアント間のコラボレーションを促進することを目的としている。
フェデレーション学習アルゴリズムの設計には豊富な文献があるが、ほとんどの先行研究は暗黙のうちにすべてのクライアントがflスキームに参加すると仮定している。
実際には、クライアントは、特にプライバシや計算などの問題に関連する潜在的なコストの観点から、flに参加することの利益を享受できない。
本研究では,クライアントのフェデレート学習に対するインセンティブを調査し,サービス提供者がよりよいソリューションを設計し,クライアントがよりよい意思決定を行うことを支援する。
私たちはFLにおけるクライアントの振る舞いをネットワーク効果ゲームとしてモデル化し、各クライアントの利点はネットワークに参加する他のクライアントに依存します。
このセットアップを使用して、クライアントの参加のダイナミクスを分析し、クライアントが意思決定を変更するインセンティブを持っていない均衡を特徴づけます。
具体的には, 集団のダイナミクスが, 明示的な介入を必要とせずに自然に平衡に収束することを示す。
最後に,初期ネットワークが空である場合にクライアントが望ましい均衡に達するようにインセンティブを与える費用効率の高い支払い方式を提案する。 Federated Learning (FL) aims to foster collaboration among a population of clients to improve the accuracy of machine learning without directly sharing local data. Although there has been rich literature on designing federated learning algorithms, most prior works implicitly assume that all clients are willing to participate in a FL scheme. In practice, clients may not benefit from joining in FL, especially in light of potential costs related to issues such as privacy and computation. In this work, we study the clients' incentives in federated learning to help the service provider design better solutions and ensure clients make better decisions. We are the first to model clients' behaviors in FL as a network effects game, where each client's benefit depends on other clients who also join the network. Using this setup we analyze the dynamics of clients' participation and characterize the equilibrium, where no client has incentives to alter their decision. Specifically, we show that dynamics in the population naturally converge to equilibrium without needing explicit interventions. Finally, we provide a cost-efficient payment scheme that incentivizes clients to reach a desired equilibrium when the initial network is empty. | 翻訳日:2023-02-20 16:51:56 公開日:2023-02-16 |
# 抽象的テキスト要約のための拒絶学習 Learning with Rejection for Abstractive Text Summarization ( http://arxiv.org/abs/2302.08531v1 ) ライセンス: Link先を確認 | Meng Cao, Yue Dong, Jingyi He and Jackie Chi Kit Cheung | (参考訳) 最先端の抽象要約システムは、主にトレーニングデータセットのノイズのために、ソースドキュメントでサポートされていないコンテンツをしばしば暗示する。
既存の手法では、トレーニングセットからノイズの多いサンプルやトークンを完全に削除し、効果的なトレーニングセットのサイズを削減し、ソースから単語をコピーするための人工的プロパシティを作成する。
本研究では,否定学習に基づく抽象要約のための学習目標を提案し,モデルが潜在的に騒がしいトークンを拒否するか否かを学習する。
さらに, 学習中に学習した拒絶確率を用いて, 推論中に非事実候補要約をペナライズする正規化復号目標を提案する。
提案手法は,5つのベースラインモデルと比較して,自動評価および人間評価における生成要約の事実性を大幅に向上させ,生成要約の抽象性を高めつつ,それを実現していることを示す。 State-of-the-art abstractive summarization systems frequently hallucinate content that is not supported by the source document, mainly due to noise in the training dataset. Existing methods opt to drop the noisy samples or tokens from the training set entirely, reducing the effective training set size and creating an artificial propensity to copy words from the source. In this work, we propose a training objective for abstractive summarization based on rejection learning, in which the model learns whether or not to reject potentially noisy tokens. We further propose a regularized decoding objective that penalizes non-factual candidate summaries during inference by using the rejection probability learned during training. We show that our method considerably improves the factuality of generated summaries in automatic and human evaluations when compared to five baseline models and that it does so while increasing the abstractiveness of the generated summaries. | 翻訳日:2023-02-20 16:51:37 公開日:2023-02-16 |
# 不毛高原のないハミルトン変分アンサッツ Hamiltonian variational ansatz without barren plateaus ( http://arxiv.org/abs/2302.08529v1 ) ライセンス: Link先を確認 | Chae-Yeun Park and Nathan Killoran | (参考訳) 高発現パラメタライズド量子回路(PQC)と機械学習におけるパラメータ最適化技術を組み合わせることで、変動量子アルゴリズムは短期量子コンピュータの最も有望な応用の1つである。
しかしながら、ランダムに初期化されたpqcのコスト関数のランドスケープは、しばしば平坦であり、モデルの訓練能力は数十キュービットを超える。
barren plateausと呼ばれるこの問題は最近多くの注目を集めたが、一般的な解決策はまだ提供されていない。
本稿では,量子多体問題を解くために広く研究されているハミルトン変分 ansatz (hva) について,この問題を解く。
局所ハミルトン進化によって記述された回路が指数的に小さな勾配を持たないことを示すと、HVAが局所ハミルトン進化によってよく近似されるようなパラメータ条件を導出する。
この結果に基づき,変分量子固有ソルバの初期化スキームと,バレン高原を含まないパラメータ制約付きアンサッツを提案する。 Combining highly expressive parameterized quantum circuits (PQCs) with parameter optimization techniques in machine learning, variational quantum algorithms are one of the most promising applications of a near-term quantum computer. However, the cost function landscape of a randomly initialized PQC is often too flat, limiting trainability of the model beyond tens of qubits. This problem, dubbed barren plateaus, gained lots of attention recently, but a general solution is still not available. In this paper, we solve this problem for the Hamiltonian Variational Ansatz (HVA), which is widely studied for solving quantum many-body problems. After showing that a circuit described by local Hamiltonian evolution does not have exponentially small gradients, we derive parameter conditions such that the HVA is well approximated by local Hamiltonian evolution. Based on this result, we further propose an initialization scheme for the variational quantum eigensolver as well as a parameter-constrained ansatz that is free from barren plateaus. | 翻訳日:2023-02-20 16:51:21 公開日:2023-02-16 |
# ハニカム二層反強磁性体におけるキャビティ非正規化量子臨界 Cavity-renormalized quantum criticality in a honeycomb bilayer antiferromagnet ( http://arxiv.org/abs/2302.08528v1 ) ライセンス: Link先を確認 | Lukas Weber, Emil Vi\~nas Bostr\"om, Martin Claassen, Angel Rubio, Dante M. Kennes | (参考訳) 光学キャビティで実現された強い光-物質相互作用は、凝縮物質系の特性を制御するためのタンタライズ機会を与える。
キャビティ量子電磁力学の実験的進展と二次元磁石の作製と制御に触発されて,量子臨界反強磁性体の光学キャビティ場に結合した運命について検討した。
偏りのない量子モンテカルロシミュレーションを用いて、磁気構造因子や他の観測対象のスケーリング挙動を計算する。
位置と普遍性クラスは単一の空洞モードで変化しないが、臨界揺らぎ自身は、単純な摂動理論に基づいて期待に反する分数指数でスケール可能な拡張が得られる。
スケーリング指数は、他の普遍性クラスにおいて効果がさらに強くなると予測する一般的なスケーリング引数を用いて理解することができる。
微視的モデルは2次元磁性量子材料の現実的なパラメータに基づいており、その効果は実験的な検出範囲内にある可能性がある。 Strong light-matter interactions as realized in an optical cavity provide a tantalizing opportunity to control the properties of condensed matter systems. Inspired by experimental advances in cavity quantum electrodynamics and the fabrication and control of two-dimensional magnets, we investigate the fate of a quantum critical antiferromagnet coupled to an optical cavity field. Using unbiased quantum Monte Carlo simulations, we compute the scaling behavior of the magnetic structure factor and other observables. While the position and universality class are not changed by a single cavity mode, the critical fluctuations themselves obtain a sizable enhancement, scaling with a fractional exponent that defies expectations based on simple perturbation theory. The scaling exponent can be understood using a generic scaling argument, based on which we predict that the effect may be even stronger in other universality classes. Our microscopic model is based on realistic parameters for two-dimensional magnetic quantum materials and the effect may be within the range of experimental detection. | 翻訳日:2023-02-20 16:51:04 公開日:2023-02-16 |
# 連続可変ポートベーステレポーテーション Continuous variable port-based teleportation ( http://arxiv.org/abs/2302.08522v1 ) ライセンス: Link先を確認 | Jason L. Pereira, Leonardo Banchi, Stefano Pirandola | (参考訳) ポートベースのテレポーテーションは、受信機によるユニタリ操作を必要としない標準テレポーテーションプロトコルの一般化である。
これは、標準のテレポーテーションプロトコルが$n=1$であるのに対して、n>1$エンタングルペアが必要となる。
補正ユニタリの欠如により、ポートベースのテレポーテーションは、一般的なリソースで任意のチャネルをシミュレートするための基本的な理論的ツールとなり、量子通信、暗号、センシングの基本的な限界を研究し、一般的なプログラマブル量子コンピュータを定義するための応用が可能になる。
ここでは,連続変数系におけるポートベーステレポーテーションの一般的な定式化について紹介し,$n=2$ケースについて詳細に検討する。
特に、得られたチャネルをエネルギー遮断として解釈し、この制限により自然にシミュレートできるチャネルの種類を分析する。 Port-based teleportation is generalization of the standard teleportation protocol which does not require unitary operations by the receiver. This comes at the price of requiring $N>1$ entangled pairs, while $N=1$ for the standard teleportation protocol. The lack of correction unitaries allows port-based teleportation to be used as a fundamental theoretical tool to simulate arbitrary channels with a general resource, with applications to study fundamental limits of quantum communication, cryptography and sensing, and to define general programmable quantum computers. Here we introduce a general formulation of port-based teleportation in continuous variable systems and study in detail the $N=2$ case. In particular, we interpret the resulting channel as an energy truncation and analyse the kinds of channels that can be naturally simulated after this restriction. | 翻訳日:2023-02-20 16:50:46 公開日:2023-02-16 |
# JEIT:統合エンドツーエンドモデルと内部言語モデルによる音声認識学習 JEIT: Joint End-to-End Model and Internal Language Model Training for Speech Recognition ( http://arxiv.org/abs/2302.08583v1 ) ライセンス: Link先を確認 | Zhong Meng, Weiran Wang, Rohit Prabhavalkar, Tara N. Sainath, Tongzhou Chen, Ehsan Variani, Yu Zhang, Bo Li, Andrew Rosenberg, Bhuvana Ramabhadran | (参考訳) 本稿では,E2Eトレーニング中のILMに大規模未ペアテキストを注入し,レアワード音声認識を改善するJEITを提案する。
JEITでは、E2EモデルはオーディオとテキストのペアでE2E損失を計算し、ILMは未ペアテキストでクロスエントロピー損失を推定する。
E2Eモデルは、E2EとILM損失の重み付けを最小化するために訓練される。
JEITの間、ILMは未完成のテキストから知識を吸収し、E2Eトレーニングは正規化として機能する。
ILM適応法とは異なり、JEITは別段の適応ステップを必要としないため、ILMのKullback-Leibler分散正規化は不要である。
また、モジュール型ハイブリッド自己回帰トランスデューサ(MHAT)は、JEITフレームワークのHATよりも優れた性能を示し、ILM適応時のHATよりもずっと堅牢であることを示す。
未ペアテキストインジェクションの限界を押し上げるために,モダリティマッチング,エンコーダテキストインジェクション,ILMトレーニングの恩恵を受けるJEITとJOISTトレーニング(CJJT)の組み合わせを提案する。
JEITとCJTは共に、より効果的なLM融合を促進することができる。
100bのアンペア文で、jeit/cjjtは、アンペアテキストなしでトレーニングされたモデルよりも、レアワード認識精度を最大16.4%向上させる。 We propose JEIT, a joint end-to-end (E2E) model and internal language model (ILM) training method to inject large-scale unpaired text into ILM during E2E training which improves rare-word speech recognition. With JEIT, the E2E model computes an E2E loss on audio-transcript pairs while its ILM estimates a cross-entropy loss on unpaired text. The E2E model is trained to minimize a weighted sum of E2E and ILM losses. During JEIT, ILM absorbs knowledge from unpaired text while the E2E training serves as regularization. Unlike ILM adaptation methods, JEIT does not require a separate adaptation step and avoids the need for Kullback-Leibler divergence regularization of ILM. We also show that modular hybrid autoregressive transducer (MHAT) performs better than HAT in the JEIT framework, and is much more robust than HAT during ILM adaptation. To push the limit of unpaired text injection, we further propose a combined JEIT and JOIST training (CJJT) that benefits from modality matching, encoder text injection and ILM training. Both JEIT and CJJT can foster a more effective LM fusion. With 100B unpaired sentences, JEIT/CJJT improves rare-word recognition accuracy by up to 16.4% over a model trained without unpaired text. | 翻訳日:2023-02-20 16:45:19 公開日:2023-02-16 |
# 人選好による言語モデルの事前学習 Pretraining Language Models with Human Preferences ( http://arxiv.org/abs/2302.08582v1 ) ライセンス: Link先を確認 | Tomasz Korbak and Kejian Shi and Angelica Chen and Rasika Bhalerao and Christopher L. Buckley and Jason Phang and Samuel R. Bowman and Ethan Perez | (参考訳) 言語モデル(LM)はインターネットテキストを模倣するために事前訓練されており、LMが生成したコンテンツには、偽造、攻撃的なコメント、個人識別可能な情報、品質の低いコード、バギーコードなどが含まれる。
本稿では,人間の嗜好に沿ったテキストを生成する方法として,LMの事前学習のための代替目的を検討する。
我々は,3つのタスクにまたがるフィードバックによる事前学習の5つの目標をベンチマークし,それらが事前訓練されたLMのアライメントと能力のトレードオフに与える影響について検討する。
そこで我々は、条件付きトレーニングや、報酬モデルによって与えられる人間の嗜好スコアに基づくトークン上の分布の学習という、パレート最適で簡単なアプローチを見出した。
条件付きトレーニングは、プロンプトを使わずに生成する時と逆行するプロンプトを伴って、望ましくないコンテンツの速度を最大で桁違いに減少させる。
さらに条件付きトレーニングは、タスク固有の微調整前後において、標準lmプリトレーニングのダウンストリームタスクパフォーマンスを維持する。
人間のフィードバックによる事前トレーニングは、標準のlmプリトレーニングよりもずっと優れた好み満足度をもたらし、続いてフィードバックによる微調整、すなわち学習、そして望ましくない行動を学習する。
この結果から,LMの事前学習では模倣学習を超越し,訓練開始から人間の嗜好を取り入れるべきであることが示唆された。 Language models (LMs) are pretrained to imitate internet text, including content that would violate human preferences if generated by an LM: falsehoods, offensive comments, personally identifiable information, low-quality or buggy code, and more. Here, we explore alternative objectives for pretraining LMs in a way that also guides them to generate text aligned with human preferences. We benchmark five objectives for pretraining with human feedback across three tasks and study how they affect the trade-off between alignment and capabilities of pretrained LMs. We find a Pareto-optimal and simple approach among those we explored: conditional training, or learning distribution over tokens conditional on their human preference scores given by a reward model. Conditional training reduces the rate of undesirable content by up to an order of magnitude, both when generating without a prompt and with an adversarially-chosen prompt. Moreover, conditional training maintains the downstream task performance of standard LM pretraining, both before and after task-specific finetuning. Pretraining with human feedback results in much better preference satisfaction than standard LM pretraining followed by finetuning with feedback, i.e., learning and then unlearning undesirable behavior. Our results suggest that we should move beyond imitation learning when pretraining LMs and incorporate human preferences from the start of training. | 翻訳日:2023-02-20 16:44:53 公開日:2023-02-16 |
# オンライン学習ガイド曲率近似:大域的非漸近超線形収束を伴う準ニュートン法 Online Learning Guided Curvature Approximation: A Quasi-Newton Method with Global Non-Asymptotic Superlinear Convergence ( http://arxiv.org/abs/2302.08580v1 ) ライセンス: Link先を確認 | Ruichen Jiang, Qiujiang Jin, Aryan Mokhtari | (参考訳) 準ニュートンアルゴリズムは、制約のない最小化問題を解くための最も一般的な反復法の一つである。
しかし、これらのアルゴリズムの既存の結果は、どちらかを提供するため限られている。
(i)漸近的な超線形収束率を持つ大域収束保証、又は
2)初期点と初期ヘッセン近似が適切に選択された場合の局所的非漸近性超線形速度。
さらに、これらの結果は、グローバル収束法の反復が局所超線型収束の領域に達すると、ヘッセン近似行列が非漸近局所超線形収束速度に必要な条件を満たすことを保証できないため、構成不可能である。
本稿では,このギャップを埋め,非漸近性超線形収束率を明示した最初のグローバル収束準ニュートン法を示す。
古典的準ニュートン法とは異なり, ハイブリッドな近位勾配法に基づくアルゴリズムを構築し, ヘッセン近似行列を更新するための新しいオンライン学習フレームワークを提案する。
具体的には、収束解析により、行列空間におけるオンライン凸最適化問題としてヘシアン近似更新を定式化し、オンライン問題における有界後悔と、我々の方法の超線形収束を関連づける。 Quasi-Newton algorithms are among the most popular iterative methods for solving unconstrained minimization problems, largely due to their favorable superlinear convergence property. However, existing results for these algorithms are limited as they provide either (i) a global convergence guarantee with an asymptotic superlinear convergence rate, or (ii) a local non-asymptotic superlinear rate for the case that the initial point and the initial Hessian approximation are chosen properly. Furthermore, these results are not composable, since when the iterates of the globally convergent methods reach the region of local superlinear convergence, it cannot be guaranteed the Hessian approximation matrix will satisfy the required conditions for a non-asymptotic local superlienar convergence rate. In this paper, we close this gap and present the first globally convergent quasi-Newton method with an explicit non-asymptotic superlinear convergence rate. Unlike classical quasi-Newton methods, we build our algorithm upon the hybrid proximal extragradient method and propose a novel online learning framework for updating the Hessian approximation matrices. Specifically, guided by the convergence analysis, we formulate the Hessian approximation update as an online convex optimization problem in the space of matrices, and relate the bounded regret of the online problem to the superlinear convergence of our method. | 翻訳日:2023-02-20 16:44:26 公開日:2023-02-16 |
# 中立に保つ - 自然言語推論を使って生成を改善する Keep it Neutral: Using Natural Language Inference to Improve Generation ( http://arxiv.org/abs/2302.08577v1 ) ライセンス: Link先を確認 | Michail Mersinias, Kyle Mahowald | (参考訳) テキスト生成パイプラインに自然言語推論(nli)を組み込んで,学習済みのnliモデルを用いて,生成した文が文に含まれるか,矛盾しているか,あるいはプロンプト文と先行文に中立であるかを評価する。
まず NLI タスクは GPT-3 による生成エラーの予測であることを示す。
GPT-JのためのNLIインフォームド生成手法を開発した。
そして,これらの世代を,エラータイプと全体的な品質に関する人間のアノテーションを用いて評価する。
その結果,nli戦略では,核サンプリング乱数パラメータ値が高い場合にはテキスト生成が改善され,パラメータ値が低い場合には矛盾を最大化する戦略が実際に生産的であることがわかった。
しかし,全体としては,中性クラスを最大化するnli戦略が,パラメータ値によらず,生成テキストの最高品質(バニラ世代よりも優れている)を提供することを示した。 We explore incorporating natural language inference (NLI) into the text generative pipeline by using a pre-trained NLI model to assess whether a generated sentence entails, contradicts, or is neutral to the prompt and preceding text. First, we show that the NLI task is predictive of generation errors made by GPT-3. We use these results to develop an NLI-informed generation procedure for GPT-J. Then, we evaluate these generations by obtaining human annotations on error types and overall quality. We find that an NLI strategy of maximizing entailment improves text generation when the nucleus sampling randomness parameter value is high, while one which maximizes contradiction is in fact productive when the parameter value is low. Overall, though, we demonstrate that an NLI strategy of maximizing the neutral class provides the highest quality of generated text (significantly better than the vanilla generations), regardless of parameter value. | 翻訳日:2023-02-20 16:44:01 公開日:2023-02-16 |
# Wikipediaにおける偽情報提供におけるオンライン注意の役割 The role of online attention in the supply of disinformation in Wikipedia ( http://arxiv.org/abs/2302.08576v1 ) ライセンス: Link先を確認 | Anis Elebiary and Giovanni Luca Ciampaglia | (参考訳) wikipediaと多くのユーザー生成コンテンツ(ugc)コミュニティは、信頼できる質の高いコンテンツを生み出すだけでなく、誤った情報や誤解を招く情報にも弱いことで知られている。
以前の研究によると、wikipedia上の多くの嘘は長期にわたって検出されていない。
しかし、故意に誤った情報や誤解を招く情報の作成についてはほとんど知られていない。
話題に対する集団的注意は、偽情報を引き起こす可能性を高めるか?
ここでは,注目の配分と,英語ウィキペディアにおける偽記事の生成との関係を測る。
トラフィックログの分析によると、同日に作成された合法的な記事と比較して、ホアックスは作成前のトラフィックスパイクとより関連がある傾向にある。
これは、トピックに対する誤った情報や誤解を招く情報の供給は、それが受ける注意によって引き起こされるという考えと一致している。
これらの知見は,UGCコミュニティにおける偽情報決定要因の理解を改善し,ウィキペディアにおける知識の完全性を促進するのに役立つ。 Wikipedia and many User-Generated Content (UGC) communities are known for producing reliable, quality content, but also for being vulnerable to false or misleading information. Previous work has shown that many hoaxes on Wikipedia go undetected for extended periods of time. But little is known about the creation of intentionally false or misleading information online. Does collective attention toward a topic increase the likelihood it will spawn disinformation? Here, we measure the relationship between allocation of attention and the production of hoax articles on the English Wikipedia. Analysis of traffic logs reveals that, compared to legitimate articles created on the same day, hoaxes tend to be more associated with traffic spikes preceding their creation. This is consistent with the idea that the supply of false or misleading information on a topic is driven by the attention it receives. These findings improve our comprehension of the determinants of disinformation in UGC communities and could help promote the integrity of knowledge on Wikipedia. | 翻訳日:2023-02-20 16:43:32 公開日:2023-02-16 |
# 自然言語処理の基礎モデル-メディアを統合する事前学習言語モデル Foundation Models for Natural Language Processing -- Pre-trained Language Models Integrating Media ( http://arxiv.org/abs/2302.08575v1 ) ライセンス: Link先を確認 | Gerhard Paa{\ss} and Sven Giesselbach | (参考訳) このオープンアクセスブックは、基礎的自然言語処理(NLP)の概念に精通した読者を対象にした、基礎モデルの研究および応用における技術の現状の概要を包括的に提供している。
近年、NLPのトレーニングモデルのための革新的な新しいパラダイムが開発されている。
これらのモデルは、まずテキストドキュメントの大規模なコレクションで事前学習され、一般的な構文知識と意味情報を取得する。
そして、特定のタスクのために微調整され、しばしば超人的精度で解決される。
モデルが十分に大きい場合は、微調整なしで新しいタスクを解くようプロンプトで指示することができる。
さらに、画像やビデオ処理からロボット制御学習まで、さまざまなメディアや問題領域に適用することができる。
人工知能で多くのタスクを解くための青写真を提供するため、彼らはFoundation Modelsと呼ばれている。
基本NLPモデルに関する簡単な紹介の後、主訓練済み言語モデルBERT、GPT、シーケンス・ツー・シーケンス・トランスフォーマー、および自己注意と文脈に敏感な埋め込みの概念について述べる。
次に、事前学習基準の拡大、入力テキストの長さの増大、知識の追加など、これらのモデルを改善するための異なるアプローチについて議論する。
次に、約20のアプリケーション領域における最高のパフォーマンスモデルの概要を示す。例えば、質問応答、翻訳、ストーリー生成、ダイアログシステム、テキストからの画像生成などである。
各アプリケーション領域について,現在のモデルの強みと弱みを議論し,今後の展開を展望する。
さらに、無料で利用可能なプログラムコードへのリンクも提供される。
結論の章では、経済的な機会、リスク軽減、AIの潜在的な発展についてまとめている。 This open access book provides a comprehensive overview of the state of the art in research and applications of Foundation Models and is intended for readers familiar with basic Natural Language Processing (NLP) concepts. Over the recent years, a revolutionary new paradigm has been developed for training models for NLP. These models are first pre-trained on large collections of text documents to acquire general syntactic knowledge and semantic information. Then, they are fine-tuned for specific tasks, which they can often solve with superhuman accuracy. When the models are large enough, they can be instructed by prompts to solve new tasks without any fine-tuning. Moreover, they can be applied to a wide range of different media and problem domains, ranging from image and video processing to robot control learning. Because they provide a blueprint for solving many tasks in artificial intelligence, they have been called Foundation Models. After a brief introduction to basic NLP models the main pre-trained language models BERT, GPT and sequence-to-sequence transformer are described, as well as the concepts of self-attention and context-sensitive embedding. Then, different approaches to improving these models are discussed, such as expanding the pre-training criteria, increasing the length of input texts, or including extra knowledge. An overview of the best-performing models for about twenty application areas is then presented, e.g., question answering, translation, story generation, dialog systems, generating images from text, etc. For each application area, the strengths and weaknesses of current models are discussed, and an outlook on further developments is given. In addition, links are provided to freely available program code. A concluding chapter summarizes the economic opportunities, mitigation of risks, and potential developments of AI. | 翻訳日:2023-02-20 16:43:13 公開日:2023-02-16 |
# マルチラベル画像分類器における人口格差の信頼性評価に向けて Towards Reliable Assessments of Demographic Disparities in Multi-Label Image Classifiers ( http://arxiv.org/abs/2302.08572v1 ) ライセンス: Link先を確認 | Melissa Hall, Bobbie Chern, Laura Gustafson, Denisse Ventura, Harshad Kulkarni, Candace Ross, Nicolas Usunier | (参考訳) 人口統計群にまたがる分散パフォーマンス指標は、コンピュータビジョンにおける公平性評価の指標である。
これらのメトリクスは、顔分析のような人中心のタスクのパフォーマンス改善にインセンティブを与え、現代のモデルのリスクを理解するために使われます。
しかし、より複雑なコンピュータビジョンタスクに対するこれらの測定の脆弱性については議論の余地がない。
本稿では,マルチラベル画像の分類,特にオブジェクト分類タスクについて検討する。
まず,先行するコンピュータビジョン文献で議論されるよりもニュアンスを多く含む計測のための設計選択とトレードオフを強調する。
これらの課題は、必要なデータスケール、画像のグループの定義、メトリックの選択、データセットの不均衡に関連する。
次に、現代の視覚モデルを用いた2つのケーススタディを通して、これらの評価の実装が不安定であることを示す。
我々は、実装の詳細にしか見えないが、大きさと方向(分類器が最善を尽くすグループ)の両方で評価の結論に大きな影響を与えるいくつかの設計選択を識別する。
アブレーション研究に基づいて,これらの評価の信頼性を高めるための推奨事項を提案する。
最後に、質的分析を通じて、大きな格差を持つ概念は、データセットと注釈子間で矛盾のある、グループ間の定義や表現が異なる傾向があることが分かりました。
この結果は、より一貫性のあるデータ収集による緩和の道のりを示唆する一方で、モデルアセスメントを行う際の曖昧なラベル定義が課題であることも強調している。
ビジョンモデルは拡大し、よりユビキタスになってきている。モデルの真のパフォーマンスを正確に反映することがさらに重要です。 Disaggregated performance metrics across demographic groups are a hallmark of fairness assessments in computer vision. These metrics successfully incentivized performance improvements on person-centric tasks such as face analysis and are used to understand risks of modern models. However, there is a lack of discussion on the vulnerabilities of these measurements for more complex computer vision tasks. In this paper, we consider multi-label image classification and, specifically, object categorization tasks. First, we highlight design choices and trade-offs for measurement that involve more nuance than discussed in prior computer vision literature. These challenges are related to the necessary scale of data, definition of groups for images, choice of metric, and dataset imbalances. Next, through two case studies using modern vision models, we demonstrate that naive implementations of these assessments are brittle. We identify several design choices that look merely like implementation details but significantly impact the conclusions of assessments, both in terms of magnitude and direction (on which group the classifiers work best) of disparities. Based on ablation studies, we propose some recommendations to increase the reliability of these assessments. Finally, through a qualitative analysis we find that concepts with large disparities tend to have varying definitions and representations between groups, with inconsistencies across datasets and annotators. While this result suggests avenues for mitigation through more consistent data collection, it also highlights that ambiguous label definitions remain a challenge when performing model assessments. Vision models are expanding and becoming more ubiquitous; it is even more important that our disparity assessments accurately reflect the true performance of models. | 翻訳日:2023-02-20 16:42:43 公開日:2023-02-16 |
# エッジ機械学習のレビューと分類:要求、パラダイム、技術 A Review and a Taxonomy of Edge Machine Learning: Requirements, Paradigms, and Techniques ( http://arxiv.org/abs/2302.08571v1 ) ライセンス: Link先を確認 | Wenbin Li, Hakim Hacid, Ebtesam Almazrouei, Merouane Debbah | (参考訳) エッジコンピューティング(EC)と人工知能(AI)の連合はEdge AIの概念を推進し、エンドユーザ環境に近いインテリジェントなソリューションを提供し、プライバシ保護、低レイテンシのリアルタイムパフォーマンス、リソース最適化を実現した。
機械学習(ML)は、ここ数年でAIの最も先進的な分野であり、エッジ環境における奨励的な結果と応用を示している。
それでもエッジベースのMLソリューションは、エッジコンピューティングとAIドメインの両方のジョイント制約のため、より複雑であり、それに対応するソリューションは、データ処理、モデル圧縮、分散推論、エッジML要求のための高度な学習パラダイムといった技術で効率的かつ適応することが期待されている。
学術と産業の両方でEdge MLに大きな注目を集めているにもかかわらず、この概念の共通理解を提供するために、既存のEdge ML技術に関する完全な調査が欠如していることに気づきました。
そこで本論文は,Edge ML技術に関する包括的分類と体系的なレビューを提供することを目的としている。
次に、エッジ推論とエッジ学習という2つの主要な部分をカバーする、20以上のパラダイムとテクニックとその代表的作業を調査します。
特に,特定要件のサブセットを満たすことで,各手法がエッジmlにどのように適合するかを分析する。
また、Edge MLの今後の方向性を明かすために、Edge MLのオープンな問題を要約します。 The union of Edge Computing (EC) and Artificial Intelligence (AI) has brought forward the Edge AI concept to provide intelligent solutions close to end-user environment, for privacy preservation, low latency to real-time performance, as well as resource optimization. Machine Learning (ML), as the most advanced branch of AI in the past few years, has shown encouraging results and applications in the edge environment. Nevertheless, edge powered ML solutions are more complex to realize due to the joint constraints from both edge computing and AI domains, and the corresponding solutions are expected to be efficient and adapted in technologies such as data processing, model compression, distributed inference, and advanced learning paradigms for Edge ML requirements. Despite that a great attention of Edge ML is gained in both academic and industrial communities, we noticed the lack of a complete survey on existing Edge ML technologies to provide a common understanding of this concept. To tackle this, this paper aims at providing a comprehensive taxonomy and a systematic review of Edge ML techniques: we start by identifying the Edge ML requirements driven by the joint constraints. We then survey more than twenty paradigms and techniques along with their representative work, covering two main parts: edge inference, and edge learning. In particular, we analyze how each technique fits into Edge ML by meeting a subset of the identified requirements. We also summarize Edge ML open issues to shed light on future directions for Edge ML. | 翻訳日:2023-02-20 16:42:19 公開日:2023-02-16 |
# マグノンスクイーズを用いたキャビティマグノメカニカルシステムにおける量子相関のコヒーレントフィードバック制御 Coherent feedback control of quantum correlations in cavity magnomechanical system with magnon squeezing ( http://arxiv.org/abs/2302.08567v1 ) ライセンス: Link先を確認 | M. Amazioug, S. K. Singh, B. Teklu and M. Asjad | (参考訳) 本稿では,マグノンスクイーズの存在下でのコヒーレントフィードバックループを用いて,キャビティ・オプティコメカニカルシステムの量子相関性を向上させる手法を提案する。
提案するコヒーレントフィードバック方式は, フォトンフォノン, フォノンマグノン, フォノンマグノンの3つのサブユニットの絡み合いを著しく向上させる。
アインシュタイン・ポドルスキー・ローゼンステアリングと一方向量子ステアリングを熱効果の存在下で研究し、サブシステム内の非対称損失やノイズの追加条件を課さずに行った。
さらに, 損失や騒音を考慮した非理想的状況下でのマグノンスクイーズに対する現在のスキームの感度と性能についても検討した。 We present a scheme to enhanced the quantum correlations in cavity opto-magnomechanical system by using the coherent feedback loop in the presence of magnon squeezing. The proposed coherent feedback scheme allows a significant enhancement of the entanglement of three bipartite subsystems, i.e., photon-phonon, photon-magnon and phonon-magnon. We study the Einstein-Podolsky-Rosen steering and one-way quantum steering in the presence of thermal effects without imposing the additional conditions of asymmetric losses or noises in the subsystems. Moreover, we also study the sensitiveness of the present scheme to the magnon squeezing, and its performance in non-ideal situations in which losses and noises are taken into account. | 翻訳日:2023-02-20 16:41:54 公開日:2023-02-16 |
# 任意経験からの模倣:強化と模倣学習の二重統一 Imitation from Arbitrary Experience: A Dual Unification of Reinforcement and Imitation Learning Methods ( http://arxiv.org/abs/2302.08560v1 ) ライセンス: Link先を確認 | Harshit Sikchi, Amy Zhang, Scott Niekum | (参考訳) 強化学習(RL)が線形制約付き凸プログラムとして定式化できることはよく知られている。
この定式化の二重形式は非制約であり、これは二重RLと呼ばれ、凸最適化から既存のツールを活用してRLエージェントの学習性能を向上させることができる。
いくつかの最先端のディープRLアルゴリズム(オンライン、オフライン、模倣設定)が統一されたフレームワークにおいてデュアルRLアプローチとみなせることを示す。
この統一は、これらの手法の成功に実際に寄与するコンポーネントを特定するために、共通の基盤で研究されるべき方法を要求する。
我々の統一はまた、双対空間における事前のオフ・ポリティカル模倣学習法が非現実的なカバレッジ仮定に基づいており、特定のf-ダイバージェンスに適合することに限定されていることも明かしている。
本稿では,任意のオフポリシーデータを用いた模倣学習を可能にする2つのフレームワークの簡単な修正を用いた新しい手法を提案する。 It is well known that Reinforcement Learning (RL) can be formulated as a convex program with linear constraints. The dual form of this formulation is unconstrained, which we refer to as dual RL, and can leverage preexisting tools from convex optimization to improve the learning performance of RL agents. We show that several state-of-the-art deep RL algorithms (in online, offline, and imitation settings) can be viewed as dual RL approaches in a unified framework. This unification calls for the methods to be studied on common ground, so as to identify the components that actually contribute to the success of these methods. Our unification also reveals that prior off-policy imitation learning methods in the dual space are based on an unrealistic coverage assumption and are restricted to matching a particular f-divergence. We propose a new method using a simple modification to the dual framework that allows for imitation learning with arbitrary off-policy data to obtain near-expert performance. | 翻訳日:2023-02-20 16:41:37 公開日:2023-02-16 |
# 説明可能なAIによるCovid-19患者死亡率の社会経済格差の相互比較 Using Explainable AI to Cross-Validate Socio-economic Disparities Among Covid-19 Patient Mortality ( http://arxiv.org/abs/2302.08605v1 ) ライセンス: Link先を確認 | Li Shi, Redoan Rahman, Esther Melamed, Jacek Gwizdka, Justin F. Rousseau, Ying Ding | (参考訳) 本稿では、eXplainable Artificial Intelligence (XAI)法を適用し、新型コロナウイルス患者の死亡率における社会経済的格差について検討する。
xgboost(extreme gradient boosting)予測モデルは、未確認のオースティン地域病院データセットに基づいて構築され、covid-19患者の死亡率を予測する。
本稿では,2つのXAI手法,Shapley Additive exPlanations (SHAP) とLocally Interpretable Model Agnostic Explanations (LIME) を適用し,特徴のグローバルな解釈と局所的な解釈を比較した。
本稿では,特徴の重要性と決定性を示すXAIの利点を示す。
さらに,XAI法を用いて患者の解釈を相互に検証する。
xaiモデルによれば、メディケアのファイナンシャルクラス、高齢者、性別は死亡予測に大きな影響を与えている。
LIMEの局所的解釈はSHAPと比較して特徴的重要性に有意な差は見られず,パターンの確認が示唆された。
本稿では,特徴属性の相互検証におけるXAI手法の重要性を示す。 This paper applies eXplainable Artificial Intelligence (XAI) methods to investigate the socioeconomic disparities in COVID patient mortality. An Extreme Gradient Boosting (XGBoost) prediction model is built based on a de-identified Austin area hospital dataset to predict the mortality of COVID-19 patients. We apply two XAI methods, Shapley Additive exPlanations (SHAP) and Locally Interpretable Model Agnostic Explanations (LIME), to compare the global and local interpretation of feature importance. This paper demonstrates the advantages of using XAI which shows the feature importance and decisive capability. Furthermore, we use the XAI methods to cross-validate their interpretations for individual patients. The XAI models reveal that Medicare financial class, older age, and gender have high impact on the mortality prediction. We find that LIME local interpretation does not show significant differences in feature importance comparing to SHAP, which suggests pattern confirmation. This paper demonstrates the importance of XAI methods in cross-validation of feature attributions. | 翻訳日:2023-02-20 16:36:22 公開日:2023-02-16 |
# 3+1d$におけるフェルミオン相互作用の完全可解モデル A Fully Solvable Model of Fermionic Interaction in $3+1d$ ( http://arxiv.org/abs/2302.08603v1 ) ライセンス: Link先を確認 | Seth Grable, Max Weiner | (参考訳) 最近ロマチュケは、o(n)$スカラー理論の極が温度や圧力などの観測性に影響しないことを発見した。
romatschke は、この結果が 3+1d$ $(o(n)$ scalar theory の辺縁、関係、無関係作用素に対して成り立つことを示した。
我々はこの方向に進み、大きなN$フェルミ相互作用を3+1d$で研究する。
そのため、大容量N$で完全に再正規化可能な辺結合フェルミ相互作用のモデルを作成する。
この理論は走行結合の極を含んでいるが、これらの極は物理的観測性に影響しないと主張する。
さらに、我々の理論は安定で準安定で不安定な位相を分離する1次相転移を含む。 Recently, Romatschke found that the poles in $O(N)$ scalar theories do not affect observables such as temperature and pressure. Romatschke went on to show this result holds for marginal, relevant, and irrelevant operators in $3+1d$ $(O(N)$ scalar theories. We continue in this direction by studying large-$N$ fermi-interactions in $3+1d$. To do so, we produce a model of marginally coupled fermi-interactions which is fully renormalizable at large-$N$. This theory contains poles in the running coupling, however we argue these poles do not affect any physical observables. Further, our theory contains first order phase transition which separates a stable, meta-stable, and unstable phase. | 翻訳日:2023-02-20 16:36:03 公開日:2023-02-16 |
# ロバストオピニオンダイナミクスにおける記憶の役割について On the Role of Memory in Robust Opinion Dynamics ( http://arxiv.org/abs/2302.08600v1 ) ライセンス: Link先を確認 | Luca Becchetti, Andrea Clementi, Amos Korman, Francesco Pasquale, Luca Trevisan and Robin Vacus | (参考訳) 完全に接続されたシステムにおける意見のダイナミクスを調査し、$n$の同一エージェントと匿名エージェントで構成され、意見の1つ(正しい)が情報の拡散を表す。
より詳しくは、あるソースエージェントが最初は正しい意見を持ち、実行中もこの意見のままである。
非ソースエージェントの目標は、この正しい意見に迅速に同意し、あらゆる初期設定から堅牢にそれを行うことである。
システムはラウンドで進化する。
各ラウンドにおいて、ランダムに選択された1つのエージェントが起動される: ソースでない限り、エージェントは$\ell$ランダムエージェントの意見をプルし、あるルールに従ってその意見を更新する。
エージェントが記憶を持っておらず、現在サンプルとなっているエージェントの意見に基づいてのみ意見を変更するような制限された設定を考える。
制限されているように、この設定は投票者モデルや多数決ルールなど、非常に一般的な意見のダイナミクスを含んでいる。
定性的に言えば、メモリ不足は効率的な収束を妨げる。
具体的には、活性化されたエージェントがシステム全体の現在の構成、すなわち$\ell=n$を満たしているモデルの強力なバージョンでさえも、n$のサブクアドラルである期待される数ステップにおいて、ダイナミクスが正しい収束を達成できないことを証明します。
逆に、単純な投票者モデル($\ell=1$)が上記の下界とほぼ一致しながら、その問題を正しく解くことを証明している。
これらの結果は、対称的なコンセンサス問題(正しい意見の概念を含まない)とは対照的に、確率的意見力学を用いた正しい意見への高速収束は、メモリの使用を必要とする可能性があることを示唆している。
この洞察は、少数の知識のある個人に依存する自然情報の拡散過程を反映している可能性がある。 We investigate opinion dynamics in a fully-connected system, consisting of $n$ identical and anonymous agents, where one of the opinions (which is called correct) represents a piece of information to disseminate. In more detail, one source agent initially holds the correct opinion and remains with this opinion throughout the execution. The goal for non-source agents is to quickly agree on this correct opinion, and do that robustly, i.e., from any initial configuration. The system evolves in rounds. In each round, one agent chosen uniformly at random is activated: unless it is the source, the agent pulls the opinions of $\ell$ random agents and then updates its opinion according to some rule. We consider a restricted setting, in which agents have no memory and they only revise their opinions on the basis of those of the agents they currently sample. As restricted as it is, this setting encompasses very popular opinion dynamics, such as the voter model and best-of-$k$ majority rules. Qualitatively speaking, we show that lack of memory prevents efficient convergence. Specifically, we prove that no dynamics can achieve correct convergence in an expected number of steps that is sub-quadratic in $n$, even under a strong version of the model in which activated agents have complete access to the current configuration of the entire system, i.e., the case $\ell=n$. Conversely, we prove that the simple voter model (in which $\ell=1$) correctly solves the problem, while almost matching the aforementioned lower bound. These results suggest that, in contrast to symmetric consensus problems (that do not involve a notion of correct opinion), fast convergence on the correct opinion using stochastic opinion dynamics may indeed require the use of memory. This insight may reflect on natural information dissemination processes that rely on a few knowledgeable individuals. | 翻訳日:2023-02-20 16:35:50 公開日:2023-02-16 |
# ボリュームベース3次元データ知覚のための周波数領域学習 Frequency-domain Learning for Volumetric-based 3D Data Perception ( http://arxiv.org/abs/2302.08595v1 ) ライセンス: Link先を確認 | Zifan Yu, Suya You and Fengbo Ren | (参考訳) 周波数領域学習は、推論精度と入力データサイズとのトレードオフが優れているために注目される。
2次元コンピュータビジョンタスクにおける周波数領域学習は、2次元畳み込みニューラルネットワーク(CNN)が低周波チャネルに対して定常的なスペクトルバイアスを持つことを示した。
しかし,3次元体積データを用いた3次元CNNでは周波数領域学習は研究されていない。
本稿では,3次元cnnのスペクトルバイアスと精度入力データサイズトレードオフを明らかにするために,ボリュームベース3次元データ知覚のための周波数領域学習について検討する。
本研究により,3次元CNNは限られた周波数チャネル,特に低周波チャネルに敏感であることが判明した。
実験の結果、周波数領域学習は、従来の空間領域学習手法と同等の精度で、ボリュームベースの3次元入力(スペクトルバイアスに基づく)を著しく削減できることがわかった。
具体的には、周波数領域学習により、平均精度低下を2%に抑えながら入力データサイズを98%削減し、平均クラスIoU損失を1.55%に抑えながら平均クラス精度を1.48%改善した3Dポイントクラウドセマンティックセグメンテーションにおいて98%削減することができる。
さらに、高解像度の3Dデータ(つまり空間領域の原画像の2倍)から学習することにより、平均値精度と平均値IoUをそれぞれ3.04%、0.63%向上させ、3Dポイントクラウドセマンティックセグメンテーションにおいて87.5%の入力データサイズ削減を実現する。 Frequency-domain learning draws attention due to its superior tradeoff between inference accuracy and input data size. Frequency-domain learning in 2D computer vision tasks has shown that 2D convolutional neural networks (CNN) have a stationary spectral bias towards low-frequency channels so that high-frequency channels can be pruned with no or little accuracy degradation. However, frequency-domain learning has not been studied in the context of 3D CNNs with 3D volumetric data. In this paper, we study frequency-domain learning for volumetric-based 3D data perception to reveal the spectral bias and the accuracy-input-data-size tradeoff of 3D CNNs. Our study finds that 3D CNNs are sensitive to a limited number of critical frequency channels, especially low-frequency channels. Experiment results show that frequency-domain learning can significantly reduce the size of volumetric-based 3D inputs (based on spectral bias) while achieving comparable accuracy with conventional spatial-domain learning approaches. Specifically, frequency-domain learning is able to reduce the input data size by 98% in 3D shape classification while limiting the average accuracy drop within 2%, and by 98% in the 3D point cloud semantic segmentation with a 1.48% mean-class accuracy improvement while limiting the mean-class IoU loss within 1.55%. Moreover, by learning from higher-resolution 3D data (i.e., 2x of the original image in the spatial domain), frequency-domain learning improves the mean-class accuracy and mean-class IoU by 3.04% and 0.63%, respectively, while achieving an 87.5% input data size reduction in 3D point cloud semantic segmentation. | 翻訳日:2023-02-20 16:35:19 公開日:2023-02-16 |
# transupr:lidar point cloudセマンティクスセグメンテーションのためのトランスフォーマーベースの不確定点リファインダ TransUPR: A Transformer-based Uncertain Point Refiner for LiDAR Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2302.08594v1 ) ライセンス: Link先を確認 | Zifan Yu, Meida Chen, Zhikang Zhang, Suya You and Fengbo Ren | (参考訳) 本研究では,画像に基づくLiDARポイントクラウドセマンティックセマンティックセグメンテーション (LiDAR PCSS) における不確定点修正の問題をターゲットにした。
この問題は、畳み込みニューラルネットワーク(cnns)の境界フラリング問題と球面投影の量子化損失が主な原因で、一般的な画像ベースのlidar pcssアプローチでは避け難いことが多い。
プラグアンドプレイ変換器を用いた不確実点精製器(TransUPR)を提案する。
局所的特徴集約、不確実点ローカライゼーション、自己注意型トランスフォーマー設計を通じて、トランスUPRは既存の範囲イメージベースのLiDAR PCSSアプローチ(例えばCENet)に統合され、セマンティックKITTIベンチマークの最先端性能(68.2% mIoU)を達成し、mIoUのパフォーマンスは0.6%向上した。 In this work, we target the problem of uncertain points refinement for image-based LiDAR point cloud semantic segmentation (LiDAR PCSS). This problem mainly results from the boundary-blurring problem of convolution neural networks (CNNs) and quantitation loss of spherical projection, which are often hard to avoid for common image-based LiDAR PCSS approaches. We propose a plug-and-play transformer-based uncertain point refiner (TransUPR) to address the problem. Through local feature aggregation, uncertain point localization, and self-attention-based transformer design, TransUPR, integrated into an existing range image-based LiDAR PCSS approach (e.g., CENet), achieves the state-of-the-art performance (68.2% mIoU) on Semantic-KITTI benchmark, which provides a performance improvement of 0.6% on the mIoU. | 翻訳日:2023-02-20 16:34:46 公開日:2023-02-16 |
# 複雑な日常活動、地域レベルの多様性、スマートフォンセンシング:デンマーク、イタリア、モンゴル、パラグアイ、イギリスにおける研究 Complex Daily Activities, Country-Level Diversity, and Smartphone Sensing: A Study in Denmark, Italy, Mongolia, Paraguay, and UK ( http://arxiv.org/abs/2302.08591v1 ) ライセンス: Link先を確認 | Karim Assi, Lakmal Meegahapola, William Droz, Peter Kun, Amalia de Gotzen, Miriam Bidoglia, Sally Stares, George Gaskell, Altangerel Chagnaa, Amarsanaa Ganbold, Tsolmon Zundui, Carlo Caprini, Daniele Miorandi, Alethia Hume, Jose Luis Zarza, Luca Cernuzzi, Ivano Bison, Marcelo Dario Rodas Britez, Matteo Busso, Ronald Chenu-Abente, Fausto Giunchiglia, Daniel Gatica-Perez | (参考訳) スマートフォンは、人々の日常生活を支援するアクティビティ認識によって人間の行動を理解することができる。
以前の研究は慣性センサーを使って単純な活動(シッティング、ウォーキング、ランニングなど)を検知することに集中しており、主に国内の均質な人口で実施された。
しかし、人々は、リモート/ハイブリッドワーク/スタディ設定の頻度が高く、ポストパンデミックの世界ではより鎮静的であり、コンテキスト対応アプリケーションでは、単純なアクティビティの検出が意味をなさない。
したがって、理解すること
i)マルチモーダルスマートフォンセンサと機械学習モデルを用いて、人々の日常生活をよりよく知ることができる複雑な日常活動を検出する方法。
(II) モデルが目に見えない国に一般化する方法は限られている。
5か国(イタリア、モンゴル、イギリス、デンマーク、パラグアイ)の637人の大学生のスマートフォンデータと216万以上の自己報告を分析した。
そして,12クラス複雑な日常活動認識タスクを定義し,異なるアプローチによる評価を行った。
総合的多国間アプローチはAUROCが0.70であったにもかかわらず,[0.79-0.89]のAUROCスコアでは国別アプローチが良好であった。
私たちは、多様性認識のラインに沿った研究は、スマートフォンと機械学習を通じて人間の行動理解を前進させ、各国でより現実世界のユーティリティを実現するための基礎であると信じています。 Smartphones enable understanding human behavior with activity recognition to support people's daily lives. Prior studies focused on using inertial sensors to detect simple activities (sitting, walking, running, etc.) and were mostly conducted in homogeneous populations within a country. However, people are more sedentary in the post-pandemic world with the prevalence of remote/hybrid work/study settings, making detecting simple activities less meaningful for context-aware applications. Hence, the understanding of (i) how multimodal smartphone sensors and machine learning models could be used to detect complex daily activities that can better inform about people's daily lives and (ii) how models generalize to unseen countries, is limited. We analyzed in-the-wild smartphone data and over 216K self-reports from 637 college students in five countries (Italy, Mongolia, UK, Denmark, Paraguay). Then, we defined a 12-class complex daily activity recognition task and evaluated the performance with different approaches. We found that even though the generic multi-country approach provided an AUROC of 0.70, the country-specific approach performed better with AUROC scores in [0.79-0.89]. We believe that research along the lines of diversity awareness is fundamental for advancing human behavior understanding through smartphones and machine learning, for more real-world utility across countries. | 翻訳日:2023-02-20 16:34:26 公開日:2023-02-16 |
# 言語利用エージェントがやるべきこと:トップダウン分析 What A Situated Language-Using Agent Must be Able to Do: A Top-Down Analysis ( http://arxiv.org/abs/2302.08590v1 ) ライセンス: Link先を確認 | David Schlangen | (参考訳) テキストが集中する時代になっても、言語の使用の主要な場所は、共同表現の相互作用である。
初生的かつ植物学的に発生しており、日常的な社会状況の交渉においても重要な存在である。
位置対応は自然言語処理の最終フロンティアであり、テキスト処理の領域と比べて、過去10年間にはほとんど進歩がなく、無数の実用的なアプリケーションがアンロックされるのを待っている。
この分野の一般的なアプローチは、次の「可能」に到達し、ボトムアップすることであるが、本論文では、制限のない位置的相互作用が関与するエージェントに何をもたらすのかをトップダウンで分析し、この分析が計算モデルやそれらの研究を構成できる方法を提案する。
具体的には、代表的要求(世界モデル、言語モデル、状況モデル、談話モデル、エージェントモデルの構築と適用)と、エージェントをhere, now, usにバインドするアンカープロセス(インクリメンタル処理、インクリメンタル学習、会話的接地、マルチモーダル接地)について論じます。 Even in our increasingly text-intensive times, the primary site of language use is situated, co-present interaction. It is primary ontogenetically and phylogenetically, and it is arguably also still primary in negotiating everyday social situations. Situated interaction is also the final frontier of Natural Language Processing, where, compared to the area of text processing, very little progress has been made in the past decade, and where a myriad of practical applications is waiting to be unlocked. While the usual approach in the field is to reach, bottom-up, for the ever next "adjacent possible", in this paper I attempt a top-down analysis of what the demands are that unrestricted situated interaction makes on the participating agent, and suggest ways in which this analysis can structure computational models and research on them. Specifically, I discuss representational demands (the building up and application of world model, language model, situation model, discourse model, and agent model) and what I call anchoring processes (incremental processing, incremental learning, conversational grounding, multimodal grounding) that bind the agent to the here, now, and us. | 翻訳日:2023-02-20 16:34:02 公開日:2023-02-16 |
# 聴きながらの脳の構文構造処理 Syntactic Structure Processing in the Brain while Listening ( http://arxiv.org/abs/2302.08589v1 ) ライセンス: Link先を確認 | Subba Reddy Oota, Mounika Marreddy, Manish Gupta and Bapi Raju Surampud | (参考訳) 構文解析は構文構造を文に割り当てるタスクである。
一般的な構文解析方法は2つある。
最近の研究は、脳の言語ネットワークにおける構文構造がどのように表現されているかを研究するために、脳活動予測のための選択木、インクリメンタルトップダウン解析、その他の単語構文的特徴に基づく構文的埋め込みを用いている。
しかし、依存構文解析木の有効性や、脳領域、特にリスニングタスクにおける様々な構文解析器の相対的予測能力は、まだ解明されていない。
本研究では,脳エンコーディングモデルの3つの設定における予測力について検討する。
一 選挙区及び依存関係構文解析に基づく埋め込み方式の個別性能
(ii)基本構文信号の制御における構文解析に基づく埋め込み手法の有効性
(iii)相互制御時の統語的埋め込み法の相対的有効性
さらに, BERT埋め込みを用いた構文情報と意味情報との相対的重要性について検討する。
また, 側頭葉と中前頭葉の活性化を説明するのに役立ち, 係り受け解析は角回と後帯状皮質のシナティクス構造をよりよくコードすることがわかった。
BERTのセマンティックシグナルは、どの構文的特徴や埋め込み法よりも効果的であるが、構文的埋め込み法は、少数の脳領域で追加的な分散を説明する。 Syntactic parsing is the task of assigning a syntactic structure to a sentence. There are two popular syntactic parsing methods: constituency and dependency parsing. Recent works have used syntactic embeddings based on constituency trees, incremental top-down parsing, and other word syntactic features for brain activity prediction given the text stimuli to study how the syntax structure is represented in the brain's language network. However, the effectiveness of dependency parse trees or the relative predictive power of the various syntax parsers across brain areas, especially for the listening task, is yet unexplored. In this study, we investigate the predictive power of the brain encoding models in three settings: (i) individual performance of the constituency and dependency syntactic parsing based embedding methods, (ii) efficacy of these syntactic parsing based embedding methods when controlling for basic syntactic signals, (iii) relative effectiveness of each of the syntactic embedding methods when controlling for the other. Further, we explore the relative importance of syntactic information (from these syntactic embedding methods) versus semantic information using BERT embeddings. We find that constituency parsers help explain activations in the temporal lobe and middle-frontal gyrus, while dependency parsers better encode syntactic structure in the angular gyrus and posterior cingulate cortex. Although semantic signals from BERT are more effective compared to any of the syntactic features or embedding methods, syntactic embedding methods explain additional variance for a few brain regions. | 翻訳日:2023-02-20 16:33:41 公開日:2023-02-16 |
# 連続時間マルコフ連鎖におけるパラメータ推定のためのMMアルゴリズム MM Algorithms to Estimate Parameters in Continuous-time Markov Chains ( http://arxiv.org/abs/2302.08588v1 ) ライセンス: Link先を確認 | Giovanni Bacci, Anna Ing\'olfsd\'ottir, Kim G. Larsen, Rapha\"el Reynouard | (参考訳) 連続時間マルコフ連鎖(CTMC、Continuous-time Markov chains)は、待ち行列ネットワーク、確率過程代数、システム生物学の計算など、リアルタイム確率システムの基本的な意味論を構成する一般的なモデリング形式である。
PrismとStormは、CTMCに強力な分析技術を提供する人気のあるモデルチェックツールである。
これらのツールは、相互作用する多数のモジュールの並列合成として表現されたモデルを受け入れる。
分析の結果は,ctmcのイベントのタイミングと確率を規定するモデルで使用されるパラメータ値に大きく依存する。
しかし、一部のアプリケーションでは、パラメータ値は部分的に観測可能な実行から経験的に推定する必要がある。
本稿では,複数の部分観測可能な実行から,プリズムモデルとして表現されたctmcのパラメータ値を推定する問題に対処する。
パラメトリックCTMC - 遷移率をパラメータの集合上の多項式関数とするCTMC - を、プリズムモデルの大規模なクラスをカバーするCTMCの抽象化として導入する。
次に,初期化最大化のために,初期化MMで知られているアルゴリズムの理論に基づいて,2つの学習シナリオをカバーするパラメトリックCTMCに対して反復的最大推定アルゴリズムを提案する。
結論として,本手法の使用を簡単な非自明なケーススタディで示し,ロックダウン対策の存在下でのcovid-19の感染拡大の分析を行った。 Continuous-time Markov chains (CTMCs) are popular modeling formalism that constitutes the underlying semantics for real-time probabilistic systems such as queuing networks, stochastic process algebras, and calculi for systems biology. Prism and Storm are popular model checking tools that provide a number of powerful analysis techniques for CTMCs. These tools accept models expressed as the parallel composition of a number of modules interacting with each other. The outcome of the analysis is strongly dependent on the parameter values used in the model which govern the timing and probability of events of the resulting CTMC. However, for some applications, parameter values have to be empirically estimated from partially-observable executions. In this work, we address the problem of estimating parameter values of CTMCs expressed as Prism models from a number of partially-observable executions. We introduce the class parametric CTMCs -- CTMCs where transition rates are polynomial functions over a set of parameters -- as an abstraction of CTMCs covering a large class of Prism models. Then, building on a theory of algorithms known by the initials MM, for minorization-maximization, we present iterative maximum likelihood estimation algorithms for parametric CTMCs covering two learning scenarios: when both state-labels and dwell times are observable, or just state-labels are. We conclude by illustrating the use of our technique in a simple but non-trivial case study: the analysis of the spread of COVID-19 in presence of lockdown countermeasures. | 翻訳日:2023-02-20 16:33:18 公開日:2023-02-16 |
# 量子シミュレーションによる対称性保護部分空間の自動検出 Automated detection of symmetry-protected subspaces in quantum simulations ( http://arxiv.org/abs/2302.08586v1 ) ライセンス: Link先を確認 | Caleb Rotello, Eric B. Jones, Peter Graf, Eliot Kapit | (参考訳) 量子系における対称性の分析は理論的に最も重要であり、様々な応用や実験的な設定で有用であり、一般に達成することは困難である。
対称性は、ヒルベルト空間を時間発展作用素の不変部分空間に分割する保存則を意味し、それぞれはその保存された量に応じて境界づけられる。
選択された基底から、その基底で対角的な対称保護部分空間は、$k$局所ユニタリ演算の下での状態-状態遷移を表すグラフ上の推移的閉包を用いて発見可能であることを示す。
重要なことに、これらの部分空間の発見は対称性作用素や固有値の明示的な同定にもヒルベルト空間次元全体の行列の構成にも依存しない。
我々は,これらの部分空間の特徴を効率的に計算し,解明する2つの古典的アルゴリズムを導入する。
第1のアルゴリズムは、局所基底状態-基底状態遷移を閉じることで、部分空間のサイズに線形な初期状態の対称性で保護された部分空間全体を探索する。
第2のアルゴリズムは、動的生成状態の測定結果が動的システムが初期化される状態の対称性保護された部分空間内にある場合、有界誤差で決定する。
本研究では,Heisenberg-XXXモデルと$T_6$および$F_4$量子セルオートマトンという3種類の力学系のエミュレートされたノイズ量子シミュレーションから生成されたデータに対して,これらのアルゴリズムの適用性を示す。
これらのアルゴリズムは、量子コンピュータデータのポストセレクション、量子システムの最適化された古典的シミュレーション、そして以前に量子力学系に隠されていた対称性の発見に有効である。 The analysis of symmetry in quantum systems is of utmost theoretical importance, useful in a variety of applications and experimental settings, and is difficult to accomplish in general. Symmetries imply conservation laws, which partition Hilbert space into invariant subspaces of the time-evolution operator, each of which is demarcated according to its conserved quantity. We show that, starting from a chosen basis, any invariant, symmetry-protected subspaces which are diagonal in that basis are discoverable using transitive closure on graphs representing state-to-state transitions under $k$-local unitary operations. Importantly, the discovery of these subspaces relies neither upon the explicit identification of a symmetry operator or its eigenvalues nor upon the construction of matrices of the full Hilbert space dimension. We introduce two classical algorithms, which efficiently compute and elucidate features of these subspaces. The first algorithm explores the entire symmetry-protected subspace of an initial state in time complexity linear to the size of the subspace by closing local basis state-to-basis state transitions. The second algorithm determines, with bounded error, if a given measurement outcome of a dynamically-generated state is within the symmetry-protected subspace of the state in which the dynamical system is initialized. We demonstrate the applicability of these algorithms by performing post-selection on data generated from emulated noisy quantum simulations of three different dynamical systems: the Heisenberg-XXX model and the $T_6$ and $F_4$ quantum cellular automata. Due to their efficient computability and indifference to identifying the underlying symmetry, these algorithms lend themselves to the post-selection of quantum computer data, optimized classical simulation of quantum systems, and the discovery of previously hidden symmetries in quantum mechanical systems. | 翻訳日:2023-02-20 16:32:55 公開日:2023-02-16 |
# 物理に基づくパラメータ化ニューラル常微分方程式:ロケット燃焼器におけるレーザー点火の予測 Physics-based parameterized neural ordinary differential equations: prediction of laser ignition in a rocket combustor ( http://arxiv.org/abs/2302.08629v1 ) ライセンス: Link先を確認 | Yizhou Qian, Jonathan Wang, Quentin Douasbin, Eric Darve | (参考訳) 本研究では,パラメータ化ニューラル常微分方程式(PNODE)に基づくモデルロケット燃焼器におけるレーザ点火の低次モデリングのための物理に基づく新しいデータ駆動フレームワークを提案する。
深層ニューラルネットワークはレーザー点火の高次元パラメータの関数として組み込まれ、熱源関数、事前指数因子、活性化エネルギーを含む0次元流れモデルで様々な項を予測する。
我々のPNODEは,0次元フローモデルの計算式を用いて,限られた数のトレーニングサンプルを必要とし,物理的制約を満たすとともに,温度,圧力,質量分数などの様々な量の軌道を予測する。
試作ロケット燃焼器におけるレーザー誘起着火の高忠実度計算流体力学(CFD)シミュレーションの解スナップショットにおける物理ベースPNODEの有効性を検証する。
物理に基づくPNODEの性能とカーネルリッジ回帰と完全連結ニューラルネットワークの性能を比較した。
その結果, 物理ベースのpnodeは, 平均温度の絶対誤差が低い解を提供し, 高次元パラメータによるレーザー点火の予測を改善できることがわかった。 In this work, we present a novel physics-based data-driven framework for reduced-order modeling of laser ignition in a model rocket combustor based on parameterized neural ordinary differential equations (PNODE). Deep neural networks are embedded as functions of high-dimensional parameters of laser ignition to predict various terms in a 0D flow model including the heat source function, pre-exponential factors, and activation energy. Using the governing equations of a 0D flow model, our PNODE needs only a limited number of training samples and predicts trajectories of various quantities such as temperature, pressure, and mass fractions of species while satisfying physical constraints. We validate our physics-based PNODE on solution snapshots of high-fidelity Computational Fluid Dynamics (CFD) simulations of laser-induced ignition in a prototype rocket combustor. We compare the performance of our physics-based PNODE with that of kernel ridge regression and fully connected neural networks. Our results show that our physics-based PNODE provides solutions with lower mean absolute errors of average temperature over time, thus improving the prediction of successful laser ignition with high-dimensional parameters. | 翻訳日:2023-02-20 16:26:42 公開日:2023-02-16 |
# 点製品注意におけるバイアス項の役割 Role of Bias Terms in Dot-Product Attention ( http://arxiv.org/abs/2302.08626v1 ) ライセンス: Link先を確認 | Mahdi Namazifar, Devamanyu Hazarika, Dilek Hakkani-Tur | (参考訳) Dot-product attentionは、現在の世代のニューラルネットワークモデル、特にトランスフォーマーの中核モジュールであり、自然言語処理やコンピュータビジョンなど、さまざまな領域で活用されている。
この注目モジュールは、クエリ、キー、値の線形変換という3つの線形変換で構成され、それぞれにバイアス項がある。
本研究では,これらのバイアス項の役割について検討し,重要な線形変換のバイアス項が冗長であり,注意モジュールに影響を与えることなく省略できることを数学的に示す。
さらに, 値線形変換のバイアス項は, クエリ線形変換のバイアス項よりも顕著な役割を担っていると主張する。
言語モデリング,自然言語理解,自然言語生成タスクに関する複数の実験を通じて,これらの知見を実証的に検証した。 Dot-product attention is a core module in the present generation of neural network models, particularly transformers, and is being leveraged across numerous areas such as natural language processing and computer vision. This attention module is comprised of three linear transformations, namely query, key, and value linear transformations, each of which has a bias term. In this work, we study the role of these bias terms, and mathematically show that the bias term of the key linear transformation is redundant and could be omitted without any impact on the attention module. Moreover, we argue that the bias term of the value linear transformation has a more prominent role than that of the bias term of the query linear transformation. We empirically verify these findings through multiple experiments on language modeling, natural language understanding, and natural language generation tasks. | 翻訳日:2023-02-20 16:26:26 公開日:2023-02-16 |
# InstructABSA:Aspect Based Sentiment Analysisのための指導学習 InstructABSA: Instruction Learning for Aspect Based Sentiment Analysis ( http://arxiv.org/abs/2302.08624v1 ) ライセンス: Link先を確認 | Kevin Scaria and Himanshu Gupta and Saurabh Arjun Sawant and Swaroop Mishra and Chitta Baral | (参考訳) 本稿では,全ABSAサブタスクに対して,Aspect Term extract (ATE), Aspect Term Sentiment Classification (ATSC), Joint Task Modeling という命令学習パラダイムを用いた InstructABSA, Aspect-Based Sentiment Analysis (ABSA) を提案する。
本手法は,各トレーニングサンプルに正,負,中立のサンプルを導入し,各absaサブタスクのモデル(tk-instruct base)をチューニングし,大幅なパフォーマンス向上を実現する。
Sem Eval 2014データセットの実験結果によると、InstructABSAは以前の3つのABSAサブタスク(ATE、ATSC、ジョイントタスク)において7倍の精度で、従来の最先端(SOTA)アプローチよりも優れていた。
特に、InstructABSAはレストランATEサブタスクのSOTAを7.31%、ラップトップジョイントタスクのSOTAを8.63%上回る。
また,3つのサブタスクすべてにまたがってタスクを発見できる強力な一般化能力が示唆された。 In this paper, we present InstructABSA, Aspect-Based Sentiment Analysis (ABSA) using instruction learning paradigm for all ABSA subtasks: Aspect Term Extraction (ATE), Aspect Term Sentiment Classification (ATSC), and Joint Task modeling. Our method introduces positive, negative, and neutral examples to each training sample, and instruction tunes the model (Tk-Instruct Base) for each ABSA subtask, yielding significant performance improvements. Experimental results on the Sem Eval 2014 dataset demonstrate that InstructABSA outperforms the previous state-of-the-art (SOTA) approaches on all three ABSA subtasks (ATE, ATSC, and Joint Task) by a significant margin, outperforming 7x larger models. In particular, InstructABSA surpasses the SOTA on the restaurant ATE subtask by 7.31% points and on the Laptop Joint Task by 8.63% points. Our results also suggest a strong generalization ability to unseen tasks across all three subtasks. | 翻訳日:2023-02-20 16:26:13 公開日:2023-02-16 |
# データクラスタリング問題を解決するための対向型学習戦略を用いたハイブリッドチンプ最適化アルゴリズムと一般化正規分布アルゴリズム A Hybrid Chimp Optimization Algorithm and Generalized Normal Distribution Algorithm with Opposition-Based Learning Strategy for Solving Data Clustering Problems ( http://arxiv.org/abs/2302.08623v1 ) ライセンス: Link先を確認 | Sayed Pedram Haeri Boroujeni, Elnaz Pashaei | (参考訳) 本稿では,類似および異種データを異なるグループに分類するための接続原理に基づき,クラスタを分離するデータクラスタリングについて述べる。
K平均のような古典的クラスタリングアルゴリズムは効率的な手法であるが、しばしば局所最適をトラップし、高次元問題の解法において収束速度が遅い。
これらの問題に対処するため、多くのメタヒューリスティック最適化アルゴリズムとインテリジェンスに基づく手法を導入し、適切な時間で最適解を得ることができた。
柔軟な動きやランダムな振る舞いを許容することで、局所的な最適問題から逃れるように設計されている。
本研究では, チップ最適化アルゴリズム (ChOA) , 一般化正規分布アルゴリズム (GNDA) , オポポジションベース学習 (OBL) の3つの主要コンポーネントを用いて, 強力なアプローチを概念化する。
まず,ChOA(I)とChOA(II)という,2つの異なる独立したグループ戦略と7つのカオスマップを持つChOAの2つのバージョンを提示し,データのクラスタリングに最適な結果を得る。
第2に,choaアルゴリズムとgndaアルゴリズムとobl戦略の新たな組み合わせを考案し,本アルゴリズムの主な欠点を解決する。
最後に、ChOAGNDA法は、ChOAとGNDAに基づくSelective Opposition (SO)アルゴリズムであり、大規模で複雑な実世界の最適化問題、特にデータクラスタリングアプリケーションに対処するために使用できる。
その結果,7つのメタヒューリスティック最適化アルゴリズムと8つの最新の最先端クラスタリング手法を用いて評価した。
実験の結果,提案手法は,クラスタ内距離(SICD)の最小化,最小誤差率(ER)の取得,収束速度の高速化,最適なクラスタセンターの発見などにおいて,既存の手法よりも大幅に優れていた。 This paper is concerned with data clustering to separate clusters based on the connectivity principle for categorizing similar and dissimilar data into different groups. Although classical clustering algorithms such as K-means are efficient techniques, they often trap in local optima and have a slow convergence rate in solving high-dimensional problems. To address these issues, many successful meta-heuristic optimization algorithms and intelligence-based methods have been introduced to attain the optimal solution in a reasonable time. They are designed to escape from a local optimum problem by allowing flexible movements or random behaviors. In this study, we attempt to conceptualize a powerful approach using the three main components: Chimp Optimization Algorithm (ChOA), Generalized Normal Distribution Algorithm (GNDA), and Opposition-Based Learning (OBL) method. Firstly, two versions of ChOA with two different independent groups' strategies and seven chaotic maps, entitled ChOA(I) and ChOA(II), are presented to achieve the best possible result for data clustering purposes. Secondly, a novel combination of ChOA and GNDA algorithms with the OBL strategy is devised to solve the major shortcomings of the original algorithms. Lastly, the proposed ChOAGNDA method is a Selective Opposition (SO) algorithm based on ChOA and GNDA, which can be used to tackle large and complex real-world optimization problems, particularly data clustering applications. The results are evaluated against seven popular meta-heuristic optimization algorithms and eight recent state-of-the-art clustering techniques. Experimental results illustrate that the proposed work significantly outperforms other existing methods in terms of the achievement in minimizing the Sum of Intra-Cluster Distances (SICD), obtaining the lowest Error Rate (ER), accelerating the convergence speed, and finding the optimal cluster centers. | 翻訳日:2023-02-20 16:25:51 公開日:2023-02-16 |
# マルコフ鎖の距離とその分化 Distances for Markov Chains, and Their Differentiation ( http://arxiv.org/abs/2302.08621v1 ) ライセンス: Link先を確認 | Tristan Brug\`ere, Zhengchao Wan and Yusu Wang | (参考訳) ノード属性を持つ(直接)グラフは、様々なアプリケーションで一般的なタイプのデータであり、それを比較するためのメトリクスや効率的なアルゴリズムの開発には膨大な文献がある。
近年、グラフ学習と最適化のコミュニティでは、最適なトランスポート(ot)やweisfeiler-lehman(wl)グラフ同型テストのようなアイデアを活用して、グラフとノード属性を比較するための新しいアプローチが開発されている。
O'Connorらによって提案されたOCC距離と、Chenらによって提案されたWL距離である。
興味深いことに、これらの2つの距離は異なるアイデアに基づいて開発されているが、グラフをマルコフ連鎖とみなし、深く結びついている。
実際,本論文では,OTC と WL の両方を包含する Optimal Transport Markov (OTM) 距離と呼ばれるマルコフ連鎖(ノード属性を持つ(直接)グラフを含む)距離を生成する統一的なフレームワークを提案する。
さらに,OTMフレームワーク内に,ディスカウントWL距離と呼ばれる,特別な1パラメータ距離ファミリを導入する。
割引されたWL距離は理論的性質に優れており,既存のOTCおよびWL距離のいくつかの制限に対処できることを示す。
さらに,OTCとWL距離とは対照的に,新しい割引WL距離は(シンクホーン距離に類似したエントロピー規則化後の)区別可能であることを示し,グラフ生成モデルにおける再構成損失などの学習フレームワークに適していることを示す。 (Directed) graphs with node attributes are a common type of data in various applications and there is a vast literature on developing metrics and efficient algorithms for comparing them. Recently, in the graph learning and optimization communities, a range of new approaches have been developed for comparing graphs with node attributes, leveraging ideas such as the Optimal Transport (OT) and the Weisfeiler-Lehman (WL) graph isomorphism test. Two state-of-the-art representatives are the OTC distance proposed by O'Connor et al., 2022 and the WL distance by Chen et al.,2022. Interestingly, while these two distances are developed based on different ideas, we observe that they both view graphs as Markov chains, and are deeply connected. Indeed, in this paper, we propose a unified framework to generate distances for Markov chains (thus including (directed) graphs with node attributes), which we call the Optimal Transport Markov (OTM) distances, that encompass both the OTC and the WL distances. We further introduce a special one-parameter family of distances within our OTM framework, called the discounted WL distance. We show that the discounted WL distance has nice theoretical properties and can address several limitations of the existing OTC and WL distances. Furthermore, contrary to the OTC and the WL distances, we show our new discounted WL distance can be differentiated (after an entropy-regularization similar to the Sinkhorn distance), making it suitable for use in learning frameworks, e.g., as the reconstruction loss in a graph generative model. | 翻訳日:2023-02-20 16:25:16 公開日:2023-02-16 |
# スプリットラーニングにおけるトレーニングハイジャック攻撃に対する防御機構 Defense Mechanisms Against Training-Hijacking Attacks in Split Learning ( http://arxiv.org/abs/2302.08618v1 ) ライセンス: Link先を確認 | Ege Erdogan, Unat Teksen, Mehmet Salih Celiktenyildiz, Alptekin Kupcu, A. Ercument Cicek | (参考訳) 分散ディープラーニングフレームワークは、複数のクライアントにわたるディープニューラルネットワークのより効率的でプライバシーに配慮したトレーニングを可能にする。
分割学習は、ニューラルネットワークをクライアントとサーバに分割して、クライアントが初期レイヤの集合を計算し、サーバが残りの集合を計算することで、これを実現する。
しかし、この手法では、クライアントのプライベートな入力を回復しようとする悪意のあるサーバに対してユニークな攻撃ベクトルを導入する。
すでに提案されている具体的な例(Pasquini et al., ACM CCS '21)では、分割学習クライアントのデータプライバシーに重大なリスクが生じる。我々は、分割学習クライアントがトレーニングハイジャック攻撃の対象になっているかどうかを検知する2つの方法を提案する。我々は、我々の方法の有効性を実験的に評価し、他の潜在的なソリューションと比較し、それらの使用に関する様々な点について議論する。
我々の結論は、スプリットラーニングクライアントがユースケースに最も適する手法を使用することで、トレーニングハイジャック攻撃を継続的に検出し、攻撃者が得た情報を最小限に抑えることができるということだ。 Distributed deep learning frameworks enable more efficient and privacy-aware training of deep neural networks across multiple clients. Split learning achieves this by splitting a neural network between a client and a server such that the client computes the initial set of layers, and the server computes the rest. However, this method introduces a unique attack vector for a malicious server attempting to recover the client's private inputs: the server can direct the client model towards learning any task of its choice, e.g. towards outputting easily invertible values. With a concrete example already proposed (Pasquini et al., ACM CCS '21), such \textit{training-hijacking} attacks present a significant risk for the data privacy of split learning clients. We propose two methods for a split learning client to detect if it is being targeted by a training-hijacking attack or not. We experimentally evaluate our methods' effectiveness, compare them with other potential solutions, and discuss various points related to their use. Our conclusion is that by using the method that best suits their use case, split learning clients can consistently detect training-hijacking attacks and thus keep the information gained by the attacker at a minimum. | 翻訳日:2023-02-20 16:24:45 公開日:2023-02-16 |
# エピソード強化学習における指数レギュレット改善のための量子コンピューティング Quantum Computing Provides Exponential Regret Improvement in Episodic Reinforcement Learning ( http://arxiv.org/abs/2302.08617v1 ) ライセンス: Link先を確認 | Bhargav Ganguly and Yulian Wu and Di Wang and Vaneet Aggarwal | (参考訳) 本稿では,状態進化のための量子神託を用いた \textit{episodic reinforcement learning} の問題について検討する。
そこで本研究では,有限水平MDPの学習を容易にするために, UCB(textit{Upper Confidence Bound})に基づく量子アルゴリズムフレームワークを提案する。
我々の量子アルゴリズムは、古典的手法と比較して、後悔の指数的な改善を達成し、$\Tilde{\mathcal{O}}(1)$を$\Tilde{\mathcal{O}}(\sqrt{K})$ \footnote{$\Tilde{\mathcal{O}}(\cdot)$と比較すると、対数項を隠蔽する。
K$はトレーニングエピソードの数だ。
この利点を達成するために、古典平均推定と比較して、サブガウシアン確率変数の平均を推定するために必要なi.i.d.サンプル数を二次的に改善する効率的な量子平均推定手法を利用する。
この改善は、量子強化学習における重大な後悔の改善の鍵である。
提案するアルゴリズムフレームワークの性能向上を示す,様々なrl環境における概念実証実験を行う。 In this paper, we investigate the problem of \textit{episodic reinforcement learning} with quantum oracles for state evolution. To this end, we propose an \textit{Upper Confidence Bound} (UCB) based quantum algorithmic framework to facilitate learning of a finite-horizon MDP. Our quantum algorithm achieves an exponential improvement in regret as compared to the classical counterparts, achieving a regret of $\Tilde{\mathcal{O}}(1)$ as compared to $\Tilde{\mathcal{O}}(\sqrt{K})$ \footnote{$\Tilde{\mathcal{O}}(\cdot)$ hides logarithmic terms.}, $K$ being the number of training episodes. In order to achieve this advantage, we exploit efficient quantum mean estimation technique that provides quadratic improvement in the number of i.i.d. samples needed to estimate the mean of sub-Gaussian random variables as compared to classical mean estimation. This improvement is a key to the significant regret improvement in quantum reinforcement learning. We provide proof-of-concept experiments on various RL environments that in turn demonstrate performance gains of the proposed algorithmic framework. | 翻訳日:2023-02-20 16:24:18 公開日:2023-02-16 |
# ベイズ最適化のためのロバストな期待改善 Robust expected improvement for Bayesian optimization ( http://arxiv.org/abs/2302.08612v1 ) ライセンス: Link先を確認 | Ryan B. Christianson, Robert B. Gramacy | (参考訳) ベイズ最適化 (bo) はガウス過程 (gp) をサロゲートし、費用対評価ブラックボックス関数を最適化する。
例えば、期待改善(ei)やバランス探索、グローバルなソリューション提供のための活用といった、厳格な評価予算の下での設計ヒューリスティックやいわゆる獲得関数などです。
しかし、それらはロバスト・オプティマ(英語版)を解くときに不足し、より広いアトラクション領域における解の好みを意味する。
ロバストな解は、入力が不正確に指定されたり、一連の解が望まれる場合に有用である。
そのような設定における一般的な数学的プログラミング手法は、逆の目的を含み、局所解法を ``sharp''' のトラフから偏らせる。
本稿では,頑健な予測改善(REI)と呼ばれる代理モデルとアクティブな学習手法を提案し,その手法をBO/GPフレームワークに移植する。
提案手法を記述した後,ベンチマーク合成と複雑性の異なる実問題に関して,いくつかの競合製品との比較を行った。 Bayesian Optimization (BO) links Gaussian Process (GP) surrogates with sequential design toward optimizing expensive-to-evaluate black-box functions. Example design heuristics, or so-called acquisition functions, like expected improvement (EI), balance exploration and exploitation to furnish global solutions under stringent evaluation budgets. However, they fall short when solving for robust optima, meaning a preference for solutions in a wider domain of attraction. Robust solutions are useful when inputs are imprecisely specified, or where a series of solutions is desired. A common mathematical programming technique in such settings involves an adversarial objective, biasing a local solver away from ``sharp'' troughs. Here we propose a surrogate modeling and active learning technique called robust expected improvement (REI) that ports adversarial methodology into the BO/GP framework. After describing the methods, we illustrate and draw comparisons to several competitors on benchmark synthetic and real problems of varying complexity. | 翻訳日:2023-02-20 16:23:54 公開日:2023-02-16 |
# 正確な単語認識のためのフィードフォワードスパイクニューラルネットワークの適応軸索遅延 Adaptive Axonal Delays in feedforward spiking neural networks for accurate spoken word recognition ( http://arxiv.org/abs/2302.08607v1 ) ライセンス: Link先を確認 | Pengfei Sun, Ehsan Eqlimi, Yansong Chua, Paul Devos, Dick Botteldooren | (参考訳) spiking neural networks (snn)は、正確で効率的な自動音声認識システムを構築するための有望な研究道である。
近年のオーディオ・ツー・スパイク符号化とトレーニングアルゴリズムの進歩により、SNNを実践的なタスクに適用することが可能になった。
生物学的にインスパイアされたSNNはスパース非同期イベントを使って通信する。
したがって、スパイクタイピングはSNNのパフォーマンスに不可欠である。
この面では、ほとんどの作業はシナプス重みのトレーニングに焦点を当てており、イベント伝達の遅延、すなわち軸索遅延を考慮するものはほとんどない。
本研究では,学習可能な軸索遅延を最大値に設定し,各ネットワーク層の軸索遅延分布に応じて適応可能な軸索遅延について検討する。
提案手法は,SHDデータセット (92.45%) と NTIDIGITS データセット (95.09%) で報告された最良の分類結果が得られることを示す。
本研究は,複雑な時間構造をもつタスクに対する軸索遅延の訓練の可能性を示す。 Spiking neural networks (SNN) are a promising research avenue for building accurate and efficient automatic speech recognition systems. Recent advances in audio-to-spike encoding and training algorithms enable SNN to be applied in practical tasks. Biologically-inspired SNN communicates using sparse asynchronous events. Therefore, spike-timing is critical to SNN performance. In this aspect, most works focus on training synaptic weights and few have considered delays in event transmission, namely axonal delay. In this work, we consider a learnable axonal delay capped at a maximum value, which can be adapted according to the axonal delay distribution in each network layer. We show that our proposed method achieves the best classification results reported on the SHD dataset (92.45%) and NTIDIGITS dataset (95.09%). Our work illustrates the potential of training axonal delays for tasks with complex temporal structures. | 翻訳日:2023-02-20 16:23:35 公開日:2023-02-16 |
# 多様体上の内在的および外在的深層学習 Intrinsic and extrinsic deep learning on manifolds ( http://arxiv.org/abs/2302.08606v1 ) ライセンス: Link先を確認 | Yihao Fang, Ilsang Ohn, Vijay Gupta, Lizhen Lin | (参考訳) 本稿では,多様体上の深層学習のための汎用フレームワークとして,外部および内在的なディープニューラルネットワークアーキテクチャを提案する。
具体的には、外因的深層ニューラルネットワーク(ednns)は多様体からユークリッド空間の像への同変埋め込みを利用して多様体の幾何学的特徴を保存する。
さらに、intrinsic Deep Neural Network (iDNN) はリーマン構造に関する指数写像や対数写像を通じて多様体の根底となる内在的幾何学を取り入れている。
その結果、eDNNとiDNNの実証リスク最小化器(ERM)が最適速度で収束していることが証明された。
全体として、eDNNsフレームワークはシンプルで計算が簡単であり、iDNNsフレームワークは正確で高速な収束である。
本フレームワークの有用性を実証するために,eDNNとiDNNを用いて各種シミュレーション研究,実データ解析を行った。 We propose extrinsic and intrinsic deep neural network architectures as general frameworks for deep learning on manifolds. Specifically, extrinsic deep neural networks (eDNNs) preserve geometric features on manifolds by utilizing an equivariant embedding from the manifold to its image in the Euclidean space. Moreover, intrinsic deep neural networks (iDNNs) incorporate the underlying intrinsic geometry of manifolds via exponential and log maps with respect to a Riemannian structure. Consequently, we prove that the empirical risk of the empirical risk minimizers (ERM) of eDNNs and iDNNs converge in optimal rates. Overall, The eDNNs framework is simple and easy to compute, while the iDNNs framework is accurate and fast converging. To demonstrate the utilities of our framework, various simulation studies, and real data analyses are presented with eDNNs and iDNNs. | 翻訳日:2023-02-20 16:23:20 公開日:2023-02-16 |
# meta-album: 少数ショット画像分類のためのマルチドメインメタデータセット Meta-Album: Multi-domain Meta-Dataset for Few-Shot Image Classification ( http://arxiv.org/abs/2302.08909v1 ) ライセンス: Link先を確認 | Ihsan Ullah (LISN), Dustin Carri\'on-Ojeda (LISN), Sergio Escalera (UB), Isabelle Guyon (LISN), Mike Huisman (LIACS), Felix Mohr, Jan N van Rijn (LIACS), Haozhe Sun (LISN), Joaquin Vanschoren (TU/e), Phan Anh Vu (LISN) | (参考訳) 画像分類のためのメタデータセットであるmeta-albumを提案する。
40のオープンデータセットがあり、それぞれが少なくとも20のクラスを持ち、クラス毎に40のサンプルを持ち、検証されたライセンスを持っている。
これらは、生態学(動物相や植物相)、製造(テクスチャ、車両)、人間の行動、光学的文字認識などの様々な領域から来ており、様々な画像スケール(顕微鏡、人体スケール、リモートセンシング)が特徴である。
すべてのデータセットはプリプロセスされ、アノテートされ、一様にフォーマットされ、3つのバージョン(Micro $\subset$ Mini $\subset$ Extended)でユーザの計算リソースにマッチする。
少人数学習問題に対する最初の30データセットの有用性について紹介する。
残り10は間もなくリリースされる予定だ。
meta-albumは、同様の取り組みよりもすでに多様で(データセットの数では)大きなものです。
競争が終わるとテストデータがリリースされ、OpenML.orgで利用可能なローリングベンチマークが作成される。
私たちのウェブサイト https://meta-album.github.io/ には、チャレンジ勝利メソッド、ベースラインメソッド、データローダ、新しいデータセットまたはアルゴリズムを拡張可能なメタデータにコントリビュートするためのインストラクションのソースコードが含まれています。 We introduce Meta-Album, an image classification meta-dataset designed to facilitate few-shot learning, transfer learning, meta-learning, among other tasks. It includes 40 open datasets, each having at least 20 classes with 40 examples per class, with verified licences. They stem from diverse domains, such as ecology (fauna and flora), manufacturing (textures, vehicles), human actions, and optical character recognition, featuring various image scales (microscopic, human scales, remote sensing). All datasets are preprocessed, annotated, and formatted uniformly, and come in 3 versions (Micro $\subset$ Mini $\subset$ Extended) to match users' computational resources. We showcase the utility of the first 30 datasets on few-shot learning problems. The other 10 will be released shortly after. Meta-Album is already more diverse and larger (in number of datasets) than similar efforts, and we are committed to keep enlarging it via a series of competitions. As competitions terminate, their test data are released, thus creating a rolling benchmark, available through OpenML.org. Our website https://meta-album.github.io/ contains the source code of challenge winning methods, baseline methods, data loaders, and instructions for contributing either new datasets or algorithms to our expandable meta-dataset. | 翻訳日:2023-02-20 14:36:16 公開日:2023-02-16 |
# LayoutDiffuse: 画像生成のための基礎拡散モデルの適用 LayoutDiffuse: Adapting Foundational Diffusion Models for Layout-to-Image Generation ( http://arxiv.org/abs/2302.08908v1 ) ライセンス: Link先を確認 | Jiaxin Cheng, Xiao Liang, Xingjian Shi, Tong He, Tianjun Xiao and Mu Li | (参考訳) レイアウト・トゥ・イメージ生成(Layout-to-image generation)とは、セマンティックレイアウトに基づいて写真リアルなイメージを合成するタスクである。
本稿では,大規模画像やテキスト画像データセットに事前学習した基本拡散モデルをレイアウトから画像への生成に適応させるレイアウト拡散を提案する。
レイアウト注意とタスク認識のプロンプトに基づく新しいニューラルアダプタを採用することで、効率よくトレーニングし、高い知覚品質とレイアウトアライメントを持つ画像を生成し、少ないデータを必要とする。
GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも有意に優れていることを示す。 Layout-to-image generation refers to the task of synthesizing photo-realistic images based on semantic layouts. In this paper, we propose LayoutDiffuse that adapts a foundational diffusion model pretrained on large-scale image or text-image datasets for layout-to-image generation. By adopting a novel neural adaptor based on layout attention and task-aware prompts, our method trains efficiently, generates images with both high perceptual quality and layout alignment, and needs less data. Experiments on three datasets show that our method significantly outperforms other 10 generative models based on GANs, VQ-VAE, and diffusion models. | 翻訳日:2023-02-20 14:35:49 公開日:2023-02-16 |
# マルチグラニュラーアライメントを用いたファッション画像検索 Fashion Image Retrieval with Multi-Granular Alignment ( http://arxiv.org/abs/2302.08902v1 ) ライセンス: Link先を確認 | Jinkuan Zhu, Hao Huang, Qiao Deng | (参考訳) ファッション画像検索タスクは,ギャラリーから検索画像の関連する衣服を検索することを目的としている。
以前のレシピでは、異なる距離ベースの損失関数の設計、関連したペアの近接化、無関係なイメージの分離に重点を置いていた。
しかし、これらの手法は、衣服画像のきめ細かい特徴(ネックバンド、カフなど)を無視している。
本稿では,MGA(Multi-Granular Alignment)と呼ばれる,グローバルかつきめ細かな特徴を活かした新しいファッション画像検索手法を提案する。
具体的には,FGA(Fin-Granular Aggregator)を設計し,詳細なパターンを抽出・集約する。
そこで我々は,多粒度画像の特徴を粗い方法で整列させるために,注意に基づくトークンアライメント(ATA)を提案する。
提案手法の有効性を証明するため,パブリックファッションデータセットであるDeepFashionの2つのサブタスク(In-ShopとConsumer2Shop)について実験を行った。
実験の結果,我々のMGAはR@1の2つのサブタスクにおいて,最先端の手法よりも3.1%,0.6%優れていた。 Fashion image retrieval task aims to search relevant clothing items of a query image from the gallery. The previous recipes focus on designing different distance-based loss functions, pulling relevant pairs to be close and pushing irrelevant images apart. However, these methods ignore fine-grained features (e.g. neckband, cuff) of clothing images. In this paper, we propose a novel fashion image retrieval method leveraging both global and fine-grained features, dubbed Multi-Granular Alignment (MGA). Specifically, we design a Fine-Granular Aggregator(FGA) to capture and aggregate detailed patterns. Then we propose Attention-based Token Alignment (ATA) to align image features at the multi-granular level in a coarse-to-fine manner. To prove the effectiveness of our proposed method, we conduct experiments on two sub-tasks (In-Shop & Consumer2Shop) of the public fashion datasets DeepFashion. The experimental results show that our MGA outperforms the state-of-the-art methods by 3.1% and 0.6% in the two sub-tasks on the R@1 metric, respectively. | 翻訳日:2023-02-20 14:35:37 公開日:2023-02-16 |
# 大規模グループ形成の包括的研究 Inclusive Study Group Formation At Scale ( http://arxiv.org/abs/2202.07439v3 ) ライセンス: Link先を確認 | Sumer Kohli, Neelesh Ramachandran, Ana Tudor, Gloria Tumushabe, Olivia Hsu, Gireeja Ranade | (参考訳) 学生は教育において多くの大きな課題に直面している。
特に、長期の高品質な研究グループを構築する際に、多数派の仲間よりも困難であることが多い。
この課題は、学生が対面ができず、既存のネットワークを社会的サポートに頼らなければならないリモートラーニングのシナリオで悪化する。
本稿では,学生が直面している構造的障害を解消し,包括的で柔軟な学習グループの構築を支援するスケーラブルなシステムを提案する。
我々の主な目的の1つは、一様だが軽量な構造を提供することで、宿題の学習グループをより公平に見つけるという、伝統的に非公式で非構造的なプロセスを作ることである。
我々は,少数グループの学生に,多数派の学生と同等の質の体験を提供することを目標としている。
私たちのプロセスは、学生が学期中にグループ再割り当てを希望する機会を与えるという点でユニークなものです。
他のコラボレーションツールとは異なり、システムは必須ではなく、ピア評価を使用しません。
私たちは、新型コロナウイルス(COVID-19)パンデミックの期間中に完全にオンラインで行われた1000人以上の学生による工学とコンピュータサイエンスのコースで、私たちのアプローチを試した。
その結果,少数派の学生に比べて,少数派の学生がグループマッチング支援を求める傾向が見られた。
同時に、私たちが学習グループにマッチした表現不足の学生は、多数派の学生に匹敵するグループ体験を持っていた。
ハイコンフォート・ハイクオリティグループのbレンジの学生は、学習結果が向上した。 Underrepresented students face many significant challenges in their education. In particular, they often have a harder time than their peers from majority groups in building long-term high-quality study groups. This challenge is exacerbated in remote-learning scenarios, where students are unable to meet face-to-face and must rely on pre-existing networks for social support. We present a scalable system that removes structural obstacles faced by underrepresented students and supports all students in building inclusive and flexible study groups. One of our main goals is to make the traditionally informal and unstructured process of finding study groups for homework more equitable by providing a uniform but lightweight structure. We aim to provide students from underrepresented groups an experience that is similar in quality to that of students from majority groups. Our process is unique in that it allows students the opportunity to request group reassignments during the semester if they wish. Unlike other collaboration tools our system is not mandatory and does not use peer-evaluation. We trialed our approach in a 1000+ student introductory Engineering and Computer Science course that was conducted entirely online during the COVID-19 pandemic. We find that students from underrepresented backgrounds were more likely to ask for group-matching support compared to students from majority groups. At the same time, underrepresented students that we matched into study groups had group experiences that were comparable to students we matched from majority groups. B-range students in high-comfort and high-quality groups had improved learning outcomes. | 翻訳日:2023-02-19 14:54:55 公開日:2023-02-16 |
# 逆天候はソーシャルメディア活動を増幅する Adverse weather amplifies social media activity ( http://arxiv.org/abs/2302.08456v1 ) ライセンス: Link先を確認 | Kelton Minor and Esteban Moro and Nick Obradovich | (参考訳) 人類はオンラインでの対話に時間を費やしている。
学者は、時間と注意の割り当てにおけるこの集団的シフトの社会的要因と結果の影響を集中的に調査しています。
しかし、オンラインの振る舞いを定期的に形作る外部要因は、いまだに目立たない。
環境要因はオンライン活動の速度を変えるか?
ここでは,米国の気象状況がソーシャルメディアの利用を著しく増加させていることを示す。
そのため、2009年から2016年にかけて、FacebookとTwitterの両方から何千万人もの個人が投稿した30億5000万以上のソーシャルメディア投稿と、気候の計量手法を採用しています。
より極端な気温と降水量は、それぞれ独立してソーシャルメディアの活動を増幅する。
気温と降水量の両方に悪影響を及ぼす天候は、ソーシャルメディアの活動を著しく増加させる。
両プラットフォームの平均気温は温暖化ベースラインと比較して, 1.5-2cmの降水量で-5{\deg}Cより寒く, ソーシャルメディア活動は35%増加した。
この効果は、ニューヨーク市の年越しに見られたソーシャルメディア活動の典型的な増加の3倍近くである。
総合的および個人レベルでのソーシャルメディア参加に対する気象学的影響を観察し、個人的、時間的、位置特異的な可能性についても考察した。 Humanity spends an increasing proportion of its time interacting online. Scholars are intensively investigating the societal drivers and resultant impacts of this collective shift in our allocation of time and attention. Yet, the external factors that regularly shape online behavior remain markedly understudied. Do environmental factors alter rates of online activity? Here we show that adverse meteorological conditions markedly increase social media use in the United States. To do so, we employ climate econometric methods alongside over three and a half billion social media posts from tens of millions of individuals from both Facebook and Twitter between 2009 and 2016. We find that more extreme temperatures and added precipitation each independently amplify social media activity. Weather that is adverse on both the temperature and precipitation dimensions produces markedly larger increases in social media activity. On average across both platforms, compared to the temperate weather baseline, days colder than -5{\deg}C with 1.5-2cm of precipitation elevate social media activity by 35%. This effect is nearly three times the typical increase in social media activity observed on New Year's Eve in New York City. We observe meteorological effects on social media participation at both the aggregate and individual level, even accounting for individual-specific, temporal, and location-specific potential confounds. | 翻訳日:2023-02-19 14:14:01 公開日:2023-02-16 |
# アルゴリズム監査における非対称性の監査と電力権 The right to audit and power asymmetries in algorithm auditing ( http://arxiv.org/abs/2302.08301v1 ) ライセンス: Link先を確認 | Aleksandra Urman, Ivan Smirnov, Jana Lasser | (参考訳) 本稿では,IC2S2 2021において,Christian Sandvig教授が行った監査に対する権利に関する基調講演を,アルゴリズム監査分野におけるパワー対称性の批判的考察を通じて開催し,拡張する。
sandvigが言及する課題と非対称性について詳しく説明する。法律問題に関連する問題や、アーリーケアと上級研究者の格差などだ。
sandvigがカバーしていない非対称性についても議論していますが、重要な点は、研究者間の他の格差に関連するもの、企業データへのアクセスに関するインセンティブ構造、監査対象、ユーザとその権利です。
また、これらの対称性が西洋中心主義や視点の多様性の欠如といったアルゴリズム監査研究に与える影響についても論じる。
我々は特にアルゴリズム監査の分野に焦点をあてるが、議論されているいくつかの対称性がより一般的に計算社会科学に影響を与え、それを反映し対処する必要があることを示唆する。 In this paper, we engage with and expand on the keynote talk about the Right to Audit given by Prof. Christian Sandvig at the IC2S2 2021 through a critical reflection on power asymmetries in the algorithm auditing field. We elaborate on the challenges and asymmetries mentioned by Sandvig - such as those related to legal issues and the disparity between early-career and senior researchers. We also contribute a discussion of the asymmetries that were not covered by Sandvig but that we find critically important: those related to other disparities between researchers, incentive structures related to the access to data from companies, targets of auditing and users and their rights. We also discuss the implications these asymmetries have for algorithm auditing research such as the Western-centrism and the lack of the diversity of perspectives. While we focus on the field of algorithm auditing specifically, we suggest some of the discussed asymmetries affect Computational Social Science more generally and need to be reflected on and addressed. | 翻訳日:2023-02-19 14:13:41 公開日:2023-02-16 |
# モバイル決済データを用いた性別・政治関係の予測 Predicting Gender and Political Affiliation Using Mobile Payment Data ( http://arxiv.org/abs/2302.08026v1 ) ライセンス: Link先を確認 | Ben Stobaugh, Dhiraj Murthy | (参考訳) 我々は、Venmo取引の内容に基づいて、Venmo利用者の性別や政治的関係を予測できるかどうかを評価するために、社会的支払いの未検討領域について検討する。
潜在属性検出はソーシャルメディアの研究領域でうまく適用されている。
しかし、Twitter以外のデータを使った以前の作業はいまだに荒削りだ。
また、venmoのようなモバイル決済分野を探求する研究も引き続き必要であり、データアクセスの欠如により未検討のままである。
私たちは、twitterのデータで潜在属性分析に似た方法を使うことで、機械学習アルゴリズムはvenmoユーザーの性別や政治的関係を適度な精度で予測できると仮定している。
参加者の政治観と公共のベンモ取引履歴を関連付けるクラウドソーシングトレーニングデータを,有料多作サービスを通じて収集した。
さらに,最近アクティブなユーザから2100万の公開venmoトランザクションを収集し,性別分類を行った。
次に収集したデータをTF-IDFベクタライザを介して実行し、それをサポートベクタマシン(SVM)のトレーニングに使用しました。
ハイパーパラメータトレーニングと追加機能エンジニアリングの後に、高い精度(.91)でユーザの性別を予測でき、ユーザの政治的指向(.63)をわずかに予測できた。 We explore the understudied area of social payments to evaluate whether or not we can predict the gender and political affiliation of Venmo users based on the content of their Venmo transactions. Latent attribute detection has been successfully applied in the domain of studying social media. However, there remains a dearth of previous work using data other than Twitter. There is also a continued need for studies which explore mobile payments spaces like Venmo, which remain understudied due to the lack of data access. We hypothesize that using methods similar to latent attribute analysis with Twitter data, machine learning algorithms will be able to predict gender and political affiliation of Venmo users with a moderate degree of accuracy. We collected crowdsourced training data that correlates participants' political views with their public Venmo transaction history through the paid Prolific service. Additionally, we collected 21 million public Venmo transactions from recently active users to use for gender classification. We then ran the collected data through a TF-IDF vectorizer and used that to train a support vector machine (SVM). After hyperparameter training and additional feature engineering, we were able to predict user's gender with a high level of accuracy (.91) and had modest success predicting user's political orientation (.63). | 翻訳日:2023-02-19 14:13:26 公開日:2023-02-16 |
# 効率的なXAI技術:分類学的調査 Efficient XAI Techniques: A Taxonomic Survey ( http://arxiv.org/abs/2302.03225v2 ) ライセンス: Link先を確認 | Yu-Neng Chuang, Guanchu Wang, Fan Yang, Zirui Liu, Xuanting Cai, Mengnan Du, and Xia Hu | (参考訳) 近年、現実世界のアプリケーションに説明可能な人工知能(XAI)アルゴリズムを配置する必要性が高まっている。
しかし、従来のXAI手法は一般的に高い計算複雑性の問題に悩まされており、現実のシナリオの時間的要求を満たすためにリアルタイムシステムのデプロイを妨げている。
XAI手法の効率を改善するために多くのアプローチが提案されているが、その成果と課題の包括的理解はいまだに必要である。
この目的のために,本稿では,効率的なXAIのレビューを行う。
具体的には,xai加速度の既存手法を非償却法と効率的な償却法に分類する。
効率的な非amortizedメソッドは、個々のインスタンスに対してデータ中心またはモデル中心の加速度にフォーカスする。
対照的に、償却法は、予測的、生成的、または強化的なフレームワークに従って、モデル説明の統一的な分布を学ぶことに集中し、複数のモデル説明を迅速に導き出す。
また,効率的なxaiパイプラインの限界を,トレーニングフェーズ,デプロイメントフェーズ,利用シナリオの観点から分析した。
最後に,XAIアクセラレーション手法を現実のシナリオに展開する上での課題,忠実性と効率性のトレードオフを克服すること,異なるアクセラレーション手法の選択について要約する。 Recently, there has been a growing demand for the deployment of Explainable Artificial Intelligence (XAI) algorithms in real-world applications. However, traditional XAI methods typically suffer from a high computational complexity problem, which discourages the deployment of real-time systems to meet the time-demanding requirements of real-world scenarios. Although many approaches have been proposed to improve the efficiency of XAI methods, a comprehensive understanding of the achievements and challenges is still needed. To this end, in this paper we provide a review of efficient XAI. Specifically, we categorize existing techniques of XAI acceleration into efficient non-amortized and efficient amortized methods. The efficient non-amortized methods focus on data-centric or model-centric acceleration upon each individual instance. In contrast, amortized methods focus on learning a unified distribution of model explanations, following the predictive, generative, or reinforcement frameworks, to rapidly derive multiple model explanations. We also analyze the limitations of an efficient XAI pipeline from the perspectives of the training phase, the deployment phase, and the use scenarios. Finally, we summarize the challenges of deploying XAI acceleration methods to real-world scenarios, overcoming the trade-off between faithfulness and efficiency, and the selection of different acceleration methods. | 翻訳日:2023-02-19 14:04:01 公開日:2023-02-16 |
# 市民のためのプライバシーダッシュボードと小データホルダーのためのGDPRサービス:文献レビュー Privacy Dashboards for Citizens and GDPR Services for Small Data Holders: A Literature Review ( http://arxiv.org/abs/2302.00325v3 ) ライセンス: Link先を確認 | Nico Puhlmann, Alex Wiesmaier, Andreas Heinemann | (参考訳) 市民はgdprで多くの権利を得ており、例えば個人データのコピーを取得する権利がある。
しかし実際には、これは市民と小さなデータ保有者にとって問題に直面している。
我々は、市民のためのプライバシーダッシュボードと小データ保有者のためのGDPRサービスという形で救済を約束するソリューションに関する文献レビューを行う。
カバーされたトピックは分析され、分類され、比較される。
これは、市民がGDPRの権利を行使し、小さなデータ保有者がGDPRの義務を遵守できるようにするためのステップである。 Citizens have gained many rights with the GDPR, e.g. the right to get a copy of their personal data. In practice, however, this is fraught with problems for citizens and small data holders. We present a literature review on solutions promising relief in the form of privacy dashboards for citizens and GDPR services for small data holders. Covered topics are analyzed, categorized and compared. This is ought to be a step towards both enabling citizens to exercise their GDPR rights and supporting small data holders to comply with their GDPR duties. | 翻訳日:2023-02-19 13:59:30 公開日:2023-02-16 |
# 自動コンテンツモデレーションはコミュニティガイドラインの適合性を高める Automated Content Moderation Increases Adherence to Community Guidelines ( http://arxiv.org/abs/2210.10454v3 ) ライセンス: Link先を確認 | Manoel Horta Ribeiro, Justin Cheng, Robert West | (参考訳) オンラインソーシャルメディアプラットフォームは、自動モデレーションシステムを使用して、ルールを破るコンテンツの可視性を排除または削減する。
以前の研究では手動コンテンツモデレーションの重要性が記録されているが、自動コンテンツモデレーションの影響はほとんど分かっていない。
ここでは、Facebookコメントの大規模な調査(n=412M)において、ファジィ回帰不連続設計を使用して、自動コンテンツモデレーションがその後のルール破りの行動(コメントの隠蔽/削除回数)とエンゲージメント(追加コメントの数)に与える影響を測定しました。
その結果,短いスレッド(20以上のコメント)では,コメント削除が後続のルール破断動作を減少させ(20以下のコメント),介入によって会話が脱線することを防ぐことが示唆された。
さらに、削除がユーザーのその後のルール破壊行動に与える影響は、概してコメントを減らす効果よりも長く持続し、ユーザーはルール破壊を妨げられたが、コメントを妨げなかったことを示唆した。
対照的に、隠れている(削除するよりも)コンテンツは小さく、統計的に重要でない効果があった。
この結果から,自動コンテンツモデレーションはコミュニティガイドラインの遵守を高めることが示唆された。 Online social media platforms use automated moderation systems to remove or reduce the visibility of rule-breaking content. While previous work has documented the importance of manual content moderation, the effects of automated content moderation remain largely unknown. Here, in a large study of Facebook comments (n=412M), we used a fuzzy regression discontinuity design to measure the impact of automated content moderation on subsequent rule-breaking behavior (number of comments hidden/deleted) and engagement (number of additional comments posted). We found that comment deletion decreased subsequent rule-breaking behavior in shorter threads (20 or fewer comments), even among other participants, suggesting that the intervention prevented conversations from derailing. Further, the effect of deletion on the affected user's subsequent rule-breaking behavior was longer-lived than its effect on reducing commenting in general, suggesting that users were deterred from rule-breaking but not from commenting. In contrast, hiding (rather than deleting) content had small and statistically insignificant effects. Our results suggest that automated content moderation increases adherence to community guidelines. | 翻訳日:2023-02-19 11:54:13 公開日:2023-02-16 |
# 機械生成テキスト:脅威モデルと検出方法の総合的な調査 Machine Generated Text: A Comprehensive Survey of Threat Models and Detection Methods ( http://arxiv.org/abs/2210.07321v3 ) ライセンス: Link先を確認 | Evan Crothers, Nathalie Japkowicz, Herna Viktor | (参考訳) 機械生成テキストは、人間の著作テキストと区別することがますます困難になっている。
強力なオープンソースモデルは無償で利用可能であり、生成モデルへのアクセスを民主化するユーザフレンドリーなツールが急増している。
この調査の最初のプレプリントの直後にリリースされたChatGPTは、これらの傾向を象徴している。
最先端の自然言語生成(NLG)システムの大きなポテンシャルは、乱用のための多くの道によって誘惑されている。
機械生成テキストの検出は、NLGモデルの悪用を減らすための重要な対策であり、重要な技術的課題と多くのオープンな問題がある。
両方を含む調査を行います。
1)現代のnlgシステムによる脅威モデルの広範囲な分析、および
2) 機械が生成したテキスト検出手法の最も完全なレビュー。
この調査は、マシンが生成したテキストをサイバーセキュリティと社会的コンテキスト内に配置し、最も重要な脅威モデルに対処する将来の作業のための強力なガイダンスを提供し、公正性、堅牢性、説明責任を通じて、検出システム自体が信頼性を実証する。 Machine generated text is increasingly difficult to distinguish from human authored text. Powerful open-source models are freely available, and user-friendly tools that democratize access to generative models are proliferating. ChatGPT, which was released shortly after the first preprint of this survey, epitomizes these trends. The great potential of state-of-the-art natural language generation (NLG) systems is tempered by the multitude of avenues for abuse. Detection of machine generated text is a key countermeasure for reducing abuse of NLG models, with significant technical challenges and numerous open problems. We provide a survey that includes both 1) an extensive analysis of threat models posed by contemporary NLG systems, and 2) the most complete review of machine generated text detection methods to date. This survey places machine generated text within its cybersecurity and social context, and provides strong guidance for future work addressing the most critical threat models, and ensuring detection systems themselves demonstrate trustworthiness through fairness, robustness, and accountability. | 翻訳日:2023-02-19 11:40:33 公開日:2023-02-16 |
# モビリティに基づくcovid-19症例予測モデルの公平性評価 A fairness assessment of mobility-based COVID-19 case prediction models ( http://arxiv.org/abs/2210.03901v2 ) ライセンス: Link先を確認 | Abdolmajid Erfani, Vanessa Frias-Martinez | (参考訳) 新型コロナウイルスの感染拡大を受けて、人間の移動度の分析と測定がますます重要になっている。
時間とともに時空間的傾向を調査し、他の変数との関係を調べ、非薬理学的介入(NPI)を評価し、移動データを用いてCOVID-19を予測またはシミュレーションした。
一般公開されたモビリティデータのメリットにもかかわらず、重要な疑問は解決されていない。モビリティデータを使用しているモデルは、人口層間で公平に動作しているか?
予測モデルのトレーニングに使用されるモビリティデータのバイアスは、一部の人口集団において不当に正確でない予測をもたらす可能性があると仮定する。
この仮説を検証するために,safegraphデータを用いて,米国の郡レベルでのモビリティに基づく2つの感染予測モデルを適用し,モデル性能と社会疫学的特徴を相関させた。
調査の結果、特定の人口動態特性に対するモデル性能には体系的なバイアスがあることが判明した。
特に、モデルは大きく、高度に教育され、裕福で、若く、都会的で、黒人が支配していない郡を好む傾向にある。
我々は、現在多くの予測モデルで使われているモビリティデータは、高齢、貧弱、非白人、そして教育を受けていない地域に関する情報を収集する傾向にあり、その結果、これらの地域でのCOVID-19予測の正確性に悪影響を及ぼすと仮定する。
この研究は最終的に、人口集団間での移動パターンの正確な表現を可能にするデータ収集とサンプリングアプローチの改善の必要性を指摘する。 In light of the outbreak of COVID-19, analyzing and measuring human mobility has become increasingly important. A wide range of studies have explored spatiotemporal trends over time, examined associations with other variables, evaluated non-pharmacologic interventions (NPIs), and predicted or simulated COVID-19 spread using mobility data. Despite the benefits of publicly available mobility data, a key question remains unanswered: are models using mobility data performing equitably across demographic groups? We hypothesize that bias in the mobility data used to train the predictive models might lead to unfairly less accurate predictions for certain demographic groups. To test our hypothesis, we applied two mobility-based COVID infection prediction models at the county level in the United States using SafeGraph data, and correlated model performance with sociodemographic traits. Findings revealed that there is a systematic bias in models performance toward certain demographic characteristics. Specifically, the models tend to favor large, highly educated, wealthy, young, urban, and non-black-dominated counties. We hypothesize that the mobility data currently used by many predictive models tends to capture less information about older, poorer, non-white, and less educated regions, which in turn negatively impacts the accuracy of the COVID-19 prediction in these regions. Ultimately, this study points to the need of improved data collection and sampling approaches that allow for an accurate representation of the mobility patterns across demographic groups. | 翻訳日:2023-02-19 11:35:53 公開日:2023-02-16 |
# 制約付き最適化のためのOmnipredictors Omnipredictors for Constrained Optimization ( http://arxiv.org/abs/2209.07463v2 ) ライセンス: Link先を確認 | Lunjia Hu, Inbal Livni-Navon, Omer Reingold, Chutong Yang | (参考訳) オムニプレクタ(Gopalan, Kalai, Reingold, Sharan, Wieder ITCS 2021)の概念は、損失最小化のための新しいパラダイムを提唱した。
既知の損失関数に基づいて予測器を学習する代わりに、Omnipredictorは、クラス$\mathcal C$における仮説の損失と比較して、損失関数のリッチなファミリーのいずれかを最小化するために、後処理が簡単である。
そのような全方位予測子は、アルゴリズム的公正文学からの多重校正の概念により(すべての凸関数とリプシッツ損失関数に対して)存在することが示されている。
本稿では,制約付き最適化のためのomnipredictorを導入し,その複雑性と影響について検討する。
私たちが導入する概念により、学習者は、後に割り当てられる損失関数と、これらの制約を定義するために使用されるサブポピュレーションが分かっている限り、後から課される制約を知らないことができる。
本稿では,制約付き最適化問題に対するオムニプレクタの獲得方法を示す。
また、これを用いた制約が群フェアネス概念と呼ばれる場合、この概念の意味についても検討する。 The notion of omnipredictors (Gopalan, Kalai, Reingold, Sharan and Wieder ITCS 2021), suggested a new paradigm for loss minimization. Rather than learning a predictor based on a known loss function, omnipredictors can easily be post-processed to minimize any one of a rich family of loss functions compared with the loss of hypotheses in a class $\mathcal C$. It has been shown that such omnipredictors exist and are implied (for all convex and Lipschitz loss functions) by the notion of multicalibration from the algorithmic fairness literature. In this paper, we introduce omnipredictors for constrained optimization and study their complexity and implications. The notion that we introduce allows the learner to be unaware of the loss function that will be later assigned as well as the constraints that will be later imposed, as long as the subpopulations that are used to define these constraints are known. We show how to obtain omnipredictors for constrained optimization problems, relying on appropriate variants of multicalibration. We also investigate the implications of this notion when the constraints used are so-called group fairness notions. | 翻訳日:2023-02-19 11:11:16 公開日:2023-02-16 |
# 絡み合い不可逆チャネル Entanglement-invertible channels ( http://arxiv.org/abs/2204.04493v3 ) ライセンス: Link先を確認 | Dominic Verdon | (参考訳) ヴェルナー2001(Werner 2001)は、全ての厳密な量子テレポーテーションと高密度な符号化スキームを分類し、それらがユニタリエラーベースに対応することを示した。
量子系はテレポートされ、絡み合った資源は次元 d でなければならないし、測定結果は d^2 でなければならない。
本研究では,この分類を一般化して,次元制限を完全に取り除き,その課題を解き明かした。
実際には、テレポーテーションや密度の高い符号化スキームだけでなく、絡み合った可逆チャネルも分類する。
これらは有限次元 C*-代数の間のチャネルであり、絡み合った資源状態の助けを借りて可逆であり、チャネルの通常の可逆性を一般化する。
Wernerの分類では、タイトなテレポーテーションと密な符号化スキームの間の客観的な対応が示され、アリスとボブの操作を交換すると、テレポーテーションスキームは密な符号化スキームに変換される。
この性質はチャネルの通常の可逆性を一般化し、絡み付き可逆性(entanglement-invertibility)と呼ぶ。
エンタングルメント非可逆チャネルは、量子置換群の表現論において分類される量子コンビネータ論(Musto2018)の設定において以前に研究された量子単射であることを示す。 In a well-known result [Werner2001], Werner classified all tight quantum teleportation and dense coding schemes, showing that they correspond to unitary error bases. Here tightness is a certain dimensional restriction: the quantum system to be teleported and the entangled resource must be of dimension d, and the measurement must have d^2 outcomes. In this work we generalise this classification so as to remove the dimensional restriction altogether, thereby resolving an open problem raised in that work. In fact, we classify not just teleportation and dense coding schemes, but entanglement-reversible channels. These are channels between finite-dimensional C*-algebras which are reversible with the aid of an entangled resource state, generalising ordinary reversibility of a channel. In Werner's classification, a bijective correspondence between tight teleportation and dense coding schemes was shown: swapping Alice and Bob's operations turns a teleportation scheme into a dense coding scheme and vice versa. We observe that this property generalises ordinary invertibility of a channel; we call it entanglement-invertibility. We show that entanglement-invertible channels are precisely the quantum bijections previously studied in the setting of quantum combinatorics [Musto2018], which are classified in terms of the representation theory of the quantum permutation group. | 翻訳日:2023-02-17 18:51:07 公開日:2023-02-16 |
# グラフマッチング最適化に基づく大規模ポイントクラウド登録 Large-scale Point Cloud Registration Based on Graph Matching Optimization ( http://arxiv.org/abs/2302.05844v2 ) ライセンス: Link先を確認 | Qianliang Wu, Yaqi Shen, Guofeng Mei, Yaqing Ding, Lei Luo, Jin Xie, Jian Yang | (参考訳) ポイントクラウドの登録は、3dコンピュータビジョンにおける基本的かつ困難な問題である。
等尺変換は、剛点雲の登録において不可欠な性質であるが、既存の手法では、降圧拒絶段階においてのみ用いられる。
本稿では,登録品質向上のための特徴学習段階において,等尺変換が重要であることも強調する。
本稿では,グラフマッチング法を用いて,点特徴学習段階で制約を保存し,ポイント表現を%再定義する手法を明示的に適用した,\underline{g}raph \underline{m}atching \underline{o}ptimizationベースの\underline{net}work(略してgmonet)を提案する。
具体的には、部分グラフマッチング制約を利用してスーパーポイント(例えば、ダウンサンプリングキーポイント)とフルグラフマッチングの重複領域検出能力を向上し、詳細な重複領域での登録精度を向上する。
一方,ミニバッチサンプリングを活用し,全グラフマッチング最適化の効率を向上させる。
評価段階における高い識別点の特徴を考慮し、RANSACアプローチを用いてスキャンしたペア間の変換を推定する。
提案手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークで評価されている。
実験の結果,本手法は既存のベースラインと比較して性能が向上することが示された。 Point Clouds Registration is a fundamental and challenging problem in 3D computer vision. It has been shown that the isometric transformation is an essential property in rigid point cloud registration, but the existing methods only utilize it in the outlier rejection stage. In this paper, we emphasize that the isometric transformation is also important in the feature learning stage for improving registration quality. We propose a \underline{G}raph \underline{M}atching \underline{O}ptimization based \underline{Net}work (denoted as GMONet for short), which utilizes the graph matching method to explicitly exert the isometry preserving constraints in the point feature learning stage to improve %refine the point representation. Specifically, we %use exploit the partial graph matching constraint to enhance the overlap region detection abilities of super points ($i.e.,$ down-sampled key points) and full graph matching to refine the registration accuracy at the fine-level overlap region. Meanwhile, we leverage the mini-batch sampling to improve the efficiency of the full graph matching optimization. Given high discriminative point features in the evaluation stage, we utilize the RANSAC approach to estimate the transformation between the scanned pairs. The proposed method has been evaluated on the 3DMatch/3DLoMatch benchmarks and the KITTI benchmark. The experimental results show that our method achieves competitive performance compared with the existing state-of-the-art baselines. | 翻訳日:2023-02-17 16:33:33 公開日:2023-02-16 |
# ヘッカー思想 Heckerthoughts ( http://arxiv.org/abs/2302.05449v2 ) ライセンス: Link先を確認 | David Heckerman | (参考訳) この原稿は、スタンフォードとMicrosoft Researchでの私の仕事に関する技術的な回想録です。
機械学習と人工知能の中心となる基本的な概念、これらの概念の応用、そしてそれらの創造の背後にある物語が含まれている。 This manuscript is technical memoir about my work at Stanford and Microsoft Research. Included are fundamental concepts central to machine learning and artificial intelligence, applications of these concepts, and stories behind their creation. | 翻訳日:2023-02-17 16:33:08 公開日:2023-02-16 |
# バッチバイナリ分類を超えた量子学習理論 Quantum Learning Theory Beyond Batch Binary Classification ( http://arxiv.org/abs/2302.07409v2 ) ライセンス: Link先を確認 | Preetham Mohan, Ambuj Tewari | (参考訳) Arunachalam と de Wolf (2018) は、ブール関数の量子バッチ学習のサンプル複雑性が、実現可能で不可知的な設定において、対応する古典的なサンプル複雑度と同じ形式と順序を持つことを示した。
本稿では、これを表向きは意外なことに、バッチマルチクラス学習、オンラインブール学習、オンラインマルチクラス学習に拡張する。
オンライン学習の結果について、我々はまずダウィドとテワリの古典的モデル(2022年)の適応的逆変種を考える。
次に、量子実例を用いたオンライン学習の最初の(私たちの知る限りの)モデルを紹介します。 Arunachalam and de Wolf (2018) showed that the sample complexity of quantum batch learning of boolean functions, in the realizable and agnostic settings, has the same form and order as the corresponding classical sample complexities. In this paper, we extend this, ostensibly surprising, message to batch multiclass learning, online boolean learning, and online multiclass learning. For our online learning results, we first consider an adaptive adversary variant of the classical model of Dawid and Tewari (2022). Then, we introduce the first (to the best of our knowledge) model of online learning with quantum examples. | 翻訳日:2023-02-17 16:26:14 公開日:2023-02-16 |
# 高度空気移動のためのグラフ注意マルチエージェントフリートオートノミー Graph Attention Multi-Agent Fleet Autonomy for Advanced Air Mobility ( http://arxiv.org/abs/2302.07337v2 ) ライセンス: Link先を確認 | Malintha Fernando, Ransalu Senanayake, Heeyoul Choi, Martin Swany | (参考訳) 移動貨物や乗客のための新しい交通手段として、自動運転モビリティが出現している。
しかしながら、このような艦隊調整方式は、運用範囲、容量、通信能力に異なる、急成長する艦隊規模に対応するためにスケーリングにおいて大きな課題に直面している。
本稿では,商用機動車両に固有の不均一性と自己関心を考慮に入れた航空車両エージェントの艦隊を調整するための,部分的に観測可能な高度空力ゲームの概念を紹介する。
本稿では,移動システム内のエージェント間関係から生じる一般化可能な確率的ポリシを構築するために,新しい異種グラフ注目型エンコーダデコーダ(HetGAT Enc-Dec)ニューラルネットワークを提案する。
我々は、深層多エージェント強化学習を活用して政策を訓練し、その局地的な観察によるエージェントの分散意思決定を可能にする。
大規模な実験を通じて,HetGAT Enc-Dec ポリシの下で運用されている艦隊は,オンデマンドモビリティネットワークにおいて,最も高い艦隊報酬と充足率を達成することにより,他の最先端のグラフニューラルネットワークポリシよりも優れていることを示す。 Autonomous mobility is emerging as a new mode of urban transportation for moving cargo and passengers. However, such fleet coordination schemes face significant challenges in scaling to accommodate fast-growing fleet sizes that vary in their operational range, capacity, and communication capabilities. We introduce the concept of partially observable advanced air mobility games to coordinate a fleet of aerial vehicle agents accounting for their heterogeneity and self-interest inherent to commercial mobility fleets. We propose a novel heterogeneous graph attention-based encoder-decoder (HetGAT Enc-Dec) neural network to construct a generalizable stochastic policy stemming from the inter- and intra-agent relations within the mobility system. We train our policy by leveraging deep multi-agent reinforcement learning, allowing decentralized decision-making for the agents using their local observations. Through extensive experimentation, we show that the fleets operating under the HetGAT Enc-Dec policy outperform other state-of-the-art graph neural network-based policies by achieving the highest fleet reward and fulfillment ratios in an on-demand mobility network. | 翻訳日:2023-02-17 16:26:04 公開日:2023-02-16 |
# 心理学研究における人工知能 Artificial intelligence in psychology research ( http://arxiv.org/abs/2302.07267v2 ) ライセンス: Link先を確認 | Peter S. Park, Philipp Schoenegger and Chongyang Zhu | (参考訳) 大規模言語モデルは機能的に大きく成長した。
このようなAIシステムの潜在的な応用の1つは、完全な実験的制御が現在不可能であり、大規模な代表的データセットの収集が一般的に高価である社会科学におけるデータ収集をサポートすることである。
本稿では, OpenAI の Text-davinci-003 モデルである GPT3.5 を用いて, Many Labs 2 複製プロジェクト (Klein et al., 2018) の14 つの研究を再現した。
分析可能な10の研究では、合計10,136の回答を収集し、それぞれがgpt3.5を実行し、それぞれをテキストとして入力した。
GPT3.5ベースのサンプルは、Multi Labs 2の結果の30%と、Multi Labs 2の結果の30%を複製しています。
また、対応する人間と異なり、gpt3.5は、極端な均質性を持ついくつかの調査質問に対して、異なるランの応答の変動がゼロであるなら、仮説上のai主導の未来は、ある方法では思考の多様性が減少する可能性があるという懸念に対して答えている。
本研究の結果は,大規模言語モデル心理学研究が実現可能であることを示唆するものであるが,人間の場合に直接一般化するものではない。
それでも、AIベースのデータ収集は、最終的には経験的社会科学において実現可能で経済的に関係のある方法となり、その能力と応用を中心的に理解する。 Large Language Models have vastly grown in capabilities. One potential application of such AI systems is to support data collection in the social sciences, where perfect experimental control is currently unfeasible and the collection of large, representative datasets is generally expensive. In this paper, we re-replicate 14 studies from the Many Labs 2 replication project (Klein et al., 2018) with OpenAI's text-davinci-003 model, colloquially known as GPT3.5. For the 10 studies that we could analyse, we collected a total of 10,136 responses, each of which was obtained by running GPT3.5 with the corresponding study's survey inputted as text. We find that our GPT3.5-based sample replicates 30% of the original results as well as 30% of the Many Labs 2 results, although there is heterogeneity in both these numbers (as we replicate some original findings that Many Labs 2 did not and vice versa). We also find that unlike the corresponding human subjects, GPT3.5 answered some survey questions with extreme homogeneity$\unicode{x2013}$with zero variation in different runs' responses$\unicode{x2013}$raising concerns that a hypothetical AI-led future may in certain ways be subject to a diminished diversity of thought. Overall, while our results suggest that Large Language Model psychology studies are feasible, their findings should not be assumed to straightforwardly generalise to the human case. Nevertheless, AI-based data collection may eventually become a viable and economically relevant method in the empirical social sciences, making the understanding of its capabilities and applications central. | 翻訳日:2023-02-17 16:25:41 公開日:2023-02-16 |
# 動的グラフ表現学習のための深い確率的時空間フレームワークと脳障害同定への応用 A Deep Probabilistic Spatiotemporal Framework for Dynamic Graph Representation Learning with Application to Brain Disorder Identification ( http://arxiv.org/abs/2302.07243v2 ) ライセンス: Link先を確認 | Junn Yong Loo, Sin-Yee Yap, Fuad Noman, Raphael CW Phan, Chee-Ming Ting | (参考訳) 機能的接続(FC)を用いた脳コネクトーム分類におけるパターン認識手法の最近の応用は,脳コネクトームの非ユークリッドトポロジーや因果ダイナミクスを無視している。
本稿では,自閉症スペクトラム障害(asd)に対する動的脳fcネットワークの時間変化トポロジー構造を学習するために,変分ベイズ(dsvb)に基づく深部確率的時空間的枠組みを提案する。
提案手法では,空間認識型リカレントニューラルネットワークを用いて,動的fcネットワークにまたがるリッチな時空間パターンをキャプチャし,その学習パターンを主題レベルの分類に活用する。
限られたトレーニングデータセットに対するモデル過適合を克服するために、未知の脳ネットワークにうまく一般化するグラフ埋め込みモデルを学ぶために、敵のトレーニング戦略を導入する。
ABIDE静止状態機能型磁気共鳴画像データセットの評価により,提案手法はASDの同定における最先端手法よりも優れていた。
dsvbを用いた動的fc解析により、ネットワークプロファイルと脳状態のスイッチングダイナミクスにおけるasdと健全な制御との明らかなグループ差が明らかになった。 Recent applications of pattern recognition techniques on brain connectome classification using functional connectivity (FC) neglect the non-Euclidean topology and causal dynamics of brain connectivity across time. In this paper, a deep probabilistic spatiotemporal framework developed based on variational Bayes (DSVB) is proposed to learn time-varying topological structures in dynamic brain FC networks for autism spectrum disorder (ASD) identification. The proposed framework incorporates a spatial-aware recurrent neural network to capture rich spatiotemporal patterns across dynamic FC networks, followed by a fully-connected neural network to exploit these learned patterns for subject-level classification. To overcome model overfitting on limited training datasets, an adversarial training strategy is introduced to learn graph embedding models that generalize well to unseen brain networks. Evaluation on the ABIDE resting-state functional magnetic resonance imaging dataset shows that our proposed framework significantly outperformed state-of-the-art methods in identifying ASD. Dynamic FC analyses with DSVB learned embeddings reveal apparent group difference between ASD and healthy controls in network profiles and switching dynamics of brain states. | 翻訳日:2023-02-17 16:25:13 公開日:2023-02-16 |
# BLIAM:Synergistic Drug Combination Predictionのための文献データ合成 BLIAM: Literature-based Data Synthesis for Synergistic Drug Combination Prediction ( http://arxiv.org/abs/2302.06860v2 ) ライセンス: Link先を確認 | Cai Yang, Addie Woicik, Hoifung Poon, Sheng Wang | (参考訳) 科学文献コーパスで事前訓練された言語モデルは、下流のアプリケーションに高品質な特徴表現を提供することによって、科学的発見を大幅に進歩させた。
しかしながら、これらの機能は解釈できないことが多いため、ドメインの専門家に限られた洞察を与えることができる。
言語モデルから特徴を得る代わりに、文献に基づくデータ合成アプローチであるBLIAMを提案し、下流アプリケーションに対して解釈可能でモデルに依存しないトレーニングデータポイントを直接生成する。
BLIAMのキーとなるアイデアは、既存のトレーニングデータを使用してプロンプトを作成し、これらのプロンプトを使用して新しいデータポイントを合成することだ。
BLIAMはこれらの2つのステップを反復的に実行し、新しいデータポイントはより情報的なプロンプトを定義し、新しいプロンプトはより正確なデータポイントを合成する。
特に、下流アプリケーションでテストデータポイントのラベルがすでに言語モデルコーパスで言及されているため、文献ベースのデータ拡張はデータ漏洩をもたらす可能性がある。
バイオメディカル言語モデルが訓練された後に公開された大規模薬物組み合わせ探索データセットであるGDSC-comboを紹介する。
bliamは,この厳密なデータ分割設定において,非提供アプローチやマニュアルプロンプトを大きく上回っていることがわかった。
BLIAMはさらに、生体医学実験では測定されなかった新しい薬物や細胞株のデータポイントの合成に使用できる。
予測性能の期待に加えて、BLIAMによって合成されたデータポイントは解釈可能で、モデルに依存しないため、in vitro実験でのシリコ増強が可能となる。 Language models pre-trained on scientific literature corpora have substantially advanced scientific discovery by offering high-quality feature representations for downstream applications. However, these features are often not interpretable, and thus can reveal limited insights to domain experts. Instead of obtaining features from language models, we propose BLIAM, a literature-based data synthesis approach to directly generate training data points that are interpretable and model-agnostic to downstream applications. The key idea of BLIAM is to create prompts using existing training data and then use these prompts to synthesize new data points. BLIAM performs these two steps iteratively as new data points will define more informative prompts and new prompts will in turn synthesize more accurate data points. Notably, literature-based data augmentation might introduce data leakage since labels of test data points in downstream applications might have already been mentioned in the language model corpus. To prevent such leakage, we introduce GDSC-combo, a large-scale drug combination discovery dataset that was published after the biomedical language model was trained. We found that BLIAM substantially outperforms a non-augmented approach and manual prompting in this rigorous data split setting. BLIAM can be further used to synthesize data points for novel drugs and cell lines that were not even measured in biomedical experiments. In addition to the promising prediction performance, the data points synthesized by BLIAM are interpretable and model-agnostic, enabling in silico augmentation for in vitro experiments. | 翻訳日:2023-02-17 16:24:31 公開日:2023-02-16 |
# 百万単位の依存をモデル化する時系列モデルの統一的視点 A Unified View of Long-Sequence Models towards Modeling Million-Scale Dependencies ( http://arxiv.org/abs/2302.06218v3 ) ライセンス: Link先を確認 | Hongyu H\`e, Marko Kabic | (参考訳) その概念以来、トランスフォーマーは、高速トレーニングと優れたパフォーマンスのために、nlp、画像分類、ビデオ/オーディオ処理など、多くのタスクで伝統的なシーケンスモデルを引き継いでいます。
利点の多くは、位置エンコーディングとマルチヘッドアテンションに起因する。
しかし、Transformerは、時間と空間の両面で、コンテキスト長でスケールされた二次的な複雑さのために、長距離依存の学習に不足している。
その結果、過去5年間にトランスフォーマーをより効率的にするための無数の方法が提案されてきた。
本研究はまず, 従来の解法を, 完全数学的定式化の観点から, 時系列モデリングと比較するものである。
具体的には,トークン混合の共通性を考えると,統一テンプレートを用いてそれらを要約する。
ベンチマークを通じて、長いコンテキストの長さは、アプリケーションに依存しながらもパフォーマンスを向上し、従来のトランスフォーマーモデルは、長距離依存の利点を生かすために不足していることを実証する。
次に,大容量のスパースモデルに着想を得て,百万の依存関係を扱うための機械学習システムを提案する。
概念実証として,本システムの本質的構成要素である分散マルチヘッドアテンションの性能を評価する。
我々は,GeForce RTX 4090 GPUを4台使用して,40ドル近いアテンション計算を,バニラ型マルチヘッドアテンション機構と比較してスケールアップ可能であることを示す。
この研究は、百万規模の依存関係をモデリングするための重要なステップだと考えています。 Ever since their conception, Transformers have taken over traditional sequence models in many tasks, such as NLP, image classification, and video/audio processing, for their fast training and superior performance. Much of the merit is attributable to positional encoding and multi-head attention. However, Transformers fall short in learning long-range dependencies mainly due to the quadratic complexity scaled with context length, in terms of both time and space. Consequently, over the past five years, a myriad of methods has been proposed to make Transformers more efficient. In this work, we first take a step back, study and compare existing solutions to long-sequence modeling in terms of their pure mathematical formulation. Specifically, we summarize them using a unified template, given their shared nature of token mixing. Through benchmarks, we then demonstrate that long context length does yield better performance, albeit application-dependent, and traditional Transformer models fall short in taking advantage of long-range dependencies. Next, inspired by emerging sparse models of huge capacity, we propose a machine learning system for handling million-scale dependencies. As a proof of concept, we evaluate the performance of one essential component of this system, namely, the distributed multi-head attention. We show that our algorithm can scale up attention computation by almost $40\times$ using four GeForce RTX 4090 GPUs, compared to vanilla multi-head attention mechanism. We believe this study is an instrumental step towards modeling million-scale dependencies. | 翻訳日:2023-02-17 16:23:38 公開日:2023-02-16 |
# 解釈可能な科学機械学習のためのマルチスケールグラフニューラルネットワークオートエンコーダ Multiscale Graph Neural Network Autoencoders for Interpretable Scientific Machine Learning ( http://arxiv.org/abs/2302.06186v2 ) ライセンス: Link先を確認 | Shivam Barwey, Varun Shankar, Romit Maulik | (参考訳) この研究の目的は、オートエンコーダベースのモデルの2つの制限、潜在空間解釈可能性と非構造化メッシュとの互換性に対処することである。
これは、複雑な流体流れのアプリケーションのデモを含む、新しいグラフニューラルネットワーク(GNN)自動エンコーディングアーキテクチャの開発によって達成される。
解釈可能性の第1の目標に対処するため、gnnオートエンコーダは適応グラフ削減手順により符号化ステージにおける数ノードの削減を実現する。
この削減手法は基本的に、フローフィールド条件付きノードサンプリングとセンサ識別に相当し、フローフィールド再構成タスクに適した解釈可能な潜在グラフ表現を、いわゆるマスクフィールドの形で生成する。
これらのマスクされたフィールドは
(a)ある潜在グラフが活発な物理空間のどこにあるかを視覚化し、
b) 領域内の非定常流れの特徴(再循環ゾーン、せん断層など)の時間的変化に応じて、潜在グラフ接続の時間的変化を解釈する。
非構造化メッシュ互換性の目標に対処するために、オートエンコーディングアーキテクチャは、様々な長さスケールでノード近傍間で情報交換をモデル化する一連のマルチスケールメッセージパッシング(MMP)層を利用する。
学習可能な粗い操作で標準の単一スケールメッセージパッシングを拡張するMMP層は、デコーダにより、マスクされたフィールド内の特定領域からのフローフィールドをより効率的に再構築することができる。
高レイノルズ数でのOpenFOAMフローソルバを用いた逆向きステップ(BFS)フロー構成において,大規模シミュレーションから得られた非構造化スナップショットデータを用いて,種々のモデル設定のためのオートエンコーダによって生成された潜時グラフの解析を行った。 The goal of this work is to address two limitations in autoencoder-based models: latent space interpretability and compatibility with unstructured meshes. This is accomplished here with the development of a novel graph neural network (GNN) autoencoding architecture with demonstrations on complex fluid flow applications. To address the first goal of interpretability, the GNN autoencoder achieves reduction in the number nodes in the encoding stage through an adaptive graph reduction procedure. This reduction procedure essentially amounts to flowfield-conditioned node sampling and sensor identification, and produces interpretable latent graph representations tailored to the flowfield reconstruction task in the form of so-called masked fields. These masked fields allow the user to (a) visualize where in physical space a given latent graph is active, and (b) interpret the time-evolution of the latent graph connectivity in accordance with the time-evolution of unsteady flow features (e.g. recirculation zones, shear layers) in the domain. To address the goal of unstructured mesh compatibility, the autoencoding architecture utilizes a series of multi-scale message passing (MMP) layers, each of which models information exchange among node neighborhoods at various lengthscales. The MMP layer, which augments standard single-scale message passing with learnable coarsening operations, allows the decoder to more efficiently reconstruct the flowfield from the identified regions in the masked fields. Analysis of latent graphs produced by the autoencoder for various model settings are conducted using using unstructured snapshot data sourced from large-eddy simulations in a backward-facing step (BFS) flow configuration with an OpenFOAM-based flow solver at high Reynolds numbers. | 翻訳日:2023-02-17 16:23:11 公開日:2023-02-16 |
# TIGER: 再起動を組み込んだテンポラルインタラクショングラフ TIGER: Temporal Interaction Graph Embedding with Restarts ( http://arxiv.org/abs/2302.06057v2 ) ライセンス: Link先を確認 | Yao Zhang, Yun Xiong, Yongxiang Liao, Yiheng Sun, Yucheng Jin, Xuehao Zheng, Yangyong Zhu | (参考訳) 時間的相互作用グラフ(TIG)は、Eコマースやソーシャルネットワークなどの分野で広く使われている。
時間とともに変化する動的ノード埋め込みをよりよく学ぶために、研究者はtigsのための一連のテンポラリグラフニューラルネットワークを提案した。
しかし、時間的および構造的依存関係が絡み合ったため、既存のメソッドはノード表現が最新であることを保証するために、時系列的に連続的にイベントのシーケンスを処理する必要がある。
これにより既存のモデルの並列化が防止され、産業アプリケーションにおける柔軟性が低下する。
本稿では,TIG埋め込みモデルとして,任意のタイムスタンプで再起動可能なTIGERを提案する。
ノード表現の温かい初期化として機能する代理表現を生成する再起動モジュールを導入する。
複数のタイムスタンプから同時に再起動することで、シーケンスを複数のチャンクに分割し、自然にモデルの並列化を可能にする。
さらに, 単一メモリユニットを用いた従来のモデルとは対照的に, 周辺情報をうまく活用し, 安定化問題を緩和するデュアルメモリモジュールを導入する。
4つの公開データセットと1つの産業データセットに関する広範な実験を行い,本研究の有効性と効率を検証した。 Temporal interaction graphs (TIGs), consisting of sequences of timestamped interaction events, are prevalent in fields like e-commerce and social networks. To better learn dynamic node embeddings that vary over time, researchers have proposed a series of temporal graph neural networks for TIGs. However, due to the entangled temporal and structural dependencies, existing methods have to process the sequence of events chronologically and consecutively to ensure node representations are up-to-date. This prevents existing models from parallelization and reduces their flexibility in industrial applications. To tackle the above challenge, in this paper, we propose TIGER, a TIG embedding model that can restart at any timestamp. We introduce a restarter module that generates surrogate representations acting as the warm initialization of node representations. By restarting from multiple timestamps simultaneously, we divide the sequence into multiple chunks and naturally enable the parallelization of the model. Moreover, in contrast to previous models that utilize a single memory unit, we introduce a dual memory module to better exploit neighborhood information and alleviate the staleness problem. Extensive experiments on four public datasets and one industrial dataset are conducted, and the results verify both the effectiveness and the efficiency of our work. | 翻訳日:2023-02-17 16:22:44 公開日:2023-02-16 |
# グラフトランスフォーマを用いた生成逆向ネットワークを用いた薬物候補分子のターゲット特異的 de novo 設計 Target Specific De Novo Design of Drug Candidate Molecules with Graph Transformer-based Generative Adversarial Networks ( http://arxiv.org/abs/2302.07868v2 ) ライセンス: Link先を確認 | Atabey \"Unl\"u, Elif \c{C}evrim, Ahmet Sar{\i}g\"un, Hayriye \c{C}elikbilek, Heval Ata\c{s} G\"uvenilir, Altay Koya\c{s}, Deniz Cansen Kahraman, Abdurrahman Ol\u{g}a\c{c}, Ahmet Rifaio\u{g}lu, Tunca Do\u{g}an | (参考訳) 新規薬物候補分子の発見は、薬物開発における最も基本的で重要なステップの1つである。
確率分布を与えられた合成データを生成する生成的深層学習モデルは、部分的に知られている空間から完全に新しいサンプルを選択するために開発された。
生成モデルは、デノボ分子を設計するための高い可能性を提供するが、それらが実生活の薬物開発パイプラインで有用になるためには、これらのモデルは、この分野で次のステップであるターゲット特異的分子を設計できるべきである。
本研究では,選択された標的タンパク質と相互作用する薬物候補分子のデノボ設計のための薬物遺伝子を提案する。
提案システムは, 化合物とタンパク質の構造をグラフとして表現し, グラフ変換器からなる2つの生成逆数ネットワークを直列接続して処理する。
医薬品は、ChEMBLと標的特異的な生物活性分子からの大量の化合物のデータセットを用いて訓練され、AKT1タンパク質に対して効果的で特異的な阻害分子を設計する。
基本的なベンチマークでは、薬物発生モデルは他の方法と競合するか、より良い性能を持つ。
ターゲット特異的な生成性能を評価するため,分子ドッキングと深層学習に基づく生物活性予測を用いてシリコ解析を行った。
以上の結果から,de novo分子はakt1タンパク質構造と相互作用する可能性が高いことが示唆された。
ドラッグジェンは完全に新規で効果的な標的特異的な薬物候補分子を創薬可能なタンパク質、与えられた標的特徴と実験的な生物活性のデータセットのために設計することができる。
DrugGENのコードベース、データセット、結果、トレーニングされたモデルはhttps://github.com/HUBioDataLab/DrugGENで入手できる。 Discovering novel drug candidate molecules is one of the most fundamental and critical steps in drug development. Generative deep learning models, which create synthetic data given a probability distribution, have been developed with the purpose of picking completely new samples from a partially known space. Generative models offer high potential for designing de novo molecules; however, in order for them to be useful in real-life drug development pipelines, these models should be able to design target-specific molecules, which is the next step in this field. In this study, we propose DrugGEN, for the de novo design of drug candidate molecules that interact with selected target proteins. The proposed system represents compounds and protein structures as graphs and processes them via serially connected two generative adversarial networks comprising graph transformers. DrugGEN is trained using a large dataset of compounds from ChEMBL and target-specific bioactive molecules, to design effective and specific inhibitory molecules against the AKT1 protein, which has critical importance for developing treatments against various types of cancer. On fundamental benchmarks, DrugGEN models have either competitive or better performance against other methods. To assess the target-specific generation performance, we conducted further in silico analysis with molecular docking and deep learning-based bioactivity prediction. Results indicate that de novo molecules have high potential for interacting with the AKT1 protein structure in the level of its native ligand. DrugGEN can be used to design completely novel and effective target-specific drug candidate molecules for any druggable protein, given target features and a dataset of experimental bioactivities. Code base, datasets, results and trained models of DrugGEN are available at https://github.com/HUBioDataLab/DrugGEN | 翻訳日:2023-02-17 16:16:34 公開日:2023-02-16 |
# パフォーマンス改善型コード編集の学習 Learning Performance-Improving Code Edits ( http://arxiv.org/abs/2302.07867v2 ) ライセンス: Link先を確認 | Aman Madaan, Alexander Shypula, Uri Alon, Milad Hashemi, Parthasarathy Ranganathan, Yiming Yang, Graham Neubig, Amir Yazdanbakhsh | (参考訳) ムーアの法則の弱体化は、技術産業の焦点を、継続的なパフォーマンス向上のための代替手段へとシフトさせた。
コンパイラの最適化は、プログラム効率を向上させるための標準的なツールであるが、プログラマは、より良いパフォーマンス特性でコードの作成とリファクタリングの責任を負い続けている。
本稿では,大規模言語モデル(LLM)が機能的に正しいこと,コード編集の性能向上を示唆する能力について検討する。
静的解析だけでは不可能な方法で言語モデルがそのような編集を提案できるという仮説を立てる。
本稿では,大規模なパフォーマンス改善編集データセット(PIE)をキュレートすることにより,これらの課題を考察する。
PIEにはプログラムの軌跡が含まれており、プログラマは最初の遅いバージョンから始まり、反復的にプログラムのパフォーマンスを改善する。
我々はPIEを用いて、大規模言語モデルの能力を評価し、改善する。
具体的には、PIEから10億ドル規模のTransformer-decoderモデルであるCODEGENの微調整に例を挙げる。
さらに、PIEの例を使って、数発のプロンプトを使用してOpenAIのCODEXをプロンプトします。
PIEを利用すると、CODEXとCODEGENの両方がパフォーマンス改善の編集を生成でき、C++とPythonの25%以上のプログラムでは、C++プログラムがO3最適化レベルを使用してコンパイルされた後も、2.5倍以上のスピードアップが可能であることが分かる。
重要なことは、PIEがCODEXよりもオープンソースで10倍小さいモデルであるCODEGENをCODEXの性能に匹敵するものであることを示す。
全体として、この作業はプログラマーが効率的なコードを書くのに役立つシステムやメソッドを作るための新しい扉を開く。 The waning of Moore's Law has shifted the focus of the tech industry towards alternative methods for continued performance gains. While optimizing compilers are a standard tool to help increase program efficiency, programmers continue to shoulder much responsibility in crafting and refactoring code with better performance characteristics. In this paper, we investigate the ability of large language models (LLMs) to suggest functionally correct, performance improving code edits. We hypothesize that language models can suggest such edits in ways that would be impractical for static analysis alone. We investigate these questions by curating a large-scale dataset of Performance-Improving Edits, PIE. PIE contains trajectories of programs, where a programmer begins with an initial, slower version and iteratively makes changes to improve the program's performance. We use PIE to evaluate and improve the capacity of large language models. Specifically, use examples from PIE to fine-tune multiple variants of CODEGEN, a billion-scale Transformer-decoder model. Additionally, we use examples from PIE to prompt OpenAI's CODEX using a few-shot prompting. By leveraging PIE, we find that both CODEX and CODEGEN can generate performance-improving edits, with speedups of more than 2.5x for over 25% of the programs, for C++ and Python, even after the C++ programs were compiled using the O3 optimization level. Crucially, we show that PIE allows CODEGEN, an open-sourced and 10x smaller model than CODEX, to match the performance of CODEX on this challenging task. Overall, this work opens new doors for creating systems and methods that can help programmers write efficient code. | 翻訳日:2023-02-17 16:16:06 公開日:2023-02-16 |
# トランスフォーマーモデル:導入とカタログ Transformer models: an introduction and catalog ( http://arxiv.org/abs/2302.07730v2 ) ライセンス: Link先を確認 | Xavier Amatriain | (参考訳) ここ数年、私たちはTransformerファミリーの何十ものモデルの隕石が出現しているのを見てきました。
本稿の目的は,最もポピュラーなトランスフォーマーモデルの包括的かつ単純なカタログと分類を提供することである。
論文には、Transformerモデルにおける最も重要な側面とイノベーションの紹介も含まれている。 In the past few years we have seen the meteoric appearance of dozens of models of the Transformer family, all of which have funny, but not self-explanatory, names. The goal of this paper is to offer a somewhat comprehensive but simple catalog and classification of the most popular Transformer models. The paper also includes an introduction to the most important aspects and innovation in Transformer models. | 翻訳日:2023-02-17 16:15:32 公開日:2023-02-16 |
# ベイズ学習による量子ビット読み出しの強化 Enhancing qubit readout with Bayesian Learning ( http://arxiv.org/abs/2302.07725v2 ) ライセンス: Link先を確認 | F. Cosco and N. Lo Gullo | (参考訳) シングルキュービット状態とマルチキュービット状態に対する効率的かつ正確な読み出し量測定手法を提案する。
提案手法は,検出応答関数の参照特性に基づいて,各キュービット状態の割り当て確率分布を構築するためにベイズ推定を用いる。
これにより、計算基礎の割り当てにおけるシステムの不完全さと熱雑音を考慮できる。
5つの超伝導量子ビットを持つ量子デバイス上でのプロトコルのベンチマーク、単一および2量子ビット状態の初期状態準備のテスト、および5つの量子ビット上で実行されるbernstein-vaziraniアルゴリズムの適用。
本手法は,読み出し誤差を大幅に低減し,短期および将来の量子デバイスに対する利点を約束する。 We introduce an efficient and accurate readout measurement scheme for single and multi-qubit states. Our method uses Bayesian inference to build an assignment probability distribution for each qubit state based on a reference characterization of the detector response functions. This allows us to account for system imperfections and thermal noise within the assignment of the computational basis. We benchmark our protocol on a quantum device with five superconducting qubits, testing initial state preparation for single and two-qubits states and an application of the Bernstein-Vazirani algorithm executed on five qubits. Our method shows a substantial reduction of the readout error and promises advantages for near-term and future quantum devices. | 翻訳日:2023-02-17 16:15:25 公開日:2023-02-16 |
# 手話認識モデルの微調整:技術報告 Fine-tuning of sign language recognition models: a technical report ( http://arxiv.org/abs/2302.07693v2 ) ライセンス: Link先を確認 | Maxim Novopoltsev, Leonid Verkhovtsev, Ruslan Murtazin, Dmitriy Milevich, Iuliia Zemtsova | (参考訳) 手話認識(SLR)は手の動き、身体姿勢、さらには表情の高速かつ複雑な動きによって手話が実行されるため、必須かつ困難な課題である。
%Skeleton Aware Multi-modal Sign Language Recognition この研究では、他の手話言語からのデータセットの微調整が、手話認識の品質向上に役立つか、GPUを使わずにリアルタイムで手話認識が可能かどうか、という2つの質問に焦点をあてた。
3つの異なる言語データセット(WLASL、トルコ語 - AUTSL、ロシア語 - RSL)がモデルの検証に使用されている。
このシステムの平均速度は毎秒3つの予測に達し、リアルタイムシナリオの要件を満たす。
このモデル(プロトタイプ)は、音声や聴覚障害者が他のトラフインターネットと会話するのに役立つだろう。
また,別の手話におけるモデル追加訓練が認識の質に与える影響についても検討した。
その結果、他の手話のデータに対するモデルのさらなる訓練は、ほとんどの場合、ジェスチャー認識の質の向上につながることが示された。
また、モデル学習実験を再現し、モデルをONNXフォーマットに変換し、リアルタイムジェスチャー認識のための推論を行うコードも提供する。 Sign Language Recognition (SLR) is an essential yet challenging task since sign language is performed with the fast and complex movement of hand gestures, body posture, and even facial expressions. %Skeleton Aware Multi-modal Sign Language Recognition In this work, we focused on investigating two questions: how fine-tuning on datasets from other sign languages helps improve sign recognition quality, and whether sign recognition is possible in real-time without using GPU. Three different languages datasets (American sign language WLASL, Turkish - AUTSL, Russian - RSL) have been used to validate the models. The average speed of this system has reached 3 predictions per second, which meets the requirements for the real-time scenario. This model (prototype) will benefit speech or hearing impaired people talk with other trough internet. We also investigated how the additional training of the model in another sign language affects the quality of recognition. The results show that further training of the model on the data of another sign language almost always leads to an improvement in the quality of gesture recognition. We also provide code for reproducing model training experiments, converting models to ONNX format, and inference for real-time gesture recognition. | 翻訳日:2023-02-17 16:15:15 公開日:2023-02-16 |
# ARGUS: ステルスIoT侵入攻撃のコンテキストベース検出 ARGUS: Context-Based Detection of Stealthy IoT Infiltration Attacks ( http://arxiv.org/abs/2302.07589v2 ) ライセンス: Link先を確認 | Phillip Rieger, Marco Chilese, Reham Mohamed, Markus Miettinen, Hossein Fereidooni, Ahmad-Reza Sadeghi | (参考訳) IoTアプリケーションドメイン、デバイスの多様性、接続性は急速に伸びている。
iotデバイスは、スマートホームや建物、スマートシティ、スマートファクトリーなどのさまざまな機能を制御し、攻撃者にとって魅力的なターゲットとなる。
一方、異なるアプリケーションのシナリオの大きなばらつきとデバイス固有の異種性は、異常なIoTデバイスの振る舞いを確実に検出し、良質な振る舞いと区別することが非常に困難である。
既存の攻撃検出のアプローチは、主に個々のIoTデバイスを直接競合する攻撃に限られている。
iotシステムのコントロールプレーンを利用して、スマートホーム住民がいない間にスマートロックを開く、など、意図しない/危険なコンテキストでアクションをトリガーする攻撃は検出できない。
本稿では,この問題に対処し,攻撃者がIoTデバイスアクションを悪意を持って実行して目標を達成する,IoT環境に対するコンテキスト攻撃を検出する最初の自己学習侵入検知システムARGUSを提案する。
ARGUSは、環境中のIoTデバイスの状態と動作に基づいてコンテキスト設定を監視する。
教師なしディープニューラルネットワーク(DNN)は、典型的なコンテキストデバイス動作をモデル化し、異常なコンテキスト設定で実行されるアクションを検出するために使用される。
この教師なしのアプローチにより、ARGUSは既知の攻撃を検出するだけでなく、新たな攻撃を検出することができる。
我々は、異質な実世界のスマートホーム設定でARGUSを評価し、設定毎に少なくとも99.64%のF1スコアを達成し、偽陽性率(FPR)は0.03%である。 IoT application domains, device diversity and connectivity are rapidly growing. IoT devices control various functions in smart homes and buildings, smart cities, and smart factories, making these devices an attractive target for attackers. On the other hand, the large variability of different application scenarios and inherent heterogeneity of devices make it very challenging to reliably detect abnormal IoT device behaviors and distinguish these from benign behaviors. Existing approaches for detecting attacks are mostly limited to attacks directly compromising individual IoT devices, or, require predefined detection policies. They cannot detect attacks that utilize the control plane of the IoT system to trigger actions in an unintended/malicious context, e.g., opening a smart lock while the smart home residents are absent. In this paper, we tackle this problem and propose ARGUS, the first self-learning intrusion detection system for detecting contextual attacks on IoT environments, in which the attacker maliciously invokes IoT device actions to reach its goals. ARGUS monitors the contextual setting based on the state and actions of IoT devices in the environment. An unsupervised Deep Neural Network (DNN) is used for modeling the typical contextual device behavior and detecting actions taking place in abnormal contextual settings. This unsupervised approach ensures that ARGUS is not restricted to detecting previously known attacks but is also able to detect new attacks. We evaluated ARGUS on heterogeneous real-world smart-home settings and achieve at least an F1-Score of 99.64% for each setup, with a false positive rate (FPR) of at most 0.03%. | 翻訳日:2023-02-17 16:14:53 公開日:2023-02-16 |
# 効果的な教師: YOLOv5の半教師対象検出 Efficient Teacher: Semi-Supervised Object Detection for YOLOv5 ( http://arxiv.org/abs/2302.07577v2 ) ライセンス: Link先を確認 | Bowen Xu, Mingtao Chen, Wenlong Guan, Lulu Hu | (参考訳) SSOD(Semi-Supervised Object Detection)は、R-CNNシリーズとアンカーフリー検出器の両方の性能向上に成功している。
しかし、1段アンカーベースの検出器は、高品質またはフレキシブルな擬似ラベルを生成する構造が欠如しており、SSODの深刻な矛盾問題を引き起こしている。
本稿では,Dense Detector,Pseudo Label Assigner,Epoch Adaptorで構成される,スケーラブルで効果的なワンステージアンカーベースのSSODトレーニングのための効率的な教師フレームワークを提案する。
Dense Detectorは、YOLOv5にインスパイアされた高密度サンプリング技術でRetinaNetを拡張するベースラインモデルである。
Efficient Teacher フレームワークは Pseudo Label Assigner という新しい擬似ラベル割り当て機構を導入し、Dense Detector の擬似ラベルをより洗練されたものにしている。
Epoch Adaptorは、Dense Detectorの安定的で効率的な半教師付きトレーニングスケジュールを可能にする方法である。
Pseudo Label Assignerは、学生と教師の相互学習機構においてDense Detectorに干渉する可能性のある多数の低品質な擬似ラベルによるバイアスの発生を防止し、Epoch Adaptorはドメインと分散適応を利用してDense Detectorがグローバルに分散した一貫した特徴を学習し、ラベル付きデータの比率に依存しない訓練を行う。
実験の結果,従来の手法よりも少ないFLOPを用いて,VOC,COCO標準,COCO付加による最先端の成果が得られた。
私たちの知る限りでは、これはSemi-Supervised Object DetectionをYOLOv5に適用する最初の試みである。 Semi-Supervised Object Detection (SSOD) has been successful in improving the performance of both R-CNN series and anchor-free detectors. However, one-stage anchor-based detectors lack the structure to generate high-quality or flexible pseudo labels, leading to serious inconsistency problems in SSOD. In this paper, we propose the Efficient Teacher framework for scalable and effective one-stage anchor-based SSOD training, consisting of Dense Detector, Pseudo Label Assigner, and Epoch Adaptor. Dense Detector is a baseline model that extends RetinaNet with dense sampling techniques inspired by YOLOv5. The Efficient Teacher framework introduces a novel pseudo label assignment mechanism, named Pseudo Label Assigner, which makes more refined use of pseudo labels from Dense Detector. Epoch Adaptor is a method that enables a stable and efficient end-to-end semi-supervised training schedule for Dense Detector. The Pseudo Label Assigner prevents the occurrence of bias caused by a large number of low-quality pseudo labels that may interfere with the Dense Detector during the student-teacher mutual learning mechanism, and the Epoch Adaptor utilizes domain and distribution adaptation to allow Dense Detector to learn globally distributed consistent features, making the training independent of the proportion of labeled data. Our experiments show that the Efficient Teacher framework achieves state-of-the-art results on VOC, COCO-standard, and COCO-additional using fewer FLOPs than previous methods. To the best of our knowledge, this is the first attempt to apply Semi-Supervised Object Detection to YOLOv5. | 翻訳日:2023-02-17 16:14:26 公開日:2023-02-16 |
# 一様エルゴード割引マルコフ決定過程に対する強化学習の最適サンプル複雑性 Optimal Sample Complexity of Reinforcement Learning for Uniformly Ergodic Discounted Markov Decision Processes ( http://arxiv.org/abs/2302.07477v2 ) ライセンス: Link先を確認 | Shengbo Wang, Jose Blanchet, and Peter Glynn | (参考訳) マルコフ決定過程(MDP)において,無限地平面割引報酬を制御するための表型強化学習(RL)の最適サンプル複雑性理論を考察する。
この設定において、表形式 RL に対して最適な min-max 複雑性の結果が開発され、$\gamma$ と $\epsilon$ の形での複雑さ依存のサンプルが $\tilde \Theta((1-\gamma)^{-3}\epsilon^{-2})$ となり、$\gamma$ は割引係数、$\epsilon$ は許容解誤差となる。
しかし、多くの応用において、最適政策(または全ての政策)は混合を引き起こす。
これらの設定において、最適なmin-max複雑性は$\tilde \theta(t_{\text{minorize}}(1-\gamma)^{-2}\epsilon^{-2})$であり、ここで$t_{\text{minorize}}$ は全変分混合時間の等価な係数である。
本分析は, 一般状態空間mdpにおける関連する問題の研究に使用できるため, 個別の関心を持つ再生型アイデアに基づくものである。 We consider the optimal sample complexity theory of tabular reinforcement learning (RL) for controlling the infinite horizon discounted reward in a Markov decision process (MDP). Optimal min-max complexity results have been developed for tabular RL in this setting, leading to a sample complexity dependence on $\gamma$ and $\epsilon$ of the form $\tilde \Theta((1-\gamma)^{-3}\epsilon^{-2})$, where $\gamma$ is the discount factor and $\epsilon$ is the tolerance solution error. However, in many applications of interest, the optimal policy (or all policies) will induce mixing. We show that in these settings the optimal min-max complexity is $\tilde \Theta(t_{\text{minorize}}(1-\gamma)^{-2}\epsilon^{-2})$, where $t_{\text{minorize}}$ is a measure of mixing that is within an equivalent factor of the total variation mixing time. Our analysis is based on regeneration-type ideas, that, we believe are of independent interest since they can be used to study related problems for general state space MDPs. | 翻訳日:2023-02-17 16:13:55 公開日:2023-02-16 |
# 望ましいものの理論 A theory of desirable things ( http://arxiv.org/abs/2302.07412v2 ) ライセンス: Link先を確認 | Jasper De Bock | (参考訳) 不正確な確率の分野で不確実性をモデル化するために用いられる望ましいギャンブルの理論に触発されて、私は望ましいものの理論を示す。
目的は、対象が望ましいものについての信念をモデル化することである。
物事が何であるかは重要ではなく、彼らが望ましいということでもない。
ギャンブルに当てはまり、被験者がそれを受け入れた場合には望ましいが、ピザにも当てはまるし、友人のアーサーが食べるのが好きなら望ましいと言うこともできる。
この理論を応用できる他の有用な例としては、命題、馬の宝くじ、または上記のいずれかの間の選好がある。
考慮される特定のものにかかわらず、推論規則は抽象閉包演算子によって課され、これらの規則に従うモデルはコヒーレント(coherent)と呼ばれる。
私は2つのタイプのモデルを考えます。それぞれが、望ましいもの、望ましいもの、望ましいもの、望ましいもの、という、対象の信念を捉えることができます。
重要な結果として、後者の型は前者のセットで表現できる。 Inspired by the theory of desirable gambles that is used to model uncertainty in the field of imprecise probabilities, I present a theory of desirable things. Its aim is to model a subject's beliefs about which things are desirable. What the things are is not important, nor is what it means for them to be desirable. It can be applied to gambles, calling them desirable if a subject accepts them, but it can just as well be applied to pizzas, calling them desirable if my friend Arthur likes to eat them. Other useful examples of things one might apply this theory to are propositions, horse lotteries, or preferences between any of the above. Regardless of the particular things that are considered, inference rules are imposed by means of an abstract closure operator, and models that adhere to these rules are called coherent. I consider two types of models, each of which can capture a subject's beliefs about which things are desirable: sets of desirable things and sets of desirable sets of things. A crucial result is that the latter type can be represented by a set of the former. | 翻訳日:2023-02-17 16:13:26 公開日:2023-02-16 |
# 外部性のある固定価格データ市場における均衡と学習 Equilibrium and Learning in Fixed-Price Data Markets with Externality ( http://arxiv.org/abs/2302.08012v1 ) ライセンス: Link先を確認 | Yiling Chen, Safwan Hossain | (参考訳) 我々は,売り手が固定価格を投稿し,買い手が好きな売り手から自由に購入できる実世界のデータ市場を,買い手間の同時移動ゲームとして提案する。
このモデルの主要な構成要素は、類似したデータを購入することによって互いに負の外部性バイヤーが引き起こされることである。
すべてのバイヤーがバリュエーションを知っている完全な情報設定では、購入者の外部性の様々なモデルの下で、純粋なストラテジーナッシュ均衡の存在と品質(最適社会福祉に関する)の両方を特徴付ける。
この考え方は市場の介入なく、現代のデータ市場の不備を補強する一方で、幅広い外部性機能において、収益中立的な取引コストの形での市場介入は、強い福祉保障を伴う純粋な戦略均衡につながることを証明します。
さらに、この介入は、購入者が未知のバリュエーションから始めて、繰り返し市場の相互作用を通じて学習する、より現実的な環境に適応可能であることを示す。
そこで本研究では,各購入者に対して,購入者の戦略と社会福祉の双方において,後悔の少ない保証を実現するオンライン学習アルゴリズムを提案する。
我々の研究は、既存の固定価格データ市場に対するシンプルな介入戦略を考慮し、その欠点とデータ製品が抱える固有の課題に対処するための道を開いた。 We propose modeling real-world data markets, where sellers post fixed prices and buyers are free to purchase from any set of sellers they please, as a simultaneous-move game between the buyers. A key component of this model is the negative externality buyers induce on one another due to purchasing similar data, a phenomenon exacerbated by its easy replicability. In the complete-information setting, where all buyers know their valuations, we characterize both the existence and the quality (with respect to optimal social welfare) of the pure-strategy Nash equilibrium under various models of buyer externality. While this picture is bleak without any market intervention, reinforcing the inadequacy of modern data markets, we prove that for a broad class of externality functions, market intervention in the form of a revenue-neutral transaction cost can lead to a pure-strategy equilibrium with strong welfare guarantees. We further show that this intervention is amenable to the more realistic setting where buyers start with unknown valuations and learn them over time through repeated market interactions. For such a setting, we provide an online learning algorithm for each buyer that achieves low regret guarantees with respect to both individual buyers' strategy and social welfare optimal. Our work paves the way for considering simple intervention strategies for existing fixed-price data markets to address their shortcoming and the unique challenges put forth by data products. | 翻訳日:2023-02-17 15:31:34 公開日:2023-02-16 |
# 高高度気球とサブオービタルロケットのビジョンベース測地相対航法 Vision-Based Terrain Relative Navigation on High-Altitude Balloon and Sub-Orbital Rocket ( http://arxiv.org/abs/2302.08011v1 ) ライセンス: Link先を確認 | Dominic Maggio, Courtney Mario, Brett Streetman, Ted Steiner, Luca Carlone | (参考訳) 本稿では,衛星画像データベースからカメラ画像にマッピングされたランドマークを関連付け,カメラフレーム間の慣性センサを活用し,高高度ナビゲーションのためのカメラベース手法の利用に関する実験分析を行う。
高度33kmから下降し,飛行時間1.5時間で地上レベル(4.5km)付近まで下降したWorld View Enterprises高高度気球から収集したデータに対して,横型カメラと下向きカメラの両方の性能を評価した。
我々は,150km以上の軌道上での平均位置誤差が290m未満であることを示す。
また、高度の広い範囲での性能を示すことに加えて、気球の高速回転、場合によっては毎秒20度を超えること、気球の下の雲面とケーブルの揺れによるカメラ障害に対して、地形相対航法(trn)の堅牢性を示す。
さらに、Blue OriginのNew Shepardロケットの積載機NS-23のカプセル内の2台のカメラで収集したデータから、最大880km/hの速度で走行し、平均位置誤差が55m未満であることを示す。 We present an experimental analysis on the use of a camera-based approach for high-altitude navigation by associating mapped landmarks from a satellite image database to camera images, and by leveraging inertial sensors between camera frames. We evaluate performance of both a sideways-tilted and downward-facing camera on data collected from a World View Enterprises high-altitude balloon with data beginning at an altitude of 33 km and descending to near ground level (4.5 km) with 1.5 hours of flight time. We demonstrate less than 290 meters of average position error over a trajectory of more than 150 kilometers. In addition to showing performance across a range of altitudes, we also demonstrate the robustness of the Terrain Relative Navigation (TRN) method to rapid rotations of the balloon, in some cases exceeding 20 degrees per second, and to camera obstructions caused by both cloud coverage and cords swaying underneath the balloon. Additionally, we evaluate performance on data collected by two cameras inside the capsule of Blue Origin's New Shepard rocket on payload flight NS-23, traveling at speeds up to 880 km/hr, and demonstrate less than 55 meters of average position error. | 翻訳日:2023-02-17 15:31:07 公開日:2023-02-16 |
# 二次元共形場理論における不均一クエンチェにおける量子情報のスクランブルと回復 Scrambling and Recovery of Quantum Information in Inhomogeneous Quenches in Two-dimensional Conformal Field Theories ( http://arxiv.org/abs/2302.08009v1 ) ライセンス: Link先を確認 | Kanato Goto, Masahiro Nozaki, Shinsei Ryu, Kotaro Tamaoka, and Mao Tian Tan | (参考訳) ヒルベルト空間の2つのコピーにおける熱場二重状態から始まる2次元共形場理論において、ハミルトニアンの「ビウス/正方形変形」によって誘導される様々な量子クエンチ過程を研究する。
これらの量子クエンチは、時間進化作用素の作用素の絡み合いに直接関係しており、量子情報のスクランブルと回復を研究することができる。
特に、SSDの時間進化の下では、2つのヒルベルト空間のサブシステムによって最初に共有されたベル対が、量子情報によって小さなサブシステムの相互情報が完全に破壊された後も復活することを示す。
この相互情報は強いスクランブルダイナミクスに対して頑健である。
その結果、定常状態は2つの当事者ではなく3つの当事者によって共有される非局所相関を持つ。
ホログラフィック双対記述では、2つのヒルベルト空間をつなぐワームホールは、量子クエンチの時間とともに非線形に成長する。
また,不均質ハミルトニアンによる時間進化における相互情報のダイナミクスを記述する効果的な画像も提案する。 We study various quantum quench processes induced by the M\"obius/sine-square deformation of the Hamiltonian in two-dimensional conformal field theories starting from the thermofield double state in the two copies of the Hilbert space. These quantum quenches, some of which are directly related to the operator entanglement of the time-evolution operators, allow us to study scrambling and recovery of quantum information. In particular, under the SSD time-evolution, we show from the time-dependence of mutual information that the Bell pairs, initially shared by the subsystems of the two Hilbert spaces, may revive even after the mutual information for small subsystems is completely destroyed by quantum information scrambling dynamics. This mutual information is robust against the strong scrambling dynamics. As a consequence, the steady state has a non-local correlation shared not by any of two parties but by three parties. In the holographic dual description, a wormhole connecting the two Hilbert spaces may non-linearly grow with time during the quantum quenches. We also propose effective pictures that describe the dynamics of mutual information during the time-evolution by inhomogeneous Hamiltonians. | 翻訳日:2023-02-17 15:30:45 公開日:2023-02-16 |
# マイクロエキスパートの共有:ちょっとしたシフトは長い道のり Shared Microexponents: A Little Shifting Goes a Long Way ( http://arxiv.org/abs/2302.08007v1 ) ライセンス: Link先を確認 | Bita Rouhani, Ritchie Zhao, Venmugil Elango, Rasoul Shafipour, Mathew Hall, Maral Mesmakhosroshahi, Ankit More, Levi Melnick, Maximilian Golub, Girish Varatkar, Lei Shao, Gaurav Kolhe, Dimitry Melts, Jasmine Klar, Renee L'Heureux, Matt Perry, Doug Burger, Eric Chung, Zhaoxia Deng, Sam Naghshineh, Jongsoo Park, Maxim Naumov | (参考訳) 本稿では,ブロックデータ表現(bdr, block data representations)について述べる。
一般的な量子化標準の比較が可能であり、bdrにより、狭い精度の浮動小数点やブロック浮動小数点など、最先端の量子化アプローチに勝る共有マイクロ指数(mx)に基づく新しいフォーマットが特定される。
mxは、ハードウェア内の共有マイクロエクスペンデントに基づく超微細なスケーリング係数と、複数のレベルの量子化スケーリングを利用する。
mxの有効性を実世界モデルで実証し, 大規模生成前訓練, 参照システム, 生産レコメンデーションシステムなどについて検討した。 This paper introduces Block Data Representations (BDR), a framework for exploring and evaluating a wide spectrum of narrow-precision formats for deep learning. It enables comparison of popular quantization standards, and through BDR, new formats based on shared microexponents (MX) are identified, which outperform other state-of-the-art quantization approaches, including narrow-precision floating-point and block floating-point. MX utilizes multiple levels of quantization scaling with ultra-fine scaling factors based on shared microexponents in the hardware. The effectiveness of MX is demonstrated on real-world models including large-scale generative pretraining and inferencing, and production-scale recommendation systems. | 翻訳日:2023-02-17 15:30:26 公開日:2023-02-16 |
# ディープラーニング学習のための分離モデルスケジュール Decoupled Model Schedule for Deep Learning Training ( http://arxiv.org/abs/2302.08005v1 ) ライセンス: Link先を確認 | Hongzheng Chen, Cody Hao Yu, Shuai Zheng, Zhen Zhang, Zhiru Zhang, Yida Wang | (参考訳) 近年、大規模なディープラーニング(DL)モデルの開発が増加しており、訓練効率が重要になっている。
一般的なプラクティスは、ユーザビリティとパフォーマンスのトレードオフに苦しむことです。
一方、pytorchのようなdlフレームワークは動的グラフを使用して、モデル開発者を最適以下のモデルのトレーニングパフォーマンスで支援する。
一方、実践者は、より徹底的な最適化(XLAなど)のためにグラフを静的にすることから、大規模分散トレーニング(DeepSpeedやMegatron-LMなど)への最適化のカスタマイズまで、柔軟性を犠牲にしてトレーニング効率を改善するための様々なアプローチを提案する。
本稿では,関心の分離を通じてユーザビリティとトレーニング効率の緊張に対処することを目的とする。
本稿では,テンソルレベルの演算子のプラットフォーム固有の最適化を算術的定義から切り離すDLコンパイラに着想を得て,モデル実行を定義から切り離すスケジュール言語を提案する。
具体的には、スケジュールはPyTorchモデル上で動作し、一連のスケジュールプリミティブを使用して、高性能カーネル、効率的な3D並列性、効率的なアクティベーションチェックポイントなどの一般的なモデルトレーニング最適化のためのモデルを変換する。
既存の最適化ソリューションと比較して、高レベルのプリミティブを通じて必要となるモデルを最適化することで、ユーザのプログラム可能性とデバッグ性を大幅に維持します。
評価結果は,既存の手作り最適化を体系的にスケジューリングすることにより,DeepSpeedとMegatron-LMのアウト・オブ・ボックス性能と比較して,NVIDIA V100 GPUを8台搭載した1台のマシンで最大3.35倍,最大1.32倍のトレーニングスループットを向上できることを示す。 Recent years have seen an increase in the development of large deep learning (DL) models, which makes training efficiency crucial. Common practice is struggling with the trade-off between usability and performance. On one hand, DL frameworks such as PyTorch use dynamic graphs to facilitate model developers at a price of sub-optimal model training performance. On the other hand, practitioners propose various approaches to improving the training efficiency by sacrificing some of the flexibility, ranging from making the graph static for more thorough optimization (e.g., XLA) to customizing optimization towards large-scale distributed training (e.g., DeepSpeed and Megatron-LM). In this paper, we aim to address the tension between usability and training efficiency through separation of concerns. Inspired by DL compilers that decouple the platform-specific optimizations of a tensor-level operator from its arithmetic definition, this paper proposes a schedule language to decouple model execution from definition. Specifically, the schedule works on a PyTorch model and uses a set of schedule primitives to convert the model for common model training optimizations such as high-performance kernels, effective 3D parallelism, and efficient activation checkpointing. Compared to existing optimization solutions, we optimize the model as-needed through high-level primitives, and thus preserving programmability and debuggability for users to a large extent. Our evaluation results show that by scheduling the existing hand-crafted optimizations in a systematic way, we are able to improve training throughput by up to 3.35x on a single machine with 8 NVIDIA V100 GPUs, and by up to 1.32x on multiple machines with up to 64 GPUs, when compared to the out-of-the-box performance of DeepSpeed and Megatron-LM. | 翻訳日:2023-02-17 15:30:13 公開日:2023-02-16 |
# ボラティリティモデリングのための再帰的条件付きヘテロケクタキシティモデル Realized recurrent conditional heteroskedasticity model for volatility modelling ( http://arxiv.org/abs/2302.08002v1 ) ライセンス: Link先を確認 | Chen Liu, Chao Wang, Minh-Ngoc Tran, Robert Kohn | (参考訳) 本稿では,深層学習(LSTM)とボラティリティー対策の併用によるボラティリティモデリングの新しい手法を提案する。
このLSTMで強化されたGARCHフレームワークは、金融経済学、高周波取引データ、ディープラーニングによるモデリングの進歩を取り入れ、蒸留する。
逐次モンテカルロ法によるベイズ推定は統計的推論と予測に用いられている。
新しいフレームワークは、回帰を共同でモデル化し、ボラティリティ測定を実現し、複数のベンチマークモデルと比較して優れたサンプル適合性と優れた予測性能を持つと同時に、ボラティリティのスタイリッシュな事実にうまく適応することができる。
新しいフレームワークのパフォーマンスは、限界確率、ボラティリティ予測、リスク予測の調整、オプション価格など、幅広いメトリクスを使用してテストされている。
新型コロナウイルスのパンデミックを含む期間に31件の株式指数を取引した総合的な実証研究を報告した。 We propose a new approach to volatility modelling by combining deep learning (LSTM) and realized volatility measures. This LSTM-enhanced realized GARCH framework incorporates and distills modeling advances from financial econometrics, high frequency trading data and deep learning. Bayesian inference via the Sequential Monte Carlo method is employed for statistical inference and forecasting. The new framework can jointly model the returns and realized volatility measures, has an excellent in-sample fit and superior predictive performance compared to several benchmark models, while being able to adapt well to the stylized facts in volatility. The performance of the new framework is tested using a wide range of metrics, from marginal likelihood, volatility forecasting, to tail risk forecasting and option pricing. We report on a comprehensive empirical study using 31 widely traded stock indices over a time period that includes COVID-19 pandemic. | 翻訳日:2023-02-17 15:29:38 公開日:2023-02-16 |
# マルコフゲームのための密度に基づく相関平衡学習 Learning Density-Based Correlated Equilibria for Markov Games ( http://arxiv.org/abs/2302.08001v1 ) ライセンス: Link先を確認 | Libo Zhang, Yang Chen, Toru Takisaka, Bakh Khoussainov, Michael Witbrock, and Jiamou Liu | (参考訳) Correlated Equilibrium (CE) は、エージェント間の協調を捉え、優れたアルゴリズム特性を享受する、確立されたソリューション概念である。
現実のマルチエージェントシステムでは、平衡性に加えて、エージェントのポリシーは安全と公正性に関する要件を満たすことがしばしば期待される。
このような追加要件は、しばしば、ゲーム中の状態参照頻度を測定する状態密度の観点から表現される。
しかし、既存のCE概念やCE-findingアプローチでは、状態密度に関する特定の特性を持つCEを明示的に指定することはできない。
したがって、CEは状態密度要件を完全に満たさない。
本稿では,状態密度を選択基準として明確に捉えるCEの新しい概念である密度ベース相関平衡(DBCE)を提案する。
具体的には、実世界のアプリケーションによって動機付けられた異なる状態密度要求を指定することでDBCEをインスタンス化する。
DBCEを計算するために,基礎となる制御問題に対する密度ベース関連ポリシー反復アルゴリズムを提案する。
状態密度の懸念のあるシナリオにおける既存手法に対するCE-findingアプローチの利点を実演する各種ゲームで実験を行った。 Correlated Equilibrium (CE) is a well-established solution concept that captures coordination among agents and enjoys good algorithmic properties. In real-world multi-agent systems, in addition to being in an equilibrium, agents' policies are often expected to meet requirements with respect to safety, and fairness. Such additional requirements can often be expressed in terms of the state density which measures the state-visitation frequencies during the course of a game. However, existing CE notions or CE-finding approaches cannot explicitly specify a CE with particular properties concerning state density; they do so implicitly by either modifying reward functions or using value functions as the selection criteria. The resulting CE may thus not fully fulfil the state-density requirements. In this paper, we propose Density-Based Correlated Equilibria (DBCE), a new notion of CE that explicitly takes state density as selection criterion. Concretely, we instantiate DBCE by specifying different state-density requirements motivated by real-world applications. To compute DBCE, we put forward the Density Based Correlated Policy Iteration algorithm for the underlying control problem. We perform experiments on various games where results demonstrate the advantage of our CE-finding approach over existing methods in scenarios with state-density concerns. | 翻訳日:2023-02-17 15:29:22 公開日:2023-02-16 |
# cGANに基づく治療活動のための高次元IMUセンサデータ生成 cGAN-Based High Dimensional IMU Sensor Data Generation for Therapeutic Activities ( http://arxiv.org/abs/2302.07998v1 ) ライセンス: Link先を確認 | Mohammad Mohammadzadeh, Ali Ghadami, Alireza Taheri, Saeed Behzadipour | (参考訳) 人間の活動認識は、リハビリテーション、環境健康モニタリング、人間とコンピュータの相互作用といった応用のための中核技術である。
ウェアラブルデバイス、特にIMUセンサーは、アクティビティ認識に活用できる人間の動きの豊富な特徴を収集するのに役立ちます。
活動認識のための堅牢な分類器の開発は、研究者にとって常に関心を集めてきた。
1つの大きな問題は、通常、いくつかのアクティビティのトレーニングデータの欠如があり、分類器を開発するのが困難であり、時には不可能である。
本研究では,特定の活動に関連する現実的なIMU信号を生成するために,TheraGANと呼ばれる新しいGANネットワークを開発した。
生成された信号は6チャネルIMUである。
すなわち、角速度と線形加速度である。
また、複雑な完全長アクティビティの有意義な部分である単純なアクティビティを導入することで、任意の長さのアクティビティに対して生成プロセスが容易になる。
生成した信号を評価するために,知覚的類似度測定値に加えて実データとともに適用し,分類器の精度を向上した。
その結果、f1-scoreの最大増加率は、生成データの追加時に13.27%増加した。
これは、不均衡なデータ問題が発生した場合に、より堅牢な分類器を構築するツールとして、生成されたデータとTheraGANの有効性を示す。 Human activity recognition is a core technology for applications such as rehabilitation, ambient health monitoring, and human-computer interactions. Wearable devices, particularly IMU sensors, can help us collect rich features of human movements that can be leveraged in activity recognition. Developing a robust classifier for activity recognition has always been of interest to researchers. One major problem is that there is usually a deficit of training data for some activities, making it difficult and sometimes impossible to develop a classifier. In this work, a novel GAN network called TheraGAN was developed to generate realistic IMU signals associated with a particular activity. The generated signal is of a 6-channel IMU. i.e., angular velocities and linear accelerations. Also, by introducing simple activities, which are meaningful subparts of a complex full-length activity, the generation process was facilitated for any activity with arbitrary length. To evaluate the generated signals, besides perceptual similarity metrics, they were applied along with real data to improve the accuracy of classifiers. The results show that the maximum increase in the f1-score belongs to the LSTM classifier by a 13.27% rise when generated data were added. This shows the validity of the generated data as well as TheraGAN as a tool to build more robust classifiers in case of imbalanced data problem. | 翻訳日:2023-02-17 15:29:03 公開日:2023-02-16 |
# 量子イジングスピン鎖における局所対翻訳不変低速作用素 Local vs. translationally-invariant slowest operators in quantum Ising spin chains ( http://arxiv.org/abs/2302.07995v1 ) ライセンス: Link先を確認 | Ekaterina Izotova | (参考訳) 本稿では,可積分点に近い外部磁場中の1次元量子イジングスピン鎖について検討する。
熱化の最終段階で重要な役割を果たす最も遅い演算子のダイナミクスに集中する。
我々は、最も遅い作用素の2つの独立な定義、局所的および翻訳的不変な定義を導入する。
テンソルネットワークを用いて両演算子を数値的に構築し,その物理特性を広範囲に比較する。
局所作用素はエネルギーフラックスと著しく重なり、運動積分と一致せず、可積分点から離れると、その再生は抑制され、非局在化の速度は拡散よりも極端に遅いものから遅いものへと変化する。
変換不変作用素は運動の積分に対応し、系が積分しにくくなると、ある時点でこの作用素はその性質を変化させる: 磁化と非局在化の速さとの重なりが無く、磁化の$\sigma_{x}$と$\sigma_{z}$と非局在化の遅くなる。 In this paper we study one-dimensional quantum Ising spin chains in external magnetic field close to an integrable point. We concentrate on the dynamics of the slowest operator, that plays a key role at the final period of thermalization. We introduce two independent definitions of the slowest operator: local and translationally-invariant ones. We construct both operators numerically using tensor networks and extensively compare their physical properties. We find that the local operator has a significant overlap with energy flux, it does not correspond to an integral of motion, and, as one goes away from the integrable point, its revivals get suppressed and the rate of delocalization changes from extremely slow to slower than diffusion. The translationally-invariant operator corresponds to an integral of motion; as the system becomes less integrable, at some point this operator changes its nature: from no overlap with any magnetization and fast rate of delocalization, to non-zero overlap with magnetizations $\sigma_{x}$ and $\sigma_{z}$ and slow rate of delocalization. | 翻訳日:2023-02-17 15:28:42 公開日:2023-02-16 |
# TcGAN:高速任意1ショット画像生成のための個別視覚変換器を用いた意味認識と構造保存型GAN TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual Vision Transformer for Fast Arbitrary One-Shot Image Generation ( http://arxiv.org/abs/2302.08047v1 ) ライセンス: Link先を確認 | Yunliang Jiang, Lili Yan, Xiongtao Zhang, Yong Liu, Danfeng Sun | (参考訳) 画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
最近の研究では、研究者は主に純粋畳み込みニューラルネットワーク(cnns)を用いた確率的分散入力から画像の特徴を抽出することに重点を置いている。
しかし, 受容領域が限定されたcnnでは, グローバル構造情報の抽出と維持が極めて困難である。
そこで本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
具体的には、TcGANは、トランスフォーマーの強力な長距離依存性モデリング機能を利用して、セマンティック認識情報の整合性を保ちながら、トレーニング中の画像のグローバルな構造を局所的な詳細に適合するように保存する。
また,画像超解像におけるOSGモデルの画質を効果的に向上させるため,計算期間中のスケール不変性を有する新しいスケーリング式を提案する。
本稿では、TcGANコンバータフレームワークの設計と、TcGANが高速な実行時間で任意の画像を生成する能力を示すアブレーション研究について述べる。
最後に、TcGANは、他の画像処理タスク(例えば、超解像度や画像調和など)に適用することで、最も優れた性能を達成し、その結果はその優位性をさらに証明する。 One-shot image generation (OSG) with generative adversarial networks that learn from the internal patches of a given image has attracted world wide attention. In recent studies, scholars have primarily focused on extracting features of images from probabilistically distributed inputs with pure convolutional neural networks (CNNs). However, it is quite difficult for CNNs with limited receptive domain to extract and maintain the global structural information. Therefore, in this paper, we propose a novel structure-preserved method TcGAN with individual vision transformer to overcome the shortcomings of the existing one-shot image generation methods. Specifically, TcGAN preserves global structure of an image during training to be compatible with local details while maintaining the integrity of semantic-aware information by exploiting the powerful long-range dependencies modeling capability of the transformer. We also propose a new scaling formula having scale-invariance during the calculation period, which effectively improves the generated image quality of the OSG model on image super-resolution tasks. We present the design of the TcGAN converter framework, comprehensive experimental as well as ablation studies demonstrating the ability of TcGAN to achieve arbitrary image generation with the fastest running time. Lastly, TcGAN achieves the most excellent performance in terms of applying it to other image processing tasks, e.g., super-resolution as well as image harmonization, the results further prove its superiority. | 翻訳日:2023-02-17 15:22:48 公開日:2023-02-16 |
# 入射関数空間におけるコンテキスト相互作用に基づく連続リモートセンシング画像超解法 Continuous Remote Sensing Image Super-Resolution based on Context Interaction in Implicit Function Space ( http://arxiv.org/abs/2302.08046v1 ) ライセンス: Link先を確認 | Keyan Chen, Wenyuan Li, Sen Lei, Jianqi Chen, Xiaolong Jiang, Zhengxia Zou, Zhenwei Shi | (参考訳) リモートセンシングにおける実りある応用にもかかわらず、イメージスーパーレゾリューションは、別のモデルで異なる解像度の倍率を扱うため、トレーニングとデプロイが難しい。
そこで我々は,暗黙の関数空間内でのコンテキスト相互作用を利用して,異なる倍率を統一モデルで解決するFunSRという高応用超解像フレームワークを提案する。
FunSRは機能的表現子、機能的相互作用子、機能的パーサを構成する。
具体的には、ローレゾリューション画像をユークリッド空間から多スケールのピクセルワイズ関数マップに変換し、インタラクタはグローバル依存のピクセルワイズ関数表現を可能にし、インタラクタの出力によってパラメータ化されるパーサは、追加の属性を持つ離散座標をrgb値に変換する。
広範な実験結果から、funsrは固定磁化と連続磁化の両方で最新性能を報告しているが、一方、統一性のおかげで多くのフレンドリーなアプリケーションを提供している。 Despite its fruitful applications in remote sensing, image super-resolution is troublesome to train and deploy as it handles different resolution magnifications with separate models. Accordingly, we propose a highly-applicable super-resolution framework called FunSR, which settles different magnifications with a unified model by exploiting context interaction within implicit function space. FunSR composes a functional representor, a functional interactor, and a functional parser. Specifically, the representor transforms the low-resolution image from Euclidean space to multi-scale pixel-wise function maps; the interactor enables pixel-wise function expression with global dependencies; and the parser, which is parameterized by the interactor's output, converts the discrete coordinates with additional attributes to RGB values. Extensive experimental results demonstrate that FunSR reports state-of-the-art performance on both fixed-magnification and continuous-magnification settings, meanwhile, it provides many friendly applications thanks to its unified nature. | 翻訳日:2023-02-17 15:22:02 公開日:2023-02-16 |
# フェデレーション学習におけるプライバシー保護と解釈可能性のバランス Balancing Privacy Protection and Interpretability in Federated Learning ( http://arxiv.org/abs/2302.08044v1 ) ライセンス: Link先を確認 | Zhe Li, Honglong Chen, Zhichen Ni, Huajie Shao | (参考訳) フェデレーション・ラーニング(fl)は、モデルパラメータをローカルクライアントから中央サーバに共有することで、グローバルなモデルを分散的にトレーニングすることを目的としている。
しかし最近の研究では、FLは情報漏洩に悩まされており、敵はローカルクライアントから共有パラメータを解析してトレーニングデータを回復しようとする。
この問題に対処するため、差分プライバシー(DP)は集約前の局所モデルの勾配にノイズを加えるために採用されている。
しかし,特徴写像で有意な領域を捕捉する重みが乱れてしまうため,勾配に基づく解釈可能性法の性能は低下する。
この問題を解決するために,FLにおけるクライアントモデルの勾配に雑音を選択的に追加するシンプルな適応型微分プライバシー(ADP)機構を提案する。
また, モデル解釈性に対する勾配摂動の影響を理論的に解析した。
最後に、IDデータと非IIDデータの両方に関する広範な実験により、提案したADPがFLにおけるプライバシーと解釈可能性の良好なトレードオフを達成できることを示した。 Federated learning (FL) aims to collaboratively train the global model in a distributed manner by sharing the model parameters from local clients to a central server, thereby potentially protecting users' private information. Nevertheless, recent studies have illustrated that FL still suffers from information leakage as adversaries try to recover the training data by analyzing shared parameters from local clients. To deal with this issue, differential privacy (DP) is adopted to add noise to the gradients of local models before aggregation. It, however, results in the poor performance of gradient-based interpretability methods, since some weights capturing the salient region in feature map will be perturbed. To overcome this problem, we propose a simple yet effective adaptive differential privacy (ADP) mechanism that selectively adds noisy perturbations to the gradients of client models in FL. We also theoretically analyze the impact of gradient perturbation on the model interpretability. Finally, extensive experiments on both IID and Non-IID data demonstrate that the proposed ADP can achieve a good trade-off between privacy and interpretability in FL. | 翻訳日:2023-02-17 15:21:32 公開日:2023-02-16 |
# GraphPrompt: グラフニューラルネットワークの事前トレーニングとダウンストリームタスクの統合 GraphPrompt: Unifying Pre-Training and Downstream Tasks for Graph Neural Networks ( http://arxiv.org/abs/2302.08043v1 ) ライセンス: Link先を確認 | Zemin Liu, Xingtong Yu, Yuan Fang, Xinming Zhang | (参考訳) グラフはオブジェクト間の複雑な関係をモデル化することができ、オンラインページ/アーティクル分類やソーシャルレコメンデーションのような無数のWebアプリケーションを可能にする。
グラフニューラルネットワーク(GNN)はグラフ表現学習の強力なツールとして登場したが、エンドツーエンドの教師付き設定では、そのパフォーマンスはタスク固有の大量の監視に大きく依存している。
ラベル付けの要件を減らすために、"pre-train, fine-tune" と "pre-train, prompt" のパラダイムはますます一般的になっている。
特に、プロンプトは自然言語処理における微調整に代わる一般的な選択肢であり、タスク固有の方法で事前学習と下流目標の間のギャップを狭めるように設計されている。
しかし、グラフのプロンプトに関する既存の研究はまだ限られており、下流の様々なタスクにアピールするための普遍的な処理が欠如している。
本稿では,グラフの事前学習と促進のための新しいフレームワークであるGraphPromptを提案する。
graphpromptは、事前トレーニングとダウンストリームのタスクを共通のタスクテンプレートに統合するだけでなく、学習可能なプロンプトを使用して、タスク固有の方法で、事前トレーニングモデルから最も関連する知識を見つける。
最後に、GraphPromptの評価と分析を行うために、5つの公開データセットに関する広範な実験を行う。 Graphs can model complex relationships between objects, enabling a myriad of Web applications such as online page/article classification and social recommendation. While graph neural networks(GNNs) have emerged as a powerful tool for graph representation learning, in an end-to-end supervised setting, their performance heavily rely on a large amount of task-specific supervision. To reduce labeling requirement, the "pre-train, fine-tune" and "pre-train, prompt" paradigms have become increasingly common. In particular, prompting is a popular alternative to fine-tuning in natural language processing, which is designed to narrow the gap between pre-training and downstream objectives in a task-specific manner. However, existing study of prompting on graphs is still limited, lacking a universal treatment to appeal to different downstream tasks. In this paper, we propose GraphPrompt, a novel pre-training and prompting framework on graphs. GraphPrompt not only unifies pre-training and downstream tasks into a common task template, but also employs a learnable prompt to assist a downstream task in locating the most relevant knowledge from the pre-train model in a task-specific manner. Finally, we conduct extensive experiments on five public datasets to evaluate and analyze GraphPrompt. | 翻訳日:2023-02-17 15:21:13 公開日:2023-02-16 |
# 高次tskから低次tskへのファジィ知識蒸留 Fuzzy Knowledge Distillation from High-Order TSK to Low-Order TSK ( http://arxiv.org/abs/2302.08038v1 ) ライセンス: Link先を確認 | Xiongtao Zhang, Zezong Yin, Yunliang Jiang, Yizhang Jiang, Danfeng Sun and Yong Liu | (参考訳) 高階高次スゲノカン(tsk)ファジィ分類器は強力な分類性能を持つが、ファジィルールは少ないが、ファジィルールの連続部分で使用される高階多項式の指数的成長訓練時間と低次tskファジィ分類器は高速で高い解釈性を持つが、通常はよりファジィルールを必要とし、比較的うまく動作しない。
本研究では,HTSK-LLM-DKDと呼ばれる知識蒸留を組み込んだ新しいTSKファジィ分類器を提案する。
HTSK-LLM-DKDは以下の特徴を持つ。
1) It takes High-order TSK classifier as teacher model and Low-order TSK fuzzy classifier as student model, and leverages the proposed LLM-DKD (Least Learning Machine based Decoupling Knowledge Distillation) to distill the fuzzy dark knowledge from High-order TSK fuzzy classifier to Low-order TSK fuzzy classifier, which resulting in Low-order TSK fuzzy classifier endowed with enhanced performance surpassing or at least comparable to High-order TSK classifier, as well as high interpretability; specifically
2) 教師モデルの出力と各クラスとの負のユークリッド距離を用いて教師ログを取得し、その後、蒸留温度パラメータを用いてソフトマックス関数により教師/学生のソフトラベルを算出する。
3)Kullback-Leiblerの分岐を再構成することにより,ファジィダークな知識をターゲットクラス知識と非ターゲットクラス知識に分離し,学生モデルに伝達する。
HTSK-LLM-DKDの利点は、分類性能とモデル解釈可能性の観点から、UCIデータセットと実際のデータセットであるクリーブランド心臓病において検証される。 High-order Takagi-Sugeno-Kang (TSK) fuzzy classifiers possess powerful classification performance yet have fewer fuzzy rules, but always be impaired by its exponential growth training time and poorer interpretability owing to High-order polynomial used in consequent part of fuzzy rule, while Low-order TSK fuzzy classifiers run quickly with high interpretability, however they usually require more fuzzy rules and perform relatively not very well. Address this issue, a novel TSK fuzzy classifier embeded with knowledge distillation in deep learning called HTSK-LLM-DKD is proposed in this study. HTSK-LLM-DKD achieves the following distinctive characteristics: 1) It takes High-order TSK classifier as teacher model and Low-order TSK fuzzy classifier as student model, and leverages the proposed LLM-DKD (Least Learning Machine based Decoupling Knowledge Distillation) to distill the fuzzy dark knowledge from High-order TSK fuzzy classifier to Low-order TSK fuzzy classifier, which resulting in Low-order TSK fuzzy classifier endowed with enhanced performance surpassing or at least comparable to High-order TSK classifier, as well as high interpretability; specifically 2) The Negative Euclidean distance between the output of teacher model and each class is employed to obtain the teacher logits, and then it compute teacher/student soft labels by the softmax function with distillating temperature parameter; 3) By reformulating the Kullback-Leibler divergence, it decouples fuzzy dark knowledge into target class knowledge and non-target class knowledge, and transfers them to student model. The advantages of HTSK-LLM-DKD are verified on the benchmarking UCI datasets and a real dataset Cleveland heart disease, in terms of classification performance and model interpretability. | 翻訳日:2023-02-17 15:20:50 公開日:2023-02-16 |
# 部分と全体間の巡回歩行によるオブジェクト中心学習 Object-centric Learning with Cyclic Walks between Parts and Whole ( http://arxiv.org/abs/2302.08023v1 ) ライセンス: Link先を確認 | Ziyu Wang, Mike Zheng Shou, Mengmi Zhang | (参考訳) 複雑な自然環境からオブジェクト中心の表現を学習することで、人間と機械の両方が低レベルの知覚的特徴から推論できる。
シーンの構成エンティティをキャプチャするために,cnnやトランスフォーマーから抽出した知覚特徴と対象エンティティとの循環ウォークを提案した。
まず、スロットアテンションモジュールがこれらの知覚的特徴とインターフェースし、スロット表現の有限セットを生成する。
これらのスロットは、注目のためにスロット間競争を通じて、シーン内の任意のオブジェクトエンティティにバインドすることができる。
次に、知覚的特徴(「部分」)とスロット結合オブジェクト表現(「全体」)のペアの類似性に基づいて、巡回歩行と高遷移確率の実体特徴対応を確立する。
全体は部分よりも大きく、部分全体が全体を構成する。
部品間相互作用のサイクルは、スロットアテンションモジュールをトレーニングするための監督信号として構成される。
サイクリックウォークで訓練されたネットワークは,教師なしの3つの学習タスクにおいて,7つの画像データセットからオブジェクト中心表現を抽出することができる。
画像や特徴の再構成のためのデコーダを付加したオブジェクト中心モデルとは対照的に、循環ウォークは強力な監視信号を提供し、計算オーバーヘッドを回避し、メモリ効率を向上する。 Learning object-centric representations from complex natural environments enables both humans and machines with reasoning abilities from low-level perceptual features. To capture compositional entities of the scene, we proposed cyclic walks between perceptual features extracted from CNN or transformers and object entities. First, a slot-attention module interfaces with these perceptual features and produces a finite set of slot representations. These slots can bind to any object entities in the scene via inter-slot competitions for attention. Next, we establish entity-feature correspondence with cyclic walks along high transition probability based on pairwise similarity between perceptual features (aka "parts") and slot-binded object representations (aka "whole"). The whole is greater than its parts and the parts constitute the whole. The part-whole interactions form cycle consistencies, as supervisory signals, to train the slot-attention module. We empirically demonstrate that the networks trained with our cyclic walks can extract object-centric representations on seven image datasets in three unsupervised learning tasks. In contrast to object-centric models attached with a decoder for image or feature reconstructions, our cyclic walks provide strong supervision signals, avoiding computation overheads and enhancing memory efficiency. | 翻訳日:2023-02-17 15:20:17 公開日:2023-02-16 |
# Fourier Analysisがランタイム分析に到達 - プラトー上の精密ランタイム Fourier Analysis Meets Runtime Analysis: Precise Runtimes on Plateaus ( http://arxiv.org/abs/2302.08021v1 ) ライセンス: Link先を確認 | Benjamin Doerr, Andrew James Kelley | (参考訳) 本研究では, 離散フーリエ解析に基づく新しい手法を提案し, 進化的アルゴリズムがプラトーに費やす時間を解析する。
これはすぐに、garnier, kallel, schoenauer (1999) による針問題に対する$(1+1)$進化アルゴリズムの期待実行時間の古典的な推定の簡潔な証明を与える。
また、この手法を用いて、$(1+1)$の進化的アルゴリズムのランタイムを、$n/\ell$の有効サイズの2^\ell-1$からなる新しいベンチマークで解析する。
そこで,本手法では,静的および適合度に依存した変異率を推定する。
また、漸近的に最適な静的および適合依存的な突然変異率も決定する。
$\ell = o(n)$の場合、最適な静的突然変異率はおよそ1.59/n$である。
最初の$k$の適合ビットが見つかったとき、最適な適合依存突然変異率は漸近的に1/(k+1)$である。
これらの結果は、これまでのところ、シングルインスタンス問題のLeadingOnesでのみ証明されている。
LeadingOnesの他の重要な結果に対して、同様の拡張が真であると期待しています。
また、フーリエ解析アプローチが他の高原問題にも適用可能であることも楽観的です。 We propose a new method based on discrete Fourier analysis to analyze the time evolutionary algorithms spend on plateaus. This immediately gives a concise proof of the classic estimate of the expected runtime of the $(1+1)$ evolutionary algorithm on the Needle problem due to Garnier, Kallel, and Schoenauer (1999). We also use this method to analyze the runtime of the $(1+1)$ evolutionary algorithm on a new benchmark consisting of $n/\ell$ plateaus of effective size $2^\ell-1$ which have to be optimized sequentially in a LeadingOnes fashion. Using our new method, we determine the precise expected runtime both for static and fitness-dependent mutation rates. We also determine the asymptotically optimal static and fitness-dependent mutation rates. For $\ell = o(n)$, the optimal static mutation rate is approximately $1.59/n$. The optimal fitness dependent mutation rate, when the first $k$ fitness-relevant bits have been found, is asymptotically $1/(k+1)$. These results, so far only proven for the single-instance problem LeadingOnes, are thus true in a much broader respect. We expect similar extensions to be true for other important results on LeadingOnes. We are also optimistic that our Fourier analysis approach can be applied to other plateau problems as well. | 翻訳日:2023-02-17 15:19:56 公開日:2023-02-16 |
# 公正な機械学習ソフトウェアを目指して : 対物思考によるモデルバイアスの理解と対処 Towards Fair Machine Learning Software: Understanding and Addressing Model Bias Through Counterfactual Thinking ( http://arxiv.org/abs/2302.08018v1 ) ライセンス: Link先を確認 | Zichong Wang, Yang Zhou, Meikang Qiu, Israat Haque, Laura Brown, Yi He, Jianwu Wang, David Lo and Wenbin Zhang | (参考訳) 機械学習(ML)ソフトウェアの使用の増加は不公平で非倫理的な決定につながる可能性があるため、ソフトウェアの公平性に関するバグが懸念されている。
これらの公正なバグに対処するには、精度などのMLパフォーマンスを犠牲にすることが多い。
本稿では,機械学習ソフトウェアにおけるバイアスの根本原因に取り組むために,反事実的思考を用いた新しい反事実的アプローチを提案する。
さらに、性能と公平性の両方に最適化されたモデルを組み合わせて、両方の面において最適なソリューションを作ります。
5つのパフォーマンス指標,3つのフェアネス指標,15の計測シナリオを組み合わせて,実世界の8つのデータセットに適用した10のベンチマークタスクに対して,我々のアプローチを徹底的に評価した。
提案手法は,競争性能を維持しつつ,MLソフトウェアの公正性を著しく向上し,最近のベンチマークツールによる全体の84.6%において,最先端のソリューションよりも優れていた。 The increasing use of Machine Learning (ML) software can lead to unfair and unethical decisions, thus fairness bugs in software are becoming a growing concern. Addressing these fairness bugs often involves sacrificing ML performance, such as accuracy. To address this issue, we present a novel counterfactual approach that uses counterfactual thinking to tackle the root causes of bias in ML software. In addition, our approach combines models optimized for both performance and fairness, resulting in an optimal solution in both aspects. We conducted a thorough evaluation of our approach on 10 benchmark tasks using a combination of 5 performance metrics, 3 fairness metrics, and 15 measurement scenarios, all applied to 8 real-world datasets. The conducted extensive evaluations show that the proposed method significantly improves the fairness of ML software while maintaining competitive performance, outperforming state-of-the-art solutions in 84.6% of overall cases based on a recent benchmarking tool. | 翻訳日:2023-02-17 15:19:35 公開日:2023-02-16 |
# 進化するデータストリームにおける差別的意思決定の防止 Preventing Discriminatory Decision-making in Evolving Data Streams ( http://arxiv.org/abs/2302.08017v1 ) ライセンス: Link先を確認 | Zichong Wang, Nripsuta Saxena, Tongjia Yu, Sneha Karki, Tyler Zetty, Israat Haque, Shan Zhou, Dukka Kc, Ian Stockwell, Albert Bifet and Wenbin Zhang | (参考訳) 機械学習のバイアスは、ここ10年で明らかに注目を集めている。
しかし、意思決定システムのバイアスに対処するために、ほとんどの公正な機械学習(フェアML)は、オフライン設定のみに焦点を当てている。
現実世界におけるオンラインシステムの普及にもかかわらず、オンライン環境におけるバイアスを特定し修正する作業は極めて不足している。
オンライン環境のユニークな課題は、オフライン環境よりもバイアスの対処を難しくする。
まず、ストリーミング機械学習(SML)アルゴリズムは、常に進化するリアルタイムデータストリームを扱う必要がある。
次に、新しい受信データに対して正確な予測を行うために、データ分散の変化(コンセプトドリフト)に適応する必要があります。
この複雑なタスクに公平性制約を加えるのは簡単ではありません。
本研究では,概念ドリフトの存在を考慮しつつ,バイアスデータストリームの公平性を実現する上での課題に着目し,一度に1つのサンプルにアクセスする。
本稿では,SML分類アルゴリズムと統合可能な新しいフェアリバランス手法であるFair Smpling over Stream(FS^2$)を提案する。
さらに,fbu(unified performance-fairness metric, fairness bonded utility)を考案し,異なるバイアス緩和法の性能と公正性のトレードオフを効率的に評価・比較する。
FBUは、統一的かつ直感的な評価により、複数のテクニックの公平性とパフォーマンスのトレードオフの比較を単純化し、モデル設計者が容易にテクニックを選択できるようにする。
これまでに文献で報告された他の公正なオンライン手法を網羅した評価を行った。 Bias in machine learning has rightly received significant attention over the last decade. However, most fair machine learning (fair-ML) work to address bias in decision-making systems has focused solely on the offline setting. Despite the wide prevalence of online systems in the real world, work on identifying and correcting bias in the online setting is severely lacking. The unique challenges of the online environment make addressing bias more difficult than in the offline setting. First, Streaming Machine Learning (SML) algorithms must deal with the constantly evolving real-time data stream. Second, they need to adapt to changing data distributions (concept drift) to make accurate predictions on new incoming data. Adding fairness constraints to this already complicated task is not straightforward. In this work, we focus on the challenges of achieving fairness in biased data streams while accounting for the presence of concept drift, accessing one sample at a time. We present Fair Sampling over Stream ($FS^2$), a novel fair rebalancing approach capable of being integrated with SML classification algorithms. Furthermore, we devise the first unified performance-fairness metric, Fairness Bonded Utility (FBU), to evaluate and compare the trade-off between performance and fairness of different bias mitigation methods efficiently. FBU simplifies the comparison of fairness-performance trade-offs of multiple techniques through one unified and intuitive evaluation, allowing model designers to easily choose a technique. Overall, extensive evaluations show our measures surpass those of other fair online techniques previously reported in the literature. | 翻訳日:2023-02-17 15:19:19 公開日:2023-02-16 |
# 検閲による学習における個人公平性保証 Individual Fairness Guarantee in Learning with Censorship ( http://arxiv.org/abs/2302.08015v1 ) ライセンス: Link先を確認 | Wenbin Zhang, Juyong Kim, Zichong Wang, Pradeep Ravikumar and Jeremy Weiss | (参考訳) 機械学習(ML)アルゴリズムを公平にする方法を研究するアルゴリズムフェアネスは、MLの確立した領域である。
ML技術が社会的影響の高いものを含むアプリケーション領域を拡大するにつれて、MLシステムを構築する際に公平性を考慮することが不可欠となる。
しかし、その幅広い社会的に敏感な応用にもかかわらず、ほとんどの研究はアルゴリズムバイアスの問題を教師付き学習の本質的な性質として扱い、すなわち、クラスラベルは前提条件として与えられる。
従来の公正な作業とは違って、クラスラベルの有効性の仮定が持たない検閲による学習における個人の公正さについて検討する一方で、類似した個人も同様に扱われることを要求している。
この視点は、現実世界のアプリケーション展開のための公平性研究のより現実的なモデルであり、そのような緩和された前提条件で学習がどのようにしてアルゴリズム的公平性を説明する新しい洞察を引き出すかを示す。
また,提案手法の3つの実世界のデータセット上での性能を徹底的に評価し,予測性能を維持しながら識別の最小化における優れた性能を評価する。 Algorithmic fairness, studying how to make machine learning (ML) algorithms fair, is an established area of ML. As ML technologies expand their application domains, including ones with high societal impact, it becomes essential to take fairness into consideration when building ML systems. Yet, despite its wide range of socially sensitive applications, most work treats the issue of algorithmic bias as an intrinsic property of supervised learning, i.e., the class label is given as a precondition. Unlike prior fairness work, we study individual fairness in learning with censorship where the assumption of availability of the class label does not hold, while still requiring that similar individuals are treated similarly. We argue that this perspective represents a more realistic model of fairness research for real-world application deployment, and show how learning with such a relaxed precondition draws new insights that better explain algorithmic fairness. We also thoroughly evaluate the performance of the proposed methodology on three real-world datasets, and validate its superior performance in minimizing discrimination while maintaining predictive performance. | 翻訳日:2023-02-17 15:18:53 公開日:2023-02-16 |
# データ強化マルチビューの深層学習アンサンブルを用いた化石画像の同定 Fossil Image Identification using Deep Learning Ensembles of Data Augmented Multiviews ( http://arxiv.org/abs/2302.08062v1 ) ライセンス: Link先を確認 | Chengbin Hou, Xinyu Lin, Hanhui Huang, Sheng Xu, Junxuan Fan, Yukun Shi, Hairong Lv | (参考訳) 化石種の同定は進化研究に不可欠である。
深層学習による最近の進歩は、化石画像の識別に有望な可能性を示している。
しかし、ラベル付き化石画像の量や品質は、しばしば化石保存、条件付きサンプリング、ドメインの専門家による高価で一貫性のないラベルアノテーションによって制限され、深層学習に基づく画像分類モデルの訓練には大きな課題が生じる。
これらの課題に対処するために,群集の知恵を追求し,その特徴を反映した各標本像の複数ビューを収集し,複数のベース深層学習モデルを訓練し,ソフト投票による最終決定を行う,新しい多視点アンサンブルフレームワークを提案する。
さらに,本フレームワークの下で,オリジナル,グレー,スケルトンビューを統合して有効性を示すOGS手法を開発した。
深層学習に基づく5つのマイルストーンモデルに対するフスリノイド化石データセットの実験結果は、3つのベースモデルを用いたOGSが1つのベースモデルで一貫してベースラインを上回り、それぞれのビューの有用性を検証する。
さらに、ogsは、よく知られたバグングフレームワーク下での手法よりも優れた性能または比較性能を得る。
さらに、利用可能なトレーニングデータが減少するにつれて、提案するフレームワークはベースラインよりもパフォーマンスが向上する。
さらに、2人の人間専門家による一貫性テストでは、OGSはデータセットのラベルと2人の専門家の両方と最高の合意を得る。
特に、この手法は一般的な化石同定のために設計されており、他の化石データセットに応用されることが期待されている。
この結果は、ラベル付きデータの量や品質が特に制限されている場合、例えば希少な化石画像の特定に応用される可能性を示している。 Identification of fossil species is crucial to evolutionary studies. Recent advances from deep learning have shown promising prospects in fossil image identification. However, the quantity and quality of labeled fossil images are often limited due to fossil preservation, conditioned sampling, and expensive and inconsistent label annotation by domain experts, which pose great challenges to the training of deep learning based image classification models. To address these challenges, we follow the idea of the wisdom of crowds and propose a novel multiview ensemble framework, which collects multiple views of each fossil specimen image reflecting its different characteristics to train multiple base deep learning models and then makes final decisions via soft voting. We further develop OGS method that integrates original, gray, and skeleton views under this framework to demonstrate the effectiveness. Experimental results on the fusulinid fossil dataset over five deep learning based milestone models show that OGS using three base models consistently outperforms the baseline using a single base model, and the ablation study verifies the usefulness of each selected view. Besides, OGS obtains the superior or comparable performance compared to the method under well-known bagging framework. Moreover, as the available training data decreases, the proposed framework achieves more performance gains compared to the baseline. Furthermore, a consistency test with two human experts shows that OGS obtains the highest agreement with both the labels of dataset and the two experts. Notably, this methodology is designed for general fossil identification and it is expected to see applications on other fossil datasets. The results suggest the potential application when the quantity and quality of labeled data are particularly restricted, e.g., to identify rare fossil images. | 翻訳日:2023-02-17 15:13:13 公開日:2023-02-16 |
# 応答:コメント:誰も見なければ月はそこにありますか?
ベルの不等式と物理現実 Response: Commentary: Is the moon there if nobody looks? Bell inequalities and physical reality ( http://arxiv.org/abs/2302.08061v1 ) ライセンス: Link先を確認 | Marian Kupczynski | (参考訳) 我々はGill and Lambare[arXiv:2211.02481, arXiv:2208.09930]の論文[2209.07992]の不当な批判を拒絶する。
彼らはこの記事の内容と結論を完全に誤解している。
非互換な実験環境を用いて実施された4つの実験の結果を表す確率変数を共分散した反実確率モデルを構築した。
したがって、chsh不等式はモデルによって生成されるすべての有限サンプルに対して自明に成り立つ。
彼らのモデルはベルテストの生データのみを記述するモデルに対して確率的結合を定義する。
この結合の存在は、ベルテストからの最終データを記述する文脈確率モデルの導出を無効にしない。
これらの最終データはベルの不等式をテストするためにのみ使用される。
我々のモデルは統計的独立に反するため、不平等は導出できない。
我々の文脈モデルは、局所的かつ因果的に不平等の違反と、これらの実験で報告された無署名の明らかな違反を説明することができる。 We reject unjustified criticism of our published article [2209.07992] by Gill and Lambare [arXiv:2211.02481, arXiv:2208.09930]. They completely misinterpret the content and conclusions of this article. They construct a counterfactual probabilistic model in which random variables representing outcomes of four experiments performed using incompatible experimental settings are jointly distributed. Thus, CHSH inequalities trivially hold for all finite samples generated by their model. Their model defines a probabilistic coupling for our model describing only the raw data from Bell tests. The existence of this coupling does not invalidate the derivation of the contextual probabilistic model describing the final data from Bell tests. Only these final data are used to test Bell inequalities. Inequalities cannot be derived because our model violates statistical independence. Our contextual model allows to explain in a local and causal way the violation of inequalities and the apparent violation of no-signaling reported in these experiments. | 翻訳日:2023-02-17 15:12:44 公開日:2023-02-16 |
# 可逆マルコフ鎖の同一性検定に対する幾何学的還元法 A Geometric Reduction Approach for Identity Testing of Reversible Markov Chains ( http://arxiv.org/abs/2302.08059v1 ) ライセンス: Link先を確認 | Geoffrey Wolfer and Shun Watanabe | (参考訳) 我々は、可逆マルコフ連鎖の同一性をテストする問題を単一の観測軌道からの参照に対して検討する。
最近導入されたラムピング整合マルコフ埋め込みの概念を用いて、少なくともわずかに制限された環境では、可逆鎖に対するアイデンティティのテストは、より大きな状態空間上の対称鎖のテストに還元され、問題に対する最先端のサンプル複雑性を回復する。 We consider the problem of testing the identity of a reversible Markov chain against a reference from a single trajectory of observations. Employing the recently introduced notion of a lumping-congruent Markov embedding, we show that, at least in a mildly restricted setting, testing identity to a reversible chain reduces to testing to a symmetric chain over a larger state space and recover state-of-the-art sample complexity for the problem. | 翻訳日:2023-02-17 15:12:31 公開日:2023-02-16 |
# 光場画像の超解像に対する非局所空間角相関の学習 Learning Non-Local Spatial-Angular Correlation for Light Field Image Super-Resolution ( http://arxiv.org/abs/2302.08058v1 ) ライセンス: Link先を確認 | Zhengyu Liang, Yingqian Wang, Longguang Wang, Jungang Yang, Shilin Zhou, Yulan Guo | (参考訳) 空間-角相関の爆発は光場(LF)画像超解像(SR)にとって重要であるが、LF画像間の相違による非局所性のため、非常に困難である。
多くのディープニューラルネットワーク(dnn)がlfイメージsr用に開発され、性能が継続的に向上しているが、既存の手法では長距離空間-三角形相関を十分に活用できないため、大きなばらつきを持つシーンを扱う場合のパフォーマンス低下が著しい。
本稿では,LF画像SRの非局所空間角相関を学習するための簡易かつ効果的な手法を提案する。
本研究では,複数の2次元EPI平面に4次元空間角相関を投影するために,エピポーラ平面画像(EPI)表現を採用し,また,反復的な自己アテンション操作を施したトランスフォーマーネットワークを開発し,それぞれのEPI画素間の依存関係をモデル化して空間角相関を学習する。
提案手法は,全角視からの情報を完全に取り入れつつ,極上線に沿った大域的受容場を達成できる。
本手法の有効性を検証するため,洞察力のある可視化実験を行った。
5つの公開データセットの比較結果から,本手法は最先端のsr性能を実現するだけでなく,ばらつきに頑健な性能を示す。
コードはhttps://github.com/ZhengyuLiang24/EPIT.comで公開されている。 Exploiting spatial-angular correlation is crucial to light field (LF) image super-resolution (SR), but is highly challenging due to its non-local property caused by the disparities among LF images. Although many deep neural networks (DNNs) have been developed for LF image SR and achieved continuously improved performance, existing methods cannot well leverage the long-range spatial-angular correlation and thus suffer a significant performance drop when handling scenes with large disparity variations. In this paper, we propose a simple yet effective method to learn the non-local spatial-angular correlation for LF image SR. In our method, we adopt the epipolar plane image (EPI) representation to project the 4D spatial-angular correlation onto multiple 2D EPI planes, and then develop a Transformer network with repetitive self-attention operations to learn the spatial-angular correlation by modeling the dependencies between each pair of EPI pixels. Our method can fully incorporate the information from all angular views while achieving a global receptive field along the epipolar line. We conduct extensive experiments with insightful visualizations to validate the effectiveness of our method. Comparative results on five public datasets show that our method not only achieves state-of-the-art SR performance, but also performs robust to disparity variations. Code is publicly available at https://github.com/ZhengyuLiang24/EPIT. | 翻訳日:2023-02-17 15:12:22 公開日:2023-02-16 |
# スペクトル3Dコンピュータビジョン - レビュー Spectral 3D Computer Vision -- A Review ( http://arxiv.org/abs/2302.08054v1 ) ライセンス: Link先を確認 | Yajie Sun and Ali Zia and Vivien Rolland and Charissa Yu and Jun Zhou | (参考訳) 分光3Dコンピュータビジョンは、物体の幾何学的特性とスペクトル的特性の両方を調べる。
電磁スペクトルの様々な領域の狭い帯域からの情報を提供することで、物体の物理的性質をより深く理解する。
スペクトル情報を3Dモデルにマッピングすると、スペクトル構造空間の変化が明らかになり、反射率、色収差、様々なデフォーカスぼけといった特性で3D表現が強化される。
この新たなパラダイムは、従来のコンピュータビジョンを進化させ、3d構造、深さ推定、動き分析などの新しい研究の道を開く。
スマート農業、環境モニタリング、建築検査、地質調査、デジタル文化遺産記録などの分野に応用されている。
本調査は,手法の統一分類法,応用分野,今後の課題と展望を含む,スペクトル3次元コンピュータビジョンの包括的概要を提供する。 Spectral 3D computer vision examines both the geometric and spectral properties of objects. It provides a deeper understanding of an object's physical properties by providing information from narrow bands in various regions of the electromagnetic spectrum. Mapping the spectral information onto the 3D model reveals changes in the spectra-structure space or enhances 3D representations with properties such as reflectance, chromatic aberration, and varying defocus blur. This emerging paradigm advances traditional computer vision and opens new avenues of research in 3D structure, depth estimation, motion analysis, and more. It has found applications in areas such as smart agriculture, environment monitoring, building inspection, geological exploration, and digital cultural heritage records. This survey offers a comprehensive overview of spectral 3D computer vision, including a unified taxonomy of methods, key application areas, and future challenges and prospects. | 翻訳日:2023-02-17 15:11:55 公開日:2023-02-16 |
# rgb-dサルエント物体検出のための階層型クロスモーダルトランス Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection ( http://arxiv.org/abs/2302.08052v1 ) ライセンス: Link先を確認 | Hao Chen and Feihong Shen | (参考訳) 既存の RGB-D salient Object Detection (SOD) 法の多くは、CNN の自然な局所性のため、空間とモダリティの長距離依存性をモデル化できない CNN ベースのパラダイムに従っている。
本稿では,新しいマルチモーダル変圧器である階層型クロスモーダル変圧器(hct)を提案する。
2つのモードからパッチを直接接続する以前のマルチモーダル変圧器とは異なり、非整合領域におけるモダリティギャップと空間差を考慮し、階層的にクロスモーダル相補性を検討する。
具体的には、モーダル内自己注意を用いて補完的なグローバルな文脈を探索し、モーダル間関心を局所的に測定し、モーダル間相関を捉えることを提案する。
さらに,マルチモーダル統合経路を解消し,融合適応性を向上させるための一貫性補完モジュールとともに,情報型クロススケール統合を促進する機能ピラミッドモジュール(fpt)を提案する。
様々な公開データセットに関する総合的な実験は、我々の設計の有効性と最先端モデルに対する一貫した改善を検証する。 Most of existing RGB-D salient object detection (SOD) methods follow the CNN-based paradigm, which is unable to model long-range dependencies across space and modalities due to the natural locality of CNNs. Here we propose the Hierarchical Cross-modal Transformer (HCT), a new multi-modal transformer, to tackle this problem. Unlike previous multi-modal transformers that directly connecting all patches from two modalities, we explore the cross-modal complementarity hierarchically to respect the modality gap and spatial discrepancy in unaligned regions. Specifically, we propose to use intra-modal self-attention to explore complementary global contexts, and measure spatial-aligned inter-modal attention locally to capture cross-modal correlations. In addition, we present a Feature Pyramid module for Transformer (FPT) to boost informative cross-scale integration as well as a consistency-complementarity module to disentangle the multi-modal integration path and improve the fusion adaptivity. Comprehensive experiments on a large variety of public datasets verify the efficacy of our designs and the consistent improvement over state-of-the-art models. | 翻訳日:2023-02-17 15:11:39 公開日:2023-02-16 |
# 認証ロバスト性に対するグラフ反転免疫 Graph Adversarial Immunization for Certifiable Robustness ( http://arxiv.org/abs/2302.08051v1 ) ライセンス: Link先を確認 | Shuchang Tao, Huawei Shen, Qi Cao, Yunfan Wu, Liang Hou, Xueqi Cheng | (参考訳) 大きな成功にもかかわらず、グラフニューラルネットワーク(GNN)は敵の攻撃に対して脆弱である。
既存の防衛は敵の訓練や堅牢なGNNの開発に重点を置いている。
しかし、グラフ上の免疫化の可能性と実践にはほとんど研究の注意が払われていない。
そこで本研究では,グラフ攻撃に対するグラフの証明可能なロバスト性を改善するために,グラフ攻撃免疫,すなわち,グラフ構造のワクチン化部を提案し,定式化する。
まず,ノード対を接種するためのエッジレベル免疫法を提案する。
主要な成功にもかかわらず、そのようなエッジレベルの免疫は、既存のノードペアのみを免疫するため、出現するノードインジェクション攻撃に対して防御できない。
この目的のために、我々はさらにノードレベルの免疫を提案する。
対向免疫の解法における計算コストのかかる組合せ最適化を回避するため,AdvImmune-EdgeおよびAdvImmune-Nodeアルゴリズムを設計し,免疫ノード対やノードを効果的に取得する。
実験はAdvImmune法が優れていることを示す。
特にAdvImmune-Nodeは、わずか5%のノードを免疫した後、ロバストノードの割合を79%、294%、100%改善している。
また、各種攻撃に対して優れた防御性能を示し、最先端の防御を上回っている。
私たちの知る限りでは、クリーングラフのパフォーマンスを損なうことなく、グラフデータの観点から証明可能な堅牢性を改善するための最初の試みである。 Despite achieving great success, graph neural networks (GNNs) are vulnerable to adversarial attacks. Existing defenses focus on developing adversarial training or robust GNNs. However, little research attention is paid to the potential and practice of immunization on graphs. In this paper, we propose and formulate graph adversarial immunization, i.e., vaccinating part of graph structure to improve certifiable robustness of graph against any admissible adversarial attack. We first propose edge-level immunization to vaccinate node pairs. Despite the primary success, such edge-level immunization cannot defend against emerging node injection attacks, since it only immunizes existing node pairs. To this end, we further propose node-level immunization. To circumvent computationally expensive combinatorial optimization when solving adversarial immunization, we design AdvImmune-Edge and AdvImmune-Node algorithms to effectively obtain the immune node pairs or nodes. Experiments demonstrate the superiority of AdvImmune methods. In particular, AdvImmune-Node remarkably improves the ratio of robust nodes by 79%, 294%, and 100%, after immunizing only 5% nodes. Furthermore, AdvImmune methods show excellent defensive performance against various attacks, outperforming state-of-the-art defenses. To the best of our knowledge, this is the first attempt to improve certifiable robustness from graph data perspective without losing performance on clean graphs, providing new insights into graph adversarial learning. | 翻訳日:2023-02-17 15:11:17 公開日:2023-02-16 |
# 不完全アノテーションを有する病理組織像における二値および多値細胞検出のための正ラベル学習 Positive-unlabeled learning for binary and multi-class cell detection in histopathology images with incomplete annotations ( http://arxiv.org/abs/2302.08050v1 ) ライセンス: Link先を確認 | Zipei Zhao and Fengqian Pang and Yaou Liu and Zhiwen Liu and Chuyang Ye | (参考訳) 病理組織像における細胞検出は臨床と研究に大きな関心を寄せ、畳み込みニューラルネットワーク(cnns)は優れた細胞検出結果を得た。
通常、cnnベースの細胞検出モデルをトレーニングするには、トレーニング画像中のすべてのポジティブなインスタンスに注釈をつける必要があり、ポジティブとラベル付けされていないインスタンスは負のサンプルとみなされる。
しかし, 細胞数の多さや多様性のため, 手動の細胞アノテーションは複雑であり, 正のインスタンスのアノテーションを確実にすることは困難である。
多くの場合、正のインスタンスがアノテートされ、他のインスタンスがアノテートされていない不完全なアノテーションのみが利用可能であり、典型的なネットワークトレーニングにおける負のサンプルの分類損失項は正しくない。
本研究では,この不完全アノテーション問題に対処するために,検出ネットワークの学習を正のラベル付き学習問題として再編成する。
注釈のない領域のインスタンスは正または負のどちらかであり得るため、未知のラベルを持つ。
まず、未知のラベルと正にラベル付けされたサンプルを用いて、バイナリー細胞検出のための負のサンプルに対応する分類損失項の近似を導出し、この近似に基づいて、提案フレームワークをさらにマルチクラス細胞検出に拡張する。
評価のために、4つの公開データセットで実験を行った。
実験の結果,ネットワークトレーニングに不完全なアノテーションが与えられ,病理組織像における細胞検出性能が向上した。 Cell detection in histopathology images is of great interest to clinical practice and research, and convolutional neural networks (CNNs) have achieved remarkable cell detection results. Typically, to train CNN-based cell detection models, every positive instance in the training images needs to be annotated, and instances that are not labeled as positive are considered negative samples. However, manual cell annotation is complicated due to the large number and diversity of cells, and it can be difficult to ensure the annotation of every positive instance. In many cases, only incomplete annotations are available, where some of the positive instances are annotated and the others are not, and the classification loss term for negative samples in typical network training becomes incorrect. In this work, to address this problem of incomplete annotations, we propose to reformulate the training of the detection network as a positive-unlabeled learning problem. Since the instances in unannotated regions can be either positive or negative, they have unknown labels. Using the samples with unknown labels and the positively labeled samples, we first derive an approximation of the classification loss term corresponding to negative samples for binary cell detection, and based on this approximation we further extend the proposed framework to multi-class cell detection. For evaluation, experiments were performed on four publicly available datasets. The experimental results show that our method improves the performance of cell detection in histopathology images given incomplete annotations for network training. | 翻訳日:2023-02-17 15:10:53 公開日:2023-02-16 |
# アンダーダム型Langevin Monte Carloの離散化解析の改善 Improved Discretization Analysis for Underdamped Langevin Monte Carlo ( http://arxiv.org/abs/2302.08049v1 ) ライセンス: Link先を確認 | Matthew Zhang, Sinho Chewi, Mufan Bill Li, Krishnakumar Balasubramanian, Murat A. Erdogdu | (参考訳) underdamped langevin monte carlo (ulmc) は、ポテンシャル井戸内を移動する粒子の運動量を利用して非正規化密度からサンプリングするアルゴリズムである。
我々は,(1)強い対数連結性以上のサンプリング保証が得られるか,という2つの中心的疑問に動機づけられたulmcの新しい解析法を提案する。
(2)サンプリングの高速化は可能か?
1) ULMCの先行結果は対数ソボレフの不等式と制限的ヘッセンスな滑らかさ条件でのみ保持される。
ここでは、ヘッセンの滑らかさ条件を取り除き、ポアンカーの不等式を満たす分布を考えることでこれらの仮定を緩和する。
解析は,芸術次元依存の状態を実現し,弱滑らかなポテンシャルを扱うのに十分な柔軟性を有する。
副生成物として, 強対連結性下でのヘッセン滑らか性のないulmcに対する最初のkl発散保証を得るとともに, 沈殿したランジュバン拡散に沿った対数ソボレフ定数の新たな結果に基づく。
2) に対し、最近の Cao, Lu, and Wang (2020) のブレークスルーにより、PDE 法による連続時間サンプリングのための最初の加速結果が確立された。
我々の離散化分析は、それらの結果をアルゴリズム的な保証に変換し、従来のULMCよりも条件数依存が優れているが、離散時間で完全な加速の問題を解き放ったままである。
1) と (2) のどちらも R\'enyi の離散化境界を必要とし、これは典型的なワッサーシュタイン結合の議論よりも難しい。
我々は、より一般的な設定に容易に拡張できるジルサノフの定理に基づくフレキシブルな離散化解析を用いてこの問題に対処する。 Underdamped Langevin Monte Carlo (ULMC) is an algorithm used to sample from unnormalized densities by leveraging the momentum of a particle moving in a potential well. We provide a novel analysis of ULMC, motivated by two central questions: (1) Can we obtain improved sampling guarantees beyond strong log-concavity? (2) Can we achieve acceleration for sampling? For (1), prior results for ULMC only hold under a log-Sobolev inequality together with a restrictive Hessian smoothness condition. Here, we relax these assumptions by removing the Hessian smoothness condition and by considering distributions satisfying a Poincar\'e inequality. Our analysis achieves the state of art dimension dependence, and is also flexible enough to handle weakly smooth potentials. As a byproduct, we also obtain the first KL divergence guarantees for ULMC without Hessian smoothness under strong log-concavity, which is based on a new result on the log-Sobolev constant along the underdamped Langevin diffusion. For (2), the recent breakthrough of Cao, Lu, and Wang (2020) established the first accelerated result for sampling in continuous time via PDE methods. Our discretization analysis translates their result into an algorithmic guarantee, which indeed enjoys better condition number dependence than prior works on ULMC, although we leave open the question of full acceleration in discrete time. Both (1) and (2) necessitate R\'enyi discretization bounds, which are more challenging than the typically used Wasserstein coupling arguments. We address this using a flexible discretization analysis based on Girsanov's theorem that easily extends to more general settings. | 翻訳日:2023-02-17 15:10:26 公開日:2023-02-16 |
# ロバストな中パスフィルタリンググラフ畳み込みネットワーク Robust Mid-Pass Filtering Graph Convolutional Networks ( http://arxiv.org/abs/2302.08048v1 ) ライセンス: Link先を確認 | Jincheng Huang and Lun Du and Xu Chen and Qiang Fu and Shi Han and Dongmei Zhang | (参考訳) グラフ畳み込みネットワーク(gcns)は現在、グラフ構造データを扱う上で最も有望なパラダイムであるが、近年の研究では、gcnsが敵対的攻撃に弱いことも示されている。
したがって、このような攻撃に対して堅牢なGCNモデルの開発は、ホットな研究トピックとなっている。
しかしながら、構造的浄化学習ベースまたは堅牢性制約ベースの防衛GCN法は、通常、特定のデータや攻撃のために設計され、分類の目的ではない追加の目的が導入される。
追加の訓練のオーバーヘッドも設計上必要である。
これらの課題に対処するため,我々はグラフ上の中周波信号の詳細な探索を行い,単純な中周波フィルタGCN(Mid-GCN)を提案する。
理論解析により, 中間通過フィルタによる信号のロバスト性が保証され, また, 逆攻撃時の周波数特性にも光を当てた。
6つのベンチマークグラフデータに対する広範囲な実験により、様々な敵攻撃戦略下での最先端GCNと比較して、ノード分類精度において設計したMid-GCNの有効性が検証された。 Graph convolutional networks (GCNs) are currently the most promising paradigm for dealing with graph-structure data, while recent studies have also shown that GCNs are vulnerable to adversarial attacks. Thus developing GCN models that are robust to such attacks become a hot research topic. However, the structural purification learning-based or robustness constraints-based defense GCN methods are usually designed for specific data or attacks, and introduce additional objective that is not for classification. Extra training overhead is also required in their design. To address these challenges, we conduct in-depth explorations on mid-frequency signals on graphs and propose a simple yet effective Mid-pass filter GCN (Mid-GCN). Theoretical analyses guarantee the robustness of signals through the mid-pass filter, and we also shed light on the properties of different frequency signals under adversarial attacks. Extensive experiments on six benchmark graph data further verify the effectiveness of our designed Mid-GCN in node classification accuracy compared to state-of-the-art GCNs under various adversarial attack strategies. | 翻訳日:2023-02-17 15:09:58 公開日:2023-02-16 |
# 創発的コミュニケーションによる多対象位置関係の学習 Learning Multi-Object Positional Relationships via Emergent Communication ( http://arxiv.org/abs/2302.08084v1 ) ライセンス: Link先を確認 | Yicheng Feng, Boshi An, and Zongqing Lu | (参考訳) 創発的コミュニケーションの研究は、インタラクティブ人工知能に特化している。
既存の作業は、単一のオブジェクトや複雑なイメージシーンに関するコミュニケーションに焦点を当てているが、より現実的なタスクでは、複数のオブジェクト間の関係性が重要だと論じている。
本稿では,このギャップを埋め,二つの物体間の位置関係に関する創発的コミュニケーションに焦点をあてる。
我々は,観察対象が2つあるレファレンシャルゲームにおいてエージェントを訓練し,位置関係が絡む場合,一般化が大きな問題であることを示す。
創発的言語の一般化能力に影響を与える重要な要因は,ランダム画像生成器によって実現される話者とリスナ間の入力変動である。
さらに、この学習言語は、位置関係が目的を記述した新しい多段階のMDPタスクにおいてうまく一般化でき、また、事前訓練された画像の特徴だけでなく、生画素画像よりも優れ、離散シーケンスの強い一般化能力を検証することができる。
また,本課題で直接学習するよりも,レファレンシャルゲームからの言語移動が新しいタスクでうまく機能することを示し,レファレンシャルゲームにおける事前学習の潜在的メリットを示唆する。
全体として,創発的コミュニケーションを通じてエージェントが複数のオブジェクト間の位置関係を学習する可能性とメリットを示す実験を行った。 The study of emergent communication has been dedicated to interactive artificial intelligence. While existing work focuses on communication about single objects or complex image scenes, we argue that communicating relationships between multiple objects is important in more realistic tasks, but understudied. In this paper, we try to fill this gap and focus on emergent communication about positional relationships between two objects. We train agents in the referential game where observations contain two objects, and find that generalization is the major problem when the positional relationship is involved. The key factor affecting the generalization ability of the emergent language is the input variation between Speaker and Listener, which is realized by a random image generator in our work. Further, we find that the learned language can generalize well in a new multi-step MDP task where the positional relationship describes the goal, and performs better than raw-pixel images as well as pre-trained image features, verifying the strong generalization ability of discrete sequences. We also show that language transfer from the referential game performs better in the new task than learning language directly in this task, implying the potential benefits of pre-training in referential games. All in all, our experiments demonstrate the viability and merit of having agents learn to communicate positional relationships between multiple objects through emergent communication. | 翻訳日:2023-02-17 15:03:53 公開日:2023-02-16 |
# クエリやアスペクトベースのテキスト要約におけるChatGPTの限界探索 Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization ( http://arxiv.org/abs/2302.08081v1 ) ライセンス: Link先を確認 | Xianjun Yang, Yan Li, Xinlu Zhang, Haifeng Chen, Wei Cheng | (参考訳) テキスト要約は、数十年間、自然言語処理(NLP)において重要な問題であった。
もっとも重要な情報を保持しながら、長い文書を短いバージョンにまとめることを目的としている。
テキスト要約には抽出的および抽象的要約を含む様々な方法が提案されている。
GPT3やChatGPTのような大規模言語モデル(LLM)の出現は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、llmsが生成したニュース要約はすでに人間と同等であることが示されている。
しかし、アスペクトやクエリベースのサマリーのようなより実用的なアプリケーションに対するllmのパフォーマンスは過小評価されている。
このギャップを埋めるため,私たちは,reddit投稿やニュース記事,対話会議,記事など,さまざまな要約を含む4つのベンチマークデータセットでchatgptのパフォーマンスを評価した。
実験の結果,ChatGPTの性能は従来の微調整法に匹敵することがわかった。
さらに,ChatGPT生成サマリと人文参照の相違を強調し,テキスト要約タスクにおけるChatGPTのスーパーパワーに関する貴重な洞察を提供する。
本研究は,この領域における新たな方向性を示唆するものであり,広範な人的評価を通じてchatgpt生成サマリーの特性を体系的に検討するべく,さらなる研究を行う予定である。 Text summarization has been a crucial problem in natural language processing (NLP) for several decades. It aims to condense lengthy documents into shorter versions while retaining the most critical information. Various methods have been proposed for text summarization, including extractive and abstractive summarization. The emergence of large language models (LLMs) like GPT3 and ChatGPT has recently created significant interest in using these models for text summarization tasks. Recent studies \cite{goyal2022news, zhang2023benchmarking} have shown that LLMs-generated news summaries are already on par with humans. However, the performance of LLMs for more practical applications like aspect or query-based summaries is underexplored. To fill this gap, we conducted an evaluation of ChatGPT's performance on four widely used benchmark datasets, encompassing diverse summaries from Reddit posts, news articles, dialogue meetings, and stories. Our experiments reveal that ChatGPT's performance is comparable to traditional fine-tuning methods in terms of Rouge scores. Moreover, we highlight some unique differences between ChatGPT-generated summaries and human references, providing valuable insights into the superpower of ChatGPT for diverse text summarization tasks. Our findings call for new directions in this area, and we plan to conduct further research to systematically examine the characteristics of ChatGPT-generated summaries through extensive human evaluation. | 翻訳日:2023-02-17 15:03:29 公開日:2023-02-16 |
# Document Flattening: ドキュメントレベルニューラルネットワーク翻訳におけるコンテキストの結合を超えて Document Flattening: Beyond Concatenating Context for Document-Level Neural Machine Translation ( http://arxiv.org/abs/2302.08079v1 ) ライセンス: Link先を確認 | Minghao Wu, George Foster, Lizhen Qu, Gholamreza Haffari | (参考訳) ドキュメントレベルのニューラルマシン翻訳における既存の仕事は、通常、複数の連続した文を擬似文書として結合し、その後、知覚間の依存関係を学ぶ。
この戦略は、遠方からの情報を活用するモデルの能力を制限する。
この制限を克服するために,fba(flat-batch attention)とncg(neural context gate)をトランスフォーマーモデルに統合した新しい文書フラット化(docflat)手法を提案する。
FBAは、モデルがバッチ内のすべての位置に参加することを許可し、位置間の関係を明示的に学習し、NCGは遠いコンテキストから有用な情報を識別する。
我々は、英語とドイツ語の翻訳のための3つのベンチマークデータセットに関する包括的な実験と分析を行い、2種類のDocFlatの有効性を検証した。
実験結果から, BLEU, COMET, および比較テストセットの精度において, 統計的に有意な差が認められた。
分析の結果,DocFlatは長距離情報の取得に極めて有効であることがわかった。 Existing work in document-level neural machine translation commonly concatenates several consecutive sentences as a pseudo-document, and then learns inter-sentential dependencies. This strategy limits the model's ability to leverage information from distant context. We overcome this limitation with a novel Document Flattening (DocFlat) technique that integrates Flat-Batch Attention (FBA) and Neural Context Gate (NCG) into Transformer model to utilize information beyond the pseudo-document boundaries. FBA allows the model to attend to all the positions in the batch and learns the relationships between positions explicitly and NCG identifies the useful information from the distant context. We conduct comprehensive experiments and analyses on three benchmark datasets for English-German translation, and validate the effectiveness of two variants of DocFlat. Empirical results show that our approach outperforms strong baselines with statistical significance on BLEU, COMET and accuracy on the contrastive test set. The analyses highlight that DocFlat is highly effective in capturing the long-range information. | 翻訳日:2023-02-17 15:03:07 公開日:2023-02-16 |
# ハイブリッド光マター系における分散超放射パルスの量子ゆらぎダイナミクス Quantum Fluctuation Dynamics of Dispersive Superradiant Pulses in a Hybrid Light-Matter System ( http://arxiv.org/abs/2302.08078v1 ) ライセンス: Link先を確認 | Kevin Stitely, Fabian Finger, Rodrigo Rosa-Medina, Francesco Ferri, Tobias Donner, Tilman Esslinger, Scott Parkins, Bernd Krauskopf | (参考訳) 理論上は、単一モードの光学キャビティ内の原子アンサンブルからなる駆動散逸量子多体系をopen tavis-cummingsモデルで記述した。
このハイブリッド光物質系において、コヒーレントと散逸過程の相互作用は、数百から数千の粒子からなる系であっても強い相関関係を持つ超ラジカルパルスをもたらす。
平均場力学の中心的な特徴は、量子揺らぎによって破壊される基本となる時間反転対称性による2つのスピン自由度の自己反転である。
長時間のスケールで非常に非ガウシアンな状態を維持できるクエンチプロトコルを実証する。
この一般的なメカニズムは、散逸性スピン増幅のための量子センシングプロトコルの改善が提案されているように、複雑な変動パターンの生成と制御に興味深い可能性をもたらす。 We consider theoretically a driven-dissipative quantum many-body system consisting of an atomic ensemble in a single-mode optical cavity as described by the open Tavis-Cummings model. In this hybrid light-matter system the interplay between coherent and dissipative processes leads to superradiant pulses with a build-up of strong correlations, even for systems comprising hundreds to thousands of particles. A central feature of the mean-field dynamics is a self-reversal of two spin degrees of freedom due to an underlying time-reversal symmetry, which is broken by quantum fluctuations. We demonstrate a quench protocol that can maintain highly non-Gaussian states over long time scales. This general mechanism offers interesting possibilities for the generation and control of complex fluctuation patterns, as suggested for the improvement of quantum sensing protocols for dissipative spin-amplification. | 翻訳日:2023-02-17 15:02:46 公開日:2023-02-16 |
# 感性属性の不確かさを伴うグループフェアネス Group Fairness with Uncertainty in Sensitive Attributes ( http://arxiv.org/abs/2302.08077v1 ) ライセンス: Link先を確認 | Abhin Shah, Maohao Shen, Jongha Jon Ryu, Subhro Das, Prasanna Sattigeri, Yuheng Bu, and Gregory W. Wornell | (参考訳) 例えば、ラベル付きデータやコレクションバイアス、プライバシメカニズムに制限があるため、センシティブな属性が不確実である場合、適切な予測モデルを学ぶことを検討します。
本稿では,情報ボトルネックの原理を用いて公平性の独立性の概念を定式化し,不確実性のある属性に対する堅牢な最適化を提案する。
実例として、合同ガウスモデルを考察し、タスクを2次制約付き二次問題(QCQP)に還元する。
厳密な公平性を保証するために,ロバストなqcqpを提案し,その解を完全に直観的な幾何学的理解で特徴づける。
ラベル付きセンシティブ属性の制限による不確実性が発生すると,ラベル付きセンシティブ属性への無制限アクセスで達成された最適性能に対する各新サンプルの寄与を明らかにする。
これにより、厳密な公正性を確保しつつも、不確実性が提案アルゴリズムの性能損失を生じさせない非自明な規則を特定できる。
また,ガウスの場合を超えて適用可能なブートストラップに基づく汎用アルゴリズムを提案する。
実世界の分類や回帰作業と同様に、合成データに対する分析と手法の価値を実証する。 We consider learning a fair predictive model when sensitive attributes are uncertain, say, due to a limited amount of labeled data, collection bias, or privacy mechanism. We formulate the problem, for the independence notion of fairness, using the information bottleneck principle, and propose a robust optimization with respect to an uncertainty set of the sensitive attributes. As an illustrative case, we consider the joint Gaussian model and reduce the task to a quadratically constrained quadratic problem (QCQP). To ensure a strict fairness guarantee, we propose a robust QCQP and completely characterize its solution with an intuitive geometric understanding. When uncertainty arises due to limited labeled sensitive attributes, our analysis reveals the contribution of each new sample towards the optimal performance achieved with unlimited access to labeled sensitive attributes. This allows us to identify non-trivial regimes where uncertainty incurs no performance loss of the proposed algorithm while continuing to guarantee strict fairness. We also propose a bootstrap-based generic algorithm that is applicable beyond the Gaussian case. We demonstrate the value of our analysis and method on synthetic data as well as real-world classification and regression tasks. | 翻訳日:2023-02-17 15:02:30 公開日:2023-02-16 |
# 回転波近似のない原子場相互作用によるコヒーレント状態の識別 Discrimination of Coherent States via Atom-Field Interaction without Rotation Wave Approximation ( http://arxiv.org/abs/2302.08073v1 ) ライセンス: Link先を確認 | Jin-Hua Zhang and Fu-Lin Zhang and Mai-Lin Liang and Zhi-Xi Wang and Shao-Ming Fei | (参考訳) 量子状態の識別は量子情報処理の重要な部分である。
我々は,jaynes-cummings(jc)モデルによる回転波近似(rwa)を伴わないコヒーレント状態の識別について検討した。
我々は、RWAがJCモデルから排除され、フィールドの量子効果(例えば、RWAのないJCモデルにおける仮想光子過程)に付随する非RWA項が状態判別を高めるため、最小の故障確率を減少させることができることを示す。
あいまいな状態判別のためのRWAのないJCモデルは、特に逐次測定数が増加すると、あいまいな状態判別よりも優れている。
非RWA JCモデルによって実現されたあいまいな状態識別は、リソースコストの削減に有用である。 The quantum state discrimination is an important part of quantum information processing. We investigate the discrimination of coherent states through Jaynes-Cummings (JC) model interaction between the field and the ancilla without rotation wave approximation (RWA). We show that the minimum failure probability can be reduced as RWA is eliminated from JC model and the non-RWA terms accompanied by the quantum effects of fields (e.g. the virtual photon process in the JC model without RWA) can enhance the state discrimination. The JC model without RWA for unambiguous state discrimination is superior to ambiguous state discrimination, particularly when the number of sequential measurements increases. Unambiguous state discrimination implemented via the non-RWA JC model is beneficial to saving resource cost. | 翻訳日:2023-02-17 15:02:12 公開日:2023-02-16 |
# 因果効果推定のための局所因果発見 Local Causal Discovery for Estimating Causal Effects ( http://arxiv.org/abs/2302.08070v1 ) ライセンス: Link先を確認 | Shantanu Gupta, David Childers, Zachary C. Lipton | (参考訳) 我々のデータに基づく因果グラフが未知であっても、平均処理効果(ATE)が得る可能性のある値を、(1)マルコフ同値クラスまで同定し、(2)クラス内の各グラフに対してATEを推定することで、観測データを用いて絞り込むことができる。
PCアルゴリズムは強い忠実性の仮定の下でこのクラスを識別できるが、計算的に禁止することができる。
幸いなことに、処理の周りの局所グラフ構造のみが、可能なate値のセットを特定するために必要であり、これは計算効率を改善するために局所探索アルゴリズムによって利用される。
本稿では,従来の方法と異なり,非シールド型衝突器を利用した局所因果探索アルゴリズムであるEager Collider Checks (LDECC) を用いた局所発見について紹介する。
LDECCが既存の局所探索アルゴリズムを指数関数的に上回るグラフが存在することを示す。
さらに, LDECC と既存のアルゴリズムは異なる信頼度仮定に依存しており, この知見を活用して ATE 値の集合を同定する仮定を弱めていることを示す。 Even when the causal graph underlying our data is unknown, we can use observational data to narrow down the possible values that an average treatment effect (ATE) can take by (1) identifying the graph up to a Markov equivalence class; and (2) estimating that ATE for each graph in the class. While the PC algorithm can identify this class under strong faithfulness assumptions, it can be computationally prohibitive. Fortunately, only the local graph structure around the treatment is required to identify the set of possible ATE values, a fact exploited by local discovery algorithms to improve computational efficiency. In this paper, we introduce Local Discovery using Eager Collider Checks (LDECC), a new local causal discovery algorithm that leverages unshielded colliders to orient the treatment's parents differently from existing methods. We show that there exist graphs where LDECC exponentially outperforms existing local discovery algorithms and vice versa. Moreover, we show that LDECC and existing algorithms rely on different faithfulness assumptions, leveraging this insight to weaken the assumptions for identifying the set of possible ATE values. | 翻訳日:2023-02-17 15:01:59 公開日:2023-02-16 |
# labelprompt: 関係分類のための効果的なプロンプトベース学習 LabelPrompt: Effective Prompt-based Learning for Relation Classification ( http://arxiv.org/abs/2302.08068v1 ) ライセンス: Link先を確認 | Wenjie Zhang, Xiaoning Song, Zhenhua Feng, Tianyang Xu, Xiaojun Wu | (参考訳) 近年,多くの自然言語処理(NLP)タスクにおいて,テンプレートをモデル入力に挿入することで,事前学習された言語モデル(PLM)と現在のタスクの違いを円滑にするために,タスクをクローゼスタイルのタスクに変換することで,プロンプトベースの学習が広く普及している。
しかし、関係分類の場合、org: founded_by''のような豊富な意味情報があるため、マスクされた出力を関係ラベルにマッピングすることは困難である。
したがって、事前学習されたモデルには、関係に適合する十分なラベル付きデータが必要である。
本稿では,この課題を軽減するために,関係分類タスクのための新しいプロンプトベースの学習手法であるLabelPromptを提案する。
「五モデルCHOICES!」というモチベーションによる並外れた直感的なアプローチである。
まず、関係ラベルを表すいくつかの追加トークンを定義し、これらのトークンを意味的初期化を伴う動詞化子とみなし、それらをプロンプトテンプレートメソッドで構成する。
次に、予測関係と与えられた実体の不一致を再検討し、これを解決するために、コントラスト学習の考え方を持つエンティティ認識モジュールを設計する。
最後に,自己照会層に注意問合せ戦略を適用し,2種類のトークン,すなわちプロンプトトークンとシーケンストークンを解決した。
提案手法は,小さなラベル付きデータしか利用できない場合,関係分類タスクにおけるプロンプトベース学習の適応能力を効果的に改善する。
いくつかのベンチマーキングデータセットで得られた大規模な実験結果から,提案したラベルプロンプト法が優れていることを示す。 Recently, prompt-based learning has become a very popular solution in many Natural Language Processing (NLP) tasks by inserting a template into model input, which converts the task into a cloze-style one to smoothing out differences between the Pre-trained Language Model (PLM) and the current task. But in the case of relation classification, it is difficult to map the masked output to the relation labels because of its abundant semantic information, e.g. org:founded_by''. Therefore, a pre-trained model still needs enough labelled data to fit the relations. To mitigate this challenge, in this paper, we present a novel prompt-based learning method, namely LabelPrompt, for the relation classification task. It is an extraordinary intuitive approach by a motivation: ``GIVE MODEL CHOICES!''. First, we define some additional tokens to represent the relation labels, which regards these tokens as the verbalizer with semantic initialisation and constructs them with a prompt template method. Then we revisit the inconsistency of the predicted relation and the given entities, an entity-aware module with the thought of contrastive learning is designed to mitigate the problem. At last, we apply an attention query strategy to self-attention layers to resolve two types of tokens, prompt tokens and sequence tokens. The proposed strategy effectively improves the adaptation capability of prompt-based learning in the relation classification task when only a small labelled data is available. Extensive experimental results obtained on several bench-marking datasets demonstrate the superiority of the proposed LabelPrompt method, particularly in the few-shot scenario. | 翻訳日:2023-02-17 15:01:39 公開日:2023-02-16 |
# マスキングと混合相手訓練 Masking and Mixing Adversarial Training ( http://arxiv.org/abs/2302.08066v1 ) ライセンス: Link先を確認 | Hiroki Adachi, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi, Yasunori Ishii, Kazuki Kozuka | (参考訳) 畳み込みニューラルネットワーク(CNN)は様々なコンピュータビジョンタスクにおいて優れたパフォーマンスを達成しているが、悪質なサンプル、すなわち敵の例では誤分類されることが多い。
敵の訓練は、敵の例の脅威から守るために人気があり簡単なテクニックである。
残念ながら、cnnは、敵のトレーニングを使用する場合の敵の例に対するロバスト性を改善するために標準サンプルの精度を犠牲にしなければならない。
本研究では,M2AT(Masking and Mixing Adversarial Training, Masking and Mixing Adversarial Training)を提案する。
トレーニング中にさまざまな敵の例を作ることに重点を置いています。
具体的には、我々のアプローチは2つのプロセスから構成される。
1)二分マスクで摂動をマスキングする
2) 2つの部分摂動画像の混合。
cifar-10データセットにおける実験結果から,本手法は従来の手法よりも複数の攻撃に対してより頑健性が得られた。 While convolutional neural networks (CNNs) have achieved excellent performances in various computer vision tasks, they often misclassify with malicious samples, a.k.a. adversarial examples. Adversarial training is a popular and straightforward technique to defend against the threat of adversarial examples. Unfortunately, CNNs must sacrifice the accuracy of standard samples to improve robustness against adversarial examples when adversarial training is used. In this work, we propose Masking and Mixing Adversarial Training (M2AT) to mitigate the trade-off between accuracy and robustness. We focus on creating diverse adversarial examples during training. Specifically, our approach consists of two processes: 1) masking a perturbation with a binary mask and 2) mixing two partially perturbed images. Experimental results on CIFAR-10 dataset demonstrate that our method achieves better robustness against several adversarial attacks than previous methods. | 翻訳日:2023-02-17 15:01:12 公開日:2023-02-16 |
# MINOTAUR:マルチモーダルなクェリからマルチタスクのビデオグラウンド MINOTAUR: Multi-task Video Grounding From Multimodal Queries ( http://arxiv.org/abs/2302.08063v1 ) ライセンス: Link先を確認 | Raghav Goyal, Effrosyni Mavroudi, Xitong Yang, Sainbayar Sukhbaatar, Leonid Sigal, Matt Feiszli, Lorenzo Torresani, Du Tran | (参考訳) 映像理解タスクは、行動検出から視覚的クエリのローカライゼーション、文の時空間的接地に至るまで、様々な形態をとる。
これらのタスクは、入力の種類(クエリが画像領域または文であるビデオまたはビデオクエリペアのみ)と出力(時間セグメントまたは時空間チューブ)によって異なる。
しかし、彼らのコアでは、ビデオの基本的な理解、すなわちアクターとオブジェクト、アクションとインタラクションが同じである必要がある。
これまでのところ、これらのタスクは個々の高度に専門化されたアーキテクチャと分離して取り組まれており、タスク間の相互作用を活用していない。
一方,本稿では,長文ビデオにおける問合せに基づくビデオ理解に一貫した一貫したモデルを提案する。
特に,Ego4D Episodic Memoryベンチマークの3つのタスクに対処し,エゴセントリックなビデオと視覚的,テキスト的,活動的なクエリが与えられた場合,その答がビデオ内でいつ,どこで見られるかを決定することが目的である。
我々のモデル設計は、近年の時空間グラウンド化に対するクエリベースのアプローチに着想を得ており、モーダリティ固有のクエリエンコーダとタスク固有のスライディングウィンドウ推論を含んでおり、多様な入力モードと異なる構造化出力を持つマルチタスクトレーニングを可能にしている。
タスク間の関係を徹底的に分析し,クロスタスク学習が個々のタスクのパフォーマンス向上につながること,言語クエリのゼロショット空間的ローカライゼーションなど,未認識のタスクに一般化する能力を示す。 Video understanding tasks take many forms, from action detection to visual query localization and spatio-temporal grounding of sentences. These tasks differ in the type of inputs (only video, or video-query pair where query is an image region or sentence) and outputs (temporal segments or spatio-temporal tubes). However, at their core they require the same fundamental understanding of the video, i.e., the actors and objects in it, their actions and interactions. So far these tasks have been tackled in isolation with individual, highly specialized architectures, which do not exploit the interplay between tasks. In contrast, in this paper, we present a single, unified model for tackling query-based video understanding in long-form videos. In particular, our model can address all three tasks of the Ego4D Episodic Memory benchmark which entail queries of three different forms: given an egocentric video and a visual, textual or activity query, the goal is to determine when and where the answer can be seen within the video. Our model design is inspired by recent query-based approaches to spatio-temporal grounding, and contains modality-specific query encoders and task-specific sliding window inference that allow multi-task training with diverse input modalities and different structured outputs. We exhaustively analyze relationships among the tasks and illustrate that cross-task learning leads to improved performance on each individual task, as well as the ability to generalize to unseen tasks, such as zero-shot spatial localization of language queries. | 翻訳日:2023-02-17 15:00:56 公開日:2023-02-16 |
# 時間軸ステンシルモデルを用いた神経pdeソルバ A Neural PDE Solver with Temporal Stencil Modeling ( http://arxiv.org/abs/2302.08105v1 ) ライセンス: Link先を確認 | Zhiqing Sun, Yiming Yang, Shinjae Yoo | (参考訳) 非線形偏微分方程式の数値シミュレーションは、気象、気候、空気力学などの物理科学や工学現象のモデル化において重要な役割を果たす。
低分解能時空間信号で訓練された最近の機械学習(ML)モデルは、欠けている詳細を効果的に回復できるという条件の下で、高分解能信号の重要なダイナミクスを捕捉する新しい約束を示している。
しかし本研究は,低解像度のダウンサンプリング機能では重要な情報が失われることが多いことを示す。
このような問題に対処するために,我々は,高度時系列シーケンスモデリング(HiPPO特徴)と最先端のニューラルPDEソルバ(学習可能なステンシルモデリング)の強みを組み合わせた,テンポラルステンシルモデリング(TSM)という新しい手法を提案する。
TSMはPDE軌道から失われた情報を復元することを目的としており、WENOのような古典的な有限体積法の時間的一般化と見なすことができる。
実験の結果,TSMは2次元非圧縮性Navier-Stokes乱流に対する新しい最先端シミュレーション精度を実現していることがわかった。
また,提案手法の様々な分布外乱流設定に対する強い一般化能力を示す。
私たちのコードは"https://github.com/Edward-Sun/TSM-PDE"で利用可能です。 Numerical simulation of non-linear partial differential equations plays a crucial role in modeling physical science and engineering phenomena, such as weather, climate, and aerodynamics. Recent Machine Learning (ML) models trained on low-resolution spatio-temporal signals have shown new promises in capturing important dynamics in high-resolution signals, under the condition that the models can effectively recover the missing details. However, this study shows that significant information is often lost in the low-resolution down-sampled features. To address such issues, we propose a new approach, namely Temporal Stencil Modeling (TSM), which combines the strengths of advanced time-series sequence modeling (with the HiPPO features) and state-of-the-art neural PDE solvers (with learnable stencil modeling). TSM aims to recover the lost information from the PDE trajectories and can be regarded as a temporal generalization of classic finite volume methods such as WENO. Our experimental results show that TSM achieves the new state-of-the-art simulation accuracy for 2-D incompressible Navier-Stokes turbulent flows: it significantly outperforms the previously reported best results by 19.9% in terms of the highly-correlated duration time and reduces the inference latency into 80%. We also show a strong generalization ability of the proposed method to various out-of-distribution turbulent flow settings. Our code is available at "https://github.com/Edward-Sun/TSM-PDE". | 翻訳日:2023-02-17 14:54:53 公開日:2023-02-16 |
# 話者適応型音声認識のためのディープニューラルネットワークのプロンプトチューニング Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition ( http://arxiv.org/abs/2302.08102v1 ) ライセンス: Link先を確認 | Minsu Kim, Hyung-Il Kim, and Yong Man Ro | (参考訳) 視覚音声認識(VSR)は、唇の動きだけで音声をテキストに推論することを目的としている。
音声をモデル化するための視覚情報に焦点を当てているため、パフォーマンスは本質的に唇の外観や動きに敏感であり、vsrモデルでは、見当たらない話者に適用すると劣化したパフォーマンスを示す。
本稿では,未確認話者に対するVSRモデルの性能劣化を改善するために,話者適応型VSRのためのディープニューラルネットワーク(DNN)の高速チューニング手法を提案する。
具体的には、近年の自然言語処理(NLP)の進歩を動機として、事前学習されたモデルパラメータを変更する代わりに、ターゲット話者の適応データに微調整を施す。
トランスフォーマーの変種アーキテクチャに主に制限された従来のプロンプトチューニング手法とは異なり、CNNとトランスフォーマーで構成されるVSRモデルに適用可能な異なる種類のプロンプト、追加、パディング、結合形式プロンプトを探索する。
提案したプロンプトチューニングにより,事前学習したモデルが話者変動が大きい場合でも,少量の適応データ(例:5分以内)を用いることで,未学習話者に対する事前学習VSRモデルの性能を大幅に改善できることを示す。
さらに,異なる種類のプロンプトの性能とパラメータを解析することにより,ファインタニング法よりもプロンプトチューニングが望ましいかを検討する。
提案手法の有効性を,単語レベルのVSRデータベース,LRW-ID,GRIDで評価した。 Visual Speech Recognition (VSR) aims to infer speech into text depending on lip movements alone. As it focuses on visual information to model the speech, its performance is inherently sensitive to personal lip appearances and movements, and this makes the VSR models show degraded performance when they are applied to unseen speakers. In this paper, to remedy the performance degradation of the VSR model on unseen speakers, we propose prompt tuning methods of Deep Neural Networks (DNNs) for speaker-adaptive VSR. Specifically, motivated by recent advances in Natural Language Processing (NLP), we finetune prompts on adaptation data of target speakers instead of modifying the pre-trained model parameters. Different from the previous prompt tuning methods mainly limited to Transformer variant architecture, we explore different types of prompts, the addition, the padding, and the concatenation form prompts that can be applied to the VSR model which is composed of CNN and Transformer in general. With the proposed prompt tuning, we show that the performance of the pre-trained VSR model on unseen speakers can be largely improved by using a small amount of adaptation data (e.g., less than 5 minutes), even if the pre-trained model is already developed with large speaker variations. Moreover, by analyzing the performance and parameters of different types of prompts, we investigate when the prompt tuning is preferred over the finetuning methods. The effectiveness of the proposed method is evaluated on both word- and sentence-level VSR databases, LRW-ID and GRID. | 翻訳日:2023-02-17 14:54:25 公開日:2023-02-16 |
# 新しい$\sqrt{n}$-consistent、数値的に安定な高次影響関数推定器 New $\sqrt{n}$-consistent, numerically stable higher-order influence function estimators ( http://arxiv.org/abs/2302.08097v1 ) ライセンス: Link先を確認 | Lin Liu and Chang Li | (参考訳) 高階影響関数(hoifs)は、疫学、経済学、社会科学などのサブスタンス分野において生じる、大きな種類の低次元(スムース)統計機能/パラメータ(時には無限次元関数)に対するレート最適推定子を構築するための統一理論を提供する。
RobinsらによるHOIFs (2008) の導入以来、それらは統計的な実践に有用なツールではなく、理論的なベンチマークと見なされてきた。
スクリプトをめくるための作業は難しかったが、最近の論文Liu et al. (2017, 2021b)は部分的に進歩している。
本稿では,統計的,数値的,計算的保証のある新しい,数値的に安定なHOIF推定器(あるいは'`s' を ``stable'' と略して sHOIF 推定器)を構築することで,この目標を達成するための新たな試みを行う。
この新しいsHOIF推定器(第2次まで)は、Liu et al. (2020a) による合成実験で先導された。 Higher-Order Influence Functions (HOIFs) provide a unified theory for constructing rate-optimal estimators for a large class of low-dimensional (smooth) statistical functionals/parameters (and sometimes even infinite-dimensional functions) that arise in substantive fields including epidemiology, economics, and the social sciences. Since the introduction of HOIFs by Robins et al. (2008), they have been viewed mostly as a theoretical benchmark rather than a useful tool for statistical practice. Works aimed to flip the script are scant, but a few recent papers Liu et al. (2017, 2021b) make some partial progress. In this paper, we take a fresh attempt at achieving this goal by constructing new, numerically stable HOIF estimators (or sHOIF estimators for short with ``s'' standing for ``stable'') with provable statistical, numerical, and computational guarantees. This new class of sHOIF estimators (up to the 2nd order) was foreshadowed in synthetic experiments conducted by Liu et al. (2020a). | 翻訳日:2023-02-17 14:53:56 公開日:2023-02-16 |
# PAAPLoss:音声処理による音声強調のための音響パラメータ損失 PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech Enhancement ( http://arxiv.org/abs/2302.08095v1 ) ライセンス: Link先を確認 | Muqiao Yang, Joseph Konan, David Bick, Yunyang Zeng, Shuo Han, Anurag Kumar, Shinji Watanabe, Bhiksha Raj | (参考訳) 近年の急速な進歩にもかかわらず、現在の音声強調モデルは、実際の清潔な音声と知覚品質が異なる音声を生成することが多い。
音響音響学の分野知識を用いて知覚品質の違いを形式化する学習目標を提案する。
スペクトル傾き,スペクトルフラックス,シャマーなどの時間的音響パラメータを同定する。
そこで我々は,発話の時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
また,各特徴に対する音素固有の重み付けをモデル化し,音響パラメータが異なる音素の挙動を示すことが知られている。
この基準を音声生成モデルに補助的損失として加えることができ、これらの特徴の清潔な音声の値に合うように音声出力を最適化することができる。
標準評価指標で測定した時間領域と時間領域の両方における音声強調ワークフローを実験的に改善することを示す。
また,音響パラメータに対する音素依存的改善の分析を行い,提案手法が提供する追加的な解釈可能性を示す。
この分析は、現在改善のボトルネックとなっている機能を提案することができる。 Despite rapid advancement in recent years, current speech enhancement models often produce speech that differs in perceptual quality from real clean speech. We propose a learning objective that formalizes differences in perceptual quality, by using domain knowledge of acoustic-phonetics. We identify temporal acoustic parameters -- such as spectral tilt, spectral flux, shimmer, etc. -- that are non-differentiable, and we develop a neural network estimator that can accurately predict their time-series values across an utterance. We also model phoneme-specific weights for each feature, as the acoustic parameters are known to show different behavior in different phonemes. We can add this criterion as an auxiliary loss to any model that produces speech, to optimize speech outputs to match the values of clean speech in these features. Experimentally we show that it improves speech enhancement workflows in both time-domain and time-frequency domain, as measured by standard evaluation metrics. We also provide an analysis of phoneme-dependent improvement on acoustic parameters, demonstrating the additional interpretability that our method provides. This analysis can suggest which features are currently the bottleneck for improvement. | 翻訳日:2023-02-17 14:53:33 公開日:2023-02-16 |
# 時間遅延コヒーレントフィードバックによるオンデマンド単一光子源コヒーレンスと識別性の向上 Improving On-Demand Single Photon Source Coherence and Indistinguishability Through a Time-Delayed Coherent Feedback ( http://arxiv.org/abs/2302.08093v1 ) ライセンス: Link先を確認 | Gavin Crowder, Lora Ramunno, and Stephen Hughes | (参考訳) 単一光子源(sps)は多くの量子情報技術にとって不可欠な資源である。
拡張性のある導波管システムにコヒーレントフィードバックを組み込むことで、コヒーレンスと区別不能という2つの重要なメリットを著しく改善できることを示す。
フィードバックプロトコルは,ハンベリー・ブラウン・アンド・ツイス(HBT)とホン・ウー・マンデル干渉計(HOM)を直接モデル化する量子軌道離散導波管モデルを用いてシミュレーションされる。
ラウンドトリップ位相の適切な選択により、時間遅延されたフィードバックからの非マルコフダイナミクスは自発的放出速度を増大させ、spsのコヒーレンスと非識別性を最大56%向上させる。
また,この機構がオフチップ崩壊や純粋な消耗といった不要な消散チャネルの効果を抑制する方法を示す。 Single photon sources (SPSs) form an essential resource for many quantum information technologies. We demonstrate how the inclusion of coherent feedback in a scalable waveguide system, can significantly improves the two key figures of merit: coherence and indistinguishability. Our feedback protocol is simulated using a quantum trajectory discretized waveguide model which can be used to directly model Hanbury Brown and Twiss (HBT) and Hong-Ou-Mandel (HOM) interferometers. With the proper choice of the round trip phase, the non-Markovian dynamics from the time-delayed feedback enhances the spontaneous emission rate and improves the coherence and indistinguishability of the SPS by up to 56%. We also show how this mechanism suppresses the effects of unwanted dissipation channels such as off-chip decay and pure dephasing. | 翻訳日:2023-02-17 14:53:17 公開日:2023-02-16 |
# 電子商取引における製品質問の回答 Product Question Answering in E-Commerce: A Survey ( http://arxiv.org/abs/2302.08092v1 ) ライセンス: Link先を確認 | Yang Deng, Wenxuan Zhang, Qian Yu, Wai Lam | (参考訳) 商品質問応答(PQA)は、Eコマースプラットフォームにおける顧客の質問に対する即時応答を自動で提供することを目的としており、近年注目を集めている。
典型的なQA問題と比較すると、PQAはEコマースプラットフォームにおけるユーザ生成コンテンツの主観性と信頼性といったユニークな課題を示す。
そのため,これらの特徴を捉えるために,様々な問題設定や新しい手法が提案されている。
本稿では,PQAに関する既存の研究成果を体系的にレビューすることを目的とする。
具体的には,pqa研究を,回答形式の観点から4つの問題に分類する。
提案手法は,各設定に対する既存のデータセットと評価プロトコルだけでなく,その長所と短所も分析する。
さらに、一般的なQAアプリケーションからPQAを特徴づける最も重要な課題を要約し、対応するソリューションについて議論する。
最後に,本稿の結論として,今後の展望について述べる。 Product question answering (PQA), aiming to automatically provide instant responses to customer's questions in E-Commerce platforms, has drawn increasing attention in recent years. Compared with typical QA problems, PQA exhibits unique challenges such as the subjectivity and reliability of user-generated contents in E-commerce platforms. Therefore, various problem settings and novel methods have been proposed to capture these special characteristics. In this paper, we aim to systematically review existing research efforts on PQA. Specifically, we categorize PQA studies into four problem settings in terms of the form of provided answers. We analyze the pros and cons, as well as present existing datasets and evaluation protocols for each setting. We further summarize the most significant challenges that characterize PQA from general QA applications and discuss their corresponding solutions. Finally, we conclude this paper by providing the prospect on several future directions. | 翻訳日:2023-02-17 14:52:59 公開日:2023-02-16 |
# 臨床言語モデルはまだ必要か? Do We Still Need Clinical Language Models? ( http://arxiv.org/abs/2302.08091v1 ) ライセンス: Link先を確認 | Eric Lehman, Evan Hernandez, Diwakar Mahajan, Jonas Wulff, Micah J. Smith, Zachary Ziegler, Daniel Nadler, Peter Szolovits, Alistair Johnson, Emily Alsentzer | (参考訳) 最近の大規模言語モデル(llm)のスケーリングの進歩により、多くのnlpタスクが改善されているが、一般的なwebテキストでトレーニングされたこれらのモデルが、臨床テキストのような高度に専門的で安全な重要なドメインにおいて正しいツールであるかどうかは不明である。
近年、LSMは驚くほど多くの医学的知識をコードしていることが示唆されている。
これは、より小さなドメイン固有言語モデルの有用性に関する重要な疑問を提起する。
一般ドメインLSMの成功により、まだ専門的な臨床モデルの必要性はあるのだろうか?
本研究では,12の言語モデルについて,220Mから175Bのパラメータから,電子的健康記録を解析・解析する3つの異なる臨床課題に対する評価まで,広範囲にわたる経験的分析を行った。
実験の一環として,MIMIC III と IV の臨床ノートから,T5-Base と T5-Large モデルをスクラッチから訓練し,臨床トークンの効率を直接的に調査する。
比較的小さな専門的臨床モデルは,限られた注釈付きデータに基づいて微調整した場合でも,コンテキスト内学習のアプローチを著しく上回っている。
さらに,臨床トークンの事前トレーニングによって,一般的なテキストでトレーニングされたはるかに大きな言語モデルと一致するか,あるいは上回る,より小さくパラメータ効率の高いモデルが可能になることを見出した。
physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。 Although recent advances in scaling large language models (LLMs) have resulted in improvements on many NLP tasks, it remains unclear whether these models trained primarily with general web text are the right tool in highly specialized, safety critical domains such as clinical text. Recent results have suggested that LLMs encode a surprising amount of medical knowledge. This raises an important question regarding the utility of smaller domain-specific language models. With the success of general-domain LLMs, is there still a need for specialized clinical models? To investigate this question, we conduct an extensive empirical analysis of 12 language models, ranging from 220M to 175B parameters, measuring their performance on 3 different clinical tasks that test their ability to parse and reason over electronic health records. As part of our experiments, we train T5-Base and T5-Large models from scratch on clinical notes from MIMIC III and IV to directly investigate the efficiency of clinical tokens. We show that relatively small specialized clinical models substantially outperform all in-context learning approaches, even when finetuned on limited annotated data. Further, we find that pretraining on clinical tokens allows for smaller, more parameter-efficient models that either match or outperform much larger language models trained on general text. We release the code and the models used under the PhysioNet Credentialed Health Data license and data use agreement. | 翻訳日:2023-02-17 14:52:47 公開日:2023-02-16 |
# QTrojan:量子ニューラルネットワークに対する回路バックドア QTrojan: A Circuit Backdoor Against Quantum Neural Networks ( http://arxiv.org/abs/2302.08090v1 ) ライセンス: Link先を確認 | Cheng Chu, Lei Jiang, Martin Swany, Fan Chen | (参考訳) 本稿では,量子ニューラルネットワーク(qnn)に対する回路レベルのバックドア攻撃である \textit{qtrojan} を提案する。
QTrojanは、被害者QNNの変動量子回路に挿入される少数の量子ゲートによって実装される。
QTrojanは、被害者のQNNの入力にトリガを埋め込んだり、オリジナルのトレーニングデータセットにアクセスする必要がなくなるため、以前のData-PoisoningベースのBackdoor Attack (DPBA)よりもずっとステルス性が高い。
DPBAと比較して、QTrojanはクリーンデータの精度を21\%、攻撃成功率を19.9\%改善する。 We propose a circuit-level backdoor attack, \textit{QTrojan}, against Quantum Neural Networks (QNNs) in this paper. QTrojan is implemented by few quantum gates inserted into the variational quantum circuit of the victim QNN. QTrojan is much stealthier than a prior Data-Poisoning-based Backdoor Attack (DPBA), since it does not embed any trigger in the inputs of the victim QNN or require the access to original training datasets. Compared to a DPBA, QTrojan improves the clean data accuracy by 21\% and the attack success rate by 19.9\%. | 翻訳日:2023-02-17 14:52:21 公開日:2023-02-16 |
# TAPLoss:音声強調のための時間音響パラメータ損失 TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement ( http://arxiv.org/abs/2302.08088v1 ) ライセンス: Link先を確認 | Yunyang Zeng, Joseph Konan, Shuo Han, David Bick, Muqiao Yang, Anurag Kumar, Shinji Watanabe, Bhiksha Raj | (参考訳) 近年,音声強調モデルは非常に進歩しているが,音声出力の知覚的品質には限界がある。
時間的音響パラメータに基づく知覚品質の目標を提案する。
これらは、話者認識やパラ言語分析など、様々な用途において重要な役割を果たす基本的音声特徴である。
周波数関連パラメータ,エネルギー・振幅関連パラメータ,スペクトルバランスパラメータ,時間的特徴の4種類の低レベル音響記述子の微分可能推定器を提案する。
音響パラメータの集計や音響パラメータのカテゴリの先行研究とは異なり、時間的音響パラメータ(tap)損失は、強化ワークフローにおける多くの微細な音声特性の補助的最適化と改善を可能にする。
音声強調における補助的目的としてTAPLossを加えることで、知覚品質と知性を改善した音声が得られることを示す。
我々は、Deep Noise Suppression 2020 Challengeのデータを用いて、時間領域モデルと時間周波数ドメインモデルの両方が、我々の方法の恩恵を受けることができることを示す。 Speech enhancement models have greatly progressed in recent years, but still show limits in perceptual quality of their speech outputs. We propose an objective for perceptual quality based on temporal acoustic parameters. These are fundamental speech features that play an essential role in various applications, including speaker recognition and paralinguistic analysis. We provide a differentiable estimator for four categories of low-level acoustic descriptors involving: frequency-related parameters, energy or amplitude-related parameters, spectral balance parameters, and temporal features. Unlike prior work that looks at aggregated acoustic parameters or a few categories of acoustic parameters, our temporal acoustic parameter (TAP) loss enables auxiliary optimization and improvement of many fine-grain speech characteristics in enhancement workflows. We show that adding TAPLoss as an auxiliary objective in speech enhancement produces speech with improved perceptual quality and intelligibility. We use data from the Deep Noise Suppression 2020 Challenge to demonstrate that both time-domain models and time-frequency domain models can benefit from our method. | 翻訳日:2023-02-17 14:52:08 公開日:2023-02-16 |
# 深部生成モデルからトラクタブル確率回路への蒸留過程の理解 Understanding the Distillation Process from Deep Generative Models to Tractable Probabilistic Circuits ( http://arxiv.org/abs/2302.08086v1 ) ライセンス: Link先を確認 | Xuejie Liu, Anji Liu, Guy Van den Broeck, Yitao Liang | (参考訳) 確率回路(英: Probabilistic Circuits、PC)は、様々な推論タスク(例えば計算限界確率)の効率的な計算をサポートする、トラクタブル確率モデルのための一般化された計算フレームワークである。
複雑な実世界のタスクにおいてそのような推論能力を実現するために、Liu et al. (2022) は、(潜在変数の割り当てを通じて)少ないがより表現力のある深い生成モデルから知識を抽出することを提案した。
しかし、この蒸留をうまく機能させる要因はまだ不明である。
本稿では,PCの性能が教師モデルを上回ることを理論的かつ実証的に発見する。
そこで,本研究では,最も表現力に富んだ深層生成モデルから蒸留を行う代わりに,教師モデルとPCがどの特性を持つべきかを検討した。
これは、既存の潜在変数蒸留パイプラインに対して、汎用的なアルゴリズム改善と、他のデータタイプ固有の改善につながります。
経験的に、我々はsoma tpmを、挑戦的な画像モデリングベンチマークに対して大きなマージンで上回っている。
特にImageNet32では、PCは4.06ビット/次元を実現しており、これは変分拡散モデルのわずか0.34である(Kingma et al., 2021)。 Probabilistic Circuits (PCs) are a general and unified computational framework for tractable probabilistic models that support efficient computation of various inference tasks (e.g., computing marginal probabilities). Towards enabling such reasoning capabilities in complex real-world tasks, Liu et al. (2022) propose to distill knowledge (through latent variable assignments) from less tractable but more expressive deep generative models. However, it is still unclear what factors make this distillation work well. In this paper, we theoretically and empirically discover that the performance of a PC can exceed that of its teacher model. Therefore, instead of performing distillation from the most expressive deep generative model, we study what properties the teacher model and the PC should have in order to achieve good distillation performance. This leads to a generic algorithmic improvement as well as other data-type-specific ones over the existing latent variable distillation pipeline. Empirically, we outperform SoTA TPMs by a large margin on challenging image modeling benchmarks. In particular, on ImageNet32, PCs achieve 4.06 bits-per-dimension, which is only 0.34 behind variational diffusion models (Kingma et al., 2021). | 翻訳日:2023-02-17 14:51:50 公開日:2023-02-16 |
# パーソナライズされたオーディオ品質予測 Personalized Audio Quality Preference Prediction ( http://arxiv.org/abs/2302.08130v1 ) ライセンス: Link先を確認 | Chung-Che Wang, Yu-Chun Lin, Yu-Teng Hsu, Jyh-Shing Roger Jang | (参考訳) 本稿では,音声入力と主題情報の両方を用いて,同一内容の異なる2つの音声セグメントのパーソナライズされた嗜好を予測することを提案する。
siameseネットワークは、入力を比較し、好みを予測するために使用される。
シアムネットワークの各側におけるいくつかの異なる構造を調査し、エンコーダとしてPANNsのCNN6を、デコーダとして多層パーセプトロンブロックを併用したLDNetは、オーディオ入力のみを用いてベースラインモデルより優れており、全体的な精度は77.56%から78.04%に向上する。
実験の結果、年齢、性別、ヘッドフォンやイヤホンの仕様を含むすべての主題情報の使用は、それらの一部の使用よりも効果的であることが判明した。 This paper proposes to use both audio input and subject information to predict the personalized preference of two audio segments with the same content in different qualities. A siamese network is used to compare the inputs and predict the preference. Several different structures for each side of the siamese network are investigated, and an LDNet with PANNs' CNN6 as the encoder and a multi-layer perceptron block as the decoder outperforms a baseline model using only audio input the most, where the overall accuracy grows from 77.56% to 78.04%. Experimental results also show that using all the subject information, including age, gender, and the specifications of headphones or earphones, is more effective than using only a part of them. | 翻訳日:2023-02-17 14:45:44 公開日:2023-02-16 |
# ビデオランクモデルにおけるロングテールランキング問題に対するnearne based enhancement Neighbor Based Enhancement for the Long-Tail Ranking Problem in Video Rank Models ( http://arxiv.org/abs/2302.08128v1 ) ライセンス: Link先を確認 | Xuanji Xiao, Ziyu He | (参考訳) ランクモデルは、産業推薦システム、広告、検索エンジンにおいて重要な役割を果たす。
既存の作業では、セマンティックタグやクリック、ビューなどのユーザとイテムのインタラクション行動を利用して、ユーザの興味を予測し、ユーザとイテムの選好スコアを推定するアイテムを隠蔽する。
しかし,これらの行動タグに基づくモデルでは,ユーザとイテムのインタラクションが不十分な場合,大きな課題が発生し,効果が低下する。
既存のランクモデルはこの問題を無視しているが、あらゆるユーザーやアイテムが短期間にわたって常にアクティブでないとロングテールされるため、一般的かつ重要である。
本稿では,対象ユーザや項目の表現をトレーニングするための,新しい隣人拡張構造を提案する。
類似した近傍(静的または動的類似性)と、異なる隣人の重みのバランスをとるマルチレベルアテンション操作を利用する。
有名な公開データセットMovieLens 1Mの実験では、ロングテールユーザデータセットで絶対的なCTR AUCゲイン0.0259のベースライン行動タグベースモデルよりも、メソッドの効率性が示されている。 Rank models play a key role in industrial recommender systems, advertising, and search engines. Existing works utilize semantic tags and user-item interaction behaviors, e.g., clicks, views, etc., to predict the user interest and the item hidden representation for estimating the user-item preference score. However, these behavior-tag-based models encounter great challenges and reduced effectiveness when user-item interaction activities are insufficient, which we called "the long-tail ranking problem". Existing rank models ignore this problem, but its common and important because any user or item can be long-tailed once they are not consistently active for a short period. In this paper, we propose a novel neighbor enhancement structure to help train the representation of the target user or item. It takes advantage of similar neighbors (static or dynamic similarity) with multi-level attention operations balancing the weights of different neighbors. Experiments on the well-known public dataset MovieLens 1M demonstrate the efficiency of the method over the baseline behavior-tag-based model with an absolute CTR AUC gain of 0.0259 on the long-tail user dataset. | 翻訳日:2023-02-17 14:45:28 公開日:2023-02-16 |
# 変圧器の問題点 Problems with Modified Commutators ( http://arxiv.org/abs/2302.08122v1 ) ライセンス: Link先を確認 | Matthew J. Lake and A. Watcharapasorn | (参考訳) 本研究の目的は,一般化不確実性関係(gurs)の現代モデルに基づく既存のパラダイム,すなわち修正可換関係の仮定に挑戦することである。
本稿では,修正型コンピュテータモデルにおいて生じる諸問題について,比較的注意を払われていないもの,あるいは既存の文献に全く考慮されていないものなどについて,これらの話題に関する議論を刺激する目的で検討する。
次に、正準ハイゼンベルク代数の基本形式を変更することなく GUR を生成することにより、明らかに単純な仮定がこれらの問題を解くか、より正確には回避できるかを示す。
しかし、この単純さは、必要な仮定が時空の量子化とそれゆえ重力に大きな影響を与えることが分かるため、見掛けがつかない。
量子時空は量子参照フレーム(QRF)と見なすべきであり、重要な点として、重力の量子効果を特徴づけるアクションスケール$\beta$は、現在のダークエネルギー密度を回復するためにプランク定数$\beta \sim 10^{-61} \times \hbar$よりも桁違いに小さくなければならない。
これらの提案は, 改良型通勤者に基づく最小長モデルに悩まされる病態に対する潜在的な解決策として, 本領域で30年近く研究を続けてきた既存パラダイムと同様, 徹底的に検討されるべきである,と我々は主張する。 The purpose of this paper is to challenge the existing paradigm on which contemporary models of generalised uncertainty relations (GURs) are based, that is, the assumption of modified commutation relations. We review an array of theoretical problems that arise in modified commutator models, including those that have been discussed in depth and others that have received comparatively little attention, or have not been considered at all in the existing literature, with the aim of stimulating discussion on these topics. We then show how an apparently simple assumption can solve, or, more precisely, evade these issues, by generating GURs without modifying the basic form of the canonical Heisenberg algebra. This simplicity is deceptive, however, as the necessary assumption is found to have huge implications for the quantisation of space-time and, therefore, gravity. These include the view that quantum space-time should be considered as a quantum reference frame (QRF) and, crucially, that the action scale characterising the quantum effects of gravity, $\beta$, must be many orders of magnitude smaller than Planck's constant, $\beta \sim 10^{-61} \times \hbar$, in order to recover the present day dark energy density. We argue that these proposals should be taken seriously, as a potential solution to the pathologies that plague minimum length models based on modified commutators, and that their implications should be explored as thoroughly as those of the existing paradigm, which has dominated research in this area for almost three decades. | 翻訳日:2023-02-17 14:45:08 公開日:2023-02-16 |
# 有限精度測定による一般化不確かさ関係 Generalised Uncertainty Relations from Finite-Accuracy Measurements ( http://arxiv.org/abs/2302.08120v1 ) ライセンス: Link先を確認 | Matthew J. Lake, Marek Miller, Ray Ganardi and Tomasz Paterek | (参考訳) 本稿では、量子重力文学において提案される最も一般的な一般化された不確実性関係の2つである一般化不確実性原理(GUP)と拡張不確実性原理(EUP)が、修正可換性関係を必要とせず、正準量子論の文脈内でどのように導出できるかを示す。
GUP型関係は、標準位置演算子を適切な正の演算子値測定(POVM)に置き換えると自然に現れ、量子ウェーブパケットを空間領域$\sigma_g > 0$にローカライズする有限精度の測定値を表す。
この長さスケールは、POVM要素を定義するエンベロープ関数の標準偏差である$g$である。
同様に、標準運動量演算子が、波動パケットを運動量空間内の領域$\tilde{\sigma}_g > 0$にローカライズするPOVMに置き換えられると、EUP型関係が現れる。
通常の GUP と EUP は、$\sigma_g \sqrt{\hbar G/c^3}$、Planck長、$\tilde{\sigma}_g \simeq \hbar\sqrt{\Lambda/3}$、$\Lambda$ を宇宙定数とする。
重要なことに、標準ハミルトニアンおよび可換関係、従って、正準Schr{\" o}dingerとハイゼンベルク方程式は変わらぬままである。
このことは、GUPとEUPの現象学が、同値原理の違反、相対論的極限におけるローレンツ不変性違反、最小長の基準フレーム依存性、いわゆる多粒子状態に対するサッカーボール問題など、様々な病理に繋がる、修正された通勤者なしで得られることを示した。 In this short note we show how the Generalised Uncertainty Principle (GUP) and the Extended Uncertainty Principle (EUP), two of the most common generalised uncertainty relations proposed in the quantum gravity literature, can be derived within the context of canonical quantum theory, without the need for modified commutation relations. A GUP-type relation naturally emerges when the standard position operator is replaced by an appropriate Positive Operator Valued Measure (POVM), representing a finite-accuracy measurement that localises the quantum wave packet to within a spatial region $\sigma_g > 0$. This length scale is the standard deviation of the envelope function, $g$, that defines the POVM elements. Similarly, an EUP-type relation emerges when the standard momentum operator is replaced by a POVM that localises the wave packet to within a region $\tilde{\sigma}_g > 0$ in momentum space. The usual GUP and EUP are recovered by setting $\sigma_g \simeq \sqrt{\hbar G/c^3}$, the Planck length, and $\tilde{\sigma}_g \simeq \hbar\sqrt{\Lambda/3}$, where $\Lambda$ is the cosmological constant. Crucially, the canonical Hamiltonian and commutation relations, and, hence, the canonical Schr{\" o}dinger and Heisenberg equations, remain unchanged. This demonstrates that GUP and EUP phenomenology can be obtained without modified commutators, which are known to lead to various pathologies, including violation of the equivalence principle, violation of Lorentz invariance in the relativistic limit, the reference frame-dependence of the `minimum' length, and the so-called soccer ball problem for multi-particle states. | 翻訳日:2023-02-17 14:44:40 公開日:2023-02-16 |
# 不確実性推定法とその医用画像への応用 A Review of Uncertainty Estimation and its Application in Medical Imaging ( http://arxiv.org/abs/2302.08119v1 ) ライセンス: Link先を確認 | Ke Zou and Zhihao Chen and Xuedong Yuan and Xiaojing Shen and Meng Wang and Huazhu Fu | (参考訳) 病気の早期スクリーニングのための医療におけるAIシステムの利用は、非常に臨床的に重要である。
深層学習は医療画像において大きな可能性を秘めているが、AIシステムの信頼性と信頼性は、患者の安全が危ぶまれている実際の臨床現場への展開を制限する。
不確実性推定は、深部モデルの予測とともに信頼性評価を生成する上で重要な役割を果たす。
これは特に医療画像において重要であり、モデルの予測の不確実性が関心領域の特定や臨床医への追加情報の提供に利用できる。
本稿では, 深層学習における多種多様な不確実性, 難聴, 分布外不確実性などについて概説し, 医療画像でどのように推定できるかを考察する。
医用画像における不確実性推定を含むディープラーニングモデルの最近の進歩についても概説する。
最後に,医用画像の深層学習における不確実性推定の課題と今後の方向性について論じる。
このレビューがコミュニティにさらなる関心を喚起し、医学画像における不確実性推定モデルの適用に関する最新の参照を研究者に提供することを期待している。 The use of AI systems in healthcare for the early screening of diseases is of great clinical importance. Deep learning has shown great promise in medical imaging, but the reliability and trustworthiness of AI systems limit their deployment in real clinical scenes, where patient safety is at stake. Uncertainty estimation plays a pivotal role in producing a confidence evaluation along with the prediction of the deep model. This is particularly important in medical imaging, where the uncertainty in the model's predictions can be used to identify areas of concern or to provide additional information to the clinician. In this paper, we review the various types of uncertainty in deep learning, including aleatoric uncertainty, epistemic uncertainty, and out-of-distribution uncertainty, and we discuss how they can be estimated in medical imaging. We also review recent advances in deep learning models that incorporate uncertainty estimation in medical imaging. Finally, we discuss the challenges and future directions in uncertainty estimation in deep learning for medical imaging. We hope this review will ignite further interest in the community and provide researchers with an up-to-date reference regarding applications of uncertainty estimation models in medical imaging. | 翻訳日:2023-02-17 14:43:56 公開日:2023-02-16 |
# 空洞量子力学系における単一空洞モードによる波長可変光多重性 Tunable optical multistability induced by a single cavity mode in cavity quantum electrodynamics system ( http://arxiv.org/abs/2302.08115v1 ) ライセンス: Link先を確認 | Liyong Wang and Yifu Zhu | (参考訳) キャビティ量子力学系における多レベル原子と結合する単一キャビティモードに基づく波長可変光多重性スキームを実証する。
2つまたは3つの分離原子遷移は、集合的強結合条件下で適切な入力場デチューンと同時に励起される。
それに対応して、複数の偏光子固有状態が生成され、波長可変な光多重性を生み出すのに使用できる。
しきい値とマルチスタビリティ曲線は、幅広い範囲のシステムパラメータによって調整できる。
さらに、余剰弱磁場によって誘起される破壊量子干渉により、ある不安定領域を2つの不安定領域に分割する。
従来の光多重性スキームと比較して,提案手法はコンパクト性を有し,小型化が容易である。
特に多状態受動光学デバイスとして設計することができる。
提案手法は,多状態全光論理デバイスの統合的応用や全光通信ネットワークの基本要素の構築に有用である。 We demonstrate a tunable optical multistability scheme based on a single cavity mode coupling with multi-level atoms in cavity quantum electrodynamics system. Two or three separate atomic transitions are excited simultaneously with appropriate input field detuning under the collective strong coupling condition. Correspondingly, multiple polariton eigenstates are produced, which can be used to create tunable optical multistability. The threshold and multistability curve can be tuned by system parameters in a broad range. Moreover, a certain bistability region is split to two bistability regions due to destructive quantum interference induced by an extra weak control field. Compared to the traditional optical multistability schemes, the proposed optical multistability scheme has compactness and is easy to be miniaturized. In particular, it can be designed as a multistate passive optical device. The proposed scheme is useful for manufacturing integrated application of multi-state all-optical logic devices and constructing basic elements of all-optical communication networks. | 翻訳日:2023-02-17 14:43:37 公開日:2023-02-16 |
# マルチ拡散:制御された画像生成のための拡散経路 MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation ( http://arxiv.org/abs/2302.08113v1 ) ライセンス: Link先を確認 | Omer Bar-Tal, Lior Yariv, Yaron Lipman, Tali Dekel | (参考訳) 拡散モデルによるテキスト画像生成の最近の進歩は画像品質の変換能力を示す。
しかし、生成した画像のユーザ制御性や新しいタスクへの迅速な適応性は依然として未解決の課題であり、現在、コストと長期のトレーニング、特定の画像生成タスクに対する微調整やアドホックな適応によって対処されている。
本稿では,事前学習されたテキストから画像への拡散モデルを用いて,汎用かつ制御可能な画像生成を可能にする統合フレームワークであるmultidiffusionを提案する。
私たちのアプローチの中心は、複数の拡散生成プロセスとパラメータや制約の共有セットを結合する最適化タスクに基づいた、新しい世代プロセスです。
マルチディフュージョンは,所望のアスペクト比(パノラマなど)や空間誘導信号(密接なセグメンテーションマスクからバウンディングボックスまで)など,ユーザが提供する制御に忠実な高品質で多様な画像を生成するために,容易に適用可能であることを示す。
プロジェクトWebページ: https://multidiffusion.github.io Recent advances in text-to-image generation with diffusion models present transformative capabilities in image quality. However, user controllability of the generated image, and fast adaptation to new tasks still remains an open challenge, currently mostly addressed by costly and long re-training and fine-tuning or ad-hoc adaptations to specific image generation tasks. In this work, we present MultiDiffusion, a unified framework that enables versatile and controllable image generation, using a pre-trained text-to-image diffusion model, without any further training or finetuning. At the center of our approach is a new generation process, based on an optimization task that binds together multiple diffusion generation processes with a shared set of parameters or constraints. We show that MultiDiffusion can be readily applied to generate high quality and diverse images that adhere to user-provided controls, such as desired aspect ratio (e.g., panorama), and spatial guiding signals, ranging from tight segmentation masks to bounding boxes. Project webpage: https://multidiffusion.github.io | 翻訳日:2023-02-17 14:43:25 公開日:2023-02-16 |
# フラックスニウム量子ビットにおける損失機構のキャラクタリゼーション Characterization of loss mechanisms in a fluxonium qubit ( http://arxiv.org/abs/2302.08110v1 ) ライセンス: Link先を確認 | Hantao Sun, Feng Wu, Hsiang-Sheng Ku, Xizheng Ma, Jin Qin, Zhijun Song, Tenghui Wang, Gengyan Zhang, Jingwei Zhou, Yaoyun Shi, Hui-Hai Zhao, Chunqing Deng | (参考訳) ジョセフソンエネルギーの in situ tunability を持つフラックスニウム量子ビットを用いて、異なるフラックスバイアスと異なるジョセフソンエネルギー値でのエネルギー緩和を特徴付ける。
熱エネルギー$k_B T$の周囲の1次以上に及ぶキュービットエネルギー値での緩和速度は、誘電損失と1/f$フラックスノイズと交差点との組合せによって定量的に説明できる。
1/f$のフラックスノイズの振幅は、フラックス感度点における量子ビットデファス測定から抽出された振幅と一致する。
誘電体損失支配体制では、損失は2レベル系(TLS)欠陥との電気双極子相互作用から生じるものと一致している。
特に、ジョセフソンエネルギーの増大により、フラックス不感点において量子ビット周波数が減少するにつれて、量子ビットはTLS欠陥とのより弱い結合を示すため、高忠実な量子演算が望ましい。 Using a fluxonium qubit with in situ tunability of its Josephson energy, we characterize its energy relaxation at different flux biases as well as different Josephson energy values. The relaxation rate at qubit energy values, ranging more than one order of magnitude around the thermal energy $k_B T$, can be quantitatively explained by a combination of dielectric loss and $1/f$ flux noise with a crossover point. The amplitude of the $1/f$ flux noise is consistent with that extracted from the qubit dephasing measurements at the flux sensitive points. In the dielectric loss dominant regime, the loss is consistent with that arises from the electric dipole interaction with two-level-system (TLS) defects. In particular, as increasing Josephson energy thus decreasing qubit frequency at the flux insensitive spot, we find that the qubit exhibits increasingly weaker coupling to TLS defects thus desirable for high-fidelity quantum operations. | 翻訳日:2023-02-17 14:43:04 公開日:2023-02-16 |
# 広告オークションにおけるユーザ反応:長期収益最適化のMDP定式化 User Response in Ad Auctions: An MDP Formulation of Long-Term Revenue Optimization ( http://arxiv.org/abs/2302.08108v1 ) ライセンス: Link先を確認 | Yang Cai, Zhe Feng, Christopher Liaw, Aranyak Mehta | (参考訳) 本稿では,長期割引収入の最大化を目的として,広告の質に対するユーザ反応を捉えた広告オークションのための新しいマルコフ決定プロセス(MDP)モデルを提案する。
ユーザの反応を取り入れることで,このモデルでは,オークションに関わる3つの関係者(広告,オークション,ユーザ)を考慮に入れます。
ユーザの状態は、ユーザ固有のクリックスルーレート(CTR)としてモデル化され、CTRは、現在のラウンドのユーザに対して表示される広告セットに従って、次のラウンドで変更される。
我々は,このMDPの最適メカニズムを,広告主の価値分布,現在のユーザ状態,ユーザへの広告表示の今後の影響に依拠する,修正された仮想価値の概念を用いて,Myersonのオークションとして特徴づける。
さらに,パーソナライズド・リザーブ・プライズによる第2価格オークションを基盤とした簡易なメカニズムを提案し,長期割引収益に対する一定要素近似を実現できることを示す。 We propose a new Markov Decision Process (MDP) model for ad auctions to capture the user response to the quality of ads, with the objective of maximizing the long-term discounted revenue. By incorporating user response, our model takes into consideration all three parties involved in the auction (advertiser, auctioneer, and user). The state of the user is modeled as a user-specific click-through rate (CTR) with the CTR changing in the next round according to the set of ads shown to the user in the current round. We characterize the optimal mechanism for this MDP as a Myerson's auction with a notion of modified virtual value, which relies on the value distribution of the advertiser, the current user state, and the future impact of showing the ad to the user. Moreover, we propose a simple mechanism built upon second price auctions with personalized reserve prices and show it can achieve a constant-factor approximation to the optimal long term discounted revenue. | 翻訳日:2023-02-17 14:42:47 公開日:2023-02-16 |
# 構造再パラメータ化による視覚的適応の効率化 Towards Efficient Visual Adaption via Structural Re-parameterization ( http://arxiv.org/abs/2302.08106v1 ) ライセンス: Link先を確認 | Gen Luo, Minglang Huang, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang, Zhiyu Wang and Rongrong Ji | (参考訳) パラメータ効率変換学習(PETL)は,大規模事前学習モデルを下流タスクに安価に適応することを目的とした,新たな研究分野である。
近年の進歩は、完全な微調整ではなく、少数のパラメータを更新または注入することで、様々な視覚タスクの保存コストの削減に大きな成功を収めている。
しかし,既存のPETL法の多くは,まだ推論中に無視できない遅延が発生している。
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対するパラメータ効率と計算に優しいアダプタを提案する。
具体的には、複雑な構造であっても、適応モジュールが構造的再パラメータ化によってほとんどの巨大な視覚モデルにシームレスに統合できることを証明する。
このプロパティは推論中にRepAdapterをゼロコストにする。
計算効率に加えて、RepAdapterはスパース構造と慎重な配置のため、既存のPETL法よりも効率的で軽量である。
RepAdapterを検証するために、画像とビデオの分類とセマンティックセグメンテーションという3つの視覚タスクの27のベンチマークデータセットについて広範な実験を行った。
実験結果から,RepAdapterの性能と効率は現状のPETL法よりも優れていた。
例えば、わずか0.6%のパラメータを更新することで、Sun397上でのViTのパフォーマンスを38.8から55.1に改善できる。
その一般化性は、ViT、CLIP、Swin-Transformer、ConvNeXtといったビジョンモデルでもよく検証されている。
ソースコードはhttps://github.com/luogen1996/repadapterで公開しています。 Parameter-efficient transfer learning (PETL) is an emerging research spot aimed at inexpensively adapting large-scale pre-trained models to downstream tasks. Recent advances have achieved great success in saving storage costs for various vision tasks by updating or injecting a small number of parameters instead of full fine-tuning. However, we notice that most existing PETL methods still incur non-negligible latency during inference. In this paper, we propose a parameter-efficient and computationally friendly adapter for giant vision models, called RepAdapter. Specifically, we prove that the adaption modules, even with a complex structure, can be seamlessly integrated into most giant vision models via structural re-parameterization. This property makes RepAdapter zero-cost during inference. In addition to computation efficiency, RepAdapter is more effective and lightweight than existing PETL methods due to its sparse structure and our careful deployment. To validate RepAdapter, we conduct extensive experiments on 27 benchmark datasets of three vision tasks, i.e., image and video classifications and semantic segmentation. Experimental results show the superior performance and efficiency of RepAdapter than the state-of-the-art PETL methods. For instance, by updating only 0.6% parameters, we can improve the performance of ViT from 38.8 to 55.1 on Sun397. Its generalizability is also well validated by a bunch of vision models, i.e., ViT, CLIP, Swin-Transformer and ConvNeXt. Our source code is released at https://github.com/luogen1996/RepAdapter. | 翻訳日:2023-02-17 14:42:30 公開日:2023-02-16 |
# ベイズ混合効果と大規模言語モデルを用いたL2前置詞の再解析 Reanalyzing L2 Preposition Learning with Bayesian Mixed Effects and a Large Language Model ( http://arxiv.org/abs/2302.08150v1 ) ライセンス: Link先を確認 | Jakob Prange and Man Ho Ivy Wong | (参考訳) ベイジアンモデルとニューラルモデルの両方を用いて,英語前置詞の理解度を測定する2つのテストに対して,中国語学習者の介入前および介入後反応のデータセットを解析した。
その結果, 学生の能力, 課題タイプ, 刺激文間の重要な相互作用が新たに明らかになった。
ベイジアン法は, 学習者間でのデータのばらつきや多様性が高いことから, 言語モデルの確率を文法的・学習可能性の予測因子として用いる可能性も高い。 We use both Bayesian and neural models to dissect a data set of Chinese learners' pre- and post-interventional responses to two tests measuring their understanding of English prepositions. The results mostly replicate previous findings from frequentist analyses and newly reveal crucial interactions between student ability, task type, and stimulus sentence. Given the sparsity of the data as well as high diversity among learners, the Bayesian method proves most useful; but we also see potential in using language model probabilities as predictors of grammaticality and learnability. | 翻訳日:2023-02-17 14:36:24 公開日:2023-02-16 |
# URCDC-Depth : 単眼深度推定のためのCutFlipを用いた不確かさのクロス蒸留法 URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for Monocular Depth Estimation ( http://arxiv.org/abs/2302.08149v1 ) ライセンス: Link先を確認 | Shuwei Shao, Zhongcai Pei, Weihai Chen, Ran Li, Zhong Liu and Zhengguo Li | (参考訳) この研究は、単一のRGB画像から高品質な深度マップを推定することを目的としている。
奥行きの手がかりがないため,遠距離相関と局所情報を十分に活用することは,正確な奥行き推定には不可欠である。
この目的のために,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確実性補正断熱を導入し,統合深度推定器を学習する。
具体的には、TransformerブランチとCNNブランチから得られた深さ推定を擬似ラベルとして使い、互いに教え合う。
一方,ノイズ深度ラベルの損失重みを補正するために,画素単位の深さ不確かさをモデル化する。
クロス蒸留を劣化させる強力なトランスフォーマー分岐によって引き起こされる大きな性能ギャップを回避するため,トランスフォーマーからCNNへ特徴マップを転送し,弱いCNN分岐を補助する結合ユニットを設計する。
さらに,深度推定のための鉛直画像位置の手がかりとは別に,より価値の高い手がかりを活用できるように,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。
実験結果から,提案手法はKITTIおよびNYU-Depth-v2データセットにおける従来の最先端手法を超越しており,推論時に計算負荷が増すことはないことがわかった。
ソースコードは \url{https://github.com/ShuweiShao/URCDC-Depth} で公開されている。 This work aims to estimate a high-quality depth map from a single RGB image. Due to the lack of depth clues, making full use of the long-range correlation and the local information is critical for accurate depth estimation. Towards this end, we introduce an uncertainty rectified cross-distillation between Transformer and convolutional neural network (CNN) to learn a unified depth estimator. Specifically, we use the depth estimates derived from the Transformer branch and the CNN branch as pseudo labels to teach each other. Meanwhile, we model the pixel-wise depth uncertainty to rectify the loss weights of noisy depth labels. To avoid the large performance gap induced by the strong Transformer branch deteriorating the cross-distillation, we transfer the feature maps from Transformer to CNN and design coupling units to assist the weak CNN branch to utilize the transferred features. Furthermore, we propose a surprisingly simple yet highly effective data augmentation technique CutFlip, which enforces the model to exploit more valuable clues apart from the clue of vertical image position for depth estimation. Extensive experiments indicate that our model, termed~\textbf{URCDC-Depth}, exceeds previous state-of-the-art methods on the KITTI and NYU-Depth-v2 datasets, even with no additional computational burden at inference time. The source code is publicly available at \url{https://github.com/ShuweiShao/URCDC-Depth}. | 翻訳日:2023-02-17 14:36:15 公開日:2023-02-16 |
# ニューラルシンボリック推論戦略の実証的研究 Empirical Investigation of Neural Symbolic Reasoning Strategies ( http://arxiv.org/abs/2302.08148v1 ) ライセンス: Link先を確認 | Yoichi Aoki, Keito Kudo, Tatsuki Kuribayashi, Ana Brassard, Masashi Yoshikawa, Keisuke Sakaguchi and Kentaro Inui | (参考訳) 神経推論精度は中間推論ステップを生成する際に向上する。
しかし、この改良のきっかけはまだ不明である。
本稿では,シンボリック推論のための中間ステップ生成の利点を考察し,考察する。
具体的には、推論戦略を段階的粒度と連鎖戦略で分解する。
純粋に象徴的な数値推論データセット(例えば、A=1, B=3, C=A+3, C?)を用いて、推論戦略の選択は、外挿長が長くなるにつれて、そのギャップはさらに大きくなる。
驚いたことに、特定の構成は、長さの補間であってもほぼ完璧なパフォーマンスをもたらすことも分かりました。
この結果から,神経推論モデルにおける効果的な戦略の探求の重要性が示唆された。 Neural reasoning accuracy improves when generating intermediate reasoning steps. However, the source of this improvement is yet unclear. Here, we investigate and factorize the benefit of generating intermediate steps for symbolic reasoning. Specifically, we decompose the reasoning strategy w.r.t. step granularity and chaining strategy. With a purely symbolic numerical reasoning dataset (e.g., A=1, B=3, C=A+3, C?), we found that the choice of reasoning strategies significantly affects the performance, with the gap becoming even larger as the extrapolation length becomes longer. Surprisingly, we also found that certain configurations lead to nearly perfect performance, even in the case of length extrapolation. Our results indicate the importance of further exploring effective strategies for neural reasoning models. | 翻訳日:2023-02-17 14:35:47 公開日:2023-02-16 |
# CluCDD:クラスタリングによるコントラスト対話分散 CluCDD:Contrastive Dialogue Disentanglement via Clustering ( http://arxiv.org/abs/2302.08146v1 ) ライセンス: Link先を確認 | Jingsheng Gao, Zeyu Li, Suncheng Xiang, Ting Liu, Yuzhuo Fu | (参考訳) 多くの多人数対話が毎日オンラインで行われており、人間と機械の両方の対話力学の性質を理解するのが困難である。
対話解離は、絡み合った対話を分離したセッションに分離することを目的としており、長い混乱した対話の可読性を高める。
従来の研究では,対話におけるクラスタリング性能を保証できない2段階の手法で,メッセージペア分類とクラスタリングを主に重視していた。
この課題に対処するために,コントラスト学習によって発話を集約するCluCDDというシンプルなモデルを提案する。
より具体的には、私たちのモデルは同じセッションで発話をまとめ、異なるセッションで発話をプッシュします。
そして、予測クラスタリングラベルを生成するためにクラスタリング手法を採用する。
Movie Dialogue データセットとIRC データセットで実施した総合実験により,本モデルが新たな最先端結果をもたらすことを示す。 A huge number of multi-participant dialogues happen online every day, which leads to difficulty in understanding the nature of dialogue dynamics for both humans and machines. Dialogue disentanglement aims at separating an entangled dialogue into detached sessions, thus increasing the readability of long disordered dialogue. Previous studies mainly focus on message-pair classification and clustering in two-step methods, which cannot guarantee the whole clustering performance in a dialogue. To address this challenge, we propose a simple yet effective model named CluCDD, which aggregates utterances by contrastive learning. More specifically, our model pulls utterances in the same session together and pushes away utterances in different ones. Then a clustering method is adopted to generate predicted clustering labels. Comprehensive experiments conducted on the Movie Dialogue dataset and IRC dataset demonstrate that our model achieves a new state-of-the-art result. | 翻訳日:2023-02-17 14:35:35 公開日:2023-02-16 |
# 非線形双曲型PDEの学習に基づく解法:一般化誤差に関する実証的考察 Learning-based solutions to nonlinear hyperbolic PDEs: Empirical insights on generalization errors ( http://arxiv.org/abs/2302.08144v1 ) ライセンス: Link先を確認 | Bilal Thonnam Thodi, Sai Venkata Ramana Ambadipudi, Saif Eddin Jabari | (参考訳) 本研究では, 非線形双曲偏微分方程式 (H-PDE) に対する弱解の学習について検討した。
我々は、弱い解を学ぶためにフーリエニューラル演算子($\pi$-FNO)の物理インフォームド変種を用いる。
我々は、入力複雑性の関数として$\pi$-FNOソルバの一般化/サンプル誤差、すなわち初期条件と境界条件の分布を実証的に定量化する。
テスト結果から,$\pi$-FNOは初期条件や境界条件によく当てはまることがわかった。
一般化誤差は入力複雑性とともに線形に増大する。
さらに, 物理インフォームド正規化器の追加により, 溶液中の不連続性の予測が向上した。
我々は、lighthill-witham-richards(lwr)トラフィックフローモデルを、結果を導くためのガイドとして使用します。 We study learning weak solutions to nonlinear hyperbolic partial differential equations (H-PDE), which have been difficult to learn due to discontinuities in their solutions. We use a physics-informed variant of the Fourier Neural Operator ($\pi$-FNO) to learn the weak solutions. We empirically quantify the generalization/out-of-sample error of the $\pi$-FNO solver as a function of input complexity, i.e., the distributions of initial and boundary conditions. Our testing results show that $\pi$-FNO generalizes well to unseen initial and boundary conditions. We find that the generalization error grows linearly with input complexity. Further, adding a physics-informed regularizer improved the prediction of discontinuities in the solution. We use the Lighthill-Witham-Richards (LWR) traffic flow model as a guiding example to illustrate the results. | 翻訳日:2023-02-17 14:35:19 公開日:2023-02-16 |
# 初期化学習: メタ学習はプロンプトチューニングにおけるクロスタスクの一般化を改善するか? Learning to Initialize: Can Meta Learning Improve Cross-task Generalization in Prompt Tuning? ( http://arxiv.org/abs/2302.08143v1 ) ライセンス: Link先を確認 | Chengwei Qin, Shafiq Joty, Qian Li, Ruochen Zhao | (参考訳) タスク毎に追加のトークンの埋め込みのみをチューニングし、事前学習された言語モデル(plm)を凍結しておくプロンプトチューニング(pt)は、わずかな学習で驚くべきパフォーマンスを示している。
それにもかかわらず、PTは迅速な埋め込みの良好な初期化に大きく依存していることが示されている。
本研究では,メタプロンプト・チューニング(MPT)について検討し,メタ学習がPTにおけるクロスタスクの一般化を(可能ならば)改善し,他の関連するタスクからのプロンプト埋め込みを初期化することで,体系的に研究する。
我々は,多種多様なソース/ターゲットタスク設定を用いて,多種多様な適応設定において,メタ学習アルゴリズムの代表セットを経験的に分析する。
広範囲な実験と分析により,MPTの有効性を実証した。
この改善は特に分類タスクにおいて重要である。
質問応答など他のタスクでは、MPTはPTより優れているが、マルチタスク学習では必ずしも優れているとは限らない。
さらに,タスクの類似性の観点から,詳細な分析を行う。 Prompt tuning (PT) which only tunes the embeddings of an additional sequence of tokens per task, keeping the pre-trained language model (PLM) frozen, has shown remarkable performance in few-shot learning. Despite this, PT has been shown to rely heavily on good initialization of the prompt embeddings. In this work, we study meta prompt tuning (MPT) to systematically explore how meta-learning can help improve (if it can) cross-task generalization in PT through learning to initialize the prompt embeddings from other relevant tasks. We empirically analyze a representative set of meta learning algorithms in a wide range of adaptation settings with different source/target task configurations on a large set of few-shot tasks. With extensive experiments and analysis, we demonstrate the effectiveness of MPT. We find the improvement to be significant particularly on classification tasks. For other kinds of tasks such as question answering, we observe that while MPT can outperform PT in most cases, it does not always outperform multi-task learning. We further provide an in-depth analysis from the perspective of task similarity. | 翻訳日:2023-02-17 14:35:06 公開日:2023-02-16 |
# Rhinoによる大規模モデルの自動並列化 - 生産AIプラットフォームにおけるシステム的アプローチ Auto-Parallelizing Large Models with Rhino: A Systematic Approach on Production AI Platform ( http://arxiv.org/abs/2302.08141v1 ) ライセンス: Link先を確認 | Shiwei Zhang, Lansong Diao, Siyu Wang, Zongyan Cao, Yiliang Gu, Chang Si, Ziji Shi, Zhen Zheng, Chuan Wu, Wei Lin | (参考訳) 実運用環境のためのAIプラットフォーム上で,自動並列化を備えたテンソルプログラムを高速化するシステムRhinoを提案する。
単一のデバイス用に書かれたテンソルプログラムを,ユーザ設定なしで数千台のデバイスにスケールアップ可能な,同等の分散プログラムに変換する。
rhinoはまず、意味的に独立したテンソルプログラムの中間表現に取り組み、前例のない応用への一般化を促進する。
さらに、タスク指向コントローラと最適なパフォーマンスのための分散ランタイムを実装している。
Rhino氏は、ディープラーニング(DL)で一般的に使用されるすべてのパラダイムと、非線形モデル上で強化されたパーティショニングとパイプライン並列化を含む、完全かつ体系的な並列化戦略空間について検討している。
最適に近い並列実行計画の効率的な探索を目指して,生産クラスタの解析により,戦略探索を高速化する一般的なヒューリスティックスを明らかにする。
その上、2つの最適化レベルは、ユーザーが検索時間と戦略品質の間の柔軟なトレードオフを提供するように設計されている。
実験により,rhinoは,古典的,研究的,生産的dlモデルの熟練した戦略を再発見できるだけでなく,既存のシステムを超越した新しい並列化戦略を見いだせることを示した。 We present Rhino, a system for accelerating tensor programs with automatic parallelization on AI platform for real production environment. It transforms a tensor program written for a single device into an equivalent distributed program that is capable of scaling up to thousands of devices with no user configuration. Rhino firstly works on a semantically independent intermediate representation of tensor programs, which facilitates its generalization to unprecedented applications. Additionally, it implements a task-oriented controller and a distributed runtime for optimal performance. Rhino explores on a complete and systematic parallelization strategy space that comprises all the paradigms commonly employed in deep learning (DL), in addition to strided partitioning and pipeline parallelism on non-linear models. Aiming to efficiently search for a near-optimal parallel execution plan, our analysis of production clusters reveals general heuristics to speed up the strategy search. On top of it, two optimization levels are designed to offer users flexible trade-offs between the search time and strategy quality. Our experiments demonstrate that Rhino can not only re-discover the expert-crafted strategies of classic, research and production DL models, but also identify novel parallelization strategies which surpass existing systems for novel models. | 翻訳日:2023-02-17 14:34:46 公開日:2023-02-16 |
# モデルに基づく分散ポリシー最適化 Model-Based Decentralized Policy Optimization ( http://arxiv.org/abs/2302.08139v1 ) ライセンス: Link先を確認 | Hao Luo, Jiechuan Jiang, and Zongqing Lu | (参考訳) 分散ポリシー最適化は、協調的マルチエージェントタスクで一般的に用いられてきた。
しかし、各エージェントは個別のエージェントの観点から同時にポリシーを更新しているため、環境は静止していないため、単調な政策改善を保証することは困難である。
政策改善の安定とモノトニック化を支援するために,モデルベース分散ポリシー最適化(mdpo, model-based decentralized policy optimization)を提案する。
MDPOの政策最適化はモデルフリーの分散政策最適化よりも安定である。
さらに、非定常性のため、潜在変数関数は変化し、モデル化が困難である。
さらに,潜在変数関数の誤差を減少させる潜在変数予測法を提案し,理論上は単調な方針改善に寄与する。
MDPOは、様々な協調マルチエージェントタスクにおいて、モデルフリーの分散ポリシー最適化よりも優れた性能を得ることができる。 Decentralized policy optimization has been commonly used in cooperative multi-agent tasks. However, since all agents are updating their policies simultaneously, from the perspective of individual agents, the environment is non-stationary, resulting in it being hard to guarantee monotonic policy improvement. To help the policy improvement be stable and monotonic, we propose model-based decentralized policy optimization (MDPO), which incorporates a latent variable function to help construct the transition and reward function from an individual perspective. We theoretically analyze that the policy optimization of MDPO is more stable than model-free decentralized policy optimization. Moreover, due to non-stationarity, the latent variable function is varying and hard to be modeled. We further propose a latent variable prediction method to reduce the error of the latent variable function, which theoretically contributes to the monotonic policy improvement. Empirically, MDPO can indeed obtain superior performance than model-free decentralized policy optimization in a variety of cooperative multi-agent tasks. | 翻訳日:2023-02-17 14:34:24 公開日:2023-02-16 |
# ACE-VC: 難解な自己教師付き音声表現を用いた適応的・制御可能な音声変換 ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly Disentangled Self-supervised Speech Representations ( http://arxiv.org/abs/2302.08137v1 ) ライセンス: Link先を確認 | Shehzeen Hussain, Paarth Neekhara, Jocelyn Huang, Jason Li, Boris Ginsburg | (参考訳) 本研究では,自己教師付き学習で学習した音声表現を用いたゼロショット音声変換手法を提案する。
まず,言語内容,話者特性,発話スタイルなどの特徴に音声発話を分解するマルチタスクモデルを開発した。
コンテンツと話者表現を分離するために,オリジナル音声とピッチシフト音声のコンテンツ表現の類似性を促進するsiameseネットワークに基づく学習戦略を提案する。
次に,音声信号を分解表現から効果的に再構成できるピッチと持続時間予測器を用いた合成モデルを開発した。
提案手法では,話者の類似性,理解性,自然性を評価する指標を用いて,ゼロショット音声変換を行うことができる。
対象とする話者に対してわずか10秒のデータを使用すると,音声スワップを行うことができ,視聴覚話者では5.5%,未認識話者では8.4%の話者検証を行うことができる。 In this work, we propose a zero-shot voice conversion method using speech representations trained with self-supervised learning. First, we develop a multi-task model to decompose a speech utterance into features such as linguistic content, speaker characteristics, and speaking style. To disentangle content and speaker representations, we propose a training strategy based on Siamese networks that encourages similarity between the content representations of the original and pitch-shifted audio. Next, we develop a synthesis model with pitch and duration predictors that can effectively reconstruct the speech signal from its decomposed representation. Our framework allows controllable and speaker-adaptive synthesis to perform zero-shot any-to-any voice conversion achieving state-of-the-art results on metrics evaluating speaker similarity, intelligibility, and naturalness. Using just 10 seconds of data for a target speaker, our framework can perform voice swapping and achieves a speaker verification EER of 5.5% for seen speakers and 8.4% for unseen speakers. | 翻訳日:2023-02-17 14:34:08 公開日:2023-02-16 |
# 支持テンソルマシンのための重み付き部分空間指数カーネル A weighted subspace exponential kernel for support tensor machines ( http://arxiv.org/abs/2302.08134v1 ) ライセンス: Link先を確認 | Kirandeep Kour, Sergey Dolgov, Peter Benner, Martin Stoll, Max Pfeffer | (参考訳) テンソルの形での高次元データは、カーネル分類法では困難である。
計算複雑性を低減し、情報的特徴を抽出するために、低ランクテンソル分解に基づくカーネルが提案されている。
しかし、これらのカーネルによってテンソルの決定的な特徴が悪用されているかはしばしば不明である。
本稿では,タッカー分解に基づく新しいカーネルを提案する。
このカーネルでは、タッカー因子はHOSVD分解から特異値のチューニング可能なパワーを持つタッカー行列の再重み付けに基づいて計算される。
これは、タッカーコアとデータの要素の寄与をバランスさせるメカニズムを提供する。
いくつかのデータセット上で新しいカーネルでテンソルマシンをベンチマークする。
まず、2つのクラスがタッカー因子かコアで異なる合成データを生成し、新しいカーネルと既存のカーネルを比較します。
どちらの分類シナリオにおいても,新しいカーネルの堅牢性を示す。
さらに,本手法を実世界のデータセット上でテストする。
提案するカーネルは、最先端のテンソルトレインマルチウェイマルチレベルカーネルよりも高いテスト精度を示し、計算時間を大幅に削減した。 High-dimensional data in the form of tensors are challenging for kernel classification methods. To both reduce the computational complexity and extract informative features, kernels based on low-rank tensor decompositions have been proposed. However, what decisive features of the tensors are exploited by these kernels is often unclear. In this paper we propose a novel kernel that is based on the Tucker decomposition. For this kernel the Tucker factors are computed based on re-weighting of the Tucker matrices with tuneable powers of singular values from the HOSVD decomposition. This provides a mechanism to balance the contribution of the Tucker core and factors of the data. We benchmark support tensor machines with this new kernel on several datasets. First we generate synthetic data where two classes differ in either Tucker factors or core, and compare our novel and previously existing kernels. We show robustness of the new kernel with respect to both classification scenarios. We further test the new method on real-world datasets. The proposed kernel has demonstrated a higher test accuracy than the state-of-the-art tensor train multi-way multi-level kernel, and a significantly lower computational time. | 翻訳日:2023-02-17 14:33:40 公開日:2023-02-16 |
# WHC:畳み込みニューラルネットワークを用いたフィルタプルーニングのための重み付きハイブリッド基準 WHC: Weighted Hybrid Criterion for Filter Pruning on Convolutional Neural Networks ( http://arxiv.org/abs/2302.08185v1 ) ライセンス: Link先を確認 | Shaowu Chen, Weize Sun, Lei Huang | (参考訳) フィルタプルーニングは近年、畳み込みニューラルネットワークの圧縮と加速の能力で注目を集めている。
標準ベースや関係ベースを含む様々なデータ非依存の基準が提案され、最も重要なフィルタを損なう。
しかし、これらの最先端の基準はフィルタの相似性を十分に考慮せず、性能劣化につながる可能性がある。
本稿では,まず関係ベース基準の限界を例で分析し,その後,規範ベースと関係ベースの両方の問題に取り組むために,新しいデータ非依存基準である重み付きハイブリッド基準(whc)を導入する。
フィルタの大きさとフィルタ間の線形依存性を考慮することで、WHCはネットワークに深刻な性能劣化をもたらすことなく安全に切断できる最も冗長なフィルタを確実に認識することができる。
簡単なワンショットで大規模な刈り取り実験を行い、提案したWHCの有効性を示した。
特に、WHCはImageNet上でResNet-50を作成でき、42%以上の浮動小数点演算をトップ5の精度でパフォーマンスを損なうことなく削減できる。 Filter pruning has attracted increasing attention in recent years for its capacity in compressing and accelerating convolutional neural networks. Various data-independent criteria, including norm-based and relationship-based ones, were proposed to prune the most unimportant filters. However, these state-of-the-art criteria fail to fully consider the dissimilarity of filters, and thus might lead to performance degradation. In this paper, we first analyze the limitation of relationship-based criteria with examples, and then introduce a new data-independent criterion, Weighted Hybrid Criterion (WHC), to tackle the problems of both norm-based and relationship-based criteria. By taking the magnitude of each filter and the linear dependence between filters into consideration, WHC can robustly recognize the most redundant filters, which can be safely pruned without introducing severe performance degradation to networks. Extensive pruning experiments in a simple one-shot manner demonstrate the effectiveness of the proposed WHC. In particular, WHC can prune ResNet-50 on ImageNet with more than 42% of floating point operations reduced without any performance loss in top-5 accuracy. | 翻訳日:2023-02-17 14:26:53 公開日:2023-02-16 |
# 特異値表現:ニューラルネットワークの新しいグラフパースペクティブ Singular Value Representation: A New Graph Perspective On Neural Networks ( http://arxiv.org/abs/2302.08183v1 ) ライセンス: Link先を確認 | Dan Meller and Nicolas Berkouk | (参考訳) 重みのSVD因子化を用いてニューラルネットワークの内部状態を表現するための新しい手法であるSVR(Singular Value Representation)を導入する。
この構成は、古典的ニューロンの特定の活性化パターンに対応するスペクトルニューロンと接続する新しい重み付きグラフを生み出す。
完全連結層と畳み込み層に対するスペクトルニューロン間の有意義な接続を識別するための正確な統計的枠組みを導出する。
機械学習研究におけるアプローチの有用性を示すために,SVRを用いた2つの発見に注目した。
まず、複数の深い層にまたがるVGGネットワークにおける支配的な接続の出現を強調する。
第二に、入力データに頼らずに、バッチ正規化が深い層同士の密接なつながりを誘発し、驚くべき自発的スパーシフィケーション現象を引き起こすことを目撃する。 We introduce the Singular Value Representation (SVR), a new method to represent the internal state of neural networks using SVD factorization of the weights. This construction yields a new weighted graph connecting what we call spectral neurons, that correspond to specific activation patterns of classical neurons. We derive a precise statistical framework to discriminate meaningful connections between spectral neurons for fully connected and convolutional layers. To demonstrate the usefulness of our approach for machine learning research, we highlight two discoveries we made using the SVR. First, we highlight the emergence of a dominant connection in VGG networks that spans multiple deep layers. Second, we witness, without relying on any input data, that batch normalization can induce significant connections between near-kernels of deep layers, leading to a remarkable spontaneous sparsification phenomenon. | 翻訳日:2023-02-17 14:26:32 公開日:2023-02-16 |
# 洪水範囲マッピングのためのクロスモーダル蒸留 Cross Modal Distillation for Flood Extent Mapping ( http://arxiv.org/abs/2302.08180v1 ) ライセンス: Link先を確認 | Shubhika Garg, Ben Feinstein, Shahar Timnat, Vishal Batchu, Gideon Dror, Adi Gerzi Rosenthal, Varun Gulshan | (参考訳) 洪水の強度と頻度の増大は、気候変動による多くの結果の1つである。
本研究では,早期洪水警報システムの浸水検出モジュールの改良を目的としたML手法について検討する。
提案手法は,SAR(Synthetic Aperture Radar)画像とマルチスペクトルのアンラベリングデータセットを用いて,純粋に教師付き学習手法のラベル付け要求を低減させる。
以前の作品では、ラベルのないデータを使って弱いラベルを生成していた。
しかし、実験の結果、そのようなモデルがいまだに弱いラベルのラベルミスを学ぶことに気づいたのです。
知識の蒸留と半教師による学習に動機づけられ、小さなラベル付きデータセットと大きなラベルなしデータセットの助けを借りて、教師を使って生徒を訓練する。
従来の自己蒸留とは違って,よりリッチなモダリティ(マルチスペクトル画像)で訓練された教師からSAR画像で訓練された学生モデルへ指導を行うクロスモーダル蒸留フレームワークを提案する。
トレーニングされたモデルはsen1floods11データセット上でテストされる。
本モデルでは, 弱いラベル付きSAR画像に基づいてトレーニングしたSen1Floods11ベースラインモデルに対して, テストスプリット上でのインターセクションオーバーユニオン(IoU)の絶対マージンを6.53%上回った。 The increasing intensity and frequency of floods is one of the many consequences of our changing climate. In this work, we explore ML techniques that improve the flood detection module of an operational early flood warning system. Our method exploits an unlabelled dataset of paired multi-spectral and Synthetic Aperture Radar (SAR) imagery to reduce the labeling requirements of a purely supervised learning method. Prior works have used unlabelled data by creating weak labels out of them. However, from our experiments we noticed that such a model still ends up learning the label mistakes in those weak labels. Motivated by knowledge distillation and semi supervised learning, we explore the use of a teacher to train a student with the help of a small hand labelled dataset and a large unlabelled dataset. Unlike the conventional self distillation setup, we propose a cross modal distillation framework that transfers supervision from a teacher trained on richer modality (multi-spectral images) to a student model trained on SAR imagery. The trained models are then tested on the Sen1Floods11 dataset. Our model outperforms the Sen1Floods11 baseline model trained on the weak labeled SAR imagery by an absolute margin of 6.53% Intersection-over-Union (IoU) on the test split. | 翻訳日:2023-02-17 14:26:17 公開日:2023-02-16 |
# 望ましいものの集合の背後にある論理とそのフィルタ表現 The logic behind desirable sets of things, and its filter representation ( http://arxiv.org/abs/2302.08176v1 ) ライセンス: Link先を確認 | Gert de Cooman and Arthur Van Camp and Jasper De Bock | (参考訳) 我々は、所望のギャンブルとコヒーレント選択関数を一般化する所望の(集合の)物事のコヒーレント集合の最近の理論の背後にある論理を同定し、これらのコヒーレントモデルに対して、より単純なものの観点から様々な表現結果を確立することができることを示す。 We identify the logic behind the recent theory of coherent sets of desirable (sets of) things, which generalise desirable (sets of) gambles and coherent choice functions, and show that this identification allows us to establish various representation results for such coherent models in terms of simpler ones. | 翻訳日:2023-02-17 14:25:55 公開日:2023-02-16 |
# 多変量正規分布間のフィッシャー・ラオ距離の数値近似法 A numerical approximation method for the Fisher-Rao distance between multivariate normal distributions ( http://arxiv.org/abs/2302.08175v1 ) ライセンス: Link先を確認 | Frank Nielsen | (参考訳) 多変量正規分布間のラオ距離を正規分布に結合する離散曲線と、ジェフリーの発散を用いて曲線上の連続した近傍正規分布間のラオ距離を近似する手法を提案する。
正規分布の正規,自然および期待パラメータ化における線形補間曲線を実験的に検討する。
さらに、Calvo と Oller の等長曲線は Fisher-Rao $d$-variate normal manifold を $(d+1)\times (d+1)$ symmetric positive-definite matrices [Journal of multivariate analysis 35.2 (1990): 223-242] の錐に埋め込むものであると考える。
最後に、カルボ写像とオルラー写像の情報幾何学的性質について述べる。 We present a method to approximate Rao's distance between multivariate normal distributions based on discretizing curves joining normal distributions and approximating Rao distances between successive nearby normals on the curve by using Jeffrey's divergence. We consider experimentally the linear interpolation curves in the ordinary, natural and expectation parameterizations of the normal distributions. We further consider a curve derived from the Calvo and Oller's isometric embedding of the Fisher-Rao $d$-variate normal manifold into the cone of $(d+1)\times (d+1)$ symmetric positive-definite matrices [Journal of multivariate analysis 35.2 (1990): 223-242]. Last, we present some information-geometric properties of the Calvo and Oller's mapping. | 翻訳日:2023-02-17 14:25:46 公開日:2023-02-16 |
# 説明可能性に対するシェープリー値の不備 The Inadequacy of Shapley Values for Explainability ( http://arxiv.org/abs/2302.08160v1 ) ライセンス: Link先を確認 | Xuanxiang Huang, Joao Marques-Silva | (参考訳) 本稿では、説明可能なAI(XAI)におけるShapley値の使用が、必ずしも予測のための特徴の相対的重要性に関する確実な誤解を招く理由について、厳密な議論を行う。
具体的には,シャプリー値によって決定される特徴の相対的重要性が,予測に明らかに無関係な特徴に不正確に与えられ,予測に有益である特徴の重要度が低下する,分類器や関連する予測が存在することを実証する。
この論文は、最近の複雑性の結果から、いくつかの制限された分類器のクラスの場合、厳密な特徴属性値の計算に効率的なアルゴリズムが存在することは、ほとんどありそうにないことを論じている。 This paper develops a rigorous argument for why the use of Shapley values in explainable AI (XAI) will necessarily yield provably misleading information about the relative importance of features for predictions. Concretely, this paper demonstrates that there exist classifiers, and associated predictions, for which the relative importance of features determined by the Shapley values will incorrectly assign more importance to features that are provably irrelevant for the prediction, and less importance to features that are provably relevant for the prediction. The paper also argues that, given recent complexity results, the existence of efficient algorithms for the computation of rigorous feature attribution values in the case of some restricted classes of classifiers should be deemed unlikely at best. | 翻訳日:2023-02-17 14:25:31 公開日:2023-02-16 |
# 対物フェア機会:対物推論による決定モデルフェアネスの測定 Counterfactual Fair Opportunity: Measuring Decision Model Fairness with Counterfactual Reasoning ( http://arxiv.org/abs/2302.08158v1 ) ライセンス: Link先を確認 | Giandomenico Cornacchia, Vito Walter Anelli, Fedelucio Narducci, Azzurra Ragone, Eugenio Di Sciascio | (参考訳) 人工知能と機械学習モデルの応用は、不公平な行動の潜在的なリスクをもたらし、最近の規制に照らして、研究コミュニティの注目を集めている。
何人かの研究者は、新しい公平性の定義を探したり、偏りのある予測を特定するアプローチを開発することに焦点を合わせた。
しかし、この目的に反事実空間を活用しようとする者はいない。
本研究で提案する手法は,不注意条件下での公正な場合の非現実的推論を用いて不公平なモデル行動を明らかにすることを目的としている。
対物フェアという対物機会の対物バージョンを定義し、対物サンプルのセンシティブな情報を分析する2つの新しい指標を紹介した。
3つの異なるデータセットによる実験結果から,従来の機械学習とデバイアスモデルの不公平な振る舞いを開示し,方法論とメトリクスの有効性を示した。 The increasing application of Artificial Intelligence and Machine Learning models poses potential risks of unfair behavior and, in light of recent regulations, has attracted the attention of the research community. Several researchers focused on seeking new fairness definitions or developing approaches to identify biased predictions. However, none try to exploit the counterfactual space to this aim. In that direction, the methodology proposed in this work aims to unveil unfair model behaviors using counterfactual reasoning in the case of fairness under unawareness setting. A counterfactual version of equal opportunity named counterfactual fair opportunity is defined and two novel metrics that analyze the sensitive information of counterfactual samples are introduced. Experimental results on three different datasets show the efficacy of our methodologies and our metrics, disclosing the unfair behavior of classic machine learning and debiasing models. | 翻訳日:2023-02-17 14:25:20 公開日:2023-02-16 |
# 人間中心のレスポンシブル人工知能の現状と将来動向 Human-Centered Responsible Artificial Intelligence: Current & Future Trends ( http://arxiv.org/abs/2302.08157v1 ) ライセンス: Link先を確認 | Mohammad Tahaei, Marios Constantinides, Daniele Quercia, Sean Kennedy, Michael Muller, Simone Stumpf, Q. Vera Liao, Ricardo Baeza-Yates, Lora Aroyo, Jess Holbrook, Ewa Luger, Michael Madaio, Ilana Golbin Blumenfeld, Maria De-Arteaga, Jessica Vitak, Alexandra Olteanu | (参考訳) 近年、CHIコミュニティは人間中心のレスポンシブル人工知能の研究において著しい成長を遂げている。
異なる研究コミュニティは、同様のトピックを議論するために異なる用語を使用するかもしれないが、この研究は究極的には、人権と倫理に根ざしたまま人類に利益をもたらすAIを開発し、AIの潜在的な害を減らすことを目的としている。
本研究グループでは,これらのトピックに関心を持つ学界や産業界の研究者を集結させ,現在および将来の研究動向をマッピングし,コラボレーションとアイデアの共有を育むことにより,この重要な研究分野を前進させることを目標としている。 In recent years, the CHI community has seen significant growth in research on Human-Centered Responsible Artificial Intelligence. While different research communities may use different terminology to discuss similar topics, all of this work is ultimately aimed at developing AI that benefits humanity while being grounded in human rights and ethics, and reducing the potential harms of AI. In this special interest group, we aim to bring together researchers from academia and industry interested in these topics to map current and future research trends to advance this important area of research by fostering collaboration and sharing ideas. | 翻訳日:2023-02-17 14:25:06 公開日:2023-02-16 |
# 改良ヨロックスを用いた道路物体検出アルゴリズムに関する研究 Research on road object detection algorithm based on improved YOLOX ( http://arxiv.org/abs/2302.08156v1 ) ライセンス: Link先を確認 | Tao Yang, Youyu Wu, Yangxintai Tang | (参考訳) 道路物体検出は自動走行技術の重要な分野であり、高い検出精度を持つモデルは車両の安全運転により寄与する。
道路物体検出において,小型物体と閉塞物体の欠落は重要な問題である。
したがって 物体の欠落率を減らすことは 安全な運転にとって 非常に重要なことです
本稿では,YOLOXオブジェクト検出アルゴリズムをベースとして,予測ボックスと実ボックスの形状整合性を改善するため,DecIoU境界ボックス回帰損失関数を提案する。
さらに、動的アンカーボックス機構は、信頼性ラベルの精度を向上させ、アンカーボックスなしでオブジェクト検出モデルのラベル不正確性を改善するためにも用いられる。
KITTIデータセットの多くの実験は、提案手法の有効性を示し、改良されたYOLOX-sは2.77%と4.24%のベースラインバージョンの改善と比較して88.9%のmAPと91.0%のmARを、改良されたYOLOX-mは2.30%と4.10%のベースラインバージョンの改善に比べて89.1%のmAPと91.4%のmARを達成した。 Road object detection is an important branch of automatic driving technology, The model with higher detection accuracy is more conducive to the safe driving of vehicles. In road object detection, the omission of small objects and occluded objects is an important problem. therefore, reducing the missed rate of the object is of great significance for safe driving. In the work of this paper, based on the YOLOX object detection algorithm to improve, proposes DecIoU boundary box regression loss function to improve the shape consistency of the predicted and real box, and Push Loss is introduced to further optimize the boundary box regression loss function, in order to detect more occluded objects. In addition, the dynamic anchor box mechanism is also used to improve the accuracy of the confidence label, improve the label inaccuracy of object detection model without anchor box. A large number of experiments on KITTI dataset demonstrate the effectiveness of the proposed method, the improved YOLOX-s achieved 88.9% mAP and 91.0% mAR on the KITTI dataset, compared to the baseline version improvements of 2.77% and 4.24%; the improved YOLOX-m achieved 89.1% mAP and 91.4% mAR, compared to the baseline version improvements of 2.30% and 4.10%. | 翻訳日:2023-02-17 14:24:54 公開日:2023-02-16 |
# バイアス付きソフトラベルから学ぶ Learning From Biased Soft Labels ( http://arxiv.org/abs/2302.08155v1 ) ライセンス: Link先を確認 | Hua Yuan, Ning Xu, Yu Shi, Xin Geng and Yong Rui | (参考訳) 知識蒸留は様々なタスクで広く採用され、大きな成功を収めてきた。
開始以来、多くの研究者は教師モデルの出力に隠された暗黒の知識に魅了されてきた。
近年、知識蒸留とラベル平滑化がソフトラベルからの学習と一体化できることが研究で示されている。
その結果、ソフトラベルの有効性を測定する方法が重要な問題となる。
既存の理論の多くは教師モデルやデータ分布に厳密な制約を課しており、ソフトラベルは接地ラベルに近いという仮定が多い。
本稿では, バイアス付きソフトラベルが依然として有効かどうかを考察する。
このようなソフトラベルの有効性を測定するために,より包括的な指標を2つ提示する。
この2つの指標に基づいて,バイアス付きソフトラベルに基づく学習者が分類子一貫性とerm学習可能であることを保証するのに十分な条件を与える。
この理論は3つの弱い教師付きフレームワークに適用される。
実験の結果、偏りのあるソフトラベルは良い生徒にも教えることができ、理論の健全さを裏付ける。 Knowledge distillation has been widely adopted in a variety of tasks and has achieved remarkable successes. Since its inception, many researchers have been intrigued by the dark knowledge hidden in the outputs of the teacher model. Recently, a study has demonstrated that knowledge distillation and label smoothing can be unified as learning from soft labels. Consequently, how to measure the effectiveness of the soft labels becomes an important question. Most existing theories have stringent constraints on the teacher model or data distribution, and many assumptions imply that the soft labels are close to the ground-truth labels. This paper studies whether biased soft labels are still effective. We present two more comprehensive indicators to measure the effectiveness of such soft labels. Based on the two indicators, we give sufficient conditions to ensure biased soft label based learners are classifier-consistent and ERM learnable. The theory is applied to three weakly-supervised frameworks. Experimental results validate that biased soft labels can also teach good students, which corroborates the soundness of the theory. | 翻訳日:2023-02-17 14:24:30 公開日:2023-02-16 |
# 界面欠陥を持つ自由共形理論の完全数え上げ統計と対称性解決絡み合い Full counting statistics and symmetry resolved entanglement for free conformal theories with interface defects ( http://arxiv.org/abs/2302.08209v1 ) ライセンス: Link先を確認 | Luca Capizzi, Sara Murciano, and Pasquale Calabrese | (参考訳) 我々は、一次元臨界自由理論の2つの種が共形インターフェースを介して結合した基底状態を考える。
これらは内部にu(1)$大域的対称性を持ち、不純物を越えた電荷の量子揺らぎを調べ、全計数統計、還元密度行列の荷電モーメント、r\'enyiエントロピーの解析的予測を与える。
本手法は, 欠陥のある幾何学と均質な幾何学との関係を基礎とし, 相関関数のスペクトル特性を2種の1つに限定する手法を提供する。
解析的予測を数値的に検証し,完全な一致を見いだす。 We consider the ground state of two species of one-dimensional critical free theories coupled together via a conformal interface. They have an internal $U(1)$ global symmetry and we investigate the quantum fluctuations of the charge across the impurity, giving analytical predictions for the full counting statistics, the charged moments of the reduced density matrix and the symmetry resolved R\'enyi entropies. Our approach is based on the relation between the geometry with the defect and the homogeneous one, and it provides a way to characterise the spectral properties of the correlation functions restricted to one of the two species. Our analytical predictions are tested numerically, finding a perfect agreement. | 翻訳日:2023-02-17 14:18:31 公開日:2023-02-16 |
# パララックス耐性非教師付き深部画像縫合のための薄板スプライン運動とシームレス組成の学習 Learning Thin-Plate Spline Motion and Seamless Composition for Parallax-Tolerant Unsupervised Deep Image Stitching ( http://arxiv.org/abs/2302.08207v1 ) ライセンス: Link先を確認 | Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao | (参考訳) 従来の画像縫い付けアプローチは、パフォーマンスを改善するためにますます複雑な幾何学的特徴(点、線、エッジなど)を活用する傾向がある。
しかし、これらの手作りの特徴は、適切な幾何学的構造を持つ特定の自然のシーンにのみ適している。
対照的に、深い縫合スキームは、ロバストな意味的特徴を適応的に学習することで、悪条件を克服するが、ホモグラフィーに基づく登録により、大きなパララックスケースを扱うことはできない。
そこで我々は,パララックス耐性の深い深部画像縫合技術 udis++ を提案する。
まず,グローバルなホモグラフィから局所的な薄板スプライン運動への画像登録をモデル化する,堅牢で柔軟なワープを提案する。
重なり領域の正確なアライメントと、非重なり領域のアライメントと歪みに関する共同最適化による形状保存を提供する。
その後、一般化能力を向上させるため、クロスデータセットおよびクロスレゾリューションアプリケーションにおけるワープ適応性を高めるために、単純かつ効果的な反復戦略を考案する。
最後に, シーム駆動合成マスクの教師なし学習により, 縫合画像をシームレスに合成することを提案する。
既存の手法と比較して,我々の解はパララックス耐性があり,複雑な幾何学的特徴の複雑な設計を伴わない。
実験により,SoTA法よりも定量的および定性的に優位性を示した。
コードはhttps://github.com/nie-lang/UDIS2.comから入手できる。 Traditional image stitching approaches tend to leverage increasingly complex geometric features (point, line, edge, etc.) for better performance. However, these hand-crafted features are only suitable for specific natural scenes with adequate geometric structures. In contrast, deep stitching schemes overcome the adverse conditions by adaptively learning robust semantic features, but they cannot handle large-parallax cases due to homography-based registration. To solve these issues, we propose UDIS++, a parallax-tolerant unsupervised deep image stitching technique. First, we propose a robust and flexible warp to model the image registration from global homography to local thin-plate spline motion. It provides accurate alignment for overlapping regions and shape preservation for non-overlapping regions by joint optimization concerning alignment and distortion. Subsequently, to improve the generalization capability, we design a simple but effective iterative strategy to enhance the warp adaption in cross-dataset and cross-resolution applications. Finally, to further eliminate the parallax artifacts, we propose to composite the stitched image seamlessly by unsupervised learning for seam-driven composition masks. Compared with existing methods, our solution is parallax-tolerant and free from laborious designs of complicated geometric features for specific scenes. Extensive experiments show our superiority over the SoTA methods, both quantitatively and qualitatively. The code will be available at https://github.com/nie-lang/UDIS2. | 翻訳日:2023-02-17 14:18:19 公開日:2023-02-16 |
# 異常検出に基づく金融イベント型インクリメンタル発見法 A method for incremental discovery of financial event types based on anomaly detection ( http://arxiv.org/abs/2302.08205v1 ) ライセンス: Link先を確認 | Dianyue Gu, Zixu Li, Zhenhai Guan, Rui Zhang, Lan Huang | (参考訳) 金融ドメインにおけるイベントデータセットは、しばしば実際のアプリケーションシナリオに基づいて構築され、そのイベントタイプはシナリオ制約のために弱い再利用可能なものである。
この少数のイベントタイプの制限は、主要な金融イベントの予測や金融イベントの波及効果の分析など、より複雑なタスクに対する我々の研究ニーズを満たしていない。
本稿では,イベント型を漸進的に発見するための3段階アプローチを提案する。
既存のアノテートされた金融イベントデータセットでは、以下の3段階のアプローチがある。 オリジナルのイベントタイプと未知のイベントタイプが混在した金融イベントデータの集合に対して、異常イベントが既知のタイプに属さないイベントである正常イベントと異常イベントに分類するために、異常検出を伴う半教師付きディープクラスタリングモデルがまず適用され、正常イベントが適切なイベントタイプでタグ付けされ、異常イベントが合理的にクラスタ化される。
最後に、クラスタキーワード抽出メソッドを使用して、新しいイベントクラスタのイベントの型名を推奨し、新たなイベントタイプを漸進的に検出する。
提案手法は,実データから新たなイベントタイプを漸進的に発見する上で有効である。 Event datasets in the financial domain are often constructed based on actual application scenarios, and their event types are weakly reusable due to scenario constraints; at the same time, the massive and diverse new financial big data cannot be limited to the event types defined for specific scenarios. This limitation of a small number of event types does not meet our research needs for more complex tasks such as the prediction of major financial events and the analysis of the ripple effects of financial events. In this paper, a three-stage approach is proposed to accomplish incremental discovery of event types. For an existing annotated financial event dataset, the three-stage approach consists of: for a set of financial event data with a mixture of original and unknown event types, a semi-supervised deep clustering model with anomaly detection is first applied to classify the data into normal and abnormal events, where abnormal events are events that do not belong to known types; then normal events are tagged with appropriate event types and abnormal events are reasonably clustered. Finally, a cluster keyword extraction method is used to recommend the type names of events for the new event clusters, thus incrementally discovering new event types. The proposed method is effective in the incremental discovery of new event types on real data sets. | 翻訳日:2023-02-17 14:17:55 公開日:2023-02-16 |
# 未認識環境下での公正なバイアス評価と検出のためのファクトファクト推論 Counterfactual Reasoning for Bias Evaluation and Detection in a Fairness under Unawareness setting ( http://arxiv.org/abs/2302.08204v1 ) ライセンス: Link先を確認 | Giandomenico Cornacchia, Vito Walter Anelli, Fedelucio Narducci, Azzurra Ragone, Eugenio Di Sciascio | (参考訳) 現在のAI規制では、不公平な結果を防ぐために、アルゴリズムの意思決定プロセスにセンシティブな特徴(性別、人種、宗教など)を破棄する必要がある。
しかし、トレーニングセットにセンシティブな特徴がなくても、アルゴリズムは識別を継続することができる。
実際、センシティブな機能が省略された場合(無意識下でのフェアネス)、それらはいわゆるプロキシ機能との非線形関係によって推測される。
本研究では,機密機能が破棄された場合でも継続可能な機械学習モデルの潜在的な隠れバイアスを明らかにする方法を提案する。
本研究は,ブラックボックス予測器が非現実的推論によってまだ偏りがあるかどうかを明らかにすることができることを示す。
より詳しくは、予測器が負の分類結果を提供する場合、まず、識別されたユーザカテゴリの反実例を作成し、正の結果を得る。
そして、同じ偽物サンプルが外部の分類器(センシティブな特徴を対象とする)を供給し、ポジティブな結果に必要なユーザ特性の変更が個人を非差別グループへ移動させたかどうかを明らかにする。
これが起こると、決定プロセスにおける差別行動の警告サインになる可能性がある。
さらに,特定機密情報のプロキシである特徴を決定するために,原サンプルからの反事実の偏差を利用する。
我々の実験は、たとえモデルが繊細な特徴を伴わずに訓練されたとしても、しばしば差別バイアスを被ることを示した。 Current AI regulations require discarding sensitive features (e.g., gender, race, religion) in the algorithm's decision-making process to prevent unfair outcomes. However, even without sensitive features in the training set, algorithms can persist in discrimination. Indeed, when sensitive features are omitted (fairness under unawareness), they could be inferred through non-linear relations with the so called proxy features. In this work, we propose a way to reveal the potential hidden bias of a machine learning model that can persist even when sensitive features are discarded. This study shows that it is possible to unveil whether the black-box predictor is still biased by exploiting counterfactual reasoning. In detail, when the predictor provides a negative classification outcome, our approach first builds counterfactual examples for a discriminated user category to obtain a positive outcome. Then, the same counterfactual samples feed an external classifier (that targets a sensitive feature) that reveals whether the modifications to the user characteristics needed for a positive outcome moved the individual to the non-discriminated group. When this occurs, it could be a warning sign for discriminatory behavior in the decision process. Furthermore, we leverage the deviation of counterfactuals from the original sample to determine which features are proxies of specific sensitive information. Our experiments show that, even if the model is trained without sensitive features, it often suffers discriminatory biases. | 翻訳日:2023-02-17 14:17:33 公開日:2023-02-16 |
# 深層学習に基づく地下水ヒートポンプの熱配管予測のための代理モデル Deep learning based surrogate modeling for thermal plume prediction of groundwater heat pumps ( http://arxiv.org/abs/2302.08199v1 ) ライセンス: Link先を確認 | Kyle Davis, Raphael Leiteritz, Dirk Pfl\"uger, Miriam Schulte | (参考訳) 地下水ヒートポンプが化石燃料に頼らずに宇宙の暖房や冷却の需要を満たせる能力は、密集した都市環境での大量展開を促している。
地下水流量が高い地域では、ヒートポンプの噴射井から発生する熱気柱が下流に伝播し、周囲の利用者に影響を与え、ヒートポンプ効率を低下させる。
干渉の確率を減らすために、規制当局はしばしば単純な分析モデルや高忠実度地下水シミュレーションに依存し、ヒートポンプが地下帯水層や周囲のヒートポンプに与える影響を判断する。
これらは、日常的に使うには不正確すぎるか、計算コストが高すぎるかのいずれかです。
本研究では, ヘテロジニアス帯水層内のヒートポンプによって発生する熱噴流の迅速かつ高精度な予測ツールを提供するため, 代理モデルを開発した。
3種類の畳み込みニューラルネットワークが開発され、既知の地下水のダーシー速度を離散的な二次元入力として受け入れ、ヒートポンプ周辺の地下帯水層内の温度を予測する。
ランダムな透過性場と圧力境界条件から生成した800個の数値シミュレーションサンプルからなるデータセットを用いて,入力場として擬似ランダム化ダーシー速度場とネットワークを訓練するための温度場解を与えた。
ネットワークから出力される地下温度場はダーシー流速の流れに従うより現実的な温度場を提供するが、従来の高忠実度解法よりも桁違いに速い。 The ability for groundwater heat pumps to meet space heating and cooling demands without relying on fossil fuels, has prompted their mass roll out in dense urban environments. In regions with high subsurface groundwater flow rates, the thermal plume generated from a heat pump's injection well can propagate downstream, affecting surrounding users and reducing their heat pump efficiency. To reduce the probability of interference, regulators often rely on simple analytical models or high fidelity groundwater simulations to determine the impact that a heat pump has on the subsurface aquifer and surrounding heat pumps. These are either too inaccurate or too computationally expensive for everyday use. In this work, a surrogate model was developed to provide a quick, high accuracy prediction tool of the thermal plume generated by a heat pump within heterogeneous subsurface aquifers. Three variations of a convolutional neural network were developed that accepts the known groundwater Darcy velocities as discrete two-dimensional inputs and predicts the temperature within the subsurface aquifer around the heat pump. A data set consisting of 800 numerical simulation samples, generated from random permeability fields and pressure boundary conditions, was used to provide pseudo-randomized Darcy velocity fields as input fields and the temperature field solution for training the network. The subsurface temperature field output from the network provides a more realistic temperature field that follows the Darcy velocity streamlines, while being orders of magnitude faster than conventional high fidelity solvers | 翻訳日:2023-02-17 14:17:07 公開日:2023-02-16 |
# 専門用語の基盤」に就て Un mod{\`e}le de base de connaissances terminologiques ( http://arxiv.org/abs/2302.08198v1 ) ライセンス: Link先を確認 | Patrick S\'egu\'ela, Nathalie Aussenac-Gilles (IRIT-MELODI, CNRS) | (参考訳) 本稿では,TKB(Terminological Knowledge Bases)が,形式的基準を満たさないため,様々なニーズに対処する上でより有用である,と論じる。
さらに、各文脈における用語の使用を図示することで、与えられたドメインの用語を明確にする。
そこで我々は,用語,概念,テキストという3つのリンクされた特徴を含むTKB構造を設計した。
概念は非形式的な記述が標準化されたフレームに表現される。
この構造に関連して,モデリング基準を概念レベルで定義した。
最後に、オントロジーに関するTKBの状況と、AIシステムの開発におけるTKBの利用について論じる。 In the present paper, we argue that Terminological Knowledge Bases (TKB) are all the more useful for addressing various needs as they do not fulfill formal criteria. Moreover, they intend to clarify the terminology of a given domain by illustrating term uses in various contexts. Thus we designed a TKB structure including 3 linked features: terms, concepts and texts, that present the peculiar use of each term in the domain. Note that concepts are represented into frames whose non-formal description is standardized. Associated with this structure, we defined modeling criteria at the conceptual level. Finaly, we discuss the situation of TKB with regard to ontologies, and the use of TKB for the development of AI systems. | 翻訳日:2023-02-17 14:16:43 公開日:2023-02-16 |
# OPT:ワンショットで会話ができるヘッドジェネレーション OPT: One-shot Pose-Controllable Talking Head Generation ( http://arxiv.org/abs/2302.08197v1 ) ライセンス: Link先を確認 | Jin Liu, Xi Wang, Xiaomeng Fu, Yesheng Chai, Cai Yu, Jiao Dai, Jizhong Han | (参考訳) ワンショット音声ヘッド生成は任意の音声と1つの音源面に基づいてリップシンク音声ヘッドを生成する。
自然さと現実性を保証するため,近年の手法では,口領域を編集する代わりに自由ポーズ制御を実現する方法が提案されている。
しかし,既存の手法では頭部運動の発生時の音源面の正確な識別は保存されていない。
アイデンティティミスマッチを解消し,高品質なポーズ制御を実現するために,ワンショットポーズ制御型音声ヘッド生成ネットワーク(opt)を提案する。
具体的には、Audio Feature Disentanglement Moduleは、任意の駆動オーディオに含まれる話者固有の情報の影響を排除し、コンテンツ機能とオーディオを分離する。
その後、コンテンツ特徴およびソース面から口表情特徴を抽出し、ランドマークロスを設計して、顔の構造とアイデンティティ保存品質の精度を高める。
最後に、自由ポーズ制御を実現するために、参照ビデオからの制御可能な頭部ポーズ機能を映像生成装置に入力し、表情特徴とソースフェースと合わせて新たなトーキングヘッドを生成する。
広汎な定量的および定性的な実験結果から,OPTは同一性ミスマッチ問題のない高品質なポーズ制御可能な音声ヘッドを生成し,従来のSOTA法より優れていた。 One-shot talking head generation produces lip-sync talking heads based on arbitrary audio and one source face. To guarantee the naturalness and realness, recent methods propose to achieve free pose control instead of simply editing mouth areas. However, existing methods do not preserve accurate identity of source face when generating head motions. To solve the identity mismatch problem and achieve high-quality free pose control, we present One-shot Pose-controllable Talking head generation network (OPT). Specifically, the Audio Feature Disentanglement Module separates content features from audios, eliminating the influence of speaker-specific information contained in arbitrary driving audios. Later, the mouth expression feature is extracted from the content feature and source face, during which the landmark loss is designed to enhance the accuracy of facial structure and identity preserving quality. Finally, to achieve free pose control, controllable head pose features from reference videos are fed into the Video Generator along with the expression feature and source face to generate new talking heads. Extensive quantitative and qualitative experimental results verify that OPT generates high-quality pose-controllable talking heads with no identity mismatch problem, outperforming previous SOTA methods. | 翻訳日:2023-02-17 14:16:32 公開日:2023-02-16 |
# 適応モデル集約による複数局地電力負荷の粗末な日頭予測 Frugal day-ahead forecasting of multiple local electricity loads by aggregating adaptive models ( http://arxiv.org/abs/2302.08192v1 ) ライセンス: Link先を確認 | Guillaume Lambert (EDF R&D), Bachir Hamrouche (EDF R&D), Joseph de Vilmarest | (参考訳) 本研究では,フランスにおける配電網の変電所の日頭電力負荷予測に焦点をあてる。そのため, 単一消費の不安定性と全国的な総需要の安定との間に問題がある。
さらに,1000以上のサブステーションの負荷を予測することに興味があり,複数の時系列を予測できる状況にある。
その目的のために、我々は全国規模で優れた結果を提供する適応的方法論に依存しており、一般化された加法モデルと状態空間表現を組み合わせることを目的としている。
しかし、1000以上の時系列の予測に対するこの方法論の拡張は、計算上の問題を引き起こす。
本研究では, フラジカル変種を開発し, 推定パラメータ数を減らし, 数回の連続でのみ予測モデルを推定し, 専門家の集約に頼ることによって伝達学習を実現する。
計算要求とそれに伴う排出を減少させる。
パラメータ転送の異なるレベルに対応するいくつかの変種を構築し、精度とフリガリティの最良のトレードオフを探します。
選択した手法は,最先端の個人モデルと比較して,競争力のある結果が得られる。
最後に,運用アプリケーションにおいて重要となるモデルの解釈可能性について注目する。 We focus on day-ahead electricity load forecasting of substations of the distribution network in France; therefore, our problem lies between the instability of a single consumption and the stability of a countrywide total demand. Moreover, we are interested in forecasting the loads of over one thousand substations; consequently, we are in the context of forecasting multiple time series. To that end, we rely on an adaptive methodology that provided excellent results at a national scale; the idea is to combine generalized additive models with state-space representations. However, the extension of this methodology to the prediction of over a thousand time series raises a computational issue. We solve it by developing a frugal variant, reducing the number of parameters estimated; we estimate the forecasting models only for a few time series and achieve transfer learning by relying on aggregation of experts. It yields a reduction of computational needs and their associated emissions. We build several variants, corresponding to different levels of parameter transfer, and we look for the best trade-off between accuracy and frugality. The selected method achieves competitive results compared to state-of-the-art individual models. Finally, we highlight the interpretability of the models, which is important for operational applications. | 翻訳日:2023-02-17 14:16:10 公開日:2023-02-16 |
# LightGCL:レコメンデーションのためのシンプルで効果的なグラフコントラスト学習 LightGCL: Simple Yet Effective Graph Contrastive Learning for Recommendation ( http://arxiv.org/abs/2302.08191v1 ) ライセンス: Link先を確認 | Xuheng Cai, Chao Huang, Lianghao Xia, Xubin Ren | (参考訳) グラフニューラルネットワーク(GNN)は、グラフベースのレコメンデータシステムのための強力な学習手法である。
近年, コントラスト学習と統合されたGNNは, 高度にスパースなデータを扱うことを目的としたデータ拡張方式により, 優れた性能を示した。
その成功にもかかわらず、既存のグラフのコントラスト学習手法のほとんどは、ユーザ-itemの相互作用グラフ上で確率的拡張(ノード/エッジの摂動)を行うか、あるいはコントラスト的なビューを生成するためにヒューリスティックベースの拡張技術(ユーザクラスタリングなど)に依存する。
これらの手法は本質的な意味構造を十分に保ち得ず、ノイズの摂動によって容易にバイアスを受けることができる。
本稿では,これらの問題を緩和し,CLベースのレコメンデータの汎用性と堅牢性を損なう,簡易で効果的なグラフコントラッシブ学習パラダイムLightGCLを提案する。
本モデルでは, コントラスト拡張のために特異値分解を排他的に活用し, 協調関係モデリングによる制約のない構造改善を可能にする。
いくつかのベンチマークデータセットで行った実験は、最先端のモデルよりもモデルの性能が大幅に向上したことを示している。
さらなる分析は、データスパーシリティと人気バイアスに対するLightGCLの頑健さの優位性を示している。
私たちのモデルのソースコードはhttps://github.com/HKUDS/LightGCLで公開されています。 Graph neural network (GNN) is a powerful learning approach for graph-based recommender systems. Recently, GNNs integrated with contrastive learning have shown superior performance in recommendation with their data augmentation schemes, aiming at dealing with highly sparse data. Despite their success, most existing graph contrastive learning methods either perform stochastic augmentation (e.g., node/edge perturbation) on the user-item interaction graph, or rely on the heuristic-based augmentation techniques (e.g., user clustering) for generating contrastive views. We argue that these methods cannot well preserve the intrinsic semantic structures and are easily biased by the noise perturbation. In this paper, we propose a simple yet effective graph contrastive learning paradigm LightGCL that mitigates these issues impairing the generality and robustness of CL-based recommenders. Our model exclusively utilizes singular value decomposition for contrastive augmentation, which enables the unconstrained structural refinement with global collaborative relation modeling. Experiments conducted on several benchmark datasets demonstrate the significant improvement in performance of our model over the state-of-the-arts. Further analyses demonstrate the superiority of LightGCL's robustness against data sparsity and popularity bias. The source code of our model is available at https://github.com/HKUDS/LightGCL. | 翻訳日:2023-02-17 14:15:52 公開日:2023-02-16 |
# 需要側管理に適用した平均場制御のためのミラー降下法 A mirror descent approach for Mean Field Control applied to Demande-Side management ( http://arxiv.org/abs/2302.08190v1 ) ライセンス: Link先を確認 | Bianca Marin Moreno (EDF R&D, Thoth), Margaux Br\'eg\`ere (SU, LPSM, EDF R&D), Pierre Gaillard (Thoth), Nadia Oudjane (EDF R&D) | (参考訳) マルコフ模型に対する有限水平平均場制御問題を考える。
目的関数は、状態-作用分布の空間にそれらの値を取る凸関数とリプシッツ関数の和からなる。
我々は,非標準ブレグマン発散に付随するミラー・ダイアンスであることが証明され,次数 1/$\sqrt$K の収束率を持つ反復アルゴリズムを導入する。
本アルゴリズムを平均フィールドゲームにおける学習法と比較し,ゲーム問題として制御問題の再構成を行った。
これらの理論的貢献は、電力系統のバランスに寄与するフレキシブルデバイス群の平均消費電力プロファイルを制御することを目的とした電力系統の需要側管理問題に適用した数値例で示される。 We consider a finite-horizon Mean Field Control problem for Markovian models. The objective function is composed of a sum of convex and Lipschitz functions taking their values on a space of state-action distributions. We introduce an iterative algorithm which we prove to be a Mirror Descent associated with a non-standard Bregman divergence, having a convergence rate of order 1/ $\sqrt$ K. It requires the solution of a simple dynamic programming problem at each iteration. We compare this algorithm with learning methods for Mean Field Games after providing a reformulation of our control problem as a game problem. These theoretical contributions are illustrated with numerical examples applied to a demand-side management problem for power systems aimed at controlling the average power consumption profile of a population of flexible devices contributing to the power system balance. | 翻訳日:2023-02-17 14:15:30 公開日:2023-02-16 |
# ミリ波ハイブリッドビームフォーミングシステムにおける学習型適応ユーザ選択 Learning-Based Adaptive User Selection in Millimeter Wave Hybrid Beamforming Systems ( http://arxiv.org/abs/2302.08240v1 ) ライセンス: Link先を確認 | Junghoon Kim and Matthew Andrews | (参考訳) 基地局(BS)で採用される少数のRF鎖によって多重化ゲインが制限されるマルチユーザハイブリッドビームフォーミングシステムを考える。
多重化ゲインを最大化する自由を最大化するために、BSがすべてのユーザを常に提供するのではなく、各スケジューリング時に一部のユーザを選択して提供する方がよい。
我々は,mmWave特性を考慮に入れた2時間スケールのプロトコルを採用し,長い時間スケールでは各ユーザに対してアナログビームを選択し,短い時間スケールでは,選択したアナログビームに基づいて送信する。
ユーザ選択の目標は、従来のPF(Proportional Fair)メトリックを最大化することです。
しかし、この最大化は、選択されたユーザに対するアナログビーム間の干渉のため、非自明である。
そこで我々はまず,まず欲求アルゴリズムと"トップk"アルゴリズムを定義し,次に機械学習(ML)ベースのユーザ選択アルゴリズムを提案し,PF性能と計算時間との効率的なトレードオフを提供する。
シミュレーションを通じて,MLに基づくアルゴリズムの性能を様々な指標で分析し,その性能が,他のアルゴリズムと比較して効率の良いトレードオフをもたらすことを示す。 We consider a multi-user hybrid beamforming system, where the multiplexing gain is limited by the small number of RF chains employed at the base station (BS). To allow greater freedom for maximizing the multiplexing gain, it is better if the BS selects and serves some of the users at each scheduling instant, rather than serving all the users all the time. We adopt a two-timescale protocol that takes into account the mmWave characteristics, where at the long timescale an analog beam is chosen for each user, and at the short timescale users are selected for transmission based on the chosen analog beams. The goal of the user selection is to maximize the traditional Proportional Fair (PF) metric. However, this maximization is non-trivial due to interference between the analog beams for selected users. We first define a greedy algorithm and a "top-k" algorithm, and then propose a machine learning (ML)-based user selection algorithm to provide an efficient trade-off between the PF performance and the computation time. Throughout simulations, we analyze the performance of the ML-based algorithms under various metrics, and show that it gives an efficient trade-off in performance as compared to counterparts. | 翻訳日:2023-02-17 14:09:22 公開日:2023-02-16 |
# イベントエントランスにおける群衆の安全性向上を目的としたクラウド型ディープラーニングシステム A cloud-based deep learning system for improving crowd safety at event entrances ( http://arxiv.org/abs/2302.08237v1 ) ライセンス: Link先を確認 | Ahmed Alia, Mohammed Maree, Mohcine Chraibi, Anas Toma and Armin Seyfried | (参考訳) 大きなイベントの入り口に群がると、特に人々がより早くイベントに到達するために互いに押し合い始めると、危機的かつ命が危うくなる。
プッシュ行動の自動的かつタイムリーに識別するシステムは、組織や治安部隊が早期に介入し、危険な状況を軽減するのに役立つ。
本稿では,混雑したイベントエントランスのライブビデオストリームで自動プッシュを早期に検出するクラウドベースのディープラーニングシステムを提案する。
このシステムは主に2つのモデルに依存している: 事前訓練された深層光フローとefficiernetv2b0分類器の適応バージョンである。
オプティカルフローモデルはライブビデオストリームにおける群集運動の特徴を抽出し、分類器は群集の動きを分析し、ライブストリーム内のパッチをアノテートする。
5つの実世界の実験とその関連する真実データに基づいて新しいデータセットを生成し、適応されたEfficientNetV2B0モデルをトレーニングする。
実験的な状況は混み合ったイベントの入り口をシミュレートし、社会心理学者はビデオ実験ごとに基礎的な真実を手作業で作成した。
提案するシステムの精度とアノテーション遅延時間を評価するため,ビデオと生成されたデータセットについていくつかの実験を行った。
また,専門家はシステムの注釈結果を手作業で修正した。
その結果、システムは許容される遅延時間内に89%の精度で押し付け動作を同定した。 Crowding at the entrances of large events may lead to critical and life-threatening situations, particularly when people start pushing each other to reach the event faster. A system for automatic and timely identification of pushing behavior would help organizers and security forces to intervene early and mitigate dangerous situations. In this paper, we propose a cloud-based deep learning system for early detection of pushing automatically in the live video stream of crowded event entrances. The proposed system relies mainly on two models: a pre-trained deep optical flow and an adapted version of the EfficientNetV2B0 classifier. The optical flow model extracts the characteristics of the crowd motion in the live video stream, while the classifier analyses the crowd motion and annotates pushing patches in the live stream. A novel dataset is generated based on five real-world experiments and their associated ground truth data to train the adapted EfficientNetV2B0 model. The experimental situations simulated a crowded event entrance, and social psychologists manually created the ground truths for each video experiment. Several experiments on the videos and the generated dataset are carried out to evaluate the accuracy and annotation delay time of the proposed system. Furthermore, the experts manually revised the annotation results of the system. Findings indicate that the system identified pushing behaviors with an accuracy rate of 89% within an acceptable delay time. | 翻訳日:2023-02-17 14:08:55 公開日:2023-02-16 |
# 単一スピン量子センサによる核スピンのリアルタイム適応センシング Real-time adaptive sensing of nuclear spins by a single-spin quantum sensor ( http://arxiv.org/abs/2302.08236v1 ) ライセンス: Link先を確認 | Jingcheng Wang, Dongxiao Li, Ralf Betzholz, Jianming Cai | (参考訳) 量子センシングは、実世界のアプリケーションにおいて実用的な量子利点を提供する、量子情報の最も有望なサブフィールドの1つであると考えられている。
しかし、高い感度を含むその印象的な能力は、利用可能な限られた量子リソースによってしばしば妨げられる。
本稿では,期待情報ゲイン(EIG)と加速計算などの手法をベイズ実験設計(BED)に組み込んで,量子資源をより効率的に活用する。
ダイヤモンド中の窒素空孔シミュレーションセンターは、BEDのリアルタイム動作を示すために使用される。
ヒューリスティックスの代わりに、EIGは最適な制御パラメータをリアルタイムで選択するために使用される。
さらに, 計算の高速化と非同期演算を組み合わせることで, 周囲に複数のc13核スピンを感知することで, 絶対時間コストの最大10倍の速度アップを実現することができることがわかった。
本研究は、BEDに基づく量子センシングタスクにEIGを適用し、より一般化された量子センシングシステムにBEDを統合するのに役立つ技術を提供する。 Quantum sensing is considered to be one of the most promising subfields of quantum information to deliver practical quantum advantages in real-world applications. However, its impressive capabilities, including high sensitivity, are often hindered by the limited quantum resources available. Here, we incorporate the expected information gain (EIG) and techniques such as accelerated computation into Bayesian experimental design (BED) in order to use quantum resources more efficiently. A simulated nitrogen-vacancy center in diamond is used to demonstrate real-time operation of the BED. Instead of heuristics, the EIG is used to choose optimal control parameters in real-time. Moreover, combining the BED with accelerated computation and asynchronous operations, we find that up to a tenfold speed-up in absolute time cost can be achieved in sensing multiple surrounding C13 nuclear spins. Our work explores the possibilities of applying the EIG to BED-based quantum-sensing tasks and provides techniques useful to integrate BED into more generalized quantum sensing systems. | 翻訳日:2023-02-17 14:08:33 公開日:2023-02-16 |
# 3M3D:3次元物体検出のためのマルチビュー・マルチパス・マルチ表現 3M3D: Multi-view, Multi-path, Multi-representation for 3D Object Detection ( http://arxiv.org/abs/2302.08231v1 ) ライセンス: Link先を確認 | Jongwoo Park, Apoorv Singh, Varun Bankiti | (参考訳) マルチカメラ画像に基づく3次元視覚認識タスクは、自律運転システムに不可欠である。
この分野での最近の研究は、マルチビューイメージを入力として活用し、オブジェクトクエリ(オブジェクト提案)を横断的なマルチビュー機能によって反復的に拡張することで、3Dオブジェクト検出を行う。
しかし、個々のバックボーン機能はマルチビュー機能では更新されず、単一のイメージバックボーンネットワークの出力の単なるコレクションとして残る。
そこで我々は3M3Dを提案する。 マルチビュー, マルチパス, 3次元オブジェクト検出のためのマルチビュー, マルチビュー, クエリ機能の両方を更新し, パノラマビューと粗いグローバルビューの両方においてシーンの表現を強化する。
まず,マルチビュー軸の自己アテンションにより,マルチビュー機能を更新する。
マルチビュー機能にパノラマ情報を導入し、グローバルなシーンの理解を深める。
第2に,機能内の局所的な詳細をエンコードするroi (region of interest) ウィンドウの自己対応により,マルチビュー機能を更新した。
これは多視点軸に沿ってだけでなく、他の空間次元に沿って情報を交換するのに役立ちます。
最後に、異なるドメインにおけるクエリの多重表現の事実を活用して、パフォーマンスをさらに向上する。
ここでは分散したフローティングクエリと密集したbev(bird's eye view)クエリを使い、後に重複検出をフィルタリングするために後処理します。
さらに,ベースライン上でのnuScenesベンチマークデータセットのパフォーマンス向上を示す。 3D visual perception tasks based on multi-camera images are essential for autonomous driving systems. Latest work in this field performs 3D object detection by leveraging multi-view images as an input and iteratively enhancing object queries (object proposals) by cross-attending multi-view features. However, individual backbone features are not updated with multi-view features and it stays as a mere collection of the output of the single-image backbone network. Therefore we propose 3M3D: A Multi-view, Multi-path, Multi-representation for 3D Object Detection where we update both multi-view features and query features to enhance the representation of the scene in both fine panoramic view and coarse global view. Firstly, we update multi-view features by multi-view axis self-attention. It will incorporate panoramic information in the multi-view features and enhance understanding of the global scene. Secondly, we update multi-view features by self-attention of the ROI (Region of Interest) windows which encodes local finer details in the features. It will help exchange the information not only along the multi-view axis but also along the other spatial dimension. Lastly, we leverage the fact of multi-representation of queries in different domains to further boost the performance. Here we use sparse floating queries along with dense BEV (Bird's Eye View) queries, which are later post-processed to filter duplicate detections. Moreover, we show performance improvements on nuScenes benchmark dataset on top of our baselines. | 翻訳日:2023-02-17 14:08:14 公開日:2023-02-16 |
# Map-Mixによる音声言語識別の改善 Improving Spoken Language Identification with Map-Mix ( http://arxiv.org/abs/2302.08229v1 ) ライセンス: Link先を確認 | Shangeth Rajaa, Kriti Anandan, Swaraj Dalmia, Tarun Gupta, Eng Siong Chng | (参考訳) 事前訓練された多言語xlsrモデルは、未熟な言語を微調整した後の言語識別をうまく一般化する。
しかし、例えば方言の場合、言語が互いにあまり区別されていない場合、パフォーマンスは著しく低下する。
低資源方言分類は依然として解決が難しい課題である。
本稿では,個々のデータポイントのモデルトレーニングダイナミクスを活用し,潜時混合のためのサンプリングを改善する新しいデータ拡張手法を提案する。
この方法は、一般化が最重要となる低リソース設定でうまく機能する。
Map-Mixと呼ばれるデータマップベースのミックスアップ手法は、ランダムなミックスアップベースラインと比較して、重み付けされたF1スコアを2%改善し、極めてよく校正されたモデルをもたらす。
我々のメソッドのコードはhttps://github.com/skit-ai/Map-Mix.comで公開されている。 The pre-trained multi-lingual XLSR model generalizes well for language identification after fine-tuning on unseen languages. However, the performance significantly degrades when the languages are not very distinct from each other, for example, in the case of dialects. Low resource dialect classification remains a challenging problem to solve. We present a new data augmentation method that leverages model training dynamics of individual data points to improve sampling for latent mixup. The method works well in low-resource settings where generalization is paramount. Our datamaps-based mixup technique, which we call Map-Mix improves weighted F1 scores by 2% compared to the random mixup baseline and results in a significantly well-calibrated model. The code for our method is open sourced on https://github.com/skit-ai/Map-Mix. | 翻訳日:2023-02-17 14:07:49 公開日:2023-02-16 |
# DIFUSCO: 組合せ最適化のためのグラフベースの拡散解法 DIFUSCO: Graph-based Diffusion Solvers for Combinatorial Optimization ( http://arxiv.org/abs/2302.08224v1 ) ライセンス: Link先を確認 | Zhiqing Sun, Yiming Yang | (参考訳) ニューラルネットワークに基づく組合せ最適化(CO)手法は、手作りのドメイン知識に頼ることなく、様々なNP完全(NPC)問題を解くという有望な結果を示している。
本稿では,新しいグラフベース拡散フレームワークdifuscoを導入することで,npc問題に対するニューラルソルバの現在の適用範囲を広げる。
本フレームワークは,NPC問題を離散ベクトル最適化問題とみなし,グラフに基づく分極拡散モデルを用いて高品質な解を生成する。
ガウスノイズとベルヌーイノイズの2種類の拡散モデルについて検討し,解の質を高めるための効果的な推論スケジュールを考案した。
本研究では,2つのNPC組合せ最適化問題であるトラベリングセールスマン問題(TSP)と最大独立セット(MIS)について検討した。
実験の結果,DIFUSCOは従来の最先端のニューラルソルバよりも優れ,TSP-500では1.76%から0.46%,TSP-1000では2.46%から1.17%,TSP10000では3.19%から2.58%に向上した。
MIS問題に対して、DIFUSCOは、挑戦的なSATLIBベンチマークにおいて、以前の最先端のニューラルソルバよりも優れている。
私たちのコードは"https://github.com/Edward-Sun/DIFUSCO"で利用可能です。 Neural network-based Combinatorial Optimization (CO) methods have shown promising results in solving various NP-complete (NPC) problems without relying on hand-crafted domain knowledge. This paper broadens the current scope of neural solvers for NPC problems by introducing a new graph-based diffusion framework, namely DIFUSCO. Our framework casts NPC problems as discrete {0, 1}-vector optimization problems and leverages graph-based denoising diffusion models to generate high-quality solutions. We investigate two types of diffusion models with Gaussian and Bernoulli noise, respectively, and devise an effective inference schedule to enhance the solution quality. We evaluate our methods on two well-studied NPC combinatorial optimization problems: Traveling Salesman Problem (TSP) and Maximal Independent Set (MIS). Experimental results show that DIFUSCO strongly outperforms the previous state-of-the-art neural solvers, improving the performance gap between ground-truth and neural solvers from 1.76% to 0.46% on TSP-500, from 2.46% to 1.17% on TSP-1000, and from 3.19% to 2.58% on TSP10000. For the MIS problem, DIFUSCO outperforms the previous state-of-the-art neural solver on the challenging SATLIB benchmark. Our code is available at "https://github.com/Edward-Sun/DIFUSCO". | 翻訳日:2023-02-17 14:07:35 公開日:2023-02-16 |
# 対話状態追跡のための音声間コントラスト学習を用いた対話状態蒸留ネットワーク Dialogue State Distillation Network with Inter-Slot Contrastive Learning for Dialogue State Tracking ( http://arxiv.org/abs/2302.08220v1 ) ライセンス: Link先を確認 | Jing Xu, Dandan Song, Chong Liu, Siu Cheung Hui, Fei Li, Qiang Ju, Xiaonan He, Jian Xie | (参考訳) タスク指向対話システムにおいて,対話状態追跡(DST)は対話履歴からユーザの意図を抽出することを目的としている。
現在、既存のほとんどのアプローチはエラー伝播に苦しめられており、以前の対話状態を利用すると動的に関連情報を選択できない。
さらに、異なるスロットの更新の関係は、DSTにとって重要な手がかりとなる。
しかし、既存のアプローチは関係を間接的に捉えるために事前に定義されたグラフにのみ依存する。
本稿では,従来の対話状態の関連情報を活用するための対話状態蒸留ネットワーク(DSDN)を提案する。
これにより、従来の対話状態を動的に活用し、同時にエラーの伝搬を回避することができる。
さらに,対話コンテキストからスロット共更新関係を効果的に捉えるために,スロット間コントラスト学習損失を提案する。
広く使われているMultiWOZ 2.0とMultiWOZ 2.1データセットで実験が行われた。
実験の結果,提案モデルによりDSTの最先端性能が得られた。 In task-oriented dialogue systems, Dialogue State Tracking (DST) aims to extract users' intentions from the dialogue history. Currently, most existing approaches suffer from error propagation and are unable to dynamically select relevant information when utilizing previous dialogue states. Moreover, the relations between the updates of different slots provide vital clues for DST. However, the existing approaches rely only on predefined graphs to indirectly capture the relations. In this paper, we propose a Dialogue State Distillation Network (DSDN) to utilize relevant information of previous dialogue states and migrate the gap of utilization between training and testing. Thus, it can dynamically exploit previous dialogue states and avoid introducing error propagation simultaneously. Further, we propose an inter-slot contrastive learning loss to effectively capture the slot co-update relations from dialogue context. Experiments are conducted on the widely used MultiWOZ 2.0 and MultiWOZ 2.1 datasets. The experimental results show that our proposed model achieves the state-of-the-art performance for DST. | 翻訳日:2023-02-17 14:07:09 公開日:2023-02-16 |
# f分割最小化による言語モデルの調整 Aligning Language Models with Preferences through f-divergence Minimization ( http://arxiv.org/abs/2302.08215v1 ) ライセンス: Link先を確認 | Dongyoung Go, Tomasz Korbak, Germ\'an Kruszewski, Jos Rozen, Nahyeon Ryu, Marc Dymetman | (参考訳) 好みを持つ言語モデルをアライメントすることは、望ましい振る舞いを表すターゲット分布の近似として表すことができる。
既存のアプローチは、ターゲット分布の関数形式と、それを近似するアルゴリズムの両方が異なる。
例えば、人間フィードバックからの強化学習(RLHF)は、目的のKLペナルティから生じる暗黙の目標分布から逆KLを最小化する。
一方、生成分布制御 (gdc) は明示的な目標分布を持ち、分布政策勾配 (distributional policy gradient, dpg) アルゴリズムを用いてそれからの前方klを最小化する。
本稿では, f-divergence を用いて任意の対象分布を近似する新しい手法 f-DPG を提案する。
f-DPGは、フレームワーク(RLHF, GDC)と近似方法(DPG, RL with KL penalties)を統一する。
分散目的の様々な選択の実用的利点を示し、普遍的に最適な目的は存在しないが、異なる分岐は異なる目標を近似するのに良いことを実証する。
例えば、GDCの場合、Jensen-Shannonの発散はKL発散よりも広いマージンでしばしば優れており、以前の作業よりも大幅に改善されている。 Aligning language models with preferences can be posed as approximating a target distribution representing some desired behavior. Existing approaches differ both in the functional form of the target distribution and the algorithm used to approximate it. For instance, Reinforcement Learning from Human Feedback (RLHF) corresponds to minimizing a reverse KL from an implicit target distribution arising from a KL penalty in the objective. On the other hand, Generative Distributional Control (GDC) has an explicit target distribution and minimizes a forward KL from it using the Distributional Policy Gradient (DPG) algorithm. In this paper, we propose a new approach, f-DPG, which allows the use of any f-divergence to approximate any target distribution. f-DPG unifies both frameworks (RLHF, GDC) and the approximation methods (DPG, RL with KL penalties). We show the practical benefits of various choices of divergence objectives and demonstrate that there is no universally optimal objective but that different divergences are good for approximating different targets. For instance, we discover that for GDC, the Jensen-Shannon divergence frequently outperforms forward KL divergence by a wide margin, leading to significant improvements over prior work. | 翻訳日:2023-02-17 14:06:55 公開日:2023-02-16 |
# パッチ混合クロスモダリティ学習による可視赤外人物再同定 Visible-Infrared Person Re-Identification via Patch-Mixed Cross-Modality Learning ( http://arxiv.org/abs/2302.08212v1 ) ライセンス: Link先を確認 | Zhihao Qian, Yutian Lin, Bo Du | (参考訳) Visible-infrared person re-identification (VI-ReID) は、異なるモードから同じ歩行者の画像を取得することを目的としている。
モダリティギャップを軽減するため、最近の手法では、GAN、グレースケーリング、ミックスアップ戦略によって中間画像を生成する。
しかし、これらの手法は余分なノイズを発生させる可能性があり、2つのモダリティ間の意味的対応はよく学習されていない。
本稿では,パッチ混合型クロスモダリティフレームワーク (pmcm) を提案する。このフレームワークでは,同一人物の2つのイメージを2つのモダリティから分割し,新しい画像に縫い合わせることでモデル学習を行う。
このように、モデル学習者は、異なるスタイルのパッチを通して人物を認識できるようにし、モダリティ意味対応を直接具現化する。
柔軟な画像生成戦略により、パッチ混合画像は異なるモダリティパッチの比率を自由に調整し、モダリティ不均衡問題をさらに緩和することができる。
さらに、モジュラリティ間のアイデンティティセンター間の関係について、モダリティの分散をさらに軽減するために検討し、部分特徴の表現学習を正規化するために、グローバル・ツー・パート制約を導入した。
2つのVI-ReIDデータセットに対して,提案手法を用いた新しい最先端性能を報告する。 Visible-infrared person re-identification (VI-ReID) aims to retrieve images of the same pedestrian from different modalities, where the challenges lie in the significant modality discrepancy. To alleviate the modality gap, recent methods generate intermediate images by GANs, grayscaling, or mixup strategies. However, these methods could ntroduce extra noise, and the semantic correspondence between the two modalities is not well learned. In this paper, we propose a Patch-Mixed Cross-Modality framework (PMCM), where two images of the same person from two modalities are split into patches and stitched into a new one for model learning. In this way, the modellearns to recognize a person through patches of different styles, and the modality semantic correspondence is directly embodied. With the flexible image generation strategy, the patch-mixed images freely adjust the ratio of different modality patches, which could further alleviate the modality imbalance problem. In addition, the relationship between identity centers among modalities is explored to further reduce the modality variance, and the global-to-part constraint is introduced to regularize representation learning of part features. On two VI-ReID datasets, we report new state-of-the-art performance with the proposed method. | 翻訳日:2023-02-17 14:06:31 公開日:2023-02-16 |
# ディープラーニングのための幾何学的最適化に関するサーベイ:ユークリッド空間からリーマン多様体へ A Survey of Geometric Optimization for Deep Learning: From Euclidean Space to Riemannian Manifold ( http://arxiv.org/abs/2302.08210v1 ) ライセンス: Link先を確認 | Yanhong Fei, Xian Wei, Yingjie Liu, Zhengyu Li, Mingsong Chen | (参考訳) ディープラーニング(DL)は複雑な人工知能(AI)タスクで成功したが、ユークリッド空間におけるパラメータの更新は解空間の幾何学的構造を完全に活用できないため、様々な悪名高い問題(例えば、特徴冗長性、消滅または爆発的な勾配)に悩まされている。
有望な代替として、リーマン系dlは幾何学的最適化を用いてリーマン多様体のパラメータを更新し、基礎となる幾何学的情報を活用することができる。
そこで本稿では,dlにおける幾何最適化の適用に関する包括的調査を行う。
まず、様々な幾何学的最適化とリーマン多様体の概念を含む幾何学的最適化の基本手順を紹介する。
その後、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、トランスファー学習、最適輸送など、さまざまなAIタスクにおける異なるDLネットワークにおける幾何的最適化の適用について検討する。
さらに、多様体に最適化を実装する典型的な公開ツールボックスについても論じる。
最後に,画像認識のシナリオにおいて,異なる深層幾何最適化手法の性能比較を行う。 Although Deep Learning (DL) has achieved success in complex Artificial Intelligence (AI) tasks, it suffers from various notorious problems (e.g., feature redundancy, and vanishing or exploding gradients), since updating parameters in Euclidean space cannot fully exploit the geometric structure of the solution space. As a promising alternative solution, Riemannian-based DL uses geometric optimization to update parameters on Riemannian manifolds and can leverage the underlying geometric information. Accordingly, this article presents a comprehensive survey of applying geometric optimization in DL. At first, this article introduces the basic procedure of the geometric optimization, including various geometric optimizers and some concepts of Riemannian manifold. Subsequently, this article investigates the application of geometric optimization in different DL networks in various AI tasks, e.g., convolution neural network, recurrent neural network, transfer learning, and optimal transport. Additionally, typical public toolboxes that implement optimization on manifold are also discussed. Finally, this article makes a performance comparison between different deep geometric optimization methods under image recognition scenarios. | 翻訳日:2023-02-17 14:06:07 公開日:2023-02-16 |
# SyreaNet: 合成画像と実画像を統合する物理ガイド付き水中画像強調フレームワーク SyreaNet: A Physically Guided Underwater Image Enhancement Framework Integrating Synthetic and Real Images ( http://arxiv.org/abs/2302.08269v1 ) ライセンス: Link先を確認 | Junjie Wen, Jinqiang Cui, Zhenjun Zhao, Ruixin Yan, Zhi Gao, Lihua Dou, Ben M. Chen | (参考訳) 水中画像強調(UIE)は高レベルの視覚関連水中作業に不可欠である。
近年、学習に基づくuie手法は目覚ましい成果を上げているが、様々な水中条件に一貫して対応することが課題となっている。
1) UIEにおける簡易な大気画像形成モデルの使用は,重大な誤りをもたらす可能性がある。
2)合成画像のみを訓練したネットワークでは,実際の水中画像への一般化が困難であった。
本稿では,本研究で初めて,改良された水中画像形成モデルと新規ドメイン適応(da)戦略の指導のもとに合成データと実データの両方を統合する,uieのためのフレームワーク \textit{syreanet}を提案する。
まず,修正モデルに基づく水中画像合成モジュールを提案する。
そして、合成画像と実際の水中画像の両方を組み合わせることにより、明瞭な画像を予測するように物理的に誘導された不等角化ネットワークを設計する。
ドメイン内およびドメイン間ギャップは、ドメイン知識を完全に交換することで解消される。
sota(state-of-the-art)学習に基づくuie法よりも,質的かつ定量的にフレームワークの優位性を示す広範な実験を行った。
コードとデータセットはhttps://github.com/RockWenJJ/SyreaNet.gitで公開されている。 Underwater image enhancement (UIE) is vital for high-level vision-related underwater tasks. Although learning-based UIE methods have made remarkable achievements in recent years, it's still challenging for them to consistently deal with various underwater conditions, which could be caused by: 1) the use of the simplified atmospheric image formation model in UIE may result in severe errors; 2) the network trained solely with synthetic images might have difficulty in generalizing well to real underwater images. In this work, we, for the first time, propose a framework \textit{SyreaNet} for UIE that integrates both synthetic and real data under the guidance of the revised underwater image formation model and novel domain adaptation (DA) strategies. First, an underwater image synthesis module based on the revised model is proposed. Then, a physically guided disentangled network is designed to predict the clear images by combining both synthetic and real underwater images. The intra- and inter-domain gaps are abridged by fully exchanging the domain knowledge. Extensive experiments demonstrate the superiority of our framework over other state-of-the-art (SOTA) learning-based UIE methods qualitatively and quantitatively. The code and dataset are publicly available at https://github.com/RockWenJJ/SyreaNet.git. | 翻訳日:2023-02-17 14:00:37 公開日:2023-02-16 |
# 検索強化画像キャプション Retrieval-augmented Image Captioning ( http://arxiv.org/abs/2302.08268v1 ) ライセンス: Link先を確認 | Rita Ramos, Desmond Elliott, Bruno Martins | (参考訳) 検索強化言語生成と事前学習されたビジョン・アンド・ランゲージ(V&L)エンコーダにインスパイアされ、入力画像とデータストアから取得したキャプションの集合に与えられた文を生成する画像キャプションへの新たなアプローチを提案する。
モデル内のエンコーダは、予め訓練されたv&l bertを使用して画像と検索キャプションを共同で処理し、デコーダは、検索されたキャプションからの余分なテキスト証拠の恩恵を受け、マルチモーダルエンコーダ表現に参加する。
COCOデータセットの実験結果から,この新たな視点から画像キャプションを効果的に定式化できることが示唆された。
extraと名付けられたこのモデルは、トレーニングデータセットから取得したキャプションを使用することでメリットを享受すると同時に、リトレーニングを必要とせずに外部データセットを使用することによるメリットも備えています。
アブレーション研究によれば、十分な数のキャプション(例えばk=5)を取得するとキャプションの品質が向上する。
我々の研究は、標準分類タスクではなく、事前訓練されたV&Lエンコーダによる生成タスクの利用に寄与する。 Inspired by retrieval-augmented language generation and pretrained Vision and Language (V&L) encoders, we present a new approach to image captioning that generates sentences given the input image and a set of captions retrieved from a datastore, as opposed to the image alone. The encoder in our model jointly processes the image and retrieved captions using a pretrained V&L BERT, while the decoder attends to the multimodal encoder representations, benefiting from the extra textual evidence from the retrieved captions. Experimental results on the COCO dataset show that image captioning can be effectively formulated from this new perspective. Our model, named EXTRA, benefits from using captions retrieved from the training dataset, and it can also benefit from using an external dataset without the need for retraining. Ablation studies show that retrieving a sufficient number of captions (e.g., k=5) can improve captioning quality. Our work contributes towards using pretrained V&L encoders for generative tasks, instead of standard classification tasks. | 翻訳日:2023-02-17 14:00:19 公開日:2023-02-16 |
# 薬物発見のための知識強化グラフ機械学習:精度から解釈可能性への調査 Knowledge-augmented Graph Machine Learning for Drug Discovery: A Survey from Precision to Interpretability ( http://arxiv.org/abs/2302.08261v1 ) ライセンス: Link先を確認 | Zhiqiang Zhong and Anastasia Barkova and Davide Mottin | (参考訳) 薬物発見分野への人工知能(AI)の統合は、学際的な科学研究の領域として成長している。
しかし、従来のAIモデルは複雑な生医学構造(2Dや3Dタンパク質や分子構造など)の扱いに大きく制限されており、出力の解釈を提供しており、実際の応用を妨げている。
近年、グラフ機械学習(GML)は、グラフ構造化バイオメディカルデータをモデル化し、それらの特性と機能的関連性を調べる能力において、非常に注目されている。
広範囲にわたる努力にもかかわらず、GMLの手法は依然としていくつかの欠陥に悩まされている。例えば、監督の空間性を扱う能力の制限や、学習と推論プロセスにおける解釈可能性の提供、関連するドメイン知識の活用におけるそれらの非効率性などである。
これに対し、最近の研究では、限られたトレーニングインスタンスでより正確で解釈可能な薬物発見を実現するために、外部のバイオメディカル知識をGMLパイプラインに統合することを提案した。
しかし、この急成長する研究方向の体系的な定義はまだ確立されていない。
本調査では,長期間にわたる薬物発見の原則を概観し,グラフ構造化データおよび知識データベースの基礎概念と最先端技術を提供し,薬物発見のための知識強化グラフ機械学習(KaGML)を正式にまとめた。
精巧に設計された探索手法に従って収集された関連するKaGML研究の網羅的なレビューは、新しい分類法に従って4つのカテゴリに分けられる。
この急速に発展する分野の研究を促進するために、知的な薬物発見に有用な資源を収集し、将来の進歩に向けた潜在的な道筋について深く議論する。 The integration of Artificial Intelligence (AI) into the field of drug discovery has been a growing area of interdisciplinary scientific research. However, conventional AI models are heavily limited in handling complex biomedical structures (such as 2D or 3D protein and molecule structures) and providing interpretations for outputs, which hinders their practical application. As of late, Graph Machine Learning (GML) has gained considerable attention for its exceptional ability to model graph-structured biomedical data and investigate their properties and functional relationships. Despite extensive efforts, GML methods still suffer from several deficiencies, such as the limited ability to handle supervision sparsity and provide interpretability in learning and inference processes, and their ineffectiveness in utilising relevant domain knowledge. In response, recent studies have proposed integrating external biomedical knowledge into the GML pipeline to realise more precise and interpretable drug discovery with limited training instances. However, a systematic definition for this burgeoning research direction is yet to be established. This survey presents a comprehensive overview of long-standing drug discovery principles, provides the foundational concepts and cutting-edge techniques for graph-structured data and knowledge databases, and formally summarises Knowledge-augmented Graph Machine Learning (KaGML) for drug discovery. A thorough review of related KaGML works, collected following a carefully designed search methodology, are organised into four categories following a novel-defined taxonomy. To facilitate research in this promptly emerging field, we also share collected practical resources that are valuable for intelligent drug discovery and provide an in-depth discussion of the potential avenues for future advancements. | 翻訳日:2023-02-17 13:59:55 公開日:2023-02-16 |
# HE-MAN --oNnxモデルを用いた同型暗号化マシーン学習 HE-MAN -- Homomorphically Encrypted MAchine learning with oNnx models ( http://arxiv.org/abs/2302.08260v1 ) ライセンス: Link先を確認 | Martin Nocker, David Drexel, Michael Rader, Alessio Montuoro, Pascal Sch\"ottle | (参考訳) 機械学習(ML)アルゴリズムは、特にデータの量と可用性の増加を考慮すると、製品やサービスの成功にとってますます重要になっている。
また、医療データや顔画像を処理するアプリケーションなど、センシティブなデータを扱う領域も扱う。
しかし、人々は個人機密データをMLサービスプロバイダに渡すことに消極的です。
同時に、サービスプロバイダは、自身の知的財産権を保護することに強い関心を持ち、したがって、MLモデルを公開することを避けています。
完全な同型暗号化(FHE)は、プライバシを放棄せず、同時にサービスプロバイダのMLモデルを保護することなく、MLサービスを使用する個人を可能にする、有望なテクニックである。
安定した改善にもかかわらず、FHEは今日のMLアプリケーションにはほとんど統合されていない。
我々は,ONNXモデルと同型暗号化データによる推論をプライバシ保護するための,オープンソースの2要素機械学習ツールセットであるHE-MANを紹介する。
モデルと入力データの両方を開示する必要はない。
HE-MANは暗号化の詳細をユーザーから抽象化するので、FHEの専門知識はどちらの当事者にも必要ない。
HE-MANのセキュリティは基礎となるFHE方式に依存している。
現在、我々は2つの異なる同型暗号化スキーム、すなわち concrete と TenSEAL を統合している。
HE-MANは以前の作業と比較して、ONNXフォーマットの幅広いMLモデルをサポートするが、精度は犠牲にならない。
本稿では,手書き桁を分類し,顔認識を行い,準同型暗号化推論の精度とレイテンシを報告するネットワークアーキテクチャの性能評価を行った。
暗号パラメータはツールによって自動的に導き出される。
その結果,ヘマンの精度は平文入力を用いたモデルと同程度であり,推論レイテンシは平文の場合に比べて数桁高いことがわかった。 Machine learning (ML) algorithms are increasingly important for the success of products and services, especially considering the growing amount and availability of data. This also holds for areas handling sensitive data, e.g. applications processing medical data or facial images. However, people are reluctant to pass their personal sensitive data to a ML service provider. At the same time, service providers have a strong interest in protecting their intellectual property and therefore refrain from publicly sharing their ML model. Fully homomorphic encryption (FHE) is a promising technique to enable individuals using ML services without giving up privacy and protecting the ML model of service providers at the same time. Despite steady improvements, FHE is still hardly integrated in today's ML applications. We introduce HE-MAN, an open-source two-party machine learning toolset for privacy preserving inference with ONNX models and homomorphically encrypted data. Both the model and the input data do not have to be disclosed. HE-MAN abstracts cryptographic details away from the users, thus expertise in FHE is not required for either party. HE-MAN 's security relies on its underlying FHE schemes. For now, we integrate two different homomorphic encryption schemes, namely Concrete and TenSEAL. Compared to prior work, HE-MAN supports a broad range of ML models in ONNX format out of the box without sacrificing accuracy. We evaluate the performance of our implementation on different network architectures classifying handwritten digits and performing face recognition and report accuracy and latency of the homomorphically encrypted inference. Cryptographic parameters are automatically derived by the tools. We show that the accuracy of HE-MAN is on par with models using plaintext input while inference latency is several orders of magnitude higher compared to the plaintext case. | 翻訳日:2023-02-17 13:59:27 公開日:2023-02-16 |
# Tragic and Comical Networks の略。
構造的性質によるドラマジャンルのクラスタリング Tragic and Comical Networks. Clustering Dramatic Genres According to Structural Properties ( http://arxiv.org/abs/2302.08258v1 ) ライセンス: Link先を確認 | Szemes Botond and Vida Bence | (参考訳) 劇のキャラクタネットワークから解釈を生み出すネットワーク研究と演劇史の合同での伝統が高まりつつあるが、この解釈の可能性が秘められているのは、この図式が登場人物間の関係の表現を、テキストの読み方や演技の視聴と異なる形で提供することである。
本研究の目的は,劇中の登場人物数や言い換えればネットワークの大きさとは無関係に,劇の解釈可能で単純な性質に基づいて,類似した構造を持つテキストをクラスタ化できる方法を作ることである。
これらの特徴の発見は,本研究の最も重要な部分であり,テキスト間の類似性を計算するための適切な統計的手順を確立する。
我々のデータはDraCorデータベースからダウンロードされ、Rで解析されました(GerDracorとShakeDraCorサブコレクションを使用します)。
キャラクタ間の単語の分布,シーン内の文字の分布,音声行為の平均長,クラスタ化係数やネットワーク密度などの文字固有およびマクロレベルのネットワーク特性などに基づいて,ロバストな手法を提案する。
これらの指標に基づいて,SVM(Support Vector Machine)法を用いたコメディや悲劇を分類するために,サブコレクションに教師付き分類手順を適用する。
本研究は,本手法が小さいサンプルサイズで信頼性の高い結果をもたらすことを示す。 There is a growing tradition in the joint field of network studies and drama history that produces interpretations from the character networks of the plays.The potential of such an interpretation is that the diagrams provide a different representation of the relationships between characters as compared to reading the text or watching the performance. Our aim is to create a method that is able to cluster texts with similar structures on the basis of the play's well-interpretable and simple properties, independent from the number of characters in the drama, or in other words, the size of the network. Finding these features is the most important part of our research, as well as establishing the appropriate statistical procedure to calculate the similarities between the texts. Our data was downloaded from the DraCor database and analyzed in R (we use the GerDracor and the ShakeDraCor sub-collection). We want to propose a robust method based on the distribution of words among characters; distribution of characters in scenes, average length of speech acts, or character-specific and macro-level network properties such as clusterization coefficient and network density. Based on these metrics a supervised classification procedure is applied to the sub-collections to classify comedies and tragedies using the Support Vector Machine (SVM) method. Our research shows that this approach can also produce reliable results on a small sample size. | 翻訳日:2023-02-17 13:59:04 公開日:2023-02-16 |
# 非分散型逆例に対する敵意訓練の効果について On the Effect of Adversarial Training Against Invariance-based Adversarial Examples ( http://arxiv.org/abs/2302.08257v1 ) ライセンス: Link先を確認 | Roland Rauter, Martin Nocker, Florian Merkle, Pascal Sch\"ottle | (参考訳) 敵の例は、機械学習の分類を騙すような攻撃ポイントを慎重に作っている。
近年,人間には認識できない摂動を画像に加える摂動型対向学習の分野,特に摂動型対向学習の研究が盛んに研究されている。
敵の訓練はそのような入力に対して堅牢性を達成するために使用できる。
もう一つの逆数例は不変性に基づく逆数例であり、画像は、予測されたモデルのクラスが変化しないように意味的に修正されるが、人間によって決定されるクラスは変化しない。
この種の敵の例に対する堅牢性を確保する方法はまだ検討されていない。
本研究は,畳み込みニューラルネットワーク(cnn)における非分散型逆例を用いた逆訓練の効果について述べる。
非分散ベースおよび摂動ベースの逆例を用いた逆訓練が適用された場合、同時かつ連続して実施すべきでないことを示す。
この手法は両種類の逆例に対して比較的高い堅牢性が得られる。
さらに, 先行研究において, 不分散に基づく逆数例を生成するアルゴリズムは, ラベルを正しく決定できないため, 人為的ラベルを用いる。 Adversarial examples are carefully crafted attack points that are supposed to fool machine learning classifiers. In the last years, the field of adversarial machine learning, especially the study of perturbation-based adversarial examples, in which a perturbation that is not perceptible for humans is added to the images, has been studied extensively. Adversarial training can be used to achieve robustness against such inputs. Another type of adversarial examples are invariance-based adversarial examples, where the images are semantically modified such that the predicted class of the model does not change, but the class that is determined by humans does. How to ensure robustness against this type of adversarial examples has not been explored yet. This work addresses the impact of adversarial training with invariance-based adversarial examples on a convolutional neural network (CNN). We show that when adversarial training with invariance-based and perturbation-based adversarial examples is applied, it should be conducted simultaneously and not consecutively. This procedure can achieve relatively high robustness against both types of adversarial examples. Additionally, we find that the algorithm used for generating invariance-based adversarial examples in prior work does not correctly determine the labels and therefore we use human-determined labels. | 翻訳日:2023-02-17 13:58:41 公開日:2023-02-16 |
# モチベーションは文字通り。
Parcoursupにおける教育的願望の構築と表現 Motivation literally. Construction and expression of educational aspirations on Parcoursup ( http://arxiv.org/abs/2302.08256v1 ) ライセンス: Link先を確認 | Marie-Paule Couto (CRESPPA), Marion Valarcher (OSC) | (参考訳) 本稿では,フランスの高校生の願望のフレーミングと表現について分析する。
学術的トラックと技術的トラックの追跡における不平等に新たな光を当てている。
全国調査と社会学の学位の申請者によるカバーレターのコーパスの分析により,教師の指導支援戦略の欠如により,教師は2種類の指導支援戦略を主に有しており,教師は職業軌跡における「良き学生」への支援を目標とし集中する一方で,学術的足跡においては,追跡手順のいくつかの段階を家族に委譲する。
これらの異なる戦略は、高校生が学校の処方薬を内包し、カバーレターで補充する方法に影響を及ぼす。
教師の助けを借りて、職業トラックの「良い学生」は、学校階層における指導とその場所を強く内包する。
学術的なトラックでは、学生の願望に対する表現は家族の資本に依存している。 This paper analyses the framing and expression of French high school students' aspirations. It sheds new light on the inequalities in tracking between academic versus technological and vocational track. Through the analysis of a national survey and a corpus of cover letters written by applicants for a sociology degree, it shows that, due to the lack of means, teachers mainly have two types of guidance support strategies.Teachers use to target and concentrate their supporting on ``good students'' in vocational tracks, while, in academic tracks, they delegate some steps of the tracking procedures to families. These different strategies have effects on the way high school students internalise school prescriptions and restitute them in cover letters. Through the close support they benefit from teachers, ``good students'' in vocational tracks strongly internalise the instructions and their place in the school hierarchy. In academic tracks, students' expression of the aspirations is much more dependent of their familial capital. | 翻訳日:2023-02-17 13:58:20 公開日:2023-02-16 |
# 欠損ノード特徴を用いた半教師付き分類のための自己教師付きガイド付きハイパーグラフ特徴伝播 Self-supervised Guided Hypergraph Feature Propagation for Semi-supervised Classification with Missing Node Features ( http://arxiv.org/abs/2302.08250v1 ) ライセンス: Link先を確認 | Chengxiang Lei, Sichao Fu, Yuetian Wang, Wenhao Qiu, Yachen Hu, Qinmu Peng and Xinge You | (参考訳) ノード機能に欠けるグラフニューラルネットワーク(GNN)が最近注目を集めている。
このようなノード機能は既存のGNNの性能を著しく損なう。
近年,未知の属性を持つノード間の情報伝達により,欠落ノードの特徴を再構築する手法が提案されている。
これらの手法は優れた性能を達成したが、ノード間の複雑なデータ相関を正確に利用して、欠落したノードの機能を再構築する方法は依然として大きな課題である。
この問題を解決するために,自己教師付きガイド付きハイパーグラフ特徴伝搬(SGHFP)を提案する。
具体的には、情報不足のノード機能に従って、最初に機能ハイパーグラフを生成する。
そして、前回の繰り返しによって生成された再構成ノード特徴を2層GNNに供給し、擬似ラベルハイパーグラフを構築する。
各イテレーションの前に構築された特徴ハイパーグラフと擬似ラベルハイパーグラフを効果的に融合させ、ノード間の高次データ相関をよりよく保存する。
その後,融合ハイパーグラフを特徴伝播に適用し,欠落した特徴を再構成する。
最後に,マルチイテレーション最適化による再構成ノードの特徴を下流半教師付き分類タスクに適用する。
大規模な実験により,提案したSGHFPは,既存の半教師付き分類よりもノードの特徴の欠如が優れていることが示された。 Graph neural networks (GNNs) with missing node features have recently received increasing interest. Such missing node features seriously hurt the performance of the existing GNNs. Some recent methods have been proposed to reconstruct the missing node features by the information propagation among nodes with known and unknown attributes. Although these methods have achieved superior performance, how to exactly exploit the complex data correlations among nodes to reconstruct missing node features is still a great challenge. To solve the above problem, we propose a self-supervised guided hypergraph feature propagation (SGHFP). Specifically, the feature hypergraph is first generated according to the node features with missing information. And then, the reconstructed node features produced by the previous iteration are fed to a two-layer GNNs to construct a pseudo-label hypergraph. Before each iteration, the constructed feature hypergraph and pseudo-label hypergraph are fused effectively, which can better preserve the higher-order data correlations among nodes. After then, we apply the fused hypergraph to the feature propagation for reconstructing missing features. Finally, the reconstructed node features by multi-iteration optimization are applied to the downstream semi-supervised classification task. Extensive experiments demonstrate that the proposed SGHFP outperforms the existing semi-supervised classification with missing node feature methods. | 翻訳日:2023-02-17 13:58:02 公開日:2023-02-16 |
# オンライン授業増分学習におけるタスク要求バイアスの救済に関する新しい視点 New Insights on Relieving Task-Recency Bias for Online Class Incremental Learning ( http://arxiv.org/abs/2302.08243v1 ) ライセンス: Link先を確認 | Guoqiang Liang, Zhaojie Chen, Zhaoqiang Chen, Shiyu Ji, Yanning Zhang | (参考訳) 人間の学習を継続する能力の模倣として、絶え間なく続くデータストリームから学習できる連続学習が近年注目を集めている。
すべての設定において、データストリームから入力されるサンプルを一度だけ使用可能なオンラインクラスインクリメンタルラーニング(CIL)は、より困難で、現実世界でより頻繁に発生する可能性がある。
実際、CILは安定性と塑性のジレンマに直面しており、安定性は古い知識を保存でき、可塑性は新しい知識を組み込む能力を示す。
リプレイベースの手法は例外的な可能性を示したが、その多くは可塑性を犠牲にして安定性を維持するためにメモリを更新して取得する戦略に集中している。
安定性と塑性のトレードオフに対処するため,モデル学習における不明瞭なサンプルや非ターゲットロジットへのフォーカスを動的に調整する適応型フォーカスシフトアルゴリズム(AFS)を提案する。
クラス不均衡に起因するタスク・レジデンスバイアスの深い分析を通じて,主に安定性を維持するために焦点損失の修正を提案する。
新しい重み関数を利用することで、改訂された焦点損失は現在の曖昧なサンプルにより多くの注意を払うことができ、分類境界のさらなる情報を提供することができる。
可塑性を促進するため,仮想知識蒸留法を提案する。
仮想教師を設計することで、非ターゲットクラスにもっと注意を向け、過信を克服し、クラス間情報にフォーカスするようモデルに促す。
CIL用の3つの一般的なデータセットに対する大規模な実験は、AFSの有効性を示している。
コードは \url{https://github.com/czjghost/AFS} で入手できる。 To imitate the ability of keeping learning of human, continual learning which can learn from a never-ending data stream has attracted more interests recently. In all settings, the online class incremental learning (CIL), where incoming samples from data stream can be used only once, is more challenging and can be encountered more frequently in real world. Actually, the CIL faces a stability-plasticity dilemma, where the stability means the ability to preserve old knowledge while the plasticity denotes the ability to incorporate new knowledge. Although replay-based methods have shown exceptional promise, most of them concentrate on the strategy for updating and retrieving memory to keep stability at the expense of plasticity. To strike a preferable trade-off between stability and plasticity, we propose a Adaptive Focus Shifting algorithm (AFS), which dynamically adjusts focus to ambiguous samples and non-target logits in model learning. Through a deep analysis of the task-recency bias caused by class imbalance, we propose a revised focal loss to mainly keep stability. By utilizing a new weight function, the revised focal loss can pay more attention to current ambiguous samples, which can provide more information of the classification boundary. To promote plasticity, we introduce a virtual knowledge distillation. By designing a virtual teacher, it assigns more attention to non-target classes, which can surmount overconfidence and encourage model to focus on inter-class information. Extensive experiments on three popular datasets for CIL have shown the effectiveness of AFS. The code will be available at \url{https://github.com/czjghost/AFS}. | 翻訳日:2023-02-17 13:57:41 公開日:2023-02-16 |
# タスク報酬によるコンピュータビジョンモデルのチューニング Tuning computer vision models with task rewards ( http://arxiv.org/abs/2302.08242v1 ) ライセンス: Link先を確認 | Andr\'e Susano Pinto, Alexander Kolesnikov, Yuge Shi, Lucas Beyer, Xiaohua Zhai | (参考訳) モデル予測と意図された使用方法の不一致は、コンピュータビジョンモデルのデプロイに有害である。
このミスアライメントに対処する手順を設計することが難しくなるため、タスクが複雑な構造化された出力を必要とすると、問題は悪化する。
自然言語処理では、モデルにタスク報酬を付与する強化学習技術を使って対処されることが多い。
我々はこのアプローチを採用し、オブジェクト検出、汎視的セグメンテーション、着色、画像キャプションなど、複数のコンピュータビジョンタスクにまたがる驚くべき効果を示す。
このアプローチは、様々なコンピュータビジョンタスクとの整合性を改善するために広く役立つ可能性があると考えている。 Misalignment between model predictions and intended usage can be detrimental for the deployment of computer vision models. The issue is exacerbated when the task involves complex structured outputs, as it becomes harder to design procedures which address this misalignment. In natural language processing, this is often addressed using reinforcement learning techniques that align models with a task reward. We adopt this approach and show its surprising effectiveness across multiple computer vision tasks, such as object detection, panoptic segmentation, colorization and image captioning. We believe this approach has the potential to be widely useful for better aligning models with a diverse range of computer vision tasks. | 翻訳日:2023-02-17 13:57:13 公開日:2023-02-16 |
# バイオメトリックスにおけるプレゼンテーションアタックの紹介と最近の進歩 Introduction to Presentation Attacks in Signature Biometrics and Recent Advances ( http://arxiv.org/abs/2302.08320v1 ) ライセンス: Link先を確認 | Carlos Gonzalez-Garcia, Ruben Tolosana, Ruben Vera-Rodriguez, Julian Fierrez and Javier Ortega-Garcia | (参考訳) 生体認証に基づくアプリケーションは、顔や指紋などの個人特性を用いて得られた呼吸結果から、ここ数年で多くの関心を集めている。
しかし、これらの生体認証システムは異なる種類の攻撃に耐える必要があることを忘れてはならない。
本章では,オンライン手書き署名検証のための異なるプレゼンテーションアタック(pa)シナリオの分析を行う。
本章の主な貢献は次のとおりである。
一 署名生体認証における提示攻撃検出のための代表的方法(pad)の更新概要
二 詐欺師が利用可能な情報量及び偽造行為を行うための訓練、努力及び能力に関するオンライン署名検証に存在している様々なpasのレベルについての記述
三 最近の公開署名データベース、deepsigndb及びsvc2021_evaldbを考慮した異なるシナリオにおけるシグネチャバイオメトリックスにおけるシステム性能の評価
この研究は、バイオメトリックシステムのセキュリティ評価に向けた共通基準標準化コミュニティの最近の取り組みと一致している。 Applications based on biometric authentication have received a lot of interest in the last years due to the breathtaking results obtained using personal traits such as face or fingerprint. However, it is important not to forget that these biometric systems have to withstand different types of possible attacks. This chapter carries out an analysis of different Presentation Attack (PA) scenarios for on-line handwritten signature verification. The main contributions of this chapter are: i) an updated overview of representative methods for Presentation Attack Detection (PAD) in signature biometrics; ii) a description of the different levels of PAs existing in on-line signature verification regarding the amount of information available to the impostor, as well as the training, effort, and ability to perform the forgeries; and iii) an evaluation of the system performance in signature biometrics under different scenarios considering recent publicly available signature databases, DeepSignDB and SVC2021_EvalDB. This work is in line with recent efforts in the Common Criteria standardization community towards security evaluation of biometric systems. | 翻訳日:2023-02-17 13:51:13 公開日:2023-02-16 |
# 決定論的非平滑非凸最適化 Deterministic Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2302.08300v1 ) ライセンス: Link先を確認 | Michael I. Jordan, Guy Kornowski, Tianyi Lin, Ohad Shamir, Manolis Zampetakis | (参考訳) 非滑らかな非凸リプシッツ関数を$(\delta,\epsilon)$定常点を生成することで最適化する複雑さについて検討する。
いくつかの最近の研究は、$\tilde O(\delta^{-1}\epsilon^{-3})$ 1次オラクル呼び出しを用いて、次元$d$とは独立にそのような点を生成するランダム化アルゴリズムを提示している。
同様の結果が決定論的アルゴリズムで得られるかどうかについては、未解決の問題である。
そこで,自由度を得るにはランダム化が必要であることを示した。
特に、任意の決定論的アルゴリズムに対して$\Omega(d)$の低い境界を証明する。
さらに,スムーズあるいは凸最適化とは異なり,任意の決定論的アルゴリズムが有限時間以内に停止するためには,関数値へのアクセスが必要であることを示す。
一方、関数が少し滑らかであれば、$\tilde O(\delta^{-1}\epsilon^{-3})$の次元自由率は、単に滑らか度パラメータに対数依存した決定論的アルゴリズムによって得られることを証明している。
これらの知見により、決定論的に滑らかなリプシッツ関数の複雑さについて研究する。
効率的なブラックボックスのランダム化平滑化はあるが、そのような決定論的手続きが意味のある方法で機能を円滑にすることができず、オープンな問題を解き明かすことから始める。
そして、reluニューラルネットワークの構造化の場合、この不可能性を回避します。
そこで,ネットワークアーキテクチャへのオプティマイザのアクセスを許可する実用的なホワイトボックス設定では,$(\delta,\epsilon)$-定常点を確実に保存する,単純で次元自由な決定論的スムージングを提案する。
本手法はresnetsやconvnetsを含む任意の深さの様々なアーキテクチャに適用できる。
我々のアルゴリズムと組み合わせることで、ReLUネットワークを最適化し、下界を回避できる最初の決定論的次元自由アルゴリズムが得られる。 We study the complexity of optimizing nonsmooth nonconvex Lipschitz functions by producing $(\delta,\epsilon)$-stationary points. Several recent works have presented randomized algorithms that produce such points using $\tilde O(\delta^{-1}\epsilon^{-3})$ first-order oracle calls, independent of the dimension $d$. It has been an open problem as to whether a similar result can be obtained via a deterministic algorithm. We resolve this open problem, showing that randomization is necessary to obtain a dimension-free rate. In particular, we prove a lower bound of $\Omega(d)$ for any deterministic algorithm. Moreover, we show that unlike smooth or convex optimization, access to function values is required for any deterministic algorithm to halt within any finite time. On the other hand, we prove that if the function is even slightly smooth, then the dimension-free rate of $\tilde O(\delta^{-1}\epsilon^{-3})$ can be obtained by a deterministic algorithm with merely a logarithmic dependence on the smoothness parameter. Motivated by these findings, we turn to study the complexity of deterministically smoothing Lipschitz functions. Though there are efficient black-box randomized smoothings, we start by showing that no such deterministic procedure can smooth functions in a meaningful manner, resolving an open question. We then bypass this impossibility result for the structured case of ReLU neural networks. To that end, in a practical white-box setting in which the optimizer is granted access to the network's architecture, we propose a simple, dimension-free, deterministic smoothing that provably preserves $(\delta,\epsilon)$-stationary points. Our method applies to a variety of architectures of arbitrary depth, including ResNets and ConvNets. Combined with our algorithm, this yields the first deterministic dimension-free algorithm for optimizing ReLU networks, circumventing our lower bound. | 翻訳日:2023-02-17 13:50:59 公開日:2023-02-16 |
# 獲得関数最大化の最適化によるベイズ最適化の高次元化 Enhancing High-dimensional Bayesian Optimization by Optimizing the Acquisition Function Maximizer Initialization ( http://arxiv.org/abs/2302.08298v1 ) ライセンス: Link先を確認 | Jiayu Zhao, Renyu Yang, Shenghao Qiu, Zheng Wang | (参考訳) ベイズ最適化(BO)はブラックボックス関数の最適化に広く用いられている。
まず目的のためにサロゲートを構築し、そのサロゲートの不確かさを定量化する。
次に、サロゲートモデルで定義される取得関数を最大化することで、サンプルの場所を決定する。
以前のアプローチでは、通常ランダムに生成された生サンプルを使用して獲得関数の最大化を初期化する。
しかし、この戦略は高次元boには不向きである。
高次元の後方不確実性の大きい領域を考えると、ランダムに初期化された取得関数の最大化は、高い後方不確実性を持つ領域に焦点をあてる可能性が高い。
本稿では,獲得関数最大化の初期化フェーズの重要性を明らかにするため,最初の包括的実証研究を行う。
複数のヒューリスティックオプティマイザを用いて、既に評価済みサンプルの知識を活用して、取得関数最大化器によって探索される初期点を生成することにより、より優れた初期化アプローチを提案する。
我々は,広く使われている合成テスト関数と実世界のアプリケーションに対するアプローチを評価する。
実験結果から,本手法は単純ではあるが,標準BOを著しく向上させ,ほとんどのテストケースにおいて最先端の高次元BO技術よりも優れた性能を発揮することが示された。 Bayesian optimization (BO) is widely used to optimize black-box functions. It works by first building a surrogate for the objective and quantifying the uncertainty in that surrogate. It then decides where to sample by maximizing an acquisition function defined by the surrogate model. Prior approaches typically use randomly generated raw samples to initialize the acquisition function maximizer. However, this strategy is ill-suited for high-dimensional BO. Given the large regions of high posterior uncertainty in high dimensions, a randomly initialized acquisition function maximizer is likely to focus on areas with high posterior uncertainty, leading to overly exploring areas that offer little gain. This paper provides the first comprehensive empirical study to reveal the importance of the initialization phase of acquisition function maximization. It proposes a better initialization approach by employing multiple heuristic optimizers to leverage the knowledge of already evaluated samples to generate initial points to be explored by an acquisition function maximizer. We evaluate our approach on widely used synthetic test functions and real-world applications. Experimental results show that our techniques, while simple, can significantly enhance the standard BO and outperforms state-of-the-art high-dimensional BO techniques by a large margin in most test cases. | 翻訳日:2023-02-17 13:50:24 公開日:2023-02-16 |
# navya3dseg -- navyaセマンティックセグメンテーションデータセットと自動運転車のための分割生成 Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation for autonomous vehicles ( http://arxiv.org/abs/2302.08292v1 ) ライセンス: Link先を確認 | Alexandre Almin, L\'eo Lemari\'e, Anh Duong, B Ravi Kiran | (参考訳) 今日では、自動運転(AD)の認識は、キュレーションとアノテーションに関連するコストとともに、大規模な注釈付きデータセットを必要とするディープラーニングベースのアーキテクチャに大きく依存している。
3次元意味データは障害物検出や車軸位置推定などのコア知覚タスクに有用である。
本研究では,13カ国の農村,都市,工業地,大学を含む大規模生産段階の運用ドメインに対応する多様なラベル空間を持つ,navya 3dセグメンテーション(navya3dseg)という新しいデータセットを提案する。
ラベルのない23のラベル付きシーケンスと25の補足的なシーケンスを含み、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセグメンテーションベンチマークを探索するように設計されている。
また,反復的マルチラベル階層化に基づく逐次データセット分割生成手法を提案し,SemanticKITTIデータセットによって提案された分割よりも+1.2%のmIoU改善を実現することを示した。
セマンティクスセグメンテーションタスクの完全なベンチマークが, artメソッドの状態とともに実施された。
最後に、アクティブラーニング(AL)に基づくデータセット蒸留フレームワークを実演する。
ALの文脈で距離サンプリングと呼ばれる新しいヒューリスティックフリーサンプリング手法を提案する。
データセットに関する詳細なプレゼンテーションはhttps://www.youtube.com/watch?
v=5m6ALIs-s20。 Autonomous driving (AD) perception today relies heavily on deep learning based architectures requiring large scale annotated datasets with their associated costs for curation and annotation. The 3D semantic data are useful for core perception tasks such as obstacle detection and ego-vehicle localization. We propose a new dataset, Navya 3D Segmentation (Navya3DSeg), with a diverse label space corresponding to a large scale production grade operational domain, including rural, urban, industrial sites and universities from 13 countries. It contains 23 labeled sequences and 25 supplementary sequences without labels, designed to explore self-supervised and semi-supervised semantic segmentation benchmarks on point clouds. We also propose a novel method for sequential dataset split generation based on iterative multi-label stratification, and demonstrated to achieve a +1.2% mIoU improvement over the original split proposed by SemanticKITTI dataset. A complete benchmark for semantic segmentation task was performed, with state of the art methods. Finally, we demonstrate an active learning (AL) based dataset distillation framework. We introduce a novel heuristic-free sampling method called distance sampling in the context of AL. A detailed presentation on the dataset is available at https://www.youtube.com/watch?v=5m6ALIs-s20 . | 翻訳日:2023-02-17 13:49:59 公開日:2023-02-16 |
# 分布外検出の教師なし評価:データ中心視点 Unsupervised Evaluation of Out-of-distribution Detection: A Data-centric Perspective ( http://arxiv.org/abs/2302.08287v1 ) ライセンス: Link先を確認 | Yuhang Zhang, Weihong Deng, Liang Zheng | (参考訳) out-of-distribution (ood) 検出法は、個々のテストサンプルが in-distribution (ind) か ood かを仮定する。
しかし,現実の世界では,必ずしもそのような基礎的事実は持たないため,どのサンプルが正しく検出されたかは分かっておらず,AUROCのような計量を計算して異なるOOD検出手法の性能を評価することはできない。
本稿では,OODラベルのない実環境変化環境におけるOOD検出手法の評価を目的とした,OOD検出における教師なし評価問題を初めて紹介する。
OOD検出性能の教師なし指標としてGscoreを計算する3つの方法を提案する。
さらに、Gbenchというベンチマークを新たに導入し、様々なラベル空間の現実のOODデータセットを200個用意し、この手法を訓練し評価する。
実験により, Gscore と OOD 検出性能の相関が強いことがわかった。
我々のGscoreは最先端のパフォーマンスを実現している。
Gscoreはまた、異なるIND/OODデータセット、OOD検出方法、バックボーン、データセットサイズをうまく一般化している。
さらに, バックボーンとIND/OODデータセットがOOD検出性能に与える影響について興味深い解析を行った。
データとコードは利用可能になる。 Out-of-distribution (OOD) detection methods assume that they have test ground truths, i.e., whether individual test samples are in-distribution (IND) or OOD. However, in the real world, we do not always have such ground truths, and thus do not know which sample is correctly detected and cannot compute the metric like AUROC to evaluate the performance of different OOD detection methods. In this paper, we are the first to introduce the unsupervised evaluation problem in OOD detection, which aims to evaluate OOD detection methods in real-world changing environments without OOD labels. We propose three methods to compute Gscore as an unsupervised indicator of OOD detection performance. We further introduce a new benchmark Gbench, which has 200 real-world OOD datasets of various label spaces to train and evaluate our method. Through experiments, we find a strong quantitative correlation betwwen Gscore and the OOD detection performance. Extensive experiments demonstrate that our Gscore achieves state-of-the-art performance. Gscore also generalizes well with different IND/OOD datasets, OOD detection methods, backbones and dataset sizes. We further provide interesting analyses of the effects of backbones and IND/OOD datasets on OOD detection performance. The data and code will be available. | 翻訳日:2023-02-17 13:49:39 公開日:2023-02-16 |
# 複素値ニューラルネットワークの理論と実装 Theory and Implementation of Complex-Valued Neural Networks ( http://arxiv.org/abs/2302.08286v1 ) ライセンス: Link先を確認 | Jose Agustin Barrachina, Chengfang Ren, Gilles Vieillard, Christele Morisseau, Jean-Philippe Ovarlez | (参考訳) この研究は、Wirtinger計算、複雑なバックプロパゲーション、複雑な層、複雑なアクティベーション関数、複雑なウェイト初期化などの基本的なモジュールを含む、複雑価値ニューラルネットワーク(CVNN)の背後にある理論を詳細に説明している。
また、重み初期化を複素領域に正しく適応しないことの影響も示した。
この作業は、cvnnツールボックスを使用したPython上のそのようなモジュールの実装に強く焦点を合わせている。
また,実数値データに対するシミュレーションを行い,ヒルベルト変換により複素領域にキャストし,非複素データにおいてもcvnnの潜在的興味を検証した。 This work explains in detail the theory behind Complex-Valued Neural Network (CVNN), including Wirtinger calculus, complex backpropagation, and basic modules such as complex layers, complex activation functions, or complex weight initialization. We also show the impact of not adapting the weight initialization correctly to the complex domain. This work presents a strong focus on the implementation of such modules on Python using cvnn toolbox. We also perform simulations on real-valued data, casting to the complex domain by means of the Hilbert Transform, and verifying the potential interest of CVNN even for non-complex data. | 翻訳日:2023-02-17 13:49:17 公開日:2023-02-16 |
# ClaPIM: 処理・イン・メモリを用いたスケーラブルシーケンスCLAシフィケーション ClaPIM: Scalable Sequence CLAssification using Processing-In-Memory ( http://arxiv.org/abs/2302.08284v1 ) ライセンス: Link先を確認 | Marcel Khalifa, Barak Hoffer, Orian Leitersdorf, Robert Hanhan, Ben Perach, Leonid Yavits, and Shahar Kvatinsky | (参考訳) DNA配列分類は、疾患予防や薬物設計などの応用に多大な影響を及ぼす計算生物学の基本的な課題である。
したがって、高速な高品質なシーケンス分類器が重要である。
本稿では,ハイブリッド・イン・クロスバーとニア・クロスバー・メムリシティブ・イン・メモリ(PIM)の概念に基づく,スケーラブルなDNA配列分類アーキテクチャであるClaPIMを紹介する。
1つのアルゴリズムでフィルタと検索ステージを組み合わせることで、効率的で高品質な分類を可能にする。
具体的には,探索空間を大幅に狭める独自のフィルタリング手法と,距離関数による近似文字列マッチングを容易にする探索手法を提案する。
ClaPIMは、拡張性のある近似文字列マッチングのための最初のPIMアーキテクチャであり、高い密度の旋律クロスバーアレイと、PIMの大規模計算並列性から恩恵を受けている。
ClaPIMは最先端のソフトウェア分類器であるKraken2と比較して、かなり高い分類品質(F1スコアの最大20倍)を提供し、1.8倍のスループット向上を示す。
最近発表されたSRAMベースのアクセラレータであるEDAMと比較して、領域ごとの正規化スループットが30.4倍改善し、分類精度が7%向上した。 DNA sequence classification is a fundamental task in computational biology with vast implications for applications such as disease prevention and drug design. Therefore, fast high-quality sequence classifiers are significantly important. This paper introduces ClaPIM, a scalable DNA sequence classification architecture based on the emerging concept of hybrid in-crossbar and near-crossbar memristive processing-in-memory (PIM). We enable efficient and high-quality classification by uniting the filter and search stages within a single algorithm. Specifically, we propose a custom filtering technique that drastically narrows the search space and a search approach that facilitates approximate string matching through a distance function. ClaPIM is the first PIM architecture for scalable approximate string matching that benefits from the high density of memristive crossbar arrays and the massive computational parallelism of PIM. Compared with Kraken2, a state-of-the-art software classifier, ClaPIM provides significantly higher classification quality (up to 20x improvement in F1 score) and also demonstrates a 1.8x throughput improvement. Compared with EDAM, a recently-proposed SRAM-based accelerator that is restricted to small datasets, we observe both a 30.4x improvement in normalized throughput per area and a 7% increase in classification precision. | 翻訳日:2023-02-17 13:49:04 公開日:2023-02-16 |
# トランスフォーマーモデルを用いたロバストな人間の動き予測 Robust Human Motion Forecasting using Transformer-based Model ( http://arxiv.org/abs/2302.08274v1 ) ライセンス: Link先を確認 | Esteve Valls Mascaro, Shuo Ma, Hyemin Ahn, Dongheui Lee | (参考訳) 人間の動きを補完することは、人間-ロボット協調アプリケーションを開発するための根本的な課題である。
コンピュータビジョンの研究者たちは、予測におけるエラーを減らすことだけに焦点を合わせながら、ロボットにおけるその実装を促進するための要件を考慮していない。
本稿では,トランスフォーマーをベースとした,短時間・長期のリアルタイムな3次元動作予測を同時に扱う新しいモデルを提案する。
2-Channel Transformer (2CH-TR) は, 近いうちに観測されたシーケンス(400ms)の時空間情報を効率よく利用し, 現状に対する競合精度を実現できる。
2CH-TRはTransformerの高性能で、競合他社よりも軽量で高速である。
また,高騒音環境下での3次元動作の再現・予測におけるロバスト性を示すために,人間の動作がかなり遮蔽されている条件下で実験を行った。
実験の結果,提案した2CH-TRはST-Transformerよりも優れており,ST-Transformerは入力プレフィックスと同じ条件下での再構築と予測を行う。
このモデルでは、短期予測ではst変換器の平均二乗誤差が8.89%、入力プレフィックスが400msのhuman3.6mデータセットでは2.57%減少する。 Comprehending human motion is a fundamental challenge for developing Human-Robot Collaborative applications. Computer vision researchers have addressed this field by only focusing on reducing error in predictions, but not taking into account the requirements to facilitate its implementation in robots. In this paper, we propose a new model based on Transformer that simultaneously deals with the real time 3D human motion forecasting in the short and long term. Our 2-Channel Transformer (2CH-TR) is able to efficiently exploit the spatio-temporal information of a shortly observed sequence (400ms) and generates a competitive accuracy against the current state-of-the-art. 2CH-TR stands out for the efficient performance of the Transformer, being lighter and faster than its competitors. In addition, our model is tested in conditions where the human motion is severely occluded, demonstrating its robustness in reconstructing and predicting 3D human motion in a highly noisy environment. Our experiment results show that the proposed 2CH-TR outperforms the ST-Transformer, which is another state-of-the-art model based on the Transformer, in terms of reconstruction and prediction under the same conditions of input prefix. Our model reduces in 8.89% the mean squared error of ST-Transformer in short-term prediction, and 2.57% in long-term prediction in Human3.6M dataset with 400ms input prefix. | 翻訳日:2023-02-17 13:48:42 公開日:2023-02-16 |
# 医用画像変換学習における隠れ表現の再検討 Revisiting Hidden Representations in Transfer Learning for Medical Imaging ( http://arxiv.org/abs/2302.08272v1 ) ライセンス: Link先を確認 | Dovile Juodelyte, Amelia Jim\'enez S\'anchez, Veronika Cheplygina | (参考訳) ディープラーニングの成功の鍵となるコンポーネントは、大量のトレーニングデータの提供であるが、医療画像データセットは多様性とサイズに制限されることが多い。
転送学習は、関連するが異なるドメイン間のギャップを埋める可能性がある。
しかし, 医学的応用については, 自然画像や医用画像の事前学習が有益かは定かではない。
我々は,imagenet と radimagenet の初期化を 7 つの医療分類タスクで比較することにより,この問題に光を当てる。
学習した表現を標準相関解析(CCA)を用いて検討し,各モデルの予測と比較する。
ImageNetで事前トレーニングされたモデルは、RadImageNetでトレーニングされたモデルよりも優れています。
その結果,ImageNetとRadImageNetは直感とは対照的に,異なる中間表現に収束し,これらの表現は微調整後にさらに異なっていた。
これらの異なる表現にもかかわらず、モデルの予測は似通っている。
本研究は,畳み込みニューラルネットワークの初期層における一般的な特徴の再利用により,転送学習が効果的であるという考えに挑戦し,微調整前後の重み類似性が性能向上に負の相関を示す。 While a key component to the success of deep learning is the availability of massive amounts of training data, medical image datasets are often limited in diversity and size. Transfer learning has the potential to bridge the gap between related yet different domains. For medical applications, however, it remains unclear whether it is more beneficial to pre-train on natural or medical images. We aim to shed light on this problem by comparing initialization on ImageNet and RadImageNet on seven medical classification tasks. We investigate their learned representations with Canonical Correlation Analysis (CCA) and compare the predictions of the different models. We find that overall the models pre-trained on ImageNet outperform those trained on RadImageNet. Our results show that, contrary to intuition, ImageNet and RadImageNet converge to distinct intermediate representations, and that these representations are even more dissimilar after fine-tuning. Despite these distinct representations, the predictions of the models remain similar. Our findings challenge the notion that transfer learning is effective due to the reuse of general features in the early layers of a convolutional neural network and show that weight similarity before and after fine-tuning is negatively related to performance gains. | 翻訳日:2023-02-17 13:48:16 公開日:2023-02-16 |
# 量子カーネル支援ベクトルマシンを用いたマルチスペクトル衛星画像中の雲の検出 Detecting Clouds in Multispectral Satellite Images Using Quantum-Kernel Support Vector Machines ( http://arxiv.org/abs/2302.08270v1 ) ライセンス: Link先を確認 | Artur Miroszewski, Jakub Mielczarek, Grzegorz Czelusta, Filip Szczepanek, Bartosz Grabowski, Bertrand Le Saux, Jakub Nalepa | (参考訳) サポートベクターマシン(svm)は、分類タスクの配列に効果的にデプロイされる、確立された分類器である。
本研究では,従来のSVMを量子カーネルで拡張し,衛星データ解析に適用することを検討する。
量子カーネル(ハイブリッドSVM)を用いたSVMの設計と実装について述べる。
ここで、画素は(量子核に関連する)パラメータ化された量子特徴写像の族を用いてヒルベルト空間に写像される。
パラメータはカーネルターゲットアライメントを最大化するために最適化される。
量子カーネルは、多数の関連する特性を分析しつつ、現実の大規模データセット上で古典的なコンピュータでそれらをシミュレートできるように選択されている。
具体的には,地上および地上の衛星画像解析処理チェーンにおいて重要なステップの一つであるマルチスペクトル衛星画像における雲検出の問題にアプローチする。
ベンチマークのLandsat-8マルチスペクトルデータセット上で行った実験により、シミュレーションされたハイブリッドSVMは、大規模なデータセットのRBFカーネルと古典的なSVMに匹敵する精度で衛星画像の分類に成功していることがわかった。
興味深いことに、大規模なデータセットでは、単純な量子カーネルでも高い精度が観測され、量子の絡み合いが欠けていた。 Support vector machines (SVMs) are a well-established classifier effectively deployed in an array of classification tasks. In this work, we consider extending classical SVMs with quantum kernels and applying them to satellite data analysis. The design and implementation of SVMs with quantum kernels (hybrid SVMs) are presented. Here, the pixels are mapped to the Hilbert space using a family of parameterized quantum feature maps (related to quantum kernels). The parameters are optimized to maximize the kernel target alignment. The quantum kernels have been selected such that they enabled analysis of numerous relevant properties while being able to simulate them with classical computers on a real-life large-scale dataset. Specifically, we approach the problem of cloud detection in the multispectral satellite imagery, which is one of the pivotal steps in both on-the-ground and on-board satellite image analysis processing chains. The experiments performed over the benchmark Landsat-8 multispectral dataset revealed that the simulated hybrid SVM successfully classifies satellite images with accuracy comparable to the classical SVM with the RBF kernel for large datasets. Interestingly, for large datasets, the high accuracy was also observed for the simple quantum kernels, lacking quantum entanglement. | 翻訳日:2023-02-17 13:47:58 公開日:2023-02-16 |
# イベントベースニュースナラティブ抽出に関する調査 A Survey on Event-based News Narrative Extraction ( http://arxiv.org/abs/2302.08351v1 ) ライセンス: Link先を確認 | Brian Keith Norambuena, Tanushree Mitra, Chris North | (参考訳) 物語は我々の世界理解の基盤であり、時間とともに知識表現の自然な構造を提供する。
計算的物語抽出は、情報検索と自然言語処理技術を多用した人工知能のサブフィールドである。
計算的物語抽出の重要性にもかかわらず、これまでの研究を合成し、領域における将来の研究をストラテジー化する研究は比較的少ない。
特に、イベント中心の視点からニュース物語を抽出することに焦点を当てる。
ニュースデータから物語を抽出することは、進化する情報景観を理解するために複数の応用がある。
本調査は,イベントベースニュースナラティブ抽出分野の研究を幅広く行ったものである。
特に,関連記事54件を含む900件以上の記事を上映した。
これらの論文は、表現モデル、抽出基準、評価アプローチによって合成され、整理される。
レビューされた研究に基づいて、最近のトレンド、オープンチャレンジ、潜在的研究線を特定する。 Narratives are fundamental to our understanding of the world, providing us with a natural structure for knowledge representation over time. Computational narrative extraction is a subfield of artificial intelligence that makes heavy use of information retrieval and natural language processing techniques. Despite the importance of computational narrative extraction, relatively little scholarly work exists on synthesizing previous research and strategizing future research in the area. In particular, this article focuses on extracting news narratives from an event-centric perspective. Extracting narratives from news data has multiple applications in understanding the evolving information landscape. This survey presents an extensive study of research in the area of event-based news narrative extraction. In particular, we screened over 900 articles that yielded 54 relevant articles. These articles are synthesized and organized by representation model, extraction criteria, and evaluation approaches. Based on the reviewed studies, we identify recent trends, open challenges, and potential research lines. | 翻訳日:2023-02-17 13:41:12 公開日:2023-02-16 |
# 繰り返し密度行列の再検討:InAs量子と飽和吸収体への励起現象 Iterative density matrix revisited: Excitonic phenomena to InAs quantum well as a saturable absorber ( http://arxiv.org/abs/2302.08349v1 ) ライセンス: Link先を確認 | Sami Ortakaya | (参考訳) リウヴィル方程式の解法により、三階非線形項は反復密度行列によって見出される。
改良されたモデリングでは、全ての周波数範囲は弱い吸収限界の代わりに取られる。
検討されたプロセスは、InAs量子井戸の重孔励起子の飽和フィッティングと比較することができる。 By solving the Liouville equation, third-order nonlinear terms is found via iterative density matrix. Regarding the improved modeling, all frequency range is taken instead of weak absorptive limit. Considered process can be compared with saturation fitting for heavy-hole excitons in the InAs quantum well. | 翻訳日:2023-02-17 13:41:00 公開日:2023-02-16 |
# 対相互作用スピン系のボルツマン分布の自己回帰型ニューラルネットワークアーキテクチャ The autoregressive neural network architecture of the Boltzmann distribution of pairwise interacting spins systems ( http://arxiv.org/abs/2302.08347v1 ) ライセンス: Link先を確認 | Indaco Biazzo | (参考訳) Generative Autoregressive Neural Networks (ARNN)は、最近、画像および言語生成タスクにおける例外的な結果を実証し、科学と商業の両方の分野で生成モデルの人気が高まっている。
本研究は,二元対相互作用系のボルツマン分布を自己回帰形式に再構成し,arnnの物理的解釈を提案する。
得られたARNNアーキテクチャは、ハミルトンのカップリングと外部フィールドに対応する第1層の重みとバイアスを持ち、残留接続や明確な物理的意味を持つ再帰アーキテクチャのような広く使われている構造を特徴としている。
しかし、システムサイズの指数関数的な成長は、隠されたレイヤのパラメータの数を直接適用することは不可能である。
それにもかかわらず、そのアーキテクチャの明示的な定式化により、統計物理学技術を用いて特定のシステムに対する新しいARNNを導出することができる。
例として、新しい効果的なARNNアーキテクチャは、Curie-Weiss と Sherrington-Kirkpatrick という2つの有名な平均場系から派生し、対応する物理モデルのボルツマン分布を他のよく使われるARNNアーキテクチャよりも近似する上で優れた性能を示す。
システムの物理とARNNアーキテクチャの接続は、異なる相互作用システムのための新しいニューラルネットワークアーキテクチャを導出し、物理的観点から既存のアーキテクチャを解釈する方法を提供する。 Generative Autoregressive Neural Networks (ARNN) have recently demonstrated exceptional results in image and language generation tasks, contributing to the growing popularity of generative models in both scientific and commercial applications. This work presents a physical interpretation of the ARNNs by reformulating the Boltzmann distribution of binary pairwise interacting systems into autoregressive form. The resulting ARNN architecture has weights and biases of its first layer corresponding to the Hamiltonian's couplings and external fields, featuring widely used structures like the residual connections and a recurrent architecture with clear physical meanings. However, the exponential growth, with system size, of the number of parameters of the hidden layers makes its direct application unfeasible. Nevertheless, its architecture's explicit formulation allows using statistical physics techniques to derive new ARNNs for specific systems. As examples, new effective ARNN architectures are derived from two well-known mean-field systems, the Curie-Weiss and Sherrington-Kirkpatrick models, showing superior performances in approximating the Boltzmann distributions of the corresponding physics model than other commonly used ARNNs architectures. The connection established between the physics of the system and the ARNN architecture provides a way to derive new neural network architectures for different interacting systems and interpret existing ones from a physical perspective. | 翻訳日:2023-02-17 13:40:56 公開日:2023-02-16 |
# 記憶のある線形バンド:回転から上昇まで Linear Bandits with Memory: from Rotting to Rising ( http://arxiv.org/abs/2302.08345v1 ) ライセンス: Link先を確認 | Giulia Clerici, Pierre Laforgue, Nicol\`o Cesa-Bianchi | (参考訳) 推奨における満足効果のような非定常現象は、シーケンシャルな意思決定問題の共通の特徴である。
これらの現象は、主に有限個の腕を持つ包帯の枠組みで研究されているが、実際的な場合の多くは、より効果的なモデリング選択を提供する。
本研究では,固定サイズウィンドウにおける学習者の過去の行動に,現在の報酬が影響される非定常線形帯域の研究のための一般的な枠組みを紹介する。
特に,このモデルでは固定線形バンディットを特別な場合として含む。
最善のアクション列がモデルで計算が困難であることを示すと、周期的なポリシーに焦点を合わせ、近似と推定誤差のバランスをとるofulアルゴリズムの変種に対する後悔を証明する。
我々の理論的な発見は、我々のアルゴリズムが自然の基準線に対して良好に機能することを示す実験(不特定設定を含む)によって支持される。 Nonstationary phenomena, such as satiation effects in recommendation, are a common feature of sequential decision-making problems. While these phenomena have been mostly studied in the framework of bandits with finitely many arms, in many practically relevant cases linear bandits provide a more effective modeling choice. In this work, we introduce a general framework for the study of nonstationary linear bandits, where current rewards are influenced by the learner's past actions in a fixed-size window. In particular, our model includes stationary linear bandits as a special case. After showing that the best sequence of actions is NP-hard to compute in our model, we focus on cyclic policies and prove a regret bound for a variant of the OFUL algorithm that balances approximation and estimation errors. Our theoretical findings are supported by experiments (which also include misspecified settings) where our algorithm is seen to perform well against natural baselines. | 翻訳日:2023-02-17 13:40:31 公開日:2023-02-16 |
# インターネットにおける感情分類のためのクラスタ型ディープアンサンブル学習 Cluster-based Deep Ensemble Learning for Emotion Classification in Internet Memes ( http://arxiv.org/abs/2302.08343v1 ) ライセンス: Link先を確認 | Xiaoyu Guo, Jing Ma, Arkaitz Zubiaga | (参考訳) ミームは、しばしばユーモラスな目的のために、テキスト、画像、動画を混ぜることで、インターネットとソーシャルメディアを通じて視覚的アイデアを共有する手段として人気を集めている。
近年、ミームで表現された感情を分類するタスクなど、ミームの自動分析を可能にする研究が注目されている。
本稿では,ミームにおける感情分類のための新しいモデルであるクラスタ型深層アンサンブル学習(cdel)を提案する。
CDELは、クラスタリングアルゴリズムと組み合わせてディープラーニングモデルの利点を利用するハイブリッドモデルである。
感情分類のためのベンチマークデータセットにおけるCDELの性能評価を行い、幅広いベースラインモデルより優れた性能を示し、最先端のパフォーマンスを実現する。
アブレーションモデルによるさらなる評価はCDELの異なる成分の有効性を示す。 Memes have gained popularity as a means to share visual ideas through the Internet and social media by mixing text, images and videos, often for humorous purposes. Research enabling automated analysis of memes has gained attention in recent years, including among others the task of classifying the emotion expressed in memes. In this paper, we propose a novel model, cluster-based deep ensemble learning (CDEL), for emotion classification in memes. CDEL is a hybrid model that leverages the benefits of a deep learning model in combination with a clustering algorithm, which enhances the model with additional information after clustering memes with similar facial features. We evaluate the performance of CDEL on a benchmark dataset for emotion classification, proving its effectiveness by outperforming a wide range of baseline models and achieving state-of-the-art performance. Further evaluation through ablated models demonstrates the effectiveness of the different components of CDEL. | 翻訳日:2023-02-17 13:40:16 公開日:2023-02-16 |
# NUAA-QMUL-AIIT at Memotion 3: Multi-modal Fusion with Squeeze-and-Excitation for Internet Meme Emotion Analysis NUAA-QMUL-AIIT at Memotion 3: Multi-modal Fusion with Squeeze-and-Excitation for Internet Meme Emotion Analysis ( http://arxiv.org/abs/2302.08326v1 ) ライセンス: Link先を確認 | Xiaoyu Guo, Jing Ma, Arkaitz Zubiaga | (参考訳) 本稿では,ミーム感情分析におけるミーム3共有タスクにおけるNUAA-QMUL-AIITチームの参加について述べる。
我々は,新しいマルチモーダル融合法であるSqueeze-and-Excitation Fusion (SEFusion)を提案し,それをミームの感情分類システムに組み込む。
sefusion は完全連結層、再構成および行列乗算を用いた単純な核融合法である。
セフュージョンは各モダリティの重みを学習し、それを自身のモダリティ特徴に適用する。
3つのmemotion 3サブタスクにおけるシステムの性能評価を行った。
このmemotion 3共有タスクに参加するすべてのシステムの中で、我々のシステムはタスクaで第1位、タスクbで第5位、タスクcで第2位にランク付けしました。
このメソッドのソースコードはhttps://github.com/xxxxxxxxy/memotion3-sefusionで公開されている。 This paper describes the participation of our NUAA-QMUL-AIIT team in the Memotion 3 shared task on meme emotion analysis. We propose a novel multi-modal fusion method, Squeeze-and-Excitation Fusion (SEFusion), and embed it into our system for emotion classification in memes. SEFusion is a simple fusion method that employs fully connected layers, reshaping, and matrix multiplication. SEFusion learns a weight for each modality and then applies it to its own modality feature. We evaluate the performance of our system on the three Memotion 3 sub-tasks. Among all participating systems in this Memotion 3 shared task, our system ranked first on task A, fifth on task B, and second on task C. Our proposed SEFusion provides the flexibility to fuse any features from different modalities. The source code for our method is published on https://github.com/xxxxxxxxy/memotion3-SEFusion. | 翻訳日:2023-02-17 13:39:15 公開日:2023-02-16 |
# 強い貯水池結合における量子労働統計 Quantum work statistics at strong reservoir coupling ( http://arxiv.org/abs/2302.08395v1 ) ライセンス: Link先を確認 | Owen Diba, Harry J. D. Miller, Jake Iles-Smith, Ahsan Nazir | (参考訳) 貯水池に強く結合しながら量子系上で行う確率的作業を計算することは、強い課題であり、結合された系と貯水池の完全な固有スペクトルの計算を必要とする。
ここでは、システムを弱結合理論を適用する新しいフレームにマッピングするポーラロン変換を用いることで、この問題を回避することができることを示す。
この変換の下での作業確率分布は不変であり、強い貯水池結合における作業の総計数統計を計算できることが示されている。
このポラロンアプローチはジャジンスキーの揺らぎの定理を再現し、確率的熱力学の法則との整合性を確保している。
我々は、我々の形式主義をlandau-zener遷移を横断するシステムに適用し、環境への非無視可能な結合から生じる作業分布の明確な署名を識別する。
本研究は,マルコフ的弱結合理論を超えて,駆動量子系の確率的熱力学を研究する新しい方法を提案する。 Calculating the stochastic work done on a quantum system while strongly coupled to a reservoir is a formidable task, requiring the calculation of the full eigenspectrum of the combined system and reservoir. Here we show that this issue can be circumvented by using a polaron transformation that maps the system into a new frame where weak-coupling theory can be applied. It is shown that the work probability distribution is invariant under this transformation, allowing one to compute the full counting statistics of work at strong reservoir coupling. Crucially this polaron approach reproduces the Jarzynski fluctuation theorem, thus ensuring consistency with the laws of stochastic thermodynamics. We apply our formalism to a system driven across the Landau-Zener transition, where we identify clear signatures in the work distribution arising from a non-negligible coupling to the environment. Our results provide a new method for studying the stochastic thermodynamics of driven quantum systems beyond Markovian, weak-coupling regimes. | 翻訳日:2023-02-17 13:31:56 公開日:2023-02-16 |
# フォトニックニューラルネットワーク:コンパクトなレビュー Photonic Neural Networks: A Compact Review ( http://arxiv.org/abs/2302.08390v1 ) ライセンス: Link先を確認 | Mohammad Ahmadi, Hamidreza Bolhasani | (参考訳) フォトニック・サイエンス、特にフォトニック・コミュニケーションが技術や製造のスピードを高めることは、長年にわたって知られていた。
近年、フォトニクス科学は行列乗算などの低精度線形演算を高速かつ効果的に実装する能力にも関心を寄せている。
長い間、ほとんどの科学者は電子工学は科学の終わりであると教えていたが、長年と35年ほど前には、電子工学は単独で答えず、新しい科学を持つべきだと理解されていた。
今日では、タスクをできるだけ早く行うための現代的な方法や手段に直面しています。
科学の進歩の速度は非常に速い。
科学分野の進歩はすべて、新しい方法に関する現代の知識に依存している。
本研究では,フォトニックニューラルネットワークの概念を概観する。
この研究は、2015年から2022年までの30記事のうち18記事が主要記事に選ばれている。
これらの論文は3つの原理に気付いた: 1-実験的概念、2-理論的概念、そして3つの数学的概念である。
数学は我々のトピックにおいて非常に重要で建設的な役割を持っているので、この研究には注意すべきです。
非常に有効でまた新しいトピックの1つはシミュレーションです。
私たちは以前、この研究の一部でシミュレーションをしていました。
まず第一に、フォトニクスとニューラルネットワークの導入から始めます。
第二に、科学の世界と産業、そしてそれらの技術の両方が組み合わさった利点とデメリットを説明します。
また、我々は、薄い近代科学の成果について話している。
第3に,ニューラルネットワークにおける重要かつ有効なパラメータの導入を試みる。
この方法では、この記事の一部に多くのmathematic toolsを使用します。 It has long been known that photonic science and especially photonic communications can raise the speed of technologies and producing manufacturing. More recently, photonic science has also been interested in its capabilities to implement low-precision linear operations, such as matrix multiplications, fast and effciently. For a long time most scientists taught that Electronics is the end of science but after many years and about 35 years ago had been understood that electronics do not answer alone and should have a new science. Today we face modern ways and instruments for doing tasks as soon as possible in proportion to many decays before. The velocity of progress in science is very fast. All our progress in science area is dependent on modern knowledge about new methods. In this research, we want to review the concept of a photonic neural network. For this research was selected 18 main articles were among the main 30 articles on this subject from 2015 to the 2022 year. These articles noticed three principles: 1- Experimental concepts, 2- Theoretical concepts, and, finally 3- Mathematic concepts. We should be careful with this research because mathematics has a very important and constructive role in our topics! One of the topics that are very valid and also new, is simulation. We used to work with simulation in some parts of this research. First, briefly, we start by introducing photonics and neural networks. In the second we explain the advantages and disadvantages of a combination of both in the science world and industries and technologies about them. Also, we are talking about the achievements of a thin modern science. Third, we try to introduce some important and valid parameters in neural networks. In this manner, we use many mathematic tools in some portions of this article. | 翻訳日:2023-02-17 13:31:38 公開日:2023-02-16 |
# 単環炭化水素分子接合における量子輸送と幾何学的配座の相互作用の解明 Unraveling the Interplay between Quantum Transport and Geometrical Conformations in Monocyclic Hydrocarbons Molecular Junctions ( http://arxiv.org/abs/2302.08389v1 ) ライセンス: Link先を確認 | A. Martinez-Garcia, T. de Ara, L. Pastor-Amat, C. Untiedt, E. B. Lombardi, W. Dednam and C. Sabater | (参考訳) 分子エレクトロニクス、特に量子輸送研究の分野では、分子の配向が重要な役割を担っている。
この配向は、電極に関して、環状の単環炭化水素分子の空洞を通して定義することができる。
本稿では,2つの原子間鋭い電極間において,密度汎関数理論に基づく電子輸送計算,室内条件下での断裂接合実験を組み合わせることで,これらの分子の幾何学的配座を明らかにする。
さらに, ベンゼン, トルエン, 芳香族) およびシクロヘキサン (アリファティック) 溶媒の分子配向を決定するための新規な基準を示す。
本研究は, より複雑な環状炭化水素を用いた分子エレクトロニクスの理解を向上させるため, 金金属ナノ接触の分子配向とそれに伴う輸送特性の同定を行った。 In the field of molecular electronics, particularly in quantum transport studies, the orientation of molecules plays a crucial role. This orientation, with respect to the electrodes, can be defined through the cavity of ring-shaped monocyclic hydrocarbon molecules. In this manuscript, we unveil the geometrical conformation of these molecules when they are trapped between two atomically sharp electrodes through a combination of dynamic simulations, electronic transport calculations based on density functional theory, and break junction experiments under room conditions. Moreover, we present a novel criterion for determining the molecular orientation of benzene, toluene, (aromatic) and cyclohexane (aliphatic) solvents. Our findings for the identification of the molecular orientations on gold metal nanocontacts and their associated transport properties, can improve the understanding of molecular electronics using more complex cyclic hydrocarbons. | 翻訳日:2023-02-17 13:31:17 公開日:2023-02-16 |
# lealla: 知識蒸留による軽量言語非依存文埋め込みの学習 LEALLA: Learning Lightweight Language-agnostic Sentence Embeddings with Knowledge Distillation ( http://arxiv.org/abs/2302.08387v1 ) ライセンス: Link先を確認 | Zhuoyuan Mao and Tetsuji Nakagawa | (参考訳) LaBSE (Feng et al., 2022) のような大規模言語に依存しない文埋め込みモデルは, 並列文アライメントのための最先端性能を得る。
しかし、これらの大規模モデルは推論速度と計算オーバーヘッドに苦しむことがある。
本研究は,軽量モデルを用いた言語非依存文埋め込みの学習を体系的に検討する。
シンディープエンコーダは、109言語に対してロバストな低次元文埋め込みを構築できることを実証する。
提案する蒸留法により, 教師モデルからの知識を取り入れ, さらなる改善を実現する。
tatoeba、united nations、buccの実証結果は、我々の軽量モデルの有効性を示している。
TensorFlow Hub上に、軽量言語に依存しない文埋め込みモデルLEALLAをリリースします。 Large-scale language-agnostic sentence embedding models such as LaBSE (Feng et al., 2022) obtain state-of-the-art performance for parallel sentence alignment. However, these large-scale models can suffer from inference speed and computation overhead. This study systematically explores learning language-agnostic sentence embeddings with lightweight models. We demonstrate that a thin-deep encoder can construct robust low-dimensional sentence embeddings for 109 languages. With our proposed distillation methods, we achieve further improvements by incorporating knowledge from a teacher model. Empirical results on Tatoeba, United Nations, and BUCC show the effectiveness of our lightweight models. We release our lightweight language-agnostic sentence embedding models LEALLA on TensorFlow Hub. | 翻訳日:2023-02-17 13:31:01 公開日:2023-02-16 |
# カルト座標における実球面調和とその導関数の高速評価 Fast evaluation of real spherical harmonics and their derivatives in Cartesian coordinates ( http://arxiv.org/abs/2302.08381v1 ) ライセンス: Link先を確認 | Filippo Bigi, Michele Ceriotti | (参考訳) 球面調和は球面上の関数を拡張するために滑らかで直交的で対称性に適応した基底を提供し、地質学から量子化学まで、コンピュータグラフィックス、信号処理、科学の様々な分野で日常的に使用される。
近年、球面調和は幾何学的深層学習における回転同変モデルの重要な構成要素となり、点雲内の局所球面環境内の近傍の分布を記述するために距離依存関数と組み合わせて用いられる。
実数値球面調和性評価のための高速かつエレガントなアルゴリズムを提案する。
この構成は既存のスキームの望ましい特徴の多くを統合し、数値的に安定で計算効率の良い方法でデカルト微分を計算することができる。
提案アルゴリズムの効率的なC実装と使い易いPythonバインディングを提供する。 Spherical harmonics provide a smooth, orthogonal, and symmetry-adapted basis to expand functions on a sphere, and they are used routinely in computer graphics, signal processing and different fields of science, from geology to quantum chemistry. More recently, spherical harmonics have become a key component of rotationally equivariant models for geometric deep learning, where they are used in combination with distance-dependent functions to describe the distribution of neighbors within local spherical environments within a point cloud. We present a fast and elegant algorithm for the evaluation of the real-valued spherical harmonics. Our construction integrates many of the desirable features of existing schemes and allows to compute Cartesian derivatives in a numerically stable and computationally efficient manner. We provide an efficient C implementation of the proposed algorithm, along with easy-to-use Python bindings. | 翻訳日:2023-02-17 13:30:53 公開日:2023-02-16 |
# 室温Rydberg原子を用いた連続広帯域マイクロ波-光変換器 Continuous wideband microwave-to-optical converter based on room-temperature Rydberg atoms ( http://arxiv.org/abs/2302.08380v1 ) ライセンス: Link先を確認 | Sebastian Bor\'owka, Uliana Pylypenko, Mateusz Mazelanik, Micha{\l} Parniak | (参考訳) マイクロ波と光学系の結合は、エネルギーの自然な非互換性から大きな課題となっているが、量子コンピュータの光インターコネクトから次世代量子マイクロ波センサ、検出器、コヒーレント撮像器に至るまで、潜在的な応用範囲は幅広い。
低温環境、インパルスプロトコル、狭帯域フィールドなど、特定の条件下でうまく動作するいくつかのエンジニアリングプラットフォームが出現している。
ここでは、Rydberg原子を用いて、室温でも光およびマイクロ波光子の自然な広帯域結合を可能にし、適度な設定をすることができる。
我々は、近接周波数からのノイズ干渉を最小限に抑えるために、Rydberg原子のアンサンブルを用いて、13.9\ \mathrm{GHz}$フィールドを近赤外光信号に連続波変換する。
rydbergphotonicコンバータは、前代未聞の変換ダイナミックレンジが$57\ \mathrm{db}$、広い変換帯域幅が$16\ \mathrm{mhz}$である。
光子計数を用いて、自由空間300\ \mathrm{K}$熱背景放射が1.59\ \mathrm{nV}\mathrm{cm}^{-1}\mathrm{Hz}^{-1/2}$の感度を3.8\ \mathrm{K}$の雑音等価温度まで下げることで、ハンベリー・ブラウンとツイスのマイクロ波光子の干渉を観測できることを示した。 The coupling of microwave and optical systems presents an immense challenge due to the natural incompatibility of energies, but potential applications range from optical interconnects for quantum computers to next-generation quantum microwave sensors, detectors or coherent imagers. Several engineered platforms have emerged that operate well under specific conditions, such as cryogenic environments, impulse protocols, or narrowband fields. Here we employ Rydberg atoms that allow for the natural wideband coupling of optical and microwave photons even in room temperature and with the use of modest setup. We present continuous-wave conversion of a $13.9\ \mathrm{GHz}$ field to a near-infrared optical signal using an ensemble of Rydberg atoms via a free-space six-wave mixing process, designed to minimize noise interference from any nearby frequencies. The Rydberg photonic converter exhibits an unprecedented conversion dynamic range of $57\ \mathrm{dB}$ and a wide conversion bandwidth of $16\ \mathrm{MHz}$. Using photon counting, we demonstrate the readout of photons of free-space $300\ \mathrm{K}$ thermal background radiation at $1.59\ \mathrm{nV}\mathrm{cm}^{-1}\mathrm{Hz}^{-1/2}$ with the sensitivity down to $3.8\ \mathrm{K}$ of noise-equivalent temperature, allowing us to observe Hanbury Brown and Twiss interference of microwave photons. | 翻訳日:2023-02-17 13:30:38 公開日:2023-02-16 |
# 効率360:効率的な視覚トランスフォーマー Efficiency 360: Efficient Vision Transformers ( http://arxiv.org/abs/2302.08374v1 ) ライセンス: Link先を確認 | Badri N. Patro and Vijay Agneeswaran | (参考訳) トランスフォーマーは自然言語処理、コンピュータビジョン、音声、音楽ドメインのタスクの解決に広く使われている。
本稿では、メモリの効率(パラメータ数)、計算コスト(浮動小数点演算数)、モデルの性能(精度、モデルの堅牢性、公正でバイアスのない機能)について述べる。
画像分類タスクにおける視覚トランスフォーマについて主に論じる。
私たちの貢献は、産業アプリケーションをより効率的にするために、視覚トランスフォーマーのさまざまな側面を含む効率的な360フレームワークの導入です。
これらの応用を考慮すれば、プライバシ、ロバスト性、透明性、公平性、包括性、連続学習、確率モデル、近似、計算複雑性、スペクトル複雑性といった多次元に分類できる。
本稿では,その性能,パラメータ数,および複数のデータセット上の浮動小数点演算(FLOP)数に基づいて,様々な視覚変換器モデルを比較する。 Transformers are widely used for solving tasks in natural language processing, computer vision, speech, and music domains. In this paper, we talk about the efficiency of transformers in terms of memory (the number of parameters), computation cost (number of floating points operations), and performance of models, including accuracy, the robustness of the model, and fair \& bias-free features. We mainly discuss the vision transformer for the image classification task. Our contribution is to introduce an efficient 360 framework, which includes various aspects of the vision transformer, to make it more efficient for industrial applications. By considering those applications, we categorize them into multiple dimensions such as privacy, robustness, transparency, fairness, inclusiveness, continual learning, probabilistic models, approximation, computational complexity, and spectral complexity. We compare various vision transformer models based on their performance, the number of parameters, and the number of floating point operations (FLOPs) on multiple datasets. | 翻訳日:2023-02-17 13:30:01 公開日:2023-02-16 |
# ディフェクトトランスファーGAN:データ拡張のためのディフェクトデフェクト合成 Defect Transfer GAN: Diverse Defect Synthesis for Data Augmentation ( http://arxiv.org/abs/2302.08366v1 ) ライセンス: Link先を確認 | Ruyu Wang, Sabrina Hoppe, Eduardo Monari and Marco F. Huber | (参考訳) data-hungerとdata-imbalanceは、多くのディープラーニングアプローチにおける2つの大きな落とし穴だ。
例えば、高度に最適化された生産ラインでは、欠陥サンプルはほとんど取得されず、非欠陥サンプルはほとんど無償で提供される。
しかしながら、欠陥は互いに似ており、例えば、異なる製品のひっかき傷は、いくつかの特徴においてのみ異なる。
本稿では,様々な背景製品から独立して欠陥タイプを表現することを学ぶとともに,欠陥固有のスタイルを適用して現実的な欠陥画像を生成する,欠陥転送gan(dt-gan)というフレームワークを紹介する。
MVTec ADと2つの追加データセットに関する実証的研究では、DT-GANはサンプルの忠実さや欠陥発生の多様性など、最先端の画像合成法よりも優れていた。
さらに、製造における重要な下流タスク -- 欠陥分類 -- の利点を示す。
その結果,DT-GANによる拡張データにより,少数のサンプル状態においても一貫した利得が得られ,従来のデータ拡張法や高度なデータ拡張法と比較して誤差率を最大51%削減できることがわかった。 Data-hunger and data-imbalance are two major pitfalls in many deep learning approaches. For example, on highly optimized production lines, defective samples are hardly acquired while non-defective samples come almost for free. The defects however often seem to resemble each other, e.g., scratches on different products may only differ in a few characteristics. In this work, we introduce a framework, Defect Transfer GAN (DT-GAN), which learns to represent defect types independent of and across various background products and yet can apply defect-specific styles to generate realistic defective images. An empirical study on the MVTec AD and two additional datasets showcase DT-GAN outperforms state-of-the-art image synthesis methods w.r.t. sample fidelity and diversity in defect generation. We further demonstrate benefits for a critical downstream task in manufacturing -- defect classification. Results show that the augmented data from DT-GAN provides consistent gains even in the few samples regime and reduces the error rate up to 51% compared to both traditional and advanced data augmentation methods. | 翻訳日:2023-02-17 13:29:44 公開日:2023-02-16 |
# マイトショット学習を用いた会話スタイル伝達 Conversation Style Transfer using Few-Shot Learning ( http://arxiv.org/abs/2302.08362v1 ) ライセンス: Link先を確認 | Shamik Roy, Raphael Shu, Nikolaos Pappas, Elman Mansimov, Yi Zhang, Saab Mansour and Dan Roth | (参考訳) 自然言語に対する従来のテキストスタイル転送アプローチは、文脈情報を考慮せずに文レベルのスタイル転送に焦点を当て、そのスタイルは属性(例えば形式性)で記述される。
タスク指向対話のような会話にスタイル転送を適用する場合、コンテキストが重要な役割を果たす可能性があるため、既存のアプローチはこれらの制限に悩まされる。
本稿では,対象とする対話例のみを観察することで,モデルがスタイル伝達を行うように学習する,マイズショット学習問題として会話スタイル伝達を提案する。
本稿では,スタイルフリーな対話をピボットとして解くための,新しいインコンテキスト学習手法を提案する。
人的評価は、マルチターンコンテキストを組み込むことで、発話レベルのスタイル転送よりも適切な適切性と意味的正当性を保ちながら、ターゲットスタイルに適合できることを示している。
さらに,会話スタイル転送は下流タスクにも有用であることを示す。
マルチドメイン意図分類タスクの結果は、テストデータのスタイルに合わせてトレーニングデータのスタイルを転送した後のF1スコアの改善を示す。 Conventional text style transfer approaches for natural language focus on sentence-level style transfer without considering contextual information, and the style is described with attributes (e.g., formality). When applying style transfer on conversations such as task-oriented dialogues, existing approaches suffer from these limitations as context can play an important role and the style attributes are often difficult to define in conversations. In this paper, we introduce conversation style transfer as a few-shot learning problem, where the model learns to perform style transfer by observing only the target-style dialogue examples. We propose a novel in-context learning approach to solve the task with style-free dialogues as a pivot. Human evaluation shows that by incorporating multi-turn context, the model is able to match the target style while having better appropriateness and semantic correctness compared to utterance-level style transfer. Additionally, we show that conversation style transfer can also benefit downstream tasks. Results on multi-domain intent classification tasks show improvement in F1 scores after transferring the style of training data to match the style of test data. | 翻訳日:2023-02-17 13:29:26 公開日:2023-02-16 |
# 拡散モデルを用いた意味制御のための境界案内混合軌道 Boundary Guided Mixing Trajectory for Semantic Control with Diffusion Models ( http://arxiv.org/abs/2302.08357v1 ) ライセンス: Link先を確認 | Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky, Yan Yan | (参考訳) 画像意味編集などの下流タスクに強力な生成的微分拡散モデル(DDM)を適用する場合、通常、微調整済みのDDMや補助的な編集ネットワークを学ぶ必要がある。
本研究は, 凍結DDMのみを経由したdenoising trajectoryを最適化することにより, 様々なアプリケーション環境におけるSOTAセマンティック制御性能を実現する。
最初の最適化に基づく拡散編集作業として、マルコフ連鎖における確率的および幾何学的挙動を理論的かつ実験的に解析することにより、中間高次元潜在空間をより包括的に理解することから始める。
そこで我々は,事前学習したDDMの収束を特徴付ける認知軌道の臨界ステップをさらに探求する。
最後に,本手法では,可制御操作のための意味部分空間境界を探索する手法を提案する。
我々は,様々なDPMアーキテクチャ (DDPM, iDDPM) とデータセット (CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog) について,異なる解像度 (64, 256) で実験を行った。 Applying powerful generative denoising diffusion models (DDMs) for downstream tasks such as image semantic editing usually requires either fine-tuning pre-trained DDMs or learning auxiliary editing networks. In this work, we achieve SOTA semantic control performance on various application settings by optimizing the denoising trajectory solely via frozen DDMs. As one of the first optimization-based diffusion editing work, we start by seeking a more comprehensive understanding of the intermediate high-dimensional latent spaces by theoretically and empirically analyzing their probabilistic and geometric behaviors in the Markov chain. We then propose to further explore the critical step in the denoising trajectory that characterizes the convergence of a pre-trained DDM. Last but not least, we further present our method to search for the semantic subspaces boundaries for controllable manipulation, by guiding the denoising trajectory towards the targeted boundary at the critical convergent step. We conduct extensive experiments on various DPMs architectures (DDPM, iDDPM) and datasets (CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog) with different resolutions (64, 256) as empirical demonstrations. | 翻訳日:2023-02-17 13:29:10 公開日:2023-02-16 |
# 進化的アプローチからのマジック Magic from a Convolutional Approach ( http://arxiv.org/abs/2302.08423v1 ) ライセンス: Link先を確認 | Kaifeng Bu, Weichen Gu, Arthur Jaffe | (参考訳) クイディットに基づく安定化状態とチャネルを研究するための畳み込みフレームワークを導入する。
これには、"魔法の隙間"、平均状態(MS)、最小安定化状態(MSPS)、新しい畳み込みといった重要な概念が含まれる。
我々は、MSが相対エントロピーに関して与えられた状態に最も近いMSPSであり、MSはフォン・ノイマンエントロピーに関して極端であることを示した。
これは「DVシステムの最大エントロピー原理」を示し、また、MSを取る過程が魔法の非自明な資源破壊マップであることを示している。
我々は、量子エントロピーおよび畳み込みに基づくフィッシャー情報に対する一連の不等式を求め、「量子畳み込みに対する熱力学の第2法則」を与える。
2つの安定状態の畳み込みは別の安定状態である。
我々は、ゼロ平均量子状態の畳み込みを反復して中央極限定理を確立し、これを ms に収束させることを示す。
チョイ・ジャミオルコフスキー同型(choi-jamiolkowski isomorphism)に基づいて、安定化チャネルである平均チャネルの概念と量子チャネルの畳み込みを導入する。
量子チャネルが状態と類似する結果を得るとともに、クリフォードユニタリが状態の畳み込みにおける安定化器の役割に類似したチャネルの畳み込みにおいて重要な役割を果たすことを見出した。
我々はこれらの手法を、qudit DVビームスプリッタ、qudit DVアンプ、qubit CNOTゲートの3つの例で検討した。
これらの結果は、連続変数量子系におけるガウス系に類似するdv量子系において安定化器が役割を果たすという予想と一致する。 We introduce a convolutional framework to study stabilizer states and channels based on qudits. This includes the key concepts of a "magic gap," a mean state (MS), a minimal stabilizer-projection state (MSPS), and a new convolution. We find that the MS is the closest MSPS to the given state with respect to relative entropy, and the MS is extremal with respect to von Neumann entropy. This demonstrates a "maximal entropy principle for DV systems," and also indicates that the process of taking MS is a nontrivial, resource-destroying map for magic. We obtain a series of inequalities for quantum entropies and for Fisher information based on convolution, giving a "second law of thermodynamics for quantum convolution." The convolution of two stabilizer states is another stabilizer. We establish a central limit theorem, based on iterating the convolution of a zero-mean quantum state, and show this converges to an MS. The rate of convergence is characterized by the magic gap, which is defined in terms of the support of the characteristic function of the state. Based on the Choi-Jamiolkowski isomorphism, we introduce the notions of a mean channel, which is a stabilizer channel, and the convolution of quantum channels. We obtain results for quantum channels similar to those for states, and find that Clifford unitaries play an important role in the convolution of channels in analogous to the role stabilizers play in the convolution of states. We elaborate these methods with a discussion of three examples: the qudit DV beam splitter, the qudit DV amplifier and the qubit CNOT gate. All these results are compatible with the conjecture that stabilizers play the role in DV quantum systems analogous to Gaussians in continuous-variable quantum systems. | 翻訳日:2023-02-17 13:23:35 公開日:2023-02-16 |
# ベクトル混合現実メタバースにおけるAIを活用した自律走行シミュレーション Generative AI-empowered Simulation for Autonomous Driving in Vehicular Mixed Reality Metaverses ( http://arxiv.org/abs/2302.08418v1 ) ライセンス: Link先を確認 | Minrui Xu, Dusit Niyato, Junlong Chen, Hongliang Zhang, Jiawen Kang, Zehui Xiong, Shiwen Mao, Zhu Han | (参考訳) 車両混合現実(MR)メタバースでは、自律運転システムにおける物理と仮想環境を多次元通信で融合させることで、物理的と仮想の実体間の距離を克服することができる。
デジタルツイン(DT)技術、コネクテッド・オートモービル(AV)、ロードサイド・ユニット(RSU)、仮想シミュレータによって、データを共有し、共同で運転決定を行うためのデジタルシミュレーションを通じて車載MRメタバースを維持することができる。
しかし、現実のデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは、自動運転システムにおけるオンライン予測とオフライントレーニングは困難でコストがかかる。
本稿では,運転安全性と交通効率を向上させるためのシミュレーションにおいて,生成AIを活用して,無制限の条件付きトラフィックと運転データを合成する自律運転アーキテクチャを提案する。
まず,RSUの要件が異なる不均一なDTタスクを確実に実行するためのマルチタスクDTオフロードモデルを提案する。
そして、AVのDTの好みと現実的なデータの収集に基づいて、仮想シミュレータは無制限の条件付き運転とトラフィックデータセットを合成し、堅牢性をさらに向上することができる。
最後に,自律運転のための資源提供におけるrsusの細かなインセンティブを提供するマルチタスク拡張オークション方式を提案する。
特性解析と実験の結果から,提案手法とアーキテクチャはそれぞれ戦略的かつ効果的であることが判明した。 In the vehicular mixed reality (MR) Metaverse, the distance between physical and virtual entities can be overcome by fusing the physical and virtual environments with multi-dimensional communications in autonomous driving systems. Assisted by digital twin (DT) technologies, connected autonomous vehicles (AVs), roadside units (RSU), and virtual simulators can maintain the vehicular MR Metaverse via digital simulations for sharing data and making driving decisions collaboratively. However, large-scale traffic and driving simulation via realistic data collection and fusion from the physical world for online prediction and offline training in autonomous driving systems are difficult and costly. In this paper, we propose an autonomous driving architecture, where generative AI is leveraged to synthesize unlimited conditioned traffic and driving data in simulations for improving driving safety and traffic efficiency. First, we propose a multi-task DT offloading model for the reliable execution of heterogeneous DT tasks with different requirements at RSUs. Then, based on the preferences of AV's DTs and collected realistic data, virtual simulators can synthesize unlimited conditioned driving and traffic datasets to further improve robustness. Finally, we propose a multi-task enhanced auction-based mechanism to provide fine-grained incentives for RSUs in providing resources for autonomous driving. The property analysis and experimental results demonstrate that the proposed mechanism and architecture are strategy-proof and effective, respectively. | 翻訳日:2023-02-17 13:23:04 公開日:2023-02-16 |
# 決定的最小化に基づくロバスト構成行列因子のベイズ的視点 A Bayesian Perspective for Determinant Minimization Based Robust Structured Matrix Factorizatio ( http://arxiv.org/abs/2302.08416v1 ) ライセンス: Link先を確認 | Gokcan Tatli and Alper T. Erdogan | (参考訳) 構造行列分解問題に対するベイズ的視点を導入する。
提案フレームワークは,行列式最小化に基づく既存の幾何学的手法の確率論的解釈を提供する。
入力データベクトルを,非負行列分解における確率単純度やポリトープ行列分解におけるポリトープといった構造的仮定を反映した分布から導出される潜在ベクトルの線形変換としてモデル化する。
線形変換行列の行を、共分散行列が逆ウィシャール分布である正規分布から独立に生成されるベクトルとして表現する。
対応する最大後続推定問題は,構造化行列因子分解のロバストな決定行列最小化アプローチに波及し,パラメータ選択と潜在的アルゴリズム拡張についての洞察を与える。 We introduce a Bayesian perspective for the structured matrix factorization problem. The proposed framework provides a probabilistic interpretation for existing geometric methods based on determinant minimization. We model input data vectors as linear transformations of latent vectors drawn from a distribution uniform over a particular domain reflecting structural assumptions, such as the probability simplex in Nonnegative Matrix Factorization and polytopes in Polytopic Matrix Factorization. We represent the rows of the linear transformation matrix as vectors generated independently from a normal distribution whose covariance matrix is inverse Wishart distributed. We show that the corresponding maximum a posteriori estimation problem boils down to the robust determinant minimization approach for structured matrix factorization, providing insights about parameter selections and potential algorithmic extensions. | 翻訳日:2023-02-17 13:22:40 公開日:2023-02-16 |
# 不規則データのための時間グラフニューラルネットワーク Temporal Graph Neural Networks for Irregular Data ( http://arxiv.org/abs/2302.08415v1 ) ライセンス: Link先を確認 | Joel Oskarsson, Per Sid\'en, Fredrik Lindsten | (参考訳) 本稿では,グラフ構造不規則観測時系列予測のための時間グラフニューラルネットワークモデルを提案する。
我々のTGNN4Iモデルは、不規則な時間ステップとグラフの部分的な観測の両方を扱うように設計されている。
これは、Gated Recurrent Unit(GRU)の出力によって定義される線形正規微分方程式(ODE)に従って、各ノードに時間連続の潜伏状態を導入することで達成される。
ODEは指数減衰と周期力学の組み合わせとして明示的な解を持つ。
グラフ近傍での観測は、GRU状態更新と予測モデルの両方にグラフニューラルネットワーク層を統合することで考慮される。
時間連続ダイナミクスは、モデルが任意の時間ステップで予測することを可能にする。
本稿では,これを利用した損失関数を提案し,異なる時間的地平線上で予測するモデルを訓練する。
交通・気候モデルによるシミュレーションデータと実世界データの実験は、不規則な観測条件下でのグラフ構造と時間連続力学の両方の有用性を検証する。 This paper proposes a temporal graph neural network model for forecasting of graph-structured irregularly observed time series. Our TGNN4I model is designed to handle both irregular time steps and partial observations of the graph. This is achieved by introducing a time-continuous latent state in each node, following a linear Ordinary Differential Equation (ODE) defined by the output of a Gated Recurrent Unit (GRU). The ODE has an explicit solution as a combination of exponential decay and periodic dynamics. Observations in the graph neighborhood are taken into account by integrating graph neural network layers in both the GRU state update and predictive model. The time-continuous dynamics additionally enable the model to make predictions at arbitrary time steps. We propose a loss function that leverages this and allows for training the model for forecasting over different time horizons. Experiments on simulated data and real-world data from traffic and climate modeling validate the usefulness of both the graph structure and time-continuous dynamics in settings with irregular observations. | 翻訳日:2023-02-17 13:22:27 公開日:2023-02-16 |
# 浮遊ゴシップの限界性能について On the Limit Performance of Floating Gossip ( http://arxiv.org/abs/2302.08413v1 ) ライセンス: Link先を確認 | Gianluca Rizzo, Noelia Perez Palma, Marco Ajmone Marsan, and Vincenzo Mancuso | (参考訳) 本稿では,Floating Gossipの限界性能について検討する。これは,Floating Contentを基盤として,機械学習モデルの位置情報に基づく確率的進化をインフラストラクチャレスで実現するための,完全に分散されたGossip学習方式である。
我々は,連続学習が必要な動的シナリオを考察し,ユーザがモデルに組み込むことのできるデータ量の観点から浮動小数点ゴシップの限界性能を主システムパラメータの関数として検討するために平均場法を適用した。
Gossip Learningのコミュニケーション面やコンピューティング面が分析・最適化されている既存のアプローチとは異なり、当社のアプローチは両面の複合的な影響を考慮に入れている。
より詳細なシミュレーションによる検証を行い,精度を検証した。
本モデルは,移動ユーザ間の機会的交換に基づいて,機械学習モデルの継続的なトレーニングと更新を協調的に実施する上で,Floating Gossipが極めて有効であることを示す。 In this paper we investigate the limit performance of Floating Gossip, a new, fully distributed Gossip Learning scheme which relies on Floating Content to implement location-based probabilistic evolution of machine learning models in an infrastructure-less manner. We consider dynamic scenarios where continuous learning is necessary, and we adopt a mean field approach to investigate the limit performance of Floating Gossip in terms of amount of data that users can incorporate into their models, as a function of the main system parameters. Different from existing approaches in which either communication or computing aspects of Gossip Learning are analyzed and optimized, our approach accounts for the compound impact of both aspects. We validate our results through detailed simulations, proving good accuracy. Our model shows that Floating Gossip can be very effective in implementing continuous training and update of machine learning models in a cooperative manner, based on opportunistic exchanges among moving users. | 翻訳日:2023-02-17 13:22:12 公開日:2023-02-16 |
# ガウス混合モデルに基づく画像優先の明示的拡散 Explicit Diffusion of Gaussian Mixture Model Based Image Priors ( http://arxiv.org/abs/2302.08411v1 ) ライセンス: Link先を確認 | Martin Zach and Thomas Pock and Erich Kobler and Antonin Chambolle | (参考訳) この作業では、スムーズな確率変数 $Y$ が $(\partial_t - \Delta_1)f_Y(\,\cdot\, t) = 0$, $f_Y(\,\cdot\, 0) = f_X$ を満たすような連続的な滑らか化により、確率変数 $X$ の密度 $f_X$ を推定する問題に取り組む。
画像処理に焦点をあてて,フィルタの直交性制約下での$f_y (\,\cdot\,,t)$の解析式を認めるガウス混合専門家によるエキスパートモデルの製品/分野を提案する。
この構造により、実験的なベイズを用いて拡散水平線全体を同時に訓練することができる。
抽出可能であり,解釈可能であり,少数の学習可能なパラメータしか持たないまま,我々のモデルが競合する結果をもたらす画像の復調に関する予備的な結果を示す。
副生成物として,本モデルは信頼性の高い雑音推定に利用でき,不連続雑音による画像のブラインドデノイングを可能にする。 In this work we tackle the problem of estimating the density $f_X$ of a random variable $X$ by successive smoothing, such that the smoothed random variable $Y$ fulfills $(\partial_t - \Delta_1)f_Y(\,\cdot\,, t) = 0$, $f_Y(\,\cdot\,, 0) = f_X$. With a focus on image processing, we propose a product/fields of experts model with Gaussian mixture experts that admits an analytic expression for $f_Y (\,\cdot\,, t)$ under an orthogonality constraint on the filters. This construction naturally allows the model to be trained simultaneously over the entire diffusion horizon using empirical Bayes. We show preliminary results on image denoising where our model leads to competitive results while being tractable, interpretable, and having only a small number of learnable parameters. As a byproduct, our model can be used for reliable noise estimation, allowing blind denoising of images corrupted by heteroscedastic noise. | 翻訳日:2023-02-17 13:21:55 公開日:2023-02-16 |
# ベイズに基づくNV中心センサの高速最適化手法 Bayesian-based hybrid method for rapid optimization of NV center sensors ( http://arxiv.org/abs/2302.08410v1 ) ライセンス: Link先を確認 | Jiazhao Tian, Ressa S. Said, Fedor Jelezko, Jianming Cai and Liantuan Xiao | (参考訳) NVセンターは量子センシングの分野で最も有望なプラットフォームの一つである。
特にnvセンターに基づく磁気測定は、バイオメディシンと医療診断の領域で具体的な発展を遂げた。
NV中心センサの広帯域広帯域化と振幅ドリフトによる感度向上は,NV中心のコヒーレント制御に依存する連続的関心事の1つとして重要である。
量子最適制御(qoc)法は、このターゲットへのアクセスを提供するが、多くの不要なサンプルポイントとパラメータ空間の複雑さにより、現在のメソッドの高速消費は、ユーザビリティを阻害している。
本稿では,この問題を解決するためにベイズ推定位相変調(B-PM)法を提案する。
nvセンターアンサンブルの状態変換の場合、b-pm法は平均忠実度を0.894$から0.905$に増加させながら、従来の標準フーリエベース(sfb)法と比較して90\%以上の時間消費を削減している。
交流磁力計のシーンでは、B-PM法によって与えられる最適化された制御パルスは、長方形の$\pi$パルスと比較してコヒーレンス時間$T_2$の8倍の拡張を達成する。
同様の応用は、他のセンシング状況でも可能である。
一般的なアルゴリズムとして、B-PM法は様々な量子プラットフォームに基づく複素系の開ループ最適化にさらに拡張することができる。 NV center is one of the most promising platforms in the field of quantum sensing. Magnetometry based on NV center, especially, has achieved a concrete development in regions of biomedicine and medical diagnostics. Improving the sensitivity of NV center sensor under wide inhomogeneous broadening and filed amplitude drift is one crucial issue of continuous concern, which relies on the coherent control of NV center with higher average fidelity. Quantum optimal control (QOC) methods provide access to this target, nevertheless the high time consumption of current methods due to the large number of needful sample points as well as the complexity of the parameter space has hindered their usability. In this paper we propose the Bayesian estimation phase-modulated (B-PM) method to tackle this problem. In the case of state transforming of NV center ensemble, the B-PM method reduces the time consumption by more than $90\%$ compared to the conventional standard Fourier base (SFB) method while increasing the average fidelity from $0.894$ to $0.905$. In AC magnetometry scenery, the optimized control pulse given by B-PM method achieves a eight-fold extension of the coherence time $T_2$ compared to rectangular $\pi$ pulse. Similar application can be made in other sensing situations. As a general algorithm, the B-PM method can be further extended to open- and closed-loop optimization of complex systems based on a variety of quantum platforms. | 翻訳日:2023-02-17 13:21:30 公開日:2023-02-16 |
# entity aware modelling: 調査 Entity Aware Modelling: A Survey ( http://arxiv.org/abs/2302.08406v1 ) ライセンス: Link先を確認 | Rahul Ghosh, Haoyu Yang, Ankush Khandelwal, Erhu He, Arvind Renganathan, Somya Sharma, Xiaowei Jia and Vipin Kumar | (参考訳) 外部ドライバによる個々のエンティティに対する応答のパーソナライズされた予測は多くの分野において不可欠である。
最近の機械学習(ML)の進歩は、新しい最先端の応答予測モデルを生み出している。
人口レベルで構築されたモデルは、エンティティ(タスク)間のデータの異質性によって、多くのパーソナライズされた予測設定において、最適以下のパフォーマンスをもたらすことが多い。
パーソナライズされた予測では、予測性能を改善するために、異なるエンティティ固有の特性を統合することが目標である。
本稿では、このようなエンティティ・アウェア・モデリングアプローチにおけるMLコミュニティの最近の発展に焦点を当てる。
MLアルゴリズムは、それらが容易に利用できるときに、これらのエンティティ特性を使用してネットワークを変調する。
しかし、これらの実体特性は多くの実世界のシナリオでは容易に利用できないため、データからこれらの特徴を推測するために異なるML手法が提案されている。
本稿では,これらの特徴とトレーニングデータの量に基づいて,エンティティ・アウェア・モデリングに関する現在の文献を整理した。
我々は、不確実性定量化、公平性、知識誘導機械学習など、他の分野における最近のイノベーションが、エンティティ認識モデリングをどのように改善できるかを強調する。 Personalized prediction of responses for individual entities caused by external drivers is vital across many disciplines. Recent machine learning (ML) advances have led to new state-of-the-art response prediction models. Models built at a population level often lead to sub-optimal performance in many personalized prediction settings due to heterogeneity in data across entities (tasks). In personalized prediction, the goal is to incorporate inherent characteristics of different entities to improve prediction performance. In this survey, we focus on the recent developments in the ML community for such entity-aware modeling approaches. ML algorithms often modulate the network using these entity characteristics when they are readily available. However, these entity characteristics are not readily available in many real-world scenarios, and different ML methods have been proposed to infer these characteristics from the data. In this survey, we have organized the current literature on entity-aware modeling based on the availability of these characteristics as well as the amount of training data. We highlight how recent innovations in other disciplines, such as uncertainty quantification, fairness, and knowledge-guided machine learning, can improve entity-aware modeling. | 翻訳日:2023-02-17 13:20:50 公開日:2023-02-16 |
# 大規模言語モデルは思考理論への微妙な変更に失敗する Large Language Models Fail on Trivial Alterations to Theory-of-Mind Tasks ( http://arxiv.org/abs/2302.08399v1 ) ライセンス: Link先を確認 | Tomer Ullman | (参考訳) 直観心理学は常識推論の柱である。
マシンインテリジェンスにおけるこの推論の再現は、人間のような人工知能への道のりの重要な一歩である。
大規模モデルにおけるこの推論を検証するための最近のいくつかのタスクとベンチマークは、特に思考理論のタスクにおける信念の帰属に焦点を当てている。
これらのタスクは成功と失敗の両方を示しています。
特に,最近報告された成功事例について考察し,ToMの原則を維持する小さなバリエーションが,その結果を反映していることを示す。
一般論として,直観心理学におけるモデル評価のゼロ仮説は懐疑的であり,失敗事例は平均的成功率を上回るべきであると論じる。
また、より強力なLCMによる「ミステリー・オブ・ミンド」タスクにおける将来的な成功の可能性についても検討する。 Intuitive psychology is a pillar of common-sense reasoning. The replication of this reasoning in machine intelligence is an important stepping-stone on the way to human-like artificial intelligence. Several recent tasks and benchmarks for examining this reasoning in Large-Large Models have focused in particular on belief attribution in Theory-of-Mind tasks. These tasks have shown both successes and failures. We consider in particular a recent purported success case, and show that small variations that maintain the principles of ToM turn the results on their head. We argue that in general, the zero-hypothesis for model evaluation in intuitive psychology should be skeptical, and that outlying failure cases should outweigh average success rates. We also consider what possible future successes on Theory-of-Mind tasks by more powerful LLMs would mean for ToM tasks with people. | 翻訳日:2023-02-17 13:20:28 公開日:2023-02-16 |
# エキスパートによるオンライン予測のための適応的選択サンプリング Adaptive Selective Sampling for Online Prediction with Experts ( http://arxiv.org/abs/2302.08397v1 ) ライセンス: Link先を確認 | Rui M. Castro, Fredrik Hellstr\"om, Tim van Erven | (参考訳) 専門家のアドバイスによるバイナリシーケンスのオンライン予測について検討する。
この設定のために,ラベル効率の予測アルゴリズムを考案した。このアルゴリズムは,標準手順よりもはるかに少ないラベルを収集できるが,最悪の後悔の保証は維持できる。
これらのアルゴリズムは指数関数的に重み付けされた予測器に基づいている。
1人の専門家が予想よりも厳密に優れているシナリオでは、ラベル効率の予測器のラベルの複雑さは、ラウンド数の平方根として大まかにスケールすることを示す。
最後に,ラベル効率の高い予測器の正規化後悔がプール型アクティブラーニングにおける既知のミニマックスレートと漸近的に一致することを示す数値実験を行い,良性設定に最適適応できることを示す。 We consider online prediction of a binary sequence with expert advice. For this setting, we devise label-efficient forecasting algorithms, which use a selective sampling scheme that enables collecting much fewer labels than standard procedures, while still retaining optimal worst-case regret guarantees. These algorithms are based on exponentially weighted forecasters, suitable for settings with and without a perfect expert. For a scenario where one expert is strictly better than the others in expectation, we show that the label complexity of the label-efficient forecaster scales roughly as the square root of the number of rounds. Finally, we present numerical experiments empirically showing that the normalized regret of the label-efficient forecaster can asymptotically match known minimax rates for pool-based active learning, suggesting it can optimally adapt to benign settings. | 翻訳日:2023-02-17 13:20:14 公開日:2023-02-16 |
# 機械翻訳モデルのコリファレンス機能の評価と改善 Evaluating and Improving the Coreference Capabilities of Machine Translation Models ( http://arxiv.org/abs/2302.08464v1 ) ライセンス: Link先を確認 | Asaf Yehudai, Arie Cattan, Omri Abend, Gabriel Stanovsky | (参考訳) 機械翻訳(MT)は幅広い言語機能を必要としており、現在のエンドツーエンドモデルでは、バイリンガルコーパスで一致した文を観察して暗黙的に学習することが期待されている。
mtモデルは、暗黙の信号からどのように共参照解像度を学習しますか?
そこで本研究では,MT出力からコア参照クラスタを抽出し,対象言語にアノテーションを必要とせずに評価する評価手法を開発した。
さらに、いくつかの著名なオープンソースおよび商用MTシステムを評価し、英語から6つのターゲット言語に翻訳し、3つの挑戦的なベンチマークで最先端のコア参照リゾルバと比較した。
その結果,単言語リゾルバはmtモデルを大きく上回ることがわかった。
この結果に動機づけられ,mtにおけるコリファレンス分解モデルの出力を組み込む異なる手法を実験し,強力なベースラインに対する改善を示した。 Machine translation (MT) requires a wide range of linguistic capabilities, which current end-to-end models are expected to learn implicitly by observing aligned sentences in bilingual corpora. In this work, we ask: \emph{How well do MT models learn coreference resolution from implicit signal?} To answer this question, we develop an evaluation methodology that derives coreference clusters from MT output and evaluates them without requiring annotations in the target language. We further evaluate several prominent open-source and commercial MT systems, translating from English to six target languages, and compare them to state-of-the-art coreference resolvers on three challenging benchmarks. Our results show that the monolingual resolvers greatly outperform MT models. Motivated by this result, we experiment with different methods for incorporating the output of coreference resolution models in MT, showing improvement over strong baselines. | 翻訳日:2023-02-17 13:13:59 公開日:2023-02-16 |
# GP CC-OPF:Chance-Constrained Optimal Power Flowのためのガウスプロセスに基づく最適化ツール GP CC-OPF: Gaussian Process based optimization tool for Chance-Constrained Optimal Power Flow ( http://arxiv.org/abs/2302.08454v1 ) ライセンス: Link先を確認 | Mile Mitrovic, Ognjen Kundacina, Aleksandr Lukashevich, Petr Vorobev, Vladimir Terzija, Yury Maximov, Deepjyoti Deka | (参考訳) Gaussian Process (GP)ベースのChance-Constrained Optimal Power Flow (CC-OPF)は、現代の電力網における経済ディスパッチ(ED)問題を解決するために開発されたオープンソースのPythonコードである。
近年、再生可能エネルギーを電力網に統合することで高い変動が生じ、電力網の運用に大きな不確実性をもたらしている。
この事実は、従来のモデルベースのCC-OPF問題を非凸で計算的に複雑にしている。
提案手法は,複雑性と精度のトレードオフを伴うCC-OPF問題の解法として,GP回帰モデルに基づく新しいデータ駆動手法を提案する。
提案手法と開発したソフトウェアは,電力網に大きな不確実性が存在する場合に,システムオペレーターがED最適化を効果的に行うのに役立つ。 The Gaussian Process (GP) based Chance-Constrained Optimal Power Flow (CC-OPF) is an open-source Python code developed for solving economic dispatch (ED) problem in modern power grids. In recent years, integrating a significant amount of renewables into a power grid causes high fluctuations and thus brings a lot of uncertainty to power grid operations. This fact makes the conventional model-based CC-OPF problem non-convex and computationally complex to solve. The developed tool presents a novel data-driven approach based on the GP regression model for solving the CC-OPF problem with a trade-off between complexity and accuracy. The proposed approach and developed software can help system operators to effectively perform ED optimization in the presence of large uncertainties in the power grid. | 翻訳日:2023-02-17 13:13:42 公開日:2023-02-16 |
# T2I-Adapter:テキスト・画像拡散モデルにおける制御性向上のための学習アダプタ T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2302.08453v1 ) ライセンス: Link先を確認 | Chong Mou, Xintao Wang, Liangbin Xie, Jian Zhang, Zhongang Qi, Ying Shan, Xiaohu Qie | (参考訳) 大規模テキスト・ツー・イメージ(t2i)モデルの驚くべき生成能力は、複雑な構造と意味意味論を学ぶ強力な力を示している。
しかし、特に柔軟で正確な構造制御が必要な場合、テキストプロンプトのみに頼ることは、モデルから学んだ知識を完全に活用することはできない。
本稿では,T2I モデルが暗黙的に学習した能力の "dig out" を目標とし,それを用いてより粒度の細かい生成を制御する。
具体的には、T2Iモデルの内部知識と外部制御信号とを一致させるため、T2I-Adapterを学習し、元の大きなT2Iモデルを凍結する。
このようにして、異なる条件で様々なアダプタを訓練し、リッチな制御と編集効果を得ることができる。
さらに,提案したT2I-Adaptersは,構成性や一般化能力など,実用価値の魅力的な特性を有する。
大規模な実験により、我々のT2I-Adapterは、将来有望な生成品質と幅広い応用を実証した。 The incredible generative ability of large-scale text-to-image (T2I) models has demonstrated strong power of learning complex structures and meaningful semantics. However, relying solely on text prompts cannot fully take advantage of the knowledge learned by the model, especially when flexible and accurate structure control is needed. In this paper, we aim to ``dig out" the capabilities that T2I models have implicitly learned, and then explicitly use them to control the generation more granularly. Specifically, we propose to learn simple and small T2I-Adapters to align internal knowledge in T2I models with external control signals, while freezing the original large T2I models. In this way, we can train various adapters according to different conditions, and achieve rich control and editing effects. Further, the proposed T2I-Adapters have attractive properties of practical value, such as composability and generalization ability. Extensive experiments demonstrate that our T2I-Adapter has promising generation quality and a wide range of applications. | 翻訳日:2023-02-17 13:13:28 公開日:2023-02-16 |
# 文書照合における人間の判断支援 Assisting Human Decisions in Document Matching ( http://arxiv.org/abs/2302.08450v1 ) ライセンス: Link先を確認 | Joon Sik Kim, Valerie Chen, Danish Pruthi, Nihar B. Shah, Ameet Talwalkar | (参考訳) ピアレビューにおけるペーパーリビューアの割り当てから採用のためのジョブアプライアンスマッチングまで、多くの実践的応用では、人間の意思決定者は、専門知識と機械学習モデルからの予測を組み合わせることで、関連するマッチを特定する必要がある。
このようなモデル支援ドキュメントマッチングタスクの多くにおいて、意思決定者はモデル出力(またはデータ)に関する補助的な情報が必要であることを強調してきた。
本稿では,意思決定者の性能を(正確性と時間の観点から)向上させる支援情報の評価を可能にするプロキシマッチングタスクを考案する。
クラウドソーシング(N=271人)調査により,ブラックボックスモデルによる説明を提供することで,モデルをより理解しやすくすることで有効であるという考えとは対照的に,マッチング作業におけるユーザの精度が低下することが判明した。
一方,タスク固有のデシラタに密接に対応するように設計されたカスタムメソッドは,ユーザのパフォーマンス向上に有効であることが判明した。
また,利用者が認識した補助情報の有用性は,目的の実用性(タスク性能を通じて測定される)と不一致であることが判明した。 Many practical applications, ranging from paper-reviewer assignment in peer review to job-applicant matching for hiring, require human decision makers to identify relevant matches by combining their expertise with predictions from machine learning models. In many such model-assisted document matching tasks, the decision makers have stressed the need for assistive information about the model outputs (or the data) to facilitate their decisions. In this paper, we devise a proxy matching task that allows us to evaluate which kinds of assistive information improve decision makers' performance (in terms of accuracy and time). Through a crowdsourced (N=271 participants) study, we find that providing black-box model explanations reduces users' accuracy on the matching task, contrary to the commonly-held belief that they can be helpful by allowing better understanding of the model. On the other hand, custom methods that are designed to closely attend to some task-specific desiderata are found to be effective in improving user performance. Surprisingly, we also find that the users' perceived utility of assistive information is misaligned with their objective utility (measured through their task performance). | 翻訳日:2023-02-17 13:13:09 公開日:2023-02-16 |
# airgnn:空気上のグラフニューラルネットワーク AirGNN: Graph Neural Network over the Air ( http://arxiv.org/abs/2302.08447v1 ) ライセンス: Link先を確認 | Zhan Gao and Deniz Gunduz | (参考訳) グラフニューラルネットワーク(GNN)は、ネットワーク化されたデータから表現をモデル化し、局所的な通信を通じて分散実装を可能にする情報処理アーキテクチャである。
既存のGNNアーキテクチャは理想的な通信リンクを前提としており、フェージングやノイズなどのチャネル効果を無視し、実際の実装の性能低下につながる。
本稿では,通信モデルをアーキテクチャに組み込んだ新しいGNNアーキテクチャである空気上のグラフニューラルネットワーク(AirGNN)を提案する。
airgnnは、ランダムな通信グラフ上でグラフ信号をシフトするグラフ畳み込み操作を修飾し、隣人から特徴を集約する際にチャネルフェージングやノイズを考慮し、テスト中のチャネル障害に対するアーキテクチャロバスト性を改善する。
本研究では,AirGNNをトレーニングするための確率勾配降下法を提案し,トレーニング手順が定常解に収束することを示す。
分散ソースローカライゼーションとマルチロボット・フロッキングの数値シミュレーションは理論的な知見を裏付け、無線通信チャネルよりもAirGNNの優れた性能を示す。 Graph neural networks (GNNs) are information processing architectures that model representations from networked data and allow for decentralized implementation through localized communications. Existing GNN architectures often assume ideal communication links, and ignore channel effects, such as fading and noise, leading to performance degradation in real-world implementation. This paper proposes graph neural networks over the air (AirGNNs), a novel GNN architecture that incorporates the communication model into the architecture. The AirGNN modifies the graph convolutional operation that shifts graph signals over random communication graphs to take into account channel fading and noise when aggregating features from neighbors, thus, improving the architecture robustness to channel impairments during testing. We propose a stochastic gradient descent based method to train the AirGNN, and show that the training procedure converges to a stationary solution. Numerical simulations on decentralized source localization and multi-robot flocking corroborate theoretical findings and show superior performance of the AirGNN over wireless communication channels. | 翻訳日:2023-02-17 13:12:50 公開日:2023-02-16 |
# Trieste: TensorFlowによるブラックボックス関数の深さの効率的な探索 Trieste: Efficiently Exploring The Depths of Black-box Functions with TensorFlow ( http://arxiv.org/abs/2302.08436v1 ) ライセンス: Link先を確認 | Victor Picheny, Joel Berkeley, Henry B. Moss, Hrvoje Stojic, Uri Granta, Sebastian W. Ober, Artem Artemev, Khurram Ghani, Alexander Goodall, Andrei Paleyes, Sattar Vakili, Sergio Pascual-Diaz, Stratis Markou, Jixiang Qing, Nasrulloh R. B. S Loka, Ivo Couckuyt | (参考訳) 我々は、TensorFlowのスケーラビリティと効率の恩恵を受け、ベイズ最適化とアクティブラーニングのためのオープンソースのPythonパッケージであるTriesteを紹介する。
私たちのライブラリは、GPflowやGPfluxのガウスプロセスやKerasのニューラルネットワークなど、シーケンシャルな意思決定ループ内で、一般的なTensorFlowベースのモデルのプラグアンドプレイを可能にする。
このモジュラーマインドセットはパッケージの中心であり、私たちの獲得機能や意思決定ループの内部ダイナミクスにまで拡張しています。
Triesteは、包括的なテストスイート、広範なドキュメント、https://github.com/secondmind-labs/trieste.comで入手可能な、リサーチフレンドリでプロダクション対応のツールキットである。 We present Trieste, an open-source Python package for Bayesian optimization and active learning benefiting from the scalability and efficiency of TensorFlow. Our library enables the plug-and-play of popular TensorFlow-based models within sequential decision-making loops, e.g. Gaussian processes from GPflow or GPflux, or neural networks from Keras. This modular mindset is central to the package and extends to our acquisition functions and the internal dynamics of the decision-making loop, both of which can be tailored and extended by researchers or engineers when tackling custom use cases. Trieste is a research-friendly and production-ready toolkit backed by a comprehensive test suite, extensive documentation, and available at https://github.com/secondmind-labs/trieste. | 翻訳日:2023-02-17 13:12:04 公開日:2023-02-16 |
# 木系モデルの限界特徴属性について On marginal feature attributions of tree-based models ( http://arxiv.org/abs/2302.08434v1 ) ライセンス: Link先を確認 | Khashayar Filom, Alexey Miroshnikov, Konstandinos Kotsiopoulos, Arjun Ravi Kannan | (参考訳) そのパワーと使いやすさのため、ツリーベースの機械学習モデルは非常に人気がある。
これらのモデルを解釈するために、限界(インターベンショナル)シャプリー、オーウェン、バンジャフの値など、限界期待に基づく局所的特徴属性を用いることができる。
このような特徴帰属法はモデルと実装不変量、すなわちモデルの入出力関数のみに依存する。
木系モデルの内部構造を生かして, 学習モデルによって決定される入力空間の一定の有限分割に対して, それらの限界シェープ値, あるいはより一般的には線形ゲーム値から得られる限界特徴属性が単純(一点的)関数であることを証明する。
同じことが、有名なTreeSHAPアルゴリズムから得られる特徴属性にも当てはまる。
しかしながら、「パス依存」のTreeSHAPは、2つの(統計的に類似した)決定木を、アルゴリズムが特徴の異なるランキングを出力する全く同じ関数を演算することで、実装不変ではないことを示す。
さらに,限界特徴属性が単純な関数であるという事実を計算に活用できる可能性についても論じる。
xgboost、lightgbm、catboostライブラリを使った実験で紹介された重要な観察は、アンサンブルから木に全ての特徴の一部だけが現れることである。
特に、CatBoostモデルの場合、木は斜め(対称)であり、それぞれの特徴の数は深さよりも大きくない。
我々は対称性を利用して、CatBoostモデルの内部パラメータの観点でのみ、限界シェープ(およびBanzhafとOwen)値の複雑さを改善した明示的な公式を導出する。 Due to their power and ease of use, tree-based machine learning models have become very popular. To interpret these models, local feature attributions based on marginal expectations e.g. marginal (interventional) Shapley, Owen or Banzhaf values may be employed. Such feature attribution methods are true to the model and implementation invariant, i.e. dependent only on the input-output function of the model. By taking advantage of the internal structure of tree-based models, we prove that their marginal Shapley values, or more generally marginal feature attributions obtained from a linear game value, are simple (piecewise-constant) functions with respect to a certain finite partition of the input space determined by the trained model. The same is true for feature attributions obtained from the famous TreeSHAP algorithm. Nevertheless, we show that the "path-dependent" TreeSHAP is not implementation invariant by presenting two (statistically similar) decision trees computing the exact same function for which the algorithm yields different rankings of features, whereas the marginal Shapley values coincide. Furthermore, we discuss how the fact that marginal feature attributions are simple functions can potentially be utilized to compute them. An important observation, showcased by experiments with XGBoost, LightGBM and CatBoost libraries, is that only a portion of all features appears in a tree from the ensemble; thus the complexity of computing marginal Shapley (or Owen or Banzhaf) feature attributions may be reduced. In particular, in the case of CatBoost models, the trees are oblivious (symmetric) and the number of features in each of them is no larger than the depth. We exploit the symmetry to derive an explicit formula with improved complexity for marginal Shapley (and Banzhaf and Owen) values which is only in terms of the internal parameters of the CatBoost model. | 翻訳日:2023-02-17 13:11:49 公開日:2023-02-16 |
# 自己と弱い教師付き前訓練戦略を用いた放射線・組織学的ラベルからの肝硬変診断の学習 Learning to diagnose cirrhosis from radiological and histological labels with joint self and weakly-supervised pretraining strategies ( http://arxiv.org/abs/2302.08427v1 ) ライセンス: Link先を確認 | Emma Sarfati, Alexandre Bone, Marc-Michel Rohe, Pietro Gori, Isabelle Bloch | (参考訳) 肝硬変の診断は肝の健康を正しく評価する鍵となる。
しかし, 肝硬変のゴールド標準診断には, 組織学的診断(メタビルスコアなど)を得るための医療的介入が必要である。
本研究では,放射線学者が注釈付けした大規模データセットからの転写学習を弱いアノテーションとして活用し,小さな付加データセットで利用できる組織学的スコアを予測することを提案する。
そこで本研究では, 肝硬変の予測を改善するために, 弱い教師付きと自己教師付きという, 異なる前訓練法を比較することを提案する。
最後に、事前学習のための教師付きフレームワークと自己監督型フレームワークを組み合わせた損失関数を導入する。
この方法はmetavirスコアのベースライン分類よりも優れており、ベースライン分類器では 0.77 と 0.72 に対して、auc 0.84 と平衡精度 0.75 である。 Identifying cirrhosis is key to correctly assess the health of the liver. However, the gold standard diagnosis of the cirrhosis needs a medical intervention to obtain the histological confirmation, e.g. the METAVIR score, as the radiological presentation can be equivocal. In this work, we propose to leverage transfer learning from large datasets annotated by radiologists, which we consider as a weak annotation, to predict the histological score available on a small annex dataset. To this end, we propose to compare different pretraining methods, namely weakly-supervised and self-supervised ones, to improve the prediction of the cirrhosis. Finally, we introduce a loss function combining both supervised and self-supervised frameworks for pretraining. This method outperforms the baseline classification of the METAVIR score, reaching an AUC of 0.84 and a balanced accuracy of 0.75, compared to 0.77 and 0.72 for a baseline classifier. | 翻訳日:2023-02-17 13:11:12 公開日:2023-02-16 |
# 文脈意思決定における品質対データ量--ニューズベンダー損失下の厳密な分析 Quality vs. Quantity of Data in Contextual Decision-Making: Exact Analysis under Newsvendor Loss ( http://arxiv.org/abs/2302.08424v1 ) ライセンス: Link先を確認 | Omar Besbes, Will Ma, Omar Mouchtaki | (参考訳) データセットを構築する場合、より多くのデータを集約するか、品質を改善するために時間、お金、エネルギーを投資する必要がある。
最も一般的なプラクティスは、生まれるトレードオフを必ずしも定量化せずに、品質よりも量を好むことです。
本研究では,データ駆動型文脈意思決定と,データ品質と量のパフォーマンスへの影響について検討する。
ニュースベンダの損失を伴うコンテキスト意思決定に重点を置いています。
この損失は運用研究における中心的なキャパシティ計画の問題であるが、質的回帰に関連する問題でもある。
類似した文脈で観測された結果が類似した分布を持つモデルを考え、文脈空間における類似性に応じてデータを測定する古典的なカーネルポリシーのクラスの性能を分析する。
我々は、これらのポリシーの最悪のケースで予想される後悔を正確に特徴づける一連の結果を開発した。
この正確な特徴は、あらゆるサンプルサイズと観察されたコンテキストに適用できる。
私たちが開発するモデルは柔軟で、部分的に観察されたコンテキストのケースをキャプチャします。
この正確な分析により、均一なカーネル手法の学習行動に関する新しい構造的洞察が明らかにされる。
一 専門的な分析により、技術一般の目的の範囲に比べて、性能の定量化が大幅に改善される。
二 前の境界に収まらないデータサイズの関数として、性能の重要な非単調性を示すこと。
iii)一部のレジームでは、データの品質が少し向上すれば、パフォーマンス目標に達するのに必要なサンプルの量を劇的に削減できることを示す。
全体として、私たちの研究は、データ品質と量、そして中央の問題クラスにおけるパフォーマンスを正確な方法で定量化できることを示しています。
また、プレイ中のトレードオフを理解するために、問題固有の境界の必要性を強調します。 When building datasets, one needs to invest time, money and energy to either aggregate more data or to improve their quality. The most common practice favors quantity over quality without necessarily quantifying the trade-off that emerges. In this work, we study data-driven contextual decision-making and the performance implications of quality and quantity of data. We focus on contextual decision-making with a Newsvendor loss. This loss is that of a central capacity planning problem in Operations Research, but also that associated with quantile regression. We consider a model in which outcomes observed in similar contexts have similar distributions and analyze the performance of a classical class of kernel policies which weigh data according to their similarity in a contextual space. We develop a series of results that lead to an exact characterization of the worst-case expected regret of these policies. This exact characterization applies to any sample size and any observed contexts. The model we develop is flexible, and captures the case of partially observed contexts. This exact analysis enables to unveil new structural insights on the learning behavior of uniform kernel methods: i) the specialized analysis leads to very large improvements in quantification of performance compared to state of the art general purpose bounds. ii) we show an important non-monotonicity of the performance as a function of data size not captured by previous bounds; and iii) we show that in some regimes, a little increase in the quality of the data can dramatically reduce the amount of samples required to reach a performance target. All in all, our work demonstrates that it is possible to quantify in a precise fashion the interplay of data quality and quantity, and performance in a central problem class. It also highlights the need for problem specific bounds in order to understand the trade-offs at play. | 翻訳日:2023-02-17 13:10:55 公開日:2023-02-16 |
# リアルタイム意味セグメンテーションネットワーク探索のための地域間情報通信 Local-to-Global Information Communication for Real-Time Semantic Segmentation Network Search ( http://arxiv.org/abs/2302.08481v1 ) ライセンス: Link先を確認 | Guangliang Cheng, Peng Sun, Ting-Bing Xu, Shuchang Lyu and Peiwen Lin | (参考訳) ニューラルネットワーク検索(NAS)は、リアルタイムセマンティックセグメンテーションのためのニューラルネットワークアーキテクチャを自動設計する大きな可能性を示している。
セル共有方式で簡易検索空間を利用する従来の作品とは異なり,セル共有方式をセル非依存方式に置き換え,軽量モデルをより効果的に検索できる新たな検索空間を導入する。
これに基づき、地域情報とグローバル情報の通信は、2つのよく設計されたモジュールによって達成される。
ローカル情報交換では、グラフ畳み込みネットワーク(GCN)誘導モジュールが細胞間の通信配信としてシームレスに統合される。
グローバル情報集約のために,ネットワーク内の長距離マルチレベル機能を自動集約する新しい密結合型核融合モジュール(cell)を提案する。
さらに、レイテンシ指向の制約を検索プロセスに付与し、精度とレイテンシのバランスをとる。
提案するフレームワークを,LGCNet (Local-to-Global Information Communication Network Search) と呼ぶ。
CityscapesとCamVidデータセットに関する大規模な実験は、LGCNetが精度とスピードの間の新たな最先端のトレードオフを実現していることを示している。
特にCityscapesのデータセットでは、LGCNetはTitan Xp上の115.2 FPSの速度で74.0\% mIoUの新しい最高のパフォーマンスを達成する。 Neural Architecture Search (NAS) has shown great potentials in automatically designing neural network architectures for real-time semantic segmentation. Unlike previous works that utilize a simplified search space with cell-sharing way, we introduce a new search space where a lightweight model can be more effectively searched by replacing the cell-sharing manner with cell-independent one. Based on this, the communication of local to global information is achieved through two well-designed modules. For local information exchange, a graph convolutional network (GCN) guided module is seamlessly integrated as a communication deliver between cells. For global information aggregation, we propose a novel dense-connected fusion module (cell) which aggregates long-range multi-level features in the network automatically. In addition, a latency-oriented constraint is endowed into the search process to balance the accuracy and latency. We name the proposed framework as Local-to-Global Information Communication Network Search (LGCNet). Extensive experiments on Cityscapes and CamVid datasets demonstrate that LGCNet achieves the new state-of-the-art trade-off between accuracy and speed. In particular, on Cityscapes dataset, LGCNet achieves the new best performance of 74.0\% mIoU with the speed of 115.2 FPS on Titan Xp. | 翻訳日:2023-02-17 13:05:05 公開日:2023-02-16 |
# ゲーム用手続きコンテンツ生成におけるランドスケープ解析ツールの最適化問題 Tools for Landscape Analysis of Optimisation Problems in Procedural Content Generation for Games ( http://arxiv.org/abs/2302.08479v1 ) ライセンス: Link先を確認 | Vanessa Volz and Boris Naujoks and Pascal Kerschke and Tea Tusar | (参考訳) 手続き的コンテンツ生成(Procedural Content Generation, PCG)とは、アルゴリズムによるゲームコンテンツの半自動生成を指し、ゲーム指向の研究・産業においてその手法がますます普及しつつある。
これらの手法の特殊クラスは検索ベースPCGと呼ばれ、与えられたタスクを最適化問題として扱う。
このような問題は進化的アルゴリズムによって主に取り組まれている。
本稿では,最適化問題に関するさらなる情報を得ることで,コンテンツ生成へのアプローチの理解を大幅に改善できることを実証する。
そこで本研究では, 対角歩行, 高レベル特性の推定, 問題類似度尺度という3つの効率的な分析ツールを提案する。
我々は,PCGの文脈における各手法の目的について議論し,受信した結果の解釈に関するガイドラインを提供する。
そこで本研究では,PCG のアプローチの比較手法を提供し,産業におけるコンテンツの品質と実用性を高めることを目的とする。 The term Procedural Content Generation (PCG) refers to the (semi-)automatic generation of game content by algorithmic means, and its methods are becoming increasingly popular in game-oriented research and industry. A special class of these methods, which is commonly known as search-based PCG, treats the given task as an optimisation problem. Such problems are predominantly tackled by evolutionary algorithms. We will demonstrate in this paper that obtaining more information about the defined optimisation problem can substantially improve our understanding of how to approach the generation of content. To do so, we present and discuss three efficient analysis tools, namely diagonal walks, the estimation of high-level properties, as well as problem similarity measures. We discuss the purpose of each of the considered methods in the context of PCG and provide guidelines for the interpretation of the results received. This way we aim to provide methods for the comparison of PCG approaches and eventually, increase the quality and practicality of generated content in industry. | 翻訳日:2023-02-17 13:04:45 公開日:2023-02-16 |
# ブラインドスーパーレゾリューションのためのカーネル化バックプロジェクションネットワーク Kernelized Back-Projection Networksfor Blind Super Resolution ( http://arxiv.org/abs/2302.08478v1 ) ライセンス: Link先を確認 | Tomoki Yoshida, Yuki Kondo, Takahiro Maeda, Kazutoshi Akita, Norimichi Ukita | (参考訳) 非盲検超解像(SR)は、任意の劣化で劣化した低分解能画像の超解像化に失敗するため、劣化モデルによるSRが必要である。
しかし本論文では,ブラインドsrの劣化モデルと同等の性能を示す非ブラインドsrについて述べる。
この結果は、高性能な非盲検SRを再検討し、それをぼやけたカーネルを持つ盲検SRに拡張する動機となる。
本稿では、カーネル推定とSR分岐を反復的に統合した2つのSRネットワークを提案する。
Kernel Conditioned Back-Projection Network (KCBPN)と呼ばれる最初のモデルでは、SRブランチの条件付けのために低次元のカーネル表現が推定される。
2つ目のモデルであるKBPN(Kernelized BackProjection Network)では、生のカーネルを推定し、直接画像劣化をモデル化する。
推定されたカーネルは、残差をバックプロパゲーションするだけでなく、残差を反復ステージに前進させるためにも用いられる。
このフォワードプロパゲーションは、各ステージに大きな残差を持つピクセルに焦点をあてることで、これらのステージが異なるステージで様々な特徴を学ぶことを奨励する。
実験結果は,提案ネットワークによるカーネル推定とsrの有効性を検証する。
この作業のためにコードをリリースします。 Since non-blind Super Resolution (SR) fails to super-resolve Low-Resolution (LR) images degraded by arbitrary degradations, SR with the degradation model is required. However, this paper reveals that non-blind SR that is trained simply with various blur kernels exhibits comparable performance as those with the degradation model for blind SR. This result motivates us to revisit high-performance non-blind SR and extend it to blind SR with blur kernels. This paper proposes two SR networks by integrating kernel estimation and SR branches in an iterative end-to-end manner. In the first model, which is called the Kernel Conditioned Back-Projection Network (KCBPN), the low-dimensional kernel representations are estimated for conditioning the SR branch. In our second model, the Kernelized BackProjection Network (KBPN), a raw kernel is estimated and directly employed for modeling the image degradation. The estimated kernel is employed not only for back-propagating its residual but also for forward-propagating the residual to iterative stages. This forward-propagation encourages these stages to learn a variety of different features in different stages by focusing on pixels with large residuals in each stage. Experimental results validate the effectiveness of our proposed networks for kernel estimation and SR. We will release the code for this work. | 翻訳日:2023-02-17 13:04:28 公開日:2023-02-16 |
# 炭素計数:機械学習の排出に影響を与える要因の調査 Counting Carbon: A Survey of Factors Influencing the Emissions of Machine Learning ( http://arxiv.org/abs/2302.08476v1 ) ライセンス: Link先を確認 | Alexandra Sasha Luccioni, Alex Hernandez-Garcia | (参考訳) 機械学習(ML)は、モデルトレーニングプロセス中に計算を実行するためにエネルギーを使用する必要がある。
このエネルギーの生成には、使用量やエネルギー源によって、温室効果ガスの排出という観点からの環境コストが伴う。
MLの環境影響に関する既存の研究は、少数のモデルをカバーする分析に限られており、MLモデルやタスクの多様性を適切に表現していない。
本研究は,自然言語処理とコンピュータビジョンにおける時間的および異なるタスクにおける95のMLモデルの炭素排出量に関する調査である。
我々は、使用したエネルギー源、発生したCO2排出量、これらの排出量が時間の経過とともにどのように進化するか、そしてそれらがモデルの性能とどのように関係しているかを分析した。
最後に,フィールドのカーボンフットプリントに関する議論を締め括り,これらの排出量を報告・追跡するための集中型リポジトリの作成を提案する。 Machine learning (ML) requires using energy to carry out computations during the model training process. The generation of this energy comes with an environmental cost in terms of greenhouse gas emissions, depending on quantity used and the energy source. Existing research on the environmental impacts of ML has been limited to analyses covering a small number of models and does not adequately represent the diversity of ML models and tasks. In the current study, we present a survey of the carbon emissions of 95 ML models across time and different tasks in natural language processing and computer vision. We analyze them in terms of the energy sources used, the amount of CO2 emissions produced, how these emissions evolve across time and how they relate to model performance. We conclude with a discussion regarding the carbon footprint of our field and propose the creation of a centralized repository for reporting and tracking these emissions. | 翻訳日:2023-02-17 13:04:06 公開日:2023-02-16 |
# 傾斜CHSHゲーム:作用素代数的分類 The tilted CHSH games: an operator algebraic classification ( http://arxiv.org/abs/2302.08475v1 ) ライセンス: Link先を確認 | Alexander Frei and Azin Shahiri | (参考訳) We introduce a general systematic procedure for solving any binary-input binary-output game using operator algebraic techniques on the representation theory for the underlying group, which we then illustrate on the prominent class of tilted CHSH games: We derive for those an entire characterisation on the region exhibiting some quantum advantage and in particular derive a greatly simplified description for the required amount of anticommutation on observables (as being an essential ingredient in several adjacent articles).
さらに,量子値上最大化する一意な作用素代数状態上の抽象代数表現自由分類も導出する。
特に、結果として生じる作用素代数状態は、高次および混合モーメントを含むその対応する相関に対して一意性を持つ。
最後に、本稿の主な目的は、必要となる反可換性の量について上述した単純化された説明と、対応する一意の最適状態に関する抽象的代数的特徴付けを提供することである。 We introduce a general systematic procedure for solving any binary-input binary-output game using operator algebraic techniques on the representation theory for the underlying group, which we then illustrate on the prominent class of tilted CHSH games: We derive for those an entire characterisation on the region exhibiting some quantum advantage and in particular derive a greatly simplified description for the required amount of anticommutation on observables (as being an essential ingredient in several adjacent articles). We further derive an abstract algebraic representation--free classification on the unique operator algebraic state maximising above quantum value. In particular the resulting operator algebraic state entails uniqueness for its corresponding correlation, including all higher and mixed moments. Finally the main purpose of this article is to provide above simplified description for the required amount of anticommutation and an abstract algebraic characterisation for their corresponding unique optimal state, both defining a key ingredient in upcoming work by the authors. | 翻訳日:2023-02-17 13:03:51 公開日:2023-02-16 |
# 視覚トランスフォーマーを用いた高能率3次元物体再構成 Efficient 3D Object Reconstruction using Visual Transformers ( http://arxiv.org/abs/2302.08474v1 ) ライセンス: Link先を確認 | Rohan Agarwal, Wei Zhou, Xiaofeng Wu, Yuhan Li | (参考訳) 2d画像から3dオブジェクトを再構築することは、多くのディープラーニング技術が試みられ、よく研究されたビジョン問題である。
最も一般的には、3次元畳み込みアプローチが用いられるが、以前の研究では2次元畳み込みを用いた最先端の手法が示されている。
近年の視覚タスク用トランスフォーマーの出現により、しばしば畳み込み手法よりも優れるようになり、3次元オブジェクト再構成にトランスフォーマーを使う試みも相まって、既存の3次元オブジェクト再構成において、畳み込みの代わりにビジュアルトランスフォーマーを使用することで、タスクにおいて優れた結果を得ることができた。
2次元画像から3次元構造の予測にトランスフォーマベースのエンコーダとデコーダを用いることで,ベースラインアプローチと同等かそれ以上の精度が得られる。
本研究は3次元物体再構成作業における視覚変換器の可能性を示す証拠となる。 Reconstructing a 3D object from a 2D image is a well-researched vision problem, with many kinds of deep learning techniques having been tried. Most commonly, 3D convolutional approaches are used, though previous work has shown state-of-the-art methods using 2D convolutions that are also significantly more efficient to train. With the recent rise of transformers for vision tasks, often outperforming convolutional methods, along with some earlier attempts to use transformers for 3D object reconstruction, we set out to use visual transformers in place of convolutions in existing efficient, high-performing techniques for 3D object reconstruction in order to achieve superior results on the task. Using a transformer-based encoder and decoder to predict 3D structure from 2D images, we achieve accuracy similar or superior to the baseline approach. This study serves as evidence for the potential of visual transformers in the task of 3D object reconstruction. | 翻訳日:2023-02-17 13:03:37 公開日:2023-02-16 |
# カイラル量子ウォークを用いた情報の量子ルーティング Quantum routing of information using chiral quantum walks ( http://arxiv.org/abs/2302.08472v1 ) ライセンス: Link先を確認 | Alberto Bottarelli, Massimo Frigerio, Matteo G. A. Paris | (参考訳) 量子ネットワーク上の古典的および量子的情報のルーティングに対処し、キラリティを利用してほぼ最適で堅牢な輸送を実現する方法を示す。
特に,連続時間カイラル量子が最小限のグラフの上を歩くことで,ネットワーク上での情報転送やルーティングをモデル化できることを示す。
まず、単純なグラフの1つの頂点に局所化された励起にエンコードされた古典情報は、1つの位相をチューニングすることで、他の任意の選択された位置へほぼ単位の忠実度で送信されることを示す。
そして、高忠実度輸送は状態のコヒーレント重ね合わせ、すなわち量子情報のルーティングにも可能であることを証明した。
さらに、位相パラメータをチューニングすることで、入力状態の独立性など、普遍的な量子ルーティングが得られることを示す。
本手法では, キラリティは単一位相で制御され, ルーティング確率はこのパラメータの変動に対して頑健である。
最後に,量子ルータの特性に対処し,グラフの自己エネルギーを利用して位相パラメータを高精度に推定する方法を示す。 We address routing of classical and quantum information over quantum network, and show how to exploit chirality to achieve nearly optimal and robust transport. In particular, we prove how continuous time chiral quantum walks over a minimal graph may be used to model directional transfer and routing of information over a network. At first, we show how classical information, encoded onto an excitation localized at one vertex of a simple graph, may be sent to any other chosen location with nearly unit fidelity by tuning a single phase. Then, we prove that high-fidelity transport is also possible for coherent superpositions of states, i.e. for routing of quantum information. Furthermore, we show that by tuning the phase parameter one obtains universal quantum routing, i.e. indipendent on the input state. In our scheme, chirality is governed by a single phase, and the routing probability is robust against fluctuations of this parameter. Finally, we address characterization of quantum routers and show how to exploit the self energies of the graph to achieve high precision in estimating the phase parameter. | 翻訳日:2023-02-17 13:03:20 公開日:2023-02-16 |
# インメモリコンピューティングベースのアクセラレータを用いた大規模多種多様なディープラーニング推論ワークロードのためのハードウェアアウェアトレーニング Hardware-aware training for large-scale and diverse deep learning inference workloads using in-memory computing-based accelerators ( http://arxiv.org/abs/2302.08469v1 ) ライセンス: Link先を確認 | Malte J. Rasch, Charles Mackin, Manuel Le Gallo, An Chen, Andrea Fasoli, Frederic Odermatt, Ning Li, S. R. Nandakumar, Pritish Narayanan, Hsinyu Tsai, Geoffrey W. Burr, Abu Sebastian, Vijay Narayanan | (参考訳) analog in-memory computing (aimc) -- ディープラーニングのワークロードをエネルギー効率良く加速するための有望なアプローチ -- は行列ベクトル乗算(mvm)を計算するが、非決定性や非線形性がしばしば発生する非理想性のため、ほとんど計算しない。
これは、従来の浮動小数点(FP)実装と比較して、達成可能なディープニューラルネットワーク(DNN)推論精度に悪影響を及ぼす可能性がある。
トレーニングは以前、ロバスト性を改善するために提案されたが、以前の研究は、異なる、過度に単純化されたaimcハードウェアモデルを使用して、いくつかのdnnトポロジーのみを調査した。
本稿では、ハードウェア・アウェア(HWA)トレーニングを用いて、複数のDNNトポロジにまたがる複数の共通人工知能(AI)ワークロードのAIMCの精度を体系的に検証し、幅広い非理想性に対する感度と堅牢性を調査する。
新たな,高度に現実的なAIMCクロスバーモデルを導入することで,事前のトレーニングアプローチを大幅に改善する。
畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、トランスフォーマーなど、さまざまなトポロジの大規模DNNが、実際にはAIMC上でアイソ精度を示すために再トレーニング可能であることを示す。
さらに,重みではなく入力や出力にノイズを加えるAIMC非イデオロギーがDNNの精度に最も影響し,RNNは特にすべての非イデオロギーに対して堅牢であることが示唆された。 Analog in-memory computing (AIMC) -- a promising approach for energy-efficient acceleration of deep learning workloads -- computes matrix-vector multiplications (MVMs) but only approximately, due to nonidealities that often are non-deterministic or nonlinear. This can adversely impact the achievable deep neural network (DNN) inference accuracy as compared to a conventional floating point (FP) implementation. While retraining has previously been suggested to improve robustness, prior work has explored only a few DNN topologies, using disparate and overly simplified AIMC hardware models. Here, we use hardware-aware (HWA) training to systematically examine the accuracy of AIMC for multiple common artificial intelligence (AI) workloads across multiple DNN topologies, and investigate sensitivity and robustness to a broad set of nonidealities. By introducing a new and highly realistic AIMC crossbar-model, we improve significantly on earlier retraining approaches. We show that many large-scale DNNs of various topologies, including convolutional neural networks (CNNs), recurrent neural networks (RNNs), and transformers, can in fact be successfully retrained to show iso-accuracy on AIMC. Our results further suggest that AIMC nonidealities that add noise to the inputs or outputs, not the weights, have the largest impact on DNN accuracy, and that RNNs are particularly robust to all nonidealities. | 翻訳日:2023-02-17 13:03:00 公開日:2023-02-16 |
# LEVER: 実行で言語からコード生成を検証することを学ぶ LEVER: Learning to Verify Language-to-Code Generation with Execution ( http://arxiv.org/abs/2302.08468v1 ) ライセンス: Link先を確認 | Ansong Ni, Srini Iyer, Dragomir Radev, Ves Stoyanov, Wen-tau Yih, Sida I. Wang, Xi Victoria Lin | (参考訳) 事前訓練されたコード言語モデル(CodeLM)の出現は、言語間コード生成に大きな進歩をもたらした。
この領域における最先端のアプローチは、CodeLMデコーディングとサンプルプルーニングを組み合わせ、実行結果に基づいてテストケースやヒューリスティックを使って再ランク付けする。
しかし、多くの現実世界の言語からコードへのアプリケーションでテストケースを取得することは困難であり、ヒューリスティックスは、しばしばプログラムの正確さを示すデータ型や値範囲といった実行結果の意味的特徴をうまく把握できない。
そこで本研究では,プログラムの実行結果を学習することで,言語間コード生成を改善するシンプルな手法であるLEVERを提案する。
具体的には,言語入力やプログラム自体,実行結果に基づいて,CodeLMからサンプリングしたプログラムが正しいか否かを判定する検証器を訓練する。
サンプルプログラムは、検証スコアとCodeLM生成確率を組み合わせ、同じ実行結果でプログラムをマーカライズすることにより再ランクされる。
テーブルQA、数学QA、基本的なPythonプログラミングの領域にまたがる4つのデータセットにおいて、LEVERは、CodeLMs(4.6%から10.9%まで、Code-davinci-002)を一貫して改善し、それらすべてに対して新しい最先端の結果を得る。 The advent of pre-trained code language models (CodeLMs) has lead to significant progress in language-to-code generation. State-of-the-art approaches in this area combine CodeLM decoding with sample pruning and reranking using test cases or heuristics based on the execution results. However, it is challenging to obtain test cases for many real-world language-to-code applications, and heuristics cannot well capture the semantic features of the execution results, such as data type and value range, which often indicates the correctness of the program. In this work, we propose LEVER, a simple approach to improve language-to-code generation by learning to verify the generated programs with their execution results. Specifically, we train verifiers to determine whether a program sampled from the CodeLM is correct or not based on the natural language input, the program itself and its execution results. The sampled programs are reranked by combining the verification score with the CodeLM generation probability, and marginalizing over programs with the same execution results. On four datasets across the domains of table QA, math QA and basic Python programming, LEVER consistently improves over the base CodeLMs (4.6% to 10.9% with code-davinci-002) and achieves new state-of-the-art results on all of them. | 翻訳日:2023-02-17 13:02:27 公開日:2023-02-16 |
# Marich: 公開データを用いたクエリ効率の高い分散等価モデル抽出攻撃 Marich: A Query-efficient Distributionally Equivalent Model Extraction Attack using Public Data ( http://arxiv.org/abs/2302.08466v1 ) ライセンス: Link先を確認 | Pratik Karmakar and Debabrota Basu | (参考訳) 我々は、攻撃者が公開APIを通じてのみ機械学習モデルをクエリできるブラックボックスモデル盗難攻撃について研究する。
具体的には,最小数のクエリを用いてターゲットモデルの情報的かつ分布的に等価なレプリカを生成するブラックボックスモデル抽出攻撃を設計することを目的とする。
まず,分布同値および最大情報モデル抽出攻撃を定義する。
そして,この2つの攻撃を変動最適化問題に還元する。
攻撃者はこの問題を解決し、同時にエントロピーを最大化し、ターゲットと盗難モデルのミスマッチを低減する最も情報性の高いクエリを選択する。
これにより、アクティブなサンプリングベースのクエリ選択アルゴリズムMarichが得られる。
我々は、異なるテキストと画像データセットとBERTやResNet18を含む異なるモデルに基づいて、Marichを評価する。
marichは、true modelの精度の69-96\%$のモデルを抽出することができ、プライベートトレーニングデータセットとは異なる公開クエリデータセットから1,070 - 6,950$のサンプルを使用する。
Marich の収率予測分布から抽出したモデルは、既存のアクティブサンプリングベースアルゴリズムと比較してターゲットの分布に近い$\sim2-4\times$である。
抽出されたモデルはまた、メンバーシップ推論攻撃で85-95\%の精度をもたらす。
実験結果から,Marichは問合せ効率が高く,タスク精度,高忠実度,情報モデル抽出が可能であることが確認された。 We study black-box model stealing attacks where the attacker can query a machine learning model only through publicly available APIs. Specifically, our aim is to design a black-box model extraction attack that uses minimal number of queries to create an informative and distributionally equivalent replica of the target model. First, we define distributionally equivalent and max-information model extraction attacks. Then, we reduce both the attacks into a variational optimisation problem. The attacker solves this problem to select the most informative queries that simultaneously maximise the entropy and reduce the mismatch between the target and the stolen models. This leads us to an active sampling-based query selection algorithm, Marich. We evaluate Marich on different text and image data sets, and different models, including BERT and ResNet18. Marich is able to extract models that achieve $69-96\%$ of true model's accuracy and uses $1,070 - 6,950$ samples from the publicly available query datasets, which are different from the private training datasets. Models extracted by Marich yield prediction distributions, which are $\sim2-4\times$ closer to the target's distribution in comparison to the existing active sampling-based algorithms. The extracted models also lead to $85-95\%$ accuracy under membership inference attacks. Experimental results validate that Marich is query-efficient, and also capable of performing task-accurate, high-fidelity, and informative model extraction. | 翻訳日:2023-02-17 13:02:02 公開日:2023-02-16 |
# 潜在拡散前処理によるテキスト駆動視覚合成 Text-driven Visual Synthesis with Latent Diffusion Prior ( http://arxiv.org/abs/2302.08510v1 ) ライセンス: Link先を確認 | Ting-Hsuan Liao, Songwei Ge, Yiran Xu, Yao-Chih Lee, Badour AlBahar and Jia-Bin Huang | (参考訳) テキストからの3Dオブジェクト合成や画像編集,カスタマイズ生成といった,汎用的な下流アプリケーションを可能にする拡散モデルによって駆動される大規模テキスト・画像合成は,大きな進歩を遂げている。
本稿では,様々な視覚合成タスクにおいて,遅延拡散モデルを用いた画像先行処理を提案する。
このようなプリエントを利用する既存のメソッドは、これらのモデルの完全な機能を使用しない。
これを改善するための中核となるアイデアは
1) デコーダの異なるレイヤからの機能の損失をマッチングして詳細なガイダンスを提供する機能
2) 予測潜伏特性を規則化し, 訓練を安定させるKL分散損失。
提案手法の有効性を,テキストから3D,スタイルGAN適応,階層画像編集の3つの異なるアプリケーションに示す。
その結果,本手法はベースラインと良好に比較できることがわかった。 There has been tremendous progress in large-scale text-to-image synthesis driven by diffusion models enabling versatile downstream applications such as 3D object synthesis from texts, image editing, and customized generation. We present a generic approach using latent diffusion models as powerful image priors for various visual synthesis tasks. Existing methods that utilize such priors fail to use these models' full capabilities. To improve this, our core ideas are 1) a feature matching loss between features from different layers of the decoder to provide detailed guidance and 2) a KL divergence loss to regularize the predicted latent features and stabilize the training. We demonstrate the efficacy of our approach on three different applications, text-to-3D, StyleGAN adaptation, and layered image editing. Extensive results show our method compares favorably against baselines. | 翻訳日:2023-02-17 12:55:47 公開日:2023-02-16 |
# 3D対応条件画像合成 3D-aware Conditional Image Synthesis ( http://arxiv.org/abs/2302.08509v1 ) ライセンス: Link先を確認 | Kangle Deng, Gengshan Yang, Deva Ramanan, Jun-Yan Zhu | (参考訳) 制御可能な光実写画像合成のための3D対応条件生成モデルであるpix2pix3Dを提案する。
セグメンテーションやエッジマップのような2次元ラベルマップが与えられた場合、我々のモデルは異なる視点から対応する画像を合成することを学ぶ。
明示的な3Dユーザ制御を実現するため,ニューラルレイディアンスフィールドを用いた条件付き生成モデルを拡張した。
広範に使用可能な単眼画像とラベルマップペアから,カラーと密度に加えて,各3dポイントにラベルを割り当てることを学び,画像と画素対応ラベルマップを同時にレンダリングする。
最後に,任意の視点からラベルマップを編集し,それに応じて出力を生成するインタラクティブシステムを構築した。 We propose pix2pix3D, a 3D-aware conditional generative model for controllable photorealistic image synthesis. Given a 2D label map, such as a segmentation or edge map, our model learns to synthesize a corresponding image from different viewpoints. To enable explicit 3D user control, we extend conditional generative models with neural radiance fields. Given widely-available monocular images and label map pairs, our model learns to assign a label to every 3D point in addition to color and density, which enables it to render the image and pixel-aligned label map simultaneously. Finally, we build an interactive system that allows users to edit the label map from any viewpoint and generate outputs accordingly. | 翻訳日:2023-02-17 12:55:34 公開日:2023-02-16 |
# マルチキャリブレーションのスコープ:プロパティ・エミュレーションによるマルチキャリブレーションの特徴付け The Scope of Multicalibration: Characterizing Multicalibration via Property Elicitation ( http://arxiv.org/abs/2302.08507v1 ) ライセンス: Link先を確認 | Georgy Noarov, Aaron Roth | (参考訳) マルチキャリブレーションとプロパティのエリシテーションを結びつけ、(穏やかな技術的条件の下で)連続的なスカラー分布性である$\gamma$ と$\gamma$ がエリシブルである場合に限り、マルチキャリブド予測器を作成可能であることを示す。
負の面では、非エリーシブルな連続的性質に対して、真の分布予測子さえ校正されない単純なデータ分布が存在することを示す。
好ましくは、$\gamma$ を得られるために、バッチとオンラインの敵設定のための単純な正準アルゴリズムを与え、$\gamma$-multicalibrated predictor を学習します。
これは、多重校正手段と量子化に関する過去の研究を一般化し、実際、既存のオンライン量子化結果を強化する。
さらに、負の結果を和らげるために、もし$\gamma^1$ がそれ自体で導出可能ではなく、別の導出可能なプロパティ $\gamma^0$ 上で条件付きで導出可能であれば、$\gamma^1$ と $\gamma^0$ を共同で多重化する正準アルゴリズムが存在することを示します。
最後に,本理論の応用として,公平なリスクアセスメントのための新しいアルゴリズムおよび予測不可能性結果を提供する。 We make a connection between multicalibration and property elicitation and show that (under mild technical conditions) it is possible to produce a multicalibrated predictor for a continuous scalar distributional property $\Gamma$ if and only if $\Gamma$ is elicitable. On the negative side, we show that for non-elicitable continuous properties there exist simple data distributions on which even the true distributional predictor is not calibrated. On the positive side, for elicitable $\Gamma$, we give simple canonical algorithms for the batch and the online adversarial setting, that learn a $\Gamma$-multicalibrated predictor. This generalizes past work on multicalibrated means and quantiles, and in fact strengthens existing online quantile multicalibration results. To further counter-weigh our negative result, we show that if a property $\Gamma^1$ is not elicitable by itself, but is elicitable conditionally on another elicitable property $\Gamma^0$, then there is a canonical algorithm that jointly multicalibrates $\Gamma^1$ and $\Gamma^0$; this generalizes past work on mean-moment multicalibration. Finally, as applications of our theory, we provide novel algorithmic and impossibility results for fair (multicalibrated) risk assessment. | 翻訳日:2023-02-17 12:55:22 公開日:2023-02-16 |
# PersonNeRF:フォトコレクションからのパーソナライズされた再構築 PersonNeRF: Personalized Reconstruction from Photo Collections ( http://arxiv.org/abs/2302.08504v1 ) ライセンス: Link先を確認 | Chung-Yi Weng, Pratul P. Srinivasan, Brian Curless, and Ira Kemelmacher-Shlizerman | (参考訳) 本稿では,何年にもわたって撮影されている被写体(例えばロジャー・フェデラー)の写真を任意の身体ポーズと外見で撮影し,視点,身体ポーズ,外見の任意の組み合わせで被写体をレンダリングするPersonNeRFを提案する。
personnerfは、カスタマイズされた神経容積3dモデルを構築し、カメラの視点、身体のポーズ、外観にまたがる空間全体をレンダリングすることができる。
与えられた身体のポーズは、単一の外観を持つ1つの視点でのみ観察され、与えられた外観は、いくつかの異なる身体のポーズの下でのみ観察される。
この問題に対処するために、被験者の標準的T目的神経容積表現を復元し、異なる観察範囲で外観を変化させるが、すべての観察領域で共有ポーズ依存運動場を使用する。
このアプローチは、復元された体積幾何学を規則化し、滑らかさを促進するとともに、これらの挑戦的な非構造化フォトコレクションから、新しい視点、ポーズ、外観の組み合わせから説得力のある画像をレンダリングするモデルを復元できることを実証する。 We present PersonNeRF, a method that takes a collection of photos of a subject (e.g. Roger Federer) captured across multiple years with arbitrary body poses and appearances, and enables rendering the subject with arbitrary novel combinations of viewpoint, body pose, and appearance. PersonNeRF builds a customized neural volumetric 3D model of the subject that is able to render an entire space spanned by camera viewpoint, body pose, and appearance. A central challenge in this task is dealing with sparse observations; a given body pose is likely only observed by a single viewpoint with a single appearance, and a given appearance is only observed under a handful of different body poses. We address this issue by recovering a canonical T-pose neural volumetric representation of the subject that allows for changing appearance across different observations, but uses a shared pose-dependent motion field across all observations. We demonstrate that this approach, along with regularization of the recovered volumetric geometry to encourage smoothness, is able to recover a model that renders compelling images from novel combinations of viewpoint, pose, and appearance from these challenging unstructured photo collections, outperforming prior work for free-viewpoint human rendering. | 翻訳日:2023-02-17 12:54:56 公開日:2023-02-16 |
# カオス量子回路における時間的絡み合い Temporal Entanglement in Chaotic Quantum Circuits ( http://arxiv.org/abs/2302.08502v1 ) ライセンス: Link先を確認 | Alessandro Foligno, Tianci Zhou, and Bruno Bertini | (参考訳) 空間進化(または時空双対性)の概念は量子力学を研究するための有望なアプローチとして現れている。
基本的な考え方は、空間と時間の役割を交換し、空間移動行列を用いてシステムを進化させることである。
無限体積極限は、影響行列としても知られるこの作用素の固定点によって記述される。
本手法を数値スキームとして評価するには,その影響行列を古典的コンピュータで効率的に符号化できるかどうかを理解することが重要である。
したがって、時間関数として時間的絡み合いと呼ばれるその絡み合いのスケーリングが何であるか疑問に思うのは自然である。
この研究では、カオス量子回路における空間進化を研究する。
まず、空間進化の概念を拡張して、任意の空間的方向の進化を包含し、一般的な時間的曲面や経路上で影響行列を用いて任意の2点関数を記述する。
そして、その絡み合いを研究し、すべての経路で時間とともに線形にスケールするが、興味深い2つのケースがあることがわかった。
(i)一般カオス系における垂直経路
(ii)デュアルユニタリ回路の任意の経路。
これらの場合、指数が 1 より大きいr\'enyiエントロピーは時間的にsub-linearであり、フォン・ノイマンエントロピーは線形であるが、通常の状態エンタングルメントよりも遅い速度で成長する。
この挙動は、保存則を持つ系において規則的な絡み合いが観測されたのと同様に、影響行列と重なる大きな積状態の存在を特徴付ける。 The concept of space-evolution (or space-time duality) has emerged as a promising approach for studying quantum dynamics. The basic idea involves exchanging the roles of space and time and evolving the system using a space transfer matrix. The infinite-volume limit is then described by the fixed points of this operator, also known as influence matrices. To evaluate the potential of this method as a numerical scheme, it is important to understand whether the influence matrices can be efficiently encoded in a classical computer. It is then natural to wonder what is the scaling of their entanglement, dubbed temporal entanglement, as a function of time. In this work we study space evolution in chaotic quantum circuits. First, we extend the concept of space-evolution to include evolution in any generic space-like direction, which enables us to use influence matrices on a generic time-like surface, or path, to describe any two-point function. Then we study their entanglement, finding that it scales linearly with time for all paths but with two interesting marginal cases: (i) vertical paths in generic chaotic systems (ii) any path in dual-unitary circuits. In these cases R\'enyi entropies with index larger than one are sub-linear in time, while the von Neumann entanglement entropy is linear but grows at a slower rate compared to regular state entanglement. We attribute this behaviour to the existence of a product state with large overlap with the influence matrices, similarly to what has been observed for regular entanglement in systems with conservation laws. | 翻訳日:2023-02-17 12:54:33 公開日:2023-02-16 |
# 大規模言語モデルの監査: 3層アプローチ Auditing large language models: a three-layered approach ( http://arxiv.org/abs/2302.08500v1 ) ライセンス: Link先を確認 | Jakob M\"okander, Jonas Schuett, Hannah Rose Kirk, Luciano Floridi | (参考訳) 大規模言語モデル(LLM)の出現は、人工知能(AI)研究の大きな進歩を表している。
しかし、LLMの普及は、重大な倫理的・社会的課題とも結びついている。
従来の研究は、AIシステムが倫理的、法的、技術的に堅牢な方法で設計され、デプロイされることを保証するための、有望なガバナンスメカニズムとしての監査を指している。
しかし、既存の監査手続きは、広範囲の下流タスクに適応するLLMによってもたらされるガバナンス上の課題に対処できない。
このギャップを埋めるため、この記事には3つのコントリビューションがあります。
まず,既存の監査手続の費用と制約を分析することで,llmのリスクを把握できる新たな監査手順を開発する必要性を確立する。
第2に、ITガバナンスとシステムエンジニアリングのベストプラクティスに基づいて、LCMを実用的で効果的な方法で監査する青写真について概説する。
具体的には,ガバナンス監査,モデル監査,アプリケーション監査を補完し,相互に通知する3層アプローチを提案する。
最後に,3層アプローチの限界だけでなく,LCMの監査の可能性についても論じる。
本稿は,LLMを技術的,倫理的,法的視点から分析・評価したい技術提供者や政策立案者に対して,方法論的ツールキットの拡大を目指す。 The emergence of large language models (LLMs) represents a major advance in artificial intelligence (AI) research. However, the widespread use of LLMs is also coupled with significant ethical and social challenges. Previous research has pointed towards auditing as a promising governance mechanism to help ensure that AI systems are designed and deployed in ways that are ethical, legal, and technically robust. However, existing auditing procedures fail to address the governance challenges posed by LLMs, which are adaptable to a wide range of downstream tasks. To help bridge that gap, we offer three contributions in this article. First, we establish the need to develop new auditing procedures that capture the risks posed by LLMs by analysing the affordances and constraints of existing auditing procedures. Second, we outline a blueprint to audit LLMs in feasible and effective ways by drawing on best practices from IT governance and system engineering. Specifically, we propose a three-layered approach, whereby governance audits, model audits, and application audits complement and inform each other. Finally, we discuss the limitations not only of our three-layered approach but also of the prospect of auditing LLMs at all. Ultimately, this article seeks to expand the methodological toolkit available to technology providers and policymakers who wish to analyse and evaluate LLMs from technical, ethical, and legal perspectives. | 翻訳日:2023-02-17 12:54:04 公開日:2023-02-16 |
# 傾斜光学格子の運動的制約から得られる非フェルミ液体 Non-Fermi liquids from kinetic constraints in tilted optical lattices ( http://arxiv.org/abs/2302.08499v1 ) ライセンス: Link先を確認 | Ethan Lake, T. Senthil | (参考訳) 本研究では, 相互作用するフェルミオンを強傾斜光学格子に配置した場合に発生する, 粒子数と質量の総中心の両方を保存する運動的制約を持つフェルミ・ハッバードモデルについて検討する。
解析と数値の組合せにより, 運動論的制約が非フェルミ液相を安定させ, フェルミ粒子がギャップのないボソニック場に結合し, 多くの点で動的ゲージ場を模倣していることを示す。
これは超低温原子プラットフォームによって得られる精密環境における非フェルミ液体相の研究への新しい経路を提供する。 We study Fermi-Hubbard models with kinetically constrained dynamics that conserves both total particle number and total center of mass, a situation that arises when interacting fermions are placed in strongly tilted optical lattices. Through a combination of analytics and numerics, we show how the kinetic constraints stabilize an exotic non-Fermi liquid phase described by fermions coupled to a gapless bosonic field, which in many respects mimics a dynamical gauge field. This offers a novel route towards the study of non-Fermi liquid phases in the precision environments afforded by ultracold atom platforms. | 翻訳日:2023-02-17 12:53:40 公開日:2023-02-16 |
# バイアス付きランダムアクセスコード Biased Random Access Codes ( http://arxiv.org/abs/2302.08494v1 ) ライセンス: Link先を確認 | G. Pereira Alves, N. Gigena J. Kaniewski | (参考訳) ランダムアクセスコード(rac)は、送信者がランダムなメッセージをより短いメッセージにエンコードし、受信者が復号する通信タスクであり、元のメッセージのランダムに選択された文字が何らかの確率で復元される。
回収されるメッセージと文字の両方が均一に分散されていると仮定される。
本稿では、これらの入力のより一般的な分布を可能にすることにより、このプロトコルを拡張し、古典的または量子的資源を用いてプロトコル性能を最適化する符号化および復号戦略を変更する。
本稿では,これらのバイアス付きRACの性能を数値解析ツールと解析ツールの両方で最適化する問題にアプローチする。
数値面では、古典的および量子的戦略における最適性能の数値評価を可能にするアルゴリズムと、それらを実装するために設計されたpythonパッケージであるrac-toolsを提案する。
次に、この数値ツールを使用して、$n^2 \mapsto 1$と$^d \mapsto 1$シナリオにおけるバイアス付きracの単一パラメータ族を調べる。
n^2 \mapsto 1$ シナリオの rac については、入力が相関しない場合の一般的な上限が導出され、n=2$ の量子値と一致し、場合によっては $n=3$ となる。
さらに,この上界自己テストペアおよびランク1射影計測のトリプルをそれぞれ達成できることが示される。
2^d \mapsto 1$のシナリオでは、入力文字列の分布が偏りがない場合、互いに偏りのない測定によって常に達成可能であることが示されている。 A Random Access Code (RAC) is a communication task in which the sender encodes a random message into a shorter one to be decoded by the receiver so that a randomly chosen character of the original message is recovered with some probability. Both the message and the character to be recovered are assumed to be uniformly distributed. In this paper, we extend this protocol by allowing more general distributions of these inputs, which alters the encoding and decoding strategies optimizing the protocol performance, either with classical or quantum resources. We approach the problem of optimizing the performance of these biased RACs with both numerical and analytical tools. On the numerical front, we present algorithms that allow a numerical evaluation of the optimal performance over both classical and quantum strategies and provide a Python package designed to implement them, called RAC-tools. We then use this numerical tool to investigate single-parameter families of biased RACs in the $n^2 \mapsto 1$ and $2^d \mapsto 1$ scenarios. For RACs in the $n^2 \mapsto 1$ scenario, we derive a general upper bound for the cases in which the inputs are not correlated, which coincides with the quantum value for $n=2$ and, in some cases for $n=3$. Moreover, it is shown that attaining this upper bound self-tests pairs or triples of rank-1 projective measurements, respectively. An analogous upper bound is derived for the value of RACs in the $2^d \mapsto 1$ scenario which is shown to be always attainable using mutually unbiased measurements if the distribution of input strings is unbiased. | 翻訳日:2023-02-17 12:53:29 公開日:2023-02-16 |
# 異常フロッケ位相相における波束のダイナミクスとエッジ輸送 Wave packet dynamics and edge transport in anomalous Floquet topological phases ( http://arxiv.org/abs/2302.08485v1 ) ライセンス: Link先を確認 | Miguel F. Mart\'inez and F. Nur \"Unal | (参考訳) 周期駆動下でのカイラルエッジモードの実現の可能性は、理論上も実験上も、特にチャーン数の消滅を特徴とするフラケット位相の異常により、大きな注目を集めている。
そこで我々は,ハニカム格子と実験的に関連する駆動プロトコルを周期的に変更し,様々なキャラクタのエッジモードを簡単なモデルで取得する。
幅広いパラメータの位相図を計算し、逆キラリティーを持つエッジ状態を含む準エネルギーギャップを持つ異常位相位相を復元する。
光学格子の単一部位制御の進歩により, 平衡では達成できないフロッケ位相構造において, エッジに局在する波状パケットのダイナミクスについて検討した。
我々は,同一バンド由来のエッジモードにおける輸送特性の解析を行うとともに,異なる準エネルギーとサブラティクスをサポートし,異なるキラル性を有する。
異常なフロケ位相は、一般にハルダン位相よりも強靭なキラルエッジ運動を生じさせる。
その結果,光格子中の超低温量子気体において,波束動力学と位相的エッジ状態の豊富な相互作用が多用できることがわかった。 The possibility of attaining chiral edge modes under periodic driving has spurred tremendous attention, both theoretically and experimentally, especially in light of anomalous Floquet topological phases that feature vanishing Chern numbers unlike any static counterpart. We here consider a periodically modulated honeycomb lattice and experimentally relevant driving protocols, which allows us to obtain edge modes of various character in a simple model. We calculate the phase diagram over a wide range of parameters and recover an anomalous topological phase with quasienergy gaps harbouring edge states with opposite chirality. Motivated by the advances in single-site control in optical lattices, we investigate wave packet dynamics localized at the edges in distinct Floquet topological regimes that cannot be achieved in equilibrium. We analyse transport properties in edge modes originating from the same bands, but with support at different quasienergies and sublattices as well as possessing different chiralities. We find that an anomalous Floquet topological phase can in general generate more robust chiral edge motion than a Haldane phase. Our results demonstrate that the rich interplay of wave packet dynamics and topological edge states can serve as a versatile tool in ultracold quantum gases in optical lattices. | 翻訳日:2023-02-17 12:52:58 公開日:2023-02-16 |
# FOSI:ハイブリッド第一次および第二次最適化 FOSI: Hybrid First and Second Order Optimization ( http://arxiv.org/abs/2302.08484v1 ) ライセンス: Link先を確認 | Hadar Sivan, Moshe Gabel, Assaf Schuster | (参考訳) 二階最適化手法は非常に効果的であるが、sgdやadamのような機械学習における一般的なアプローチでは、高次元の曲率計算が難しいため、一階情報のみを使用する。
本稿では,最適化プロセス中に二階情報を効率的に組み込むことにより,任意の一階最適化器の性能を向上させるメタアルゴリズムFOSIを提案する。
各反復において、FOSIは関数を直交部分空間上で定義された2つの二次函数に暗黙的に分割し、次に第1の最小化に二階法を使い、他方の最小化には基底最適化器を使用する。
FOSIのプレコンディショナーと有効ヘシアンの解析により、FOSIはオプティマイザの大規模なファミリーの条件数を改善することが証明された。
我々の経験的評価は,GD,ヘビーボール,アダムの収束率と最適化時間を,音声分類,伝達学習,オブジェクト分類などの深層ニューラルネットワークトレーニングタスクに適用し,凸関数に適用した場合に改善することを示した。 Though second-order optimization methods are highly effective, popular approaches in machine learning such as SGD and Adam use only first-order information due to the difficulty of computing curvature in high dimensions. We present FOSI, a novel meta-algorithm that improves the performance of any first-order optimizer by efficiently incorporating second-order information during the optimization process. In each iteration, FOSI implicitly splits the function into two quadratic functions defined on orthogonal subspaces, then uses a second-order method to minimize the first, and the base optimizer to minimize the other. Our analysis of FOSI's preconditioner and effective Hessian proves that FOSI improves the condition number for a large family of optimizers. Our empirical evaluation demonstrates that FOSI improves the convergence rate and optimization time of GD, Heavy-Ball, and Adam when applied to several deep neural networks training tasks such as audio classification, transfer learning, and object classification and when applied to convex functions. | 翻訳日:2023-02-17 12:52:39 公開日:2023-02-16 |